JP2015046732A

JP2015046732A - 画像処理装置、画像処理方法

Info

Publication number: JP2015046732A
Application number: JP2013176249A
Authority: JP
Inventors: 穴吹　まほろ; Mahoro Anabuki; まほろ穴吹
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2013-08-28
Filing date: 2013-08-28
Publication date: 2015-03-12
Anticipated expiration: 2033-08-28
Also published as: US20150063640A1; JP6253311B2

Abstract

【課題】撮影部が撮影する画像に含まれる人物や物体や空間領域のうち、特に認識すべき対象の決定を容易に行う。
【解決手段】画像処理装置１００の人物検出部１０１は、撮影部１００１による撮影画像を入力し、前記入力された画像から人物を検出し、観察対象決定部１０５は、撮影部１００１による撮影画像内の観察対象を、人物検出部１０１により検出された人物の行動に応じて決定する。
【選択図】図１

Description

本発明は、画像中の観察領域を決定する方法に関する。

カメラで撮影する画像に映る人物や物体や空間領域を画像処理技術で自動的に認識（注視、追跡、識別、等）し、その結果を記録したり、配信したり、可視化したりするシステム（以下、「モニタリングシステム」と呼ぶ）が一般に知られている。カメラによる個人識別機能付の入退室管理システムや、カメラ前の動体の有無を検知する監視カメラシステム、さらにはカメラ画像に映る人の表情や物体の位置姿勢の認識結果を用いたカメラ付きゲームシステムなどが、ここで言うモニタリングシステムの例である。

モニタリングシステムにおける人物や物体や空間領域の認識には、少なくない計算機リソース（計算時間、記録媒体、通信量、など）が使われる。そのため、カメラで撮影する画像に映る人物や物体や空間領域が多い場合には、必要となる計算機リソースが大きくなりすぎて、実用的に機能しない（処理が間に合わない、処理結果を記録できない、処理結果を送信できない、など）ということが起こりうる。

こうした問題に対処するために、認識処理の対象となりうる人物や物体の中から、特に認識すべき人物や物体や空間領域（以下、これを「観察対象」と呼ぶ）を決定してから、その観察対象に対してのみ認識処理を行う、といったことが行われている。ここでの認識処理とは、注視処理や追跡処理や識別処理などである。

例えば特許文献１には、カメラに映る人物のうち、カーソルで指定した特定の人物のみを自動的に追尾して、その表示エリアをカーソルエリアで囲む監視装置が開示されている。

また、特許文献２には、カメラの撮影画像の表示部をタッチすると、タッチした部分に映る部位を被写体として追跡し続ける技術が開示されている。

特開２００１−１１１９８７号公報特開２００６−１０１１８６号公報

しかしながら、画像中の観察対象の決定が不便である場合があった。

例えば、特許文献１および特許文献２に例示されるような技術を用いる場合には、「何を観察対象とすべきか」を判断できる人が、カメラ画像が表示される場所にいなければならないという制約がある。したがって、上記のような方法で観察領域を決定しようとすると不便さが生じる場合があった。

上記の問題点を解決するため、本発明の画像処理装置は、例えば、以下の構成を有する。すなわち、画像を入力する入力手段と、前記入力された画像から人物を検出する検出手段と、前記検出手段により検出された人物の所定の行動に応じて、当該所定の行動をした人物以外を観察対象として決定する決定手段とを有する。

本発明によれば、画像中の観察対象の決定に関する利便性を向上できる。

第一の実施形態にかかる画像処理装置を含むモニタリングシステムの構成を示す図である。第一の実施形態における撮影部が撮影する画像の例を模擬的に示す図である。第一の実施形態の画像処理装置の動作を説明するためのフローチャートである。第二の実施形態にかかる画像処理装置を含むモニタリングシステムの構成を示す図である。第二の実施形態における撮影部が撮影する画像の例を模擬的に示す図である。第二の実施形態の画像処理装置の動作を説明するためのフローチャートである。第三の実施形態にかかる画像処理装置を含むモニタリングシステムの構成を示す図である。第三の実施形態における撮影部が撮影する画像の例を模擬的に示す図である。第三の実施形態の画像処理装置の動作を説明するためのフローチャートである。

以下、添付図面を参照して本発明をその好適な実施形態に従って詳細に説明する。

〔第一実施形態〕
本実施形態では、店舗、病院・銀行等の待合室、駅の改札やホームなど、不特定多数の人と、その人に対して何らかの応対を行う特定少数の人がいる空間にモニタリングシステムを適用する場合の例を中心に説明する。モニタリングシステムは、撮影部、観察対象認識部、映像表示部、画像処理装置を含み、画像処理装置が決定する観察対象を画像処理で認識しながら、その観察対象の撮影および撮影画像の表示を行う。

（構成）
図１は、本実施形態にかかる画像処理装置１００を含むモニタリングシステム１０００の構成を示す図である。画像処理装置１００は、人物検出部１０１、判断者決定部１０２、行動認識部１０３、目的推定部１０４、観察対象決定部１０５を備える。そしてモニタリングシステム１０００は、画像処理装置のほかに、撮影部１００１、観察対象認識部１００２、映像表示部１００３を備える。また、モニタリングシステム１０００は、位置センサ１００４を備えていても良い。また、画像処理装置１００が、撮影部１００１、観察対象認識部１００２、映像表示部１００３のいずれか又は複数と一体型の装置であってもよい。

撮影部１００１は、空間の撮影を行うカメラである。カメラの個数は、１つでも良いし、複数でも良い。また撮影部１００１は、可視光を撮影するカメラでも良いし、赤外領域や紫外領域の光を撮影するカメラでも良い。撮影部１００１は、モニタリングシステム１０００の起動中は常時撮影している。撮影部１００１が撮影する空間は、本実施形態においては店舗とする。ただし、撮影部１００１が撮影する空間は、店舗に限らず、病院・銀行等の待合室、駅の改札やプラットホームなどであってもよい。本実施形態のモニタリングシステムは、不特定多数の人とその人に対して何らかの応対を行う特定少数の人がいる空間で用いるユースケースに特に適している。

図２は、撮影部１００１の撮影画像の例を模擬的に示した図である。図２には、店舗内に現われる不特定多数の人としての、店舗の客２０１、２０２、２０３と、店舗内に現われる特定少数の人としての、接客を行う三角形の帽子をかぶった店員２００が存在している。店員２００は、客２０２を手で指し示している。

撮影部１００１が撮影した画像は、人物検出部１０１と観察対象認識部１００２へ送られる。

人物検出部１０１は、撮影部１００１による撮影画像を入力すると共に、撮影画像の中から人物を検出する。これは、撮影部１００１により撮影された画像中から人物に関する画像特徴を検出することによって実現される。画像特徴としては、局所領域における勾配方向をヒストグラム化した特徴量であるＨｉｓｔｏｇｒａｍｓｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ（ＨＯＧ）特徴量などを利用する。人物に関する画像特徴は、人物の映る画像を多量に集めて、それらに含まれる特徴量に共通する物体を、例えばＢｏｏｓｔｉｎｇと呼ばれるアルゴリズムを用いて、統計的に学習することによって決定する。人物検出部１０１は、人物に関する画像特徴が、撮影部１００１から受け取る画像に含まれていれば、「人物が検出された」と判定する。また、人物検出部１０１は、人物が検出された領域を特定する。人物の検出は、人物を「頭部」や「手足」などの人体パーツに分割したうえで、各人体パーツを検出することで実現しても良い。

図２に示した例においては、店員２００、客２０１、２０２、２０３が人物検出部１０１によって検出される。

人物が検出されると、人物検出部１０１は人物が検出された画像領域を特定するための情報を生成し、それを撮影部１００１の撮影画像と共に、判断者決定部１０２へと送る。人物検出部１０１は、１つの画像から複数の人物を検出した場合は、それぞれの人物の画像領域を特定するための情報を判断者決定部１０２へ送る。

判断者抽出部１０２は、人物検出部１０１が検出した人物の中から、観察対象を決定する人物（判断者）を決定する。本実施形態において判断者とは、撮影部１００１が撮影する空間に現われる不特定多数の人（例えば客）に対して何らかの応対を行う特定少数の人（例えば店員）のことである。図２においては、店員２００が、観察対象を判断する人（判断者）である。

ここで言う観察対象とは、撮影部１００１が撮影する画像に含まれる人物や物体や空間領域のうち、特に認識すべき対象のことである。本実施形態の観察対象認識部１００２は、特に認識すべき対象に対して認識処理を行う。本実施形態における観察処理とは、高解像度記録のための領域抜き出し処理（注視処理）であったり、その対象の移動を追跡する処理であったり、その対象の個体を識別処理であったりする。この追跡処理は複数のカメラを連携して行ってもよい。対象が人物であれば、その姿勢認識であったり行動認識であったり表情認識であったりしてもよい。なお、通常時は撮影部１００１による撮影画像を記録せず、観察対象が決定された場合に、当該観察対象を含む撮影画像が記録されるように制御するようにしてもよい。

人物検出部１０１が検出する人物の中から、特定少数の判断者（本実施形態においては店員２００）を決定する方法として、例えば下記の方法がある。

１つ目の方法は、人物の領域の画像パターンから判断する方法である。具体的には、まず、判断者決定部１０２は、人物検出部１０１から送られる人物の画像領域を特定するための情報に対応する領域から、人物の服装や顔が映る部分を抽出する。そして、判断者決定部１０２は、抽出された画像パターンと、事前に保持してある画像パターン（例えば店員のユニフォームの画像パターンや店員の顔画像）と照合し、一致度が高い人物を判断者として決定する。図２に示す例では、店員専用の三角形の帽子を被っている人物が抽出される。判断者決定部１０２は、人物検出部１０１での人物検出方法の説明で述べた、人物の人体パーツを検出する方法を用いて各人物の服装や顔の部分領域を抽出することが可能である。画像パターンや顔画像の識別方法は、一般的に知られているので、詳細な説明は割愛する。

判断者を決定する別の方法としては、画像処理装置１００の外部にある位置センサ１００４から受け取る位置情報に基づいて決定する方法がある。位置センサ１００４は、特定少数の人（例えば店員）が保持するセンサであって、位置情報を判断者決定部１０２に送信するセンサである。判断者決定部１０２は、位置センサ１００４から受け取る位置情報が示す場所が、撮影部１００１による撮影画像上ではどこに相当するかを算出する。そして、その画像上の位置（付近）で検出された人物を、判断者として決定する。

また、判断者を決定する別の方法としては、人物検出部１０１によって検出される時間の長さによって判断する方法がある。この方法は、観察対象を判断する人（店員）は、他の不特定多数の人（客）に比べて長時間、同じ場所（またはその付近）に居続けて、撮影部１００１によって撮影される時間が長い、という想定に基づく方法である。具体的には、判断者決定部１０２は人物検出部１０１から受け取る人物の領域情報を使って、各人物の識別を行う。すなわち、判断者決定部１０２は、時間的に連続する画像において同じ位置もしくはごく近い位置に検出される人物は同一人物、そうでなければ別人物となるように各人物を識別する。そして、判断者決定部１０２は、人物の中で最も長時間検出されている人物を、判断者として決定する。なお、判断者決定部１０２は、複数の人物の中で最も長時間検出され、且つ、所定時間以上検出された人物を判断者として決定するようにしてもよい。

また、判断者を決定する別の方法として、判断者の選択を人手により行う方法がある。例えば、撮影部１００１の撮影画像が表示される映像表示部１００３の前に立つ人物が、映像表示部１００３に対するタッチ操作やカーソル操作などによって、画像中の人物を指定する。すると、位置センサ１００４は、指定された撮影画像上の位置を計測し、その計測値を位置情報として判断者決定部１０２へ送信する。そして判断者決定部１０２は、人物検出部１０１よって検出された人物のうち、位置センサ１００４から受け取る位置情報に対応する位置に最も近い人物を判断者として決定する。

ただし、判断者の決定方法は上述の方法に限らない。また、判断者決定部１０２は上述の方法のうちいくつかを組み合わせて判断者を決定することも可能である。例えば、判断者決定部１０２は、特定の画像パターンに合致する人物のうち、最も長時間検出されている人物を判断者として決定することも可能である。

また、判断者決定部１０２は、判断者として１人だけ決定しても良いし、複数の人を判断者として決定しても良い。また、判断者決定部１０２が１人も判断者が決定されない場合があってもよい。

判断者決定部１０２は、決定した判断者の画像領域を特定する情報と、撮影部１００１の撮影画像を行動認識部１０３へと送る。

行動認識部１０３は、判断者決定部１０２から受け取った撮影画像と判断者の画像領域を特定する情報とに基づいて、判断者の行動を認識する。本実施形態において行動を認識することは、姿勢変化（行動）を示す情報を得ることである。

ゆえに行動認識部１０３は、まず、判断者決定部１０２より受け取る判断者の位置を特定する情報に基づいて、その人物（判断者）の姿勢を認識する。

例えば、行動認識部１０３は、判断者決定部１０２から、判断者の位置情報および姿勢情報を人体パーツごとに受け取る。人体パーツの位置情報とは、人体パーツの画像上の位置を特定するための情報である。人体パーツの姿勢情報は、人体パーツの向き等を特定するための情報である。例えば顔パーツであれば、目や鼻がある顔の前面がどちら向きに映っているかで、異なる姿勢情報が生成される。行動認識部１０３は、例えば、頭や手足や胴体といったいくつかの人体パーツの画像上での位置関係や、顔パーツの向き等の姿勢情報から、判断者の姿勢を認識する。

そして、行動認識部１０３は、姿勢認識結果の時間変化を認識する。この時、判断者の全身の姿勢変化ではなく、一部のパーツのみの姿勢変化を行動として認識しても良い。例えば顔パーツのみの姿勢変化（例えば、向きの変化）を認識するようにしてもよい。

なお、姿勢変化の認識方法は上記に限定せず、他の公知の方法を用いても良い。

行動認識部１０３によって認識される姿勢変化（行動）の例は、「手を上げる」「手を振る」「お辞儀をする」「手で指し示す」「一定時間以上何かに顔を向ける」「掌を向ける」「下を向く」「物体を持つ」「歩く（足を交互に動かす）」「腰を下ろす」等である。複数の姿勢変化（行動）が同時に認識されても良い。すなわち、行動認識部１０３は、「歩きながら手を上げる」、という姿勢変化を認識することも可能である。

図２に示した例においては、行動認識部１０３によって「手で指し示す」という姿勢変化が認識される。つまり、行動認識部１０３は、判断者が両手を下げている状態を姿勢として認識した後、判断者が一定時間、前方に手を向けた状態を姿勢として認識すると、「手で指し示す」という姿勢変化（行動）を認識する。

行動認識部１０３は、判断者の行動（例えば、「手で指し示す」）を特定するための情報と、当該行動に関係する人体パーツの位置関係に関する情報（例えば「上がっている手の向きに関する情報」）を行動認識結果として目的推定部１０４へと送る。また、行動認識部１０３は、撮影部１００１による撮影画像を目的推定部１０４へと送る。

目的推定部１０４は、行動認識部１０３より受け取る行動認識結果と撮影部１００１の撮影画像を用いて、判断者の行動の目的（もしくは意図）を推定する。

この推定は、例えば機械学習における教師あり学習アルゴリズムによって実現する。具体的には、目的推定部１０４は、判断者の姿勢変化およびその周辺の様子を、その姿勢変化を起こした目的に対応づけるモデルを事前に作成し、そのモデルを用いて、各姿勢変化がどのような目的で起こされたかを、確率的に推定する。判断者の姿勢変化（行動）を特定するための情報は、行動認識部１０３より受け取る行動認識結果に含まれている。周辺の様子は、撮影部１００１より受け取る撮影画像から目的推定部１０４が取得可能である。なお、周辺の様子は、撮影部１００１が撮影する画像全体を周辺としてもよいし、判断者を中心とした一定範囲内のみの画像領域を周辺としても良い。また、一定範囲の大きさは、例えば画像上における判断者の大きさなどに応じて変化させることも可能である。

本実施形態の目的推定部１０４は、判断者の姿勢変化（行動）だけでなくその周囲の様子も合わせて、判断者の目的を推定することで、判断者の姿勢変化（行動）は全く同じでも、その目的が異なるようなケースを区別することができる。この点で、本実施形態の目的推定部１０４による判断者の姿勢変化の目的の推定処理は、姿勢変化だけから目的を解釈するジェスチャ認識とは異なる。

目的推定部１０４は、判断者の姿勢変化およびその周辺の様子と、その姿勢変化を起こした目的が対応づけられた組を事前に収集する。この収集は、例えば、モニタリングシステム１０００の管理者があらかじめ設定することが可能である。

具体的にどのような組を収集するかは、モニタリングシステム１０００を適用する場所によって異なる。あくまで例であるが、目的推定部１０４は、次のような＜姿勢変化、周囲の状況、目的＞の組を収集して、モデルを作成する。

すなわち、＜手を上げる、視線の先に人がいる、挨拶＞、＜手を振る、視線の先に人がいる、挨拶＞、＜お辞儀する、頭を下げた先に人がいる、挨拶＞、＜手で指し示す、手を伸ばした先に人や物体や通路がある、指定＞が収集する組の例である。

また、＜一定時間顔を向ける、視線の先に人や物体がある、観察＞、＜掌を向ける、掌を向けた先に人や物体がある、指定＞、＜下を向く、視線の先に物体がある、作業（梱包、レジ打ち、帳簿付けなど）＞なども収集する組の例になる。

また、他には、＜歩く、視線の先に通路がある、移動＞、＜腰かける、椅子などがある、停留＞、＜何かを持つ、手の傍に物体がある、運搬＞なども収集する組の例として挙げられる。

なお、行動認識部１０３は、次のような場合に、「一定時間顔を向ける」という姿勢変化が行われたと判定することが可能である。すなわち、行動認識部１０３は、判断者が同じ方向を一定時間以上見ていないと判定した（判断者の顔の方向が定まっていない）後、判断者が同じ方向を一定時間以上見たと判定した場合に、判断者が何かに顔を向ける姿勢変化を行ったと判定することが可能である。なお、同じ方向には所定の範囲も含まれる。

また、行動認識部１０３は、例えば、判断者が移動しつつ、同じ領域を見るように顔の方向を変化させている場合、判断者が何かに顔を向けるし姿勢変化を行ったと判定することも可能である。ただし、「一定時間顔を向ける」という姿勢変化の判定方法は上記の方法に限らない。

本実施形態においては、店員が店舗において実施しうる姿勢変化とその目的の組が事前に用意され、そこから判断者の姿勢変化およびその周辺の様子と、その姿勢変化を起こした目的を対応づけるモデルが生成されていることとなる。

目的推定部１０４は、そうして事前に作成されているモデルに基づいて、行動認識部１０３より受け取る行動認識結果と、撮影部１００１より受け取る撮影画像とを用いて、行動認識結果に示される姿勢変化がどのような目的で行われたのかを推定する。

目的推定部１０４による目的の推定結果が、事前に決めておく特定の目的であった場合、目的推定部１０４は行動認識部１０３より受け取る情報（行動認識結果）と撮影部１００１の撮影画像とを、観察対象決定部１０５へと送る。

ここで言う特定の目的とは、観察対象を指定する目的である。例えば、上述した挨拶、指定、観察、作業、移動、停留、運搬といった目的のうち、本実施形態では、挨拶、指定、観察が、特定の目的の例となる。

例えば、観察対象の判断者（店員）が一定時間以上何かに顔を向ける姿勢変化（行動）を行うと、目的推定部１０４は、判断者の姿勢変化の目的が「観察」であると推定する。また、目的推定部１０４は、判断者の行動の目的（観察）が特定の目的（観察対象を指定する目的）であると判定し、行動認識部１０３より受け取る情報（行動認識結果）と撮影部１００１の撮影画像を観察対象決定部１０５へと送る。なお、目的推定部１０４は、判断者（店員）が一定時間以上、顔を向ける姿勢変化（行動）をしたとしても、周囲の状況によっては姿勢変化の目的が「観察」ではなく、例えば、「休憩」などと推定する場合もありうる。

また、本実施形態において、行動認識結果には、判断者の姿勢変化（例えば「一定時間以上顔を向ける」）を特定するための情報と、その姿勢変化に関係する人体パーツの位置関係に関する情報（例えば、視線の先を特定するための情報）とが含まれる。

また、例えば、観察対象の判断者（店員）が、何かの人物や物体や空間領域を指で差ししたり掌を向けたりすると、目的推定部１０４は、判断者の姿勢変化の目的が「指定」であると推定する。また、目的推定部１０４は、判断者の行動の目的（指定）が特定の目的（観察対象を指定する目的）であると推定し、行動認識部１０３より受け取る情報（行動認識結果）と撮影部１００１の撮影画像を観察対象決定部１０５へと送る。この場合の行動認識結果には、判断者の姿勢変化（例えば、指で差した）を特定するための情報と、その姿勢変化に関係する人体パーツの位置関係に関する情報（例えば、指の先を特定するための情報や、その時の判断者の視線を特定するための情報）が含まれる。

また、例えば、観察対象の判断者（店員）が、誰かに対してお辞儀などを行うと、目的推定部１０４は、判断者の姿勢変化の目的が「挨拶」であると推定する。また、目的推定部１０４は、判断者の行動の目的（挨拶）が特定の目的（観察対象を指定する目的）であると推定し、行動認識部１０３より受け取る情報（行動認識結果）と撮影部１００１の撮影画像を観察対象決定部１０５へと送る。この場合の行動認識結果には、判断者の姿勢変化（例えば、お辞儀）を特定するための情報、及び、その姿勢変化に関係する人体パーツの位置関係に関する情報（例えば、お辞儀の向き）が含まれる。なお、お辞儀の深さ、お辞儀をしている時間などを特定する情報を行動認識結果の情報に含めることも可能である。

本実施形態では、何らかの対象を持った行動（姿勢変化）の目的は、特定の目的と判定されうる。すなわち、本実施形態の目的推定部１０４は、何かの「観察」、何かの「指定」、誰かに対する「挨拶」、何かに対する「作業」、何かの「運搬」などの姿勢変化の目的をその特定の目的として判定しうる。ただし、何らかの目的を持ったすべての姿勢変化の目的が、特定の目的であるとして判定されるとは限らない。

一方、本実施形態では、何らかの対象を持たない姿勢変化（例えば、「移動」や「停留」など）の目的は、特定の目的とは判定されない。なお、ある方向に向かって進む、というケースは、「ある方向」に特段の意味がなければ、対象を持たない姿勢変化となる。

図２は、観察対象の判断者である店員２００の姿勢変化が「手で指し示す」と行動認識部１０３によって認識されており、その周囲に客２０２が映っていて、その結果として、「指定」という目的が、目的推定部１０４により推定された場合を示している。図２に示した例においては、この「指定」という目的は、特定の目的の一つであると事前に決められていたとする。

なお、観察対象の判断者の姿勢変化が、歩きながら手を振る、といったように複合的な場合がある。この場合の目的は「移動」と「挨拶」の両方となりうる。もし事前に決めた特定の目的に「挨拶」が含まれていれば、目的推定部１０４は、判断者の目的が特定の目的に合致すると判定し、行動認識部１０３より受け取った情報（行動認識結果と撮影部１００１による撮影画像）を、観察対象決定部１０５へと送る。

観察対象決定部１０５は、目的推定部１０４より行動認識結果と撮影部１００１の撮影画像を受け取ると、撮影部１００１の撮影画像に映る人物や物体や領域の中から観察対象を決定する。具体的には、行動認識部１０３の認識した姿勢変化（行動）の対象が撮影部１００１の撮影画像上のどこに映っているかを特定する。

そのためにまず、観察対象決定部１０５は、行動認識部１０３が認識した姿勢変化が、撮影画像上において、どちらの方向に対してなされたのかの決定がなされる。その方向は、行為主体である判断者の人体パーツ同士の位置関係や、人体パーツ自身の姿勢によって決定される。

例えば、認識された姿勢変化が「一定時間以上何かに顔を向ける」であれば、その顔パーツの姿勢、すなわち、顔パーツにおける目の向いている方向が、その姿勢変化の向けられた方向である。

例えば、認識された姿勢変化が「掌を向ける」であれば、掌パーツが向いている方向が、その姿勢変化の向けられた方向である。例えば、認識された姿勢変化が「手で指し示す」であれば、動体パーツから腕パーツへと向かう方向が、その姿勢変化の向けられた方向である。なお、観察対象判断者の人体パーツ同士の位置関係や人体パーツ自身の姿勢は、目的推定部１０４より受け取る行動認識部１０３が認識した行動認識結果に含まれている。

続いて、行動認識部１０３が認識した姿勢変化の向けられた方向にある、人物や物体や空間領域の検出が行われる。例えば、観察対象決定部１０５は、撮影部１００１の撮影画像上の判断者が抽出された位置から、認識された姿勢変化の向けられた方向に向かう直線付近に検出される人物や物体を、観察対象の判断者に近い順に検出する。人物や物体の検出方法自体は、公知の方法を用いることとして、説明は割愛する。

観察対象決定部１０５は、上記のようにして見つけた人物や物体や空間領域を、行動認識部１０３の認識した姿勢変化の対象とする。

図２に示した例においては、店員２００が「手で指し示す」姿勢変化をしているので、その腕パーツが指し示す先に映っている客２０２が、行動認識部１０３の認識した姿勢変化の対象となる。

なお、認識した姿勢変化の対象は複数特定しても良い。図２に示した例においては、客２０２だけでなく、その先に映っている客２０１も、行動認識部１０３の認識した姿勢変化の対象としてもよい。

観察対象が決定されると、撮影部１００１の撮影画像上の観察対象の位置を示す情報が、観察対象認識部１００２へと送られる。

なお、観察対象決定部１０５は、判断者の姿勢変化の向けられた方向に撮影部１００１の撮影方向を変化させ、判断者の姿勢変化の対象となる人物、物体、領域を検出することも可能である。この場合、観察対象決定部１０５は、撮影部１００１に対して、パン、チルト、ズーム等の指示を送信して、撮影部１００１の撮影方向を制御することが可能である。このようにすることで、観察対象決定部１０５は、判断者が特定の目的をした時点では撮影部１００１の撮影範囲に入っていなかった人物や物体等も観察対象として決定することができる。

観察対象決定部１０５は、一度観察対象を決定した後は、新たに行動認識結果を受け取るまで、同じ対象を観察対象と決定し続ける。そのために、本実施形態の観察対象決定部１０５は、内部に観察対象を識別するための情報を保持する。

観察対象を識別するための情報は、撮影画像上の観察対象の位置を示す情報と、色や形状など観察対象の見た目に関する特徴量である。観察対象決定部１０５は、観察対象の位置を示す情報を、観察対象を決定するたび（所定時間ごと）に更新する。すなわち、観察対象決定部１０５は、撮影部１００１から撮影画像（第１の撮影画像）上の観察対象の位置を決定した後、次の撮影画像（第２の撮影画像）を取得すると、その第２の撮影画像から観察対象を検出する。観察対象決定部１０５は、観察対象の移動により、第１の撮影画像における観察対象の位置と第２の撮影画像における観察対象の位置が多少異なったとしても、観察対象の特徴量の情報を用いて第２の撮影画像上における観察対象を検出できる。また、観察対象決定部１０５は、第２の撮影画像から観察対象を決定すると、観察対象の第２の撮影画像上における位置と観察対象の特徴量を記憶して、次の第３の撮影画像で観察対象を検出する際に用いる。

観察対象決定部１０５が目的推定部１０４から新たな行動認識結果を受け取らない場合、観察対象決定部１０５は、次の撮影画像上における観察対象の位置を特定すると共に、観察対象の現在の位置と、観察対象の特徴量を画像処理装置１００の内部に保持させる。観察対象決定部１０５は、撮影部１００１による所定時間ごとの撮影画像を取得する。観察対象決定部１０５は、撮影部１００１による撮影画像をすべて取得しても良いし、例えば、１秒に１フレームの撮影画像を取得しても良い。

また、観察対象決定部１０５は、観察対象が決まっておらず、且つ、人物検出部１０１が１人の人物も検出していない場合は、撮影部１００１による撮影画像を取得しないようにしても良い。なお、観察対象決定部１０５は、観察対象の位置情報を、観察対象認識部１００２へも送る。

なお、上述の説明では、新たな行動認識結果を観察対象決定部１０５が取得するまで観察対象を変更しないことを中心に説明したが、この例に限らない。すなわち、観察対象決定部１０５は、観察対象の決定から所定時間が経過したり、観察対象が撮影画像内から認識されなくなったりした場合は、観察対象に対する観察処理を停止するように処理してもよい。また、観察対象決定部１０５は、新たな行動認識結果を受信した場合、新たな行動認識結果から特定される観察対象を、これまでの観察対象に加えて観察対象としてもよい。

すなわち、観察対象決定部１０５は、複数の人物、物体、領域等を観察対象として決定することが可能である。また、観察対象決定部１０５は、観察対象を決定した後に、新たに行動認識結果を受信した場合、観察対象を追加することが可能である。また、観察対象決定部１０５は、観察対象を決定した後に、新たなに所定の行動認識結果を受信した場合、当該観察対象を観察対象から外すことも可能である。

観察対象認識部１００２は、観察対象決定部１０５から受け取る情報が示す撮影画像上の位置に映る人物や物体や空間領域を対象にした観察処理を、撮影部１００１より受け取る撮影画像に対して行う。

本実施形態の観察対象認識部１００２は、観察対象の観察処理として、観察対象の撮影画像上の位置を追跡する処理（追尾処理）を行うことが可能である。この追尾処理は複数のカメラを連携して行ってもよい。また、観察対象認識部１００２は、観察処理として、観察対象の識別処理を行うことも可能である。識別処理とは、観察対象が人間であれば、その姿勢（例えば、屈んでいる、倒れているなど）の識別を行う処理である。また、観察対象認識部１００２は、例えば識別処理として、観察対象者の年齢、性別、個人、表情の識別等を行うことも可能である。

また、観察対象認識部１００２は、観察対象が物であれば、識別処理として、観察対象物が落とされた、観察対象物が誰かに投げられた、撮影画像の端を通らずに消えた（例えば、観察対象物がポケットに入れられた）などの状態を識別することが可能である。

また、観察対象認識部１００２は、観察対象に対する観察処理として、高解像度記録のための領域抜き出し処理（注視処理）を行うことも可能である。この場合、観察対象認識部１００２は、観察対象物の領域がより大きく表示されるように、撮影部１００１の光学ズーム倍率を制御し、観察対象の決定前よりも高い解像度の画像を抜き出すことが可能である。ただし、観察対象認識部１００２は、光学ズーム倍率を制御するのではなく、通常の記録時の解像度よりも高い解像度で記録するように記録を制御することも可能である。また、広い範囲を撮影する撮像部１００１が撮影した画像から決定された観察対象物を、狭い範囲を撮影する撮像部で撮影するように、狭い範囲を撮影する撮像部を制御してもよい。

例えば、万引き防止を目的としたモニタリングシステムの場合は、観察対象とした人物が陳列されている商品をこっそりとポケットなどに盗み入れる姿勢変化を観察処理によって認識する。潜在優良顧客度を評価することを目的としたモニタリングシステムの場合は、観察対象とした人物の表情から、どの程度の購買意欲があるかを定量的に評価することも可能である。観察対象認識部１００２が行う観察処理の内容は上記の内容に限らない。

なお、本実施形態の観察対象認識部１００２は、観察対象の判断者の姿勢変化（行動）の目的に応じて、異なる観察処理を行うことも可能である。例えば、観察対象認識部１００２は、判断者が挨拶をした場合は挨拶の対象者の表情の認識を行い、判断者が人物に対して指を差した場合は指を差された対象者の追尾を行うことが可能である。この場合、観察対象決定部１０５は、観察対象者の位置情報と共に行動認識部１０３による行動認識結果（判断者の行動の特定情報と、当該行動に関係する人体パーツの位置関係に関する情報）を観察対象認識部１００２へと送る。そして、観察対象決定部１０５は、行動認識部１０３により認識された行動の内容に基づいて観察対象者に対する観察処理を決定する。

観察対象認識部１００２の認識結果とその認識がなされた画像上の位置を示す情報は、撮影部１００１より受け取る撮影画像と共に、映像表示部１００３へと送られる。

映像表示部１００３は、観察対象認識部１００２より撮影部１００１の撮影画像を受け取り、その画像を表示する。また、映像表示部１００３は、観察対象認識部１００２より認識結果とその認識がなされた画像上の位置を示す情報を受け取り、その情報を可視化して表示する。

例えば、撮影部１００１の撮影画像の上に、観察対象認識部１００２より認識結果を示す表示を重畳する。図２では客２０２が点線で囲まれているが、これは客２０２が観察対象として観察対象決定部１０５により決定され、その観察処理が観察対象認識部１００２により行われていることを可視化した例となっている。

可視化の方法はこれに限らない。例えば、映像表示部１００３は、撮影部１００１より受け取る撮影画像の表示領域とは別の領域に、観察対象認識部１００２による認識結果を示すテキストやアイコン等とその認識結果がなされた撮影画像領域を切り出して表示しても良い。

映像表示部１００３が観察対象認識部１００２の認識結果を示すことで、画像処理装置１００によってどの対象が観察対象として設定されたかを、ユーザが容易に確認できる。

（処理）
次に図３に示したフローチャートを用いて、本実施形態にかかる画像処理装置１００を含むモニタリングシステム１０００が行う処理について説明する。本実施形態の画像処理装置１００は、不図示のＣＰＵが、図３に係る処理を実行するためのプログラムをメモリから読み出して実行することにより、図３の処理を実現する。また、撮影部１００１、観察対象認識部１００２、映像表示部１００３のそれぞれにもＣＰＵが備わっており、そのＣＰＵが、それぞれの装置に必要なプログラムを実行する。ただし、例えば、観察対象認識部１００２と映像表示部１００３が一体型の装置で構成され、観察対象認識部１００２と映像表示部１００３の処理が同一のＣＰＵで実現されるなど、システム内の装置の構成は適宜変更可能である。

店舗等の空間に撮影部１００１が設置された状態で、ユーザがモニタリングシステム１０００を起動すると、まずステップＳ３０１が行われる。

ステップＳ３０１（入力手順）では、撮影部１００１により撮影が行われる。撮影部１００１が複数のカメラを備えていれば、その複数のカメラによる撮影が行われる。撮影された全ての画像は、人物検出部１０１および観察対象認識部１００２へと送られる。なお、本実施形態では、撮影部１００１による撮影画像がすべて人物検出部１０１へ送られる例を中心に説明しているが、人物検出部１０１へ送られる撮影画像のフレームレートが撮影のフレームレートよりも低くても良い。例えば、撮影部１００１が毎秒３０フレームの撮影をする場合、１フレームおき、すなわち、毎秒１５フレームの撮影画像が人物検出部１０１へ送られるようにしてもよい。人物検出部１０１が撮影部１００１からの撮影画像を入力すると、処理はステップＳ３０２へと進む。

ステップＳ３０２（検出手順）では、人物検出部１０１が、撮影部１００１から受け取る画像中から人物が映っている領域を検出する処理を行う。人物検出部１０１による人物検出処理が終わると、処理はステップＳ３０３へと進む。

ステップＳ３０３では、人物検出部１０１が撮影部１００１から受け取る画像中から人物を検出したか否かが確認される。人物が検出されなかった場合は、処理はステップＳ３０９へと進む。人物が検出された場合は、人物検出部１０１は人物が検出された画像領域を特定する情報を生成し、それを撮影部１００１の撮影画像と共に、判断者決定部１０２へと送る。複数の人物が検出された場合は、人物検出部１０１はその各人物の画像領域を特定するための情報を生成し、判断者決定部１０２へと送る。人物検出部１０１が人物の位置を特定するための情報を判断者決定部１０２へ送ると、処理はステップＳ３０４へと進む。

ステップＳ３０４では、判断者決定部１０２が、観察対象を判断する人物（判断者）を決定する。本実施形態の判断者決定部１０２は、特に撮影部１００１による撮影画像内に存在する不特定多数の人（客）に対して何らかの応対を行う特定少数の人（店員）を、判断者として決定する。図２においては、店員２００が判断者として決定される。

人物検出部１０１が検出する人物の中から、特定少数の人（本実施形態においては店員２００）を決定する方法としては、撮影部１００１の撮影画像内の人物の画像パターン（服装や顔の画像パターン）から判断する方法がある。その他にも、特定少数の人が保持している画像処理装置１００の外部にある位置センサ１００４から受け取る出力に基づいて、観察対象の判断者を決定する方法や、人物検出部１０１によって検出される時間の長さによって決定する方法がある。観察対象の判断者の選択を第三者が人手により行っても良い。観察対象の判断者を決定する処理が完了すると、処理はステップＳ３０５へと進む。

ステップＳ３０５では、人物検出部１０１が検出した人物の中から観察対象の判断者を判断者決定部１０２が決定したか否かが確認される。判断者が決定されなかった場合は、処理はステップＳ３０９へと進む。判断者が決定された場合、判断者決定部１０２は、判断者の画像領域を特定するための位置情報と撮影画像を、行動認識部１０３へと送る。そして処理はステップＳ３０６へと進む。

ステップＳ３０６では、行動認識部１０３が、判断者の位置情報と共に撮影部１００１による撮影画像を受信し、判断者の姿勢変化（行動）を認識する。本実施形態において、行動は動作と言い換えることも可能である。

そのためにまず、行動認識部１０３は、判断者決定部１０２より受け取る判断者の画像領域を特定する位置情報に基づいて、その人物の姿勢を認識する。続いて行動認識部１０３は、撮影部１００１より新たな撮影画像を受け取り、その画像上に映る観察対象の判断者を検出し、その姿勢を認識する。この姿勢認識の処理を一定回数繰り返して得られる一連の姿勢認識結果が、姿勢変化を示す情報である。このようにして得られた姿勢変化を示す情報は、行動認識結果として、行動認識部１０３によって目的推定部１０４へと送られる。そして処理は、ステップＳ３０７へと進む。

ステップＳ３０７では、目的推定部１０４が、行動認識部１０３より受け取る行動認識結果と撮影部１００１による撮影画像を基に、観察対象の判断者の行動、すなわち、姿勢変化の目的（もしくは意図）を推定する。この推定は、例えば機械学習における教師あり学習アルゴリズムによって実現される。すなわち、目的推定部１０４は、観察対象の判断者の姿勢変化と、その周辺の様子とを、姿勢変化の目的に対応づけるモデルを用いて、判断者の姿勢変化の目的を推定する。なお、このモデルは、あらかじめ生成されている。この推定処理が行われると、処理はステップＳ３０８へと進む。

ステップＳ３０８では、目的推定部１０４が推定した判断者の姿勢変化の目的が、特定の目的であるか否かが判定される。本実施形態における特定の目的とは、観察対象を指定する目的である。本実施形態では、例えば、挨拶、指定、観察、作業、移動、停留、運搬といった目的のうち、挨拶、指定、観察が特定の目的（観察対象を指定する目的）に合致すると判定される。ただし、上記の例に限らない。目的推定部１０４は、推定された目的が特定の目的に合致すると判定した場合、行動認識部１０３より受け取った行動認識結果と、撮影部１００１による撮影画像を観察対象決定部１０５へ送り、処理はステップＳ３０９へと進む。なお、行動認識結果には、判断者の姿勢変化（例えば、「指で対象物を差す」）を特定するための情報と、その姿勢変化に関係する人体パーツの位置関係に関する情報（例えば、指の方向）に関する情報とが含まれる。

一方、行動認識部１０３によって推定された目的が特定の目的に合致しないと判定された場合、処理はステップＳ３０１へと戻る。

なお、行動認識部１０３は、行動認識結果と撮影部１００１による撮影画像のみならず、行動目的を特定する情報（例えば、「挨拶」や「指定」）も観察対象検出部１０５へ送るようにしても良い。このようにすれば、観察対象認識部１００２は、判断者の行動目的に応じて、観察対象に対する観察処理を異ならせるようにすることが可能である。また、観察対象決定部１０５は、判断者の行動目的に応じた対象物（人物、物体、領域等）を観察対象として決定することが可能となる。

ステップＳ３０９（決定手順）では、観察対象決定部１０５が、撮影部１００１の撮影画像内の人物や物体や領域の中から観察対象を決定する。すなわち、観察対象決定部１０５は、人物検出部１０１により検出された人物の所定の行動に応じて、当該所定の行動をした人物以外を観察対象として決定する。図２の例で言えば、判断者（店員２００）が指を差した場合、その指の先に存在する客２０２が観察対象として決定される。なお、観察対象は人物に限らず、物体や領域であってもよい。

また、判断者の決定方法には、人物の見た目（画像パターンの特徴量）に基づいて決定する方法や、位置センサ１００４から受け取る情報に基づいて決定する方法や、人体検出部１０１によって検出される時間の長さに基づいて決定する方法がある。

すなわち、判断者が人物の見た目（画像パターンの特徴量）に基づいて決定された場合、観察対象決定部１０５は、人物検出部１０１により検出された人物のうち所定の特徴量を持った人物（判断者）の行動（姿勢変化）に応じて観察対象を決定する。

また、判断者が位置センサ１００４から受け取る情報に基づいて決定された場合、観察対象決定部１０５は、人物検出部１０１により検出された人物のうち位置センサからの情報に応じた人物（判断者）の行動（姿勢変化）に応じて観察対象を決定する。

また、判断者が人体検出部１０１によって検出される時間の長さに基づいて決定された場合、観察対象決定部１０５は、人体検出部１０１により検出された人物のうち撮影画像内に存在する時間が所定時間以上の人物（判断者）の行動に応じて観察対象を決定する。

ステップＳ３０８からステップＳ３０９に進んだ場合、観察対象決定部１０５は、行動認識部１０３が認識した行動認識結果と撮影部１００１の撮影画像を受け取っている。観察対象決定部１０５は、これらの情報を用いて、観察対象を決定する。例えば、手で人を指し示したと推定された場合、指し示された人を観察対象に決定する。

具体的には、観察対象決定部１０５は、行動認識部１０３により認識された姿勢変化の対象が撮影部１００１の撮影画像上のどこに映っているかを特定する。観察対象決定部１０５は、観察対象の決定ができれば、観察対象を特定する情報（観察対象特定情報）を内部に記憶したうえで、処理はステップＳ３１０へと進む。観察対象の決定ができない場合には、処理はステップＳ３０１へと戻る。本実施形態における観察対象特定情報には、撮影画像上の観察対象の位置を示す情報と、色や形状など観察対象の見た目に関する特徴量が含まれる。

ステップＳ３０３またはステップＳ３０５よりステップＳ３０９に進んだ場合、観察対象決定部１０５の内部に、観察対象特定情報が記憶されているかどうかの確認がなされる。観察対象特定情報が観察対象決定部１０５の内部に記憶されていると判定された場合、観察対象決定部１０５は観察対象特定情報の一部である観察対象の位置を示す情報を観察対象認識部１００２に送り、処理はステップＳ３１０へと進む。観察対象特定情報が観察対象決定部１０５の内部に記憶されていなければ処理はステップＳ３０１へと戻る。

ステップＳ３１０では、観察対象認識部１００２が、観察対象に対する観察処理を行う。より具体的には、観察対象認識部１００２は、観察対象決定部１０５から観察対象の人物や物体や空間領域の撮影画像上の位置に関する情報を取得し、観察対象に対する観察処理を行う。観察処理には、例えば、観察対象に対する追尾処理、観察対象の識別処理（人物の姿勢、姿勢変化、表情の識別処理など）、高解像度の画像の抜き出し処理等が含まれる。

なお、観察対象認識部１００２は、観察対象に対してどの観察処理を行うかを、観察対象が人物であるか、物体であるか、領域であるかに応じて決定することが可能である。また、観察対象認識部１００２は、観察対象に対してどの観察処理を行うかを、観察対象の判断者が行なった姿勢変化（行動）に基づいて決定することが可能である。また、観察対象認識部１００２は、観察対象に対してどの観察処理を行うかを、観察対象の判断者が行なった姿勢変化（行動）の目的の推定結果に基づいて決定することも可能である。また、観察対象認識部１００２は、上記の方法を組み合わせて、観察対象に対する観察処理の内容を決定することも可能である。

例えば、観察対象認識部１００２は、判断者がある人物を指で差した場合は、当該人物の追尾処理を行なうが、判断者がある人物に対して挨拶をした場合は、当該人物の表情を認識する処理を行うようにしても良い。また、観察対象認識部１００２は、例えば、判断者が人物を指で差した場合は、当該人物の表情を認識する処理を行なうが、判断者が物体を指で差した場合は、当該物体の追尾処理を行なうようにしても良い。

観察対象認識部１００２は、観察対象の観察処理を行なうと、観察対象の位置に関する情報と、観察処理の結果を示す情報と、撮影部１００１による撮影画像とを映像表示部１００３へ送り、処理はステップＳ３１１へと進む。

ステップＳ３１１では、映像表示部１００３が、観察対象認識部１００２より撮影部１００１の撮影画像を受け取り、その画像を表示する。また、映像表示部１００３は、観察対象の位置に関する情報と、観察処理の結果を示す情報とを観察対象認識部１００２より受け取り、受け取った情報に応じた表示を行なう。

映像表示部１００３は、例えば、観察対象を点線で囲む表示をしても良いし、観察対象に向けた矢印を撮影画像上に重畳して表示させても良い。ただしこれらの表示に限らず、映像表示部１００３は、撮影画像を見たユーザが観察対象を容易に特定できるように、観察対象を際立たせる表示をすることができる。また、映像表示部１００３は、撮影部１００１による撮影画像の表示領域とは別の領域に、観察対象の観察結果（例えば、観察対象者の滞在時間、表情の識別結果、姿勢変化の識別結果等）をテキストまたはアイコン等で表示させることも可能である。映像表示部１００３が表示を終えると、処理はステップＳ３０１へと戻る。

以上の処理により、画像処理装置１００は、撮影部１００１の撮影画像内にいる特定の人（観察対象の判断者）の、特定の目的を持った姿勢変化（行動）によって、その姿勢変化の対象となる人物や物体や空間領域を、観察処理の対象として設定できる。本実施形態に示す例で言えば、商業施設にいる店員が特定の姿勢変化をすることによって、そこを訪れる一人もしくは複数の客を、万引き等の不審動作認識対象としたり、潜在優良顧客度の評価対象としたりすることができる。すなわち、画像処理装置１００は、店員が手で指し示したり、一定時間顔を向けたりする人物を、特に認識すべき観察対象として設定することができる。観察対象とするのは人物に限らず、店舗におかれた商品などの物体であっても良いし、通路の特定領域であっても良い。その場合、観察対象認識部１００２は、観察対象となった物体を置き去り検出の対象としたり、運搬経路認識の対象としたりすることができる。観察対象を設定するための特定の行動を、一定時間顔を向けるなどの、その場において自然な行動にしておけば、観察対象となる客を含む周囲の人々に気づかれることなく、観察対象と設定することができる。

なお、本実施形態の説明において、観察対象認識部１００２は、観察対象決定部１０５が示す撮影画像上の位置に映る人物や物体や空間領域を対象にした観察処理を行うとしたが、逆に、観察対象決定部１０５が示す人物や物体を、観察処理の対象から外しても良い。

例えば、すでに観察対象認識部１００２が観察の対象にしている人物や物体や空間領域が観察対象決定部１０５によって示された場合には、観察対象認識部１００２はその人物や物体や空間領域を、観察の対象から外しても良い。すなわち、本実施形態における画像処理装置１００を用いて、観察対象設定の取り消しを行うこともできる。

同様に、観察対象認識部１００２は、観察対象決定部１０５が示す以外の人物や物体や空間領域を対象にした認識処理を行っても良い。すなわち、特に観察したい人物や物体や空間領域を画像処理装置１００で設定するのではなく、特に観察しなくても良い人物や物体や空間領域を画像処理装置１００で設定することができる。

〔第二実施形態〕
本実施形態では、ショッピングモールの通路や、駅のホームやコンコースなど、不特定多数の人が行きかう空間にモニタリングシステムを適用する場合の例を中心に説明する。本実施形態のモニタリングシステムは、撮影部、観察対象認識部、映像表示部、画像処理装置を含み、画像処理装置が決定する観察対象を画像処理で認識しながら、その観察対象の撮影および撮影画像の表示等を行う。

（構成）
図４は、本実施形態にかかる画像処理装置４００を含むモニタリングシステム４０００の構成を示す図である。すなわち画像処理装置４００は、人物検出部４０１、行動認識部４０３、目的推定部４０４、観察対象決定部４０５を備える。そしてモニタリングシステム４０００は、撮影部４００１、観察対象認識部４００２、映像表示部４００３、画像処理装置４００を備える。なお、画像処理装置４００が、撮影部４００１、観察対象認識部４００２、映像表示部４００３のいずれか又は複数と一体型の装置であっても良い。

撮影部４００１は、空間の撮影を行うカメラである。カメラの個数は、１つでも良いし、複数でも良い。また撮影部４００１は、可視光を撮影するカメラでも良いし、赤外領域や紫外領域の光を撮影するカメラでも良い。撮影部４００１は、モニタリングシステム４０００の起動中は常時撮影している。撮影部４００１が撮影する空間は、本実施形態においては駅のコンコースとする。ただし、撮影部４００１が撮影する空間は、駅のコンコースに限らず、ショッピングモールの通路や、駅のプラットホームなどであってもよい。本実施形態のモニタリングシステムは、不特定多数の人が行きかう空間で用いるユースケースに特に適している。

図５は、撮影部４００１の撮影画像の例を模擬的に示した図である。図５には、駅のコンコースを行きかう不特定多数の人としての、通行人５０１、５０２、５０３が示されている。そして、その撮影範囲の中央付近に、瓶が倒れて中のジュースがこぼれている様子が示されている。図５中にある曲線の矢印は、通行人５０１、５０２、５０３それぞれの移動経路を示している。すなわち、図５は、点線で表現されている通行人５０１、５０２、５０３の位置から、実線で表現されている通行人５０１、５０２、５０３の位置まで、曲線の矢印にそって各通行人が移動したことを示している。

そのような、撮影部４００１が撮影した画像は、人物検出部４０１および観察対象認識部４００２へと送られる。

人物検出部４０１は、撮影部４００１による撮影画像を入力すると共に、撮影画像の中から人物を検出する。これは、撮影部４００１により撮影された画像中から人物に関する画像特徴を検出することによって実現される。人物の検出方法は、第一実施形態に含まれる人物検出部１０１における人物検出方法と同様であるので詳細な説明は割愛する。図５に示した例においては、通行人５０１、５０２、５０３が検出される。

人物が検出されると、人物検出部４０１は人物が検出された画像領域を特定するための情報を生成し、それを撮影部４００１の撮影画像と共に、行動認識部４０３へと送る。人物検出部１０１は、１つの画像から複数の人物を検出した場合は、その人物の画像領域を特定するための情報を行動認識部４０３へと送る。

行動認識部４０３は、人物検出部４０１より人物が検出された画像領域を特定するための情報を用いて、人物の集団としての行動を認識する。本実施形態において集団としての行動を認識することは、検出された人物全員の移動に関する情報を得ることである。

ゆえに行動認識部４０３は、まず、撮影部４００１の撮影画像上での人物検出分布を作成し、内部に保持する。なお、人物検出分布は、撮影画像の所定の分割領域ごとに何人の人物が検出されたかを示す情報である。人物検出分布は、例えば、撮影画像の領域を９×９に分割した場合の分割領域ごとに何人の人物が検出されたかを示す情報である。ただし、分割サイズは９×９に限らない。

行動認識部４０３は、人物検出部４０１から人物が検出された画像領域を特定する情報を得るたびにこれを行う。加えて行動認識部４０３は、過去に蓄積した人物検出分布と最新の人物検出分布を比較することで、人物検出分布の時間変化を示す情報を生成する。そうして作成した最新の人物検出分布およびその時の人物検出分布の時間変化を示す情報が、検出された人物全員の移動に関する情報である。

つまり、行動認識部４０３は、撮影画像を分割した領域のそれぞれにおいて検出された人物の数を所定時間ごとに取得する。所定時間とは、撮影部４００１による撮影のフレームレートに応じた時間（例えばフレームレート３０フレーム／秒であれば１／３０秒）でもよいし、もっと長い時間であってもよい。

また、行動認識部４０３は、撮影画像を分割した領域のそれぞれにおいて検出された人物の数の時間変化を所定時間ごとに取得する。人物検出分布、及び、人物検出分布の時間変化を示す情報は、目的推定部４０４へと送られる。

目的推定部４０４は、行動認識部４０３より受け取る行動認識結果（人物検出分布、及び、人物検出分布の時間変化を示す情報）をもとに、撮影部４００１の撮影画像に映る人物の行動目的（もしくは意図）を推定する。なお、目的推定部４０４が推定する行動の目的とは、人物の移動の目的である。本実施形態では、人物検出分布と人物検出分布の時間変化を示す情報とから行動目的を推定する例を説明しているが、例えば、人物検出分布の時間変化を示す情報のみから行動目的が推定されるようにしてもよい。また、目的推定部４０４が行動認識部４０３から人物検出分布のみを受け取って、人物検出分布の時間変化を判定し、それによって人物の行動目的を推定するようにしてもよい。

目的推定部４０４は、行動認識部４０３より受け取る最新の人物検出分布およびその時の人物検出分布の時間変化に、以下に述べるような特定のパターンが含まれているか否かを判定する。そして、目的推定部４０４は、特定パターンが含まれていると判定した場合、それに対応する目的を推定する。

特定のパターンの一例は、「人物が検出されなくなった空間領域が急に生じる」という人物検出分布の変化のパターンである。例えば、多くの人がコンコースを行きかうため、そこを撮影する撮影部４００１の撮影画面が多くの人物で埋め尽くされているとする。その時に、急に、ある空間領域から検出される人物数が減り、その後人物が一定時間以上検出されないとする。この場合、目的推定部４０４が行動認識部４０３より受け取る人物検出分布は、画面全体に人物の検出数が分布されていた状態から、ある空間領域だけ負の方向に人物検出数が変化し、その空間領域以外の領域は引き続き人物が検出される状態になる。なお、人物検出をせずに、動体（移動物体）検出をすることにより、動体が検出されなくなった空間領域が急に生じたことを検出するようにしてもよい。人物検出、動体検出は、オブジェクト検出の例である。

このような状態になると、目的推定部４０４は、「人物が検出されなくなった空間領域が急に生じる」という変化パターンが発生したと判定する。そして、目的推定部４０４は、「ある場所の回避」を撮影画像内の人物の目的として推定する。

図５に示しているのが、このケースに相当する。すなわち図５では、撮影領域の中央付近に瓶が倒れてジュースがこぼれ出ているので、通行人はそこを避けて通行している。よって、ジュースがこぼれた時点から、ジュースの周囲からは急に人物が検出されなくなるので、目的推定部４０４は、ある空間領域から急に人物が検出されなくなる人物検出分布の変化パターンを確認する。そして、目的推定部４０４は、「ある場所の回避」を撮影画像内の人物の行動目的として推定する。

また、他の特定パターンの例として、「人物が検出されない空間領域が、ある場所を中心に広がっていく」というパターンがある。これは、ある場所で火事などが起きて、周囲の人がそこから離れるように逃げていくような場合に見られる人物検出分布の変化パターンである。目的推定部４０４は、「人物が検出されない空間領域がある場所を中心に広がっていく」というパターンが発生したと判定すると、撮影画像内の人物の行動目的を「ある場所の回避」であると推定する。この推定も、人物検出の代わりに動体検出により代用可能である。

また、他の特定パターンの例として、「人物が検出されないドーナツ状の空間領域が移動する」というパターンもありうる。これは、誰かしらの不審人物を、人々が避けるような場合に見られる人物検出分布の変化パターンである。目的推定部４０４は、「人物が検出されないドーナツ状の空間領域が移動する」というパターンが発生したと判定すると、撮影画像内の人物の行動目的を「特定物体（特定人物）の回避」であると推定する。この推定も、人物検出の代わりに動体検出により代用可能である。

また、他の特定パターンの例として、「ある空間領域で検出される人物の数が周囲に比べて急に増える」というようなパターンもありうる。目的推定部４０４は、「ある空間領域で検出される人物の数が周囲に比べて急に増える」というパターンが発生したと判定すると、撮影画像内の人物の行動目的を「特定物体（特定人物）への注目」であると推定する。例えばこれは、その場所に助けを必要とするような人（怪我人など）がいて、周囲の人が手を貸そうとその場所に集まってくる場合に見られる人物検出分布の変化パターンと行動目的である。この推定も、人物検出の代わりに動体検出により代用可能である。

このように、目的推定部４０４は、人物検出分布が局所的に変化するようなパターンを特定パターンとして検出し、その特定パターンに対応する目的を撮影画像内の人物の行動目的として推定する。

目的推定部４０４は、行動認識結果（最新の人物検出分布、及び、人物検出分布の時間変化を示す情報）に基づいて特定パターンが発生したと判定した場合、行動認識結果の情報と撮影部４００１の撮影画像を観察対象決定部４０５へと送る。

観察対象決定部４０５は、目的推定部４０４から行動認識結果（人物検出分布、及び、人物検出分布の時間変化を示す情報）と撮影部４００１による撮影画像を受け取ると、観察対象を決定する。すなわち、観察対象決定部４０５は、目的推定部４０４より受け取る撮影部１００１の撮影画像上の人物検出分布およびその時の人物検出分布の時間変化を示す情報に基づいて、特に観察すべき人物や物体や空間領域を決定する。

例えば、目的推定部４０４より受け取る行動認識結果の情報が「人物が検出されなくなった空間領域が急に生じる」というパターンを示している場合、観察対象決定部４０５は「人物が検出されなくなった空間領域」を特に観察すべき観察対象として決定する。「人物が検出されなくなった空間領域」でなく、「動体が検出されなくなった空間領域」でもよい。以下、同様である。

また、目的推定部４０４より受け取る行動認識結果の情報が「人物が検出されない空間領域が、ある場所を中心に広がっていく」というパターンを示している場合、観察対象決定部４０５は、「人物が検出されない空間領域」を特に観察すべき観察対象として決定する。

また、目的推定部４０４より受け取る行動認識結果の情報が「人物が検出されないドーナツ状の空間領域が移動する」というパターンを示している場合、観察対象決定部４０５は、「ドーナツの中心」を特に観察すべき観察対象として決定する。

また、目的推定部４０４より受け取る行動認識結果の情報が「ある空間領域で検出される人物の数が周囲に比べて急に増える」というパターンを示している場合、観察対象決定部４０５は、「人物の数が急に増えた空間領域」を特に観察すべき観察対象として決定する。

つまり、観察対象決定部４０５は、目的推定部４０４より受け取る行動認識結果（人物検出分布、及び、人物検出分布の時間変化を示す情報）が示す特定パターンごとに、観察対象の決定方法をルール化して内部に保持しており、それに従って観察対象を決定する。

観察対象決定部４０５が観察対象を決定すると、撮影部４００１の撮影画像上の観察対象の位置を示す位置情報が、観察対象決定部４０５から観察対象認識部４００２へと送られる。

観察対象認識部４００２は、観察対象決定部４０５から受け取る位置情報が示す撮影画像上の空間領域や人物や物体を対象にした観察処理を、撮影部４００１より受け取る撮影画像に対して行う。

観察対象認識部４００２が観察対象の映る画像領域に対して行う観察処理には、例えば、撮影画像上の領域が決定されている場合には、その領域に存在する物体を特定する認識処理が施される。図５に示した例の場合、観察対象認識部４００２によって、「倒れた瓶とこぼれる液体（ジュース）」が認識される。それ以外にも、観察対象認識部４００２は、観察対象となった人物や物体の撮影画像上の位置を追跡する追尾処理をすることも可能である。この場合、観察対象の人物や物体の周囲に枠を表示させ、人物や物体の移動に応じて、その枠も移動される。

また、観察対象認識部４００２は、観察処理の例として、観察対象が人物であればその姿勢や動作を認識する処理や、その表情を認識する処理を行うことも可能である。さらに、観察対象認識部４００２は、観察処理の例として、観察対象の人物の姿勢、動作、表情等の認識結果を用いて、観察対象となった人物の不審度合いを認識しても良い。ただし、観察対象認識部４００２が行う観察処理は上記の例に限らない。また、１つの観察対象に対して複数の観察処理（例えば追尾処理と表情認識処理）を行うようにしてもよい。

また、人物の行動目的に応じて、観察対象認識部４００２は、撮影部４００１に対して、パン、チルト、ズームの制御を行なうことも可能である。例えば、観察対象が撮影画像の中心に来るように、パンやチルトが行なわれる。また、例えば、人物が検出されなくなった領域が急に生じた場合には、その領域を拡大して見られるようにズーム倍率を制御し、人物が検出されない領域が広がっている場合には、周囲の状況を確認しやすくするためにズーム倍率を下げるようにしてもよい。このように、観察対象認識部４００２は、認識された特定パターンや、決定された観察対象などに応じて、撮影部４００１の撮影範囲を変化させることも可能である。また、広い範囲を撮影する撮像部４００１が撮影した画像から決定された観察対象を、狭い範囲を撮影する撮像部で撮影するように、狭い範囲を撮影する撮像部を制御してもよい。

観察対象認識部４００２の認識結果とその認識がなされた画像上の位置を示す情報は、撮影部４００１の撮影画像と共に、映像表示部４００３へと送られる。

映像表示部４００３は、観察対象認識部４００２より撮影部４００１の撮影画像を受け取り、その画像を表示する。また、映像表示部４００３は、観察対象認識部４００２より観察状況や観察結果、及び、観察対象の位置の情報を受け取り、その情報を用いて観察状況や観察結果の情報を可視化して表示する。例えば、映像表示部４００３は、撮影部４００１の撮影画像の上に、観察対象認識部４００２による観察結果を示す表示を重畳する。

図５では倒れた瓶とこぼれるジュースが点線で囲まれているが、これは通行人５０１、５０２、５０３が避けて通る空間領域が観察対象として観察対象決定部４０５により決定され、その位置の観察処理が行われていることを可視化した例を示している。

ただし、観察状況や観察結果の可視化の方法はこれに限らず、例えば、撮影部４００１による撮影画像の表示領域とは別の表示領域に、観察対象認識部４００２による観察状況や観察結果を示すテキストが表示されるようにしてもよい。また、例えば、観察状況や観察結果を示すテキストと共に、観察対象の領域を切り出した画像を撮影画像の表示領域とは別の表示領域に表示させるようにすることも可能である。また、映像表示部４００３は、観察対象の認識処理中であることを示すテキストやマークを表示させることも可能である。さらに、観察処理は途中であるが、特定パターン（例えば、ある領域で検出される人物の数が周囲に比べて急に増えるというパターン）が検出された場合、その領域の観察処理（例えば認識処理）が完了する前に、画面上に特定パターンが検出されたことを表示させることも可能である。ただし、映像表示部４００３による画像の表示方法は上記に限らない。

（処理）
次に図６に示したフローチャートを用いて、本実施形態にかかる画像処理装置４００を含むモニタリングシステム４０００が行う処理について説明する。本実施形態の画像処理装置４００は、不図示のＣＰＵが、図６に係る処理を実行するためのプログラムをメモリに読みだして実行することにより、図６に係る処理を実現する。また、撮影部４００１、観察対象認識部４００２、映像表示部４００３のそれぞれにもＣＰＵが備わっており、そのＣＰＵが、それぞれの装置に必要なプログラムを実行する。ただし、例えば、観察対象認識部４００２と映像表示部４００３が一体型の装置で構成され、観察対象認識部４００２と映像表示部４００３の処理が同一のＣＰＵで実現されるなど、システム内の装置の構成は適宜変更可能である。

ショッピングモールの通路や駅のホームやコンコースなど、不特定多数の人が行きかう空間に撮影部４００１が設置された状態で、ユーザがモニタリングシステム４０００を起動すると、まずステップＳ６０１が行われる。

ステップＳ６０１では、撮影部４００１により撮影が行われる。撮影部４００１が複数のカメラを備えていれば、その複数のカメラによる撮影が行われる。撮影された全ての画像は、人物検出部４０１および観察対象認識部４００２へと送られる。なお、本実施形態では、撮影部４００１による撮影画像がすべて人物検出部４０１へ送られる例を中心に説明しているが、人物検出部４０１へ送られる撮影画像のフレームレートが撮影のフレームレートよりも低くても良い。例えば、撮影部４００１が毎秒３０フレームの撮影をする場合、１フレームおき、すなわち、毎秒１５フレームの撮影画像が人物検出部４０１へ送られるようにしてもよい。人物検出部４０１が撮影部４００１から撮影画像を入力すると、処理はステップＳ６０２へと進む。

ステップＳ６０２では、人物検出部４０１が、撮影部４００１から受け取る画像中から人物が映っている領域を検出する処理を行なう。人物検出部４０１による人物検出処理が終わると、処理はステップＳ６０３へと進む。

ステップＳ６０３では、人物検出部４０１が撮影部４００１から受け取る画像中から人物を検出したか否かが確認される。人物が検出されなかった場合は、処理はステップＳ６０１へ戻る。人物が検出された場合は、人物検出部４０１は人物が検出された画像領域を特定する情報を生成し、それを撮影部４００１の撮影画像と共に、行動認識部４０３へと送る。複数の人物が検出された場合は、人物検出部４０１はその各人物の画像領域を特定するための情報を生成し、行動認識部４０３へと送る。人物検出４０１が人物の位置を特定するための情報を行動認識部４０３へ送ると、処理はステップＳ６０４へと進む。

ステップＳ６０４では、行動認識部４０３は、人物が検出された画像領域を特定する情報を用いて、人物の行動を認識する。行動認識部４０３は、まず、撮影部４００１による撮影画像上での人物検出分布を生成し、内部に保持する。すなわち、行動認識部４０３は、撮影画像の所定の分割領域ごとに何人の人物が検出されたかを示す情報を生成する。例えば、撮影部４００１の撮影範囲が９×９の８１領域に分割された場合、行動認識部４０３は、その８１領域ごとに、何人の人物が検出されたかを示す人物検出分布を生成する。ただし、撮影画像の分割サイズは９×９に限らず、もっと大きくても良いし、小さくても良い。この分割サイズは、ユーザが任意に設定することが可能である。また、行動認識部４０３は、ユーザが指定した分割サイズが大きい（例えば９０×９０）ことにより、処理が間に合わなくなると判定した場合は、ユーザに対して警告を表示して分割サイズの変更を促すことや、自動的に分割サイズを変更することが可能である。また、複数の領域にまたがっている人物がいる場合、本実施形態の行動認識部４０３は、その人物の中心部を判定し、その中心部が属している領域にその人物が存在すると判定する。

行動認識部４０３は、過去にステップＳ６０４を実施していれば、過去に蓄積した人物検出分布と最新の人物検出分布を比較することで、人物検出分布の時間変化を示す情報を生成する。人物検出分布の時間変化とは、撮影画像の所定の分割領域ごとに検出された人物の時間変化を示す情報である。行動認識部４０３は、最近の１分間における分割領域ごとの人物の検出量の合計値をカウントする。

例えば、最近の１分間（例えば１３時００分〜１３時０１分）で第１の分割領域では１００人の人物が検出され、第２の分割領域では９０人の人物が検出された場合の例を説明する。この場合、次の１分間（１３時０１分〜１３時０２分）では第１の分割領域で１２０人検出され、第２の分割領域で２人検出された場合、行動認識部４０３は、以下のような時間変化を示す情報を生成する。

すなわち、行動認識部４０３は、１３時０２分の時点での時間変化を示す情報として、第１の分割領域はプラス２０人、第２の分割領域はマイナス８８人ということを示す情報を生成する。例えば、撮影画像が８１分割されていた場合、本実施形態の行動認識部４０３は、８１個の分割領域ごとの時間変化を示す情報を生成する。ただし、人物検出分布の時間変化に関する情報は上記の例に限らない。

例えば、行動認識部４０３は、人物検出部４０１により検出された人物のそれぞれの移動経路を特定することが可能である。この場合、行動認識部４０３は、各人物がどの領域からどの領域へ移動しているのかを示す情報を人物検出分布の時間変化に関する情報として生成することができる。

また、人物検出の代わりに、動体検出で代用してもよい。人物検出、動体検出は、オブジェクト検出の例である。

行動認識部４０３が最新の人物検出分布、および、人物検出分布の時間変化を示す情報を行動認識結果として目的推定部４０４へと送ると、処理はステップＳ６０５へと進む。

ステップＳ６０５では、目的推定部４０４が、行動認識部４０３より受け取る行動認識結果（人物検出分布、及び、人物検出分布の時間変化を示す情報）に基づいて、撮影部４００１の撮影画像内の人物の行動の目的（もしくは意図）を推定する。

本実施形態の目的推定部４０４は、行動の目的として、人物による移動の目的や移動経路の選択の目的を推定する。

目的推定部４０４は、まず、行動認識部４０３より受け取る最新の人物検出分布と人物検出分布の時間変化に、特定のパターンが含まれているか否かを判定する。そして、目的推定部４０４は、特定のパターンが含まれていると判定した場合、それに対応する目的を推定する。この推定処理が目的推定部４０４により行われると、処理はステップＳ６０６へと進む。

ステップＳ６０６では、目的推定部４０４により推定された目的が、事前に決めておく特定の目的であるか否かが目的推定部４０４により判定される。推定された目的が特定の目的であったと判定された場合、目的推定部４０４は、行動認識部４０３より受け取った行動認識結果および撮影部１００１の撮影画像を、観察対象決定部４０５へと送り、処理はステップＳ６０７へと進む。目的推定部４０４が推定した行動の目的が、事前に決めておく特定の目的でなかった場合、処理はステップＳ６０１へと戻る。

ステップＳ６０７では、観察対象決定部４０５が行動認識結果と撮影部１００１の撮影画像とを用いて、撮影部４００１の撮影画像内から観察対象となる人物や物体や領域を決定する。本実施形態における行動認識結果には、人物検出分布、及び、人物検出分布の時間変化を示す情報が含まれる。すなわち、本実施形態の観察対象決定部４０５は、人物検出部４０１により検出された人物の移動（存在位置の変化）に基づいて観察対象を決定する。図５の例では、移動している人物以外のオブジェクト（ジュース）が、観察対象として決定されている。なお、観察対象はオブジェクトに限らず、領域でもよい。

すなわち、目的推定部４０４より受け取る撮影部１００１の撮影画像上の人物検出分布および人物検出分布の時間変化を示す情報に基づいて、観察対象決定部４０５は、特に認識すべき人物、物体、領域を決定する。

また、本実施形態の観察対象決定部４０５は、人物の移動経路に関する情報に基づいて、人物の移動経路に変化が発生したと判定された場合に、当該変化によって人物が通過しなくなった領域を観察対象として決定することができる。

人物が通過しなくなった領域を観察対象として決定する場合、人物の行動目的を推定せずに、観察対象を決定することも可能である。この場合も、人物検出の代わりに、動体検出で代用することもできる。

観察対象が決定されると、観察対象決定部４０５は、撮影部４００１の撮影画像上の観察対象の位置を示す情報を観察対象認識部４００２へと送り、処理はステップＳ６０８へと進む。

ステップＳ６０８では、観察対象認識部４００２が、観察対象決定部４０５から受け取る情報が示す撮影画像上の人物、物体、領域を対象にした観察処理を、撮影部４００１より受け取る撮影画像に対して行う。そして、観察対象認識部４００２は、観察処理結果と、観察対象の撮影画像上の位置を特定するための情報を撮影部４００１による撮影画像と共に映像表示部４００３へと送る。観察処理結果と撮影画像が映像表示部４００３へと送られると、処理は、ステップＳ６０９へと進む。

ステップＳ６０９では、映像表示部４００３が、観察対象認識部４００２より撮影部４００１の撮影画像を受け取り、その画像を表示する。映像表示部４００３は、観察対象認識部４００２より観察処理結果を受け取ると共に、撮影画像上における観察対象の位置を示す情報を受け取り、その情報に応じた表示を行なう。

映像表示部４００３は、例えば、観察対象を点線で囲む表示をしても良いし、観察対象に向けた矢印を撮影画像上に重畳して表示させてもよい。ただしこれらの表示に限らず、映像表示部４００３は、撮影画像を見たユーザが観察対象を容易に特定できるように、観察対象を際立たせる表示をすることができる。また、映像表示部４００３は、撮影部４００１による撮影画像の表示領域とは別の領域に、観察対象の観察結果（例えば、観察対象の滞在時間、観察対象の識別結果、観察対象の動きの方向等）をテキストまたはアイコン等で表示させることも可能である。映像表示部４００３が表示を終えると、処理はステップＳ６０１へと戻る。

以上の処理により、画像処理装置４００は、撮影部４００１の撮影画像内における人物検出分布が局所的に変化した領域やそうした領域にいる人物を、観察対象認識部４００２の認識対象として設定することができる。例えば、駅内を行きかう人々が、こぼれたジュースを避けて通行したり、怪我人を助けようとその周りに集まったりすると、画像処理装置４００は、人々がそうした行動を起こす理由となった「こぼれたジュース」や「怪我人」を、観察対象として設定できる。本発明は、撮影部４００１が撮影する空間を行きかう人々が合理的に行動することによっておこる人物検出分布の偏りが、特に認識すべき対象を指し示すことを利用している。

〔第三実施形態〕
本実施形態では、店舗、病院・銀行等の待合室、駅の改札やホームなど、不特定多数の人と、その人に対して何らかの応対を行う特定少数の人がいる空間にモニタリングシステムを適用する場合の例を中心に説明する。本実施形態のそのモニタリングシステムは、撮影部、観察対象認識部、映像表示部、画像処理装置を含み、画像処理装置が決定する観察対象を画像処理で認識しながら、その対象を撮影および撮影画像の表示等を行う。

（構成）
図７は、本実施形態にかかる画像処理装置７００を含むモニタリングシステム７０００の構成を示す図である。画像処理装置７００は、人物検出部７０１、判断者決定部７０２、行動認識部７０３、行動対象認識部７０４、観察対象決定部７０５を備える。そしてモニタリングシステム７０００は、撮影部７００１、観察対象認識部７００２、映像表示部７００３、画像処理装置７００を備える。なお、画像処理装置７００が、撮影部７００１、観察対象認識部７００２、映像表示部７００３のいずれか又は複数と一体型の装置であってもよい。また、モニタリングシステム７０００は、位置センサ７００４を備えていても良い。

撮影部７００１は、空間の撮影を行う赤外カメラで、赤外光を撮影方向に向けて発光するライトを備えているいわゆる暗視カメラである。本実施形態では、撮影部７００１が夜の病院の待合室を撮影する場合の例を中心に説明する。すなわち、撮影部７００１は、照明が落とされていることが多い夜の病院の待合室でも、そこの様子を撮影することができるカメラである。ただし、撮影部７００１が設置される場所は夜の病院に限らない。また、本実施形態のモニタリングシステムは、明るい場所にも適用可能である。

図８は、撮影部７００１の撮影画像の例を模擬的に示した図である。図８には、夜の病院の待合室に現われる不特定多数の人としての、急病で病院を訪れた患者８０１およびその付添８０２が存在することを示している。加えて図８は、病院内に現われる特定少数の人としての、患者をケアする三角形の帽子をかぶった看護師８００が存在することを示している。そして図８は、その看護師８００が患者８０１の前に、矢印の描かれたシート８０３を、矢印の向きを患者８０１の方へ向けて置いた場面を示している。シート８０３の矢印は赤外光反射塗料で描かれており、赤外カメラである撮影部７００１による撮影画像上に、はっきりと写る。

そのような、撮影部７００１による撮影画像は、人物検出部７０１と観察対象認識部７００２へ送られる。

人物検出部７０１は、撮影部７００１による撮影画像を入力すると共に、撮影画像の中から人物を検出する。これは、撮影部１００１により撮影された画像中から人物に関する画像特徴を検出することによって実現される。人物の検出方法は、第一実施形態に含まれる人物検出部１０１における人物検出方法と同様であるので詳細な説明は割愛する。図８に示した例においては、看護師８００、患者８０１、付添８０２が検出される。

人物が検出されると、人物検出部７０１は人物が検出された画像領域を特定するための情報を生成し、それを撮影部７００１の撮影画像と共に、判断者決定部７０２へと送る。人物検出部７０１は、１つの画像から複数の人物を検出した場合は、それぞれの人物の画像領域を特定するための情報を判断者決定部７０２へと送る。

判断者決定部７０２は、人物検出部７０１が検出した人物の中から、観察対象を決定する人物（判断者）を決定する。本実施形態において判断者とは、撮影部７００１が撮影する空間に現われる不特定多数の人（例えば、患者や付添）に対して何らかの応対を行う特定少数の人（例えば看護師や医師）のことである。図８においては、看護師８００が、観察対象を判断する人（判断者）である。

人物検出部７０１が検出する人物の中から、特定少数の判断者（本実施形態においては看護師８００）を決定する方法は、第一実施形態に含まれる判断者決定部１０２による決定方法と同様であるので詳細な説明は割愛する。ただし、例えば、看護師や医師に赤外光反射塗料が塗られた服や帽子を着せることにより、暗い場所でも効果的に判断者を特定するようにしてもよい。また、判断者となるべき人物に外光反射塗料が塗られた服や帽子を着せている場合は、人物検出部７０１による人物の検出を省略できる場合がある。

判断者決定部７０２は、判断者として一人を決定しても良いし、複数の人を判断者として決定しても良い。また、判断社決定部７０２は、一人も判断者を決定しない場合があってもよい。

判断者決定部７０２は、決定した判断者の画像領域を特定する情報と、撮影部７００１の撮影画像を行動認識部７０３へと送る。

行動認識部７０３は、判断者決定部７０２から受け取った撮影画像と判断者の画像領域を特定する情報に基づいて、判断者の行動を認識する。本実施形態において行動を認識することは、姿勢変化を示す情報を得ることである。

ゆえに行動認識部７０３は、まず、判断者決定部７０２より受け取る判断者の位置を特定する情報に基づいて、その人物（判断者）の姿勢を認識する。具体的な方法は、第一実施形態に含まれる行動認識部１０３による姿勢の認識方法と同様であるので詳細な説明は割愛する。図８に示した例においては、「手で物体を置く」という姿勢変化が認識される。行動認識部７０３は、行動認識結果を行動対象認識部７０４へと送る。行動認識結果には、判断者の行動（例えば「物体をおく」）を特定するための情報と、当該行動に関係する人体パーツの位置関係に関する情報（例えば「物体を置く腕の方向に関する情報」）を含む。

行動認識部７０３が生成する行動認識結果は、撮影部７００１の撮影画像とともに、行動対象認識部７０４へと送られる。

行動対象認識部７０４は、行動認識部７０３より特定の行動認識結果を受け取った場合に、その行動認識結果に対応する行動の対象となる物体の観察処理を行う。

特定の行動認識結果とは、本実施形態においては、「物体を置く」という姿勢変化を示す行動認識結果である。行動対象認識部７０４は、「物体を置く」という姿勢変化を示す行動認識結果を行動認識部７０３から受け取ると、「置く」という行動（姿勢変化）の対象である「物体」の認識処理を行う。

本実施形態の行動対象認識部７０４は、物体の認識処理のために、物体識別の技術を用いる。すなわち行動対象認識部７０４は、事前にいくつかの「物体」の画像パターンを保持しておく。そして、行動対象認識部７０４は、行動認識部７０３より「物体を置く」に対応する行動認識結果を受け取ると、行動認識結果に含まれる判断者の人体パーツの位置関係に関する情報と、事前に保持している画像パターンを用いて、判断者が置いた物体を検出する。なお、行動対象認識部７０４が、人体パーツの位置関係に関する情報と、事前に保持した画像パターンのうち、いずれか一方を用いて物体を検出するようにしてもよい。このようにして検出された物体が、行動対象として行動対象認識部７０４によって認識される。

事前に保持しておくいくつかの「画像パターン」とは、例えば矢印が描かれたプレートなど、ある方向を指し示す物体の画像パターンである。図８に示した例においては、矢印の描かれたシート８０３が認識される。この方向を指し示す物体は、検出するオブジェクトの例である。

行動対象認識部７０４は、方向を指し示す物体を判断者の近傍で認識すると、その物体が検出された撮影画像上の位置に関する情報、及び、撮影部７００１による撮影画像を観察対象決定部７０５へと送る。

観察対象決定部７０５は、行動対象認識部７０４が検出した物体（方向を指し示す物体）の撮影画像上の位置を示す位置情報と、撮影部７００１による撮影画像とを用いて、観察対象を決定する。具体的には、観察対象決定部７０５は、撮影部７００１の撮影画像上において、方向を指し示す物体が指し示している方向に存在する人物や物体を、観察対象として決定する。

図８に示した例においては、矢印の描かれたシート８０３が指し示している、患者８０１が観察対象として決定される。

観察対象決定部７０５は、観察対象を決定すると、観察対象の撮影画像上の位置を示す情報を観察対象認識部７００２へと送る。

観察対象決定部７０５は、方向を指し示す物体（シート８０３）が指し示している方向に人物や物体が発見できない場合、観察対象が未決定であることを示す情報が、観察対象認識部７００２へと送る。なお、観察対象決定部７０５は、必要に応じて、撮影部７００１のパン、チルト、ズーム等によって撮影範囲を変更させて、観察対象を探すことも可能である。

観察対象認識部７００２は、観察対象決定部７０５から受け取った観察対象の位置情報に対応する人物や物体を対象にした観察処理を、撮影部７００１より受け取る撮影画像に対して行う。なお、本実施形態の観察処理には、観察対象の追尾処理、認識処理、観察対象の画像を高解像度で切り出して記録する処理が含まれる。観察対象認識部７００２は、観察対象決定部７０５から新たに観察対象の位置に関する情報を受け取るまでは、同じ対象に対して観察処理を行う。そのために、観察対象認識部７００２は、内部に観察対象を識別するための情報を保持する。ただし、第一の実施形態で説明したように、観察対象の維持や切り替えについては、上記の例に限らない。

観察対象を識別するための情報は、撮影画像上の観察対象の位置を示す情報と、色や形状など観察対象の見た目に関する特徴量である。観察対象決定部７０５は、観察対象の位置を示す情報を、観察対象を決定するたび（所定時間ごと）に更新する。すなわち、観察対象決定部７０５は、撮影部７００１から撮影画像（第１の撮影画像）上の観察対象の位置を決定した後、次の撮影画像（第２の撮影画像）を取得すると、その第２の撮影画像から観察対象を検出する。観察対象決定部７０５は、観察対象の移動により、第１の撮影画像における観察対象の位置と第２の撮影画像における観察対象の位置が多少異なったとしても、観察対象の特徴量の情報を用いて第２の撮影画像上における観察対象を検出できる。また、観察対象決定部７０５は、第２の撮影画像から観察対象を決定すると、観察対象の第２の撮影画像上における位置と観察対象の特徴量を記憶して、次の第３の撮影画像で観察対象を検出する際に用いる。

観察対象認識部７００２は、観察対象決定部７０５から観察対象に関する情報を受け取らず、かつ、内部にも観察対象を識別するための情報を持たない場合には、観察処理を行わない。

観察対象認識部７００２が観察対象の画像領域に対して行う観察処理として、例えば、観察対象の撮影画像上の位置を追跡する処理（追尾処理）がある。また、観察対象認識部７００２は、観察処理として、観察対象の識別処理を行うことも可能である。識別処理とは、観察対象が人間であれば、その姿勢（例えば、屈んでいる、倒れているなど）の識別を行う処理である。また、観察対象認識部７００２は、例えば識別処理として、観察対象者の年齢、性別、個人、表情の識別等を行うことも可能である。

例えば、夜の病院の待合室にいる患者が観察対象の場合、観察対象認識部７００２は、観察対象である患者のバイタル（心拍数や体温）を撮影部７００１の画像を基に識別してもよい。これによれば、治療の準備などで患者を待たせている間に患者の容体が急変しても、その急変をモニタリングシステム７０００が認識して、看護師８００に知らせることができる。なお、カメラで撮影する画像に基づいて人物のバイタルを認識する方法は、非特許文献１などにより知られている。

＜非特許文献１＞Ｐｏｈ，Ｍ．Ｚ．，ＭｃＤｕｆｆ，Ｄ．Ｊ．，Ｐｉｃａｒｄ，Ｒ．Ｗ．，“ＡＭｅｄｉｃａｌＭｉｒｒｏｒｆｏｒＮｏｎ−ＣｏｎｔａｃｔＨｅａｌｔｈＭｏｎｉｔｏｒｉｎｇ，” ＡＣＭＳＩＧＧＲＡＰＨＥｍｅｒｇｉｎｇＴｅｃｈｎｏｌｏｇｉｅｓ，Ａｕｇ２０１１．
観察対象認識部７００２の認識結果とその認識がなされた画像上の位置を示す情報は、撮影部７００１より受け取る撮影画像と共に、映像表示部７００３へと送られる。

映像表示部７００３は、観察対象認識部７００２より撮影部７００１の撮影画像を受け取り、その画像を表示する。また、映像表示部７００３は、観察対象認識部７００２より認識結果とその認識がなされた画像上の位置を示す情報を受け取り、その情報を可視化して表示する。

例えば、撮影部７００１の撮影画像の上に、観察対象認識部７００２より認識結果を示す表示を重畳する。図８では患者８０１が点線で囲まれているが、これは患者８０１が観察対象として観察対象決定部７０５により決定され、その観察処理が観察対象認識部７００２により行われていることを可視化した例となっている。さらに、図８には、観察対象認識部７００２による認識結果を示すテキスト「心拍６０」が、患者８０１の傍に重畳表示されていることが示されている。

ただし、可視化の方法はこれに限らない。例えば、映像表示部７００３は、撮影部７００１より受け取る撮影画像の表示領域とは別の領域に、観察対象認識部７００２による認識結果を示すテキストやアイコン等とその認識結果がなされた撮影画像領域を切り出して表示してもよい。

撮影映像表示部７００３が観察対象認識部７００２の認識結果を示すことで、画像処理装置７００によってどの対象が観察対象として設定されたかを、ユーザが容易に確認できる。

（処理）
次に図９に示したフローチャートを用いて、本実施形態にかかる画像処理装置７００を含むモニタリングシステム７０００が行う処理について説明する。本実施形態の画像処理装置７００は、不図示のＣＰＵが、図９に係る処理を実行するためのプログラムをメモリから読み出して実行することにより、図９の処理を実現する。また、撮影部７００１、観察対象認識部７００２、映像表示部７００３のそれぞれにもＣＰＵが備わっており、そのＣＰＵが、それぞれの装置に必要なプログラムを実行する。ただし、例えば、観察対象認識部７００２と映像表示部７００３が一体型の装置で構成され、観察対象認識部７００２と映像表示部７００３の処理が同一のＣＰＵで実現されるなど、システム内の装置の構成は適宜変更可能である。

病院の待合室等の空間に撮影部７００１が設置された状態で、ユーザがモニタリングシステム７０００を起動すると、まずステップＳ９０１が行われる。

ステップＳ９０１では、撮影部７００１により撮影が行われる。撮影部７００１が複数のカメラを備えていれば、その複数のカメラによる撮影が行われる。撮影された全ての画像は、人物検出部７０１および観察対象認識部７００２へと送られる。なお、本実施形態では、撮影部７００１による撮影画像がすべて人物検出部７０１へ送られる例を中心に説明しているが、人物検出部７０１へ送られる撮影画像のフレームレートが撮影のフレームレートよりも低くても良い。例えば、撮影部７００１が毎秒３０フレームの撮影をする場合、１フレームおき、すなわち、毎秒１５フレームの撮影画像が人物検出部７０１へ送られるようにしてもよい。人物検出部７０１が撮影部７００１から撮影画像を入力すると、処理はステップＳ９０２へと進む。

ステップＳ９０２では、人物検出部７０１が、撮影部７００１から受け取る画像中から人物が映っている領域を検出する処理を行なう。人物検出部７０１による人物検出処理が終わると、処理はステップＳ９０３へと進む。

ステップＳ９０３では、人物検出部７０１が撮影部７００１から受け取る画像中から人物を検出したか否かが確認される。人物が検出されなかった場合は、処理はステップＳ９１０へと進む。人物が検出された場合は、人物検出部７０１は人物が検出された画像領域を特定する情報を生成し、それを撮影部７００１の撮影画像と共に、判断者決定部７０２へと送る。複数の人物が検出された場合は、人物検出部７０１はその各人物の画像領域を特定するための情報を生成し、判断者決定部７０２へと送る。人物検出部７０１が人物の位置を特定するための情報を判断者決定部１０２へ送ると、処理はステップＳ９０４へと進む。

ステップＳ９０４では、判断者決定部７０２が、観察対象を判断する人物（判断者）を決定する。本実施形態の判断者決定部７０２は、特に撮影部１００１による撮影画像内に存在する不特定多数の人（患者、付添）に対して何らかの応対を行う特定少数の人（看護師、医者）を、判断者として決定する。図８においては、看護師８００が判断者として決定される。なお、判断者となるべき人物（看護師や医師）が赤外光反射塗料付きの服や帽子を着ている場合、判断者決定部７０２は、より効果的に判断者を決定できる。

判断者を決定する処理が行われると、処理はステップＳ９０５へと進む。

ステップＳ９０５では、人物検出部７０１が検出した人物の中から観察対象の判断者を決定したか否かが確認される。判断者が決定されなかった場合は、処理はステップＳ９１０へと進む。判断者が決定された場合、判断者決定部抽出部７０２は、判断者の画像領域を特定するための位置情報と撮影画像を、行動認識部７０３へと送る。そして処理はステップＳ９０６へと進む。

ステップＳ９０６では、行動認識部７０３が、判断者の位置情報と共に撮影部７００１による撮影画像を受信し、判断者の姿勢変化（行動）を認識する。本実施形態において行動を認識するとは、姿勢変化を示す情報を得ることである。図８に示した例においては、「手で物体を置く」という姿勢変化が行動認識部７０３によって認識される。この行動認識結果は、撮影部７００１の撮影画像とともに、行動対象認識部７０４へと送られる。そして処理は、ステップＳ９０７へと進む。

ステップＳ９０７では、行動対象認識部７０４が、行動認識部７０３より受け取る行動認識結果が、特定の行動認識結果であるか否かを判定する。特定の行動認識結果とは、本実施形態においては、「物体を置く」という姿勢変化を示す行動認識結果である。行動認識部７０３から受け取った行動認識結果が特定の行動認識結果ではなかった場合、処理はステップＳ９１０へと進む。行動認識部７０３から受け取った行動認識結果が特定の行動認識結果であった場合には、処理はステップＳ９０８へと進む。

ステップＳ９０８では、行動対象認識部７０４が、行動認識部７０３より受け取る特定の行動認識結果に示される行動の対象となる物体の認識を行う。本実施形態における特定の行動認識結果とは、「物体を置く」という姿勢変化を示す認識結果である。行動対象認識部７０４は、「置く」という行動の対象である「物体」の認識を行う。さらに、本実施形態において、この「物体」は、例えば矢印が描かれたプレートなど、ある方向を指し示す物体である。図８に示した例においては、矢印の描かれたシート８０３が行動対象認識部７０４によって認識される。このシート８０３はけ出されるオブジェクトの例である。そうした方向を指し示す物体が認識されると、行動対象認識部７０４は、その物体（シート８０３）の撮影画像上の位置を示す情報と撮影部７００１による撮影画像が観察対象決定部７０５へと送られる。そして処理は、ステップＳ９０９へと進む。

ステップＳ９０９では、観察対象決定部７０５が、撮影部７００１の撮影画像内の人物や物体や領域の中から観察対象を決定する。すなわち、観察対象決定部７０５は、人物検出部７０１により入力される画像内の観察対象を、行動対象認識部７０４により検出された物体（シート８０３）に応じて決定する。より具体的には、観察対象決定部７０５は、撮影部７００１の撮影画像上において、方向を指し示す物体（シート８０３）が指し示している方向に存在する人物や物体を、観察対象として決定する。図８に示した例においては、矢印マークの描かれたシート８０３が指し示している患者８０１が観察対象として決定される。観察対象決定部７０５は、観察対象を決定すると、撮影部７００１の撮影画像上の観察対象（患者８０１）の撮影画像上の位置を示す情報と、観察対象の見た目に関する情報を、観察対象を識別するための情報として、観察対象認識部７００２へと送る。観察対象の見た目に関する情報とは、例えば、観察対象の色、形状、姿勢に関する情報である。

方向を指し示す物体（シート８０３）が指し示している方向に人物や物体が発見できない場合、観察対象決定部７０５は、観察対象が未決定であることを示す情報が、観察対象認識部７００２へと送る。なお、観察対象認識部７００２には、方向を指し示す物体が指し示している方向に人物や物体が発見できない場合、必要に応じて、パン、チルト、ズーム等の制御により撮影部７００１の撮影範囲を変更して観察対象を検出しても良い。そして処理は、ステップＳ９１０へと進む。

ステップＳ９１０では、観察対象認識部７００２にて、観察対象を識別するための情報が保持されている否かが確認される。本実施形態の観察対象認識部７００２は、観察対象を識別するための情報が保持されていなければ、処理はステップＳ９０１へと戻る。観察対象を識別するための情報が保持されていれば、処理はステップＳ９１１へと進む。

ステップＳ９１１では、観察対象認識部７００２が、観察対象の観察処理を実行する。本実施形態における観察処理とは、例えば、観察対象となっている人物のバイタルを撮影部７００１の画像に基づいて認識する処理である。また、観察処理の他の例として、撮影画像の明るさ等に応じて、観察対象（患者８０１）の追尾処理、表情認識処理、姿勢変化の認識処理、観察対象の領域を高解像度で切り出す処理などが行われるようにしてもよい。観察対象認識部７００２による認識結果と撮影画像上における観察対象の位置を示す情報は、撮影部７００１による撮影画像と共に、映像表示部７００３へと送られる。そして処理は、ステップＳ９１２へと進む。

ステップＳ９１２では、映像表示部７００３が、観察対象認識部７００２より撮影部７００１の撮影画像を受け取り、その画像を表示する。また、映像表示部７００３は、観察対象の位置に関する情報と、観察処理の結果を示す情報とを観察対象認識部７００２より受け取り、受け取った情報に応じた表示を行なう。映像表示部７００３は、例えば、観察対象（患者８０１）の近傍に、観察対象のバイタルを表示することが可能である。また、映像表示部７００３は、例えば、観察対象（患者８０１）を点線で囲む表示をしても良いし、観察対象に向けた矢印を撮影画像上に重畳して表示させてもよい。ただしこれらの表示に限らない。また、映像表示部７００３は、撮影部７００１による撮影画像の表示領域とは別の領域に、観察対象の観察結果（例えば、患者８０１のバイタル）をテキストまたはアイコン等で表示させることも可能である。映像表示部７００３が表示を終えると、処理はステップＳ９０１へと戻る。

以上の処理により、画像処理装置７００は、撮影部７００１の撮影画像内における特定の人（看護師８００）による、物体（シート８０３）を用いた特定の行動の対象となる人物や物体（患者８０１）を、観察対象認識部１００２の認識対象として設定できる。本実施形態に示す例で言えば、夜の病院の待合室にて、看護師８００が特定の物体（シート８０３）を用いて、診察を待つ患者８０１を指し示すと、それ以降、観察対象認識部１００２はその患者のバイタルを認識し続ける。画像処理装置７００は特定の人による特定の行動であるか否かで、観察対象を決定するので、例えば患者の付き添いの人などが勝手に特定の物体を動かしたとしても、観察対象の決定や変更は行われない。すなわち、意図せずに観察対象が変更されるといったことがない。

また、観察対象となった患者が動きまわるなどして観察対象を指し示す物体との位置関係が変わったとしても、特定人物（看護師８００）の特定行動を伴わないので、観察対象の決定や変更は行われない。これにより、夜の待合室で診察を待つ患者のような、顔色や表情や服装や姿勢といった通常用いられる個人識別特徴がいろいろな理由で使いにくい対象を、看護師のような特定の人物による特定物体に対する行動によって、認識処理の対象に設定することができる。認識対象となる人物に特別な指示をする必要がないので、具合が悪い患者などを対象にする際には有効な方法であると言える。

〔その他の実施形態〕
また、本発明は、以下の処理を実行することによっても実現される。すなわち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給する。そして、そのシステム或いは装置のコンピュータ（ＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。また、そのプログラムをコンピュータが読み取り可能な記憶媒体に記憶して提供してもよい。なお、本装置のコンピュータには、入力部から処理を実行する指示を入力し、その指示した処理の結果を出力部で表示してもよい。

＜実施例の効果＞
実施形態１に係る画像処理によれば、撮影部が撮影する空間にいる特定の人の、特定の目的を持った姿勢変化（行動）によって、その姿勢変化の対象となっている人物や物体や空間領域を、認識対象として設定できる。例えば、商業施設にいる店員が認識対象としたい人物を見つめたり手で指し示したりすることで、そこを訪れる一人もしくは複数の客を、万引き等の不審動作認識対象としたり、潜在優良顧客度の評価対象としたりすることができる。観察対象とするのは人物に限らず、店舗におかれた商品などの物体であっても良いし、物品などが通過する通路であっても良い。その場合、その物体を置き去り認識の対象としたり、その通路を物体通過検知を行う空間領域としたりすることができる。観察対象を設定するための特定の動作を、一定時間顔を向けるなどの、その場において自然な動作にしておけば、観察対象となる客を含む周囲の人々に気づかれることなく、観察対象と設定することができる。

実施形態２に係る画像処理装置によれば、撮影部が撮影する空間における人物検出分布が局所的に変化した領域やそうした領域にいる人物を、認識対象として設定できる。例えば、駅内を行きかう人々が、こぼれたジュースを避けて通行したり、怪我人を助けようとその周りに集まったりすると、人々がそうした行動を起こす理由となった「こぼれたジュース」や「怪我人」を、特に認識すべき観察対象として設定することができる。これにより、空間を行きかう人々がそれぞれ合理的に行動するだけで、特に観察対象を設定しようとは考えていなくとも、しかるべき対象を特に認識すべき観察対象として設定することができる。

実施形態３に係る画像処理装置によれば、撮影する空間にいる特定の人の、物体を用いた特定の行動の対象となる人物や物体を、観察対象認識部１００２の認識対象として設定することができる。例えば、夜の病院の待合室にて、看護師が特定の物体を用いて、診察を待つ患者を指し示すと、それ以降、その患者をバイタル認識などの対象として設定することができる。特定の人による特定の行動であるか否かで観察対象を決定するので、無関係の人が同様の行動を行ったとしても、観察対象の決定や変更は行なわれない。すなわち、意図せずに観察対象が変更されるといったことがない。また、観察対象となった患者が動きまわるなどして観察対象を指し示す物体との位置関係が変わったとしても、特定人物（看護師）の特定行動を伴わないので、観察対象の決定や変更は行われない。これにより、夜の待合室で診察を待つ患者のような、顔色や表情や服装や姿勢といった通常用いられる個人識別特徴がいろいろな理由で使いにくい対象を、看護師のような特定の人物による特定物体に対する行動によって、認識処理の対象に設定することができる。認識対象となる人物に特別な指示をする必要がないので、具合が悪い患者などを対象にする際には有効な方法であると言える。

なお、本実施形態における撮影部は、現実空間を撮影する物体でればどのような物体であっても良い。可視光カメラであっても良いし、赤外カメラであっても良いし、紫外カメラであっても良い。カメラの個数は、１つでも良いし、複数でも良い。

また、本実施形態における画像処理装置は、撮影部が撮影する空間に存在する特定人物の行動に基づいて、人物もしくは物体もしくは領域を特に認識すべき観察対象として設定する装置であればどのような装置であっても良い。ここで言う特定人物は、一人でも良いし、複数でも良いし、その空間に登場する全員であっても良い。特定人物の行動とは、その人物の姿勢変化でも良いし、空間を行きかう移動パターンや存在分布でも良いし、物体を使った行動でも良い。

また、本実施形態における位置センサとは、観察対象を決定する人物の位置を計測する物体であればどのような物体であっても良い。位置センサはＧＰＳのような位置センサであっても良いし、人物が映る映像を表示する表示部上のタッチセンサであっても良い。

また、本実施形態における観察対象認識部は、観察対象として設定された人物や物体を認識する物体であればどのような物体であっても良い。観察対象となった人物の顔を認識しても良いし、行動や表情を認識しても良いし、バイタル値を認識しても良い。観察対象が物体である場合、観察対象認識部は、その物体の移動経路を認識してもよいし、個体識別情報を認識しても良いし、サイズや重さを認識しても良い。

また、本実施形態における映像表示部は、撮影部による撮影画像および本実施形態における観察対象認識部の認識結果を表示する物体であればどのような物体であってもよい。

Claims

画像を入力する入力手段と、
前記入力された画像から人物を検出する検出手段と、
前記検出手段により検出された人物の所定の行動に応じて、当該所定の行動をした人物以外を観察対象として決定する決定手段とを有することを特徴とする画像処理装置。
前記決定手段は、前記画像から検出された人物の動作と移動とのうち少なくとも一方に基づいて前記行動の内容を特定することを特徴とする請求項１に記載の画像処理装置。
前記決定手段は、前記検出手段により検出された人物のうち所定の特徴量をもった人物の行動に応じて前記観察対象を決定することを特徴とする請求項１又は２に記載の画像処理装置。
前記決定手段は、前記検出手段により検出された人物のうち前記画像内に存在する時間が所定時間以上の人物の行動に応じて前記観察対象を決定することを特徴とする請求項１又は２に記載の画像処理装置。
位置センサからの情報を取得する取得手段を有し、
前記決定手段は、前記検出手段により検出された人物のうち前記位置センサからの情報に応じた人物の行動に応じて前記観察対象を決定することを特徴とする請求項１又は２に記載の画像処理装置。
前記決定手段は、前記検出手段により検出された人物の前記画像内の存在位置の変化に基づいて前記観察対象とする領域を決定することを特徴とする請求項１又は２に記載の画像処理装置。
前記入力手段により入力された画像から前記検出手段によって検出される人物の移動経路を特定する特定手段を有し、
前記決定手段は、前記特定手段により特定される前記人物の移動経路に変化が発生した場合において、当該変化によって人物が通過しなくなった領域を観察対象として決定することを特徴とする請求項１又は２に記載の画像処理装置。
画像を入力する入力手段と、
前記入力された画像からオブジェクトを検出する検出手段と、
前記検出手段により検出されたオブジェクトに応じて、当該オブジェクト以外を観察対象として決定する決定手段とを有することを特徴とする画像処理装置。
前記決定手段は、前記検出手段により検出されたオブジェクトの前記画像内の存在位置の変化に基づいて前記観察対象とする領域を決定することを特徴とする請求項８に記載の画像処理装置。
前記入力手段により入力された画像から前記検出手段により検出されるオブジェクトの移動経路を特定する特定手段を有し、
前記決定手段は、前記特定手段により特定される前記オブジェクトの移動経路に変化が発生した場合において、当該変化によってオブジェクトが通過しなくなった領域を観察対象として決定することを特徴とする請求項８に記載の画像処理装置。
前記決定手段は、前記検出手段により検出された矢印マークが示す方向に存在する人物を観察対象として決定することを特徴とする請求項８に記載の画像処理装置。
前記決定手段による前記観察対象の決定後に前記入力手段により入力された画像を記録する記録手段を有することを特徴とする請求項１乃至１１のうちいずれか１項に記載の画像処理装置。
前記画像の撮影を行う撮影部の撮影範囲を前記決定手段による前記観察対象の決定に応じて変更する制御手段を有することを特徴とする請求項１乃至１２のうちいずれか１項に記載の画像処理装置。
前記決定手段により決定された観察対象の領域を前記決定前よりも高い解像度で取得する制御手段を有することを特徴とする請求項１乃至１３のうちいずれか１項に記載の画像処理装置。
前記決定手段により決定された観察対象の人物の行動を判定する判定手段を有することを特徴とする請求項１又は２に記載の画像処理装置。
前記決定手段により決定された観察対象の人物の表情の判定を行う判定手段を有することを特徴とする請求項１又は２に記載の画像処理装置。
画像処理装置が行う画像処理方法であって、
画像を入力する入力工程と、
前記入力された画像から人物を検出する検出工程と、
前記検出工程により検出された人物の所定の行動に応じて、当該所定の行動をした人物以外を観察対象として決定する決定工程とを有することを特徴とする画像処理方法。
前記決定工程は、前記検出工程により検出された人物のうち所定の特徴量をもった人物の行動に応じて前記観察対象を決定することを特徴とする請求項１７に記載の画像処理方法。
前記決定工程は、前記検出工程により検出された人物の前記画像内の存在位置の変化に基づいて前記観察対象とする領域を決定することを特徴とする請求項１７に記載の画像処理方法。
画像処理装置が行う画像処理方法であって、
画像を入力する入力工程と、
前記入力された画像からオブジェクトを検出する検出工程と、
前記検出工程により検出されたオブジェクトに応じて、当該オブジェクト以外を観察対象として決定する決定工程とを有することを特徴とする画像処理方法。
前記決定工程は、前記検出工程により検出されたオブジェクトの前記画像内の存在位置の変化に基づいて前記観察対象とする領域を決定することを特徴とする請求項２０に記載の画像処理方法。
前記入力工程により入力された画像から前記検出工程により検出されるオブジェクトの移動経路を特定する特定工程を有し、
前記決定工程は、前記特定工程により特定される前記オブジェクトの移動経路に変化が発生した場合において、当該変化によってオブジェクトが通過しなくなった領域を観察対象として決定することを特徴とする請求項２０に記載の画像処理方法。
前記画像の撮影を行う撮影部の撮影範囲を前記決定工程による前記観察対象の決定に応じて変更する制御工程を有することを特徴とする請求項１７乃至２２のうちいずれか１項に記載の画像処理装置。
コンピュータを請求項１乃至１６のうちいずれか１項に記載の画像処理装置として動作させるためのプログラム。