以下、添付図面を参照して本発明をその好適な実施形態に従って詳細に説明する。
〔第一実施形態〕
本実施形態では、店舗、病院・銀行等の待合室、駅の改札やホームなど、不特定多数の人と、その人に対して何らかの応対を行う特定少数の人がいる空間にモニタリングシステムを適用する場合の例を中心に説明する。モニタリングシステムは、撮影部、観察対象認識部、映像表示部、画像処理装置を含み、画像処理装置が決定する観察対象を画像処理で認識しながら、その観察対象の撮影および撮影画像の表示を行う。
(構成)
図1は、本実施形態にかかる画像処理装置100を含むモニタリングシステム1000の構成を示す図である。画像処理装置100は、人物検出部101、判断者決定部102、行動認識部103、目的推定部104、観察対象決定部105を備える。そしてモニタリングシステム1000は、画像処理装置のほかに、撮影部1001、観察対象認識部1002、映像表示部1003を備える。また、モニタリングシステム1000は、位置センサ1004を備えていても良い。また、画像処理装置100が、撮影部1001、観察対象認識部1002、映像表示部1003のいずれか又は複数と一体型の装置であってもよい。
撮影部1001は、空間の撮影を行うカメラである。カメラの個数は、1つでも良いし、複数でも良い。また撮影部1001は、可視光を撮影するカメラでも良いし、赤外領域や紫外領域の光を撮影するカメラでも良い。撮影部1001は、モニタリングシステム1000の起動中は常時撮影している。撮影部1001が撮影する空間は、本実施形態においては店舗とする。ただし、撮影部1001が撮影する空間は、店舗に限らず、病院・銀行等の待合室、駅の改札やプラットホームなどであってもよい。本実施形態のモニタリングシステムは、不特定多数の人とその人に対して何らかの応対を行う特定少数の人がいる空間で用いるユースケースに特に適している。
図2は、撮影部1001の撮影画像の例を模擬的に示した図である。図2には、店舗内に現われる不特定多数の人としての、店舗の客201、202、203と、店舗内に現われる特定少数の人としての、接客を行う三角形の帽子をかぶった店員200が存在している。店員200は、客202を手で指し示している。
撮影部1001が撮影した画像は、人物検出部101と観察対象認識部1002へ送られる。
人物検出部101は、撮影部1001による撮影画像を入力すると共に、撮影画像の中から人物を検出する。これは、撮影部1001により撮影された画像中から人物に関する画像特徴を検出することによって実現される。画像特徴としては、局所領域における勾配方向をヒストグラム化した特徴量であるHistograms of Oriented Gradients(HOG)特徴量などを利用する。人物に関する画像特徴は、人物の映る画像を多量に集めて、それらに含まれる特徴量に共通する物体を、例えばBoostingと呼ばれるアルゴリズムを用いて、統計的に学習することによって決定する。人物検出部101は、人物に関する画像特徴が、撮影部1001から受け取る画像に含まれていれば、「人物が検出された」と判定する。また、人物検出部101は、人物が検出された領域を特定する。人物の検出は、人物を「頭部」や「手足」などの人体パーツに分割したうえで、各人体パーツを検出することで実現しても良い。
図2に示した例においては、店員200、客201、202、203が人物検出部101によって検出される。
人物が検出されると、人物検出部101は人物が検出された画像領域を特定するための情報を生成し、それを撮影部1001の撮影画像と共に、判断者決定部102へと送る。人物検出部101は、1つの画像から複数の人物を検出した場合は、それぞれの人物の画像領域を特定するための情報を判断者決定部102へ送る。
判断者抽出部102は、人物検出部101が検出した人物の中から、観察対象を決定する人物(判断者)を決定する。本実施形態において判断者とは、撮影部1001が撮影する空間に現われる不特定多数の人(例えば客)に対して何らかの応対を行う特定少数の人(例えば店員)のことである。図2においては、店員200が、観察対象を判断する人(判断者)である。
ここで言う観察対象とは、撮影部1001が撮影する画像に含まれる人物や物体や空間領域のうち、特に認識すべき対象のことである。本実施形態の観察対象認識部1002は、特に認識すべき対象に対して認識処理を行う。本実施形態における観察処理とは、高解像度記録のための領域抜き出し処理(注視処理)であったり、その対象の移動を追跡する処理であったり、その対象の個体を識別処理であったりする。この追跡処理は複数のカメラを連携して行ってもよい。対象が人物であれば、その姿勢認識であったり行動認識であったり表情認識であったりしてもよい。なお、通常時は撮影部1001による撮影画像を記録せず、観察対象が決定された場合に、当該観察対象を含む撮影画像が記録されるように制御するようにしてもよい。
人物検出部101が検出する人物の中から、特定少数の判断者(本実施形態においては店員200)を決定する方法として、例えば下記の方法がある。
1つ目の方法は、人物の領域の画像パターンから判断する方法である。具体的には、まず、判断者決定部102は、人物検出部101から送られる人物の画像領域を特定するための情報に対応する領域から、人物の服装や顔が映る部分を抽出する。そして、判断者決定部102は、抽出された画像パターンと、事前に保持してある画像パターン(例えば店員のユニフォームの画像パターンや店員の顔画像)と照合し、一致度が高い人物を判断者として決定する。図2に示す例では、店員専用の三角形の帽子を被っている人物が抽出される。判断者決定部102は、人物検出部101での人物検出方法の説明で述べた、人物の人体パーツを検出する方法を用いて各人物の服装や顔の部分領域を抽出することが可能である。画像パターンや顔画像の識別方法は、一般的に知られているので、詳細な説明は割愛する。
判断者を決定する別の方法としては、画像処理装置100の外部にある位置センサ1004から受け取る位置情報に基づいて決定する方法がある。位置センサ1004は、特定少数の人(例えば店員)が保持するセンサであって、位置情報を判断者決定部102に送信するセンサである。判断者決定部102は、位置センサ1004から受け取る位置情報が示す場所が、撮影部1001による撮影画像上ではどこに相当するかを算出する。そして、その画像上の位置(付近)で検出された人物を、判断者として決定する。
また、判断者を決定する別の方法としては、人物検出部101によって検出される時間の長さによって判断する方法がある。この方法は、観察対象を判断する人(店員)は、他の不特定多数の人(客)に比べて長時間、同じ場所(またはその付近)に居続けて、撮影部1001によって撮影される時間が長い、という想定に基づく方法である。具体的には、判断者決定部102は人物検出部101から受け取る人物の領域情報を使って、各人物の識別を行う。すなわち、判断者決定部102は、時間的に連続する画像において同じ位置もしくはごく近い位置に検出される人物は同一人物、そうでなければ別人物となるように各人物を識別する。そして、判断者決定部102は、人物の中で最も長時間検出されている人物を、判断者として決定する。なお、判断者決定部102は、複数の人物の中で最も長時間検出され、且つ、所定時間以上検出された人物を判断者として決定するようにしてもよい。
また、判断者を決定する別の方法として、判断者の選択を人手により行う方法がある。例えば、撮影部1001の撮影画像が表示される映像表示部1003の前に立つ人物が、映像表示部1003に対するタッチ操作やカーソル操作などによって、画像中の人物を指定する。すると、位置センサ1004は、指定された撮影画像上の位置を計測し、その計測値を位置情報として判断者決定部102へ送信する。そして判断者決定部102は、人物検出部101よって検出された人物のうち、位置センサ1004から受け取る位置情報に対応する位置に最も近い人物を判断者として決定する。
ただし、判断者の決定方法は上述の方法に限らない。また、判断者決定部102は上述の方法のうちいくつかを組み合わせて判断者を決定することも可能である。例えば、判断者決定部102は、特定の画像パターンに合致する人物のうち、最も長時間検出されている人物を判断者として決定することも可能である。
また、判断者決定部102は、判断者として1人だけ決定しても良いし、複数の人を判断者として決定しても良い。また、判断者決定部102が1人も判断者が決定されない場合があってもよい。
判断者決定部102は、決定した判断者の画像領域を特定する情報と、撮影部1001の撮影画像を行動認識部103へと送る。
行動認識部103は、判断者決定部102から受け取った撮影画像と判断者の画像領域を特定する情報とに基づいて、判断者の行動を認識する。本実施形態において行動を認識することは、姿勢変化(行動)を示す情報を得ることである。
ゆえに行動認識部103は、まず、判断者決定部102より受け取る判断者の位置を特定する情報に基づいて、その人物(判断者)の姿勢を認識する。
例えば、行動認識部103は、判断者決定部102から、判断者の位置情報および姿勢情報を人体パーツごとに受け取る。人体パーツの位置情報とは、人体パーツの画像上の位置を特定するための情報である。人体パーツの姿勢情報は、人体パーツの向き等を特定するための情報である。例えば顔パーツであれば、目や鼻がある顔の前面がどちら向きに映っているかで、異なる姿勢情報が生成される。行動認識部103は、例えば、頭や手足や胴体といったいくつかの人体パーツの画像上での位置関係や、顔パーツの向き等の姿勢情報から、判断者の姿勢を認識する。
そして、行動認識部103は、姿勢認識結果の時間変化を認識する。この時、判断者の全身の姿勢変化ではなく、一部のパーツのみの姿勢変化を行動として認識しても良い。例えば顔パーツのみの姿勢変化(例えば、向きの変化)を認識するようにしてもよい。
なお、姿勢変化の認識方法は上記に限定せず、他の公知の方法を用いても良い。
行動認識部103によって認識される姿勢変化(行動)の例は、「手を上げる」「手を振る」「お辞儀をする」「手で指し示す」「一定時間以上何かに顔を向ける」「掌を向ける」「下を向く」「物体を持つ」「歩く(足を交互に動かす)」「腰を下ろす」等である。複数の姿勢変化(行動)が同時に認識されても良い。すなわち、行動認識部103は、「歩きながら手を上げる」、という姿勢変化を認識することも可能である。
図2に示した例においては、行動認識部103によって「手で指し示す」という姿勢変化が認識される。つまり、行動認識部103は、判断者が両手を下げている状態を姿勢として認識した後、判断者が一定時間、前方に手を向けた状態を姿勢として認識すると、「手で指し示す」という姿勢変化(行動)を認識する。
行動認識部103は、判断者の行動(例えば、「手で指し示す」)を特定するための情報と、当該行動に関係する人体パーツの位置関係に関する情報(例えば「上がっている手の向きに関する情報」)を行動認識結果として目的推定部104へと送る。また、行動認識部103は、撮影部1001による撮影画像を目的推定部104へと送る。
目的推定部104は、行動認識部103より受け取る行動認識結果と撮影部1001の撮影画像を用いて、判断者の行動の目的(もしくは意図)を推定する。
この推定は、例えば機械学習における教師あり学習アルゴリズムによって実現する。具体的には、目的推定部104は、判断者の姿勢変化およびその周辺の様子を、その姿勢変化を起こした目的に対応づけるモデルを事前に作成し、そのモデルを用いて、各姿勢変化がどのような目的で起こされたかを、確率的に推定する。判断者の姿勢変化(行動)を特定するための情報は、行動認識部103より受け取る行動認識結果に含まれている。周辺の様子は、撮影部1001より受け取る撮影画像から目的推定部104が取得可能である。なお、周辺の様子は、撮影部1001が撮影する画像全体を周辺としてもよいし、判断者を中心とした一定範囲内のみの画像領域を周辺としても良い。また、一定範囲の大きさは、例えば画像上における判断者の大きさなどに応じて変化させることも可能である。
本実施形態の目的推定部104は、判断者の姿勢変化(行動)だけでなくその周囲の様子も合わせて、判断者の目的を推定することで、判断者の姿勢変化(行動)は全く同じでも、その目的が異なるようなケースを区別することができる。この点で、本実施形態の目的推定部104による判断者の姿勢変化の目的の推定処理は、姿勢変化だけから目的を解釈するジェスチャ認識とは異なる。
目的推定部104は、判断者の姿勢変化およびその周辺の様子と、その姿勢変化を起こした目的が対応づけられた組を事前に収集する。この収集は、例えば、モニタリングシステム1000の管理者があらかじめ設定することが可能である。
具体的にどのような組を収集するかは、モニタリングシステム1000を適用する場所によって異なる。あくまで例であるが、目的推定部104は、次のような<姿勢変化、周囲の状況、目的>の組を収集して、モデルを作成する。
すなわち、<手を上げる、視線の先に人がいる、挨拶>、<手を振る、視線の先に人がいる、挨拶>、<お辞儀する、頭を下げた先に人がいる、挨拶>、<手で指し示す、手を伸ばした先に人や物体や通路がある、指定>が収集する組の例である。
また、<一定時間顔を向ける、視線の先に人や物体がある、観察>、<掌を向ける、掌を向けた先に人や物体がある、指定>、<下を向く、視線の先に物体がある、作業(梱包、レジ打ち、帳簿付けなど)>なども収集する組の例になる。
また、他には、<歩く、視線の先に通路がある、移動>、<腰かける、椅子などがある、停留>、<何かを持つ、手の傍に物体がある、運搬>なども収集する組の例として挙げられる。
なお、行動認識部103は、次のような場合に、「一定時間顔を向ける」という姿勢変化が行われたと判定することが可能である。すなわち、行動認識部103は、判断者が同じ方向を一定時間以上見ていないと判定した(判断者の顔の方向が定まっていない)後、判断者が同じ方向を一定時間以上見たと判定した場合に、判断者が何かに顔を向ける姿勢変化を行ったと判定することが可能である。なお、同じ方向には所定の範囲も含まれる。
また、行動認識部103は、例えば、判断者が移動しつつ、同じ領域を見るように顔の方向を変化させている場合、判断者が何かに顔を向けるし姿勢変化を行ったと判定することも可能である。ただし、「一定時間顔を向ける」という姿勢変化の判定方法は上記の方法に限らない。
本実施形態においては、店員が店舗において実施しうる姿勢変化とその目的の組が事前に用意され、そこから判断者の姿勢変化およびその周辺の様子と、その姿勢変化を起こした目的を対応づけるモデルが生成されていることとなる。
目的推定部104は、そうして事前に作成されているモデルに基づいて、行動認識部103より受け取る行動認識結果と、撮影部1001より受け取る撮影画像とを用いて、行動認識結果に示される姿勢変化がどのような目的で行われたのかを推定する。
目的推定部104による目的の推定結果が、事前に決めておく特定の目的であった場合、目的推定部104は行動認識部103より受け取る情報(行動認識結果)と撮影部1001の撮影画像とを、観察対象決定部105へと送る。
ここで言う特定の目的とは、観察対象を指定する目的である。例えば、上述した挨拶、指定、観察、作業、移動、停留、運搬といった目的のうち、本実施形態では、挨拶、指定、観察が、特定の目的の例となる。
例えば、観察対象の判断者(店員)が一定時間以上何かに顔を向ける姿勢変化(行動)を行うと、目的推定部104は、判断者の姿勢変化の目的が「観察」であると推定する。また、目的推定部104は、判断者の行動の目的(観察)が特定の目的(観察対象を指定する目的)であると判定し、行動認識部103より受け取る情報(行動認識結果)と撮影部1001の撮影画像を観察対象決定部105へと送る。なお、目的推定部104は、判断者(店員)が一定時間以上、顔を向ける姿勢変化(行動)をしたとしても、周囲の状況によっては姿勢変化の目的が「観察」ではなく、例えば、「休憩」などと推定する場合もありうる。
また、本実施形態において、行動認識結果には、判断者の姿勢変化(例えば「一定時間以上顔を向ける」)を特定するための情報と、その姿勢変化に関係する人体パーツの位置関係に関する情報(例えば、視線の先を特定するための情報)とが含まれる。
また、例えば、観察対象の判断者(店員)が、何かの人物や物体や空間領域を指で差ししたり掌を向けたりすると、目的推定部104は、判断者の姿勢変化の目的が「指定」であると推定する。また、目的推定部104は、判断者の行動の目的(指定)が特定の目的(観察対象を指定する目的)であると推定し、行動認識部103より受け取る情報(行動認識結果)と撮影部1001の撮影画像を観察対象決定部105へと送る。この場合の行動認識結果には、判断者の姿勢変化(例えば、指で差した)を特定するための情報と、その姿勢変化に関係する人体パーツの位置関係に関する情報(例えば、指の先を特定するための情報や、その時の判断者の視線を特定するための情報)が含まれる。
また、例えば、観察対象の判断者(店員)が、誰かに対してお辞儀などを行うと、目的推定部104は、判断者の姿勢変化の目的が「挨拶」であると推定する。また、目的推定部104は、判断者の行動の目的(挨拶)が特定の目的(観察対象を指定する目的)であると推定し、行動認識部103より受け取る情報(行動認識結果)と撮影部1001の撮影画像を観察対象決定部105へと送る。この場合の行動認識結果には、判断者の姿勢変化(例えば、お辞儀)を特定するための情報、及び、その姿勢変化に関係する人体パーツの位置関係に関する情報(例えば、お辞儀の向き)が含まれる。なお、お辞儀の深さ、お辞儀をしている時間などを特定する情報を行動認識結果の情報に含めることも可能である。
本実施形態では、何らかの対象を持った行動(姿勢変化)の目的は、特定の目的と判定されうる。すなわち、本実施形態の目的推定部104は、何かの「観察」、何かの「指定」、誰かに対する「挨拶」、何かに対する「作業」、何かの「運搬」などの姿勢変化の目的をその特定の目的として判定しうる。ただし、何らかの目的を持ったすべての姿勢変化の目的が、特定の目的であるとして判定されるとは限らない。
一方、本実施形態では、何らかの対象を持たない姿勢変化(例えば、「移動」や「停留」など)の目的は、特定の目的とは判定されない。なお、ある方向に向かって進む、というケースは、「ある方向」に特段の意味がなければ、対象を持たない姿勢変化となる。
図2は、観察対象の判断者である店員200の姿勢変化が「手で指し示す」と行動認識部103によって認識されており、その周囲に客202が映っていて、その結果として、「指定」という目的が、目的推定部104により推定された場合を示している。図2に示した例においては、この「指定」という目的は、特定の目的の一つであると事前に決められていたとする。
なお、観察対象の判断者の姿勢変化が、歩きながら手を振る、といったように複合的な場合がある。この場合の目的は「移動」と「挨拶」の両方となりうる。もし事前に決めた特定の目的に「挨拶」が含まれていれば、目的推定部104は、判断者の目的が特定の目的に合致すると判定し、行動認識部103より受け取った情報(行動認識結果と撮影部1001による撮影画像)を、観察対象決定部105へと送る。
観察対象決定部105は、目的推定部104より行動認識結果と撮影部1001の撮影画像を受け取ると、撮影部1001の撮影画像に映る人物や物体や領域の中から観察対象を決定する。具体的には、行動認識部103の認識した姿勢変化(行動)の対象が撮影部1001の撮影画像上のどこに映っているかを特定する。
そのためにまず、観察対象決定部105は、行動認識部103が認識した姿勢変化が、撮影画像上において、どちらの方向に対してなされたのかの決定がなされる。その方向は、行為主体である判断者の人体パーツ同士の位置関係や、人体パーツ自身の姿勢によって決定される。
例えば、認識された姿勢変化が「一定時間以上何かに顔を向ける」であれば、その顔パーツの姿勢、すなわち、顔パーツにおける目の向いている方向が、その姿勢変化の向けられた方向である。
例えば、認識された姿勢変化が「掌を向ける」であれば、掌パーツが向いている方向が、その姿勢変化の向けられた方向である。例えば、認識された姿勢変化が「手で指し示す」であれば、動体パーツから腕パーツへと向かう方向が、その姿勢変化の向けられた方向である。なお、観察対象判断者の人体パーツ同士の位置関係や人体パーツ自身の姿勢は、目的推定部104より受け取る行動認識部103が認識した行動認識結果に含まれている。
続いて、行動認識部103が認識した姿勢変化の向けられた方向にある、人物や物体や空間領域の検出が行われる。例えば、観察対象決定部105は、撮影部1001の撮影画像上の判断者が抽出された位置から、認識された姿勢変化の向けられた方向に向かう直線付近に検出される人物や物体を、観察対象の判断者に近い順に検出する。人物や物体の検出方法自体は、公知の方法を用いることとして、説明は割愛する。
観察対象決定部105は、上記のようにして見つけた人物や物体や空間領域を、行動認識部103の認識した姿勢変化の対象とする。
図2に示した例においては、店員200が「手で指し示す」姿勢変化をしているので、その腕パーツが指し示す先に映っている客202が、行動認識部103の認識した姿勢変化の対象となる。
なお、認識した姿勢変化の対象は複数特定しても良い。図2に示した例においては、客202だけでなく、その先に映っている客201も、行動認識部103の認識した姿勢変化の対象としてもよい。
観察対象が決定されると、撮影部1001の撮影画像上の観察対象の位置を示す情報が、観察対象認識部1002へと送られる。
なお、観察対象決定部105は、判断者の姿勢変化の向けられた方向に撮影部1001の撮影方向を変化させ、判断者の姿勢変化の対象となる人物、物体、領域を検出することも可能である。この場合、観察対象決定部105は、撮影部1001に対して、パン、チルト、ズーム等の指示を送信して、撮影部1001の撮影方向を制御することが可能である。このようにすることで、観察対象決定部105は、判断者が特定の目的をした時点では撮影部1001の撮影範囲に入っていなかった人物や物体等も観察対象として決定することができる。
観察対象決定部105は、一度観察対象を決定した後は、新たに行動認識結果を受け取るまで、同じ対象を観察対象と決定し続ける。そのために、本実施形態の観察対象決定部105は、内部に観察対象を識別するための情報を保持する。
観察対象を識別するための情報は、撮影画像上の観察対象の位置を示す情報と、色や形状など観察対象の見た目に関する特徴量である。観察対象決定部105は、観察対象の位置を示す情報を、観察対象を決定するたび(所定時間ごと)に更新する。すなわち、観察対象決定部105は、撮影部1001から撮影画像(第1の撮影画像)上の観察対象の位置を決定した後、次の撮影画像(第2の撮影画像)を取得すると、その第2の撮影画像から観察対象を検出する。観察対象決定部105は、観察対象の移動により、第1の撮影画像における観察対象の位置と第2の撮影画像における観察対象の位置が多少異なったとしても、観察対象の特徴量の情報を用いて第2の撮影画像上における観察対象を検出できる。また、観察対象決定部105は、第2の撮影画像から観察対象を決定すると、観察対象の第2の撮影画像上における位置と観察対象の特徴量を記憶して、次の第3の撮影画像で観察対象を検出する際に用いる。
観察対象決定部105が目的推定部104から新たな行動認識結果を受け取らない場合、観察対象決定部105は、次の撮影画像上における観察対象の位置を特定すると共に、観察対象の現在の位置と、観察対象の特徴量を画像処理装置100の内部に保持させる。観察対象決定部105は、撮影部1001による所定時間ごとの撮影画像を取得する。観察対象決定部105は、撮影部1001による撮影画像をすべて取得しても良いし、例えば、1秒に1フレームの撮影画像を取得しても良い。
また、観察対象決定部105は、観察対象が決まっておらず、且つ、人物検出部101が1人の人物も検出していない場合は、撮影部1001による撮影画像を取得しないようにしても良い。なお、観察対象決定部105は、観察対象の位置情報を、観察対象認識部1002へも送る。
なお、上述の説明では、新たな行動認識結果を観察対象決定部105が取得するまで観察対象を変更しないことを中心に説明したが、この例に限らない。すなわち、観察対象決定部105は、観察対象の決定から所定時間が経過したり、観察対象が撮影画像内から認識されなくなったりした場合は、観察対象に対する観察処理を停止するように処理してもよい。また、観察対象決定部105は、新たな行動認識結果を受信した場合、新たな行動認識結果から特定される観察対象を、これまでの観察対象に加えて観察対象としてもよい。
すなわち、観察対象決定部105は、複数の人物、物体、領域等を観察対象として決定することが可能である。また、観察対象決定部105は、観察対象を決定した後に、新たに行動認識結果を受信した場合、観察対象を追加することが可能である。また、観察対象決定部105は、観察対象を決定した後に、新たなに所定の行動認識結果を受信した場合、当該観察対象を観察対象から外すことも可能である。
観察対象認識部1002は、観察対象決定部105から受け取る情報が示す撮影画像上の位置に映る人物や物体や空間領域を対象にした観察処理を、撮影部1001より受け取る撮影画像に対して行う。
本実施形態の観察対象認識部1002は、観察対象の観察処理として、観察対象の撮影画像上の位置を追跡する処理(追尾処理)を行うことが可能である。この追尾処理は複数のカメラを連携して行ってもよい。また、観察対象認識部1002は、観察処理として、観察対象の識別処理を行うことも可能である。識別処理とは、観察対象が人間であれば、その姿勢(例えば、屈んでいる、倒れているなど)の識別を行う処理である。また、観察対象認識部1002は、例えば識別処理として、観察対象者の年齢、性別、個人、表情の識別等を行うことも可能である。
また、観察対象認識部1002は、観察対象が物であれば、識別処理として、観察対象物が落とされた、観察対象物が誰かに投げられた、撮影画像の端を通らずに消えた(例えば、観察対象物がポケットに入れられた)などの状態を識別することが可能である。
また、観察対象認識部1002は、観察対象に対する観察処理として、高解像度記録のための領域抜き出し処理(注視処理)を行うことも可能である。この場合、観察対象認識部1002は、観察対象物の領域がより大きく表示されるように、撮影部1001の光学ズーム倍率を制御し、観察対象の決定前よりも高い解像度の画像を抜き出すことが可能である。ただし、観察対象認識部1002は、光学ズーム倍率を制御するのではなく、通常の記録時の解像度よりも高い解像度で記録するように記録を制御することも可能である。また、広い範囲を撮影する撮像部1001が撮影した画像から決定された観察対象物を、狭い範囲を撮影する撮像部で撮影するように、狭い範囲を撮影する撮像部を制御してもよい。
例えば、万引き防止を目的としたモニタリングシステムの場合は、観察対象とした人物が陳列されている商品をこっそりとポケットなどに盗み入れる姿勢変化を観察処理によって認識する。潜在優良顧客度を評価することを目的としたモニタリングシステムの場合は、観察対象とした人物の表情から、どの程度の購買意欲があるかを定量的に評価することも可能である。観察対象認識部1002が行う観察処理の内容は上記の内容に限らない。
なお、本実施形態の観察対象認識部1002は、観察対象の判断者の姿勢変化(行動)の目的に応じて、異なる観察処理を行うことも可能である。例えば、観察対象認識部1002は、判断者が挨拶をした場合は挨拶の対象者の表情の認識を行い、判断者が人物に対して指を差した場合は指を差された対象者の追尾を行うことが可能である。この場合、観察対象決定部105は、観察対象者の位置情報と共に行動認識部103による行動認識結果(判断者の行動の特定情報と、当該行動に関係する人体パーツの位置関係に関する情報)を観察対象認識部1002へと送る。そして、観察対象決定部105は、行動認識部103により認識された行動の内容に基づいて観察対象者に対する観察処理を決定する。
観察対象認識部1002の認識結果とその認識がなされた画像上の位置を示す情報は、撮影部1001より受け取る撮影画像と共に、映像表示部1003へと送られる。
映像表示部1003は、観察対象認識部1002より撮影部1001の撮影画像を受け取り、その画像を表示する。また、映像表示部1003は、観察対象認識部1002より認識結果とその認識がなされた画像上の位置を示す情報を受け取り、その情報を可視化して表示する。
例えば、撮影部1001の撮影画像の上に、観察対象認識部1002より認識結果を示す表示を重畳する。図2では客202が点線で囲まれているが、これは客202が観察対象として観察対象決定部105により決定され、その観察処理が観察対象認識部1002により行われていることを可視化した例となっている。
可視化の方法はこれに限らない。例えば、映像表示部1003は、撮影部1001より受け取る撮影画像の表示領域とは別の領域に、観察対象認識部1002による認識結果を示すテキストやアイコン等とその認識結果がなされた撮影画像領域を切り出して表示しても良い。
映像表示部1003が観察対象認識部1002の認識結果を示すことで、画像処理装置100によってどの対象が観察対象として設定されたかを、ユーザが容易に確認できる。
(処理)
次に図3に示したフローチャートを用いて、本実施形態にかかる画像処理装置100を含むモニタリングシステム1000が行う処理について説明する。本実施形態の画像処理装置100は、不図示のCPUが、図3に係る処理を実行するためのプログラムをメモリから読み出して実行することにより、図3の処理を実現する。また、撮影部1001、観察対象認識部1002、映像表示部1003のそれぞれにもCPUが備わっており、そのCPUが、それぞれの装置に必要なプログラムを実行する。ただし、例えば、観察対象認識部1002と映像表示部1003が一体型の装置で構成され、観察対象認識部1002と映像表示部1003の処理が同一のCPUで実現されるなど、システム内の装置の構成は適宜変更可能である。
店舗等の空間に撮影部1001が設置された状態で、ユーザがモニタリングシステム1000を起動すると、まずステップS301が行われる。
ステップS301(入力手順)では、撮影部1001により撮影が行われる。撮影部1001が複数のカメラを備えていれば、その複数のカメラによる撮影が行われる。撮影された全ての画像は、人物検出部101および観察対象認識部1002へと送られる。なお、本実施形態では、撮影部1001による撮影画像がすべて人物検出部101へ送られる例を中心に説明しているが、人物検出部101へ送られる撮影画像のフレームレートが撮影のフレームレートよりも低くても良い。例えば、撮影部1001が毎秒30フレームの撮影をする場合、1フレームおき、すなわち、毎秒15フレームの撮影画像が人物検出部101へ送られるようにしてもよい。人物検出部101が撮影部1001からの撮影画像を入力すると、処理はステップS302へと進む。
ステップS302(検出手順)では、人物検出部101が、撮影部1001から受け取る画像中から人物が映っている領域を検出する処理を行う。人物検出部101による人物検出処理が終わると、処理はステップS303へと進む。
ステップS303では、人物検出部101が撮影部1001から受け取る画像中から人物を検出したか否かが確認される。人物が検出されなかった場合は、処理はステップS309へと進む。人物が検出された場合は、人物検出部101は人物が検出された画像領域を特定する情報を生成し、それを撮影部1001の撮影画像と共に、判断者決定部102へと送る。複数の人物が検出された場合は、人物検出部101はその各人物の画像領域を特定するための情報を生成し、判断者決定部102へと送る。人物検出部101が人物の位置を特定するための情報を判断者決定部102へ送ると、処理はステップS304へと進む。
ステップS304では、判断者決定部102が、観察対象を判断する人物(判断者)を決定する。本実施形態の判断者決定部102は、特に撮影部1001による撮影画像内に存在する不特定多数の人(客)に対して何らかの応対を行う特定少数の人(店員)を、判断者として決定する。図2においては、店員200が判断者として決定される。
人物検出部101が検出する人物の中から、特定少数の人(本実施形態においては店員200)を決定する方法としては、撮影部1001の撮影画像内の人物の画像パターン(服装や顔の画像パターン)から判断する方法がある。その他にも、特定少数の人が保持している画像処理装置100の外部にある位置センサ1004から受け取る出力に基づいて、観察対象の判断者を決定する方法や、人物検出部101によって検出される時間の長さによって決定する方法がある。観察対象の判断者の選択を第三者が人手により行っても良い。観察対象の判断者を決定する処理が完了すると、処理はステップS305へと進む。
ステップS305では、人物検出部101が検出した人物の中から観察対象の判断者を判断者決定部102が決定したか否かが確認される。判断者が決定されなかった場合は、処理はステップS309へと進む。判断者が決定された場合、判断者決定部102は、判断者の画像領域を特定するための位置情報と撮影画像を、行動認識部103へと送る。そして処理はステップS306へと進む。
ステップS306では、行動認識部103が、判断者の位置情報と共に撮影部1001による撮影画像を受信し、判断者の姿勢変化(行動)を認識する。本実施形態において、行動は動作と言い換えることも可能である。
そのためにまず、行動認識部103は、判断者決定部102より受け取る判断者の画像領域を特定する位置情報に基づいて、その人物の姿勢を認識する。続いて行動認識部103は、撮影部1001より新たな撮影画像を受け取り、その画像上に映る観察対象の判断者を検出し、その姿勢を認識する。この姿勢認識の処理を一定回数繰り返して得られる一連の姿勢認識結果が、姿勢変化を示す情報である。このようにして得られた姿勢変化を示す情報は、行動認識結果として、行動認識部103によって目的推定部104へと送られる。そして処理は、ステップS307へと進む。
ステップS307では、目的推定部104が、行動認識部103より受け取る行動認識結果と撮影部1001による撮影画像を基に、観察対象の判断者の行動、すなわち、姿勢変化の目的(もしくは意図)を推定する。この推定は、例えば機械学習における教師あり学習アルゴリズムによって実現される。すなわち、目的推定部104は、観察対象の判断者の姿勢変化と、その周辺の様子とを、姿勢変化の目的に対応づけるモデルを用いて、判断者の姿勢変化の目的を推定する。なお、このモデルは、あらかじめ生成されている。この推定処理が行われると、処理はステップS308へと進む。
ステップS308では、目的推定部104が推定した判断者の姿勢変化の目的が、特定の目的であるか否かが判定される。本実施形態における特定の目的とは、観察対象を指定する目的である。本実施形態では、例えば、挨拶、指定、観察、作業、移動、停留、運搬といった目的のうち、挨拶、指定、観察が特定の目的(観察対象を指定する目的)に合致すると判定される。ただし、上記の例に限らない。目的推定部104は、推定された目的が特定の目的に合致すると判定した場合、行動認識部103より受け取った行動認識結果と、撮影部1001による撮影画像を観察対象決定部105へ送り、処理はステップS309へと進む。なお、行動認識結果には、判断者の姿勢変化(例えば、「指で対象物を差す」)を特定するための情報と、その姿勢変化に関係する人体パーツの位置関係に関する情報(例えば、指の方向)に関する情報とが含まれる。
一方、行動認識部103によって推定された目的が特定の目的に合致しないと判定された場合、処理はステップS301へと戻る。
なお、行動認識部103は、行動認識結果と撮影部1001による撮影画像のみならず、行動目的を特定する情報(例えば、「挨拶」や「指定」)も観察対象検出部105へ送るようにしても良い。このようにすれば、観察対象認識部1002は、判断者の行動目的に応じて、観察対象に対する観察処理を異ならせるようにすることが可能である。また、観察対象決定部105は、判断者の行動目的に応じた対象物(人物、物体、領域等)を観察対象として決定することが可能となる。
ステップS309(決定手順)では、観察対象決定部105が、撮影部1001の撮影画像内の人物や物体や領域の中から観察対象を決定する。すなわち、観察対象決定部105は、人物検出部101により検出された人物の所定の行動に応じて、当該所定の行動をした人物以外を観察対象として決定する。図2の例で言えば、判断者(店員200)が指を差した場合、その指の先に存在する客202が観察対象として決定される。なお、観察対象は人物に限らず、物体や領域であってもよい。
また、判断者の決定方法には、人物の見た目(画像パターンの特徴量)に基づいて決定する方法や、位置センサ1004から受け取る情報に基づいて決定する方法や、人体検出部101によって検出される時間の長さに基づいて決定する方法がある。
すなわち、判断者が人物の見た目(画像パターンの特徴量)に基づいて決定された場合、観察対象決定部105は、人物検出部101により検出された人物のうち所定の特徴量を持った人物(判断者)の行動(姿勢変化)に応じて観察対象を決定する。
また、判断者が位置センサ1004から受け取る情報に基づいて決定された場合、観察対象決定部105は、人物検出部101により検出された人物のうち位置センサからの情報に応じた人物(判断者)の行動(姿勢変化)に応じて観察対象を決定する。
また、判断者が人体検出部101によって検出される時間の長さに基づいて決定された場合、観察対象決定部105は、人体検出部101により検出された人物のうち撮影画像内に存在する時間が所定時間以上の人物(判断者)の行動に応じて観察対象を決定する。
ステップS308からステップS309に進んだ場合、観察対象決定部105は、行動認識部103が認識した行動認識結果と撮影部1001の撮影画像を受け取っている。観察対象決定部105は、これらの情報を用いて、観察対象を決定する。例えば、手で人を指し示したと推定された場合、指し示された人を観察対象に決定する。
具体的には、観察対象決定部105は、行動認識部103により認識された姿勢変化の対象が撮影部1001の撮影画像上のどこに映っているかを特定する。観察対象決定部105は、観察対象の決定ができれば、観察対象を特定する情報(観察対象特定情報)を内部に記憶したうえで、処理はステップS310へと進む。観察対象の決定ができない場合には、処理はステップS301へと戻る。本実施形態における観察対象特定情報には、撮影画像上の観察対象の位置を示す情報と、色や形状など観察対象の見た目に関する特徴量が含まれる。
ステップS303またはステップS305よりステップS309に進んだ場合、観察対象決定部105の内部に、観察対象特定情報が記憶されているかどうかの確認がなされる。観察対象特定情報が観察対象決定部105の内部に記憶されていると判定された場合、観察対象決定部105は観察対象特定情報の一部である観察対象の位置を示す情報を観察対象認識部1002に送り、処理はステップS310へと進む。観察対象特定情報が観察対象決定部105の内部に記憶されていなければ処理はステップS301へと戻る。
ステップS310では、観察対象認識部1002が、観察対象に対する観察処理を行う。より具体的には、観察対象認識部1002は、観察対象決定部105から観察対象の人物や物体や空間領域の撮影画像上の位置に関する情報を取得し、観察対象に対する観察処理を行う。観察処理には、例えば、観察対象に対する追尾処理、観察対象の識別処理(人物の姿勢、姿勢変化、表情の識別処理など)、高解像度の画像の抜き出し処理等が含まれる。
なお、観察対象認識部1002は、観察対象に対してどの観察処理を行うかを、観察対象が人物であるか、物体であるか、領域であるかに応じて決定することが可能である。また、観察対象認識部1002は、観察対象に対してどの観察処理を行うかを、観察対象の判断者が行なった姿勢変化(行動)に基づいて決定することが可能である。また、観察対象認識部1002は、観察対象に対してどの観察処理を行うかを、観察対象の判断者が行なった姿勢変化(行動)の目的の推定結果に基づいて決定することも可能である。また、観察対象認識部1002は、上記の方法を組み合わせて、観察対象に対する観察処理の内容を決定することも可能である。
例えば、観察対象認識部1002は、判断者がある人物を指で差した場合は、当該人物の追尾処理を行なうが、判断者がある人物に対して挨拶をした場合は、当該人物の表情を認識する処理を行うようにしても良い。また、観察対象認識部1002は、例えば、判断者が人物を指で差した場合は、当該人物の表情を認識する処理を行なうが、判断者が物体を指で差した場合は、当該物体の追尾処理を行なうようにしても良い。
観察対象認識部1002は、観察対象の観察処理を行なうと、観察対象の位置に関する情報と、観察処理の結果を示す情報と、撮影部1001による撮影画像とを映像表示部1003へ送り、処理はステップS311へと進む。
ステップS311では、映像表示部1003が、観察対象認識部1002より撮影部1001の撮影画像を受け取り、その画像を表示する。また、映像表示部1003は、観察対象の位置に関する情報と、観察処理の結果を示す情報とを観察対象認識部1002より受け取り、受け取った情報に応じた表示を行なう。
映像表示部1003は、例えば、観察対象を点線で囲む表示をしても良いし、観察対象に向けた矢印を撮影画像上に重畳して表示させても良い。ただしこれらの表示に限らず、映像表示部1003は、撮影画像を見たユーザが観察対象を容易に特定できるように、観察対象を際立たせる表示をすることができる。また、映像表示部1003は、撮影部1001による撮影画像の表示領域とは別の領域に、観察対象の観察結果(例えば、観察対象者の滞在時間、表情の識別結果、姿勢変化の識別結果等)をテキストまたはアイコン等で表示させることも可能である。映像表示部1003が表示を終えると、処理はステップS301へと戻る。
以上の処理により、画像処理装置100は、撮影部1001の撮影画像内にいる特定の人(観察対象の判断者)の、特定の目的を持った姿勢変化(行動)によって、その姿勢変化の対象となる人物や物体や空間領域を、観察処理の対象として設定できる。本実施形態に示す例で言えば、商業施設にいる店員が特定の姿勢変化をすることによって、そこを訪れる一人もしくは複数の客を、万引き等の不審動作認識対象としたり、潜在優良顧客度の評価対象としたりすることができる。すなわち、画像処理装置100は、店員が手で指し示したり、一定時間顔を向けたりする人物を、特に認識すべき観察対象として設定することができる。観察対象とするのは人物に限らず、店舗におかれた商品などの物体であっても良いし、通路の特定領域であっても良い。その場合、観察対象認識部1002は、観察対象となった物体を置き去り検出の対象としたり、運搬経路認識の対象としたりすることができる。観察対象を設定するための特定の行動を、一定時間顔を向けるなどの、その場において自然な行動にしておけば、観察対象となる客を含む周囲の人々に気づかれることなく、観察対象と設定することができる。
なお、本実施形態の説明において、観察対象認識部1002は、観察対象決定部105が示す撮影画像上の位置に映る人物や物体や空間領域を対象にした観察処理を行うとしたが、逆に、観察対象決定部105が示す人物や物体を、観察処理の対象から外しても良い。
例えば、すでに観察対象認識部1002が観察の対象にしている人物や物体や空間領域が観察対象決定部105によって示された場合には、観察対象認識部1002はその人物や物体や空間領域を、観察の対象から外しても良い。すなわち、本実施形態における画像処理装置100を用いて、観察対象設定の取り消しを行うこともできる。
同様に、観察対象認識部1002は、観察対象決定部105が示す以外の人物や物体や空間領域を対象にした認識処理を行っても良い。すなわち、特に観察したい人物や物体や空間領域を画像処理装置100で設定するのではなく、特に観察しなくても良い人物や物体や空間領域を画像処理装置100で設定することができる。
〔第二実施形態〕
本実施形態では、ショッピングモールの通路や、駅のホームやコンコースなど、不特定多数の人が行きかう空間にモニタリングシステムを適用する場合の例を中心に説明する。本実施形態のモニタリングシステムは、撮影部、観察対象認識部、映像表示部、画像処理装置を含み、画像処理装置が決定する観察対象を画像処理で認識しながら、その観察対象の撮影および撮影画像の表示等を行う。
(構成)
図4は、本実施形態にかかる画像処理装置400を含むモニタリングシステム4000の構成を示す図である。すなわち画像処理装置400は、人物検出部401、行動認識部403、目的推定部404、観察対象決定部405を備える。そしてモニタリングシステム4000は、撮影部4001、観察対象認識部4002、映像表示部4003、画像処理装置400を備える。なお、画像処理装置400が、撮影部4001、観察対象認識部4002、映像表示部4003のいずれか又は複数と一体型の装置であっても良い。
撮影部4001は、空間の撮影を行うカメラである。カメラの個数は、1つでも良いし、複数でも良い。また撮影部4001は、可視光を撮影するカメラでも良いし、赤外領域や紫外領域の光を撮影するカメラでも良い。撮影部4001は、モニタリングシステム4000の起動中は常時撮影している。撮影部4001が撮影する空間は、本実施形態においては駅のコンコースとする。ただし、撮影部4001が撮影する空間は、駅のコンコースに限らず、ショッピングモールの通路や、駅のプラットホームなどであってもよい。本実施形態のモニタリングシステムは、不特定多数の人が行きかう空間で用いるユースケースに特に適している。
図5は、撮影部4001の撮影画像の例を模擬的に示した図である。図5には、駅のコンコースを行きかう不特定多数の人としての、通行人501、502、503が示されている。そして、その撮影範囲の中央付近に、瓶が倒れて中のジュースがこぼれている様子が示されている。図5中にある曲線の矢印は、通行人501、502、503それぞれの移動経路を示している。すなわち、図5は、点線で表現されている通行人501、502、503の位置から、実線で表現されている通行人501、502、503の位置まで、曲線の矢印にそって各通行人が移動したことを示している。
そのような、撮影部4001が撮影した画像は、人物検出部401および観察対象認識部4002へと送られる。
人物検出部401は、撮影部4001による撮影画像を入力すると共に、撮影画像の中から人物を検出する。これは、撮影部4001により撮影された画像中から人物に関する画像特徴を検出することによって実現される。人物の検出方法は、第一実施形態に含まれる人物検出部101における人物検出方法と同様であるので詳細な説明は割愛する。図5に示した例においては、通行人501、502、503が検出される。
人物が検出されると、人物検出部401は人物が検出された画像領域を特定するための情報を生成し、それを撮影部4001の撮影画像と共に、行動認識部403へと送る。人物検出部101は、1つの画像から複数の人物を検出した場合は、その人物の画像領域を特定するための情報を行動認識部403へと送る。
行動認識部403は、人物検出部401より人物が検出された画像領域を特定するための情報を用いて、人物の集団としての行動を認識する。本実施形態において集団としての行動を認識することは、検出された人物全員の移動に関する情報を得ることである。
ゆえに行動認識部403は、まず、撮影部4001の撮影画像上での人物検出分布を作成し、内部に保持する。なお、人物検出分布は、撮影画像の所定の分割領域ごとに何人の人物が検出されたかを示す情報である。人物検出分布は、例えば、撮影画像の領域を9×9に分割した場合の分割領域ごとに何人の人物が検出されたかを示す情報である。ただし、分割サイズは9×9に限らない。
行動認識部403は、人物検出部401から人物が検出された画像領域を特定する情報を得るたびにこれを行う。加えて行動認識部403は、過去に蓄積した人物検出分布と最新の人物検出分布を比較することで、人物検出分布の時間変化を示す情報を生成する。そうして作成した最新の人物検出分布およびその時の人物検出分布の時間変化を示す情報が、検出された人物全員の移動に関する情報である。
つまり、行動認識部403は、撮影画像を分割した領域のそれぞれにおいて検出された人物の数を所定時間ごとに取得する。所定時間とは、撮影部4001による撮影のフレームレートに応じた時間(例えばフレームレート30フレーム/秒であれば1/30秒)でもよいし、もっと長い時間であってもよい。
また、行動認識部403は、撮影画像を分割した領域のそれぞれにおいて検出された人物の数の時間変化を所定時間ごとに取得する。人物検出分布、及び、人物検出分布の時間変化を示す情報は、目的推定部404へと送られる。
目的推定部404は、行動認識部403より受け取る行動認識結果(人物検出分布、及び、人物検出分布の時間変化を示す情報)をもとに、撮影部4001の撮影画像に映る人物の行動目的(もしくは意図)を推定する。なお、目的推定部404が推定する行動の目的とは、人物の移動の目的である。本実施形態では、人物検出分布と人物検出分布の時間変化を示す情報とから行動目的を推定する例を説明しているが、例えば、人物検出分布の時間変化を示す情報のみから行動目的が推定されるようにしてもよい。また、目的推定部404が行動認識部403から人物検出分布のみを受け取って、人物検出分布の時間変化を判定し、それによって人物の行動目的を推定するようにしてもよい。
目的推定部404は、行動認識部403より受け取る最新の人物検出分布およびその時の人物検出分布の時間変化に、以下に述べるような特定のパターンが含まれているか否かを判定する。そして、目的推定部404は、特定パターンが含まれていると判定した場合、それに対応する目的を推定する。
特定のパターンの一例は、「人物が検出されなくなった空間領域が急に生じる」という人物検出分布の変化のパターンである。例えば、多くの人がコンコースを行きかうため、そこを撮影する撮影部4001の撮影画面が多くの人物で埋め尽くされているとする。その時に、急に、ある空間領域から検出される人物数が減り、その後人物が一定時間以上検出されないとする。この場合、目的推定部404が行動認識部403より受け取る人物検出分布は、画面全体に人物の検出数が分布されていた状態から、ある空間領域だけ負の方向に人物検出数が変化し、その空間領域以外の領域は引き続き人物が検出される状態になる。なお、人物検出をせずに、動体(移動物体)検出をすることにより、動体が検出されなくなった空間領域が急に生じたことを検出するようにしてもよい。人物検出、動体検出は、オブジェクト検出の例である。
このような状態になると、目的推定部404は、「人物が検出されなくなった空間領域が急に生じる」という変化パターンが発生したと判定する。そして、目的推定部404は、「ある場所の回避」を撮影画像内の人物の目的として推定する。
図5に示しているのが、このケースに相当する。すなわち図5では、撮影領域の中央付近に瓶が倒れてジュースがこぼれ出ているので、通行人はそこを避けて通行している。よって、ジュースがこぼれた時点から、ジュースの周囲からは急に人物が検出されなくなるので、目的推定部404は、ある空間領域から急に人物が検出されなくなる人物検出分布の変化パターンを確認する。そして、目的推定部404は、「ある場所の回避」を撮影画像内の人物の行動目的として推定する。
また、他の特定パターンの例として、「人物が検出されない空間領域が、ある場所を中心に広がっていく」というパターンがある。これは、ある場所で火事などが起きて、周囲の人がそこから離れるように逃げていくような場合に見られる人物検出分布の変化パターンである。目的推定部404は、「人物が検出されない空間領域がある場所を中心に広がっていく」というパターンが発生したと判定すると、撮影画像内の人物の行動目的を「ある場所の回避」であると推定する。この推定も、人物検出の代わりに動体検出により代用可能である。
また、他の特定パターンの例として、「人物が検出されないドーナツ状の空間領域が移動する」というパターンもありうる。これは、誰かしらの不審人物を、人々が避けるような場合に見られる人物検出分布の変化パターンである。目的推定部404は、「人物が検出されないドーナツ状の空間領域が移動する」というパターンが発生したと判定すると、撮影画像内の人物の行動目的を「特定物体(特定人物)の回避」であると推定する。この推定も、人物検出の代わりに動体検出により代用可能である。
また、他の特定パターンの例として、「ある空間領域で検出される人物の数が周囲に比べて急に増える」というようなパターンもありうる。目的推定部404は、「ある空間領域で検出される人物の数が周囲に比べて急に増える」というパターンが発生したと判定すると、撮影画像内の人物の行動目的を「特定物体(特定人物)への注目」であると推定する。例えばこれは、その場所に助けを必要とするような人(怪我人など)がいて、周囲の人が手を貸そうとその場所に集まってくる場合に見られる人物検出分布の変化パターンと行動目的である。この推定も、人物検出の代わりに動体検出により代用可能である。
このように、目的推定部404は、人物検出分布が局所的に変化するようなパターンを特定パターンとして検出し、その特定パターンに対応する目的を撮影画像内の人物の行動目的として推定する。
目的推定部404は、行動認識結果(最新の人物検出分布、及び、人物検出分布の時間変化を示す情報)に基づいて特定パターンが発生したと判定した場合、行動認識結果の情報と撮影部4001の撮影画像を観察対象決定部405へと送る。
観察対象決定部405は、目的推定部404から行動認識結果(人物検出分布、及び、人物検出分布の時間変化を示す情報)と撮影部4001による撮影画像を受け取ると、観察対象を決定する。すなわち、観察対象決定部405は、目的推定部404より受け取る撮影部1001の撮影画像上の人物検出分布およびその時の人物検出分布の時間変化を示す情報に基づいて、特に観察すべき人物や物体や空間領域を決定する。
例えば、目的推定部404より受け取る行動認識結果の情報が「人物が検出されなくなった空間領域が急に生じる」というパターンを示している場合、観察対象決定部405は「人物が検出されなくなった空間領域」を特に観察すべき観察対象として決定する。「人物が検出されなくなった空間領域」でなく、「動体が検出されなくなった空間領域」でもよい。以下、同様である。
また、目的推定部404より受け取る行動認識結果の情報が「人物が検出されない空間領域が、ある場所を中心に広がっていく」というパターンを示している場合、観察対象決定部405は、「人物が検出されない空間領域」を特に観察すべき観察対象として決定する。
また、目的推定部404より受け取る行動認識結果の情報が「人物が検出されないドーナツ状の空間領域が移動する」というパターンを示している場合、観察対象決定部405は、「ドーナツの中心」を特に観察すべき観察対象として決定する。
また、目的推定部404より受け取る行動認識結果の情報が「ある空間領域で検出される人物の数が周囲に比べて急に増える」というパターンを示している場合、観察対象決定部405は、「人物の数が急に増えた空間領域」を特に観察すべき観察対象として決定する。
つまり、観察対象決定部405は、目的推定部404より受け取る行動認識結果(人物検出分布、及び、人物検出分布の時間変化を示す情報)が示す特定パターンごとに、観察対象の決定方法をルール化して内部に保持しており、それに従って観察対象を決定する。
観察対象決定部405が観察対象を決定すると、撮影部4001の撮影画像上の観察対象の位置を示す位置情報が、観察対象決定部405から観察対象認識部4002へと送られる。
観察対象認識部4002は、観察対象決定部405から受け取る位置情報が示す撮影画像上の空間領域や人物や物体を対象にした観察処理を、撮影部4001より受け取る撮影画像に対して行う。
観察対象認識部4002が観察対象の映る画像領域に対して行う観察処理には、例えば、撮影画像上の領域が決定されている場合には、その領域に存在する物体を特定する認識処理が施される。図5に示した例の場合、観察対象認識部4002によって、「倒れた瓶とこぼれる液体(ジュース)」が認識される。それ以外にも、観察対象認識部4002は、観察対象となった人物や物体の撮影画像上の位置を追跡する追尾処理をすることも可能である。この場合、観察対象の人物や物体の周囲に枠を表示させ、人物や物体の移動に応じて、その枠も移動される。
また、観察対象認識部4002は、観察処理の例として、観察対象が人物であればその姿勢や動作を認識する処理や、その表情を認識する処理を行うことも可能である。さらに、観察対象認識部4002は、観察処理の例として、観察対象の人物の姿勢、動作、表情等の認識結果を用いて、観察対象となった人物の不審度合いを認識しても良い。ただし、観察対象認識部4002が行う観察処理は上記の例に限らない。また、1つの観察対象に対して複数の観察処理(例えば追尾処理と表情認識処理)を行うようにしてもよい。
また、人物の行動目的に応じて、観察対象認識部4002は、撮影部4001に対して、パン、チルト、ズームの制御を行なうことも可能である。例えば、観察対象が撮影画像の中心に来るように、パンやチルトが行なわれる。また、例えば、人物が検出されなくなった領域が急に生じた場合には、その領域を拡大して見られるようにズーム倍率を制御し、人物が検出されない領域が広がっている場合には、周囲の状況を確認しやすくするためにズーム倍率を下げるようにしてもよい。このように、観察対象認識部4002は、認識された特定パターンや、決定された観察対象などに応じて、撮影部4001の撮影範囲を変化させることも可能である。また、広い範囲を撮影する撮像部4001が撮影した画像から決定された観察対象を、狭い範囲を撮影する撮像部で撮影するように、狭い範囲を撮影する撮像部を制御してもよい。
観察対象認識部4002の認識結果とその認識がなされた画像上の位置を示す情報は、撮影部4001の撮影画像と共に、映像表示部4003へと送られる。
映像表示部4003は、観察対象認識部4002より撮影部4001の撮影画像を受け取り、その画像を表示する。また、映像表示部4003は、観察対象認識部4002より観察状況や観察結果、及び、観察対象の位置の情報を受け取り、その情報を用いて観察状況や観察結果の情報を可視化して表示する。例えば、映像表示部4003は、撮影部4001の撮影画像の上に、観察対象認識部4002による観察結果を示す表示を重畳する。
図5では倒れた瓶とこぼれるジュースが点線で囲まれているが、これは通行人501、502、503が避けて通る空間領域が観察対象として観察対象決定部405により決定され、その位置の観察処理が行われていることを可視化した例を示している。
ただし、観察状況や観察結果の可視化の方法はこれに限らず、例えば、撮影部4001による撮影画像の表示領域とは別の表示領域に、観察対象認識部4002による観察状況や観察結果を示すテキストが表示されるようにしてもよい。また、例えば、観察状況や観察結果を示すテキストと共に、観察対象の領域を切り出した画像を撮影画像の表示領域とは別の表示領域に表示させるようにすることも可能である。また、映像表示部4003は、観察対象の認識処理中であることを示すテキストやマークを表示させることも可能である。さらに、観察処理は途中であるが、特定パターン(例えば、ある領域で検出される人物の数が周囲に比べて急に増えるというパターン)が検出された場合、その領域の観察処理(例えば認識処理)が完了する前に、画面上に特定パターンが検出されたことを表示させることも可能である。ただし、映像表示部4003による画像の表示方法は上記に限らない。
(処理)
次に図6に示したフローチャートを用いて、本実施形態にかかる画像処理装置400を含むモニタリングシステム4000が行う処理について説明する。本実施形態の画像処理装置400は、不図示のCPUが、図6に係る処理を実行するためのプログラムをメモリに読みだして実行することにより、図6に係る処理を実現する。また、撮影部4001、観察対象認識部4002、映像表示部4003のそれぞれにもCPUが備わっており、そのCPUが、それぞれの装置に必要なプログラムを実行する。ただし、例えば、観察対象認識部4002と映像表示部4003が一体型の装置で構成され、観察対象認識部4002と映像表示部4003の処理が同一のCPUで実現されるなど、システム内の装置の構成は適宜変更可能である。
ショッピングモールの通路や駅のホームやコンコースなど、不特定多数の人が行きかう空間に撮影部4001が設置された状態で、ユーザがモニタリングシステム4000を起動すると、まずステップS601が行われる。
ステップS601では、撮影部4001により撮影が行われる。撮影部4001が複数のカメラを備えていれば、その複数のカメラによる撮影が行われる。撮影された全ての画像は、人物検出部401および観察対象認識部4002へと送られる。なお、本実施形態では、撮影部4001による撮影画像がすべて人物検出部401へ送られる例を中心に説明しているが、人物検出部401へ送られる撮影画像のフレームレートが撮影のフレームレートよりも低くても良い。例えば、撮影部4001が毎秒30フレームの撮影をする場合、1フレームおき、すなわち、毎秒15フレームの撮影画像が人物検出部401へ送られるようにしてもよい。人物検出部401が撮影部4001から撮影画像を入力すると、処理はステップS602へと進む。
ステップS602では、人物検出部401が、撮影部4001から受け取る画像中から人物が映っている領域を検出する処理を行なう。人物検出部401による人物検出処理が終わると、処理はステップS603へと進む。
ステップS603では、人物検出部401が撮影部4001から受け取る画像中から人物を検出したか否かが確認される。人物が検出されなかった場合は、処理はステップS601へ戻る。人物が検出された場合は、人物検出部401は人物が検出された画像領域を特定する情報を生成し、それを撮影部4001の撮影画像と共に、行動認識部403へと送る。複数の人物が検出された場合は、人物検出部401はその各人物の画像領域を特定するための情報を生成し、行動認識部403へと送る。人物検出401が人物の位置を特定するための情報を行動認識部403へ送ると、処理はステップS604へと進む。
ステップS604では、行動認識部403は、人物が検出された画像領域を特定する情報を用いて、人物の行動を認識する。行動認識部403は、まず、撮影部4001による撮影画像上での人物検出分布を生成し、内部に保持する。すなわち、行動認識部403は、撮影画像の所定の分割領域ごとに何人の人物が検出されたかを示す情報を生成する。例えば、撮影部4001の撮影範囲が9×9の81領域に分割された場合、行動認識部403は、その81領域ごとに、何人の人物が検出されたかを示す人物検出分布を生成する。ただし、撮影画像の分割サイズは9×9に限らず、もっと大きくても良いし、小さくても良い。この分割サイズは、ユーザが任意に設定することが可能である。また、行動認識部403は、ユーザが指定した分割サイズが大きい(例えば90×90)ことにより、処理が間に合わなくなると判定した場合は、ユーザに対して警告を表示して分割サイズの変更を促すことや、自動的に分割サイズを変更することが可能である。また、複数の領域にまたがっている人物がいる場合、本実施形態の行動認識部403は、その人物の中心部を判定し、その中心部が属している領域にその人物が存在すると判定する。
行動認識部403は、過去にステップS604を実施していれば、過去に蓄積した人物検出分布と最新の人物検出分布を比較することで、人物検出分布の時間変化を示す情報を生成する。人物検出分布の時間変化とは、撮影画像の所定の分割領域ごとに検出された人物の時間変化を示す情報である。行動認識部403は、最近の1分間における分割領域ごとの人物の検出量の合計値をカウントする。
例えば、最近の1分間(例えば13時00分〜13時01分)で第1の分割領域では100人の人物が検出され、第2の分割領域では90人の人物が検出された場合の例を説明する。この場合、次の1分間(13時01分〜13時02分)では第1の分割領域で120人検出され、第2の分割領域で2人検出された場合、行動認識部403は、以下のような時間変化を示す情報を生成する。
すなわち、行動認識部403は、13時02分の時点での時間変化を示す情報として、第1の分割領域はプラス20人、第2の分割領域はマイナス88人ということを示す情報を生成する。例えば、撮影画像が81分割されていた場合、本実施形態の行動認識部403は、81個の分割領域ごとの時間変化を示す情報を生成する。ただし、人物検出分布の時間変化に関する情報は上記の例に限らない。
例えば、行動認識部403は、人物検出部401により検出された人物のそれぞれの移動経路を特定することが可能である。この場合、行動認識部403は、各人物がどの領域からどの領域へ移動しているのかを示す情報を人物検出分布の時間変化に関する情報として生成することができる。
また、人物検出の代わりに、動体検出で代用してもよい。人物検出、動体検出は、オブジェクト検出の例である。
行動認識部403が最新の人物検出分布、および、人物検出分布の時間変化を示す情報を行動認識結果として目的推定部404へと送ると、処理はステップS605へと進む。
ステップS605では、目的推定部404が、行動認識部403より受け取る行動認識結果(人物検出分布、及び、人物検出分布の時間変化を示す情報)に基づいて、撮影部4001の撮影画像内の人物の行動の目的(もしくは意図)を推定する。
本実施形態の目的推定部404は、行動の目的として、人物による移動の目的や移動経路の選択の目的を推定する。
目的推定部404は、まず、行動認識部403より受け取る最新の人物検出分布と人物検出分布の時間変化に、特定のパターンが含まれているか否かを判定する。そして、目的推定部404は、特定のパターンが含まれていると判定した場合、それに対応する目的を推定する。この推定処理が目的推定部404により行われると、処理はステップS606へと進む。
ステップS606では、目的推定部404により推定された目的が、事前に決めておく特定の目的であるか否かが目的推定部404により判定される。推定された目的が特定の目的であったと判定された場合、目的推定部404は、行動認識部403より受け取った行動認識結果および撮影部1001の撮影画像を、観察対象決定部405へと送り、処理はステップS607へと進む。目的推定部404が推定した行動の目的が、事前に決めておく特定の目的でなかった場合、処理はステップS601へと戻る。
ステップS607では、観察対象決定部405が行動認識結果と撮影部1001の撮影画像とを用いて、撮影部4001の撮影画像内から観察対象となる人物や物体や領域を決定する。本実施形態における行動認識結果には、人物検出分布、及び、人物検出分布の時間変化を示す情報が含まれる。すなわち、本実施形態の観察対象決定部405は、人物検出部401により検出された人物の移動(存在位置の変化)に基づいて観察対象を決定する。図5の例では、移動している人物以外のオブジェクト(ジュース)が、観察対象として決定されている。なお、観察対象はオブジェクトに限らず、領域でもよい。
すなわち、目的推定部404より受け取る撮影部1001の撮影画像上の人物検出分布および人物検出分布の時間変化を示す情報に基づいて、観察対象決定部405は、特に認識すべき人物、物体、領域を決定する。
また、本実施形態の観察対象決定部405は、人物の移動経路に関する情報に基づいて、人物の移動経路に変化が発生したと判定された場合に、当該変化によって人物が通過しなくなった領域を観察対象として決定することができる。
人物が通過しなくなった領域を観察対象として決定する場合、人物の行動目的を推定せずに、観察対象を決定することも可能である。この場合も、人物検出の代わりに、動体検出で代用することもできる。
観察対象が決定されると、観察対象決定部405は、撮影部4001の撮影画像上の観察対象の位置を示す情報を観察対象認識部4002へと送り、処理はステップS608へと進む。
ステップS608では、観察対象認識部4002が、観察対象決定部405から受け取る情報が示す撮影画像上の人物、物体、領域を対象にした観察処理を、撮影部4001より受け取る撮影画像に対して行う。そして、観察対象認識部4002は、観察処理結果と、観察対象の撮影画像上の位置を特定するための情報を撮影部4001による撮影画像と共に映像表示部4003へと送る。観察処理結果と撮影画像が映像表示部4003へと送られると、処理は、ステップS609へと進む。
ステップS609では、映像表示部4003が、観察対象認識部4002より撮影部4001の撮影画像を受け取り、その画像を表示する。映像表示部4003は、観察対象認識部4002より観察処理結果を受け取ると共に、撮影画像上における観察対象の位置を示す情報を受け取り、その情報に応じた表示を行なう。
映像表示部4003は、例えば、観察対象を点線で囲む表示をしても良いし、観察対象に向けた矢印を撮影画像上に重畳して表示させてもよい。ただしこれらの表示に限らず、映像表示部4003は、撮影画像を見たユーザが観察対象を容易に特定できるように、観察対象を際立たせる表示をすることができる。また、映像表示部4003は、撮影部4001による撮影画像の表示領域とは別の領域に、観察対象の観察結果(例えば、観察対象の滞在時間、観察対象の識別結果、観察対象の動きの方向等)をテキストまたはアイコン等で表示させることも可能である。映像表示部4003が表示を終えると、処理はステップS601へと戻る。
以上の処理により、画像処理装置400は、撮影部4001の撮影画像内における人物検出分布が局所的に変化した領域やそうした領域にいる人物を、観察対象認識部4002の認識対象として設定することができる。例えば、駅内を行きかう人々が、こぼれたジュースを避けて通行したり、怪我人を助けようとその周りに集まったりすると、画像処理装置400は、人々がそうした行動を起こす理由となった「こぼれたジュース」や「怪我人」を、観察対象として設定できる。本発明は、撮影部4001が撮影する空間を行きかう人々が合理的に行動することによっておこる人物検出分布の偏りが、特に認識すべき対象を指し示すことを利用している。
〔第三実施形態〕
本実施形態では、店舗、病院・銀行等の待合室、駅の改札やホームなど、不特定多数の人と、その人に対して何らかの応対を行う特定少数の人がいる空間にモニタリングシステムを適用する場合の例を中心に説明する。本実施形態のそのモニタリングシステムは、撮影部、観察対象認識部、映像表示部、画像処理装置を含み、画像処理装置が決定する観察対象を画像処理で認識しながら、その対象を撮影および撮影画像の表示等を行う。
(構成)
図7は、本実施形態にかかる画像処理装置700を含むモニタリングシステム7000の構成を示す図である。画像処理装置700は、人物検出部701、判断者決定部702、行動認識部703、行動対象認識部704、観察対象決定部705を備える。そしてモニタリングシステム7000は、撮影部7001、観察対象認識部7002、映像表示部7003、画像処理装置700を備える。なお、画像処理装置700が、撮影部7001、観察対象認識部7002、映像表示部7003のいずれか又は複数と一体型の装置であってもよい。また、モニタリングシステム7000は、位置センサ7004を備えていても良い。
撮影部7001は、空間の撮影を行う赤外カメラで、赤外光を撮影方向に向けて発光するライトを備えているいわゆる暗視カメラである。本実施形態では、撮影部7001が夜の病院の待合室を撮影する場合の例を中心に説明する。すなわち、撮影部7001は、照明が落とされていることが多い夜の病院の待合室でも、そこの様子を撮影することができるカメラである。ただし、撮影部7001が設置される場所は夜の病院に限らない。また、本実施形態のモニタリングシステムは、明るい場所にも適用可能である。
図8は、撮影部7001の撮影画像の例を模擬的に示した図である。図8には、夜の病院の待合室に現われる不特定多数の人としての、急病で病院を訪れた患者801およびその付添802が存在することを示している。加えて図8は、病院内に現われる特定少数の人としての、患者をケアする三角形の帽子をかぶった看護師800が存在することを示している。そして図8は、その看護師800が患者801の前に、矢印の描かれたシート803を、矢印の向きを患者801の方へ向けて置いた場面を示している。シート803の矢印は赤外光反射塗料で描かれており、赤外カメラである撮影部7001による撮影画像上に、はっきりと写る。
そのような、撮影部7001による撮影画像は、人物検出部701と観察対象認識部7002へ送られる。
人物検出部701は、撮影部7001による撮影画像を入力すると共に、撮影画像の中から人物を検出する。これは、撮影部1001により撮影された画像中から人物に関する画像特徴を検出することによって実現される。人物の検出方法は、第一実施形態に含まれる人物検出部101における人物検出方法と同様であるので詳細な説明は割愛する。図8に示した例においては、看護師800、患者801、付添802が検出される。
人物が検出されると、人物検出部701は人物が検出された画像領域を特定するための情報を生成し、それを撮影部7001の撮影画像と共に、判断者決定部702へと送る。人物検出部701は、1つの画像から複数の人物を検出した場合は、それぞれの人物の画像領域を特定するための情報を判断者決定部702へと送る。
判断者決定部702は、人物検出部701が検出した人物の中から、観察対象を決定する人物(判断者)を決定する。本実施形態において判断者とは、撮影部7001が撮影する空間に現われる不特定多数の人(例えば、患者や付添)に対して何らかの応対を行う特定少数の人(例えば看護師や医師)のことである。図8においては、看護師800が、観察対象を判断する人(判断者)である。
人物検出部701が検出する人物の中から、特定少数の判断者(本実施形態においては看護師800)を決定する方法は、第一実施形態に含まれる判断者決定部102による決定方法と同様であるので詳細な説明は割愛する。ただし、例えば、看護師や医師に赤外光反射塗料が塗られた服や帽子を着せることにより、暗い場所でも効果的に判断者を特定するようにしてもよい。また、判断者となるべき人物に外光反射塗料が塗られた服や帽子を着せている場合は、人物検出部701による人物の検出を省略できる場合がある。
判断者決定部702は、判断者として一人を決定しても良いし、複数の人を判断者として決定しても良い。また、判断社決定部702は、一人も判断者を決定しない場合があってもよい。
判断者決定部702は、決定した判断者の画像領域を特定する情報と、撮影部7001の撮影画像を行動認識部703へと送る。
行動認識部703は、判断者決定部702から受け取った撮影画像と判断者の画像領域を特定する情報に基づいて、判断者の行動を認識する。本実施形態において行動を認識することは、姿勢変化を示す情報を得ることである。
ゆえに行動認識部703は、まず、判断者決定部702より受け取る判断者の位置を特定する情報に基づいて、その人物(判断者)の姿勢を認識する。具体的な方法は、第一実施形態に含まれる行動認識部103による姿勢の認識方法と同様であるので詳細な説明は割愛する。図8に示した例においては、「手で物体を置く」という姿勢変化が認識される。行動認識部703は、行動認識結果を行動対象認識部704へと送る。行動認識結果には、判断者の行動(例えば「物体をおく」)を特定するための情報と、当該行動に関係する人体パーツの位置関係に関する情報(例えば「物体を置く腕の方向に関する情報」)を含む。
行動認識部703が生成する行動認識結果は、撮影部7001の撮影画像とともに、行動対象認識部704へと送られる。
行動対象認識部704は、行動認識部703より特定の行動認識結果を受け取った場合に、その行動認識結果に対応する行動の対象となる物体の観察処理を行う。
特定の行動認識結果とは、本実施形態においては、「物体を置く」という姿勢変化を示す行動認識結果である。行動対象認識部704は、「物体を置く」という姿勢変化を示す行動認識結果を行動認識部703から受け取ると、「置く」という行動(姿勢変化)の対象である「物体」の認識処理を行う。
本実施形態の行動対象認識部704は、物体の認識処理のために、物体識別の技術を用いる。すなわち行動対象認識部704は、事前にいくつかの「物体」の画像パターンを保持しておく。そして、行動対象認識部704は、行動認識部703より「物体を置く」に対応する行動認識結果を受け取ると、行動認識結果に含まれる判断者の人体パーツの位置関係に関する情報と、事前に保持している画像パターンを用いて、判断者が置いた物体を検出する。なお、行動対象認識部704が、人体パーツの位置関係に関する情報と、事前に保持した画像パターンのうち、いずれか一方を用いて物体を検出するようにしてもよい。このようにして検出された物体が、行動対象として行動対象認識部704によって認識される。
事前に保持しておくいくつかの「画像パターン」とは、例えば矢印が描かれたプレートなど、ある方向を指し示す物体の画像パターンである。図8に示した例においては、矢印の描かれたシート803が認識される。この方向を指し示す物体は、検出するオブジェクトの例である。
行動対象認識部704は、方向を指し示す物体を判断者の近傍で認識すると、その物体が検出された撮影画像上の位置に関する情報、及び、撮影部7001による撮影画像を観察対象決定部705へと送る。
観察対象決定部705は、行動対象認識部704が検出した物体(方向を指し示す物体)の撮影画像上の位置を示す位置情報と、撮影部7001による撮影画像とを用いて、観察対象を決定する。具体的には、観察対象決定部705は、撮影部7001の撮影画像上において、方向を指し示す物体が指し示している方向に存在する人物や物体を、観察対象として決定する。
図8に示した例においては、矢印の描かれたシート803が指し示している、患者801が観察対象として決定される。
観察対象決定部705は、観察対象を決定すると、観察対象の撮影画像上の位置を示す情報を観察対象認識部7002へと送る。
観察対象決定部705は、方向を指し示す物体(シート803)が指し示している方向に人物や物体が発見できない場合、観察対象が未決定であることを示す情報が、観察対象認識部7002へと送る。なお、観察対象決定部705は、必要に応じて、撮影部7001のパン、チルト、ズーム等によって撮影範囲を変更させて、観察対象を探すことも可能である。
観察対象認識部7002は、観察対象決定部705から受け取った観察対象の位置情報に対応する人物や物体を対象にした観察処理を、撮影部7001より受け取る撮影画像に対して行う。なお、本実施形態の観察処理には、観察対象の追尾処理、認識処理、観察対象の画像を高解像度で切り出して記録する処理が含まれる。観察対象認識部7002は、観察対象決定部705から新たに観察対象の位置に関する情報を受け取るまでは、同じ対象に対して観察処理を行う。そのために、観察対象認識部7002は、内部に観察対象を識別するための情報を保持する。ただし、第一の実施形態で説明したように、観察対象の維持や切り替えについては、上記の例に限らない。
観察対象を識別するための情報は、撮影画像上の観察対象の位置を示す情報と、色や形状など観察対象の見た目に関する特徴量である。観察対象決定部705は、観察対象の位置を示す情報を、観察対象を決定するたび(所定時間ごと)に更新する。すなわち、観察対象決定部705は、撮影部7001から撮影画像(第1の撮影画像)上の観察対象の位置を決定した後、次の撮影画像(第2の撮影画像)を取得すると、その第2の撮影画像から観察対象を検出する。観察対象決定部705は、観察対象の移動により、第1の撮影画像における観察対象の位置と第2の撮影画像における観察対象の位置が多少異なったとしても、観察対象の特徴量の情報を用いて第2の撮影画像上における観察対象を検出できる。また、観察対象決定部705は、第2の撮影画像から観察対象を決定すると、観察対象の第2の撮影画像上における位置と観察対象の特徴量を記憶して、次の第3の撮影画像で観察対象を検出する際に用いる。
観察対象認識部7002は、観察対象決定部705から観察対象に関する情報を受け取らず、かつ、内部にも観察対象を識別するための情報を持たない場合には、観察処理を行わない。
観察対象認識部7002が観察対象の画像領域に対して行う観察処理として、例えば、観察対象の撮影画像上の位置を追跡する処理(追尾処理)がある。また、観察対象認識部7002は、観察処理として、観察対象の識別処理を行うことも可能である。識別処理とは、観察対象が人間であれば、その姿勢(例えば、屈んでいる、倒れているなど)の識別を行う処理である。また、観察対象認識部7002は、例えば識別処理として、観察対象者の年齢、性別、個人、表情の識別等を行うことも可能である。
例えば、夜の病院の待合室にいる患者が観察対象の場合、観察対象認識部7002は、観察対象である患者のバイタル(心拍数や体温)を撮影部7001の画像を基に識別してもよい。これによれば、治療の準備などで患者を待たせている間に患者の容体が急変しても、その急変をモニタリングシステム7000が認識して、看護師800に知らせることができる。なお、カメラで撮影する画像に基づいて人物のバイタルを認識する方法は、非特許文献1などにより知られている。
<非特許文献1> Poh,M.Z.,McDuff,D.J.,Picard,R.W.,“A Medical Mirror for Non−Contact Health Monitoring,” ACM SIGGRAPH Emerging Technologies,Aug 2011.
観察対象認識部7002の認識結果とその認識がなされた画像上の位置を示す情報は、撮影部7001より受け取る撮影画像と共に、映像表示部7003へと送られる。
映像表示部7003は、観察対象認識部7002より撮影部7001の撮影画像を受け取り、その画像を表示する。また、映像表示部7003は、観察対象認識部7002より認識結果とその認識がなされた画像上の位置を示す情報を受け取り、その情報を可視化して表示する。
例えば、撮影部7001の撮影画像の上に、観察対象認識部7002より認識結果を示す表示を重畳する。図8では患者801が点線で囲まれているが、これは患者801が観察対象として観察対象決定部705により決定され、その観察処理が観察対象認識部7002により行われていることを可視化した例となっている。さらに、図8には、観察対象認識部7002による認識結果を示すテキスト「心拍60」が、患者801の傍に重畳表示されていることが示されている。
ただし、可視化の方法はこれに限らない。例えば、映像表示部7003は、撮影部7001より受け取る撮影画像の表示領域とは別の領域に、観察対象認識部7002による認識結果を示すテキストやアイコン等とその認識結果がなされた撮影画像領域を切り出して表示してもよい。
撮影映像表示部7003が観察対象認識部7002の認識結果を示すことで、画像処理装置700によってどの対象が観察対象として設定されたかを、ユーザが容易に確認できる。
(処理)
次に図9に示したフローチャートを用いて、本実施形態にかかる画像処理装置700を含むモニタリングシステム7000が行う処理について説明する。本実施形態の画像処理装置700は、不図示のCPUが、図9に係る処理を実行するためのプログラムをメモリから読み出して実行することにより、図9の処理を実現する。また、撮影部7001、観察対象認識部7002、映像表示部7003のそれぞれにもCPUが備わっており、そのCPUが、それぞれの装置に必要なプログラムを実行する。ただし、例えば、観察対象認識部7002と映像表示部7003が一体型の装置で構成され、観察対象認識部7002と映像表示部7003の処理が同一のCPUで実現されるなど、システム内の装置の構成は適宜変更可能である。
病院の待合室等の空間に撮影部7001が設置された状態で、ユーザがモニタリングシステム7000を起動すると、まずステップS901が行われる。
ステップS901では、撮影部7001により撮影が行われる。撮影部7001が複数のカメラを備えていれば、その複数のカメラによる撮影が行われる。撮影された全ての画像は、人物検出部701および観察対象認識部7002へと送られる。なお、本実施形態では、撮影部7001による撮影画像がすべて人物検出部701へ送られる例を中心に説明しているが、人物検出部701へ送られる撮影画像のフレームレートが撮影のフレームレートよりも低くても良い。例えば、撮影部7001が毎秒30フレームの撮影をする場合、1フレームおき、すなわち、毎秒15フレームの撮影画像が人物検出部701へ送られるようにしてもよい。人物検出部701が撮影部7001から撮影画像を入力すると、処理はステップS902へと進む。
ステップS902では、人物検出部701が、撮影部7001から受け取る画像中から人物が映っている領域を検出する処理を行なう。人物検出部701による人物検出処理が終わると、処理はステップS903へと進む。
ステップS903では、人物検出部701が撮影部7001から受け取る画像中から人物を検出したか否かが確認される。人物が検出されなかった場合は、処理はステップS910へと進む。人物が検出された場合は、人物検出部701は人物が検出された画像領域を特定する情報を生成し、それを撮影部7001の撮影画像と共に、判断者決定部702へと送る。複数の人物が検出された場合は、人物検出部701はその各人物の画像領域を特定するための情報を生成し、判断者決定部702へと送る。人物検出部701が人物の位置を特定するための情報を判断者決定部102へ送ると、処理はステップS904へと進む。
ステップS904では、判断者決定部702が、観察対象を判断する人物(判断者)を決定する。本実施形態の判断者決定部702は、特に撮影部1001による撮影画像内に存在する不特定多数の人(患者、付添)に対して何らかの応対を行う特定少数の人(看護師、医者)を、判断者として決定する。図8においては、看護師800が判断者として決定される。なお、判断者となるべき人物(看護師や医師)が赤外光反射塗料付きの服や帽子を着ている場合、判断者決定部702は、より効果的に判断者を決定できる。
判断者を決定する処理が行われると、処理はステップS905へと進む。
ステップS905では、人物検出部701が検出した人物の中から観察対象の判断者を決定したか否かが確認される。判断者が決定されなかった場合は、処理はステップS910へと進む。判断者が決定された場合、判断者決定部抽出部702は、判断者の画像領域を特定するための位置情報と撮影画像を、行動認識部703へと送る。そして処理はステップS906へと進む。
ステップS906では、行動認識部703が、判断者の位置情報と共に撮影部7001による撮影画像を受信し、判断者の姿勢変化(行動)を認識する。本実施形態において行動を認識するとは、姿勢変化を示す情報を得ることである。図8に示した例においては、「手で物体を置く」という姿勢変化が行動認識部703によって認識される。この行動認識結果は、撮影部7001の撮影画像とともに、行動対象認識部704へと送られる。そして処理は、ステップS907へと進む。
ステップS907では、行動対象認識部704が、行動認識部703より受け取る行動認識結果が、特定の行動認識結果であるか否かを判定する。特定の行動認識結果とは、本実施形態においては、「物体を置く」という姿勢変化を示す行動認識結果である。行動認識部703から受け取った行動認識結果が特定の行動認識結果ではなかった場合、処理はステップS910へと進む。行動認識部703から受け取った行動認識結果が特定の行動認識結果であった場合には、処理はステップS908へと進む。
ステップS908では、行動対象認識部704が、行動認識部703より受け取る特定の行動認識結果に示される行動の対象となる物体の認識を行う。本実施形態における特定の行動認識結果とは、「物体を置く」という姿勢変化を示す認識結果である。行動対象認識部704は、「置く」という行動の対象である「物体」の認識を行う。さらに、本実施形態において、この「物体」は、例えば矢印が描かれたプレートなど、ある方向を指し示す物体である。図8に示した例においては、矢印の描かれたシート803が行動対象認識部704によって認識される。このシート803はけ出されるオブジェクトの例である。そうした方向を指し示す物体が認識されると、行動対象認識部704は、その物体(シート803)の撮影画像上の位置を示す情報と撮影部7001による撮影画像が観察対象決定部705へと送られる。そして処理は、ステップS909へと進む。
ステップS909では、観察対象決定部705が、撮影部7001の撮影画像内の人物や物体や領域の中から観察対象を決定する。すなわち、観察対象決定部705は、人物検出部701により入力される画像内の観察対象を、行動対象認識部704により検出された物体(シート803)に応じて決定する。より具体的には、観察対象決定部705は、撮影部7001の撮影画像上において、方向を指し示す物体(シート803)が指し示している方向に存在する人物や物体を、観察対象として決定する。図8に示した例においては、矢印マークの描かれたシート803が指し示している患者801が観察対象として決定される。観察対象決定部705は、観察対象を決定すると、撮影部7001の撮影画像上の観察対象(患者801)の撮影画像上の位置を示す情報と、観察対象の見た目に関する情報を、観察対象を識別するための情報として、観察対象認識部7002へと送る。観察対象の見た目に関する情報とは、例えば、観察対象の色、形状、姿勢に関する情報である。
方向を指し示す物体(シート803)が指し示している方向に人物や物体が発見できない場合、観察対象決定部705は、観察対象が未決定であることを示す情報が、観察対象認識部7002へと送る。なお、観察対象認識部7002には、方向を指し示す物体が指し示している方向に人物や物体が発見できない場合、必要に応じて、パン、チルト、ズーム等の制御により撮影部7001の撮影範囲を変更して観察対象を検出しても良い。そして処理は、ステップS910へと進む。
ステップS910では、観察対象認識部7002にて、観察対象を識別するための情報が保持されている否かが確認される。本実施形態の観察対象認識部7002は、観察対象を識別するための情報が保持されていなければ、処理はステップS901へと戻る。観察対象を識別するための情報が保持されていれば、処理はステップS911へと進む。
ステップS911では、観察対象認識部7002が、観察対象の観察処理を実行する。本実施形態における観察処理とは、例えば、観察対象となっている人物のバイタルを撮影部7001の画像に基づいて認識する処理である。また、観察処理の他の例として、撮影画像の明るさ等に応じて、観察対象(患者801)の追尾処理、表情認識処理、姿勢変化の認識処理、観察対象の領域を高解像度で切り出す処理などが行われるようにしてもよい。観察対象認識部7002による認識結果と撮影画像上における観察対象の位置を示す情報は、撮影部7001による撮影画像と共に、映像表示部7003へと送られる。そして処理は、ステップS912へと進む。
ステップS912では、映像表示部7003が、観察対象認識部7002より撮影部7001の撮影画像を受け取り、その画像を表示する。また、映像表示部7003は、観察対象の位置に関する情報と、観察処理の結果を示す情報とを観察対象認識部7002より受け取り、受け取った情報に応じた表示を行なう。映像表示部7003は、例えば、観察対象(患者801)の近傍に、観察対象のバイタルを表示することが可能である。また、映像表示部7003は、例えば、観察対象(患者801)を点線で囲む表示をしても良いし、観察対象に向けた矢印を撮影画像上に重畳して表示させてもよい。ただしこれらの表示に限らない。また、映像表示部7003は、撮影部7001による撮影画像の表示領域とは別の領域に、観察対象の観察結果(例えば、患者801のバイタル)をテキストまたはアイコン等で表示させることも可能である。映像表示部7003が表示を終えると、処理はステップS901へと戻る。
以上の処理により、画像処理装置700は、撮影部7001の撮影画像内における特定の人(看護師800)による、物体(シート803)を用いた特定の行動の対象となる人物や物体(患者801)を、観察対象認識部1002の認識対象として設定できる。本実施形態に示す例で言えば、夜の病院の待合室にて、看護師800が特定の物体(シート803)を用いて、診察を待つ患者801を指し示すと、それ以降、観察対象認識部1002はその患者のバイタルを認識し続ける。画像処理装置700は特定の人による特定の行動であるか否かで、観察対象を決定するので、例えば患者の付き添いの人などが勝手に特定の物体を動かしたとしても、観察対象の決定や変更は行われない。すなわち、意図せずに観察対象が変更されるといったことがない。
また、観察対象となった患者が動きまわるなどして観察対象を指し示す物体との位置関係が変わったとしても、特定人物(看護師800)の特定行動を伴わないので、観察対象の決定や変更は行われない。これにより、夜の待合室で診察を待つ患者のような、顔色や表情や服装や姿勢といった通常用いられる個人識別特徴がいろいろな理由で使いにくい対象を、看護師のような特定の人物による特定物体に対する行動によって、認識処理の対象に設定することができる。認識対象となる人物に特別な指示をする必要がないので、具合が悪い患者などを対象にする際には有効な方法であると言える。
〔その他の実施形態〕
また、本発明は、以下の処理を実行することによっても実現される。すなわち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給する。そして、そのシステム或いは装置のコンピュータ(CPUやMPU等)がプログラムを読み出して実行する処理である。また、そのプログラムをコンピュータが読み取り可能な記憶媒体に記憶して提供してもよい。なお、本装置のコンピュータには、入力部から処理を実行する指示を入力し、その指示した処理の結果を出力部で表示してもよい。
<実施例の効果>
実施形態1に係る画像処理によれば、撮影部が撮影する空間にいる特定の人の、特定の目的を持った姿勢変化(行動)によって、その姿勢変化の対象となっている人物や物体や空間領域を、認識対象として設定できる。例えば、商業施設にいる店員が認識対象としたい人物を見つめたり手で指し示したりすることで、そこを訪れる一人もしくは複数の客を、万引き等の不審動作認識対象としたり、潜在優良顧客度の評価対象としたりすることができる。観察対象とするのは人物に限らず、店舗におかれた商品などの物体であっても良いし、物品などが通過する通路であっても良い。その場合、その物体を置き去り認識の対象としたり、その通路を物体通過検知を行う空間領域としたりすることができる。観察対象を設定するための特定の動作を、一定時間顔を向けるなどの、その場において自然な動作にしておけば、観察対象となる客を含む周囲の人々に気づかれることなく、観察対象と設定することができる。
実施形態2に係る画像処理装置によれば、撮影部が撮影する空間における人物検出分布が局所的に変化した領域やそうした領域にいる人物を、認識対象として設定できる。例えば、駅内を行きかう人々が、こぼれたジュースを避けて通行したり、怪我人を助けようとその周りに集まったりすると、人々がそうした行動を起こす理由となった「こぼれたジュース」や「怪我人」を、特に認識すべき観察対象として設定することができる。これにより、空間を行きかう人々がそれぞれ合理的に行動するだけで、特に観察対象を設定しようとは考えていなくとも、しかるべき対象を特に認識すべき観察対象として設定することができる。
実施形態3に係る画像処理装置によれば、撮影する空間にいる特定の人の、物体を用いた特定の行動の対象となる人物や物体を、観察対象認識部1002の認識対象として設定することができる。例えば、夜の病院の待合室にて、看護師が特定の物体を用いて、診察を待つ患者を指し示すと、それ以降、その患者をバイタル認識などの対象として設定することができる。特定の人による特定の行動であるか否かで観察対象を決定するので、無関係の人が同様の行動を行ったとしても、観察対象の決定や変更は行なわれない。すなわち、意図せずに観察対象が変更されるといったことがない。また、観察対象となった患者が動きまわるなどして観察対象を指し示す物体との位置関係が変わったとしても、特定人物(看護師)の特定行動を伴わないので、観察対象の決定や変更は行われない。これにより、夜の待合室で診察を待つ患者のような、顔色や表情や服装や姿勢といった通常用いられる個人識別特徴がいろいろな理由で使いにくい対象を、看護師のような特定の人物による特定物体に対する行動によって、認識処理の対象に設定することができる。認識対象となる人物に特別な指示をする必要がないので、具合が悪い患者などを対象にする際には有効な方法であると言える。
なお、本実施形態における撮影部は、現実空間を撮影する物体でればどのような物体であっても良い。可視光カメラであっても良いし、赤外カメラであっても良いし、紫外カメラであっても良い。カメラの個数は、1つでも良いし、複数でも良い。
また、本実施形態における画像処理装置は、撮影部が撮影する空間に存在する特定人物の行動に基づいて、人物もしくは物体もしくは領域を特に認識すべき観察対象として設定する装置であればどのような装置であっても良い。ここで言う特定人物は、一人でも良いし、複数でも良いし、その空間に登場する全員であっても良い。特定人物の行動とは、その人物の姿勢変化でも良いし、空間を行きかう移動パターンや存在分布でも良いし、物体を使った行動でも良い。
また、本実施形態における位置センサとは、観察対象を決定する人物の位置を計測する物体であればどのような物体であっても良い。位置センサはGPSのような位置センサであっても良いし、人物が映る映像を表示する表示部上のタッチセンサであっても良い。
また、本実施形態における観察対象認識部は、観察対象として設定された人物や物体を認識する物体であればどのような物体であっても良い。観察対象となった人物の顔を認識しても良いし、行動や表情を認識しても良いし、バイタル値を認識しても良い。観察対象が物体である場合、観察対象認識部は、その物体の移動経路を認識してもよいし、個体識別情報を認識しても良いし、サイズや重さを認識しても良い。
また、本実施形態における映像表示部は、撮影部による撮影画像および本実施形態における観察対象認識部の認識結果を表示する物体であればどのような物体であってもよい。