JP6082607B2

JP6082607B2 - 物体特徴抽出装置、物体領域抽出装置及び物体追跡装置

Info

Publication number: JP6082607B2
Application number: JP2013015395A
Authority: JP
Inventors: 叶秋李; 黒川　高晴; 高晴黒川
Original assignee: Secom Co Ltd
Current assignee: Secom Co Ltd
Priority date: 2013-01-30
Filing date: 2013-01-30
Publication date: 2017-02-15
Anticipated expiration: 2033-01-30
Also published as: JP2014146247A

Description

本発明は、画像から人などの注目物体が現れている領域の特徴量を抽出する物体特徴抽出装置、当該領域を抽出する物体領域抽出装置、及び当該抽出結果を用いて注目物体を空間内にて追跡する物体追跡装置に関する。

監視空間における人物等の対象物の追跡は監視空間を撮影した画像により行うことができ、当該追跡は例えば、対象物の画像特徴に基づいて行うことができる。

また、防犯等の目的で、画像から抽出した人物領域の形状を基に人物の姿勢を推定して異常の発生を検知する提案がなされている。姿勢の推定にはその前段である人物領域の抽出処理の精度が大きく影響する。例えば、背景差分処理等の簡易な抽出処理で得られる人物領域には背景画素の混入等が生じやすく姿勢の推定を誤る原因となっていた。この点に関し、人物領域などの対象物領域を高精度に抽出するための技術として、グラフカット法が注目されている。

グラフカット法では、対象物の色などの画像特徴を有する領域（シード）を対象物領域の手がかりとして事前設定し、シードと類似する領域を対象物領域として抽出する。例えば、非特許文献１に記載のグラフカット法では、対象物の形状を模した形状モデルの中央部をシードに設定することが行われていた。

D. Freedman andT. Zhang, "Interactive graph cut based segmentationwith shape priors", In Proceedings of the IEEEConference on Computer Vision and Pattern Recognition (CVPR), volume 1, pages755-762, 2005.

しかしながら、抽出対象の人物が歩行中であると人物の中心軸上に足の間の背景が含まれる。そのため当該歩行中の人物に例えば、鉛直軸を回転軸とする回転楕円体で近似した人形状モデルを当てはめると中央部に足の間の背景が含まれてしまうため、足の間の背景部分が人物のシードに設定されてしまう問題があった。人物のシードに背景部分が混入すると背景領域がシードに類似しているとして人物領域と共に抽出されてしまう。このように対象物の画像上の姿勢によってはシードに背景部分が混入し、対象物の特徴量や対象物領域の抽出精度が低下する問題があった。

本発明は上記問題を鑑みてなされたものであり、対象物の姿勢によらず当該対象物の画像上の特徴量や領域を高精度に抽出可能な物体特徴抽出装置及び物体領域抽出装置、並びに当該抽出結果を用いて対象物を高精度に追跡可能な物体追跡装置に関する。

本発明に係る物体特徴抽出装置は、所定の注目物体を複数の撮影部により互いに異なる視点から同時撮影した画像それぞれから当該注目物体の物体像を抽出する物体像抽出部と、前記視点ごとに前記物体像の内側と外側とでの前記画像の相違に応じた評価値を算出し、当該評価値が最も高いベスト視点を決定するベスト視点決定部と、前記複数の撮影部のカメラパラメータを用いた三次元空間内での対応付けにより、前記各視点の画像において前記ベスト視点から抽出した前記物体像に対応する対応部分を算出し、当該対応部分から前記物体を特徴付ける物体特徴量を抽出する物体特徴抽出部と、を有する。

他の本発明に係る物体特徴抽出装置においては、前記物体特徴抽出部は、前記視点ごとの前記画像において、前記注目物体の予め定められた二次元形状モデルと類似した形状が現れている位置を探索して当該位置に当該二次元形状モデルを配置し、前記ベスト視点にて抽出した前記物体像の視体積と前記ベスト視点以外の前記画像に配置した前記二次元形状モデルの視体積との前記三次元空間における積空間の一部又は全部を前記各画像に投影して前記対応部分を算出する。

さらに他の本発明に係る物体特徴抽出装置においては、複数の前記画像から抽出した前記物体像と前記カメラパラメータとを用いて前記三次元空間における前記注目物体の物体位置を算出する物体位置算出部を有し、前記物体特徴抽出部は、前記注目物体の予め定められた三次元形状モデルを前記三次元空間内の前記物体位置に配置すると共に、前記ベスト視点にて抽出した前記物体像の視体積を算出し、前記三次元形状モデルと前記視体積との積空間の一部又は全部を前記各画像に投影して前記対応部分を算出する。

別の本発明に係る物体特徴抽出装置においては、前記物体特徴抽出部は、前記積空間内にて高さごとに、前記視点ごとの前記画像の画素の逆投影線が交わる対応点を算出し、当該対応点の密度が最も高くなるピーク点を定め、前記各視点の前記画像において前記各ピーク点を前記各画像に投影して前記対応部分を算出する。

本発明に係る物体領域抽出装置は、上記本発明に係る物体特徴抽出装置と、前記視点ごとの前記物体特徴量を用いて当該視点の前記画像から物体像を再抽出する物体像再抽出部と、を有してなる。

本発明に係る物体追跡装置は、上記本発明に係る物体特徴抽出装置と、異なる時刻における前記注目物体を前記物体特徴量を用いて同定することにより当該注目物体を追跡する物体追跡部と、を有してなる。

本発明によれば、対象物の姿勢によらず画像から当該対象物の特徴量や領域を高精度に抽出することが可能となり、また対象物を高精度に追跡することが可能となる。

本発明の実施形態に係る画像監視装置の概略の構成を示すブロック図である。撮影部の設置例を示す模式的な斜視図である。監視空間である部屋を真上から見たときの撮影部の配置及びその視野を示す模式的な平面図である。監視空間に仮想的に配置した人形状モデルを示す模式的な斜視図である。本発明の実施形態に係る画像監視装置の動作の概略のフロー図である。人物領域抽出部による人物領域抽出処理の概略のフロー図である。モデル領域とシードの初期値の例を示す撮影画面の模式図である。領域分割部にて撮影画像を人物領域と背景領域とに分割する際のグラフカット法に用いるグラフの模式図である。人物領域再抽出処理の概略のフロー図である。撮影画像における人物領域の輪郭を含む部分の一例の模式図である。視体積交差空間の一例を模式的に示す斜視図である。人物シードの初期値の位置、及び更新後の人物シードの位置の例を示す模式図である。人物シードの初期値を用いて抽出した人物領域、及び更新後の人物シードを用いて抽出した人物領域の例を示す模式図である。

以下、本発明の物体特徴抽出装置及び物体領域抽出装置を含んだ好適な実施の形態（以下実施形態という）である画像監視装置１について、図面に基づいて説明する。画像監視装置１は、監視空間における人物を注目物体とし、物体特徴抽出装置により監視画像上の人物の像（物体像）から画像特徴を抽出し、当該画像特徴を用いて物体領域抽出装置により監視画像上の人物領域を抽出し、そして人物領域の形状に基づく人物姿勢の推定により異常の発生を監視する。なお、画像監視装置１は後述する人物領域抽出部４１により物体特徴抽出装置及び物体領域抽出装置として機能し、監視画像を人物が現れている人物領域とそれ以外の背景領域に分割することで人物領域を抽出する。

［画像監視装置１の構成］
図１は画像監視装置１の概略の構成を示すブロック図である。画像監視装置１は４つの撮影部２ａ，２ｂ，２ｃ，２ｄ、記憶部３及び出力部５が制御部４に接続されてなる。

撮影部２ａ〜２ｄはいわゆる監視カメラであり、撮影部２ａ〜２ｄは相互に共通視野を有して設置される。撮影部２ａ〜２ｄは、所定の時間間隔で共通視野を同時撮影し、撮影した画像を順次、制御部４へ出力する。この構成により、撮影部２は、抽出対象物（注目物体）である人物が共通視野に現れたときに当該人物を互いに異なる視点から同時撮影する。各撮影部２ａ〜２ｄには予めそれぞれを識別する符号（以下、カメラＩＤと称する）が付与されており、制御部４は各撮影部２ａ〜２ｄが撮影した画像等をカメラＩＤと対応づけて管理する。

図２は撮影部２ａ〜２ｄの設置例を示す模式的な斜視図である。この例では各撮影部２ａ〜２ｄは監視空間である部屋の天井に真下を向けて設置され、天井にて撮影部２ａ〜２ｄは四角形の四隅に配置されている。なお、監視空間の床面１１上に人物１０を図示している。図３は部屋を真上から見たときの視野及び撮影部２の配置を示す模式的な平面図である。図３において小さな○印は各撮影部２の位置であり、撮影部２ａ〜２ｄの共通視野は撮影部２ａ〜２ｄの真下位置を包含している。

画像監視装置１は、撮影部２ａ〜２ｄそれぞれの画像情報を統合するために、撮影部２ａ〜２ｄに共通の監視空間を模した３次元座標系（ワールド座標系）を設定する。具体的には、例えば床面１１における撮影部２ａの鉛直下の点を原点とし、鉛直高さ方向をＺ軸、撮影部２ａから撮影部２ｂへの方向をＸ軸、床面１１にてＸ軸と直交する方向をＹ軸とするワールド座標系ＸＹＺを設定する。

記憶部３は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等の記憶装置である。記憶部３は、各種プログラムや各種データを記憶し、制御部４との間でこれらの情報を入出力する。

各種データには、カメラパラメータ３０、追跡情報３１、人形状モデル３２、シード情報３３、及び視点評価情報３４が含まれる。

制御部４はＣＰＵ(Central Processing Unit)、ＤＳＰ（Digital Signal Processor）、ＭＣＵ（Micro Control Unit）等の演算装置を用いて構成され、記憶部３からプログラムを読み出して実行することで人物追跡部４０、人物領域抽出部４１、異常姿勢判定部４２等として機能する。

出力部５は異常姿勢判定部４２から異常信号が入力されると当該異常信号を外部に出力する外部出力装置である。例えば、出力部５は電話網あるいはインターネットなどの広域網を介して警備センターと接続された通信回路で構成され、警備センターに異常信号を送信することによって異常事態の発生を通報する。

以下、記憶部３に記憶される各種データと、制御部４の各部について説明する。

カメラパラメータ３０は、予めのキャリブレーションにより計測された撮影部２ａ〜２ｄの内部パラメータ及び外部パラメータである。各撮影部２ａ〜２ｄのカメラパラメータ３０は当該撮影部２のカメラＩＤと対応づけて記憶部３に記憶されている。外部パラメータによりワールド座標系における各撮影部２ａ〜２ｄの位置・姿勢が表され、外部パラメータをピンホールカメラモデル等に適用することで、ワールド座標系ＸＹＺの位置を各撮影部２ａ〜２ｄの撮影面座標系ｘｙに変換（投影）したり、各撮影部２ａ〜２ｄの撮影面座標系ｘｙの位置をワールド座標系ＸＹＺに変換（逆投影）したりすることが可能となる。

人物追跡部４０は、撮影部２ａ〜２ｄが撮影した画像から共通視野に現れた人物を追跡して当該人物の人物位置を検出し、当該人物位置を含む追跡情報３１を生成して記憶部３に記憶させる。画像中の人物の追跡は背景差分処理とテンプレートマッチングとに基づく方法など公知の方法によって行うことができる。

具体的には、人物追跡部４０は撮影部２ａ〜２ｄの撮影画像から検出した撮影面座標系ｘｙにおける人物の頭部中心位置を逆投影してワールド座標系ＸＹＺにおける位置を求め、例えば、撮影部２の対ごとに得られる当該位置を人物ごとに平均化して、ワールド座標系ＸＹＺにおける各人物の人物位置を求める。人物追跡部４０は或る時刻の当該人物位置を当該人物の過去の人物位置と対応付けて追跡情報３１を生成する。生成した追跡情報３１は人物領域抽出部４１に入力される。

なお、追跡情報３１は、人物位置のほかに各人物の像を特徴づける人物テンプレート（色ヒストグラムなど）を含む。

人形状モデル３２は、抽出対象物である人物の形状を模した形状データである。図４は監視空間に仮想的に配置した人形状モデル３２を示す模式的な斜視図である。本実施形態では、立位の人の頭部、胴部及び脚部の３部分それぞれを鉛直軸を回転軸とする回転楕円体で近似し、これらを上から順に鉛直方向に整列した立体形状データを予め作成して人形状モデル３２として記憶させておく。人形状モデル３２は人物領域抽出部４１にて利用される。

シード情報３３は、撮影画像において抽出対象物が現れている可能性が十分に高い領域の情報（人物シード）、及び撮影画像において背景が現れている可能性が十分に高い領域の情報（背景シード）である。シード情報３３は人物領域抽出部４１により生成される。各撮影部２ａ〜２ｄの撮影画像に対して人物ごとに人物シードを構成する画素の値（色）及び位置と、背景シードを構成する画素の値（色）及び位置とがシード情報３３として生成され、カメラＩＤ及び人物ＩＤと対応付けて記憶部３に記憶される。

撮影画像における人物領域の抽出はシード情報３３を手掛かりとして行われる。具体的には、撮影画像において背景シードよりも人物シードと類似する領域を人物領域として抽出する。そのため人物シードに背景が混入しているといった誤りがあると人物領域の抽出精度が低下してしまう。

人物シードに背景が混入する誤りは画像上の人物の姿勢に起因して生じる場合がある。撮影部２ａ〜２ｄは互いに異なる視点から人物を同時撮影するので、これら複数の撮影画像上の人物の姿勢は互いに異なる。そのため、互いに異なる視点から同時撮影した複数の撮影画像のうちいずれかの視点に対して人物の姿勢に起因する人物シードの誤りが生じて人物領域の抽出精度が低下しても、別の視点の撮影画像に対しては当該人物の人物シードが正しく生成されて人物領域が高精度に抽出できる可能性がある。

そこで人物領域抽出部４１は、互いに異なる視点から同時撮影した複数の撮影画像それぞれに対して人物領域の抽出を行い、撮影画像ごとに人物領域の評価値（視点評価値）を算出して、最も高い視点評価値が算出された撮影画像を人物領域の抽出に最も適したベスト視点の撮影画像と決定する。

視点評価値は例えば人物領域内の画素値と人物領域外の画素値との相違度とすることができる。すなわち相違度が高い人物領域ほど背景と分離されており、背景の混入が少ない人物シードを用いて人物領域が抽出できていると推定できる。

視点評価情報３４にはベスト視点に決定された撮影画像のカメラＩＤが記憶される。また、視点評価情報３４はベスト視点の視点評価値やベスト視点以外の視点の視点評価値を含み得る。

人物領域抽出部４１は上述したようにシード情報３３を生成する。さらに人物領域抽出部４１は、複数の撮影部２のカメラパラメータを用いた３次元空間内での対応付けにより、各視点の撮影画像においてベスト視点から抽出した人物の像に対応する対応部分を算出し、当該対応部分から人物シードを抽出してシード情報３３を更新し、更新したシード情報３３を用いて人物領域の再抽出を行うことで人物領域の抽出精度向上を図る。このようにシード情報３３の生成と人物領域の抽出を段階的に行うために、人物領域抽出部４１は、シード生成部４１０、領域分割部４１１、ベスト視点決定部４１２、シード更新部４１３及び領域再分割部４１４を備える。これら人物領域抽出部４１を構成する各部の処理は画像監視装置１の動作説明において詳述する。

［画像監視装置１の動作］
図５は画像監視装置１の動作の概略のフロー図である。図５を参照して、画像監視装置１の動作を説明する。監視空間が無人であることを確認した管理者が装置に電源を投入すると、画像監視装置１の各部が初期化され動作を開始する。初期化の後は、撮影部２から制御部４へ新たな撮影画像が入力されるたびにステップＳ１〜Ｓ７の処理がループ処理として繰り返される。

新たな撮影画像が入力されると（Ｓ１）、制御部４の人物追跡部４０は、撮影画像上の人物を追跡して当該人物の人物位置を検出する（Ｓ２）。人物追跡部４０は検出した人物位置を当該人物の人物ＩＤと対応付けて記憶部３の追跡情報３１に記憶させる。

制御部４は、新たな撮影画像上に人物が存在しているか否か、すなわち追跡情報３１に新たな撮影画像から検出した人物位置が記憶されているか否かを確認する（Ｓ３）。人物が存在しなければ（ステップＳ３にてＮＯの場合）、制御部４は以降の処理をスキップして処理をステップＳ１へ戻す。

人物が存在していれば（ステップＳ３にてＹＥＳの場合）、制御部４は新たな撮影画像から得た追跡情報３１を人物領域抽出部４１に入力し、人物領域抽出部４１は各人物の人物領域を抽出する（Ｓ４）。

図６はステップＳ４の人物領域抽出処理Ｓ４の概略のフロー図である。以下、図６を参照して人物領域抽出処理を説明する。

まず、シード生成部４１０は、追跡情報３１に記憶されている各人物の人物位置に人形状モデル３２を配置し、各撮影部２ａ〜２ｄの撮影画像において当該人物が現れている人物領域の概略形状データである２次元形状モデル（モデル領域）を求める（Ｓ１００）。この処理を図４を用いて説明する。ワールド座標系ＸＹＺの仮想空間１１０は監視空間に対応し、人形状モデル３２は当該監視空間の床面１１１上に配置される。人形状モデル３２は、頭部中心位置に設定される各人物の人物位置１１２を基準にして配置され、各撮影部２ａ〜２ｄのカメラパラメータ３０を用いて当該人形状モデル３２を各撮影部２ａ〜２ｄの撮影面座標系ｘｙに投影することで、各撮影部２ａ〜２ｄの撮影画像１１５におけるモデル領域１１６を算出することができる。

次にシード生成部４１０はモデル領域を基にシード情報３３の初期値を抽出する（Ｓ１０１）。具体的にはシード生成部４１０はモデル領域の中心軸を求めて中心軸上の画素群の正規化色ヒストグラムｈ_Ｏを人物の特徴量（物体特徴量）として抽出する。そして、当該正規化色ヒストグラムｈ_Ｏと中心軸上の各画素のｘｙ座標とを人物シードとして抽出する。図７はモデル領域とシードの初期値の例を示す撮影画面の模式図である。例えば図４のモデル領域１１６に対しては図７に示す人物シード２００が抽出される。またシード生成部４１０は、モデル領域を所定距離だけ離れて囲む外周部の画素群の正規化色ヒストグラムｈ_Ｂと当該外周部の各画素のｘｙ座標を背景シードとして抽出する。外周部はモデル領域を所定回数だけ膨張した膨張領域の輪郭画素とすることができる。膨張回数は例えば１０回程度とすることができる。例えば図４のモデル領域１１６に対しては図７に示す背景シード２０１が抽出される。

続いて領域分割部４１１は、シード生成部４１０が生成したシード情報３３を用いて、撮影部２ａ〜２ｄの撮影画像を人物シードに類似する人物領域と背景シードに類似する背景領域とに分割する（Ｓ１０２）。

このような分割処理はグラフカット法と呼ばれる手法により実現することができる。そのために領域分割部４１１は、まず、撮影画像１１５にそれぞれに対して図８に示すようなグラフを生成する。すなわち、領域分割部４１１は、人物領域及び背景領域の最小単位である画素をそれぞれノード２１０に設定すると共に人物領域側及び背景領域側の仮想ターミナルとしてソースＳ及びシンクＴを設定し、各隣接ノード間のリンク（n-link）を設定し、さらに各ノードとソースとの間及び各ノードとシンクとの間にもリンク（t-link）を設定することで各撮影画像に対するグラフを生成する。

次に領域分割部４１１は、各n-linkに当該n-linkを切断するときのコストを設定し、各ノードとソースＳのt-linkにn-linkの切断により当該ノードが人物領域側に分割されるときのコストを設定し、各ノードとシンクＴのt-linkにn-linkの切断により当該ノードが背景領域側に分割されるときのコストを設定する。領域分割部４１１はn-linkのコストとして隣り合う画素の画素値の類似度を算出する。領域分割部４１１は各ノードとソースＳのt-linkのコストとして背景シードｈ_Ｂと各画素の画素値の類似度を算出する。領域分割部４１１は各ノードとシンクＴのt-linkのコストとして人物シードｈ_Ｏと各画素の画素値の類似度を算出する。各コストは分割が正しくないときに高くなる値であり、各視点の撮影画像を人物領域側のノードと背景領域側のノードに２分割するときのコストの総和が領域分割のエネルギーとして定義される。

領域分割部４１１は各撮影画像に対して設定したグラフにMinimum Cut/Maximum Flowアルゴリズムを適用して当該グラフを最小のエネルギーで人物領域と背景領域に２分割する切断を導出することで各撮影画像から人物領域を抽出する。

こうして領域分割部４１１によって、シード情報３３の初期値を用いた人物領域が各撮影画像から抽出されると、制御部４は処理を図５のステップＳ５へ進める。

ステップＳ５ではシード情報３３を更新して人物領域を再抽出する処理が行われる。図９はステップＳ５の人物領域再抽出処理の概略のフロー図である。以下、図９を参照して人物領域再抽出処理を説明する。

ベスト視点決定部４１２は、互いに視点が異なる撮影部２ａ〜２ｄの撮影画像それぞれから抽出された人物領域に対して視点評価値を算出する（Ｓ２００）。具体的にはベスト視点決定部４１２は図６のステップＳ１０２で抽出された各人物領域に対し、以下に示す式（１）〜（３）に従って視点評価値Ｖを算出する。

ここで、１／Ｖ_Ｃは人物領域内の画素ｐの画素値Ｉ_ｐと人物領域外の画素ｑの画素値Ｉ_ｑとの相違度である。相違度１／Ｖ_Ｃが高いほど視点評価値は高くなる。Ｅｄｇｅは人物領域の輪郭画素の集合、Ｎは人物領域の輪郭画素に隣接する近傍背景画素の集合、ｄｉｓｔは画素ｐの位置と画素ｑの位置との間の距離である。図１０は撮影画像１１５における人物領域の輪郭を含む部分の一例の模式図であり、同図の右側に凡例として示す各種画素の配置例を示している。この例では、輪郭画素の１つを注目画素ｐとしたときにその８近傍内に存在する背景画素を近傍背景画素ｑとしている。

また、１／Ｖ_Ｓはモデル領域に対する人物領域のマッチング率である。マッチング率１／Ｖ_Ｓが高いほど視点評価値は高くなる。Ｍ_λは人物領域とモデル領域とで画素位置が一致する画素数であり、Ｍ_０はモデル領域の画素数であり、Ｍ_Ｓは人物領域の画素数である。マッチング率１／Ｖ_Ｓはモデル領域とかけ離れた人物領域に対して視点評価値が不当に高くならないようにする役割を担う。

ベスト視点決定部４１２は次に視点ごと（すなわち撮影部ごと）に算出した視点評価値を比較して視点評価値が最も高い視点を人物領域抽出に最も適した視点（ベスト視点）と決定する（Ｓ２０１）。ベスト視点決定部４１２は視点を表すカメラＩＤと対応付けた視点評価値を値の高い順に並べて、シード更新部４１３に出力すると共に、視点評価情報３４として記憶部３に記憶させる。

続いてシード更新部４１３は、各視点（すなわち各カメラＩＤ）を順次、注目視点に設定してステップＳ２０２〜Ｓ２０６のループ処理を実行する。

このループ処理において、シード更新部４１３は注目視点がベスト視点か否かを確認する（Ｓ２０３）。ベスト視点であればシード更新部４１３は注目視点のカメラパラメータ３０を用いて当該視点の人物領域をワールド座標系に逆投影する（Ｓ２０４）。他方、ベスト視点でなければシード更新部４１３は注目視点のカメラパラメータ３０を用いて当該視点のモデル領域をワールド座標系に逆投影する（Ｓ２０５）。シード更新部４１３はこれらの逆投影処理を全視点について処理し終えるまで繰り返す（Ｓ２０６にてＮＯの場合→Ｓ２０２）。この逆投影により、視点を頂点とする錐体の空間である視体積が定義される。全視点について処理を終えると（Ｓ２０６にてＹＥＳの場合）、全視点の視体積が交差する空間（積空間）を算出する（Ｓ２０７）。これによりベスト視点のみの人物領域を反映した人物の３次元の概略形状が算出される。

次にシード更新部４１３はステップＳ２０７にて算出した人物の視体積の積空間を基に人物シードを更新する（Ｓ２０８）。

そのためにシード更新部４１３は、視体積の交差空間にて上下方向に延在する中核部を求め、当該中核部を撮影部２ａ〜２ｄのそれぞれに投影して投影領域を人物シードとして抽出する。このようにすることで、ベスト視点における人物領域を反映した視体積交差空間に基づいて、人物シードを設定することができるので人物シードが人物の一部であることの確度が高くなる。

例えば、シード更新部４１３は、視体積交差空間内にて高さごとに、視点ごとの撮影画像の画素の逆投影線が交わる対応点を算出し、当該対応点の密度が最も高くなるピーク点を定め、当該ピーク点の集合を中核部と定めることができる。

また、視体積交差空間の中核部を算出するにあたりシード更新部４１３は視体積交差空間を、ベスト視点の撮影画像と他の視点の撮影画像との間で色が類似する画素として撮影される点からなる部分に絞り込んで中核部を算出することが好適である。このように異なる視点の撮影画像間で画素値の整合性を考慮することで、一般に実際の人物より大きめに得られる視体積交差空間の中からより人物の確度が高い領域を人物シードの抽出対象とすることができる。

図１１は視体積交差空間の一例を模式的に示す斜視図である。この図を用いて人物シードの再抽出を具体的に説明する。シード更新部４１３は視体積交差空間３００にて例えば、床面からの距離０ｃｍから一定の間隔をおいて２６０ｃｍまでＺ軸方向の位置が異なる複数の水平断面３０２を設定し、各水平断面３０２をボクセルに区分する。次にシード更新部４１３は、視点ごとの逆投影線のうち共通のボクセルで互いに交わるものについて当該逆投影線に対応する画素の色の視点間での整合性を調べる。この整合性は例えば、ベスト視点の画素の色に対する他の視点の画素の色の標準偏差に基づいて判定することができる。シード更新部４１３は当該標準偏差を算出し、それが予め設定したしきい値より大きなボクセルを整合性なしとして視体積から除外する。

続いてシード更新部４１３は、修正された各水平断面について色の整合性の条件を満たすボクセル（対応点）の密度が最も高くなるピーク点３０４を１点ずつ算出し、各水平断面においてピーク点３０４に位置するボクセルｖｇ(Ｘ，Ｙ，Ｚ)を求める。高さごとに求めたボクセルｖｇの集合Ｖ_Ｘ{ｖｇ(Ｘ，Ｙ，Ｚ)}が視体積交差空間の中核部となり、再抽出された人物シードの３次元形状とされる。なお、ピーク点３０４は例えば、ミーンシフト法による最頻値探索により求めることができる。

シード更新部４１３は、各撮影部２ａ〜２ｄのカメラパラメータ３０を用いてボクセル集合Ｖ_Ｘ{ｖｇ(Ｘ，Ｙ，Ｚ)}を各撮影部２に投影する。そしてシード更新部４１３は各撮影画像においてボクセル集合の投影像をなす画素群の正規化色ヒストグラムｈ_Ｏと投影像の各画素のｘｙ座標を人物シードとして抽出する。

シード更新部４１３はこうして算出した人物シードを記憶部３のシード情報３３に記憶させる。なお背景シードの更新は行わない。

上述したように、ベスト視点からは抽出した人物領域を逆投影するので、視体積交差空間から背景領域を高い確度で除外できる。その一方で、その他の視点からは抽出した人物領域ではなくモデル領域を逆投影する。このようにベスト視点以外からは抽出精度の低い人物領域を逆投影しないことで余分な背景領域によって人物シードがずれないようにしている。また回転対称である人形状モデル３２から生成したモデル領域を逆投影することによりベスト視点以外で抽出した人物領域が水平断面のピーク点算出に影響しないようにしている。

以上のように、ベスト視点で抽出した人物領域に基づき更新した人物シードは背景領域が少なく人物の一部である確度が高まった人物シードとなる。

領域再分割部４１４はシード更新部４１３が更新したシード情報３３を用いて、グラフカット法により撮影部２ａ〜２ｄの撮影画像を人物シードに類似する人物領域と背景シードに類似する背景領域とに再分割することで人物領域を再抽出する（Ｓ２０９）。

ベスト視点決定部４１２は互いに視点が異なる撮影部２ａ〜２ｄそれぞれから再抽出された人物領域に対し、上述した式（１）〜（３）に従って視点評価値Ｖを算出する（Ｓ２１０）。そして、ベスト視点決定部４１２は視点ごとに算出した視点評価値を比較して視点評価値が最も高い視点をベスト視点と決定する（Ｓ２１１）。ベスト視点決定部４１２は視点を表すカメラＩＤと対応付けた視点評価値を値の高い順に並べて、シード更新部４１３に出力すると共に、視点評価情報３４として記憶部３に追記させる。

人物領域抽出部４１は、視点評価情報３４を参照して最新のベスト視点の視点評価値が予め設定したしきい値以上である場合、つまり好適な人物領域が再抽出された場合には（Ｓ２１２にてＹＥＳの場合）、再抽出した人物領域を異常姿勢判定部４２に出力し、処理を図５のステップＳ６へ進める。一方、最新のベスト視点の視点評価値が予め設定したしきい値未満の場合であって（Ｓ２１２にてＮＯの場合）、再抽出により人物領域の改善が期待できそうである場合には、人物領域抽出部４１は処理をステップＳ２０２へ戻して再抽出を繰り返し、今回よりも好適な人物領域の抽出を試みる。しかし、再抽出により人物領域の改善があまり期待できないような場合、例えば最新のベスト視点の視点評価値が前回のベスト視点の視点評価値より低くなった場合（Ｓ２１３にてＹＥＳの場合）や、人物領域の再抽出のループを所定回数、例えば３回繰り返してもステップＳ２１２の条件を満たす視点評価値が得られなかった場合（Ｓ２１４にてＹＥＳの場合）は反復を打ち切って、再抽出した人物領域を異常姿勢判定部４２に出力し、処理を図５のステップＳ６へ進める。

なおステップＳ２１２における再抽出処理完了の判定は、視点評価値をしきい値と比較する判定に代えて、人物領域の抽出結果そのものの変化によって判定してもよい。この場合、人物領域抽出部４１は人物領域の抽出結果を反復の履歴として記憶部３に記憶させ、今回と前回の人物領域を重ね合わせてそれら人物領域間におけるはみ出し画素数を求め、例えば、はみ出し画素数が所定値以上であれば改善中であるとして再抽出を反復し、はみ出し画素数が所定値未満であれば改善が飽和したとして再抽出の反復を終了する。

或いはステップＳ２１２の再抽出処理完了の判定は、ベスト視点の交代によって判定してもよい。この場合、人物領域抽出部４１は視点評価情報３４を参照して今回と前回のベスト視点を比較し、ベスト視点が交代していれば改善中であるとして再抽出を反復し、ベスト視点が交代していなければ改善が飽和したとして再抽出の反復を終了する。

再び図５を参照して画像監視処理の続きを説明する。

制御部４の異常姿勢判定部４２は、人物領域抽出部４１から入力された各人物の人物領域の形状と異常姿勢パターンとの類似度を算出して予め設定したしきい値と比較し、しきい値以上の類似度が算出された人物領域を異常姿勢であると判定し、そうでなければ異常姿勢でないと判定する（Ｓ６）。

異常姿勢判定部４２は複数視点での人物領域のいずれかが異常姿勢と判定された場合に（ステップＳ７にてＹＥＳの場合）、所定の異常信号を生成して出力部５に当該信号を出力する（Ｓ８）。異常信号を入力された出力部５は警備センターに異常信号を送信し通報を行う。他方、人物領域のいずれも異常姿勢と判定されなければ（ステップＳ７にてＮＯの場合）、ステップＳ８の異常出力処理はスキップされる。

以上の処理を終えると、制御部４は処理をステップＳ１に戻し、次の撮影画像に対する処理が行われる。

図１２は人物シードの初期値の位置、及び更新後の人物シードの位置の例を示す模式図である。図１２において上段及び下段にそれぞれ４つ並ぶ画像は左から撮影部２ａ〜２ｄの撮影画像における人物像である。上段の画像３１０ａ〜３１０ｄには初期値の人物シード３１１ａ〜３１１ｄの位置を示している。初期値の人物シードは上述したようにモデル領域の中心軸に設定される。下段の画像３１２ａ〜３１２ｄには更新後の人物シードの位置を示している。更新後の人物シードは上述したように高さごとに求めたボクセルｖｇの集合Ｖ_Ｘ{ｖｇ(Ｘ，Ｙ，Ｚ)}を各視点に投影したものであり、下段の画像中の各黒点３１３がボクセルｖｇの投影像である。

図１３は人物シードの初期値を用いて抽出した当初の人物領域（反復前）、及び更新後の人物シードを用いて抽出した人物領域（２度の反復後）の例を示す模式図である。図１３は図１２の人物像及び人物シードに対応した例を示しており、上段及び下段にそれぞれ４つ並ぶ人物領域は左から撮影部２ａ〜２ｄに対応している。上段の人物領域３２０ａ〜３２０ｄは初期値の人物シードを用いて抽出したものであり、下段の人物領域３２１ａ〜３２１ｄは更新後の人物シードを用いて抽出したものである。

図１２の上段に示す人物シードの初期値は撮影部２ａ，２ｄの視点では人物像の足の間の背景を含んでしまっている。また撮影部２ｂの視点では挙げた足のひざ下の背景が人物シードの初期値に含まれてしまっている。しかしながら撮影部２ｃの視点ではほぼ人物のみから人物シードの初期値が抽出できている。

この人物シードの初期値を用いて抽出した人物領域３２０にはいずれも背景部分３２２が誤抽出されており、その人物領域の形状から歩行姿勢を推定するのは困難な状態であることが見て取れる。その中で撮影部２ｃの視点の人物領域は、上述のように人物シードがほぼ人物像のみから抽出できていることに対応して、他の視点に比べ背景部分が少なく視点評価値が高くなる。そこで撮影部２ｃの視点がベスト視点と決定される。

一方、更新後の人物シードはいずれも人物のみから抽出できている。これらを用いて抽出した人物領域も背景をほとんど含まず、歩行姿勢を推定可能な状態であることが見て取れる。

［変形例］
（１）上記実施形態では、人物シードの再抽出に際して、ベスト視点以外の視点については、監視空間にて追跡された人物位置に仮想的に配置した人形状モデル３２を投影したモデル領域の視体積を用いた。この点に関し別の実施形態では、シード更新部４１３はベスト視点以外の撮影画像において、人物の予め定められた２次元形状モデルと類似した形状が現れている位置を探索して、当該位置に撮影画像における２次元形状モデルを設定することができる。

ここで、撮影画像における人物の概略形状は撮影部２と人物との位置関係に依存するので、２次元形状モデルは好適には撮影画像における探索位置に応じて変化させる。例えば、撮影画像における探索位置を逆投影した監視空間における位置に配置した人形状モデル３２の投影像を２次元形状モデルとすることができる。当該２次元形状モデルはカメラパラメータ３０に基づいて位置ごとに予め求めて記憶部３に記憶させ、それを読み出して利用する構成とすることもできるし、探索処理にて随時算出する構成とすることもできる。

シード更新部４１３は探索した位置に配置した２次元形状モデルに対応する視体積と、ベスト視点にて抽出した人物領域の視体積との交差空間の一部又は全部を各視点の撮影画像に投影して人物シードを算出する。

（２）上記実施形態では、視体積交差空間内にて求めた人物シードの３次元形状を各撮影部２に投影し、各撮影画像におけるその投影像から物体特徴量を抽出し、人物シードを更新した。この人物シードの再抽出の仕方に代えて、視体積交差空間を各撮影部２に投影し、その投影像の一部又は全部を人物シードの領域とし、当該領域から物体特徴量を抽出する構成とすることもできる。この変形例では、視点ごとの画像処理の割合を増やすことができるので、並列処理による高速化が容易となる。

（３）シード更新部４１３は、人形状モデル３２を監視空間内の人物位置に仮想的に配置すると共に、ベスト視点にて抽出した人物領域の視体積を算出し、当該視体積と人形状モデル３２との積空間に基づいて人物シードを更新する構成としてもよい。この場合、シード更新部４１３は当該積空間の一部又は全部を人物シードの３次元形状として定め、これを各撮影部２に投影して人物シードを求めることができる。またシード更新部４１３は当該積空間を各撮影部２に投影し、その像の一部又は全部を人物シードの領域とし、当該領域から物体特徴量を抽出する構成とすることもできる。この変形例では、人形状モデル３２の３次元形状により、個々の視点の視体積が錐体であることに起因する積空間の推定誤差を抑制できる。この変形例は撮影部２の数が少ないときに特に有効である。

人形状モデル３２は人物追跡部４０の追跡位置に配置することができる。また制御部４は、複数の撮影画像から抽出した人物領域とカメラパラメータ３０とを用いて監視空間における人物の位置を算出する物体位置算出部を備え、当該人物位置に人形状モデル３２を配置してもよい。

（４）上記実施形態では画像監視装置１は本発明に係る物体領域抽出装置として、再抽出した人物の物体特徴量を人物領域の再抽出に利用している。本発明に係る物体追跡装置では、再抽出した人物の物体特徴量を異なる時刻における人物を同定するために用いて、人物を追跡する。例えば、人物追跡部４０のテンプレートマッチングに用いる人物テンプレートを、再抽出した人物シードを用いて更新する構成とすることで、上述の画像監視装置１を本発明に係る物体追跡装置として機能させることができる。

また、画像監視装置１が抽出した人物領域を人物追跡部４０にて人物テンプレートに利用して追跡を行うこともできる。このようにすることで背景の混入が少ない人物テンプレートで人物を追跡できるので、人物の取り違えや追跡し損ねを減じた高精度な追跡が可能となる。

１画像監視装置、２撮影部、３記憶部、４制御部、５出力部、１０人物、１１，１１１床面、３０カメラパラメータ、３１追跡情報、３２人形状モデル、３３シード情報、３４視点評価情報、４０人物追跡部、４１人物領域抽出部、４２異常姿勢判定部、１１０仮想空間、１１５撮影画像、１１６モデル領域、２００人物シード、２０１背景シード、３００視体積交差空間、３０２水平断面、３０４ピーク点、４１０シード生成部、４１１領域分割部、４１２ベスト視点決定部、４１３シード更新部、４１４領域再分割部。

Claims

所定の注目物体を複数の撮影部により互いに異なる視点から同時撮影した画像それぞれから当該注目物体の物体像を抽出する物体像抽出部と、
前記視点ごとに前記物体像の内側と外側とでの前記画像の相違に応じた評価値を算出し、当該評価値が最も高いベスト視点を決定するベスト視点決定部と、
前記複数の撮影部のカメラパラメータを用いた三次元空間内での対応付けにより、前記各視点の画像において前記ベスト視点から抽出した前記物体像に対応する対応部分を算出し、当該対応部分から前記物体を特徴付ける物体特徴量を抽出する物体特徴抽出部と、
を有することを特徴とする物体特徴抽出装置。
請求項１に記載の物体特徴抽出装置において、
前記物体特徴抽出部は、前記視点ごとの前記画像において、前記注目物体の予め定められた二次元形状モデルと類似した形状が現れている位置を探索して当該位置に当該二次元形状モデルを配置し、前記ベスト視点にて抽出した前記物体像の視体積と前記ベスト視点以外の前記画像に配置した前記二次元形状モデルの視体積との前記三次元空間における積空間の一部又は全部を前記各画像に投影して前記対応部分を算出すること、を特徴とする物体特徴抽出装置。
請求項１に記載の物体特徴抽出装置において、
複数の前記画像から抽出した前記物体像と前記カメラパラメータとを用いて前記三次元空間における前記注目物体の物体位置を算出する物体位置算出部を有し、
前記物体特徴抽出部は、前記注目物体の予め定められた三次元形状モデルを前記三次元空間内の前記物体位置に配置すると共に、前記ベスト視点にて抽出した前記物体像の視体積を算出し、前記三次元形状モデルと前記視体積との積空間の一部又は全部を前記各画像に投影して前記対応部分を算出すること、を特徴とする物体特徴抽出装置。
請求項２又は請求項３に記載の物体特徴抽出装置において、
前記物体特徴抽出部は、前記積空間内にて高さごとに、前記視点ごとの前記画像の画素の逆投影線が交わる対応点を算出し、当該対応点の密度が最も高くなるピーク点を定め、前記各視点の前記画像において前記各ピーク点を前記各画像に投影して前記対応部分を算出すること、を特徴とする物体特徴抽出装置。
請求項１から請求項４のいずれか１つに記載の物体特徴抽出装置と、
前記視点ごとの前記物体特徴量を用いて当該視点の前記画像から物体像を再抽出する物体像再抽出部と、
を有することを特徴とする物体領域抽出装置。
請求項１から請求項４のいずれか１つに記載の物体特徴抽出装置と、
異なる時刻における前記注目物体を前記物体特徴量を用いて同定することにより当該注目物体を追跡する物体追跡部と、
を有することを特徴とする物体追跡装置。