JP6444283B2

JP6444283B2 - 姿勢判定装置

Info

Publication number: JP6444283B2
Application number: JP2015170864A
Authority: JP
Inventors: 佐藤　昌宏; 昌宏佐藤; 高田　直幸; 直幸高田; 秀紀氏家
Original assignee: Secom Co Ltd
Current assignee: Secom Co Ltd
Priority date: 2015-08-31
Filing date: 2015-08-31
Publication date: 2018-12-26
Anticipated expiration: 2035-08-31
Also published as: JP2017049676A

Description

本発明は、入力画像に撮影されている所定物体の姿勢を判定する姿勢判定装置、および入力画像に所定物体が撮影されているか否かを判定する物体検知装置に関する。

倒れている急病人をいち早く検知するなどの目的で、監視空間を撮影した画像から当該画像に撮影されている人の姿勢を判定する技術が研究されている。

画像に基づく姿勢判定には、カメラの視線方向に倒れている人と立っている人を弁別することが困難であるという問題がある。

この問題に対し、特許文献１に記載の姿勢推定装置においては、差分領域（人物領域）が抽出された位置に倒れている人物と立っている人物とでは、どの特徴量に相違が現れやすいかを人物形状モデルを用いたシミュレーションによって求め、実際に抽出した差分領域において相違が現れやすい特徴量を強調することで姿勢推定の高精度化を図っていた。

すなわち、従来技術では、推定しようとする姿勢間の組み合わせごとに姿勢間の特徴量の相違に応じた重みを求めて、組み合わせごとに複数の特徴量の評価値を重み付け加算した評価値を算出し、評価値を閾値と比較して姿勢を推定していた。

特開２０１５−０７９３３９号公報

しかしながら、従来技術では姿勢推定の精度がその前段で行う差分処理の精度に左右されてしまうため、背景の色や影によって誤推定が生じる問題があった。

また、従来技術では、推定しようとする姿勢の組み合わせごとに重み付けが異なるため、組み合わせ間で重みが推定に寄与する度合いを正規化して推定基準を合わせることが困難であるという問題があった。つまり、推定しようとする姿勢の組み合わせの間で推定基準が合っていないと、複数通りの姿勢の評価値が閾値を超えてしまうなど、推定結果が不定となってしまうのである。

さらに、同一姿勢内の変動（例えば立ち・倒れにおける手の上げ下げ）に対応させようとすれば変動の数の増加に応じて組み合わせが指数関数的に増加してしまうため、姿勢の組み合わせ間で推定基準を合わせることは益々困難となっていた。

また、人の特徴を学習した識別器を用いて画像から侵入者を検知しようとした場合、床を這っている侵入者と立っている侵入者を共に識別する必要があり、その場合も同様の問題が生じていた。

本発明は、上記問題を鑑みてなされたものであり、立位とカメラからの視線方向に沿って倒れた姿勢とを含めた所定物体の姿勢を精度良く判定可能な姿勢判定装置を提供することを目的とする。また、本発明は、立位とカメラからの視線方向に沿って倒れた姿勢とを含めた複数の姿勢をとり得る所定物体の存在を精度良く検知可能な物体検知装置を提供することを別の目的とする。

上記課題を解決するために本発明に係る姿勢判定装置は、所定物体を任意方向から撮影した入力画像から所定物体の姿勢を判定する姿勢判定装置であって、特定姿勢の所定物体を特定方向から撮影した特定形状の学習画像を用いて特定姿勢の所定物体の特徴を学習した識別手段と、入力画像に撮影されている所定物体がとり得る複数通りの姿勢を仮定して、仮定した姿勢ごとに当該姿勢の所定物体の像を特定方向から撮影される特定姿勢の像に変換する射影変換を入力画像に施す射影変換手段と、仮定した姿勢ごとに、射影変換を施した入力画像に特定形状の窓領域を設定する窓領域設定手段と、仮定した姿勢ごとの窓領域それぞれに特定姿勢の所定物体の特徴が現れている度合いであるスコアを識別手段に算出させ、仮定した姿勢のうちスコアが最も高い姿勢の所定物体が入力画像に撮影されていると判定する姿勢判定手段と、を備えたことを特徴とする。

また、上記姿勢判定装置において、窓領域設定手段は、さらに入力画像に特定形状の無変換窓領域を設定し、姿勢判定手段は、さらに無変換窓領域に特定姿勢の所定物体の特徴が現れている度合いである無変換スコアを識別手段に算出させて、仮定した姿勢ごとのスコアの無変換スコアに対する上昇度が大きいほど当該姿勢のスコアを高く補正する構成とすることも好適である。

また、上記課題を解決するために本発明に係る物体検知装置は、所定物体が存在し得る候補位置を任意方向から撮影した入力画像から候補位置に所定物体が存在するか否かを判定する物体検知装置であって、特定姿勢の所定物体を特定方向から撮影した特定形状の学習画像を用いて特定姿勢の所定物体の特徴を学習した識別手段と、入力画像に所定物体が撮影されていると仮定するとともに当該所定物体がとり得る複数通りの姿勢を仮定して、仮定した姿勢ごとに当該姿勢の所定物体の像を特定方向から撮影される特定姿勢の像に変換する射影変換を入力画像に施す射影変換手段と、仮定した姿勢ごとに、射影変換を施した入力画像に特定形状の窓領域を設定する窓領域設定手段と、仮定した姿勢ごとの窓領域それぞれに特定姿勢の所定物体の特徴が現れている度合いであるスコアを識別手段に算出させ、スコアのいずれかが予め定めた基準値以上である場合に候補位置に所定物体が存在していると判定する存否判定手段と、を備えたことを特徴とする。

本発明においては、特定形状の窓領域を設定して判定を行うため差分処理等の精度に左右されずに判定が可能である。また、本発明においては一つの姿勢について学習した識別手段を用いて判定するため姿勢間あるいは姿勢の組み合わせ間で判定基準を合せる必要がない。

そのため、本発明によれば、立位とカメラからの視線方向に沿って倒れた姿勢とを含めた所定物体の姿勢を精度良く判定可能な姿勢判定装置を提供できる。

また、本発明によれば、立位とカメラからの視線方向に沿って倒れた姿勢とを含めた複数の姿勢をとり得る所定物体の存在を精度良く検知可能な物体検知装置を提供できる。

本発明の第一実施形態に係る画像監視装置の概略の構成を示すブロック図である。本発明の第一実施形態に係る画像監視装置の画像処理に係る機能ブロック図である。射影変換手段が仮定する９通りの姿勢を説明する図である。立位を仮定した射影変換を説明する図である。倒位０度を仮定した射影変換を説明する図である。立位の人を撮影した入力画像に対する姿勢判定の様子を説明した図である。倒位０度の人を撮影した入力画像に対する姿勢判定の様子を説明した図である。本発明の第一実施形態に係る画像監視装置の動作を示したフローチャートである。姿勢判定処理の流れを示したフローチャートである。本発明の第二実施形態に係る画像監視装置の概略の構成を示すブロック図である。本発明の第二実施形態に係る画像監視装置の画像処理に係る機能ブロック図である。本発明の第二実施形態に係る画像監視装置の動作を示したフローチャートである。物体検知処理の流れを示したフローチャートである。

＜第一実施形態＞
以下、本発明の第一実施形態として、本発明の姿勢判定装置を用いて監視カメラの監視画像から倒れている人物を検出し、倒れている人物を検出した場合に通報する画像監視装置の例を説明する。

［画像監視装置１の構成］
図１は画像監視装置１の概略の構成を示すブロック図である。画像監視装置１は、カメラ１０、記憶部１１、画像処理部１２および出力部１３からなる。

カメラ１０はいわゆる監視カメラである。カメラ１０は、画像処理部１２と接続され、所定の監視空間を撮影して監視画像を生成し、監視画像を画像処理部１２に入力する。例えば、カメラ１０は、部屋の天井に当該部屋を俯瞰する視野に固定された状態で設置され、当該部屋を所定時間間隔で撮影し、監視画像を順次入力する。

記憶部１１は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等のメモリ装置で構成され、各種プログラムや各種データを記憶する。記憶部１１は、画像処理部１２と接続されて画像処理部１２との間でこれらの情報を入出力する。

画像処理部１２は、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＣＵ（Micro Control Unit）等の演算装置で構成される。画像処理部１２は、記憶部１１および出力部１３と接続され、記憶部１１からプログラムを読み出して実行することにより各種処理手段として動作する。また、画像処理部１２は、各種データを記憶部１１に記憶させ、読み出す。また、画像処理部１２は、カメラ１０および出力部１３とも接続され、カメラ１０が撮影した監視画像から倒れている人物を検出した場合に異常信号を出力部１３に出力する。

出力部１３は、画像処理部１２と接続され、画像処理部１２の処理結果を外部出力する。例えば、出力部１３は、警備室の監視サーバーとの通信を行う通信装置であり、画像処理部１２から入力された異常信号を監視サーバーに送信する。

［画像監視装置１の機能］
図２は画像監視装置１の画像処理に係る機能ブロック図である。

記憶部１１はカメラ情報記憶手段１１０などとして機能する。また画像処理部１２は物体検出手段１２０、識別手段１２２、射影変換手段１２３、窓領域設定手段１２４、姿勢判定手段１２５および異常判定手段１２６などとして機能する。

カメラ情報記憶手段１１０は監視空間を模したＸＹＺ座標系におけるカメラ１０のカメラパラメータを予め記憶している。カメラパラメータは外部パラメータと内部パラメータからなる。外部パラメータはＸＹＺ座標系におけるカメラ１０の位置および姿勢である。内部パラメータはカメラ１０の焦点距離、画角、レンズ歪みその他のレンズ特性や、撮像素子の画素数などである。カメラパラメータは事前のキャリブレーションによって計測され、カメラ情報記憶手段１１０に記憶される。

このカメラパラメータをピンホールカメラモデルに適用することによって、ＸＹＺ座標系の座標をカメラ１０の撮影面を表すｘｙ座標系の座標に変換でき、またｘｙ座標系の座標をＸＹＺ座標系の座標に変換できる。

物体検出手段１２０は、監視画像から人を検出し、人を検出した監視画像上の位置（以下、検出位置と称する）を射影変換手段１２３に入力するとともに、監視画像から検出位置を囲む所定サイズの画像を切り出して射影変換手段１２３に入力する。なお、物体検出手段１２０は検出位置周辺の画像に対して内部パラメータを用いたレンズ歪み除去処理を行ってから所定サイズの画像を切り出してもよい。物体検出手段１２０が検出位置に対応して切り出した画像が本発明の姿勢判定装置における入力画像となる。

具体的には、物体検出手段１２０は背景差分処理により人を検出する。すなわち物体検出手段１２０は、監視空間に人が存在しない時点で撮影された監視画像を背景画像として記憶部１１に記憶させておき、新たに撮影された監視画像と背景画像との差分処理を行い、人とみなせる大きさ及び形状の差分領域が抽出された場合に人を検出したとして当該差分領域の重心を検出位置とする。

なお、物体検出手段１２０は、検出位置の誤差を見込んで、検出位置の近傍にも後述する窓領域を複数設定できるよう、窓領域よりも大きめに設定したサイズの入力画像を切り出す。

識別手段１２２は、特定姿勢の所定物体を特定方向から撮影した特定形状の学習画像を用いて特定姿勢の所定物体の特徴を予め学習しており、画像上に（後述する変換画像上に）特定形状の窓領域が設定されると、当該画像の窓領域に特定姿勢の所定物体の特徴が現れている度合いであるスコアを出力する。

つまり、所定物体、特定姿勢、特定方向、特定形状は予め定義しておき、識別手段１２２は定義に従った学習を行っておく。本実施形態において、所定物体は人であり、特定姿勢は立位であり、特定方向は略水平方向（体軸に対し略垂直方向）であり、特定形状は幅と高さが１：２の矩形である。

具体的には、識別手段１２２は、立位の人を略水平方向から撮影した幅６４画素×高さ１２８画素の多数のポジティブ学習画像のそれぞれから抽出した特徴量および立位の人が写っていない幅６４画素×高さ１２８画素の多数のネガティブ学習画像のそれぞれから抽出した特徴量にブースティングアルゴリズムを適用して立位の人の特徴を学習した識別器を備える。特徴量は例えばＨＯＧ（Histograms of Oriented Gradients）特徴量とすることができる。

そして、識別手段１２２は、変換画像の窓領域から特徴量を抽出し、抽出した特徴量を識別器に入力してスコアを出力する。ただし、窓領域から抽出する特徴量は学習に用いた特徴量と同種のものである。

なお、同じ立位であっても腕をまっすぐに下した立位、腕を曲げた立位、足をまっすぐに伸ばした立位、足を開いた立位など手足が変動し得る。このような手足の変動の多様性に対応するために、ポジティブ学習画像にはこれら手足の変動のバリエーションを多く含んだ画像群を用いる。

射影変換手段１２３は、入力画像に撮影されている所定物体の姿勢を複数通りに仮定して、仮定した姿勢ごとに当該姿勢の所定物体の像を特定方向から撮影される特定姿勢の像に変換する射影変換を入力画像に施し、変換後の入力画像（変換画像と称する）を窓領域設定手段１２４に出力する。

入力画像に撮影されている所定物体の像は、その姿勢と検出位置すなわちカメラ１０との位置関係に応じて変形し、学習画像とは異なるプロポーションの像となってしまう。例えば、立位の人の像であればカメラ１０に近い検出位置となるほど脚部に比して頭部が大きくなり、カメラ１０側に頭を向けて倒れている人の像であればカメラ１０から遠ざかる検出位置となるほど脚部に比して頭部が大きくなる。

射影変換手段１２３が施す射影変換は、このような変形を補正して入力画像に撮影されている所定物体の像を学習画像と略同じ姿勢の所定物体を学習画像と略同じ方向から撮影した場合の像にする変換である。この変換によって、仮定した姿勢と入力画像に撮影されている所定物体の姿勢が一致した場合に、変換画像における所定物体の像のプロポーションが学習画像と略同じプロポーションに補正されるのである。この射影変換は、仮定する姿勢および検出位置の関数として予め設定しておくことができる。

具体的には、射影変換手段１２３は、入力画像に撮影されている人の姿勢を次の９通りに仮定する（図３参照）。なお、倒れている姿勢を倒位と称している。
（１）頭部方向ｖが鉛直上方、被写体面の重心ｇの高さがｈ／２である立位３００
（２）頭部方向ｖが放射方向ｕとなす角が０度、被写体面の重心ｇの高さが０である倒位３０１
（３）頭部方向ｖが放射方向ｕとなす角が４５度、被写体面の重心ｇの高さが０である倒位３０２
（４）頭部方向ｖが放射方向ｕとなす角が９０度、被写体面の重心ｇの高さが０である倒位３０３
（５）頭部方向ｖが放射方向ｕとなす角が１３５度、被写体面の重心ｇの高さが０である倒位３０４
（６）頭部方向ｖが放射方向ｕとなす角が１８０度、被写体面の重心ｇの高さが０である倒位３０５
（７）頭部方向ｖが放射方向ｕとなす角が２２５度、被写体面の重心ｇの高さが０である倒位３０６
（８）頭部方向ｖが放射方向ｕとなす角が２７０度、被写体面の重心ｇの高さが０である倒位３０７
（９）頭部方向ｖが放射方向ｕとなす角が３１５度、被写体面の重心ｇの高さが０である倒位３０８

ただし、頭部方向ｖは人の体軸に沿って頭部に向かう方向、放射方向ｕはカメラ２０の鉛直下の床面上の点を中心とする床面上の放射線の方向と定義している。また、カメラ２０によって人が撮影される面として、ＸＹＺ座標系において人の体軸を通る特定形状の平面を被写体面と定義し、被写体面の重心ｇを人の位置を表す基準とする。例えば、被写体面には、人が立っているときの標準的な形状と大きさと手足の変動を考慮して、幅ｗと高さｈが１：２の矩形を設定し、ｗ＝８５ｃｍ、ｈ＝１７０ｃｍとすることができる。つまり、各姿勢を定義する姿勢情報は、その重心（基準点）からの頭部方向（基準方向）と基準点の高さで構成される。

また以下では（１）の姿勢を立位、（２）〜（９）の姿勢をそれぞれ倒位０度、倒位４５度、倒位９０度、倒位１３５度、倒位１８０度、倒位２２５度、倒位２７０度、倒位３１５度と称する。なお、（２）〜（９）の各姿勢において、人体の厚みをさらに考慮しての重心ｇの高さを１０ｃｍなどとしてもよい。

そして、射影変換手段１２３は、仮定した９通りの姿勢ごとに当該姿勢の人の像を体軸に対して略垂直方向から撮影される立位の像に変換する射影変換を入力画像に施す。

図４は、立位を仮定した場合に行う射影変換４００を例示した模式図である。この図を例に、入力画像４０１上の任意の画素位置Ｐ０を、これに対応する変換画像４０８上の画素位置Ｐ３に変換する射影変換４００を説明する。

まず画素位置Ｐ０とこれに対応する実空間中の点Ｐ１の関係について説明する。図４における点Ｑ０は検出位置、点Ｑ１は検出位置Ｑ０に対応する実空間中の座標、矩形４０２は被写体面である。ちなみに被写体面４０２は入力画像４０１に投影すると台形４０３となる。

点Ｑ１は、検出位置Ｑ０とカメラ１０のカメラパラメータと高さがｈ／２であることから一意に定まる。また被写体面４０２は、カメラ１０から点Ｑ１への視線４０４をＸＹ平面に投影した放射線４０５に垂直であり点Ｑ１を含む平面であるとの拘束条件から一意に定まる。そして、点Ｐ１は、画素位置Ｐ０とカメラ１０のカメラパラメータと被写体面４０２上の点であるとの拘束条件から一意に定まる。よって、画素位置Ｐ０を点Ｐ１に変換する行列は、立位の姿勢情報、検出した検出位置Ｑ０およびカメラパラメータで定義できる。

次に入力画像４０１上で検出位置Ｑ０に撮影された立位の人が実空間中でカメラ１０から特定方向に撮影される場合に画素位置Ｐ０と対応すべき実空間中の点Ｐ２の、点Ｐ１との関係について説明する。

この関係は、被写体面４０２を点Ｑ１を中心に視線４０４と直交する角度に回転させ、回転後の被写体面４０２をその重心が視線４０４を通りその下端が床面の高さとなるよう並進させることで定まる。図４では点Ｑ１の並進後の座標を点Ｑ２、被写体面４０２を回転および並進させた後の平面を被写体面４０７としている。並進量は高さｈと視線４０４と回転角から定まり、回転角はカメラパラメータ、点Ｑ１、視線４０４から一意に定まる。そして、被写体面４０２における点Ｐ１の点Ｑ１に対する相対位置ベクトルを求めて、当該相対位置ベクトルを被写体面４０７における点Ｑ２に加算すれば点Ｐ２が一意に定まる。よって、点Ｐ１を点Ｐ２に変換する行列は、立位の姿勢情報、検出した検出位置Ｑ０およびカメラパラメータで定義できる。

点Ｐ２をこれに対応する変換画像４０８上の画素位置Ｐ３に変換する行列はカメラパラメータから導出される。ちなみに被写体面４０７は変換画像４０８に投影すると矩形４０９となる。

そして、画素位置Ｐ０を画素位置Ｐ３に変換する射影変換４００は、画素位置Ｐ０を点Ｐ１に変換する行列、点Ｐ１を点Ｐ２に変換する行列および点Ｐ２を画素位置Ｐ３に変換する行列の積であるから、この行列の積である射影変換４００は立位の姿勢情報、検出した検出位置Ｑ０およびカメラパラメータで定義できる。ここでカメラパラメータは定数であるから、結局、立位を仮定した射影変換４００における変数は検出位置Ｑ０のみとなる。よって、この射影変換４００の関数を立位を仮定した場合に用いるために予め設定しておき、検出位置Ｑ０を代入すれば、射影変換手段１２３は、その関数を用いて入力画像から変換画像を生成できる。

図５は、倒位０度を仮定した場合に行う射影変換５００を例示した模式図である。この図を例に、入力画像５０１上の任意の画素位置Ｐ４を、これに対応する変換画像５０８上の画素位置Ｐ７に変換する射影変換５００を説明する。

まず画素位置Ｐ４とこれに対応する実空間中の点Ｐ５の関係について説明する。図５における点Ｑ４は検出位置、点Ｑ５は検出位置Ｑ４に対応する実空間中の座標、矩形５０２は被写体面である。ちなみに被写体面５０２は入力画像５０１に投影すると台形５０３となる。

点Ｑ５は、検出位置Ｑ４とカメラ１０のカメラパラメータと高さが０であることから一意に定まる。また被写体面５０２は、カメラ１０から点Ｑ５への視線５０４をＸＹ平面に投影した放射線５０５に垂直であり点Ｑ５を含む平面であるとの拘束条件から一意に定まる。そして、点Ｐ５は、画素位置Ｐ４とカメラ１０のカメラパラメータと被写体面５０２上の点であるとの拘束条件から一意に定まる。よって、画素位置Ｐ４を点Ｐ５に変換する行列は、倒位０度の姿勢情報、検出した検出位置Ｑ４およびカメラパラメータで定義できる。

次に入力画像５０１上で検出位置Ｑ４に撮影された倒位０度の人が実空間中でカメラ１０から特定方向に撮影される場合に画素位置Ｐ４と対応すべき実空間中の点Ｐ６の、点Ｐ５との関係について説明する。

この関係は、被写体面５０２を点Ｑ５を中心に視線５０４と直交する角度に回転させ、回転後の被写体面５０２をその重心が視線５０４を通りその下端が床面の高さとなるよう並進させることで定まる。図５では点Ｑ５の並進後の座標を点Ｑ６、被写体面５０２を回転および並進させた後の平面を被写体面５０７としている。並進量は高さｈと視線５０４と回転角から定まり、回転角はカメラパラメータ、点Ｑ５、視線５０４から一意に定まる。そして、被写体面５０２における点Ｐ５の点Ｑ５に対する相対位置ベクトルを求めて、当該相対位置ベクトルを被写体面５０７における点Ｑ６に加算すれば点Ｐ６が一意に定まる。よって、点Ｐ５を点Ｐ６に変換する行列は、倒位０度の姿勢情報、検出した検出位置Ｑ４およびカメラパラメータで定義できる。

点Ｐ６をこれに対応する変換画像５０８上の画素位置Ｐ７に変換する行列はカメラパラメータから導出される。ちなみに被写体面５０７は変換画像５０８に投影すると矩形５０９となる。

そして、画素位置Ｐ４を画素位置Ｐ７に変換する射影変換５００は、画素位置Ｐ４を点Ｐ５に変換する行列、点Ｐ５を点Ｐ６に変換する行列および点Ｐ６を画素位置Ｐ７に変換する行列の積であるから、この行列の積である射影変換５００は倒位０度の姿勢情報、検出した検出位置Ｑ４およびカメラパラメータで定義できる。ここでカメラパラメータは定数であるから、結局、倒位０度を仮定した射影変換５００における変数もまた検出位置Ｑ４のみとなる。よって、この射影変換５００の関数を倒位０度を仮定した場合に用いるために予め設定しておき、検出位置Ｑ４を代入すれば、射影変換手段１２３は、その関数を用いて入力画像から変換画像を生成できる。

また、倒位４５度、倒位９０度、倒位１３５度、倒位１８０度、倒位２２５度、倒位２７０度および倒位３１５度を仮定した射影変換のそれぞれは、頭部方向を放射方向に一致させる回転行列と倒位０度の射影変換の積とすることで導出できる。

窓領域設定手段１２４は、仮定した姿勢ごとの変換画像それぞれに特定形状の窓領域を設定し、窓領域と変換画像を対応付けて姿勢判定手段１２５に出力する。

物体検出手段１２０の説明で述べたように、変換画像は検出位置の誤差を見込んで窓領域よりも大きめのサイズの入力画像から生成されている。これに対応し、窓領域設定手段１２４は、変換画像中の複数の位置に窓領域を設定する。

姿勢判定手段１２５は、仮定した姿勢ごとに、変換画像の窓領域に特定姿勢の所定物体の特徴が現れている度合いであるスコアを識別手段１２２に算出させ、仮定した姿勢のうちスコアが最も高い第一位姿勢を決定し、第一位姿勢のスコアが予め定めた基準値以上である場合に第一位姿勢の所定物体が入力画像に撮影されていると判定する。他方、第一位姿勢のスコアが基準値未満である場合、姿勢判定手段１２５は、仮定した姿勢のいずれでもない姿勢の所定物体が入力画像に撮影されていると判定する。

具体的には、姿勢判定手段１２５は、窓領域設定手段１２４から入力された変換画像と窓領域の組のそれぞれを識別手段１２２に入力し、その出力として窓領域ごとのスコアを取得する。次に、仮定した姿勢ごとの最高スコアを当該姿勢のスコアと決定する。続いて、仮定した姿勢間でスコアを比較し、スコアが最も高い姿勢を第一位姿勢と決定する。そして、第一位姿勢のスコアを基準値と比較し、基準値以上であれば第一位姿勢の人が入力画像に撮影されていると判定し、第一位姿勢を異常判定手段１２６に出力する。

基準値は、スコアに対するしきい値であり、学習画像と同様の条件で撮影した多数のテスト画像に対する識別精度が所望の値となるよう、予めの実験に基づいて設定しておく。例えば、立位の人を水平方向から撮影したテスト画像に対して識別手段１２２が算出するスコアの分布を分析し、分布において下位の所定割合のスコアの最高値を基準値とすることができる。

入力画像に撮影されている所定物体の姿勢が第一位姿勢であれば射影変換により所定物体の像の変形が正しく補正されるため射影変換しない場合よりも高いスコアを得やすい。他方、第一位姿勢以外を仮定した射影変換では所定物体の像の変形が誤って補正されるため射影変換しない場合よりも低いスコアを得やすい。よって、射影変換しない場合よりも第一位姿勢のスコアとそれ以外のスコアの差は強調され、仮定した姿勢間でスコアの大小比較により得た第一位姿勢は確度の高い判定結果となる。

さらに、姿勢判定手段１２５は、複数通りに仮定した姿勢のいずれに対するスコアも同一の識別手段１２２を用いて算出させる。そのため、同一基準で算出したスコアによる確度の高い大小比較ができる。仮に、姿勢ごと或いは姿勢の組み合わせごとに生成した識別手段でスコアを算出したならば、異なる基準で算出したスコアの大小比較となり、判定の確度は低下しやすいであろう。同一の識別手段１２２を用いて算出したスコアの大小比較は確度が高く、それにより得た第一位姿勢は確度の高い判定結果となる。

また、ひとつの識別手段１２２で判定できるため、学習画像を収集する手間も最小限で済む。

異常判定手段１２６は、姿勢判定手段１２５から入力された第一位姿勢が倒位であるか否かを確認して異常有無を判定する。第一位姿勢が倒位である場合、異常判定手段１２６は、監視空間に人が倒れているとして異常信号を生成し、生成した異常信号を出力部５に出力する。

図６と図７を参照して、本発明の姿勢判定装置による処理例を説明する。

図６に示した立位の人６００の投影像６１１と、図７に示した倒位０度の人７００の投影像７１１はともに、入力画像上で頭部を上に向けて写っており、入力画像だけではその姿勢が立位か倒位０度かを判定し難い。

図６は、立位の人６００が撮影された入力画像６１０に対し、射影変換手段１２３が立位を仮定した射影変換６２０を施して変換画像６３０を生成し、および射影変換手段１２３が倒位０度を仮定した射影変換６４０を施して変換画像６５０を生成した様子を模式的に示している。

正しく立位と仮定した射影変換６２０は入力画像６１０上の像６１１に生じていた変形を補正し、変換画像６３０上の像６４１は人を特定方向から撮影した学習画像（ポジティブ画像）の像とよく似たプロポーションとなる。そのため、窓領域設定手段１２４が変換画像６３０上で像６３１の位置に設定した窓領域６３２に対するスコアを、姿勢判定手段１２５が識別手段１２２に算出させれば、入力画像６１０上のそのままの像６１１の位置に窓領域６１２を設定して識別手段１２２にスコアを算出させる場合よりも、基準値を超えるスコアを得る可能性が高まる。

一方、倒位０度を仮定した射影変換６４０は誤変換となる。変換画像６５０上の像６５１にはさらなる変形が加わり、頭部が極端に大きく脚部が極端に小さく変形された像６５１は学習画像上の像からかけ離れたプロポーションとなる。そのため、窓領域設定手段１２４が変換画像６５０上で像６５１の位置に設定した窓領域６５２に対するスコアを、姿勢判定手段１２５が識別手段１２２に算出させれば、正しく立位と仮定した場合よりも低いスコアを得る可能性が高い。

図６の例では、姿勢判定手段１２５の処理において、極めて高い確率で立位が第一位姿勢と決定され、第一位姿勢のスコアが基準値を超える。よって、本発明の姿勢判定装置によれば、入力画像６１０に撮影された人６００の姿勢が立位であると正しく判定される可能性を格段に高くすることができる。

図７は、倒位０度の人７００が撮影された入力画像７１０に対する処理の様子を模式的に示している。姿勢判定装置にとって人７００の姿勢は当然ながら未知であるから、この場合も、図６を参照して説明した処理と同様、射影変換手段１２３は立位を仮定した射影変換７２０を施して変換画像７３０を生成し、および射影変換手段１２３は倒位０度を仮定した射影変換７４０を施して変換画像７５０を生成する。

図７の例の場合、立位を仮定した射影変換７２０は誤変換となる。変換画像７３０上の像７３１は、脚部が極端に大きく頭部が極端に小さく変形され、学習画像上の像からかけ離れたプロポーションとなる。そのため、窓領域設定手段１２４が変換画像７３０上で像７３１の位置に設定した窓領域７３２に対するスコアを、姿勢判定手段１２５が識別手段１２２に算出させれば、正しく倒位０度と仮定した場合よりも低いスコアを得る可能性が高い。

一方、倒位０度を仮定した射影変換７４０は正しい変換となる。変換画像７５０上の像７５１は人を特定方向から撮影した学習画像（ポジティブ画像）の像とよく似たプロポーションとなる。窓領域設定手段１２４が変換画像７５０上で像７５１の位置に設定した窓領域７５２に対するスコアを、姿勢判定手段１２５が識別手段１２２に算出させれば、入力画像７１０上で像７１１の位置に設定した窓領域７１２に対するスコアを識別手段１２２に算出させる場合よりも、基準値を超えるスコアを得る可能性が高まる。

図７の例では、姿勢判定手段１２５の処理において、極めて高い確率で倒位０度が第一位姿勢と決定され、第一位姿勢のスコアが基準値を超える。よって、本発明の姿勢判定装置によれば、入力画像７１０に撮影された人７００の姿勢が倒位０度であると正しく判定される可能性を格段に高くすることができる。

ここでは説明を簡単化するために２通りの姿勢を仮定する例を示したが、３通り以上の姿勢を仮定する場合も同様の原理によって入力画像に撮影された所定物体の姿勢が正しく判定される可能性を格段に高くすることができる。

［画像監視装置１の動作］
図８のフローチャートを参照して画像監視装置１の動作を説明する。

画像監視装置１が起動すると、カメラ１０は監視空間を所定時間間隔にて撮影する。そして撮影のたびに画像処理部１２は図８に示すステップＳ１０〜Ｓ１７の処理を繰り返し実行する。

まず、画像処理部１２はカメラ１０からの監視画像を取得すると（Ｓ１０）、物体検出手段１２０として動作し、取得した監視画像を背景差分処理して人検出を行う（Ｓ１１）。監視画像から人が検出されなかった場合（Ｓ１２にてＮＯ）、物体検出手段１２０は処理をステップＳ１０に戻し、次の監視画像の取得待ちとなる。

監視画像から人が検出された場合（Ｓ１２にてＹＥＳ）、物体検出手段１２０は、検出した１または複数の人についてのループ処理を実行する。

すなわち、物体検出手段１２０は監視画像において人の検出位置を含む当該検出位置周辺の画像を順次処理対象に設定する（Ｓ１３）。この画像は本実施形態の姿勢判定装置に入力される画像であり、以下、入力画像と称する。

続いて、入力画像に撮影されている人の姿勢を判定する姿勢判定処理が行われる（Ｓ１４）。

図９のフローチャートを参照してステップＳ１４の姿勢判定処理を説明する。姿勢判定処理において、画像処理部１２は射影変換手段１２３、窓領域設定手段１２４、姿勢判定手段１２５および識別手段１２２として動作し、物体検出手段１２０が射影変換手段１２３に入力画像と検出位置を入力することで、姿勢判定処理が開始される。

まず、射影変換手段１２３は、入力画像に撮影されている人に対し、９通りの姿勢を順次仮定して（Ｓ１４０）、仮定した姿勢および検出位置に応じた射影変換を入力画像に施して変換画像を生成する（Ｓ１４１）。

すなわち射影変換手段１２３は、立位、倒位０度、倒位４５度、倒位９０度、倒位１３５度、倒位１８０度、倒位２２５度、倒位２７０度および倒位３１５度を順次、入力画像に撮影されている人の姿勢の候補として設定する。そして、仮定した姿勢に対応して予め設定されている射影変換関数に物体検出手段１２０から入力された検出位置を代入し、検出位置を代入した射影変換関数によって入力画像を変換する。変換画像は窓領域設定手段１２４に入力される。

次に、窓領域設定手段１２４は複数段階の倍率で変換画像を拡大又は縮小させるスケーリング処理を行う（Ｓ１４２）。

スケーリング処理は、入力画像に撮影された人の像の見かけ上の大きさ変化や個体差に窓領域の大きさを適合させるために行う。倍率は、例えば０．７５倍〜１．５倍まで０．１２５刻みで７段階に設定することができる。

次に、窓領域設定手段１２４は変換画像上に特定形状且つ特定サイズの窓領域を設定する（Ｓ１４３）。

すなわち、窓領域設定手段１２４は、各倍率の変換画像上に幅６４画素×高さ１２８画素の矩形領域の窓領域を設定する。このとき、検出位置の誤差を考慮し、窓領域設定手段１２４は変換画像上の複数の位置に窓領域を設定する。設定した各窓領域は変換画像と対応付けて姿勢判定手段１２５に入力される。

なお、スケーリング処理は窓領域の大きさを拡大又は縮小させることで行ってもよい。その場合、窓領域設定手段１２４は、原サイズの変換画像上に各倍率で拡大又は縮小した窓領域を設定し、窓領域の変換画像を幅６４画素×高さ１２８画素の大きさに拡大又は縮小する。

続いて、姿勢判定手段１２５は変換画像の窓領域に立位の人の特徴が現れている度合いであるスコアを識別手段１２２に算出させる（Ｓ１４４）。

すなわち、まず、姿勢判定手段１２５は、各倍率の変換画像と当該変換画像上の複数の位置に設定された窓領域を識別手段１２２に入力する。識別手段１２２は、変換画像の各窓領域からＨＯＧ特徴量を抽出し、立位の人のＨＯＧ特徴量を学習した識別器に各窓領域のＨＯＧ特徴量を入力して各窓領域に対するスコアを算出させる。次に、姿勢判定手段１２５は、各窓領域に対するスコアのうちの最高スコアを、仮定した姿勢に対するスコアとして選出し、仮定した姿勢と選出したスコアを対応づけて記憶部１１に記憶させる。

スコアが算出されると、射影変換手段１２３は、９通りの姿勢全てのスコアを算出し終えたか確認する（Ｓ１４５）。未だスコアが算出されていない姿勢がある場合（Ｓ１４５にてＮＯ）、射影変換手段１２３は処理をステップＳ１４０に戻して次の姿勢に対する処理を行う。

他方、９通りの姿勢全てのスコアを算出し終えた場合（Ｓ１４５にてＹＥＳ）、姿勢判定手段１２５は、９通りの姿勢の中からスコアが最高である第一位姿勢を決定し（Ｓ１４６）、最高スコアである第一位姿勢のスコアを基準値と比較する（Ｓ１４７）。

最高スコアが基準値以上である場合（Ｓ１４７にてＹＥＳ）、姿勢判定手段１２５は、入力画像に第一位姿勢の人が撮影されていると判定して、第一位姿勢と検出位置を対応付けた判定結果を生成し（Ｓ１４８）、判定結果を記憶部１１に記憶させる。

他方、最高スコアが基準値未満である場合（Ｓ１４７にてＮＯ）、姿勢判定手段１２５は、入力画像に立位でも倒位でもない姿勢の人が撮影されていると判定して、その旨と検出位置を対応付けた判定結果を生成し（Ｓ１４９）、判定結果を記憶部１１に記憶させる。

判定結果が生成されると、処理は図８のステップＳ１５に進められる。

物体検出手段１２０は、全ての検出位置について姿勢判定処理を終えたか確認し（Ｓ１５）、未だ姿勢判定処理をしていない検出位置がある場合（Ｓ１５にてＮＯ）、物体検出手段１２０は処理をステップＳ１３に戻して次の検出位置に対する処理を行う。

他方、全ての検出位置について姿勢判定処理を終えた場合（Ｓ１５にてＹＥＳ）、画像処理部１２は異常判定手段１２６として動作し、倒れている人が検出されたか否かを確認する（Ｓ１６）。

すなわち、異常判定手段１２６は、記憶部１１に倒位の人が撮影されているとの判定結果が記憶されているか否かを確認し、該当する判定結果が記憶されている場合、監視画像から倒れている人が検出されたとして（Ｓ１６にてＹＥＳ）、所定の異常信号を出力部１３に出力する（Ｓ１７）。異常信号を入力された出力部１３は監視センターへの通報を行う。

他方、該当する判定結果が記憶されていない場合（Ｓ１６にてＮＯ）、異常判定手段１２６は、ステップＳ１７をスキップする。

以上の処理を終えると、画像処理部１２は記憶部１１のスコアおよび判定結果をクリアして処理をステップＳ１０に戻す。

＜第一実施形態の変形例＞
第一実施形態の変形例においては、さらに変換前の入力画像からもスコア（無変換スコア）を算出して、無変換スコアに基づくスコアの補正を行う。

すなわち変形例において、窓領域設定手段１２４は、さらに入力画像に特定形状の無変換窓領域を設定して入力画像と無変換窓領域の組を姿勢判定手段１２５に入力し、姿勢判定手段１２５は、さらに入力画像の無変換窓領域に特定姿勢の所定物体の特徴が現れている度合いである無変換スコアを識別手段１２２に算出させて、仮定した姿勢ごとのスコアの無変換スコアに対する上昇度が大きいほど当該姿勢のスコアを高く補正する。そして、姿勢判定手段１２５は、仮定した姿勢のうち補正後のスコアが最も高い姿勢の所定物体が入力画像に撮影されていると判定する。

つまり、仮定した姿勢が入力画像に撮影されている所定物体の姿勢と一致していれば上昇度は高くなる傾向があり、不一致ならば上昇度は低くなる傾向があるため、上昇度に応じた補正を行うことによりスコアの大小関係は強調され、姿勢判定の精度が向上する。

具体的には、姿勢判定手段１２５は、変換画像に対して算出させたスコアＳから無変換スコアＳ０を減じた差（Ｓ−Ｓ０）を上昇度として算出する。また上昇度が高いほど高い補正値を算出する補正関数ｆ（Ｓ−Ｓ０）を予め定めておく。そして、姿勢判定手段１２５は、上昇度を補正関数に代入して得た補正値をスコアＳに加えることでスコアＳを補正する。なお、補正関数ｆ（Ｓ−Ｓ０）は上昇度の正負によって補正値を切り替える関数としてもよい。

上記実施形態およびその変形例においては、９通りの姿勢を仮定する例を示したが、仮定する姿勢の数は、用途やカメラ１０の解像度に応じた９以外の数とすることもできる。

例えば、背景差分領域の主軸方向をカメラ１０から検出位置への視線方向と比較して「立位、倒位０度、倒位１８０度のいずれかの姿勢」であることと「倒位０度、倒位１８０度以外の倒位」であることを判別する第二の姿勢判定手段をさらに備え、射影変換手段１２３が３通りの姿勢を仮定する姿勢判定装置とすることができる。この変形例においては、第二の姿勢判定手段が「立位、倒位０度、倒位１８０度のいずれかの姿勢」と判別した場合に、射影変換手段１２３が立位、倒位０度および倒位１８０度の３通りの姿勢を仮定して入力画像を射影変換する。そして、窓領域設定手段１２４が射影変換された入力画像のそれぞれに窓領域を設定し、姿勢判定手段１２５が各窓領域に対するスコアを算出して立位、倒位０度、倒位１８０度のいずれの姿勢であるかを判定する。この場合、姿勢判定手段１２５は基準値との比較を行わずに第一位姿勢を確定させてもよい。

また、例えば、高解像度なカメラ１０を用いた場合に、倒位を３０度刻みとし、立位と合せて１３通りの姿勢を仮定する姿勢判定装置とすることもできる。

上記実施形態およびその変形例においては、物体検出手段１２０が背景差分処理により人を検出する例を示したが、物体検出手段１２０が他の公知の方法により人を検出する形態とすることもできる。

例えば、物体検出手段１２０は人物追跡処理により人を検出することができる。この場合、物体検出手段１２０は上述した差分領域における色ヒストグラムなどの特徴量をテンプレートとして記憶部１１に記憶させ、以降に撮影された監視画像上でテンプレートとのマッチング処理を行い、テンプレートにマッチングする位置を検出位置とする。

また、例えば、物体検出手段１２０は、予め人の顔画像を学習した顔識別器にて監視画像上を走査して頭部を検出し、その後の監視画像上で頭部を追跡することによって人を検出する。

上記実施形態およびその変形例においては、物体検出手段１２０が監視画像から人を検出する例を示したが、物体検出手段１２０は、監視画像を用いずに赤外線センサー、レーザーセンサー、人が所持する無線タグを検出するセンサーなど各種センサーによって人を検出する形態とすることもできる。監視画像を用いない場合、物体検出手段１２０は各種センサーによってＸＹＺ座標系の検出位置を取得し、取得した検出位置をカメラ情報記憶手段１１０が記憶しているカメラパラメータを用いてｘｙ座標系に変換することで監視画像上の検出位置を得る。

＜第二実施形態＞
以下、本発明の第二実施形態として、本発明の物体検知装置を用いて監視カメラの監視画像から侵入者を検知し、侵入者を検知した場合に通報する画像監視装置の例を説明する。この画像監視装置では視野を変更しながら撮影された監視画像の１枚すなわち静止画から、立位の侵入者および倒位すなわち匍匐している侵入者を検知できる。

［画像監視装置２の構成］
図１０は画像監視装置２の概略の構成を示すブロック図である。画像監視装置２は、カメラ２０、記憶部２１、画像処理部２２および出力部２３からなる。

カメラ２０はパン、チルト、ズームが可能なＰＴＺカメラである。カメラ２０は、画像処理部２２および不図示の外部装置と接続され、外部装置からの指示に基づいてその視野を変更しながら所定の監視空間を撮影して監視画像を生成し、監視画像およびカメラパラメータを画像処理部２２に入力する。

カメラパラメータは、カメラ制御値すなわちパン角度、チルト角度およびズーム値に基づいて算出できる。カメラ２０は、各監視画像の撮影時のカメラ制御値に基づいてカメラパラメータを算出し、当該監視画像とカメラパラメータを対応付けて画像処理部２２に入力する。

記憶部２１は、ＲＯＭ、ＲＡＭ等のメモリ装置で構成され、各種プログラムや各種データを記憶する。記憶部２１は、画像処理部２２と接続されて画像処理部２２との間でこれらの情報を入出力する。

画像処理部２２は、ＣＰＵ、ＤＳＰ、ＭＣＵ等の演算装置で構成される。画像処理部２２は、記憶部２１および出力部２３と接続され、記憶部２１からプログラムを読み出して実行することにより各種処理手段として動作する。また、画像処理部２２は、各種データを記憶部２１に記憶させ、読み出す。また、画像処理部２２は、カメラ２０および出力部２３とも接続され、カメラ２０が撮影した監視画像から侵入者を検知した場合に異常信号を出力部２３に出力する。

出力部２３は、画像処理部２２と接続され、画像処理部２２の処理結果を外部出力する。例えば、出力部２３は、警備室の監視サーバーとの通信を行う通信装置であり、画像処理部２２から入力された異常信号を監視サーバーに送信する。

［画像監視装置２の機能］
図１１は画像監視装置２の画像処理に係る機能ブロック図である。

記憶部２１はカメラ情報記憶手段２１０などとして機能する。また画像処理部２２は候補位置設定手段２２０、識別手段２２２、射影変換手段２２３、窓領域設定手段２２４、存否判定手段２２５および異常判定手段２２６などとして機能する。

カメラ情報記憶手段２１０はカメラ２０から入力されるカメラパラメータを記憶する。カメラパラメータを用いることによって、監視空間を模したＸＹＺ座標系の座標をカメラ２０の撮影面を表すｘｙ座標系の座標に変換でき、またｘｙ座標系の座標をＸＹＺ座標系の座標に変換できる。

候補位置設定手段２２０は、監視画像上に人物が存在し得る候補位置を複数設定し、設定した候補位置を射影変換手段２２３に入力するとともに、監視画像から各候補位置を囲む所定サイズの画像を切り出して射影変換手段２２３に入力する。なお、候補位置設定手段２２０は監視画像に対して内部パラメータを用いたレンズ歪み除去処理を行ってから所定サイズの画像を切り出してもよい。候補位置設定手段２２０が複数の候補位置それぞれに対応して切り出した各画像が本発明の物体検知装置における入力画像となる。

具体的には、候補位置設定手段２２０は、監視空間を模したＸＹＺ座標系のＸＹ平面上（倒位用）およびｈ／２の高さの平面上（立位用）に人の幅のよりも狭い間隔で（例えば５ｃｍ間隔で）グリッド状に候補位置を配置し、配置したＸＹＺ座標系の候補位置をカメラ情報記憶手段１１０が記憶しているカメラパラメータを用いてｘｙ座標系に変換することで監視画像上の候補位置を得る。

或いは、候補位置設定手段２２０は監視画像上に予め定めた間隔でグリッド状に候補位置を設定することもできる。

識別手段２２２は、第一実施形態の識別手段１２２と同様、特定姿勢の所定物体を特定方向から撮影した特定形状の学習画像を用いて特定姿勢の所定物体の特徴を予め学習しており、変換画像上に特定形状の窓領域が入力されると、変換画像の窓領域に特定姿勢の所定物体の特徴が現れている度合いであるスコアを出力する。第一実施形態の識別手段１２２と同様、所定物体は人、特定姿勢は立位、特定方向は略水平方向（体軸に対し略垂直方向）、特定形状は幅と高さが１：２の矩形であると予め定義しておき、識別手段２２２は定義に従った学習を行っておく。

射影変換手段２２３は、入力画像に撮影されている所定物体の姿勢を複数通りに仮定して、仮定した姿勢ごとに当該姿勢の所定物体の像を特定方向から撮影される特定姿勢の像に変換する射影変換を入力画像に施して変換画像を生成する。射影変換手段２２３は、変換画像を窓領域設定手段２２４に出力する。

第一実施形態の射影変換手段１２３と同様、射影変換手段２２３は、倒位０度、倒位４５度、倒位９０度、倒位１３５度、倒位１８０度、倒位２２５度、倒位２７０度および倒位３１５度の９種類の姿勢を仮定する。

ただし、射影変換手段２２３に予め設定される射影変換関数は第一実施形態の射影変換手段１２３とは異なり、カメラパラメータも変数である。すなわち、射影変換手段２２３が行う射影変換は、仮定する姿勢、候補位置およびカメラパラメータの関数として予め設定され、射影変換手段２２３は候補位置設定手段２２０から入力される入力画像と候補位置およびカメラ情報記憶手段２１０に記憶されているカメラパラメータを用いて射影変換を行う。

この変換により、入力画像に所定物体が撮影されており、且つ入力画像に撮影されている所定物体の姿勢が仮定した姿勢と一致している場合に、変換画像における所定物体の像が学習画像と略同じプロポーションの像に変換される。

窓領域設定手段２２４は、第一実施形態の窓領域設定手段１２４と同様、仮定した姿勢ごとの変換画像それぞれに特定形状の窓領域を設定し、窓領域と変換画像を対応付けて姿勢判定手段２２５に出力する。

存否判定手段２２５は、仮定した姿勢ごとに、変換画像の窓領域に特定姿勢の所定物体の特徴が現れている度合いであるスコアを識別手段２２２に算出させ、算出させたスコアのいずれかが予め定めた基準値以上である場合に候補位置に所定物体が存在していると判定し、算出させたスコアのいずれもが基準値未満である場合に候補位置には所定物体が存在していないと判定する。存否判定手段２２５は、各候補位置の判定結果を異常判定手段２２６に出力する。

具体的には、存否判定手段２２５は、窓領域設定手段２２４から入力された変換画像と窓領域の組のそれぞれを識別手段２２２に入力し、その出力として窓領域ごとのスコアを取得する。次に、仮定した姿勢ごとの最高スコアを当該姿勢のスコアと決定する。続いて、仮定した姿勢間でスコアを比較し、スコアが最も高い姿勢を第一位姿勢と決定する。そして、第一位姿勢のスコアを基準値と比較し、基準値以上であれば第一位姿勢の人が入力画像に撮影されていると判定し、基準値未満であれば入力画像に人が撮影されていないと判定する。

基準値は、スコアに対するしきい値であり、学習画像と同様の条件で撮影した多数のテスト画像に対する識別精度が所望の値となるよう、予めの実験に基づいて設定しておく。

なお、第一位姿勢の決定は省略することもできる。その場合、存否判定手段２２５は、窓領域ごとのスコアのそれぞれを基準値と比較し、いずれかのスコアが基準値以上であれば少なくとも入力画像に人が撮影されていると判定し、いずれのスコアも基準値未満であれば少なくとも入力画像に人が撮影されていないと判定する。

異常判定手段２２６は、存否判定手段２２５による判定結果を参照して監視空間に侵入者が存在しているか否かを判定し、侵入者が存在していると判定した場合に異常信号を出力部２３に出力する。

具体的には、異常判定手段２２６は、存否判定手段２２５から入力された候補位置ごとの判定結果を参照し、いずれかの判定結果が人が撮影されているとの判定結果であれば監視空間に侵入者が存在していると判定し、いずれの判定結果も人が撮影されていないとの判定結果であれば監視空間に侵入者は存在していないと判定する。

［画像監視装置２の動作］
図１２のフローチャートを参照して画像監視装置２の動作を説明する。

画像監視装置２が起動すると、カメラ２０は監視空間を所定時間間隔にて撮影する。そして撮影のたびに画像処理部２２は図１２に示すステップＳ２０〜Ｓ２７の処理を繰り返し実行する。

まず、画像処理部２２はカメラ２０からの監視画像およびカメラパラメータを取得すると（Ｓ２０，Ｓ２１）、取得したカメラパラメータをカメラ情報記憶手段２１０に記憶させる。

次に、画像処理部２２は候補位置設定手段２２０として動作し、監視画像の各所に候補位置を設定する（Ｓ２２）。候補位置は監視画像において人の像が現れている可能性のある位置である。

続いて候補位置設定手段２２０は、各候補位置を含む当該候補位置周辺の画像を順次処理対象に設定して（Ｓ２３）、ステップＳ２３〜Ｓ２５のループ処理を実行する。この候補位置ごとの画像は本実施形態の物体検知装置に入力される画像であり、以下、入力画像と称する。

続いて、入力画像に人が撮影されているか否かを判定する人検知処理が行われる（Ｓ２４）。

図１３のフローチャートを参照してステップＳ２４の人検知処理を説明する。人検知処理において、画像処理部２２は射影変換手段２２３、窓領域設定手段２２４、存否判定手段２２５および識別手段２２２として動作し、候補位置設定手段２２０が射影変換手段２２３に入力画像と候補位置を入力することで、人検知処理が開始される。

まず、射影変換手段２２３は、入力画像に人が撮影されていると仮定するとともに当該人に対して９通りの姿勢を順次仮定し（Ｓ２４０）、仮定した姿勢、候補位置およびカメラパラメータに応じた射影変換を入力画像に施して変換画像を生成する（Ｓ２４１）。

すなわち射影変換手段１２３は、立位、倒位０度、倒位４５度、倒位９０度、倒位１３５度、倒位１８０度、倒位２２５度、倒位２７０度および倒位３１５度を順次、入力画像に撮影されていると仮定した人の姿勢の候補として設定する。また射影変換手段１２３はカメラ情報記憶手段２１０からカメラパラメータを読み出す。そして、仮定した姿勢に対応して予め設定されている射影変換関数に候補位置設定手段２２０から入力された候補位置、および読み出したカメラパラメータを代入し、これらを代入した射影変換関数によって入力画像を変換する。変換画像は窓領域設定手段２２４に入力される。

次に、窓領域設定手段２２４は複数段階の倍率で変換画像を拡大又は縮小させるスケーリング処理を行う（Ｓ２４２）。

次に、窓領域設定手段２２４は変換画像上に特定形状且つ特定サイズの窓領域を設定する（Ｓ２４３）。

すなわち、窓領域設定手段２２４は、各倍率の変換画像上に幅６４画素×高さ１２８画素の矩形領域の窓領域を設定する。設定した各窓領域は変換画像と対応付けて存否判定手段２２５に入力される。なお、スケーリング処理は窓領域の大きさを拡大又は縮小させることで行ってもよい。その場合、窓領域設定手段２２４は、原サイズの変換画像上に各倍率で拡大又は縮小した窓領域を設定し、窓領域の変換画像を幅６４画素×高さ１２８画素の大きさに拡大又は縮小する。

続いて、存否判定手段２２５は変換画像の窓領域に立位の人の特徴が現れている度合いであるスコアを識別手段２２２に算出させる（Ｓ２４４）。

すなわち、まず、存否判定手段２２５は、各倍率の変換画像と当該変換画像上に設定された窓領域を識別手段２２２に入力する。識別手段２２２は、変換画像の各窓領域からＨＯＧ特徴量を抽出し、立位の人のＨＯＧ特徴量を学習した識別器に各窓領域のＨＯＧ特徴量を入力して各窓領域に対するスコアを算出させる。次に、存否判定手段２２５は、各窓領域に対するスコアのうちの最高スコアを、仮定した姿勢に対するスコアとして選出し、仮定した姿勢と選出したスコアを対応づけて記憶部２１に記憶させる。

スコアが算出されると、射影変換手段２２３は、９通りの姿勢全てのスコアを算出し終えたか確認する（Ｓ２４５）。未だスコアが算出されていない姿勢がある場合（Ｓ２４５にてＮＯ）、射影変換手段２２３は処理をステップＳ２４０に戻して次の姿勢に対する処理を行う。

他方、９通りの姿勢全てのスコアを算出し終えた場合（Ｓ２４５にてＹＥＳ）、存否判定手段２２５は、９通りの姿勢の中からスコアが最高である第一位姿勢を決定し（Ｓ２４６）、最高スコアである第一位姿勢のスコアを基準値と比較する（Ｓ２４７）。

最高スコアが基準値以上である場合（Ｓ２４７にてＹＥＳ）、存否判定手段２２５は、候補位置に第一位姿勢の人が撮影されていると判定して、第一位姿勢と候補位置を対応付けた判定結果を生成し（Ｓ２４８）、判定結果を記憶部２１に記憶させる。

他方、最高スコアが基準値未満である場合（Ｓ２４７にてＮＯ）、存否判定手段２２５は、候補位置に人が撮影されていないと判定して、その旨と候補位置を対応付けた判定結果を生成し（Ｓ２４９）、判定結果を記憶部２１に記憶させる。

判定結果が生成されると、処理は図１２のステップＳ２５に進められる。

候補位置設定手段２２０は、全ての候補位置について人検知処理を終えたか確認し（Ｓ２５）、未だ人検知処理をしていない候補位置がある場合（Ｓ２５にてＮＯ）、候補位置設定手段２２０は処理をステップＳ２３に戻して次の候補位置に対する処理を行う。

他方、全ての候補位置について人検知処理を終えた場合（Ｓ２５にてＹＥＳ）、画像処理部２２は異常判定手段２２６として動作し、人が検知されたか否かを確認する（Ｓ２６）。

すなわち、異常判定手段２２６は、記憶部２１に人が撮影されているとの判定結果が記憶されているか否かを確認し、該当する判定結果が記憶されている場合、人が検知された（Ｓ２６にてＹＥＳ）、異常信号を出力部２３に出力する（Ｓ２７）。異常信号を入力された出力部２３は監視センターに監視空間への侵入者が検知された旨の通報を行う。

他方、該当する判定結果が記憶されていない場合（Ｓ２６にてＮＯ）、異常判定手段２２６は、ステップＳ２７をスキップする。

以上の処理を終えると、画像処理部２２は記憶部２１のスコアおよび判定結果をクリアして処理をステップＳ２０に戻す。

＜第二実施形態の変形例＞
上記第二実施形態においては、カメラ２０がカメラパラメータを算出する例を示したが、その変形例において、カメラ２０はカメラ制御値を画像処理部４に入力し、画像処理部４がカメラ制御値に基づいてカメラパラメータを算出する。

また上記第二実施形態およびの変形例においては、カメラ２０がＰＴＺカメラである例を示したが、その変形例において、カメラ２０を車載カメラ、空撮カメラなどのように移動によってカメラパラメータが変動するカメラとすることもできる。この場合、カメラ２０にＳＬＡＭ（Simultaneous Localization and Mapping）法などによって自己位置を推定する自己位置推定手段を設け、カメラ２０は自己位置に基づいて撮影時に自身のカメラパラメータを算出する。

＜第一実施形態および第二実施形態に共通の変形例＞
上記各実施形態およびそれらの変形例においては、特徴量としてＨＯＧ特徴量を用いる識別手段１２２、識別手段２２２の例を示したが、特徴量はＨＯＧに限らずＬＢＰ（Local Binary Pattern）、ハールライク（Haar-like）特徴、ＥＯＨ(Edge of Orientation Histograms)特徴量など所定物体の識別に適した他の公知の特徴量を用いることもできる。

また、上記各実施形態およびそれらの変形例においては、ブースティングアルゴリズムを適用して学習した識別手段１２２、識別手段２２２の例を示したが、これらの変形例において識別手段１２２、識別手段２２２はサポートベクターマシーン（ＳＶＭ：Support Vector Machine）とすることもでき、また、パターンマッチング器とすることもできる。なお、パターンマッチング器とする場合、ポジティブ学習画像のみで学習できる。

また、上記各実施形態およびそれらの変形例においては、立位の人の特徴を学習した識別手段１２２、識別手段２２２の例を示したが、これらの変形例においては、倒れた人の特徴を学習した識別手段１２２、識別手段２２２とすることもできる。この場合、射影変換手段１２３、射影変換手段２２３はそれぞれ仮定した姿勢ごとに当該姿勢の人の像を倒れた姿勢の像に変換する射影変換を入力画像に施す。倒れた人の特徴を学習した識別手段１２２、識別手段２２２とする場合、立位の場合と比較して学習画像を収集する手間が増大するが、ポジティブ学習画像における手足の変動のバリエーションを増やすことが容易であるため識別精度の向上が期待できる。

また、上記各実施形態およびそれらの変形例においては、所定物体を人とする例を示したが、車両や備品など、人以外の物体を対象とすることもできる。

１、２・・・画像監視装置、１０、２０・・・カメラ、１１、２１・・・記憶部、１２、２２・・・画像処理部、１３、２３・・・出力部、１１０、２１０・・・カメラ情報記憶手段、１２０・・・物体検出手段、１２２、２２２・・・識別手段、１２３、２２３・・・射影変換手段、１２４、２２４・・・窓領域設定手段、１２５・・・姿勢判定手段、１２６、２２６・・・異常判定手段、２２０・・・候補位置設定手段、２２５・・・存否判定手段

Claims

所定物体を任意方向から撮影した入力画像から前記所定物体の姿勢を判定する姿勢判定装置であって、
特定姿勢の前記所定物体を特定方向から撮影した特定形状の学習画像を用いて前記特定姿勢の前記所定物体の特徴を学習した識別手段と、
前記入力画像に撮影されている前記所定物体がとり得る複数通りの姿勢を仮定して、仮定した姿勢ごとに当該姿勢の前記所定物体の像を前記特定方向から撮影される前記特定姿勢の像に変換する射影変換を前記入力画像に施す射影変換手段と、
前記仮定した姿勢ごとに、前記射影変換を施した入力画像に前記特定形状の窓領域を設定する窓領域設定手段と、
前記仮定した姿勢ごとの前記窓領域それぞれに前記特定姿勢の前記所定物体の特徴が現れている度合いであるスコアを前記識別手段に算出させ、前記仮定した姿勢のうち前記スコアが最も高い姿勢の前記所定物体が前記入力画像に撮影されていると判定する姿勢判定手段と、
を備え、
前記窓領域設定手段は、さらに前記入力画像に前記特定形状の無変換窓領域を設定し、
前記姿勢判定手段は、さらに前記無変換窓領域に前記特定姿勢の前記所定物体の特徴が現れている度合いである無変換スコアを前記識別手段に算出させて、前記仮定した姿勢ごとの前記スコアの前記無変換スコアに対する上昇度が大きいほど当該姿勢の前記スコアを高く補正することを特徴とする姿勢判定装置。