JP4931218B2

JP4931218B2 - 撮像装置、物体検出方法及び姿勢パラメータの算出方法

Info

Publication number: JP4931218B2
Application number: JP2007042676A
Authority: JP
Inventors: 嘉則伊藤; 政美加藤; 貴久山本
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2007-02-22
Filing date: 2007-02-22
Publication date: 2012-05-16
Anticipated expiration: 2027-02-22
Also published as: JP2008204384A

Description

本発明は、物体検出機能を備える撮像装置、物体検出方法及び姿勢パラメータの算出方法に関する。

従来、監視カメラ等の撮像装置が製品化されている。このような撮像装置は、所望の方向を撮像するために雲台が撮像センサのパン角やチルト角を調整する。ちなにみ、パンは、水平方向の移動を意味し、チルトは上下方向の移動を意味する。また、撮像センサは、パン軸を中心に水平回転し、チルト軸を中心としてチルト回転する。

一般に、パン軸は、鉛直（垂直）方向に対して並行となるように設置されることが望ましい。しかし、撮像装置を傾斜した天井や壁に設置する場合など、パン軸が鉛直方向から傾いた状態で撮像装置が設置されることも多々ある。この場合、パン回転によって、撮像される画像の直立（正立）方向が実空間中の直立方向（鉛直方向）から回転してしまうことが良く知られている。

特許文献１によれば、分銅を伴う真下センサにより真下方向を検知し、撮像された画像の全体を回転（傾斜）修正する発明が開示されている。これにより、実空間上における上下方向を、画像上でも一致させることが可能となり、監視者が自然と感じる映像を生成できるという。

ところで、特許文献２によれば、撮像した画像から人物等の移動物体を検出し、検出した移動物体が常に撮像範囲内に収まるように、撮像する方向をパン・チルト制御する自動追尾装置が提案されている。

特許文献３によれば、低次元の特徴から高次元の特徴までの配置関係を階層的に検出していくことにより、顔などの特定の物体を画像中から検出する方法が開示されている。

特許文献４によれば、姿勢センサ等で大まかな位置姿勢パラメータを取得した上で、３次元位置が既知である複数の特徴点（ランドマーク）を撮像手段によって撮像し検出することによって、姿勢パラメータを補正している。
特開２００１−０２４９１６号公報特許第３４４０９１６号公報特開２００４−１９９２００号公報特開２００３−２２２５０９号公報リークン・ワイ(Le Cun, Y)、ベンギオ・ワイ’(Bengio, Y)共著、1995年発行、「画像、音声及び時系列処理用の畳み込みネットワーク(Convolutional Networks for Images Speech, and Time Series)」、脳理論とニューラルネットワーク・ハンドブック(Handbook of Brain Theory and Neural Networks)、エムアイティー・プレス（MIT Press）、255-258頁

撮像装置において例えば正確な追尾動作等を行うためには、画像中の対象物体を精度よく検出することが重要である。ところが、撮像装置の傾斜に起因して、撮像された画像における対象物体が非正立状態となってしまうと、対象物体の認識精度が低下してしまう。よって、撮像装置の設置角度に応じて画像を回転補正することは、対象物体の認識精度を向上させる観点からは有利である。

しかしながら、特許文献１に記載の発明は、監視者に自然な印象を与えることを目的としているため、撮影された画像の全体を回転させる。そのため、回転のための計算処理の負荷が重かった。よって、特許文献１に記載の発明は、物体検出の前処理としては、好適な発明とはいえない。

そこで、本発明における目的の一つは、従来よりも計算負荷の軽い回転補正を行うことで、処理コストを軽減しつつ、精度良く対象物体を検出することである。また、例えばロボット等においてその後の処理を行う上で、しばしば搭載される撮像装置そのものの姿勢を正しく認識する必要がある。しかしながら、特許文献４および特許文献１に開示されるいずれの方法においても、専用の姿勢検知センサを撮像装置に内蔵する必要があり、コストアップや装置の大型化に繋がっていた。さらに加えて、特許文献１においては、ランドマークとなる特徴点と、その位置座標を三次元空間中に予め設定してやらなければならない、という煩雑な作業が必要であった。また、屋外等、撮像環境によっては、特定のランドマークを設置できない場合があるという問題点があった。そこで、本発明における別の目的としては、従来より低コストで煩雑な操作を不要とする姿勢キャリブレーション方法を提供することである。なお、他の課題については、明細書の全体から把握できよう。

上述の課題を解決するため、本発明の撮像装置は、例えば、
画像を撮像する撮像部と、
前記撮像部の３次元空間における姿勢を表す姿勢パラメータとして設置角度、パン角及びチルト角から、前記撮像部により撮像された画像を正立していない状態から正立した状態に回転補正する回転角度を算出する回転角度算出部と、
前記撮像部により撮像された画像において、検出対象となる検出対象物体を含みうる１つ以上の候補領域を抽出する抽出部と、
抽出された各候補領域を含む前記撮像された画像の一部領域を、算出された前記回転角度に応じて回転補正する回転補正部と、
回転補正された各候補領域から前記検出対象物体を検出する物体検出部と
を含むことを特徴とする。

本発明によれば、パン軸が鉛直方向から傾いていたとしても、画像の全体ではなく、検出対象となる検出対象物体が含まれうる候補領域を回転補正させる。これにより、従来よりも計算負荷（処理コスト）が軽減され、かつ、精度良く物体が検出されることになる。

［第１実施形態］
［ハードウェア構成］
図１Ａは、撮像装置の外観の一例を示す概略断面図である。撮像装置１００は、例えば、監視カメラやネットワークカメラとして実現できる。撮像装置１００は、光学的に撮像した映像を電気的な画像信号に変換するカメラ装置１０１を、２軸（パン軸・チルト軸）駆動雲台上に備えている。カメラ装置１０１は、撮像センサや光学系を備える撮像部の一例である。撮像装置１００は、カメラ装置１０１の撮像方向（光軸）１０２を、パン軸１０３とチルト軸１０４を回転軸として回転させることができる。ここでは、チルト軸１０４は、紙面に対して垂直な方向とする。

なお、本明細書において、垂直方向とは、一般に、実空間中における鉛直方向を意味する。また、水平方向は、鉛直方向に対して直角となる方向である。また、直立は、鉛直方向に対して並行となっていることを意味する。正立は、画像の上下方向（つまり左辺、右辺）に対して並行となっていることをいう。

図１Ｂは、撮像装置のコントローラ部の一例を示すブロック図である。物体検出装置として機能するコントローラ部１１０は、システムバス１１１に各デバイスが接続される構成を採用している。ＣＰＵ１１２は、不揮発性の記憶装置（ＲＯＭ）１１３に格納されている制御プログラムに基づいて動作し、システムバスに接続された各デバイスを統括的に制御する。ＲＯＭ１１３は、ハードディスクやフラッシュＲＯＭ等の不揮発性記憶装置である。揮発性の記憶装置であるＲＡＭ１１４は、ＣＰＵ１１２が動作するときの作業領域として使用される。ＲＡＭ１１４の一部領域は、画像を一時的に記憶するための画像バッファ１１５として使用される。また、画像バッファ１１５は、ＲＡＭ１１４から分離した別メモリとして、後述する画像取得部１１８あるいは物体検出部１１９に内蔵されてもよいし、システムバス１１１を介さずに画像取得部１１８に直結されてもよい。

ユーザＩ／Ｆ装置１１６は、不図示のディスプレイ装置とキー入力装置を備えている。ユーザＩ／Ｆ装置１１６は、例えば、ＣＰＵ１１２の指令に従い、撮像した画像や撮像装置１００の状態を出力する。また、ユーザＩ／Ｆ装置１１６は、例えば、ユーザからの指令（撮像や対象物体検知の開始／停止、対象物体の追尾動作の開始／停止など）を受け付けてＣＰＵ１１２に送出する。

姿勢制御部１１７は、パン軸駆動モータＭｐとチルト軸駆動モータＭｔに接続され、不図示のパルス発生回路やドライバ回路などを内蔵している。姿勢制御部１１７は、ＣＰＵ１１２からの指令に応じて、各モータの駆動制御を実行する。姿勢制御部１１７は、位置センサ（エンコーダ等）１２０の出力に基づいてパン角及びチルト角を取得し、ＣＰＵ１１２に通知する。なお、姿勢制御部１１７を、独立した筐体に収めることで、コントローラ部１１０の外部に配置してもよい。この場合、姿勢制御部１１７は、例えば、シリアル通信やネットワーク回線等の所定のＩ／Ｆを介してＣＰＵ１１２と通信することになる。

画像取得部１１８は、撮像装置１００のカメラ装置１０１に接続されている。画像取得部１１８は、ＣＰＵ１１２からの指令を受けてカメラ装置１０１の撮像制御を行う。取得される画像は、光軸方向の撮像範囲に位置する被写体の画像となる。取得された画像信号は、画像データとして、画像バッファ１１５に格納される。なお、画像バッファ１１５は、複数枚の画像を格納することが可能な容量を有している。各画像は、ページやフレームと呼ばれることもある。画像バッファ１１５は、画像取得部１１８からだけでなく、ＣＰＵ１１２からや、後述する物体検出部１１９からもアクセス可能である。

物体検出部１１９は、画像に含まれる物体（検出対象物体）を検出する処理を行う。追尾処理を実行する場合は、通常、検出対象物体が追尾対象物体となる。物体検出部１１９は、検出対象物体の特徴（例：全身、顔、人体の一部、その他）を検出するための検出アルゴリズムを搭載する。本実施形態の検出アルゴリズムは、人物の顔部を検出可能なニューラルネットワークアルゴリズムである。物体検出部１１９は、検出アルゴリズムにしたがって検出対象物体を検出する１つ以上の検出器を備えている。

ＣＰＵ１１２は、画像バッファ１１５に記憶されている画像データに対して物体検出を実行するために、必要なパラメータ（例：検出処理範囲）を設定した処理開始指令を物体検出部１１９へ送出する。物体検出部１１９は、内蔵するレジスタに処理結果を保存し、割り込み信号として処理の完了をＣＰＵ１１２に通知する。完了を意味する通知を受信したＣＰＵ１１２は、レジスタから処理結果を取得する。

なお、ＣＰＵ１１２の処理能力が十分にパワフルであれば、ＣＰＵ１１２に実行させるソフトウェア（コンピュータプログラム）としてこの物体検出部１１９を実装してもよい。また、汎用の画像処理チップ（ＤＳＰなど）を用いて、物体検出部１１９が構成されてもよい。なお、後述する回転角度算出部や回転補正部を、物体検出部１１９のハードウェアの一部として実装することも可能である。

［撮像光学系］
図２は、カメラ装置の撮像に使用される光学系の一例を説明するための図である。カメラ装置１０１は、いわゆるピンホールカメラモデルとして近似できる光学系を採用しているものとする。このとき（複数枚レンズがあるときは統合された仮想的な）レンズ中心がピンホール位置に対応し、レンズ中心からセンサ平面までの距離が焦点距離となる。もちろん実際のレンズ光学系においては、撮像対象までの距離に応じて焦点距離は変わってくるが、説明を簡単にするため本モデルでは固定の焦点距離と見なせるものとして近似計算する。以下、図２を用いて、このモデルを説明する。

Ａは、カメラ装置１０１の撮像平面（以下、センサ平面）である。このセンサ平面をｘｙ平面とし、焦点距離をｆとする。ｘ軸を、垂直方向下向きとし、撮像方向（光軸方向）をｚ軸とする、いわゆる右手系の３次元座標系ｘｙｚを定める。センサ平面上の水平軸であるｙ軸方向は、図２において奥向き（右向き）となる。このとき（仮想的な）レンズ中心ｃはｚ軸上にある。センサ平面（ｘｙ平面）の原点が３次元座標系ｘｙｚの原点に一致するものとする。この場合、レンズ中心ｃ＝（０，０，ｆ）_ｘｙｚとなる。ここで添え字ｘｙｚが付された座標は、３次元空間（実空間）における座標であることを表している。なお、日本国特許庁が提供したパソコン出願の仕様の制限により、本明細書のテキスト部分では、ベクトル表記として下線を用いる。なお、数式内では、通常どおり、太文字を用いる。

ここで、ｘ _１＝（ｘ_１，ｙ_１，ｚ_１）_ｘｙｚを、実空間中におけるある一つの点とする（下線は、ベクトルを意味する。）。点ｘ _１を撮像したときのセンサ平面上の像（センサ像）は、ｘｙ平面上の交点ｘ _０＝（ｘ_０，ｙ_０，ｚ_０）_ｘｙｚとなる。このとき、ｘ _１とｘ _０とを結ぶ直線は、レンズ中心ｃを通る。これがピンホールカメラモデルであり、ｘ _０は、ｘ _１の中心射影と呼ばれる。

ここで、図２に示すように、レンズ中心ｃに対して、センサ平面Ａ（以下、平面Ａ）と正反反対の位置にある仮想センサ平面Ｂ（以下、平面Ｂ）を考える。平面Ｂと焦点との距離は、焦点距離ｆに等しいものとする。点ｘ _１とレンズ中心ｃとを結んだ直線と、平面Ｂとの交点は、平面Ｂ上の点ｘ _０となる。平面Ｂにおけるｘ軸とｙ軸の各方向を、平面Ａのｘ軸とｙ軸の各方向とは逆の方向とする。この場合、各平面上の座標ｘ _０＝（ｘ_０，ｙ_０）_ｘｙは、平面Ａと平面Ｂとで同一となる。ここで添え字ｘｙは、ｘｙ平面上の座標であること表す。さらに、平面Ｂの座標系のｘ軸及びｙ軸は、実空間を表すｘｙｚ座標系のｘ軸及びｙ軸に対して方向（符合）が一致する。したがって、以後特に断りの無い限り、焦点よりも前方に位置する平面Ｂをセンサ平面の仮想モデル（仮想センサ平面）とする。また、仮想センサ平面の原点ｏは、実空間中の原点ｏ＝（０，０，０）_ｘｙｚに一致するものとする。したがって、レンズ中心ｃは、ｃ＝（０，０，−ｆ）_ｘｙｚと表すことができる。

通常、焦点距離ｆは、センサ面から撮像対象物体までの距離｜ｘ _１｜＝√（ｘ_１ ^２＋ｙ_１ ^２＋ｚ_１ ^２）に比べると十分に小さい。よって、計算しようとする値によっては、ｆ≒０、すなわち、ｃ＝０＝（０，０，０）_ｘｙｚとしても、十分に正確な値が得られる。

仮想センサ平面Ｂ上の点ｘ _０は、ｚ _０＝０なので、ｘ _０＝（ｘ_０，ｙ_０）_ｘｙと書ける。ｚ_１＝−ｆ、すなわち、仮想センサ平面Ｂに対して平行な平面であって、レンズ中心（レンズ中心ｃ）を通る平面上に点ｘ _１が存在するのでない限り、点ｘ _１には中心射影が存在する。もちろん実際には、センサ平面の面積は有限であり、かつ、光学系の構造上、カメラ装置１０１は、レンズ中心ｃよりｚ軸の正方向に位置する物体しか撮影できない。よって、撮影できる範囲の点ｘ _１であれば、常に、中心射影が存在する。

（１．１）式より、（１．２）が得られる。

ここで、ψを、ｘ軸に対する位置ベクトル（ｘ _０，ｙ _０）の角度とする。角度ψは、（１．２）式から次のように算出される。

［撮像された画像の回転］
図３Ａ、３Ｂ、３Ｃは、撮像画像の回転現象を説明するための図である。ここで、撮像対象とする物体が実空間中で直立しており、その物体の像が画像中で正立していたとする。この場合、撮像された画像を、正立画像と呼ぶことする。また、このとき画像中の物体像は正立している、あるいは正立状態にあると呼ぶことにする。

例えば、人物が、重力に対して直立していれば、頭頂部が上で、顎部が下となる。頭頂部と顎部の各頂点を結んだ直線が画像の垂直方向と一致していれば、その顔画像は正立状態にある。また、直方体（机、箪笥等）が撮像されたときに、上面部（天板）が相対的に上方に写っており、かつ直方体の側辺（脚など）が画像の垂直方向と一致していれば、その直方体の画像は正立状態にある。本明細書では、撮像された画像中の各物体が正立状態から外れて傾いているとき、その傾きの角度を物体画像の回転角度と表現している。

図３Ａは、パン軸の方向が、実空間中の垂直方向に一致するように撮像装置１００設置された状態を示す図である。なお、図中のΦは、水平方向におけるホームポジションからの光軸の偏移（パン角）を示している。また、Θは、垂直方向におけるホームポジションからの光軸の偏移（チルト角）を示している。

実空間中に直立する物体３０１を、センサ平面の中心に物体３０１の像が来るように撮像したとする。このときの画像が、画像３０２である。すなわち、画面の中心（原点）における垂直方向（ｘ軸方向）は、実空間中の垂直方向と一致している。

画像３０２を取得した状態から、カメラ装置１０１の光軸を左方向にパン回転させると、画像３０３が取得される。すなわち、光軸方向が、対象物体位置の垂直方向（＝実空間の鉛直方向）に対してほぼ直角であれば、光軸をパン回転させても、画像中の対象物体の垂直方向は維持されることになる。

図３Ｂは、パン軸が実空間中の鉛直方向と一致しないように撮像装置１００が設置された状態を示す図である。このような状態は、設置箇所の都合により生じる場合もあれば、撮像装置１００が何らかの移動物体に取り付けられる場合にも生じる。後者の場合、鉛直方向（鉛直軸）からのパン軸の傾きは、移動体の動きに応じて動的に変化する。図３Ｂによれば、パン軸が、実空間中における水平面内の基準方向に対して、Φ_ｖだけ傾いている。また、実空間の鉛直軸からΘ_ｖだけ傾いている。ただし、図３Ｂの場合も、光軸方向が、対象物体の垂直方向に対してほぼ直角となっている。

画像３０４は、光軸が水平方向に向いているときに物体３０１を撮像して得られた画像である。ここで、図３Ａに関して説明したように、光軸を、左方向にパン回転させたとする。そのときに得られた画像が、画像３０５である。直立している物体３０１は、画像３０５において正立しておらず、画像の垂直方向（ｘ軸方向）に対して角度ψだけ回転した状態となって撮像される。パン軸が垂直でないときは、パン回転に伴い光軸が、ロール回転してしまうことによって生ずる回転現象である。したがって、画像３０５が取得されたときの設置状態で、センサ平面の原点において別の正立物体が撮像されたとしても、その物体は、実空間において直立してはいない。すなわち、当該物体も、角度ψだけ回転した状態で撮像されていることになる。なお、光軸方向が、鉛直方向に対し、ほぼ直角を成す方向であれば、回転角度ψは、画像の全域においてほぼ等しい。

図３Ｃは、光軸方向と鉛直方向との成す角度が直角から大きく離れている状態を示す図である。このような状態は、実空間中において、撮像装置１００の高さと撮像対象物体との高さとが一致しないとき（例：撮像装置１００を天井に取り付けられたとき）に発生する。この場合、パン軸が鉛直方向に一致していたとしても、パン回転に応じて、撮像される物体の像も回転してしまう。

画像３０６は、実空間中で直立している物体３０１の像が画像中央で正立した状態で撮像されたときに得られる画像である。一方、画像３０７は、図３Ａ、３Ｂと同様に、光軸をパン回転させたときに得られる画像である。画像３０７が示すように、物体３０１の像は左に傾いた状態となっている。なお、図３Ｃの場合は、別の直立物体が画像中央で撮像されたとすると、その物体像は画像中で正立状態となる。すなわち、撮像対象物体の像がセンサ平面上のどこに位置するかに依存して、撮像された物体の回転角度ψが異なることになる。

もちろん、図３Ｂと図３Ｃに関して説明した各要因が複合して対象物体画像の回転現象が生ずる場合も有りうる。図３Ｂや３Ｃで説明したように、パン回転された状態で撮像された物体画像（画像３０５、３０７）は、物体の検出処理（認識処理）において、その検出率（認識率）を著しく低下させるおそれがある。これは、通常であれば、誤検出／誤認識の少ない精度の高い検出／認識アルゴリズムが採用されるときほど、回転による検出率の低下が顕著となりやすい。一方で、ロバスト性の高い検出（認識）アルゴリズムが採用される場合、回転による検出率の低下は小さいが、そもそも誤検出や誤認識は相対的に多い。

そこで、本実施形態の撮像装置は、相対的にロバスト性の高い第１の検出処理によって候補領域を抽出し、候補領域を回転補正し、相対的に誤検出の少ない第２の検出処理によって、回転補正された候補領域から検出対象物体を検出する。これにより、パン軸が鉛直方向から回転していても、物体の検出精度が向上される。また、画像全体を回転補正する必要がないので、回転補正に伴う計算量が削減される利点がある。

ところで、図３Ｂに関して説明した画像の回転は、センサ平面を光軸回りにロール回転させる、いわゆるロール軸を姿勢制御機構として追加すれば、撮像される画像そのものを補正できる。しかし、この場合、ロール回転すべき角度を検出するための何らかの方法が必要となる。もちろん、センサ平面に姿勢検知センサを固定すれば、この角度を求めることもできるが、コストアップの要因となるため好ましくないだろう。以後で説明する回転角度の計算方法は、ロール回転すべき角度を算出することも可能である。この場合、姿勢検知センサを必要はなくなるであろう。

［２つの座標系］
ここで、２つの座標系を導入する。１つは実空間Ｒ^３に固定された第１の座標系である。もう１つは撮像装置１００のセンサ平面に固定された第２の座標系である。各座標系は、直交座標系と極座標系のどちらでも表現できる。

図４Ａは、実空間Ｒ^３に固定された第１の座標系と、撮像装置１００のセンサ平面に固定された第２の座標系とを説明するための図である。ここでは、実空間に固定された第１の座標系を、ＸＹＺ座標系（大文字）とする。ただし、Ｚ軸の方向は、撮像装置１００のパン軸方向と一致するものと仮定するため、実空間中の鉛直方向（直線Ｖ）とは必ずしも一致しない。ＸＹＺ座標系は、実空間に固定されているので、パン回転やチルト回転によっては変化することはない。もちろん、実空間中の鉛直方向も変化しない。ただし、撮像装置１００が移動物体に取り付けられている場合、ＸＹＺ座標系は移動物体上に固定されているものとする。すなわち、移動物体が実空間中で角度を変化させた場合、ＸＹＺの各軸が変化するのではなく、実空間の鉛直方向（直線Ｖ）が相対的に変化するものとする。なお、直線Ｖの中心射影は、直線Ｖ’である。Φ_ｖは、Ｚ軸と直線Ｖとが成す角度である。Θ_ｖは、Ｚ軸と直線Ｖを含む平面が、ＸＹ平面上でＸ軸と成す角度である。ψは、直線Ｖ’とｘ軸とが成す角度である。

実空間における点をＸＹＺ座標系では（Ｘ，Ｙ，Ｚ）と表す。実空間における極座標表現（Ｒ，Θ，Φ）が使用されてもよい。よく知られているように、これらパラメータは、次のように関係している。

ここで、Ｉ＝（１，０，０）、Ｊ＝（０，１，０）、Ｋ＝（０，０，１）をＸＹＺ座標系における標準基底とする。極座標系ＲΘΦにおいて、これらの標準基底は、次のように表現される。

図４Ａにおいて、撮像装置１００のセンサ平面に固定された第２の座標系は、ｘｙｚ座標系（小文字）として示されている。このセンサ平面は、先に説明したピンホールカメラモデルにおけるセンサ平面であって、原点ｏを通るｘｙ平面に一致する。このｘｙｚ座標系が使用されるとき、実空間における点を（ｘ、ｙ、ｚ）と表す。このｘｙｚ座標系の極座標表現は（ｒ，θ，φ）であって、以下の関係が成り立つ。

ｉ＝（１，０，０）、ｊ＝（０，１，０）、ｋ＝（０，０，１）をｘｙｚ座標系における標準基底とする。極座標系ｒθφにおいて、これらの標準基底は、次のように表現される。

このように、２つの座標系はそれぞれ、直行座標表現と極座標表現のどちらでも表すことができる。以下では、（ａ，ｂ，ｃ）_ｘｙｚのように、座標系や座標表現を表すサフィックスを用いる。

本実施形態の撮像装置１００に関して、図２で説明した仮想センサ平面Ｂの原点を、ｘｙｚ座標系における原点ｏ＝（０，０，０）_ｘｙｚとしている。そして、ＸＹＺ座標系の原点Ｏ＝（０，０，０）_ＸＹＺが常にＯ＝ｏとなるように、パン回転及びチルト回転が実行される。すなわち、パン軸及びチルト軸は、原点Ｏを通る。また、仮想センサ平面の中心は、常に原点Ｏに一致する。パン軸は、Ｚ軸に一致する。チルト軸は、ｙ軸に一致する。さらに、チルト軸（ｙ軸）は、常に、ＸＹ平面上に存在する。すなわち、常に、ｊ・Ｋ＝０である。ｘｙｚ座標系におけるベクトルｉとｊは、センサ平面であるｘｙ平面に含まれる。ベクトルｋは、センサ平面の単位法線ベクトルである。

カメラ装置１０１がホームポジションにあるとき、ｘｙｚ座標系は、ＸＹＺ座標系に一致するものとする。すなわち、このとき、次式が成立する。

図４Ｂは、ｘｙｚ座標系とＸＹＺ座標系とが一致する状態を示す図である。

パン軸回りの回転角度（パン角）をΦで表し、チルト軸回りの回転角度（チルト角）をΘで表すと、ｘｙｚ座標系における回転位置（ポジション）は、（Θ，Φ）と表せる。この記述方法は通常の極座標表現と同じである。図４Ａ、Ｂに示すとおり、ｘｚ平面は、常に、ＸＹ平面に対して直交する。チルト角Θは、ｚ軸がＺ軸と成す角度であって、ｘ軸がＸＹ平面と成す角度でもある。パン角Φは、ｘｚ平面とＸＹ平面の交線がＸ軸と成す角度であって、ｙ軸がＹ軸と成す角度でもある。

パン軸とチルト軸の回転位置が（Θ，Φ）であるとき、極座標系ＲΘΦにおいて、次式が成り立つ。

図４Ｂが示すように、（Θ，Φ）＝（０，０）のとき、（２．８）式のＩ，Ｊ，Ｋは、（２．３）式のＩ，Ｊ，Ｋと一致する。よって、（２．７）式が成り立つ。（２．１）式ないし（２．８）式から次式が得られる。

これから、（２．１０）式、（２．１１）式及び（２．１２）式が導出される。

ｉ，ｊ，ｋは、さらに次式のように表現できる。次のように書ける。

ゆえに、（２．１６）式が得られる。

これは、座標系の変換を意味する。ここで、

より、

とする。Ｔは、直交変換を定義する直交行列である。ｘ＝（ｘ，ｙ，ｚ）_ｘｙｚを、ｘｙｚ座標系におけるベクトルとし、Ｘ＝（ＸＹＺ）_ＸＹＺをＸＹＺ座標系におけるベクトルとすると、（２．１７），（２．１８），（２．１９）より、

が導出される。ここえで、Ｔは直交行列であるので、逆行列Ｔ^−１は、Ｔの転置となる。

ゆえに、

が得られる。つまり、

が得られる。すなわち、

が成り立つ。

ｘとＸの場合のように、本明細書においては、しばしば下線は、ベクトルを意味するものとして用いられる。

［直線のセンサ像］
実空間中のある直線Ｌについて、その仮想センサ平面Ｂ上への中心射影を考える。ただし、直線Ｌは、ある被写体の実空間中における方向を表すものとする。したがって、ここでは、中心射影されたセンサ平面上の直線がｘ軸と成す角度に注目する。以下、図５を用いて説明する。

図５は、仮想センサ平面Ｂ、レンズ中心ｃ＝（０，０，−ｆ）_ｘｙｚ及び実空間中の直線Ｌを示す図である。ただし、直線Ｌが、点として射影されることはないものとする。そして、平面Ｈは、レンズ中心ｃと直線Ｌを含むものとする。ｎ_Ｈは、を平面Ｈの法線ベクトルである。ｘｙ平面の法線ベクトルは、標準基底ｋに平行である。

直線Ｌのセンサ平面における像（中心射影）は、平面Ｈとｘｙ平面の交線Ｌ_Ｈになる。交線Ｌ_Ｈは、法線ベクトルｎ_Ｈとｋに対して垂直である。ゆえに、交線Ｌ_Ｈは次のように表現される。

ここで、ｄは、直線交線Ｌ_Ｈ上のある１点を示している。ここで、ベクトルｎ_Ｈ×ｋは、直線交線Ｌ_Ｈの方向を表し、かつ、ｘｙ平面に平行である。したがって、直線交線Ｌ_Ｈとｘ軸の成す角度ψは以下のようになる。

ただし、（ｎ_Ｈ×ｋ）_ｘと（ｎ_Ｈ×ｋ）_ｙは、それぞれ、ベクトル積ｎ_Ｈ×ｋのｘ成分とｙ成分を表す。

今、ｘ _１＝（ｘ_１，ｙ_１，ｚ_１）_ｘｙｚと、ｘ _２＝（ｘ_２，ｙ_２，ｚ_２）_ｘｙｚを直線Ｌ上の２点とする。また、次式が成り立つとする。

この場合、ｓ_１、ｓ_２は、共に平面Ｈに平行なベクトルとなるので、ｎ_Ｈ＝ｓ_１×ｓ_２は、平面Ｈの法線ベクトルとなる。

したがって、次式が成り立つ。

さらに、（５．２）式より次式が得られる。

Ｘ _１＝（Ｘ_１，Ｙ_１，Ｚ_１）_ＸＹＺと、Ｘ _２＝（Ｘ_２，Ｙ_２，Ｚ_２）_ＸＹＺを実空間内の異なった２点とする。また、直線Ｌは、これら２点を含む直線とすると、式（２．２５，２６，２７）より、次式が成り立つ。

これより、次式も成り立つ。

ゆえに、ψに関して、次式が成り立つ。

すなわち、（３．１３）式のａｒｃｔａｎ（逆正接）は、実空間中の２点Ｘ _１、Ｘ _２を通る任意の直線Ｌの中心射影（Ｌ_Ｈ）とｘ軸とが成す角度ψを算出するための一般式となる。

ここで、焦点距離ｆが、対象物体までの距離に比較して十分に小さければ、ｆの積となっている項は無視できる。よって、次のような簡略式が成立する。

通常、焦点距離ｆに比較すれば、対象物体までの距離は十分に遠いと見なしてよいので、以後（３．１４）式を一般式として利用する。

［設置角度に基づく回転角度の計算］
ここで図４Ａの説明に戻る。撮像装置１００が、実空間に対して、ある設置角度Φ_ｖ、Θ_ｖで設置されているものとする。その際に、撮像される対象物体画像の回転角度の計算方法を説明する。なお、設置角度Φ_ｖ、Θ_ｖは、撮像装置１００の雲台に固定された２軸方向の傾き検知センサによって検出されてもよい。あるいは、予め測定された設置角度Φ_ｖ、Θ_ｖの値が、ユーザＩ／Ｆ装置を介して入力されてもよい。いずれの場合も、ＲＯＭ１１３やＲＡＭ１１４に設置角度Φ_ｖ、Θ_ｖが記憶される。

図４Ａにおいて、直線Ｖは、実空間中における垂直方向（鉛直方向）を示す直線であって、かつ原点Ｏ＝（０，０，０）_ＸＹＺを通る直線である。実空間中に存在するいかなる対象物体の直立方向も、直線Ｖに平行である。ここで、対象物体の位置を通り、直線Ｖに平行となる直線をＬとする。すなわち、直線Ｌは、原点Ｏを通らない。そして、直線Ｌについて、仮想センサ平面Ｂ上への中心射影を考える。そして、中心射影（像）とｘ軸とが成す角度が、撮影された画像における対象物体の回転角度ψとなる。撮像された画像を、算出された回転角度ψだけ、逆方向に回転補正すれば、回転していない対象物体の画像が得られる。

設置角度Φ_ｖ、Θ_ｖの定義は、直線Ｖの方向を極座標表現とする。すなわち、図４Ａに示すように、Ｚ軸と直線Ｖの成す角度がΘ_ｖであり、Ｚ軸と直線Ｖを含む平面がＸＹ平面上でＸ軸と成す角度がΦ_ｖとなる。

撮像装置１００が固定的に設置されている場合、Φ_ｖ、Θ_ｖは定数と見なせば良い。また、撮像装置１００が移動物体上に設置されている場合、Φ_ｖ、Θ_ｖは、移動物体の姿勢に応じて変化するパラメータであると考えれば良い。

このように定義すると、直線Ｖ上のある１点Ｘ _ｖは（２．１）式より、次のように算出される。

ここで、Ｒ_ｖは、任意の値であって、当然Ｒｖ＝１であってもよい。

直線Ｌは、直線Ｖを平行移動したものである。よって、直線Ｌが実空間中のある１点Ｘ _１＝（Ａ，Ｂ，Ｃ）_ＸＹＺを通るとすれば、Ｘ _２も通ることになる。

つまり、このように直線Ｌ上の２点Ｘ _１、Ｘ _２を選択したとする。また、［Ｘ・Ｙ］＝Ｘ_１Ｙ_２−Ｙ_１Ｘ_２、［Ｘ・Ｚ］＝Ｘ_１Ｚ_２−Ｘ_２Ｚ_１、［Ｙ・Ｚ］＝Ｙ_１Ｚ_２−Ｙ_２Ｚ_１から、次式が導出される。

これを（３．１４）式に代入する。

直線Ｌ上の１点を、例えば、対象物体の存在する位置Ｘ _１＝（Ａ，Ｂ，Ｃ）_ＸＹＺとすれば、上記のＦは、姿勢パラメータの一例である設置角度Φ_ｖ、Θ_ｖ、そのときのパン角Θ及びチルト角度Φから算出される。したがって、回転角度ψは、次式から算出される。

ここで、対象物体の像が撮像センサの中心に位置しているとき、この物体は撮像センサの法線方向、すなわち、ｘｙｚ座標系におけるｚ軸上に存在することになる。物体までの距離をＲ_ｚとすると、この物体の存在するｚ軸上の点Ｘ _ｚ＝（０，０，Ｒ_ｚ）は、ＸＹＺ座標系において、次式の通りとなる。

この点Ｘ _ｚを直線Ｌ上のある１点と見なす。

そして、（４．７）式を（４．４）式に代入する。

したがって、物体までの距離Ｒ_ｚは、Ｆに対して無関係となる。そのときのパン角Φとチルト角Θから、センサ平面の中心において撮像されている物体の回転角度ψを求めることができる。なお、雲台が固定的に設置されている場合には、Φ_ｖとΘ_ｖとは定数となる。よって、それらの三角関数値であるｓｉｎ Θ_ｖとｃｏｓ Φ_ｖ等が予め算出されて記憶装置に保持されていれば、多少なりとも回転角度ψ計算処理を高速化できるであろう。

実空間中における撮像装置１００の設置高が、撮像対象とする被写体の高さとほぼ等しければ、対象物体画像の回転は、図３Ｂで説明した要因によって発生する。つまり、センサ平面の法線方向が、実空間の垂直方向に対してほぼ垂直であれば、撮影される対象物体画像の回転角度ψは、センサ平面のどの場所においても大きく変わることはない。よって、（４．８）式で求められた回転角度ψは、画像に含まれる各領域に対してそれぞれ適用可能である。この場合、対象物体が存在しうる各候補領域を、回転角度ψにより１回だけ回転補正するだけで、撮像された画像に含まれるすべての物体について、正立画像が得られる。

［物体検出処理］
対象物体を検出するための物体検出処理の一例として、本実施形態では、顔検出処理について説明する。本実施形態における顔検出処理について説明する。なお、本実施形態の顔検出処理は、特許文献３（特開２００４−１９９２００号公報）に開示されている技術をベースとしているが、本発明は、他の物体検出処理も採用できる。また、顔に限らず、人体の全身、手、足、その他の物体を検出する物体検出処理であっても、本発明には適用可能である。

図６は、検出すべき人物の顔を模式的に表した図である。人物の顔には、目、鼻、口といったいくつかの特徴点が、おおよそ定まった位置にそれぞれ配置されている。本実施形態では、目と口に注目し、局所的な低次元特徴から、階層的により高次元の特徴抽出を行うことによって、画像中の顔を検出する。

図７は、階層特徴の一例を示す図である。各四角形は、入力画像のある１点に注目したときに切り出される範囲（受容野）を示している。７０１は、最も原始的な微少の受容野における特徴を示している。上から順に、縦方向特徴、横方向特徴、右上がり斜め方向特徴、左上がり斜め方向特徴となっている。これらは、例えば、ガボールウェーブレット変換等のフィルタによって得られる微小線分の方向である。画像中のどの位置に、これらの特徴が存在するかを抽出するのが第１次特徴抽出処理である。もちろん、この４種類以外の特徴が追加されてもよい。

これらの第１次特徴抽出処理の出力を用いて、第２次特徴抽出処理が実行される。７０２は、第２次特徴の一例を示している。第２次特徴は、例えば、複数の第１次特徴を組み合わせることによって作成される。上から順に、右開きＶエッジ、左開きＶエッジ、水平エッジ、垂直エッジとなっている。この他、色成分を含む特徴が採用されてもよい。

第２次特徴抽出の出力を用いて、第三次特徴抽出処理が実行される。７０３は、第三次特徴の一例を示している。第三次特徴は、上述した注目すべき特徴点である目及び口である。

同様に、目及び口（第三次特徴）が、７０４が示すような配置にあるとき、第四次特徴（顔）が検出される。つまり、顔検出処理部は、位置に関してある程度のロバスト性を持たせつつ、第１次から第四次までの特徴抽出処理を階層的に行うことができればよい。

図８は、顔検出処理に採用される畳み込みニューラルネットワーク構造の一例を示す図である。この畳み込みニューラルネットワーク構造は、非特許文献１に開示されている。このニューラルネットワークにおいて、最終層の出力は、認識された検出対象物体の入力データ上の位置情報である。

８０１は、画像バッファ中に格納されている各画像データを入力するためのデータ入力層である。Ｓ１層は、最初の特徴検出層である。Ｓ１層は、局所的な低次の特徴である第１次特徴を抽出するフィルタとして機能するように、パラメータが設定されている。例えば、第１次特徴の１つにつき、これを検出するための細胞平面が１つ割り当てられている。これにより、入力画像の各位置を中心とする局所領域における複数種類の特徴を抽出することが可能となる。なお、各細胞平面は、入力画像の画素数と等しいか、これを所定レートで間引いた数に等しい数のニューロンにより構成される。これは他の層に関しても同様である。

特徴統合層Ｃ１には、Ｓ１層における各特徴検出のための細胞平面ごとに、同サイズの細胞平面が１つずつ用意されており、所定の受容野構造をもって、それぞれの出力を統合する。これにより、各特徴についてある程度の位置ロバスト性を持たせることを可能としている。

以下、Ｓｎ層とＣｎ層が、最終出力層まで交互に並んでいる（ｎ＝１，・・・，Ｎ）。Ｓｎ層の各特徴抽出平面への入力としては、ｎ＝１を除いて、その前に位置するＣｎ−１層の全特徴統合平面の出力が用いられる。このような構造により、低次の特徴を順次検出・統合していき、最終層の出力として、所望の検出物体（例：顔）の存在する位置が出力される。

ここで、特徴検出層における各細胞平面を構成するニューロンの入出力特性は、次のように表される。第ｌ層目の特徴検出層における第ｋ番目の特徴を検出する細胞平面の位置ｎにあるニューロンの出力を、ｕ_ｓｌ（ｎ，ｋ）とする。ｕ_ｓｌ（ｎ，ｋ）は、次のように表現される。

ここで、ｕ_ｃｌ（ｎ，ｋ）は、第ｌ層目の特徴統合層における第ｋ番目の細胞平面の位置ｎにあるニューロンの出力を示す。Ｋ_ｃｌは、第ｌ層目の特徴統合層における細胞平面の数であって、同一層の特徴検出層の細胞平面の数（検出対象となる特徴の数）に等しい。ｗ_ｌ（ν，к，ｋ）は、第ｌ層目の特徴検出層における第ｋ番目の細胞平面の位置ｎにあるニューロンの、第ｌ−１層目の特徴統合層における第к番目の細胞平面の位置ｎ＋νにあるニューロンからの、入力結合パラメータである。また、Ｗ_ｌは、検出細胞の受容野を示し、その大きさは有限である。

受容野Ｗ_ｌの結合加重値ｗ_ｌを適切に設定することにより、所望の特徴を検出することができる。この設定は、図７に示した各層の各特徴ごとに、十分な数のサンプル（教師データ）を用意し、特徴平面ごとに学習アルゴリズム（例：誤差逆伝播法）を適用して実行すればよい。本実施形態では、左右開きのＶエッジ、目及び口、顔のサンプルを多数用意し、これを学習させることによって、結合加重値ｗ_ｌを定めることができる。

また、上記式において、ｆ（ｘ）は、積和演算結果に対しての非線形処理を示す関数である。例えば、ｆ（ｘ）は、次のようなロジスティック関数である。

次に、第ｌ層目の特徴統合層における第ｋ番目の細胞平面の位置ｎにあるニューロンの出力ｕ_ｃｌ（ｎ，ｋ）は、次式から算出される。

この式において、ｄ_ｌ（ν）は、第ｌ層目の特徴検出層（Ｓ層）におけるニューロンから、同一特徴に対する第ｌ層目の特徴統合層（Ｃ層）の細胞平面におけるニューロンへの入力結合を意味する。ｄ_ｌ（ν）は、｜ν｜に関して単純に減少する関数である。また、Ｄ_ｌは、統合細胞の受容野を示す。ｄ_ｌ（ν）及びＤ_ｌを適切に調整することにより、前層の特徴に対する位置ロバスト性を調整することが可能である。

以上説明した畳み込みニューラルネットワーク構造により、第４次特徴として、画像中の人物の顔がある位置を検出する物体検出部１１９が構成される。また、顔の検出位置を基準とする所定範囲について第３次特徴を調べることにより、目及び口特徴点の位置も特定することが可能となる。この構成によると、例えば、目特徴は、第２次特徴であるＶエッジ及び横方向エッジのおおよその位置に基づいて検出される。よって、目を瞑るなど少々の形の変形があても、目の位置を検出できる。

また、ニューラルネットワーク構造を採用する物体検出部１１９では、Ｃ層への入力受容野のサイズを調整することにより、ロバスト性を調整することができる。すなわち、Ｃ層の入力受容野のサイズを小さくしたり、場合よってはＣ層を無くしたりしてしまうことにより、パーツの回転、位置、サイズの変動許容度の低い（より精度の高い）検出部を生成することが可能である。さらに、学習させる教師データを絞り込めば、より精密な検出部を生成できる。

なお、ニューラルネットワーク構造を採用する物体検出部１１９を、専用のハードウェア回路により実現してもよい。また、ＣＰＵ１１２が十分な処理能力を持つものであれば、ソフトウェアにより物体検出部１１９を実現してもよい。

［物体検出処理のフロー］
図９は、実施形態に係る制御部の機能をより詳細に示したブロック図である。図１Ｂと共通する部分には同一の参照符号が付されている。カメラ装置１０１は、画像を撮像する撮像部として機能する。ここでは、ＣＰＵ１１２が、回転角度算出部９０１、回転補正部９０２及び逆回転部９０３として機能するものとして説明するが、本発明は、この構成にのみ限定されることはない。物体検出部１１９は、基本的な物体検出機能に加え、候補領域抽出部９０４、重心算出部９０５及び座標特定部９０６を含む。

回転角度算出部９０１は、カメラ装置１０１の３次元空間における姿勢を表す姿勢パラメータに基づいて、撮像された画像に施されることになる回転補正の回転角度ψを算出する。回転角度算出部９０１は、例えば、カメラ装置１０１の３次元空間における設置角度Φ_ｖ、Θ_ｖ、パン角Φ及びチルト角Θを姿勢パラメータとして回転角度を算出する。なお、回転角度算出部９０１は、パン角Φ及びチルト角Θを制御する姿勢制御部１１７からパン角Φ及びチルト角Θを取得してもよい。回転角度算出部９０１は、設置角度Φ_ｖ、Θ_ｖを不図示の姿勢センサ又はＲＡＭ１１４などの記憶部から取得してもよい。

候補領域抽出部９０４は、撮像された画像において、検出対象となる検出対象物体（例：顔）が含まれうる１つ以上の候補領域を抽出する。重心算出部９０５は、抽出された１つ以上の候補領域の重心位置を算出する。

回転補正部９０２は、抽出された各候補領域を、算出された回転角度ψに応じて回転補正する。例えば、回転補正部９０２は、重心位置を回転中心として各候補領域を回転補正する。そして、物体検出部１１９は、回転補正された各候補領域から検出対象物体を、基本的な物体検出機能により検出する。

なお、座標特定部９０６は、回転補正された画像における各検出対象物体の座標を特定する。逆回転部９０３は、各検出対象物体に関して共通の位置を回転中心として、特定された各検出対象物体の座標を回転角度ψに応じて逆回転させることで、撮像された画像における各検出対象物体の座標を算出する。

図１０は、実施形態に係る物体検出処理の一例を示すフローチャートである。この物体検出処理は、撮像された画像中で、対象物体の存在する正確な座標を求めることを目的としている。正確な座標が求まれば、対象物体の追尾精度が向上するため有利であろう。

ステップＳ１００１で、物体検出部１１９は、ＣＰＵ１１２の指令に応じて、カメラ装置１０１により撮像された画像に対し、第１次検出処理（スクリーニング）を実行する。すなわち、候補領域抽出部９０４は、撮像された画像において、検出対象となる検出対象物体が含まれうる１つ以上の候補領域を抽出する。

ここでは、顔が検出対象物体となる。この第１次検出処理において用いられる顔検出アルゴリズムは、顔の角度や大きさ等が少々ずれていても検出できるようにするために、十分にロバスト性の高いアルゴリズムが採用されることが望ましい。そのため、顔でない画像領域を顔と判断する誤検出は相対的に多くなるものの、顔である画像領域の未検出はほとんど発生しようなアルゴリズムが望ましい。なお、第１次検出処理としては、先に説明した顔検出アルゴリズム（図７、８）を使わなくともよい。例えば、色情報に基づく肌色領域の抽出処理、背景差分、動き検出処理又はこれらの２以上の組合せなどが、顔検出アルゴリズムとして採用されてもよい。ようするに、検出すべき対象物体が存在しうる候補領域をもれなく抽出できるアルゴリズムであれば、本発明に採用可能である。

図１１Ａ〜１１Ｅは、物体検出処理の手順を概念的に説明するための模式図である。とりわけ、図１１Ａは、入力画像の一例を示す図である。図１１Ｂは、第１次検出処理（Ｓ１００１）の処理結果の一例を示す図である。すなわち、十分にロバスト性の高いアルゴリズムによって、候補領域が漏れなく抽出されていることがわかる。この第１次検出処理においては、対象物体の存在する正確な座標まではわからないが、候補領域の取りこぼしはほとんど発生しない。猫の顔のように、対象物体でない領域もある程度は抽出されてしまうが、画像全域から見れば誤検出領域は大幅に限定されているので、誤検出領域についてのその後の処理コストは少ないといえよう。

ステップＳ１００２で、回転角度算出部９０１は、撮影された画像の回転角度ψを算出する。この算出処理は、前述の通り、設置角度Φ_ｖ、Θ_ｖ、パン角Φ及びチルト角Θから、センサ平面の中心についての回転角度ψを算出処理である。

本実施形態においては、撮像装置１００は、対象物体である人物の顔の存在する高さに設置されているものとする。したがって、センサ平面の法線方向が、実空間垂直方向（直線Ｖ）に対してほぼ直角となる条件で撮像することになるため、一つの回転角度ψを撮像画像の全領域に適用できる。これは、主として図３Ｂに示した要因により、回転角度ψが生じているということである。回転角度ψは、撮像画像における対象物体の位置には無関係のパラメータとなる。そのため、ステップＳ１００２が、ステップＳ１００１の前に実行されてもよいし、同時並行的に実行されてもよい。

ステップＳ１００３で、回転補正部９０２は、回転角度ψを用いて、対象物体画像が正立する方向となるように画像の回転補正を実行する。ここでは、画像の全体が回転補正されてもよいが、図１１Ｂ及び図１１Ｃに示すように、候補領域を含む最小限の領域だけが回転補正されることが、処理負荷を軽減する観点からは望ましい。

回転角度ψは、上述したように、撮像されている画像が傾いている角度である。よって、−ψだけ画像を回転補正してやれば、正立画像が得られる。この回転補正処理は、例えば、アフィン変換を使用する。このとき、回転中心は、その座標ｘ _ｒ＝（ｘ_ｒ，ｙ_ｒ）が記憶されていれば、画像中のどの位置にしてもよい。本実施形態では、重心算出部９０５により算出された１以上の候補領域についての重心位置を、回転中心とする。点ｘ＝（ｘ，ｙ）を、点ｘ _ｒ＝（ｘ_ｒ，ｙ_ｒ）を回転中心として角度 ―ψだけ回転補正した点をｘ’＝（ｘ’，ｙ’）とする。この回転補正に相当するアフィン変換は、次式により示される。

ここで、１行目の右辺には、３×３行列が３つある。そのうち、第１の行列は、回転中心ｘ _ｒ＝（ｘ_ｒ，ｙ_ｒ）を原点へ平行移動することを意味する。第２の行列は、原点を回転中心として角度 ―ψだけ回転移動することを意味する。第三の行列は、回転中心を元の（ｘ_ｒ，ｙ_ｒ）の位置に戻すことを意味する。（６．１）式より、次式が導出される。

したがって、抽出された候補領域の各画素を、（６．２）式に基づいて回転移動すれば、各候補領域が正立状態に補正される。図１１Ｃは、候補領域が回転補正されたときの様子を示す図である。なお、図１１Ｂの黒点は、回転中心を示している。

なお、本実施形態では、各候補領域について、共通となる１つの位置を回転中心としているが、本発明は、これにのみ限定される訳ではない。例えば、回転補正部は、各候補領域について、それぞれの重心（中心）を回転中心とし、各候補領域ごとに独立して回転補正を実行してもよい。ただし、各候補領域の回転中心は、それぞれ記憶部に記憶しておく必要がある。なぜなら、回転された候補領域を元に戻すための逆回転処理（Ｓ１００５）でも、この回転中心が使用されるからである。

ステップＳ１００４で、物体検出部１１９は、回転補正された画像について、第２次検出処理を実行する。また、座標特定部９０６は、回転補正された画像における各検出対象物体の座標を特定する。第２次検出処理で使用されるアルゴリズムは、第１次検出処理のアルゴリズムと比較し、相対的に、高精度でかつロバスト性の低い。これにより、精度よく、顔の存在する座標を検知することが可能となる。なお、テンプレートマッチングなどの他のアルゴリズムが採用されてもよい。この場合も、第１次検出処理のアルゴリズムと比較し、高精度でかつロバスト性の低いアルゴリズムであればよい。

ここで用いている顔検出アルゴリズム（顔検出器）は、正立した顔画像のみを検出することを目的として設計されたものである。１つの顔検出器は、検出対象物体のサイズは特定サイズに限定される。それぞれ顔のサイズを異ならしめて設定された複数の顔検出器を用意すれば、どの顔検出器で検出されたかによって、顔のサイズを知ることもできる。また、もし必要ならば、同様正立した顔を検出する検出器と、特定角度に傾いた顔を検出する検出器とを用意すれば、対象とする顔が、実空間上でどの程度傾けられているかを割り出すことも可能となろう。

図１１Ｄは、第２次検出処理の結果の一例を示す図である。候補領域に相当する矩形内に設けられた灰色点は、検知した顔の中心についての正確な座標を示している。なお、図１１Ｄによれば、誤検出された猫の顔に相当する候補領域は、第２次検出処理では、除外されていることもわかる。

ステップＳ１００５で、逆回転部９０３は、検出された物体の存在する座標について逆回転補正を実行する。逆回転部９０３は、例えば、特定された各検出対象物体の座標を回転角度ψに応じて逆回転させることで、撮像された画像における各検出対象物体の座標を算出する。なお、このときの回転中心は、各検出対象物体に関して共通の位置である。また、回転中心の座標は、回転補正（Ｓ１００３）で使用された座標ｘ _ｒ＝（ｘ_ｒ，ｙ_ｒ）であり、その値は、ＲＡＭ１１４に記憶されている。

座標特定部９０６により特定された座標をｘ’ _ｆ＝（ｘ’_ｆ，ｙ’_ｆ）とする。逆回転処理も回転処理に変わらないため、（６．２）式と同様となる。

ここで、ｘ _ｆ＝（ｘ_ｆ，ｙ_ｆ）が回転前の画像における対象物体の存在する座標である。

図１１Ｅは、逆回転された座標の一例を示す図である。逆回転処理は、ステップＳ１００４で最終的に抽出された領域についての座標に対してのみ施されればよい。図１１Ｅによれば、３つの領域が抽出されたので、３つの座標（中心又は重心の座標）だけが逆回転の対象となる。よって、ステップＳ１１０５の逆回転は、ステップＳ１１０３の回転補正に比べると、非常に低負荷な処理といえよう。

本実施形態によれば、回転補正部９０２は、パン軸が鉛直方向から傾いていたとしても、画像の全体ではなく、候補領域を回転補正させる。これにより、従来よりも計算負荷（処理コスト）が軽減され、かつ、精度良く物体が検出されることになる。

また、回転角度算出部９０１は、撮像装置の設置角度、パン角及びチルト角に基づいて、回転補正に使用される回転角度を算出する。よって、比較的に少ない計算量でもって、回転角度を算出できる。

また、重心算出部９０５が算出した候補領域の重心位置など、各候補領域の共通位置を回転中心として回転補正を実行すれば、個別に回転中心を算出する処理が不要となる利点がある。また、回転補正も一度に実行できるため、処理速度の観点からも有利であろう。

また、逆回転処理を実行する逆回転部９０３は、特定された各検出対象物体の座標を回転角度に応じて逆回転させて、撮像された元画像における座標を算出する。よって、候補領域に含まれる全画素の座標のうち、１つの画素の座標だけ逆回転させればよいため、計算量を少なくすることができる。また、逆回転の回転中心も、各検出対象物体に関して共通の位置を回転中心とすれば、計算量を少なくすることができよう。

［第２実施形態］
［画像中の位置に応じた回転角度］
例えば、天井に撮像装置１００が設置されると、実空間中におけるカメラの設置高が、撮像対象となる物体の存在する高さよりも高くなる。このような場合、センサ平面の法線と実空間の鉛直方向との成す角度は直角（π／２）から大きくずれる。このとき、センサ平面の中心付近で撮像された物体画像の回転は、（４．８）式により算出される回転角度ψとなる。しかし、中心付近から離れた周辺位置についての適正な回転角度は、（４．８）式により算出される回転角度ψとは異なってくる。これは、回転角度に、図３Ｃで説明した要因が入ってくることを意味する。これに加えて、パン軸が鉛直方向からずれていれば、図３Ｂと図３Ｃに示した要因が組み合わされるため、各物体の回転現象はさらに複雑となる。この場合、センサ平面上での位置に応じて回転角度を算出する必要がある。

図２に示した焦点距離ｆのカメラ装置１０１について考慮する。今、ある物体の像が、センサ平面上の座標ｘ _０＝（ｘ_０，ｙ_０）ｘｙに位置すると仮定する。この物体の実空間における位置は、センサ平面に固定された極座標表現により、（ｒ，θ_０，φ_０）_ｒθφと表せる。

（２．４）式、（２．５）式より、θ_０，φ_０は、次の通りとなる。

よって、ｘｙｚ座標系で、物体の位置は、ｘ _１＝（ｘ_１，ｙ_１，ｚ_１）_ｘｙｚ＝（ｒ・ｓｉｎ θ_・０ｃｏｓ φ_０，ｒ・ｓｉｎ θ_０・ｓｉｎ φ_０，ｒ・ｃｏｓ θ_０）と表現できる。ここで、ｒは、レンズ中心ｃから物体までの距離である。

このｘ _１を、（４．６）式と同様に、ＸＹＺ座標系で表現する。

（４．７）式と同様、（７．２）式を（４．４）式に代入すると、ＡＢＣはいずれもｒとの積となる。よって、ｒは（４．４）式の分母及び分子の全ての項に含まれることになる。（７．２）式が代入された（４．４）式ではｒは無関係となる。このような事情から、（７．２）式でｒ＝１と置ける。

ここで、ａ_０、ｂ_０、ｃ_０は、次のような定数である。

（７．３）式を（４．４）式に代入すると、次式が得られる。

ただし、θ_０を算出する際に焦点距離ｆが無視できないことには注意すべきである。

結局、回転角度ψは、次のように導出される。

カメラ装置１０１の設置角度Φ_ｖ、Θ_ｖ、パン角Φ、チルト角θ及び焦点距離ｆ、並びに、各検出対象物体の座標（ｘ_０，ｙ_０）に基づいて、回転角度ψが算出される。

［物体検出処理］
図１２Ａは、対象物体である人物の顔の高さよりも、撮像装置１００が下方に設置されている場合の入力画像の一例を示す図である。画像中に３人の人物が映っているが、これらの人物は、いずれも実空間中では直立している。しかし、比較的近い位置で、かつ、下方に設置されたカメラから見上げるようにして撮像されているため、画像中における各人物の顔の回転角度は異なっている。

ステップＳ１００１で、候補領域抽出部９０４は、第１次検出処理を実行する。図１２Ｂは、候補領域の抽出結果の一例を示す図である。

ステップＳ１００２で、回転角度算出部９０１は、各候補領域の回転角度を算出する。具体的には、カメラ装置１０１の設置角度Φ_ｖ、Θ_ｖ、パン角Φ、チルト角θ及び焦点距離ｆ、並びに、各検出対象物体の座標（ｘ_０，ｙ_０）を（７．３）式に代入することで、回転角度ψが算出される。ここで、座標特定部９０６は、センサ平面上における各検出対象物体の座標（ｘ_０，ｙ_０）を推定する。もちろん対象物体の正確な座標は、第２次検出処理を行った後の逆回転によって定まるものであるので、ここで用いる座標は、各候補領域を代表する位置（例：重心）である。

なお、第１次検出処理により、抽出された１つの候補領域に複数の物体が重なりあってしまうことも考えられる。例えば、ある人物の顔の上に、他の人物の顔が写ってしまうケースである。この場合、物体検出部１１９は、重なり合っている複数の物体を認識し、それぞれ別の候補領域となるように分離することが望ましい。第１次検出処理だけでは分離不能な場合は、候補領域の形や大きさを異ならしめることで、各候補領域を分離してもよい。もちろん、画像中で近傍に存在する複数の物体の回転角度は、元々近い値となる。よって、一つの候補領域としてまとめて扱ってしまってもよい。

ステップＳ１００３で、回転補正部９０２は、各検出対象物体が正立するように、各検出対象物体のそれぞれの回転角度に応じて回転補正を実行する。この際に、例えば、各検出対象物体の中心（重心座標）をそれぞれの回転中心としてもよい。なお、各回転中心の座標データは、逆回転処理で使用するために、ＲＡＭ１１４に記憶される。

図１２Ｃは、回転補正された画像の一例を示す図である。各候補領域は、それぞれ異なる回転角度でもって回転補正されていることがわかる。

ステップＳ１００４で、物体検出部１１９は、第２次検出処理を実行する。図１２Ｄは、第２次検出処理の処理結果の一例を示す図である。枠内の各灰色点が、それぞれ検出された座標を表している。猫の顔に対応する候補領域は除外されていることもわかる。

ステップＳ１００５で、逆回転部９０３は、検出された座標を、元の候補領域を回転させたときの回転中心及び回転角度ψにしたがって逆回転させた位置を計算する。図１２Ｅは、元の画像における各検出点の座標を示す図である。各座標とも、個別の回転角度及び回転中心が適用されていることがわかる。

本実施形態によれば、撮像部の撮像平面上における各検出対象物体の位置に応じて、回転角度が算出される。よって、カメラ装置１０１の高さと、対象物体の高さとが異なる場合であっても、好適に回転補正し、各対象物体を検出できる。もちろん、第１の実施形態と同様に、従来よりも、少ない処理コストでかつ精度よく、物体を検出できるようになることはいうまでもない。

［第３実施形態］
特許文献４（特開２００３−２２２５０９号公報）によれば、撮像装置について姿勢を検出する発明が開示されている。この発明によれば、姿勢センサで姿勢パラメータが取得される。次に、３次元位置が既知である複数の特徴点（ランドマーク）を撮像装置によって撮像する。そして、映像中の複数の特徴点に基づいて、姿勢パラメータが補正される。しかし、特許文献４に記載の発明は、ランドマークとなる特徴点と、その位置を三次元空間中に予め設定する必要がある。この設定作業は、煩雑であるため、好ましくない。撮像環境によっては、特定のランドマークを設置できないおそれもある。そこで、第３実施形態では、特定のランドマークを設置しないでも、精度良く撮像装置の姿勢パラメータを取得可能な姿勢キャリブレーション方法を提供する。また、パン・チルトなどの姿勢制御機構を備えた撮像装置へ適用可能な姿勢キャリブレーション方法が提供される。

［回転角度抽出処理］
図１３Ａは、顔検出結果の一例を示す図である。物体検出部１１９に含まれる顔検出器は、正立した顔画像を検出するものである。しかし、検出された顔画像は、正立状態から若干左に傾いている。１３０１は、顔があると判定された座標（検出点）を示している。

点線の円内は、前段特徴の存在すべき領域である。この領域は、前述の通り、最終層の一つ前の層におけるＣ層受容野によって実現されている。１３０２と１３０３は、それぞれ左目と右目の存在すべき各範囲を示す、目特徴に関する受容野である。１３０４は、口特徴の存在する範囲を示す受容野である。前述の通り、Ｃ層が、ある範囲の受容野を持つことで、低次特徴点の位置に関するロバスト性が達成される。それゆえ、この顔検出器は、正立状態からある程度回転した顔画像でも検出ができる。

すなわち、１３０１で示す位置に顔が存在すると検出された場合、前層であるＳ層の出力には、１３０２と１３０３が示す範囲にそれぞれ一つずつの目特徴が存在するはずである。また、１３０４で示す範囲には、口特徴が存在するはずである。図１３Ｂは、前層であるＳ層の出力の一例を示す図である。

図１３Ｂにおいて、１３０５は左目として検出された目特徴点を示している。１３０６は、右目として検出された目特徴点を示している。１３０８は、目特徴の誤検出点を示している。すなわち、実際には目が無かった位置に目特徴点が検出されてしまっている。１３０７は、口特徴の検出を示している。

ここで、センサ平面（画像平面）であるｘｙ平面上で、右目特徴点（１３０６）から左目特徴点（１３０５）へのベクトルｘ _ｅｙｅ＝（ｘ_ｅｙｅ，ｙ_ｅｙｅ）を考える。検出された顔画像について、正立状態からの回転角度ψは、ベクトルｘ _ｅｙｅとｘ軸との成す角度に等しくなる。

このように、回転角度ψが算出される。

以上は、正立した顔画像を基準として検出可能な顔検出器についての説明であった。ここで、この顔検出器が、例えば、±３０°の範囲で、物体画像の回転角度についての許容性を備えているとする。このとき、６０°ずつ回転した顔画像を基準とする検出可能な顔検出器を６つ用意すれば、３６０°すべてについて顔画像を検出できる。

顔検出器が、図８に関して説明したような畳み込みニューラルネットワーク（ＣＮＮ）構造を採用しているとする。この場合、６０°ごとの各基準角度に対応する各顔検出器は、最下位の低次特徴層までを含めた受容野を入力画像に対して６０°ずつ回転させることによって得られる。

あるいは、入力画像を、原点を回転中心として６０°ずつ回転した６枚の画像を順に顔検出器に入力すれば、基準角度の異なる６つの顔検出器により処理を行ったのと同等の処理となる。もちろん、この場合は、各特徴点や検出結果として得られる座標は、検出処理後に逆回転して元の座標系に戻す必要がある。

入力画像を、原点を中心として、任意の角度θ_ｉｍｐで回転した画像を得るには、各座標の画素を以下の式に示す座標へ写像すればよい。

特徴点や検出点の逆回転補正した座標も同様に計算できる。

各顔検出器で検出された顔画像に対して、それぞれ（８．１）式で回転角度ψを求める。そして、回転角度ψに、その顔検出器の基準角度をオフセットとして加えれば、顔がどのように傾斜してもいても、その回転角度ψは算出可能となる。

ここでは、回転角度ψを計算するための低次特徴として二つの目特徴を用いた。しかし、顔特徴点と口特徴点を結ぶ直線のような、他の特徴点を利用してももちろん構わない。また、上述したように、顔以外の物体（机や箪笥などの直方体物体）を検出対象物体とする場合は、縦エッジの方向をそのまま角度計算に利用することもできる。このように検出対象物体の特性に合わせて、適切な特徴を選択すればよい。

本実施形態では、他の回転角度算方法が採用されてもよい。例えば、物体検出処理で説明したように、検出しようとする物体の種類によっては、テンプレートマッチング処理が有効な場合もある。この場合、対象物体を検出するための参照画像データを、所定の角度ずつ３６０°の全範囲で回転させることで、複数の参照画像データを用意する。そして、すべての参照画像データでマッチング処理を行い、最もマッチする参照画像の回転角度を、物体の回転角度として抽出できる。もちろん、隣接する他の複数の角度に係る参照画像データとのマッチング度合いに基づいて、連続的な値を算出するように回転角度算出部を構成しても構わない。このようなテンプレートを用いた回転角度算出処理は、物体検出処理と同時並行的に実行可能である。また、複数の角度算出方式を組み合わせて、より正確に、あるいは広い条件に適用できるようにすることも、もちろん可能である。

さらには、本実施形態に示す姿勢キャリブレーションの目的に限れば、顔のような複雑な物体検出に限る必要ももちろんない。例えば、撮像装置の設置箇所が屋内に限定されるような場合、部屋の壁のコーナー部や柱垂直線、あるいは机や直方体の縦方向エッジを用いることにすれば、遥かに容易かつ正確に、垂直方向の検出が可能となる可能性もある。野外においては、人口建造物や杉等の通常垂直に成長する植物類を利用することも考えられる。

［中心付近に正立物体が検出されるときの姿勢パラメータの算出］
ここで、姿勢キャリブレーションの一例を説明する。撮像装置１００は、パン角やチルト角を所定のルールに従って変化させることで、撮像空間中をスキャンすることができる。その際に、撮像装置１００が、センサ平面の中心部に正立状態の物体画像を捉えることができれば、姿勢キャリブレーションを実行できる。

この姿勢キャリブレーションは、固定的に設置される撮像装置に関しては、設置時あるいは起動時に少なくとも１回だけ実行されればよい。なお、算出した姿勢パラメータは、ＲＯＭ１１３又はＲＡＭ１１４などの記憶部に保持され、その後の姿勢制御に使用される。一方、撮像装置１００が、可動物体等に設置される場合は、姿勢が刻々と変化してしまう。よって、この場合、姿勢キャリブレーションは、必要に応じて適時行うようにする。

図１４は、姿勢パラメータ算出装置として機能する制御部の一例を示すブロック図である。なお、すでに説明した個所と同一の個所には同一の参照符号が付されている。

姿勢制御部１１７は、カメラ装置１０１の光軸が一定の軌跡を描くようにカメラ装置１０１の姿勢（パン角、チルト角）を連続的に変更していく。その際に、物体検出部１１９は、撮像された画像に含まれる検出対象となる物体（例：顔）を検出する。回転角度算出部１４０１は、物体検出部１１９により検出された少なくとも２つの物体について、それぞれ正立状態からの回転角度ψを算出する。上述したように、回転角度ψ＝ｔａｎ^−１（ｘ_ｅｙｅ／ｙ_ｅｙｅ）である。なお、回転角度ψを算出できるのであれば、他の算術式が採用されてもよい。姿勢パラメータ算出部１４０２は、算出された少なくとも２つの回転角度から撮像装置１００の設置角度に関する姿勢パラメータ（設置角度Φ_ｖ，Θ_ｖ）を算出する。なお、位置算出部１４０３は、撮像された画像中における検出対象となる物体の位置（座標データ）を算出する。

図１５は、本実施形態における姿勢キャリブレーションの流れを示すフローチャートである。本実施形態に係る姿勢キャリブレーションは、対象とする物体を検出し、検出された物体の画像中の角度から姿勢パラメータ（設置角度Φ_ｖ，Θ_ｖ）を決定する処理である。算出すべき設置角度は２変数Φ_ｖ，Θ_ｖである。したがって、一組のパン角Φとチルト角Θに関する回転角度ψだけでは、２変数Φ_ｖ，Θ_ｖを決定できない。したがって、少なくとも２つの物体を検出してそれぞれの回転角度を算出する必要がある。

ステップＳ１５０１で、姿勢制御部１１７は、検出対象物体を検出するためにスキャンを実行する。スキャンとは、カメラ装置１０１の光軸が一定の軌跡を描くようにカメラ装置１０１の姿勢（パン角、チルト角）を連続的に変更していくことである。ここでは、パン角とチルト角が所定の幅づつ変更される。

ステップＳ１５０２で、物体検出部１１９は、１つめの物体（第１物体）を検出するための第１検出処理を実行する。物体検出部１１９は、上述した顔検出器などを用いて、検出対象となる物体を検出する。物体検出部１１９は、例えば、撮像された画像の中心に位置する物体を検出する。中心とは、１点という意味ではなく、広がりをもった検出範囲（中心付近）を意味する。中心付近だけを検出範囲とすれば、画像の全域を検出範囲とする場合に比較し、処理負荷が軽減される利点がある。

ステップＳ１５０３で、物体検出部１１９は、第１物体を発見したか否かを判定する。発見できたときは、ステップＳ１５０４へ進む。発見できなかったときは、ステップＳ１５０１に戻り、パン角とチルト角が所定の幅だけ変更されて、次のスキャンが実行される。

なお、Ｓ１５０２での検出領域を画像全域とし、かつ、中心付近以外で物体が見つかったときは、その物体が中心へ来るように、姿勢制御部１１７が、パン角及びチルト角を変更してもよい。

ステップＳ１５０４で、回転角度算出部１４０１は、第１物体の回転角度ψ_ａを算出する。回転角度ψ_ａは、正立状態を基準としたときの物体の回転角度である。ここでは、第１物体は、算出された回転角度が０となる正立状態となっている物体とする。

ステップＳ１５０５で、判定部として機能するＣＰＵ１１２は、検出された物体が正立しているか否かを判定する。正立（ψ_ａ＝０）していると判定したときは、そのときのパン角Φ_ａ及びチルト角Θ_ａをＲＡＭ１１４に記憶し、ステップＳ１５０６に進む。一方、非正立（ψ_ａ≠０）と判定したときは、Ｓ１５０１に戻って、正立状態の物体を検出しなおす。この場合、物体検出部１１９に含まれる顔検出器は、正立状態を基準角度とする１つのみでよい。つまり、先に説明したような３６０°すべての回転角度を検出できるように、複数の基準角度の検出器を用いる必要はない。

また、検出対象を１種類に限定する必要もない。物体検出部１１９は、撮像空間中に存在しうる複数種類の物体を検出すれば、正立状態の物体が撮像画像の中心に捉えられる確率が増加することになろう。ところで、正立していない物体の像が発見されたときに、そのパン角Φ_ｂ及びチルト角Θ_ｂを記憶しておいてもよい。

ステップＳ１５０６で、姿勢制御部１１７は、ステップＳ１００１と同様に、２つめの物体（第２物体）を検出するためにスキャンを実行する。ステップＳ１５０７で、物体検出部１１９は、ステップＳ１５０２と同様に、第２物体を検出するための第２検出処理を実行する。ここで発見されるべき第２物体は、回転角度は任意でよい。すなわち、第２物体の回転角度は非正立状態（ψ≠０）であってもよいのである。

ステップＳ１５０８で、判定部として機能するＣＰＵ１１２は、第１物体と異なる第２物体を検出したか否かを判定する。第２物体が発見されれば、ステップＳ１５０９に進む。第２物体を検出できなかったときは、ステップＳ１５０６に戻り、パン角やチルト角を変更して再スキャンが実行される。

ステップＳ１５０９で、回転角度算出部１４０１は、第２物体の画像中における回転角度ψ_ｂを算出する。また、第２物体が検出されたときのパン角、チルト角をΦ_ｂ，Θ_ｂとする。

第２物体の種類は、第１物体と同じでもよいが、それぞれのパン角とチルト角は異なっていなければならない（（Φ_ａ，Θ_ａ）≠（Φ_ｂ，Θ_ｂ））。つまり静止物体を対象とする場合には、異なった物体を撮像することになる。検出対象が移動物体である場合はもっと容易である。撮像装置１００は、パン角・チルト角が（Φ_ａ，Θ_ａ）のときに検出された物体をそのまま追尾し続け、パン角・チルト角が（Φ_ｂ，Θ_ｂ）に変化したときの回転角度ψ_ｂを求めればよい。

また、Ｓ１５０７で、一般に、ψ_ｂ≠０となる物体が取得されることになる。よって、Ｓ１５０２とは異なり、正立でない複数の基準角度の検出器を駆動する必要がある。

ステップＳ１５１０で、姿勢パラメータ算出部１４０２は、算出された少なくとも２つの回転角度ψ_ａ、ψ_ｂから撮像装置の設置角度に関する姿勢パラメータ（Φ_ｖ，Θ_ｖ）を算出する。

図１６Ａは、第１物体の一例を示す図である。図１６Ｂは、第２物体の一例を示す図である。撮像画像１６００において、第１物体の像１６０１は、正立状態にある。ここでは、ｘｙ座標の原点が、画像の中心となっている。この中心は、カメラ装置１０１が備える撮像センサの中心に一致し、また、光軸が通過する点でもある。

このときのパン角Φ_ａとチルト角Θ_ａは、図１Ａで説明した雲台に内蔵されるパルスエンコーダ等によってカウントしているため、当然ながら既知の値である。

図１７は、ＸＹＺ座標系においてＺ軸方向から第１物体を見た様子を示す図である。パン角・チルト角が（Φ_ａ，Θ_ａ）のときに、画像中心で撮影された第１物体が正立であるということは、図１７が示すように、直線Ｖ（直線Ｌ）がｘｚ平面上に存在することを意味する。

設置角度のうちΦ_ｖは、定義からも図１７からも明らかなように、パン角Φ_ａと一致する（Φ_ｖ＝Φ_ａ）。ψ_ａ＝０であれば、ｔａｎ ψ_ａ＝０である。よって、（４．８）式でΦ＝Φ_ｖ＝Φあとした結果とも一致する。また、このときのチルト角Θ_ａは任意で、どの角度であっても撮像物体は正立状態となる。

第２物体は、パン角・チルト角が（Φ_ｂ，Θ_ｂ）のときに、画像中心部にて撮像される。その状態が図１６Ｂに示されている。第２物体の像１６０２の長さ方向は直線Ｖ，Ｌの方向であり、ｘ軸を基準とした回転角度はψ_ｂであることが示されている。

ここで、Ｓ１５０９にて算出された回転角度ψ_ｂと、Φ_ａ，Θ_ａ，Φ_ｂ，Θ_ｂ、Φ_ｖとの関係は、（４．８）式から次式のようになる。

よって、Φ_ｖは次のように表現できる。

この（９．２）式をＦｂとおけば、Ｆｂは、すでに既知の定数Φ_ａ，Φ_ｂ，Θ_ｂ、ψ_ｂから計算できる定数となる。よって、（９．２）式は、次のように表現できる。

以上により、姿勢パラメータ算出部１４０２は、２つの姿勢パラメータであるΦ_ｖ，Θ_ｖを算出できる。

もちろん、本実施形態における姿勢キャリブレーションは、物体画像の回転要因として、図３Ｃで説明した要因を含んでいる場合にも有効である。また、撮像装置１００が、対象とする被写体の存在する高さとほぼ等しい高さに設置されていることが明らかな条件では、画像中心部に位置しない物体画像を用いることも可能となる。これは、図３Ｂで説明した要因によってのみ物体画像の回転が生じている場合に相当する。ただし、被写体から撮像装置１００が余りに近い場合には、角度の影響をシビアに受けるので、当てはまらないことには注意すべきである。

この条件のとき、ステップＳ１５０２の第１検出処理の検出範囲は、画像全域とする必要がある。中心部のみを検出範囲とする場合と比較し、Ｓ１５０２での処理時間は相対的に長くなる。しかし、検出範囲が広くなることで、正立している物体を発見できる確率は増える。また、この条件では、第２物体は、第１物体と同一でもよい。すなわち、パン角・チルト角をΦ_ｂ，Θ_ｂとしたときに、第１物体が撮像画像１６００内に収まっていればよい。逆に言えば、この範囲で物体が移動するように姿勢（光軸）を制御すればよいともいえる。このときの変化した角度ψ_ｂを用いて、姿勢パラメータΦ_ｖ，Θ_ｖを計算できる。したがって、姿勢キャリブレーションに必要となるトータルでの処理時間は、大幅に短縮される可能性が高い。

さらに、この条件のとき、あるパン角・チルト角において画像中に複数の物体が検出されたとする。この場合、処理時間が許すならば、回転角度算出部１４０１は、検出されたすべての物体についてそれぞれ回転角度を算出し、その平均等を用いるようにしてもよい。このようにすると、より正確な回転角度を算出できる。

逆に、あるパン角・チルト角において撮像された複数の物体の回転角度が、画像中のどの位置においても同じこともある。この場合、図３Ｃで説明した要因が無いことになる。したがって、ＣＰＵ１１２は、対象とする物体の存在する高さとほぼ等しい高さに撮像装置１００が設置されていると判断できる。

［第４実施形態］
撮像装置１００の設置箇所や姿勢によっては、どのようにスキャンを行っても、正立状態の物体画像を発見できないこともありうる。そこで、パン角・チルト角が異なる２つの組で、それぞれ中心付近で非正立状態にある２つの物体画像が取得されたときの姿勢キャリブレーションについて説明する。

図１８は、他の姿勢キャリブレーションについてのフローチャートである。図１５のフローチャートと比較して、同一のステップには同一の参照符号が付されている。なお、両者の違いは、第１物体が正立しているか否かの判定ステップ（Ｓ１５０５）が削除されている。また、姿勢角度を算出するためのステップＳ１５１０がＳ１８１０に置換されている。

図１９は、第１物体の一例を示す図である。撮像画像１９００において、第１物体の像１９０１は、ｘ軸からψ_ａ（≠０）だけ回転した、いわゆる非正立状態にある。なお、第２物体の像は、図１６Ｂに示したとおりである。もちろん、ψ_ａとψ_ｂのいずれかが０であってもよいことはいうまでもない。

第１物体の回転角度ψ_ａは、（９．１）式と同様にして導出される。

ここで、左辺をＦａとおいて整理すると、次式が導出される。

したがって、次の関係が成立する。

ここで、Ａａ，Ｂａ，Ｆａは、それぞれ次の通りである。

これらは、いずれも規定の定数Θ_ａ，Φ_ａ及びψ_ａから算出される定数となる。

第２物体に関しても、（１０．４）式式と同様に考えると、次の式が得られる。

ただし、Ａｂ，Ｂｂ，Ｆｂは、それぞれ次の通りである。

したがって、次の二変数の連立方程式を解ければ、設置角度（Φ_ｖ，Θ_ｖ）を算出できる。

まず、（１０．６）式より、次の関係が得られる。

これを（１０．４）式に代入する。

すなわち、

として、まずΦ_ｖを算出できる。その上で、

となるＳｖを算出する。

このように、最終的にΘ_ｖも算出できる。

第４実施形態も、物体画像の回転要因として、図３Ｃで説明した要因が含まれている場合に有効である。また、第３実施形態と同様に、撮像装置１００が、対象となる被写体の高さとほぼ等しい高さに設置されていれば、画像中心部に位していない物体画像を用いることも可能である。このとき同様に、（Φ_ａ，Θ_ａ）及び（Φ_ｂ，Θ_ｂ）が異なれば、検出対象物体は同一の物体でもよい。

［第５実施形態］
［１フレーム画像中の２箇所に物体が検出されたとき］
本実施形態では、（Φ_ａ，Θ_ａ）において撮像された１つの画像中に複数の検出対象物体が検出されたときに適用可能な姿勢キャリブレーションについて説明する。

図２０は、複数の検出対象物体が存在する画像の一例を示す図である。撮像された画像２０００には、第１物体２００１と第２物体２００２とが存在する。

図２１は、他の姿勢キャリブレーションについてのフローチャートである。図１５のフローチャートと比較して、同一のステップには同一の参照符号が付されている。なお、物体検出処理（Ｓ１５０２）においては、画像２０００の全域が検出範囲に設定される。

ステップＳ２１０３で、判定部として機能するＣＰＵ１１２は、１つの画像中に複数の検出対象物体が存在するか否かを判定する。存在しなければ、ステップＳ１５０１に戻る。存在すれば、ステップＳ２１０４に進む。

ステップＳ２１０４で、回転角度算出部１４０１は、第１物体の回転角度ψ_ａ１を算出する。ステップＳ２１０５で、回転角度算出部１４０１は、第２物体の回転角度ψ_ａ２を算出する。なお、３以上の物体が検出されたときは、選択部として機能するＣＰＵ１１２が、物体間の距離が最大となるような２つの物体を選択する。距離が離れていた方が、相対的に計算誤差が少なくなると考えられるからである。

なお、位置算出部１４０３は、画像中における各物体の位置を算出する。第１物体の存在する撮像センサ平面上の座標を（ｘ_ａ１，ｙ_ａ１）とする。その回転角度をψ_ａ１とする。第２物体の存在する撮像センサ平面上の座標を（ｘ_ａ２，ｙ_ａ２）とする。その回転角度をψ_ａ２とする。

ステップＳ２１０６で、姿勢パラメータ算出部１４０２は、各物体についての回転角度ψ_ａ１、ψ_ａ２及び算出され位置（ｘ_ａ１，ｙ_ａ１）、（ｘ_ａ２，ｙ_ａ２）から姿勢パラメータ（Φ_ｖ，Θ_ｖ）を算出する
［同時に二つの対象物体が検出されたときの姿勢パラメータ計算処理］
ここで、ステップＳ２１０６におけるの姿勢パラメータ（設置角度）計算処理について詳細に説明する。

（７．１）式から、第１物体については、次式が得られる。

これらは、いずれも定数となる。ここで、次のような定数を考える。

これらの定数と（１１．５）式から、ｔａｎ ψ_ａ１が算出される。ここでは、ｔａｎ ψ_ａ１＝Ｆ_ａ１とおく。

（１１．３）式を整理すると、（１１．４）式ないし（１１．６）式が得られる。

ここで、次式が成立する。

ただし、各定数は、次のとおりである。

同様に、座標（ｘ_ａ２，ｙ_ａ２）に位置するの第２物体に関して、次式が成り立つ。

ただし、各定数は、次のとおりである。

ここで、（１１．７）式と（１１．９）式を、（１０．８）式と同様に、二変数の連立方程式となる。

よって、（１０．９）式〜（１０．１３）式と同様に解けば、Φ_ｖ及びΘ_ｖが算出される。

ただし、ここで、Ｓｖは、次のとおりである。

本実施形態の姿勢パラメータ計算処理は、第３、第４実施形態に比べれば多少複雑となる。しかし、実空間中に対象物体の存在する密度など、所定の条件を満たせば、スキャン時間が短縮されるため、姿勢パラメータキャリブレーションに必要となるトータルの処理時間は短縮されよう。

なお、本実施形態は、パン・チルト回転機構を備えない撮像装置にも適用可能である。この場合、常に、（Φ_ａ，Θ_ａ）は固定値とし、移動物体である検出対象物体が複数検出されたときの撮像画像を用いて、姿勢パラメータを算出すればよい。

本実施形態においても、図３Ｂ及び図３Ｃで説明した要因が複合して回転要因となっている場合でも適用可能である。

また、実施形態３以降において、２つより多くの対象物体が捉えられる場合には、これらを利用することにより、姿勢推定の精度を増すことが可能である。例えば、複数の対象物体の中から２ずつ選び出し、各々の組についての連立方程式を解いて推定された姿勢パラメータの平均を用いるようにすることができる。このときいくつかの計算結果の中から、かけ離れているものは除外するようにしてもよい。あるいは、検出された物体の信頼度に応じて、計算に用いる物体を選択・除外するようにしても、もちろんよい。

本実施形態によれば、撮像装置１００の設置箇所や姿勢によっては、どのようにスキャンを行っても正立状態の物体画像を発見できない場合でも好適に姿勢パラメータを算出できる利点がある。

撮像装置の外観の一例を示す概略断面図である。撮像装置のコントローラ部の一例を示すブロック図である。カメラ装置の撮像に使用される光学系の一例を説明するための図である。パン軸の方向が、実空間中の垂直方向に一致するように撮像装置１００設置された状態を示す図である。パン軸が実空間中の垂直方向と一致しないように撮像装置１００が設置された状態を示す図である。光軸方向と鉛直方向との成す角度が直角から大きく離れている状態を示す図である。実空間Ｒ３に固定された座標系と、撮像装置１００のセンサ平面に固定された座標系とを説明するための図である。ｘｙｚ座標系とＸＹＺ座標系とが一致する状態を示す図である。仮想センサ平面Ｂ、レンズ中心ｃ＝（０，０，−ｆ）_ｘｙｚ及び実空間中の直線Ｌを示す図である。検出すべき人物の顔を模式的に表した図である。階層特徴の一例を示す図である。顔検出処理に採用される畳み込みニューラルネットワーク構造の一例を示す図である。実施形態に係る制御部の機能をより詳細に示したブロック図である。実施形態に係る物体検出処理の一例を示すフローチャートである。入力画像の一例を示す図である。第１次検出処理（Ｓ１００１）の処理結果の一例を示す図である。候補領域が回転補正されたときの様子を示す図である。第２次検出処理の結果の一例を示す図である。逆回転された座標の一例を示す図である。対象物体である人物の顔の高さよりも、撮像装置１００が下方に設置されている場合の入力画像の一例を示す図である。候補領域の抽出結果の一例を示す図である。回転補正された画像の一例を示す図である。第２次検出処理の処理結果の一例を示す図である。元の画像における各検出点の座標を示す図である。顔検出結果の一例を示す図である。前層であるＳ層の出力の一例を示す図である。姿勢パラメータ算出装置として機能する制御部の一例を示すブロック図である。本実施形態における姿勢キャリブレーションの流れを示すフローチャートである。第１物体の一例を示す図である。第２物体の一例を示す図である。ＸＹＺ座標系においてＺ軸方向から第１物体を見た様子を示す図である。他の姿勢キャリブレーションについてのフローチャートである。第１物体の一例を示す図である。複数の検出対象物体が存在する画像の一例を示す図である。他の姿勢キャリブレーションについてのフローチャートである。

符号の説明

１００撮像装置
１０１カメラ装置
１０２撮像方向（光軸の方向）
１０３パン軸
１０４チルト軸
１１０コントローラ部
１１１システムバス
１１２ＣＰＵ
１１３ＲＯＭ
１１４ＲＡＭ
１１５画像バッファ
１１５画像バッファ領域
１１６Ｆ装置
１１７姿勢制御部
１１８画像取得部
１１９物体検出部
９０１回転角度算出部
９０２回転補正部
９０３逆回転部
９０４候補領域抽出部
９０５重心算出部
９０６座標特定部

Claims

画像を撮像する撮像部と、
前記撮像部の３次元空間における姿勢を表す姿勢パラメータとして設置角度、パン角及びチルト角から、前記撮像部により撮像された画像を正立していない状態から正立した状態に回転補正する回転角度を算出する回転角度算出部と、
前記撮像部により撮像された画像において、検出対象となる検出対象物体を含みうる１つ以上の候補領域を抽出する抽出部と、
抽出された各候補領域を含む前記撮像された画像の一部領域を、算出された前記回転角度に応じて回転補正する回転補正部と、
回転補正された各候補領域から前記検出対象物体を検出する物体検出部と
を含むことを特徴とする撮像装置。
前記撮像部の姿勢パラメータのうち少なくともパン角及びチルト角を制御する姿勢制御部をさらに含み、
前記回転角度算出部は、前記撮像部の３次元空間における前記設置角度、前記姿勢制御部における前記パン角及び前記チルト角を前記姿勢パラメータとして前記回転角度を算出することを特徴とする請求項１に記載の撮像装置。
抽出された１つ以上の前記候補領域の重心位置を算出する重心算出部をさらに含み、
前記回転補正部は、前記重心位置を回転中心として回転補正を実行することを特徴とする請求項１又は２に記載の撮像装置。
検出された各検出対象物体の座標を特定する座標特定部と、
前記特定された各検出対象物体の座標を、前記回転角度に応じて逆回転させることで、撮像された前記画像における各検出対象物体の座標を算出する逆回転部とをさらに含み、
前記逆回転部は、各候補領域に対する回転補正を実行したときの回転中心と同一の回転中心のまわりに逆回転を行うことを特徴とする請求項１ないし３のいずれか１項に記載の撮像装置。
前記撮像部の姿勢パラメータのうち少なくともパン角及びチルト角を制御する姿勢制御部と、
前記撮像部の撮像平面上における各検出対象物体の座標を特定する座標特定部と
をさらに含み、
前記回転角度算出部は、前記撮像部の３次元空間における前記設置角度、前記パン角、前記チルト角に加えてさらに前記撮像部が備える光学系の焦点距離、並びに、特定された各検出対象物体を含みうる候補領域の位置座標に基づいて、前記各候補領域の回転角度を算出し、
前記回転補正部は、前記各候補領域の重心を回転中心として、前記各候補領域それぞれに回転角度に応じた回転補正を実行することを特徴とする請求項１に記載の撮像装置。
画像を撮像する撮像部の３次元空間における姿勢を表す姿勢パラメータとして設置角度、パン角及びチルト角から、前記撮像部により撮像された画像を正立していない状態から正立した状態に回転補正する回転角度を回転角度算出部が算出する回転角度算出工程と、
前記撮像部により撮像された画像において、検出対象となる検出対象物体が含まれうる１つ以上の候補領域を抽出部が抽出する抽出工程と、
前記抽出部により抽出された候補領域を含む前記撮像された画像の一部領域を、算出された前記回転角度に応じて回転補正部が回転補正する回転補正工程と、
前記回転補正部により回転補正された各候補領域から、前記検出対象物体を物体検出部が検出する物体検出工程と
を含むことを特徴とする物体検出方法。