JP4765075B2

JP4765075B2 - ステレオ画像を利用した物体の位置および姿勢認識システムならびに物体の位置および姿勢認識方法を実行するプログラム

Info

Publication number: JP4765075B2
Application number: JP2006239190A
Authority: JP
Inventors: 弘之宮本
Original assignee: Kyushu Institute of Technology NUC
Current assignee: Kyushu Institute of Technology NUC
Priority date: 2006-09-04
Filing date: 2006-09-04
Publication date: 2011-09-07
Anticipated expiration: 2026-09-04
Also published as: JP2008065368A

Description

本発明は、ステレオ画像を利用した物体の位置および姿勢認識システムならびに物体の位置および姿勢認識方法を実行するプログラムに関する。

物体の３次元的な位置および姿勢の検出は、各種ロボットの視覚システム、監視システム、マンマシンインターフェース、ゲーム機器等の幅広い分野への応用が期待されている。
近年、福祉施設や家庭内で人間の役に立つロボットの開発が盛んに行われているが、ここで問題になるのはロボットの教示方法である。従来、プログラム言語による動作制御やジョイスティック等を用いた教示が行われているが、これらは専門知識を要するとともに多大な手間を要する。したがって、誰でも簡単にロボットを扱うためには、例えば、音声や身振り等によるロボットとのコミュニケーション手法の確立が望まれている。

ロボットに身振りを認識させるためには、カメラ等により撮像された画像データに基づき腕等の３次元的な位置および姿勢の認識を行う必要がある。
画像を用いて人間の腕の位置および姿勢を認識する１つの方法として、肩および肘関節を有し、上腕および前腕を線分（リンク）で表した腕モデルを用い、肩部分でこの腕モデルと人間の腕画像との位置合わせを行った後、各関節を少しずつ回転させて、画面上で腕画像の中心と腕モデルの重なり具合が最大となるよう各関節の角度を決定する方法がある。背景差分をとった上で肌色ピクセル領域を抽出することにより、画像より腕の領域のみを切り出す方法との組み合わせも試みられている。
しかし、従来のエッジ検出等の画像処理技術のみでは、腕画像と腕モデルの重なり具合の評価が困難である。さらに、肌色ピクセル領域を抽出して腕の領域のみを切り出す方法には、ロボットが移動していて背景が常に変化している場合には、腕の領域のみを切り出すのは非常に困難であるし、例えば長袖シャツを着用している人間の腕は認識できなくなるという問題もある。

物体の３次元的な位置および姿勢を検出する方法として、複数のカメラを用いたステレオ画像方式が古くから知られている。ステレオ画像方式では、複数のカメラで撮像された画像データ間で、特定部位の像の対応関係を定める、いわゆる「対応付け」により、対応点間の視差を求め、２次元画像より物体とカメラとの距離（奥行き）に関する情報を抽出している。そして、対応付けにより得られる距離情報を基に物体の３次元モデルを構築し、その位置および姿勢を求める方法が、ステレオ画像を利用した物体の位置および姿勢認識方法の主流である（例えば、特許文献１）。

特開平９−２３７３４８号公報

しかしながら、対応付けを正確に行うためには、一対のステレオ画像上における対応点の検出をいかに精度よく行うかが大きな課題となっている。特に、日常環境下では、煩雑な背景が視野内に存在することや、認識対象が人間の顔や腕である場合には、髪型や服装等が様々であること等が、ステレオ画像データ間の対応付けを困難にする要因となりうる。
従来のモーションキャプチャー装置では、色のついたボール、鏡、赤外線マーカー等のマーカーを対象物に取付け、一方の画像上のマーカー像に対応する他方の画像上のマーカー像を探索することにより、両画像データの対応付けを行っている。しかし、特殊なマーカーを取付けるのは非常に面倒である上、家庭用ロボットや生産ライン監視用システムにおいて対象物の全てにマーカーを取付けることは非現実的である。また、多くの場合、一方の画像上で抽出した特徴点周辺の小領域の画像データをテンプレートとして用い、他の画像上でテンプレートデータと対応する点を探索することによって視差を求め、認識対象となる物体の距離情報を読み出す方法が用いられているが、この方法では、対応点の探索に膨大な計算コストを要する。エピポーラ拘束等を利用して探索を行う範囲を制限することにより計算コストを減少させることも考えられるが、カメラのキャリブレーションを厳密に行う必要があるため、床に凹凸や段差のある家庭内を移動するロボットに適用する場合、キャリブレーションを頻繁に行う必要がある等の新たな問題が生じるおそれがある。

本発明はかかる事情に鑑みてなされたもので、計算コストを要し、誤認識を完全に回避できない対応点探索を行わずに物体の位置および姿勢の認識を行うことができる、ステレオ画像を利用した物体の位置および姿勢認識システムならびに物体の位置および姿勢認識方法を実行するプログラムを提供することを目的とする。

前記目的に沿う第１の発明に係るステレオ画像を利用した物体の位置および姿勢認識システムは、ステレオ画像を利用した、概略形状が既知である物体の位置および姿勢認識システムであって、（１）被写対象となる前記物体を含む領域について前記ステレオ画像を構成する第１および第２の画像の撮像をそれぞれ行う第１および第２のカメラを有するステレオカメラよりなる撮像部と、（２）前記物体の概略形状に基づいて設定されるａ）空間モデルの形状、およびｂ）該空間モデルのワールド座標系における位置、またはこの位置および姿勢を表す空間モデルパラメータの初期値を設定する空間モデル設定部と、（３）それぞれ固有の識別子を有する仮想的な矩形領域の各辺の長さ、および該矩形領域のワールド座標系における位置を表す矩形領域パラメータの初期値を、前記空間モデル上に前記物体の概略形状に基づいて設定する矩形領域設定部と、（４）前記矩形領域のワールド座標系における３次元座標を、前記第１および第２の画像のローカル座標系における２次元座標に変換し、前記第１および第２の画像上に、それぞれ前記矩形領域と同一の識別子を有する比較ウインドウを設定する比較ウインドウ設定部と、（５）前記比較ウインドウ設定部により前記第１および第２の画像上に設定された、前記比較ウインドウ内部の部分画像を抽出し、前記比較ウインドウと同一の識別子を有する部分画像を生成する部分画像生成部と、（６）前記部分画像生成部により生成された、同一の識別子を有する前記部分画像同士の全ての組について、前記部分画像同士の一致度が高いほど値が大きくなるよう定義された評価関数の演算を行い、前記評価関数が最大値に収束するまで前記空間モデルパラメータおよび前記矩形領域パラメータの更新、前記比較ウインドウの設定、前記部分画像の抽出、ならびに前記評価関数の演算を反復し、前記空間モデルと前記第１および第２の画像のマッチングを行うマッチング演算部とを有する。

第１の発明に係るステレオ画像を利用した物体の位置および姿勢認識システムにおいて、前記マッチング演算部における前記評価関数の演算は、同一の識別子を有する前記部分画像同士についてのエッジ特徴の一致度およびテクスチュアの一致度に関する評価演算を含んでいてもよい。

第１の発明に係るステレオ画像を利用した物体の位置および姿勢認識システムにおいて、前記部分画像生成部は、同一の識別子を有する前記部分画像間の視差による大きさの違いを補正する部分画像視差補正手段をさらに有していてもよい。

第１の発明に係るステレオ画像を利用した物体の位置および姿勢認識システムにおいて、前記第１および第２の画像に対してエッジおよび肌色ピクセル領域の抽出処理を行う前処理部をさらに有していてもよい。

第２の発明に係るステレオ画像を利用した物体の位置および姿勢認識方法を実行するプログラムは、ステレオ画像を利用した、概略形状が既知である物体の位置および姿勢認識方法を実行するプログラムであって、前記物体の概略形状に基づいて設定されるａ）空間モデルの形状、およびｂ）該空間モデルのワールド座標系における位置、またはこの位置および姿勢を表す空間モデルパラメータの初期値を設定する第１のステップと、それぞれ固有の識別子を有する仮想的な矩形領域の各辺の長さ、および該矩形領域のワールド座標系における位置を表す矩形領域パラメータの初期値を、前記空間モデル上に前記物体の概略形状に基づいて設定する第２のステップと、前記物体を含む領域を撮像した第１および第２のカメラからの画像をそれぞれ取り込む第３のステップと、前記矩形領域のワールド座標系における３次元座標を、前記第１および第２の画像のローカル座標系における２次元座標に変換し、前記第１および第２の画像上に、それぞれ前記矩形領域と同一の識別子を有する比較ウインドウを設定する第４のステップと、前記第４のステップで前記第１および第２の画像上に設定された前記比較ウインドウ内部の部分画像を抽出し、前記比較ウインドウと同一の識別子を有する部分画像を生成する第５のステップと、前記第５のステップで生成された同一の識別子を有する前記部分画像同士の全ての組について、前記部分画像同士の一致度が高いほど値が大きくなるよう定義された評価関数の演算を行い、前記評価関数が最大値に収束するまで前記空間モデルパラメータおよび前記矩形領域パラメータの更新、前記第１〜第５のステップ、ならびに前記評価関数の演算を反復し、前記空間モデルと前記第１および第２の画像のマッチングを行う第６のステップとをコンピュータに実行させる。

第２の発明に係るステレオ画像を利用した物体の位置および姿勢認識方法を実行するプログラムにおいて、前記第６のステップにおける前記評価関数の演算は、同一の識別子を有する前記部分画像同士についてのエッジ特徴の一致度およびテクスチュアの一致度に関する評価演算を含んでいてもよい。

第２の発明に係るステレオ画像を利用した物体の位置および姿勢認識方法を実行するプログラムにおいて、前記矩形領域は、前記第１および第２の画像のローカル座標系における座標面と平行になるように設定されることが好ましい。

第２の発明に係るステレオ画像を利用した物体の位置および姿勢認識方法を実行するプログラムにおいて、前記第５のステップと第６のステップの間に、同一の識別子を有する前記部分画像間の視差による大きさの違いを補正するステップＡをさらにコンピュータに実行させてもよい。

第２の発明に係るステレオ画像を利用した物体の位置および姿勢認識方法を実行するプログラムにおいて、前記物体は人間の腕であって、前記第１のステップにおいて設定される前記空間モデルは、ワールド座標系における肩の３次元座標ｘ_Ｓ、ｙ_Ｓ、ｚ_Ｓ、肩関節の屈曲（伸展）角度θ_１、肩関節の内転（外転）角度θ_２、肘関節の内旋（外旋）角度θ_３、および肘関節の屈曲（伸展）角度θ_４からなる前記空間モデルパラメータを有し、前腕および上腕部分をそれぞれ一定の長さを有するリンクで表現した、肩部および肘部に関節を有する前記人間の腕の空間モデルであり、前記第２のステップにおいて、前記矩形領域は前記第１および第２の画像のローカル座標系における座標面と平行になるように設定され、該矩形領域は、手先部のエッジ特徴および肌色ピクセルの一致度の評価を行う手先部矩形領域と、前腕部および上腕部における輪郭の内側の領域についてテクスチュアの一致度の評価を行う腕中心部矩形領域と、前腕部および上腕部におけるエッジ特徴の一致度の評価を行う腕外側部矩形領域とからなり、前記第６のステップにおける前記評価関数の演算は、前記エッジ特徴、テクスチュア、および肌色ピクセルの一致度の評価演算を含み、前記第５のステップと第６のステップの間に、前記第１および第２の画像上に設定された同一の識別子を有する前記比較ウインドウ間の視差による大きさの違いを補正するステップＡをさらにコンピュータに実行させてもよい。

第２の発明に係るステレオ画像を利用した物体の位置および姿勢認識方法を実行するプログラムにおいて、前記第３のステップの後に前記第１および第２の画像に対して、前処理としてエッジおよび肌色ピクセル領域の抽出処理を行うステップＢをさらにコンピュータに実行させてもよい。

第２の発明に係るステレオ画像を利用した物体の位置および姿勢認識方法を実行するプログラムにおいて、前記第６のステップにおいて、まず、前記空間モデルパラメータのうちｘ_Ｓ、ｙ_Ｓおよびｚ_Ｓの１または複数の更新および前記評価関数の演算を反復し、前記人間の腕の空間モデルの肩位置と前記第１および第２の画像のマッチングを行い、次に、前記肩関節の屈曲（伸展）角度θ_１、および前記肩関節の内転（外転）角度θ_２の１または複数の更新および前記評価関数の演算を反復し、前記人間の腕の空間モデルの上腕部および肘位置と前記第１および第２の画像のマッチングを行い、最後に前記肘関節の内旋（外旋）角度θ_３、および前記肘関節の屈曲（伸展）角度θ_４の１または複数の更新および前記評価関数の演算を反復し、前記人間の腕の空間モデルの前腕部と前記第１および第２の画像のマッチングを行ってもよい。

第２の発明に係るステレオ画像を利用した物体の位置および姿勢認識方法を実行するプログラムにおいて、前記第１のステップにおいて設定される前記人間の腕の空間モデルは、そのワールド座標系における３次元座標ｘ_Ｈ、ｙ_Ｈ、ｚ_Ｈからなる前記空間モデルパラメータで表される頭部の中心をさらに有しており、前記第２のステップにおいて設定される前記矩形領域は、前記頭部の中心点上に設定され、前記頭部のエッジ特徴および肌色ピクセルの一致度の評価を行う頭部矩形領域をさらに有しており、前記第６のステップにおいて、前記空間モデルパラメータのうちｘ_Ｈ、ｙ_Ｈおよびｚ_Ｈの１または複数の更新および前記評価関数の演算を反復し、頭部位置について前記人間の腕の空間モデルと前記第１および第２の画像のマッチングを行い、前記空間モデルの頭部と肩部との位置関係から、前記空間モデルの肩部および前記第１および第２の画像とのマッチングを行ってもよい。

第１の発明に係るステレオ画像を用いた物体の位置および姿勢認識システムにおいては、第１および第２の画像の対応付けを行うことにより距離情報を抽出する場合に比べ、第１および第２の画像と空間モデルとのマッチングに要する計算コストを低減させることができる。
また、各部に機能を分担させ各々で必要な処理を行うことにより、短時間で精度よく物体の位置および姿勢の認識を行うことができる。

第１の発明に係るステレオ画像を利用した物体の位置および姿勢認識システムにおいて、マッチング演算部における評価関数の演算が、同一の識別子を有する部分画像同士についてのエッジ特徴の一致度およびテクスチュアの一致度に関する評価演算を含む場合には、常に部分画像内のエッジ特徴とテクスチュアの両者を用いて評価関数の演算が行われる。そのため、例えば、背景が均一であり、部分画像間のエッジ特徴およびテクスチュアの一方のみの一致度のみでマッチングを行うと誤認識が生じるおそれがある場合であっても、精度よくマッチングを行うことができる。

第１の発明に係るステレオ画像を利用した物体の位置および姿勢認識システムが、同一の識別子を有する部分画像間の視差による大きさの違いを補正する部分画像視差補正手段を有していると、比較演算を行う部分画像の大きさが視差により異なることを意識することなくマッチング演算部における評価関数の演算を行うことができる。そのため、空間モデルと第１および第２の画像とのマッチングを高精度で行うことができる。

第１の発明に係るステレオ画像を利用した物体の位置および姿勢認識システムが、第１および第２の画像に対してエッジおよび肌色ピクセル領域の抽出処理を行う前処理部をさらに有する場合には、前処理された画像を用いることにより、エッジおよび肌色ピクセル領域に関する評価関数の演算をより高精度に行うことができる。

第２の発明に係るステレオ画像を利用した物体の位置および姿勢認識方法を実行するプログラムにおいては、市販のパソコンおよびＣＣＤカメラ等の比較的安価なハードウェアを用いて、物体の位置および姿勢認識方法を実行することができる。また、第１および第２の画像の対応付けを行うことにより距離情報を抽出する場合に比べ、空間モデルとのマッチングに要する計算コストを低減させることができる。

第２の発明に係るステレオ画像を利用した物体の位置および姿勢認識方法を実行するプログラムにおいて、第６のステップにおける評価関数の演算が、同一の識別子を有する比較ウインドウ内部の部分画像同士についてのエッジ特徴の一致度およびテクスチュアの一致度に関する評価演算を含む場合には、常に部分画像内のエッジ特徴とテクスチュアの両者を用いて評価関数の演算が行われる。そのため、例えば、背景が均一であり、部分画像間のエッジ特徴およびテクスチュアの一方のみの一致度のみでマッチングを行うと誤認識が生じるおそれがある場合であっても、精度よくマッチングを行うことができる。

第２の発明に係るステレオ画像を利用した物体の位置および姿勢認識方法を実行するプログラムにおいて、矩形領域が、第１および第２の画像のローカル座標系における座標面と平行になるように設定される場合には、矩形領域内の全ての点について第１および第２画像間の視差は一定となるため、第６のステップにおけるマッチングを高精度で行うことができる。

第２の発明に係るステレオ画像を利用した物体の位置および姿勢認識方法を実行するプログラムにおいて、第５のステップと第６のステップの間に、同一の識別子を有する比較ウインドウ間の視差による大きさの違いを補正するステップＡをさらにコンピュータに実行させる場合には、矩形領域の設定の際に、視差により第１および第２の画像間上に投影される比較ウインドウの大きさが異なることを意識することなく作業を行うことができ、第６のステップにおいて空間モデルと第１および第２の画像とのマッチングを高精度で行うことができる。

第２の発明に係るステレオ画像を利用した物体の位置および姿勢認識方法を実行するプログラムにおいて、物体が人間の腕である場合、第１のステップにおいてコンピュータに設定させる空間モデルが、ワールド座標系における肩の３次元座標ｘ_Ｓ、ｙ_Ｓ、ｚ_Ｓ、肩関節の屈曲角度θ_１、肩関節の内転角度θ_２、肘関節の内旋角度θ_３、および肘関節の屈曲角度θ_４からなる空間モデルパラメータを有し、前腕および上腕部分をそれぞれ一定の長さを有するリンクで表現した、肩部および肘部に関節を有する人間の腕の空間モデルであると、実際の腕の姿勢を的確にモデル化することができ、高精度の位置および姿勢認識ができる。
また、第２のステップにおいてコンピュータに設定させる矩形領域が、手先部のエッジ特徴および肌色ピクセルの一致度の評価を行う手先部矩形領域と、前腕部および上腕部における輪郭の内側の領域についてテクスチュアの一致度の評価を行う腕中心部矩形領域と、前腕部および上腕部におけるエッジ特徴の一致度の評価を行う腕外側部矩形領域とからなると、手先部のエッジ特徴および肌色ピクセル領域、前腕部および上腕部のエッジ特徴およびテクスチュアを用いて、第６のステップにおいて精度よくマッチングを行うことができる。
さらに、第６のステップにおいてコンピュータに実行させる評価関数の演算が、エッジ特徴、テクスチュア、および肌色ピクセルの一致度の評価演算を含むものであると、例えば、背景が均一であるため、部分画像間のエッジ特徴およびテクスチュアの一方のみの一致度のみでマッチングを行うと誤認識が生じるおそれがある場合であっても、精度よくマッチングを行うことができ、さらに、人体に特徴的な肌色ピクセル領域を用いてより高精度にマッチングを行うことができる。

第２の発明に係るステレオ画像を利用した物体の位置および姿勢認識方法を実行するプログラムにおいて、第３のステップの後に第１および第２の画像に対して、前処理としてエッジおよび肌色ピクセル領域の抽出処理を行うステップＢをさらにコンピュータに実行させる場合には、前処理された画像を用いることにより、エッジ特徴および肌色ピクセル領域に関する評価関数の演算をより高精度に行うことができる。

第２の発明に係るステレオ画像を利用した物体の位置および姿勢認識方法を実行するプログラムにおいて、コンピュータに実行させる第６のステップにおいて、まず、空間モデルパラメータのうちｘ_Ｓ、ｙ_Ｓおよびｚ_Ｓの１または複数の更新および評価関数の演算を反復し、人間の腕のモデルの肩位置と第１および第２の画像のマッチングを行い、次に、肩関節の屈曲角度θ_１および前記肩関節の内転角度θ_２の１または複数の更新および評価関数の演算を反復し、人間の腕のモデルの上腕部および肘位置と第１および第２の画像のマッチングを行い、最後に肘関節の内旋角度θ_３、および前記肘関節の屈曲角度θ_４の１または複数の更新および評価関数の演算を反復し、人間の腕のモデルの前腕部と第１および第２の画像のマッチングを行うと、全空間モデルパラメータを同時に更新しながら評価関数の演算を反復する場合に比べ、計算コストを低減することができる。

第２の発明に係るステレオ画像を利用した物体の位置および姿勢認識方法を実行するプログラムにおいて、第１のステップにおいてコンピュータに設定させる人間の腕の空間モデルが頭部の中心をさらに有しており、第２のステップにおいてコンピュータに設定させる矩形領域が、頭部の中心点上に設定され、頭部のエッジ特徴および肌色ピクセルの一致度の評価を行う頭部矩形領域をさらに有しており、コンピュータに実行させる第６のステップにおいて、空間モデルパラメータのうちｘ_Ｈ、ｙ_Ｈおよびｚ_Ｈの１または複数の更新および評価関数の演算を反復し、人間の腕のモデルの頭部位置と第１および第２の画像のマッチングを行い、空間モデルの頭部と肩部との位置関係から、空間モデルの肩部および第１および第２の画像とのマッチングを行うと、肌色ピクセル領域が大きいため位置の認識が容易な顔の位置を決定することにより、顔と肩との位置関係から肩の位置をより高精度に決定することができるため、より高精度にマッチングを行うことができる。

続いて、添付した図面を参照しつつ、本発明を具体化した実施の形態につき説明し、本発明の理解に供する。
まず、図１を参照しながら、本発明の一実施の形態に係るステレオ画像を利用した物体の位置および姿勢認識システム、物体の位置および姿勢認識方法、およびこの方法を実行するプログラムについて説明する。
本発明の一実施の形態に係るステレオ画像を利用した物体の位置および姿勢認識システム１０は、被写対象となる物体を含む領域についてステレオ画像を構成する第１および第２の画像の撮像をそれぞれ行う第１および第２のカメラを有するステレオカメラよりなる撮像部１１、システム本体１２、入力部１３および出力部１４から構成される。

システム本体１２は、空間モデル設定部１６、矩形領域設定部１９、比較ウインドウ設定部２２、前処理部２５、部分画像生成部２９、およびマッチング演算部３３を含んで構成される。
空間モデル設定部１６は、空間モデル設定手段１７および空間モデル記憶手段１８からなる。
矩形領域設定部１９は、矩形領域設定手段２０および矩形領域記憶手段２１からなる。
比較ウインドウ設定部２２は、座標変換手段２３および比較ウインドウ記憶手段２４からなる。
前処理部２５は、エッジ抽出手段２６、肌色ピクセル抽出手段２７、および前処理画像記憶手段２８からなる。
部分画像生成部２９は、部分画像抽出手段３０、部分画像記憶手段３１、および部分画像視差補正手段３２よりなる。
マッチング演算部３３は、評価関数演算手段３４、評価関数記憶手段３５、収束判定手段３６、およびパラメータ更新手段３７よりなる。

撮像部１１は、同一の高さに、それぞれの光軸が平行になるように所定の間隔（基線長）で配置された２台のカメラよりなる平行ステレオカメラである。基線長は、被写対象となる物体の大きさや撮像部１１からの距離、要求される認識精度等に応じて適宜調節される。カメラとしては、ＣＣＤ等の任意のカメラを用いることができるが、カラー画像の撮像ができるものが好ましい。
それぞれ左側(第１)および右側(第２)のカメラにより撮像された、１対のステレオ画像（第１および第２の画像）である左画像および右画像は、ステレオ画像記憶手段１５に記憶される。マッチング演算部３３における処理に用いられる左画像および右画像は、直接撮像部１１から取り込まれたものであってもよく、ステレオ画像記憶手段１５から読み出されたものであってもよい。

次に、物体の空間モデルおよび空間モデルパラメータの設定について説明する。
物体の空間モデルは、位置および姿勢認識の対象となる物体の概略形状、関節の数、および関節運動の自由度等に基づいて定められる。図２に、物体の一例である人間の腕の、空間モデルの一例である２関節４自由度モデルの概略図を示す。このモデルは、それぞれ長さがＬ_１およびＬ_２である剛直なリンクで近似した上腕および前腕、肩および肘に相当する２つの関節よりなる。また、このモデルにおいて、腕のワールド座標系における位置および姿勢は、肩の３次元座標（ｘ_Ｓ，ｙ_Ｓ，ｚ_Ｓ）、肩関節の屈曲（伸展）角度θ_１、肩関節の内転（外転）角度θ_２、肘関節の内旋（外旋）角度θ_３、および肘関節の屈曲（伸展）角度θ_４よりなる空間モデルパラメータを用いて表される。ここで、肩関節の「屈曲（伸展）」および「内転（外転）」は、肩関節の前後方向および左右方向への回転をそれぞれ意味する。また、肘関節の「内旋（外旋）」および「屈曲（伸展）」は、上腕を回転軸とする前腕部の運動および肘関節の曲げ伸ばしによる前腕部の運動をそれぞれ意味する
回転角θ_１〜θ_４については、人間の腕の各関節における可動域に基づき、可変範囲に制限を設けることが、非現実的な姿勢の認識結果を避ける上で好ましい。
ワールド座標系における原点の位置、回転角θ_１〜θ_４における角度０度の定義、およびどちらの回転方向を正方向にするかについては任意に定めることができる。
空間モデル設定手段１７において設定された空間モデルパラメータ（ｘ_Ｓ，ｙ_Ｓ，ｚ_Ｓ，θ_１，θ_２，θ_３，θ_４）の初期値は、空間モデル記憶手段１８に記憶される。

なお、ここでは人間の腕の空間モデルについて説明を行ったが、可動部分を有しない物体については関節を有しない空間モデルを用いることができることは勿論である。
例えば、位置および姿勢認識の対象となる物体が人間の顔やボール等の場合、例えばその中心位置を表す点を空間モデルとして、その点のワールド座標系における３次元座標（ｘ，ｙ，ｚ）を空間モデルパラメータとしてそれぞれ用いることができる。
また、位置および姿勢認識の対象となる物体が野球のバットのような棒状の物体である場合には、長さがＬである剛直なリンクを空間モデルとして用いることができる。この場合、空間モデルパラメータとしては、両端部のワールド座標系における３次元座標（ｘ_１，ｙ_１，ｚ_１）、および（ｘ_２，ｙ_２，ｚ_２）を用いてもよく、一方の端部のワールド座標系における３次元座標（ｘ，ｙ，ｚ）およびモデルの姿勢角（例えば、オイラー角ψ，θ，φ）を用いてもよい。

次に、矩形領域の設定について説明する。
矩形領域は、左画像および右画像上に比較ウインドウを設定するために、位置および姿勢認識の対象となる物体の空間モデル上に設定される仮想的な領域である。それぞれの矩形領域は、識別番号等の固有の識別子を有している。
左画像および右画像上にそれぞれ設定された比較ウインドウは、その内部の部分画像の特徴を抽出し、両画像間で比較およびマッチングを行うためのものであり、空間モデル上に設定された矩形領域のこれらのステレオ画像上への「投影像」に相当する。したがって、左画像および右画像上の比較ウインドウは、その投影元となる矩形領域を介して互いに関連付けられる。より具体的には、例えば、左画像および右画像上に設定された比較ウインドウのそれぞれに投影元となった矩形領域と同一の識別子を付すことにより、同一の識別子を有する比較ウインドウ同士を関連付けることが可能になる。

以下、人間の腕の空間モデルである２関節４自由度モデルを例にとって、矩形領域の設定についてより具体的に説明する。
人間の腕の空間モデル上に設定される矩形領域の一例の模式図を図３に示す。ここで、図示された人間の腕は、空間モデル上に配置された仮想的な人間の腕の概略形状を表す。以下の説明において、「手先部」、「上腕部」、および「前腕部」は、前記の仮想的な人間の腕におけるそれぞれの部位を意味する。
この例において設定される矩形領域は、（１）「手先部」近傍に設定され、「手先部」のエッジおよび肌色ピクセルの一致度の評価を行うための手先部矩形領域、（２）「上腕部」および「前腕部」の輪郭の内側の中心領域に設定され、「上腕部」および「前腕部」中心領域（輪郭の内側の領域）のテクスチュア特徴（例えば、服の色および模様等）の一致度の評価を行うための腕中心部矩形領域、および（３）「上腕部」および「前腕部」の外側近傍に設定され、「上腕部」および「前腕部」のエッジ特徴の一致度の評価を行うための腕外側部矩形領域の３種類よりなる。

図４に、手先部、腕中心部および腕外側部矩形領域の空間配置の概略図を示す。ｘ、ｙ、およびｚ軸は、ワールド座標系における座標軸を示すが、この例では、ｘ−ｙ平面が第１および第２の画像のローカル座標系におけるｘ−ｙ平面と平行になるように設定されている。この図に示すように、手先部矩形領域は、常にｘ−ｙ平面と平行になるように設定されている。また、腕中心部および腕外側部矩形領域も、リンク（前腕部）の姿勢に関わりなく常にｘ−ｙ平面に平行になるように設定される。

なお、ここでは人間の腕の空間モデルについて説明を行ったが、他の例として位置および姿勢認識の対象となる物体が人間の顔である場合における矩形領域の設定の一例を図５に示す。ここで、図示された人間の顔は、空間モデル上に配置された仮想的な人間の顔の概略形状を表す。
この例において設定される矩形領域は、仮想的な顔の輪郭の内側領域に設定され、目や鼻等の特徴を一致度の評価を行うための顔中心部矩形領域、および仮想的な顔の輪郭の近傍に配置され、エッジ特徴の一致度の評価を行うための顔外側部矩形領域よりなる。
しかし、図５はあくまでも一例であり、例えば、人間の腕の空間モデルにおける手先部矩形領域のように、顔のエッジ特徴および目や鼻等のテクスチュア特徴の両者を抽出するための単一の矩形領域を設定してもよい。

各矩形領域の形状およびワールド座標系における位置を表す矩形領域パラメータとしては、例えば、各矩形領域の４つの角の３次元座標、各矩形領域の重心の３次元座標および各辺の長さ等を用いることができる。これらの初期値は、矩形領域記憶手段２１に記憶される。

次に、比較ウインドウの設定について説明する。
ワールド座標系と、左画像および右画像のローカル座標系との関係を図６に示す。
ワールド座標系における３次元座標（Ｘ，Ｙ，Ｚ）が与えられた場合、左画像および右画像のローカル座標系における対応点ｐ_Ｌおよびｐ_Ｒの座標（ｘ_Ｌ，ｙ）、（ｘ_Ｒ，ｙ）は、それぞれ次式（Ｉ）〜（ＩＩＩ）で与えられる。

式中、ｂは基線長を、ｆは焦点距離をそれぞれ表す。
座標変換手段２３では、上式を用いて、各矩形領域の４つの頂点のワールド座標系における３次元座標を、左画像および右画像のローカル座標系における２次元座標に変換する。このようにして得られた各矩形領域に対応する比較ウインドウの４つの頂点の２次元座標は、比較ウインドウ記憶手段２４に記憶される。

マッチング演算部３３における処理に用いられる左画像および右画像は、前処理部２５においてエッジおよび肌色ピクセル領域の抽出処理を前処理として受けたものであってもよい。
ここで、前処理部２５におけるエッジおよび肌色ピクセル領域の抽出処理について説明する。
エッジ抽出手段２６におけるエッジの抽出は、例えば、空間１次微分処理（ソーベル（Ｓｏｂｅｌ）オペレータ等）、空間２次微分処理（４方向または８方向ラプラシアンフィルタ等）等の任意の公知の手段を用いて行うことができる。

また、肌色ピクセル抽出手段２７における肌色ピクセル領域の抽出は、撮像部１１から直接、あるいはステレオ画像規則手段１５から読み出された左画像および右画像を、肌色モデルデータと比較して２値画像を抽出することにより行うことができる。
より具体的には、ＲＧＢ表色系における標準的な肌色に相当するＲ、Ｇ、Ｂの値を予め定めたものを肌色モデルデータとして用い、第１および第２の画像の各画素毎に肌色モデルデータとの比較を行い、例えば、肌色と判定されたピクセルの値を１、肌色と判定されなかったピクセルの値を０とすることにより２値画像が得られる。
肌色モデルデータとして、標準値に基づいて定めたものの代わりに、被写対象となる人間の肌色ピクセル領域をサンプリングし、その領域内のＲ、Ｇ、Ｂ値の平均値を用いてもよい。
また、ＲＧＢ表色系の代わりに、ＨＳＶ表色系、ＹＩＱ表色系等を用いて肌色ピクセル領域の抽出を行ってもよい。
このようにして得られた前処理画像は、前処理画像記憶手段２８に記憶される。

次に部分画像の抽出について説明する。
このようにして得られた比較ウインドウを左画像および右画像上に投影した際に、各比較ウインドウ内部の部分画像は、部分画像抽出手段３０により抽出され、それぞれ部分画像記憶手段３１に記憶される。
部分画像抽出手段３０における部分画像の抽出は、例えば、各比較ウインドウより、その輪郭および内部の画素値を１、外部の画素値を０とするマスク画像を生成し、次式（ＩＶ）で表される画素間演算処理（マスク処理）を実行することにより行われる。

式中、ＩＭ_ｍ，ｎは、第ｍ（ｍは、１または２である）の画像上において、識別子ｎを有する比較ウインドウとのマスク処理により得られる部分画像を、ＩＭ_ｍは、第ｍの画像を、ＭＳＫ_ｍ，ｎは、第ｍの画像上の識別子ｎを有する比較ウインドウをそれぞれ表し、（ｉ，ｊ）は、図７に示すように定義される、ピクセルの横（ｘ）方向および縦（ｙ）方向の位置座標で表されるピクセルを表す。

このようにして得られる、左画像および右画像から抽出された、識別子ｎを有する部分画像ＩＭ_１，ｎおよびＩＭ_２，ｎは、ｙ方向の高さは等しいが、視差のためｘ方向の幅が異なっている。そこで、マッチング演算部３３における比較演算に先立ち、部分画像視差補正手段３２により、ＩＭ_１，ｎおよびＩＭ_２，ｎの幅が等しくなるように、ＩＭ_１，ｎおよびＩＭ_２，ｎのいずれか一方に対してｘ方向に拡大または縮小を行う。

次に、評価関数演算手段３４による評価関数の演算について説明する。
物体の位置および姿勢認識システム１０は、左画像および右画像間の対応付けを行わず、両画像上に設定された比較ウインドウ内部の部分画像同士について比較演算および物体の空間モデルの位置および姿勢を表す空間モデルパラメータの更新を反復し、部分画像同士の一致度が最大となるときの空間モデルパラメータより物体の位置および姿勢の認識を行う。
部分画像同士の一致度の指標として、一致度が高くなるほど値が大きくなる評価関数を定義し、評価関数演算手段３４においてその演算を行う。
評価関数の演算においては、例えば、下式（Ｖ）に示すように、左画像および右画像から抽出された部分画像ＩＭ_１，ｎおよびＩＭ_２，ｎの比較演算を、全ての識別子ｎの組について行い、その総和を評価関数とする。

式中、Ｏは評価関数を、Ｏ_ｎは、Ｏと同様に部分画像間の一致度が高くなるほど値が大きくなるように定義されている、識別子ｎを有する部分画像同士の一致度を表す関数をそれぞれ表す。また、ｗ_ｎは、Ｏ_ｎに対する重み係数を表す。

次に、人間の腕の空間モデルである２関節４自由度モデルを例にとって、手先部、腕中心部、および腕外側部に設定された各比較ウインドウにおける比較演算の具体例について説明する。

手先部においては、肌色ピクセル位置の一致度を表すＮ_ＳＫＩＮの演算、およびエッジ特徴が同一であるピクセル数Ｎ_ＥＤＧＥの演算を行う。
まず、Ｎ_ＳＫＩＮの演算について説明する。
Ｎ_ＳＫＩＮの初期値を０に設定し、手先部矩形領域より左画像および右画像上に設定された比較ウインドウを用いたマスク処理により抽出された内部画像について、同一の位置座標（ｉ，ｊ）で表されるピクセルが、両者ともに肌色であるか否か判定を行い、両者ともに肌色であると判定される場合には、下式（ＶＩ）に示すように、Ｎ_ＳＫＩＮの値に１を加算する。

次にＮ_ＥＤＧＥの演算について説明する。
Ｎ_ＥＤＧＥの初期値を０に設定し、手先部矩形領域より左画像および右画像上に設定された比較ウインドウを用いたマスク処理により抽出された内部画像について、同一の位置座標（ｉ，ｊ）で表されるピクセルがともにエッジであり、かつ両者の画素値の相違度の尺度であるＳＡＤ（ＳｕｍｏｆＡｂｓｏｌｕｔｅＤｉｆｆｅｒｅｎｃｅ：差の絶対値和）が予め設定された閾値ζ_ＳＡＤより小さい場合には、下式（ＶＩＩ）に示すように、Ｎ_ＥＤＧＥの値に１を加算する。

ここで、位置座標（ｉ，ｊ）で表されるピクセル同士のＳＡＤは、下式（ＶＩＩＩ）のように定義される。

図８（Ａ）に示すように、空間モデルの位置および姿勢が実際の腕の位置および姿勢に一致している場合には、手先部の比較ウインドウは左画像および右画像上の手先部の同じような位置にそれぞれ存在するため、Ｎ_ＳＫＩＮおよびＮ_ＥＤＧＥの値は大きくなる。一方、図８（Ｂ）に示すように、空間モデルの位置および姿勢が実際の腕の位置および姿勢に一致していない場合には、手先部の比較ウインドウは左画像および右画像上の手先部上に位置しないため、両者の肌色ピクセル位置の一致度は低くなり、Ｎ_ＳＫＩＮおよびＮ_ＥＤＧＥの値は小さくなる。

腕中心部においては、部分画像全体を、肌や単一色の袖等の均一な色が占め、エッジが存在しない場合がある。したがって、腕中心部における部分画像同士の比較演算においては、手先部におけるＮ_ＥＤＧＥの演算のようなエッジ特徴に関する評価演算を行わず、テクスチュア特徴の一致度を表すＳ_ｎについて演算を行う。
識別子ｎを有する腕中心部の部分画像同士についてのＳ_ｎは、ＳＡＤを用いて下式（ＩＸ）の様に定義される。これを全ての腕中心部比較ウインドウについて合計したものをＳ_Ｆとする。

ＳＡＤの定義から明らかなように、Ｓ_ｎは、テクスチュア特徴の一致度が高くなるほど値が小さくなるので、評価関数に導入する場合には、マイナスの係数を乗じる必要がある。

腕外側部においては、エッジ特徴が同一であるピクセル数Ｎ_ＥＤＧＥの演算、およびエッジの方向が、空間モデルのリンクの方向と一致するピクセル数Ｎ_{ＯＲＩＥＮＴ}の演算を行う。Ｎ_ＥＤＧＥの演算については既に説明したので、ここではＮ_{ＯＲＩＥＮＴ}の演算について説明する。
Ｎ_{ＯＲＩＥＮＴ}の演算においては、３×３ピクセルよりなるマスクを用い、まず、エッジ近傍、および座標変換部により左画像および右画像上に投影された腕モデルのリンク近傍の画像についてマスク処理を行う。
エッジの方向は、図９に示すように水平方向を基準（０°）とし、反時計回りにそれぞれ４５°、９０°、および１３５°と定義する。
このようにして、エッジ上の各ピクセルについて方向を定め、近傍に位置する腕モデルのリンクの方向と一致しているピクセル数を求め、これをＮ_{ＯＲＩＥＮＴ}の値とする。

上記のようにして得られた、各部分画像における一致度を表す関数をすべての比較ウインドウの組について合計すると評価関数Ｏが得られる。その際、式（Ｖ）のように、各比較ウインドウについてそれぞれ異なる重み係数を乗じたものを合計してもよい。
なお、評価関数Ｏは、Ｎ_ＳＫＩＮ、Ｓ_Ｆ、Ｎ_ＥＤＧＥ、およびＮ_{ＯＲＩＥＮＴ}を用いて、下式（Ｘ）のように書き表すこともできる。

ここで、ｗ_ＳＫＩＮ、ｗ_Ｆ、ｗ_ＥＤＧＥ、およびｗ_{ＯＲＩＥＮＴ}はそれぞれ重み係数を表す定数である。
このようにして得られた評価関数Ｏの値は評価関数記憶手段３５に記憶される。次に、パラメータ更新手段３７により、空間モデル記憶手段１８に記憶された空間モデルパラメータ、および矩形領域記憶手段２１に記憶された矩形領域パラメータの値を更新する。

次に、更新された矩形領域パラメータを用いて、座標変換手段２３により新たな比較ウインドウを設定し、比較ウインドウ記憶手段２４に記憶する。新たな比較ウインドウの設定値を用いて、部分画像生成部２９において新たな部分画像を生成する。これらの部分画像について、評価関数演算手段３４において新たな評価関数の演算を行う。
こうして得られた評価関数Ｏの値を、評価関数記憶手段３５に記憶された値と比較し、収束判定手段３６において、評価関数Ｏが最大値に収束したか否か判定する。
評価関数が最大値を与えるときの左画像および右画像に最もマッチする空間モデルの位置、または位置および姿勢を表す空間モデルパラメータが、物体の位置および姿勢認識の結果となる。

以下、人間の腕の空間モデルである２関節４自由度モデルを例にとって、より具体的に説明する。
このモデルの３次元空間における位置および姿勢を表すのに必要な空間モデルパラメータは、ワールド座標系における肩の３次元座標ｘ_Ｓ、ｙ_Ｓ、ｚ_Ｓ、肩関節の屈曲（伸展）角度θ_１、肩関節の内転（外転）角度θ_２、肘関節の内旋（外旋）角度θ_３、および肘関節の屈曲（伸展）角度θ_４の７つであるが、これらを全て同時に変化させながら、評価関数Ｏが最大となる組み合わせを見出すためには膨大な計算コストを要する。そこで、まず、肩の位置を表すｘ_Ｓ、ｙ_Ｓ、ｚ_Ｓの最適値を求めることで空間モデルの肩部分と左画像および右画像とのマッチングを行い、次いで評価関数Ｏを最大にするθ_１〜θ_４の組み合わせを求めることにより空間モデルの上腕部および前腕部と左画像および右画像とのマッチングを行う。このようにマッチング演算処理を行うことにより、計算量の削減を行うことができる。

評価関数Ｏを最大にするθ_１〜θ_４の組み合わせを求める際に、まず肩関節の屈曲（伸展）角度θ_１および前記肩関節の内転（外転）角度θ_２のみを最適化し、空間モデルの上腕部および肘位置と左画像および右画像とのマッチングを行い、その後肘関節の内旋（外旋）角度θ_３、および前記肘関節の屈曲（伸展）角度θ_４を最適化し、空間モデルの前腕部と左画像および右画像とのマッチングを行うことにより、計算量をさらに削減させることができる。
より具体的には、評価関数Ｏを、下式（ＸＩ）に示すように、上腕部に関する項Ｏ_Ｕおよび前腕部に関する項Ｏ_Ｆに分離した形に書き直す。

この評価関数を用いて、まず、肩関節の屈曲（伸展）角度θ_１および前記肩関節の内転（外転）角度θ_２のみを変化させ、Ｏ_Ｕが最大となるθ_１およびθ_２の組み合わせを求め、次いで、肘関節の内旋（外旋）角度θ_３、および前記肘関節の屈曲（伸展）角度θ_４のみを変化させ、Ｏ_Ｆが最大となるθ_３およびθ_４の組み合わせを求めることにより、空間モデルの上腕部、肘位置および前腕部と、左画像および右画像とのマッチングを行う。

図２に示すような２関節４自由度モデルを用いて空間モデルの肩部分と左画像および右画像とのマッチングを行う代わりに、図１０に示すように、さらに肩部に対して一定の位置に存在する頭部を有する空間モデルを用い、頭部のエッジ特徴および肌色ピクセルの一致度の評価を行う頭部矩形領域を設けて、評価関数Ｏが最大値となる頭部の中心Ｈのワールド座標系における３次元座標（ｘ_Ｈ，ｙ_Ｈ，ｚ_Ｈ）の組み合わせを見出し、Ｈとの位置関係から空間モデルの肩位置Ｓと左画像および右画像とのマッチングを行ってもよい。
人間の頭部は、広い肌色ピクセル領域を有するとともに、目や鼻等のエッジ部分が多く存在するため、肩部よりも位置の検出が容易であるため、より高精度なマッチングが可能である。そのため、直接肩部において空間モデルと左画像および右画像とのマッチングを行う場合に比べ、マッチングの精度を高めることができる。

次に、本発明の作用効果を確認するために行った実施例について説明する。
ここで、図１１、図１２、および図１３はそれぞれ、実施例１において平行ステレオカメラにより撮像された左画像および右画像、図１１に示した左画像および右画像より得られたエッジおよび肌色抽出画像、図１１および図１２に示す画像を用いて行った位置および姿勢認識の結果を示す図である。
また、実施例２、３において様々な腕のポーズを取った複数の被験者について行った認識結果を図１４および図１５に示す。

実施例１〜３において、平行ステレオカメラとして、基線長２５０ｍｍとなるように設置した２台の１および３インチ型ＣＣＤカメラ（幅６．７７ｍｍ、高さ５．０８ｍｍ、焦点距離７ｍｍ）を使用した。これを通常の室内に設置し、背景を含む人間の頭部および腕部を含む画像（左右それぞれ横３２０ピクセル×縦２４０ピクセルの平行ステレオ画像）を撮像した。
平行ステレオカメラを、位置および姿勢認識方法を実行するプログラムをインストールしたノート型パソコンに接続し、人間の腕の位置および姿勢認識を行った。ＣＰＵはクロック周波数２ＧＨｚのＭｏｂｉｌｅＰｅｎｔｉｕｍ４（登録商標）である。

人の腕の空間モデルとしては、図２に示したような２関節４自由度モデルを用いた。ここで、上腕部を表すリンクの長さＬ_１および前腕部を表すリンクの長さＬ_２は、ともに０．２ｍとした。また、各関節の可動範囲は、それぞれ、−πおよび４≦θ_１≦πおよび２、−π≦θ_２≦０、−πおよび２≦θ_３≦πおよび２、０≦θ_４≦２πおよび３とした。
図１０に、本実施例において空間モデル上に設定された矩形領域の配置を示す。上腕部および前腕部のリンク上にそれぞれ３つの腕中心部矩形領域を設定し、その両側にそれぞれ６つずつの腕外側部矩形領域を設定した。手先部には、１つの手先部矩形領域を設定した。さらに、肩位置のマッチングをより確実に行うため、本実施例では、顔部にも矩形領域を設定し、顔の位置に基づいて肩位置の決定を行った。

実施例１において、図１１に示す平行ステレオカメラにより撮像された左画像および右画像からなるステレオ画像について、前処理部においてエッジ検出および肌色ピクセル領域の検出を行うと、図１２に示すようなエッジおよび肌色抽出画像が得られた。
こうして得られたエッジおよび肌色抽出画像を用いて、式（Ｘ）で表される評価関数（ここでは、ｗ_Ｆ＝ｗ_{ＯＲＩＥＮＴ}＝０とする）が最大となる空間モデルの顔の位置を決定し、空間モデルにおける顔部と肩部の位置関係より肩位置を決定した。

腕の姿勢は、空間モデルパラメータのうちθ_１〜θ_４を、それぞれの可動範囲内でπおよび１５（ｒａｄ）刻みで変化させつつ、式（Ｘ）で表される評価関数Ｏの値が最大となるθ_１〜θ_４の組み合わせを見出した。

ここで、計算量削減のため下記の（ａ）および（ｂ）に示すような処理を行った。
（ａ）手首および肘のワールド座標系における３次元位置が、ともに肩の３次元位置よりも身体に対して外側に位置する場合のみを考慮した。
（ｂ）評価関数Ｏを、前記した式（ＸＩ）に示すように、上腕部に関する項Ｏ_Ｕおよび前腕部に関する項Ｏ_Ｆに分離した。

その後、まず、肩関節の屈曲（伸展）角度θ_１および前記肩関節の内転（外転）角度θ_２のみを変化させ、Ｏ_Ｕが最大となるθ_１およびθ_２の組み合わせを求め、次いで、θ_３およびθ_４のみを変化させ、Ｏ_Ｆが最大となるθ_３およびθ_４の組み合わせを求めた。

図１３に認識結果を示す。認識処理に要した時間は、前処理終了後１秒程度であった。このように、高価な機器を使用することなく、市販のＣＣＤカメラおよびパソコンの組み合わせにより、腕の位置および姿勢を短時間で高精度に認識することができた。
また、図１４、図１５にそれぞれ実施例２、３として、様々な腕のポーズを取った複数の被験者について行った認識結果（ここでは左画像のみ示している）を示す。このように、多様なポーズを取った、体型の異なる複数の被験者について、同一の空間モデルによる位置および姿勢認識を行うことができた。

本発明は、前記した実施の形態に限定されるものではなく、本発明の要旨を変更しない範囲での変更は可能であり、例えば、前記したそれぞれの実施の形態や変形例の一部または全部を組み合わせてステレオ画像を利用した物体の位置および姿勢認識システムならびに物体の位置および姿勢認識方法を実行するプログラムを構成する場合も本発明の権利範囲に含まれる。
例えば、前記実施の形態のステレオ画像を利用した物体の位置および姿勢認識システムにおいて、評価関数Ｏに含まれるテクスチュア特徴の一致度の指標であるＳ_Ｆの演算において、対となる部分画像間のＳＡＤを計算する代わりに、テンプレートデータとのＳＡＤを計算してもよい。

本発明の一実施の形態に係るステレオ画像を用いた物体の位置および姿勢認識システムの説明図である。人間の腕の空間モデルの一例である２関節４自由度モデルの概略図である。人間の腕の空間モデル上に設定される３種類の矩形領域の模式図である。手先部、腕中心部および腕外側部矩形領域の空間配置の概略図である。位置および姿勢認識の対象となる物体が人間の顔である場合における矩形領域の設定の一例を示す模式図である。ワールド座標系と、左画像および右画像のローカル座標系との関係を示す説明図である。左画像および右画像における、ピクセルの縦方向および横方向の位置座標の定義を示す説明図である。（Ａ）は、空間モデルの位置および姿勢が実際の腕の位置および姿勢に一致している場合を、（Ｂ）は、空間モデルの位置および姿勢が実際の腕の位置および姿勢に一致していない場合を、それぞれ示す説明図である。エッジ方向（０°、４５°、９０°、１３５°）の定義を示す説明図である。肩部に対して一定の位置に存在する頭部をさらに有する、人間の腕の２関節４自由度モデルの概略図である。ディスプレー上に表示された中間調画像であって、実施例１において平行ステレオカメラにより撮像された左画像および右画像である。ディスプレー上に表示された中間調画像であって、左画像および右画像より得られたエッジおよび肌色抽出画像である。ディスプレー上に表示された中間調画像であって、位置および姿勢認識の結果を示す画像である。ディスプレー上に表示された中間調画像であって、実施例２において様々な腕のポーズを取った複数の被験者について行った認識結果を示す画像である。ディスプレー上に表示された中間調画像であって、実施例３において様々な腕のポーズを取った複数の被験者について行った認識結果を示す画像である。

１０：物体の位置および姿勢認識システム、１１：撮像部、１２：システム本体、１３：入力部、１４：出力部、１５：ステレオ画像記憶手段、１６：空間モデル設定部、１７：空間モデル設定手段、１８：空間モデル記憶手段、１９：矩形領域設定部、２０：矩形領域設定手段、２１：矩形領域記憶手段、２２：比較ウインドウ設定部、２３：座標変換手段、２４：比較ウインドウ記憶手段、２５：前処理部、２６：エッジ抽出手段、２７：肌色ピクセル抽出手段、２８：前処理画像記憶手段、２９：部分画像生成部、３０：部分画像抽出手段、３１：部分画像記憶手段、３２：部分画像視差補正手段、３３：マッチング演算部、３４：評価関数演算手段、３５：評価関数記憶手段、３６：収束判定手段、３７：パラメータ更新手段

Claims

ステレオ画像を利用した、概略形状が既知である物体の位置および姿勢認識システムであって、
（１）被写対象となる前記物体を含む領域について前記ステレオ画像を構成する第１および第２の画像の撮像をそれぞれ行う第１および第２のカメラを有するステレオカメラよりなる撮像部と、
（２）前記物体の概略形状に基づいて設定されるａ）空間モデルの形状、およびｂ）該空間モデルのワールド座標系における位置、またはこの位置および姿勢を表す空間モデルパラメータの初期値を設定する空間モデル設定部と、
（３）それぞれ固有の識別子を有する仮想的な矩形領域の各辺の長さ、および該矩形領域のワールド座標系における位置を表す矩形領域パラメータの初期値を、前記空間モデル上に前記物体の概略形状に基づいて設定する矩形領域設定部と、
（４）前記矩形領域のワールド座標系における３次元座標を、前記第１および第２の画像のローカル座標系における２次元座標に変換し、前記第１および第２の画像上に、それぞれ前記矩形領域と同一の識別子を有する比較ウインドウを設定する比較ウインドウ設定部と、
（５）前記比較ウインドウ設定部により前記第１および第２の画像上に設定された、前記比較ウインドウ内部の部分画像を抽出し、前記比較ウインドウと同一の識別子を有する部分画像を生成する部分画像生成部と、
（６）前記部分画像生成部により生成された、同一の識別子を有する前記部分画像同士の全ての組について、前記部分画像同士の一致度が高いほど値が大きくなるよう定義された評価関数の演算を行い、前記評価関数が最大値に収束するまで前記空間モデルパラメータおよび前記矩形領域パラメータの更新、前記比較ウインドウの設定、前記部分画像の抽出、ならびに前記評価関数の演算を反復し、前記空間モデルと前記第１および第２の画像のマッチングを行うマッチング演算部とを有することを特徴とするステレオ画像を利用した物体の位置および姿勢認識システム。
請求項１記載のステレオ画像を利用した物体の位置および姿勢認識システムにおいて、前記マッチング演算部における前記評価関数の演算は、同一の識別子を有する前記部分画像同士についてのエッジ特徴の一致度およびテクスチュアの一致度に関する評価演算を含むことを特徴とするステレオ画像を利用した物体の位置および姿勢認識システム。
請求項１または２記載のステレオ画像を利用した物体の位置および姿勢認識システムにおいて、前記部分画像生成部は、同一の識別子を有する前記部分画像間の視差による大きさの違いを補正する部分画像視差補正手段をさらに有することを特徴とするステレオ画像を利用した物体の位置および姿勢認識システム。
請求項１〜３のいずれか１項に記載のステレオ画像を利用した物体の位置および姿勢認識システムにおいて、前記第１および第２の画像に対してエッジおよび肌色ピクセル領域の抽出処理を行う前処理部をさらに有することを特徴とするステレオ画像を利用した物体の位置および姿勢認識システム。
ステレオ画像を利用した、概略形状が既知である物体の位置および姿勢認識方法を実行するプログラムであって、
前記物体の概略形状に基づいて設定されるａ）空間モデルの形状、およびｂ）該空間モデルのワールド座標系における位置、またはこの位置および姿勢を表す空間モデルパラメータの初期値を設定する第１のステップと、
それぞれ固有の識別子を有する仮想的な矩形領域の各辺の長さ、および該矩形領域のワールド座標系における位置を表す矩形領域パラメータの初期値を、前記空間モデル上に前記物体の概略形状に基づいて設定する第２のステップと、
前記物体を含む領域を撮像した第１および第２のカメラからの画像をそれぞれ取り込む第３のステップと、
前記矩形領域のワールド座標系における３次元座標を、前記第１および第２の画像のローカル座標系における２次元座標に変換し、前記第１および第２の画像上に、それぞれ前記矩形領域と同一の識別子を有する比較ウインドウを設定する第４のステップと、
前記第４のステップで前記第１および第２の画像上に設定された前記比較ウインドウ内部の部分画像を抽出し、前記比較ウインドウと同一の識別子を有する部分画像を生成する第５のステップと、
前記第５のステップで生成された同一の識別子を有する前記部分画像同士の全ての組について、前記部分画像同士の一致度が高いほど値が大きくなるよう定義された評価関数の演算を行い、前記評価関数が最大値に収束するまで前記空間モデルパラメータおよび前記矩形領域パラメータの更新、前記第１〜第５のステップ、ならびに前記評価関数の演算を反復し、前記空間モデルと前記第１および第２の画像のマッチングを行う第６のステップとをコンピュータに実行させることを特徴とするステレオ画像を利用した物体の位置および姿勢認識方法を実行するプログラム。
請求項５記載のステレオ画像を利用した物体の位置および姿勢認識方法を実行するプログラムにおいて、前記第６のステップにおける前記評価関数の演算は、同一の識別子を有する前記部分画像同士についてのエッジ特徴の一致度およびテクスチュアの一致度に関する評価演算を含むことを特徴とするステレオ画像を利用した物体の位置および姿勢認識方法を実行するプログラム。
請求項５または６記載のステレオ画像を利用した物体の位置および姿勢認識方法を実行するプログラムにおいて、前記矩形領域は、前記第１および第２の画像のローカル座標系における座標面と平行になるように設定されることを特徴とするステレオ画像を利用した物体の位置および姿勢認識方法を実行するプログラム。
請求項５〜７のいずれか１項に記載のステレオ画像を利用した物体の位置および姿勢認識方法を実行するプログラムにおいて、前記第５のステップと第６のステップの間に、同一の識別子を有する前記部分画像間の視差による大きさの違いを補正するステップＡをさらにコンピュータに実行させることを特徴とするステレオ画像を利用した物体の位置および姿勢認識方法を実行するプログラム。
請求項５記載のステレオ画像を利用した物体の位置および姿勢認識方法を実行するプログラムにおいて、前記物体は人間の腕であって、
前記第１のステップにおいて設定される前記空間モデルは、ワールド座標系における肩の３次元座標ｘ_Ｓ、ｙ_Ｓ、ｚ_Ｓ、肩関節の屈曲角度θ_１、肩関節の内転角度θ_２、肘関節の内旋角度θ_３、および肘関節の屈曲角度θ_４からなる前記空間モデルパラメータを有し、前腕および上腕部分をそれぞれ一定の長さを有するリンクで表現した、肩部および肘部に関節を有する前記人間の腕の空間モデルであり、
前記第２のステップにおいて、前記矩形領域は前記第１および第２の画像のローカル座標系における座標面と平行になるように設定され、該矩形領域は、手先部のエッジ特徴および肌色ピクセルの一致度の評価を行う手先部矩形領域と、前腕部および上腕部における輪郭の内側の領域についてテクスチュアの一致度の評価を行う腕中心部矩形領域と、前腕部および上腕部におけるエッジ特徴の一致度の評価を行う腕外側部矩形領域とからなり、
前記第６のステップにおける前記評価関数の演算は、前記エッジ特徴、テクスチュア、および肌色ピクセルの一致度の評価演算を含み、
前記第５のステップと第６のステップの間に、前記第１および第２の画像上に設定された同一の識別子を有する前記比較ウインドウ間の視差による大きさの違いを補正するステップＡをさらにコンピュータに実行させることを特徴とするステレオ画像を利用した物体の位置および姿勢認識方法を実行するプログラム。
請求項９記載のステレオ画像を利用した物体の位置および姿勢認識方法を実行するプログラムにおいて、前記第３のステップの後に前記第１および第２の画像に対して、前処理としてエッジおよび肌色ピクセル領域の抽出処理を行うステップＢをさらにコンピュータに実行させることを特徴とするステレオ画像を利用した物体の位置および姿勢認識方法を実行するプログラム。
請求項９または１０記載のステレオ画像を利用した物体の位置および姿勢認識方法を実行するプログラムにおいて、前記第６のステップにおいて、まず、前記空間モデルパラメータのうちｘ_Ｓ、ｙ_Ｓおよびｚ_Ｓの１または複数の更新および前記評価関数の演算を反復し、前記人間の腕の空間モデルの肩位置と前記第１および第２の画像のマッチングを行い、次に、前記肩関節の屈曲角度θ_１、および前記肩関節の内転角度θ_２の１または複数の更新および前記評価関数の演算を反復し、前記人間の腕の空間モデルの上腕部および肘位置と前記第１および第２の画像のマッチングを行い、最後に前記肘関節の内旋角度θ_３、および前記肘関節の屈曲角度θ_４の１または複数の更新および前記評価関数の演算を反復し、前記人間の腕の空間モデルの前腕部と前記第１および第２の画像のマッチングを行うことを特徴とするステレオ画像を利用した物体の位置および姿勢認識方法を実行するプログラム。
請求項９または１０記載のステレオ画像を利用した物体の位置および姿勢認識方法を実行するプログラムにおいて、
前記第１のステップにおいて設定される前記人間の腕の空間モデルは、そのワールド座標系における３次元座標ｘ_Ｈ、ｙ_Ｈ、ｚ_Ｈからなる前記空間モデルパラメータで表される頭部の中心をさらに有しており、
前記第２のステップにおいて設定される前記矩形領域は、前記頭部の中心点上に設定され、前記頭部のエッジ特徴および肌色ピクセルの一致度の評価を行う頭部矩形領域をさらに有しており、
前記第６のステップにおいて、前記空間モデルパラメータのうちｘ_Ｈ、ｙ_Ｈおよびｚ_Ｈの１または複数の更新および前記評価関数の演算を反復し、頭部位置について前記人間の腕の空間モデルと前記第１および第２の画像のマッチングを行い、前記空間モデルの頭部と肩部との位置関係から、前記空間モデルの肩部および前記第１および第２の画像とのマッチングを行うことを特徴とするステレオ画像を利用した物体の位置および姿勢認識方法を実行するプログラム。