JP2012203439A

JP2012203439A - 情報処理装置および情報処理方法、記録媒体、並びにプログラム

Info

Publication number: JP2012203439A
Application number: JP2011064508A
Authority: JP
Inventors: Yasushi Shu; 寧周; Jun Yokono; 順横野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-03-23
Filing date: 2011-03-23
Publication date: 2012-10-22

Abstract

【課題】対象を迅速に追跡できるようにする。
【解決手段】物体認識部は、画像から認識物体を認識する。予測部は、認識物体の次の位置および形状を予測する。そして、物体認識部は、予測部により予測された位置に対応する画像の領域内から予測された形状の認識物体を認識する。本開示は、例えば情報処理装置に適用できる。
【選択図】図１

Description

本開示は情報処理装置および方法、記録媒体、並びにプログラムに関し、特に、対象を迅速に追跡することができるようにした情報処理装置および情報処理方法、記録媒体、並びにプログラムに関する。

ジェスチャコントロールや自動監視システム等を実現するため、物体を追跡する様々な手法が提案されている。

手ジェスチャを認識する技術としては、まず、手のみが撮像されている画像を用いるか、または、画像内における手の位置が指定されることにより、手のみが含まれている画像が抽出される。

そして、抽出された手のみが含まれている画像について、肌色情報、動き検出、およびパターンマッチングと言った手法により手ジェスチャが認識されている（特許文献１）。

また、パーティクルフィルタを用いて、対象物の次の状態を予測し、予測された状態と実際の画像をマッチングして追跡処理を実行することも知られている。

このような技術を用いることで、画像から認識したい対象物を検出し、検出された対象物の次の状態を予測することで、効率的に対象物を追跡することが可能となる。

特開２００７−３３３６９０号公報

しかしながら、パーティクルフィルタを用いた追跡処理は、対象物の形状が変化した場合、形状が変化する前の対象物の追跡が終了され、形状が変化した後の対象物を認識し、再び追跡処理が開始される。

例えば、手の形状としてパーを追跡しているとき、手の形状がグーに変化した場合、画像上にパーの形状が存在しなくなるので、パーの形状を追跡する追跡処理は終了する。

そして、再び手を認識する処理が実行され、画像全体から現在の手の位置と新たな手の形状であるグーが認識され、グーの形状を追跡する追跡処理が実行される。

このように、従来のパーティクルフィルタを用いた追跡処理は、対象物の形状が変化した場合、追跡処理が中断されてしまった。すなわち、形状が変化する前の対象物と形状が変化した後の対象物は、異なる対象物として追跡されていた。

従って、対象物の形状が変化するたびに画像全体を探索して対象物を認識しなおさなければならないので、形状が頻繁に変化する対象物を追跡する場合、追跡処理を迅速に実行できないおそれがあった。

本開示は、このような状況に鑑みてなされたものであり、対象を迅速に追跡できるようにするものである。

本開示の一側面の情報処理装置は、画像から認識物体を認識する物体認識部と、前記認識物体の次の位置および形状を予測する予測部とを備え、前記物体認識部は、前記予測部により予測された前記位置に対応する前記画像の領域内から、予測された前記形状の前記認識物体を認識する。

前記物体認識部は、前記認識物体の前記形状ごとの認識器を有し、予測された前記形状に対応する前記認識器を使用して、前記認識物体を認識することができる。

前記予測部は、前記物体認識部の過去の認識結果と、予め記憶されている前記認識物体の標準パターンとを比較し、前記過去の認識結果との一致点の多い前記標準パターンに基づいて、前記位置および前記形状を予測することができる。

前記予測部は、予測された前記位置および前記形状を組み合せた複数の仮説を生成し、前記物体認識部は、前記仮説に基づいて前記認識物体を認識する。

前記物体認識部の認識結果に基づいて、前記認識物体が認識されやすくなるように、前記認識器のパラメータ、および前記標準パターンのパラメータの少なくとも一方を更新する学習部をさらに備えるようにすることができる。

前記予測部は、前記認識物体の大きさおよび回転のうち少なくとも一方をさらに予測し、前記位置および前記形状に、前記大きさおよび前記回転のうち少なくとも一方を組み合せた仮説を生成することができる。

前記予測部の処理、および前記物体認識部の処理は、パーティクルフィルタの手法を用いて実行されるようにすることができる。

前記形状ごとの前記認識器は、ツリー構造により構成されることができる。

本開示の一側面の情報処理方法は、画像から認識物体を認識する物体認識ステップと、前記認識物体の次の位置および形状を予測する予測ステップとを含み、前記物体認識ステップの処理は、前記予測ステップの処理により予測された前記位置に対応する前記画像の領域内から、予測された前記形状の前記認識物体を認識する。

本開示の一側面の記録媒体、またはプログラムは、コンピュータに、画像から認識物体を認識する物体認識ステップと、前記認識物体の次の位置および形状を予測する予測ステップとを実行させるプログラムであって、前記物体認識ステップの処理は、前記予測ステップの処理により予測された前記位置に対応する前記画像の領域内から、予測された前記形状の前記認識物体を認識するプログラムを記録したコンピュータ読み取り可能な記録媒体、またはプログラムである。

本開示の一側面においては、画像から認識物体が認識され、認識物体の次の位置および形状が予測される。そして物体認識部は、予測部により予測された位置に対応する画像の領域内から、予測された形状の認識物体を認識する。

本開示の側面によれば、対象を迅速に追跡することが可能になる。

本開示の情報処理装置の一実施の形態の構成を示すブロック図である。本開示のパーソナルコンピュータの一実施の形態の構成を示すブロック図である。 CPUの機能的構成例を示すブロック図である。物体追跡処理を説明するフローチャートである。予測処理を説明するフローチャートである。平滑化の例を示す図である。手の形状の変化の例を示す図である。認識結果の例を示す図である。仮説の例を示す図である。物体認識処理を説明するフローチャートである。物体認識の例を示す図である。シグモイド関数の例を示す図である。認識結果の例を示す図である。ツリー構造の辞書の例を示す図である。物体認識処理を説明するフローチャートである。

以下、本開示を実施するための形態（以下、実施の形態という）について説明する。なお、説明は以下の順序で行う。
１．情報処理装置の構成
２．パーソナルコンピュータの構成
３．物体追跡処理
４．予測処理
５．複数の辞書を用いた物体予測処理
６．ツリー構造の辞書を用いた物体認識処理
７．その他

［情報処理装置の構成］

図１は、本開示が適用される情報処理装置１の一実施の形態の構成を示すブロック図である。

この情報処理装置１は、画像入力部２１、状態予測部２２、物体認識部２３、後処理部２４、および物体学習部２５から構成されている。

画像入力部２１は、カメラ等により被写体を撮像することにより取得された画像を入力し、入力された画像を状態予測部２２に出力する。状態予測部２２は、事前に記録された予測情報に基づいて認識物体の次の状態を予測し、予測した認識物体の次の状態を物体認識部２３に出力する。

物体認識部２３は、状態予測部２２により予測された認識物体の次の状態に対応する物体認識情報と、入力された画像とを比較することで、認識物体を認識し、入力された画像に対して一致点の多い認識物体の次の状態を後処理部２４に出力する。

後処理部２４は、物体認識部２３により出力された認識結果を統合し、統合された認識結果を出力部４６および物体学習部２５に出力する。

物体学習部２５は、認識物体の情報を学習し、状態予測部２２に供給する標準パターン等の予測情報、および物体認識部２３に供給する辞書などの物体認識情報を更新する。

また、この情報処理装置１は、図２に示されるような、ソフトウェアを実行することで所定の機能を実現するパーソナルコンピュータ３１により構成することもできる。

［パーソナルコンピュータの構成］

図２は、本開示が適用されるパーソナルコンピュータ３１の一実施の形態の構成を示すブロック図である。

情報処理装置としてのパーソナルコンピュータ３１は、バス４１、CPU（Central Processing Unit）４２、ROM（Read Only Memory）４３、RAM（Random Access Memory）４４、入力部４５、出力部４６、記憶部４７、通信部４８、ドライブ４９、およびリムーバブルメディア５０から構成されている。

バス４１は、CPU４２、ROM４３、RAM４４、入力部４５、出力部４６、記憶部４７、通信部４８、ドライブ４９をそれぞれ相互に接続する。

CPU４２は、パーソナルコンピュータ３１の各種の動作を制御する。CPU４２の各種の機能は、図３を参照して後述する。

ROM４３は、パーソナルコンピュータ３１において実行される各種の処理プログラムや処理に必要なデータなどを記録する。RAM４４は、各種の処理において得られたデータを一時的に記録保持するなどのように、各種の処理の作業領域として用いられる。

入力部４５は、キーボード、マウス、マイクロフォンなどよりなる。出力部４６は、ディスプレイ、スピーカなどよりなる。記憶部４７は、ハードディスクや不揮発性のメモリなどよりなる。

通信部４８は、ネットワークインタフェースなどよりなる。ドライブ４９は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア５０を駆動する。

以上のように構成されるパーソナルコンピュータ３１においては、CPU４２が、例えば、ＲＯＭ４３や記憶部４７に記憶されているプログラムを、バス４１を介して、RAM４４にロードして実行することにより、各種の処理が行われる。

CPU４２が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア５０に記録して提供される。

なお、パッケージメディアとしては、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM（Compact Disc-Read Only Memory），DVD（Digital Versatile Disc）等）、光磁気ディスク、もしくは半導体メモリなどが用いられる。

また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

パーソナルコンピュータ３１においては、プログラムは、リムーバブルメディア５０をドライブ４９に装着することにより、バス４１を介して、記憶部４７にインストールすることができる。

また、プログラムは、有線または無線の伝送媒体を介して、通信部４８で受信し、記憶部４７にインストールすることができる。その他、プログラムは、ROM４３や記憶部４７に、あらかじめインストールしておくことができる。

なお、パーソナルコンピュータ３１が実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われる処理であっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

図３は、CPU４２の機能的構成例を示すブロックである。この各ブロックにより図１の画像入力部２１、状態予測部２２、物体認識部２３、後処理部２４、および物体学習部２５が構成される。

CPU４２は、取得部６１、検出部６２、算出部６３、制御部６４、判定部６５、記録部６６、および出力部６７の機能ブロックを有している。なおCPU４２の各ブロックは、必要に応じて相互に信号、データを授受することが可能とされている。

取得部６１は、各種の情報を取得する。検出部６２は、各種の検出処理を実行する。算出部６３は、各種の算出処理を実行する。制御部６４は、各種の制御処理を行う。判定部６５は、各種の判定処理を実行する。記録部６６は、各種の情報を記録する。出力部６７は、各種の情報を出力する。

［物体追跡処理］

図４は、パーソナルコンピュータ３１の物体追跡処理を説明するフローチャートである。図４の物体追跡処理は、例えばパーソナルコンピュータ３１が起動されたときに実行される。

以下、各ステップを、図３の各ブロックが実行するものとして説明するが、図１の各ブロックによっては、次のように実行される。

すなわち、ステップＳ１乃至Ｓ３およびステップＳ１３は、画像入力部２１により、ステップＳ４は、状態予測部２２により、ステップＳ５，Ｓ６は、物体認識部２３により、ステップＳ７は、後処理部２４により、ステップＳ８乃至Ｓ１２は、物体学習部２５により、それぞれ実行される。

ステップＳ１において、制御部６４は、認識物体を設定する。認識物体は、予め記憶されている複数の物体検出手法の中から設定される。

認識物体は、例えば、ユーザにより指定されるようにすることができる。例えばジェスチャにより電子機器を制御する場合、ユーザの手が認識物体として指定される。

なお、記憶されている物体検出手法が１つである等、予め認識物体が決定している場合、ステップＳ１の処理は省略することができる。

ステップＳ２において、取得部６１は、画像を取得する。すなわち、被写体を撮像して得られた画像が取得される。

ステップＳ３において、検出部６２は、認識物体を検出する。すなわち、ステップＳ１の処理で設定された物体検出手法を用いて、ステップＳ２の処理により取得された画像から認識物体が検出される。

物体追跡処理の開始直後は、認識物体を追跡するための情報が不十分になる。そこで、初期状態においては、物体検出手法を用いて認識物体が追跡される。

例えば予め決められたグー、チョキ、パーの手の形状が検出され、初期情報とされる。勿論、初期情報はユーザが指定したものを使用することもできる。

次にステップＳ４において状態予測部２２により予測処理が実行される。図５を参照して、予測処理について説明する。

［予測処理］

図５は、予測処理を説明するフローチャートである。ここにおける予測処理は、例えば、パーティクルフィルタの手法を用いて実行される。

ステップＳ２１において、算出部６３は、予測用特徴量を算出する。例えば、過去の認識結果を使い、取得された画像の過去３０フレームにおける、認識物体の運動方向、移動距離、および形状の変化等の情報が予測用特徴量として算出される。

過去の認識結果が存在しない場合、手検出器などの物体認識器により、取得された画像から目標物体の認識が行われる。

ステップＳ２２において、制御部６４は、予測用特徴量を平滑化する。すなわち、予測用特徴量に平滑化フィルタ等をかけて、スムージングの処理が実行される。図６を参照して、スムージングの例について説明する。

図６は、スムージングの例を示す図である。図６Ａは、認識物体である手８１−１の移動の軌跡を示す図である。手８１−１の軌跡は、過去に認識された手８１−１の運動方向および移動距離などの情報から算出された予測用特長量により描かれる。

図６Ａに示すように、手８１−１の実際の軌跡は、細かいブレを含んでいる。このような細かいブレは、ユーザが意図する操作ではない。従って、図６Ａの軌跡から、手８１−１がどのように動いていたかを直接判断すると、正確な判断が困難になる。

図６Ｂは、図６Ａの手８１−１の軌跡に対して平滑化フィルタによるフィルタリングを実行した例を示す図である。図６Ｂに示すように、手８１−２の実施の軌跡から細かいブレを除去すると、滑らかな直線になる。

このように、スムージングの処理を実行することで、予測処理に不要なノイズの情報を除去することで、ユーザの意図に沿って認識物体の状態を正確に判断することができる。

図５のステップＳ２３において、算出部６３は、予測用特徴量を正規化して時系列運動パターンを算出する。

認識物体の時系列運動パターンとは、認識物体の運動の種類等を特定する情報である。例えば、図６の手８１−２の時系列運動パターンは、直線運動となる。

ステップＳ２４において、制御部６４は、標準パターンと時系列運動パターンをマッチングする。すなわち、標準パターンと時系列運動パターンが比較される。

標準パターンは、記録部６６により予め記録されている、事前に学習された認識物体の運動パターンである。例えば、物を手でつかむ操作の標準パターンは、手の形状がパーからグーに変化する動作に対応する。

ステップＳ２５において、算出部６３は、標準パターンごとに時系列運動パターンの確率を算出する。確率は、時系列運動パターンが標準パターンに対してどれだけ一致するかを示す値である。

例えば、手が図６Ｂのように左から右に移動する場合の時系列運動パターンの確率は、直線運動の標準パターンである場合に高くなり、物を手でつかむ操作の標準パターンである場合に低くなる。

ステップＳ２６において、取得部６１は、時系列運動パターンの確率が第1の閾値以上となる標準パターンを取得する。すなわち、時系列運動パターンとの一致点が多い標準パターンが取得される。

第１の閾値は、学習等により予め設定されている。後述する他の閾値についても同様とする。なお、時系列運動パターンの確率が第1の閾値以上となる標準パターンが存在しない場合、処理は図４のステップＳ１に戻り、それ以降の処理が繰り返される。

ステップＳ２７において、算出部６３は、取得された標準パターンから認識物体の状態を予測した仮説を生成する。図７乃至図９を参照して、認識物体の状態を予測する場合について説明する。

図７は、手の形状の変化の例を示す図である。図７Ａには、手１０２−１の形状がパーである状態が示されている。図７Ｃには、手１０２−３の形状がグーである状態が示されている。

図７Ｂには、手１０２−２の形状が図７Ａに示すパーから、図７Ｃに示すグーへ変化する途中の状態が示されている。

なお、手１０２−１乃至１０２−３を個々に区別する必要がない場合、以下単に、手１０２と記述する。他の構成要素についても同様とする。

例えば、ユーザ１０１が物をつかむジェスチャをする場合、ユーザ１０１の手１０２の形状は、図７Ａの手１０２−１の形状から図７Ｂの手１０２−２の形状を経由して、図７Ｃの手１０２−３の形状に遷移する。

そして、ユーザ１０１の手１０２の形状は、所定時間経過後に、図７Ｃの手１０２−３の形状から図７Ｂの手１０２−２の形状を経由して、図７Ａの手１０２−１の形状に戻るようになる。

図８を参照して、現在の手１０２の形状がパーである場合、すなわち図７Ａの手１０２−１が認識結果として出力された場合について説明する。

図８は、認識結果の例を示す図である。図８には、図７Ａの画像に対して、図４のステップＳ３の処理、または後述するステップＳ１２の処理が実行された場合の例が示されている。

図８の例には、ユーザ１０１の手１０２−１の形状であるパーが認識され、手１０２−１の中心１２１−１と、手１０２−１の中心１２１−１から所定の大きさで表示される認識領域１２２−１が表示されている。

また、出力部４６を構成する表示部４６Ａの左上の頂点が原点１２０であり、手１０２−１の中心１２１−１の座標が（ｘ_１，ｙ_１）であるとする。

ユーザ１０１が物をつかむジェスチャをする場合、現在の手１０２−１の形状がパーであるので、次の状態における手の形状はパー、すなわち図７Ａの手１０２−１の形状、またはパーからグーに変化する途中の形状、すなわち図７Ｂの手１０２−２の形状となる可能性が高いと考えられる。

また、ユーザ１０１が物をつかむジェスチャをする場合、ユーザ１０１の手１０２の位置は、ほとんど移動しないと考えられる。図９を参照して、パーの次の状態を予測した場合について説明する。

図９は、認識物体の仮説の例を示す図である。図９の例では、認識物体の仮説として、手の形状と位置を予測する場合について説明する。図９には、仮説と予測形状と予測位置の例が示されている。

予測形状は、手の次の形状を示している。なお、簡単のため、手の予測形状の種類は、グー、チョキ、パーの３種類とする。

予測位置は、手の次の中心位置の座標を示している。図９の例には、図８の手１０２−１の中心１２１−１の座標（ｘ_１，ｙ_１）から上下左右の４方向にａ（ａは自然数）だけ移動した座標（ｘ_１，ｙ_１−ａ）、（ｘ_１，ｙ_１＋ａ）、（ｘ_１−ａ，ｙ_１）、および（ｘ_１＋ａ，ｙ_１）が示されている。

仮説は、予測形状と予測位置を組み合せたものである。例えば、予測形状が３種類であり、予測位置が４種類である場合、仮説は、最大で３×４＝１２個生成される。図９の例では、８個の仮説が示されている。

例えば、予測形状であるパーと、予測位置の座標（ｘ_１，ｙ_１−ａ）を組み合せたものが仮説１として生成される。すなわち、仮説１は、手の次の状態において、手の形状がパーであり、手の中心が座標（ｘ_１，ｙ_１−ａ）にあることを示している。

他の仮説も、予測形状と予測位置を組み合せることで同様に生成される。

例えば、図８に示すように、現在の手１０２−１の形状がパーである場合、次の手の形状がパーとなる可能性は高く、次の手の形状がグーとなる可能性は低くなると考えられる。従って、図９に示すように、仮説の予測形状には、パーが多くなり、グーが少なくなる。

図５に戻り、ステップＳ２７の処理の後、処理は図４のステップＳ５に進む。

図４のステップＳ５において、物体認識部２３により物体認識処理が実行される。この物体認識処理には、例えば特開２０１０−１０８４７５号公報の技術を用いることができるが、ここではパーティクルフィルタの手法を用いた２つの場合について説明する。

１つは図１０に示される複数の辞書を用いる場合であり、１つは図１４と図１５に示されるツリー構造の辞書を用いた場合である。最初に図１０を参照して、複数の辞書を用いる場合の物体認識処理について説明する。

［複数の辞書を用いた物体認識処理］

図１０は、複数の辞書を用いた物体認識処理を説明するフローチャートである。物体認識処理も図５の予測処理と同様にパーティクルフィルタの手法を用いて実行される。

辞書は、認識物体の形状ごとに予め用意されている認識器であり、学習された特徴量やパラメータを有している。例えば、手の形状の場合、グーの辞書、パーの辞書、チョキの辞書等が用意される。

また辞書には、辞書ごとに認識特徴量を算出するためのパラメータが設定されている。例えば、パーの辞書の場合、取得された画像から５本の指が検出されるようなパラメータが設定されている。

ステップＳ４１において、取得部６１は、仮説を１つ取得する。すなわち、図５のステップＳ２７の処理により生成された仮説が１つ取得される。例えば、図９の仮説１乃至８の中から仮説１が取得される。

ステップＳ４２において、取得部６１は、仮説に対応する辞書を取得する。すなわち、取得された仮説の予測形状に対応する辞書が、記録部６６により記録されている辞書の中から取得される。例えば、図９の仮説１の場合、予測形状がパーであるので、パーの辞書が取得される。

ステップＳ４３において、算出部６３は、仮説に対応する認識特徴量を算出する。すなわち、予測位置を中心とする所定の範囲内の画像から、予測形状の辞書のパラメータを用いて、認識特徴量が算出される。

図１１を参照して、図９の仮説１に基づいて、認識特徴量を算出する場合について説明する。

図１１は、認識物体を認識する例を示す図である。図１１には、現在の画像として図７Ｂの画像が取得された例が示されている。

図１１の例には、ユーザ１０１の手１０２−１１、過去の認識結果（すなわち図８）の中心１２１−１、予測位置１４１、および予測位置１４１から所定の大きさで示される予測領域１４２が表示されている。

なお、簡単のため、予測領域１４２の大きさは、図８の認識領域１２２−１と同じ大きさとする。

過去の認識結果の中心１２１−１は、座標（ｘ_１，ｙ_１）に位置している。また、図９に示すように、仮説1の予測位置１４１は座標（ｘ_１，ｙ_１−ａ）となる。従って、図１１に示すように、仮説１の予測位置１４１は、中心１２１−１よりａだけ上に位置する。

仮説１に対するステップＳ４３の処理により、予測位置１４１を中心とする予測領域１４２内の画像から、パーの辞書のパラメータを用いて、認識特徴量が算出される。

図１０に戻り、ステップＳ４４において、算出部６３は、仮説の信頼度を算出する。すなわち、仮説がどれだけ正しいかが算出される。

信頼度は確率を意味し、例えば、シグモイド関数を用いて算出される。シグモイド関数Ｐ（ｔ）は、次の式（１）で表わされる。
Ｐ（ｔ）＝１／（１＋ｅ^−ｔ）（１）

図１２は、シグモイド関数の例を示す図である。図１２に示すように、シグモイド関数は、Ｐ（ｔ）＝０とＰ（ｔ）＝１に漸近線を持ち、特徴量に対応する変数ｔの値が大きくなる程、１に漸近し、小さい程、０に漸近する。

すなわち、認識特徴量が大きい程、すなわち仮説が正しい程、信頼度が高くなる。変数ｔは、例えば、ブースティング(Boosting)、ＳＶＭ(Support Vector Machine)などで学習された手の認識器のスコアである。

図１０に戻り、ステップＳ４５において、判定部６５は、全ての仮説を取得したかを判定する。すなわち、全ての仮説に対して信頼度が算出されたかが判定される。

ステップＳ４５において、まだ全ての仮説を取得していないと判定された場合、すなわち、まだ信頼度が算出されていない仮説が存在する場合、ステップＳ４６において、取得部６１は、取得されていない仮説を１つ取得する。

図９の例では、既に仮説1が取得され、仮説２乃至８がまだ取得されていないので、仮説２乃至８のうち１つの仮説、例えば仮説２が新たに取得される。

ステップＳ４６の処理の後、処理はステップＳ４２に戻り、それ以降の処理が繰り返される。このようにして全ての仮説の信頼度が算出される。

一方、ステップＳ４５において、全ての仮説が取得されたと判定された場合、すなわち、全ての仮説の信頼度が算出された場合、処理はステップＳ４７に進む。

ステップＳ４７において、取得部６１は、信頼度が第２の閾値以上の仮説を取得する。すなわち、より正しいと判断された仮説が取得され、間違いと判断された仮説は取得されない。ステップＳ４７の処理の後、処理は図４のステップＳ６に進む。

このように、物体認識部２３は、仮説に基づいて認識物体を認識するように制御する。具体的には、予測位置に対応する制限された予測領域１４２内の画像から予測形状の認識物体が認識されるので、パーソナルコンピュータ３１は、より迅速に認識物体を追跡することができる。

なお、図１０の物体認識処理においては、仮説を１つずつ取得して仮説の信頼度を算出するようにしたが、複数の仮説に対して並列に物体認識処理を実行して、仮説の信頼度を算出するようにしてもよい。

図４に戻り、ステップＳ６において、判定部６５は、信頼度が第２の閾値以上となる仮説を取得したかを判定する。

ステップＳ６において、信頼度が第２の閾値以上となる仮説が取得されなかったと判定された場合、処理はステップＳ１に戻り、それ以降の処理が繰り返される。

一方、ステップＳ６において、信頼度が第２の閾値以上となる仮説が取得されたと判定された場合、ステップＳ７において、制御部６４は、仮説を統合して認識結果を生成する。

すなわち、図１０のステップＳ４７の処理により取得された仮説が統合され、認識物体の状態が決定される。

具体的には、仮説の信頼度に応じた重みを予測位置および予測形状の情報に付加し、その総和を算出することで認識物体の状態が一意に決定される。なお、認識結果は、信頼度が最大となる仮説に基づいて一意に決定されるようにしてもよい。

ステップＳ８において、算出部６３は、認識結果の信頼度を算出する。信頼度は、図１０のステップＳ４４の処理と同様に、シグモイド関数等を用いて算出される。

ステップＳ９において、判定部６５は、認識結果の信頼度が第３の閾値以上であるかを判定する。すなわち、認識結果を出力するかが判定される。

ステップＳ９において、認識結果の信頼度が第３の閾値より小さいと判定された場合、すなわち、認識結果を出力すべきではないと判定された場合、ステップＳ１０乃至Ｓ１２の処理はスキップされ、処理はステップＳ１３に進む。

一方、ステップＳ９において、認識結果の信頼度が第３の閾値以上であると判定された場合、すなわち、認識結果を出力すべきと判定された場合、処理はステップＳ１０に進む。

ステップＳ１０において、制御部６４は、認識結果から認識物体の情報を学習する。学習は、オンラインブースティングの手法等を用いて実行される。オンラインブースティングの手法については、例えば次の文献に開示されている。
Helmut Grabner and Horst Bischof, "On-line Boosting and Vision", In Proceedings IEEE Conference on Computer Vision and Pattern Recognition (CVPR), volume 1, pages 260-267, 2006

具体的には、予測処理に用いられる標準パターンのパラメータ、および物体認識処理に用いられる辞書のパラメータの少なくとも一方が、より効率的に認識物体を検出できるように変更される。

例えば、図１０の物体認識処理で、パーの辞書を使用して仮説の信頼度を算出する場合、図７Ｂの手１０２−２の形状では、図７Ａの手１０２−１の形状より仮説の信頼度が低く算出される。

しかし、予測形状がパーであるとき、手１０２−２の形状が頻繁に認識された場合、学習により手１０２−２の形状もパーに含まれると判断され、手１０２−２の形状の信頼度が高くなるようにパーの辞書のパラメータが変更される。

このように、学習により認識物体が認識されやすくなるので、より迅速かつ確実に認識物体を追跡することができるようになる。

ステップＳ１１において、記録部６６は、学習結果を記録する。すなわち、学習により、標準パターンのパラメータおよび辞書のパラメータの少なくとも一方が更新される。

ステップＳ１２において、出力部６７は、認識結果を出力する。すなわち、ステップＳ７の処理により生成された認識結果が出力部４６の表示部４６Aに表示される。

図１３は、認識結果の例を示す図である。図１３には、図７Ｂの画像に対する認識結果の例が示されている。

図１３の例には、ユーザ１０１の手１０２−２の形状が認識され、手１０２−２の中心１２１−２と、手１０２−２の中心１２１−２から所定の大きさの認識領域１２２−２が表示されている。

これにより、ユーザ１０１が認識物体としての手１０２の追跡を確認することができる。

なお、図４のステップＳ１０，Ｓ１１の処理とステップＳ１２の処理は、並列に実行することができる。すなわち、ステップＳ１０，Ｓ１１の処理が終了するより前に、ステップＳ１２の処理が実行されるようにしてもよい。

ステップＳ１３において、取得部６１は、画像を取得する。すなわち、新たな画像が取得される。

なお、新たに取得される画像は、過去に取得された画像（例えば図７Ｂの画像）の次のフレームの画像（例えば図７Ｃの画像）でもよいし、過去に取得された画像から所定のフレーム数だけ後の画像でもよい。

すなわち、新たな画像は、１フレームごとに取得されてもよいし、所定のフレーム数ごとに取得されてもよい。

ステップＳ１３の処理の後、処理はステップＳ４に戻り、それ以降の処理が繰り返される。

次に、図１４と図１５を参照して、図４のステップＳ５の物体認識処理の他の例について説明する。

図１４は、ツリー構造の辞書の例を示す図である。図１５は、ツリー構造の辞書を用いた物体認識処理を説明するフローチャートである。まず図１４を参照してツリー構造の辞書について説明する。

図１４に示すように、ツリー構造の辞書には、認識物体としての手２０１の様々な形状がノードに予め設定されている。

図１４の例には、手２０１が右手２２１および左手２２２の子ノードを有し、右手２２１がグー２４１、チョキ２４２、およびパー２４３の認識用リーフノードを有している場合が示されている。

認識用リーフノードには、認識用リーフノードごとに認識特徴量を算出するためのパラメータが設定されている。

なお、簡単のため、左手２２２の子ノードは、省略されており、右手２２１の認識用リーフノードには、グー２４１、チョキ２４２、およびパー２４３の３種類の認識用リーフノードが示されている。

また、図１４のツリー構造の深さは２であるが、ツリー構造の深さは３以上の複数でもよい。

例えば、ツリー構造の深さが３である場合、右手２２１が「手を閉じている状態」および「手を開いている状態」の子ノードを有し、「手を閉じている状態」がグー２４１の子ノードを有し、「手を開いている状態」がチョキ２４２およびパー２４３の子ノードを有するようにしてもよい。

［ツリー構造の辞書を用いた物体認識処理］

次に、図１５を参照して、ツリー構造の辞書を用いた物体認識処理について説明する。

図１５において、ステップＳ６１，Ｓ６３乃至Ｓ６７の処理は、図１０のステップＳ４１，Ｓ４３乃至Ｓ４７の処理に対応する処理である。従って、これらの処理は繰り返しになるので簡単に説明する。

ステップＳ６１において、取得部６１は、仮説を１つ取得する。ステップＳ６２において、取得部６１は、仮説に対応する認識用リーフノードを取得する。

例えば、図９の仮説１の場合、予測形状がパー（右手）であるので、図１４のパー２４３の認識用リーフノードが取得される。

このように、ツリー構造の辞書には多くの辞書が存在するが、仮説に対応する認識用リーフノードを用いるので、全ての認識用リーフノードを用いる必要がなく、より迅速に物体認識処理を実行することができる。

ステップＳ６３において、算出部６３は、仮説に対応する認識特徴量を算出する。すなわち、取得された認識用リーフノードに設定されているパラメータを使用し、予測位置を中心とする所定の範囲内の画像に対して、認識特徴量が算出される。

ステップＳ６４において、算出部６２は、仮説の信頼度を算出する。ステップＳ６５において、判定部６５は、全ての仮説を取得したかを判定する。

ステップＳ６５において、まだ全ての仮説を取得していないと判定された場合、ステップＳ６６において、取得部６１は、まだ取得されていない仮説を１つ取得する。ステップＳ６６の処理の後、処理はステップＳ６２に戻り、それ以降の処理が繰り返される。

一方、ステップＳ６５において、全ての仮説が取得されたと判定された場合、ステップＳ６７において、取得部６１は、信頼度が第４の閾値以上の仮説を認識結果として取得する。ステップＳ６７の処理の後、処理は図４のステップＳ６に進む。

なお、ツリー構造の辞書を用いた物体認識処理の場合、図４のステップＳ６において、判定部６５は、信頼度が第４の閾値以上の仮説を取得したかを判定する。

このように、ツリー構造の辞書を用いることで、複数の辞書を１つまとめて容易に管理することができる。

本開示によれば、次のような効果を実現することができる。
（１）事前学習を行い、状態空間の予測を行って、全状態空間のマッチングを行わずに、迅速に、複数の状態の追跡を行うことができる。
（２）状態の予測は、状態空間の中の確率の高い状態を推定することで行われる。物体の位置や大きさの他に、形状や種類といった離散的な状態も予測される。追跡の時、全空間の探索は行わず、予測された状態のみが認識されるので、迅速な処理が可能となる。
（３）全部の状態を同じモデルを使って認識する必要はなく、各状態に最適な認識手法を用いることができる。例えば物体の形状の認識には、Steerable Filterを使用し、位置の認識には、ヒストグラムマッチングを用いることができる。さらに事前学習の際にも、全部の状態を同時に学習する必要はなく、各状態を個別に学習することができる。それにより学習を高速化することができる。
（４）物体の追跡中に追跡結果を使い、認識物体の状態空間と予測モデルと認識手法をオンライン学習することができる。それにより追跡精度を向上させることができる。
（５）状態変化がある目標物体を追跡し、追跡結果を認識して、ジェスチャ認識におけるアプリケーションへの応用が容易となる。

［その他］

本明細書において、システムの用語は、複数の装置、手段などより構成される全体的な装置を意味するものとする。

本開示の実施の形態は、上述した実施形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、本開示の実施の形態は、一部の機能を他の装置が有していても良い。

なお、本開示の実施の形態においては、認識物体の状態が手の形状および位置であるとしたが、認識物体の状態は、他にも大きさ、回転等を含めてもよい。

また、本開示の実施の形態においては、パーティクルフィルタを用いて予測処理および物体認識処理を実行するとしたが、予測処理および物体認識処理は、カルマンフィルタ等の他の物体追跡手法を用いて実行するようにしてもよい。

図４のステップＳ４の予測処理における予測モデルの事前学習には、HMM(Hidden Markov Model)法やニューラルネットワーク法を用いることが可能である。

図４のステップＳ５の物体認識処理には、例えば特開２０１０−１０８４７５号公報のような、Steerable Filterの応答を特徴量としてBoostingを用いて認識器を構成する技術を用いることができる。

また、ＳＳＤ（Sum of Squared Difference）、カラーヒストグラムのテンプレートマッチング手法などを用いることができる。

さらに全部の状態を同じ認識手法で処理する必要はなく、例えば、局所特徴量を用いて形状の特徴を表現し、色ヒストグラムを用いて色の特徴を表現するなど、各状態に応じてさまざまな特徴量を併用することができる。

また、図５のステップＳ２４の標準パターンと時系列運動パターンをマッチング処理においては、例えば、次の文献の技術を利用することができる。
（１）Michael Isard and Andrew Blake, "CONDENSATION - Conditional Density Propagation for Visual Tracking", International Journal of Computer Vision 29(1),5-28(1998)
（２）Michael Isard and Andrew Blake, "Contour tracking by stochastic propagation of conditional density", In Proc. European Conf. Computer Vision, 1996, pp. 343-356, Cambridge, UK

本開示は、例えばテレビジョン受像器、パーソナルコンピュータなどの情報処理装置をジェスチャで遠隔操作する場合などに適用することができる。

なお、本開示は以下のような構成も取ることができる。
（１）画像から認識物体を認識する物体認識部と、前記認識物体の次の位置および形状を予測する予測部とを備え、前記物体認識部は、前記予測部により予測された前記位置に対応する前記画像の領域内から、予測された前記形状の前記認識物体を認識する情報処理装置。
（２）前記物体認識部は、前記認識物体の前記形状ごとの認識器を有し、予測された前記形状に対応する前記認識器を使用して、前記認識物体を認識する前記（１）に記載の情報処理装置。
（３）前記予測部は、前記物体認識部の過去の認識結果と、予め記憶されている前記認識物体の標準パターンとを比較し、前記過去の認識結果との一致点の多い前記標準パターンに基づいて、前記位置および前記形状を予測する前記（１）または（２）に記載の情報処理装置。
（４）前記予測部は、予測された前記位置および前記形状を組み合せた複数の仮説を生成し、前記物体認識部は、前記仮説に基づいて前記認識物体を認識する前記（１）から（３）のいずれかに記載の情報処理装置。
（５）前記物体認識部の認識結果に基づいて、前記認識物体が認識されやすくなるように、前記認識器のパラメータ、および前記標準パターンのパラメータの少なくとも一方を更新する学習部をさらに備える前記（２）から（４）のいずれかに記載の情報処理装置。
（６）前記予測部は、前記認識物体の大きさおよび回転のうち少なくとも一方をさらに予測し、前記位置および前記形状に、前記大きさおよび前記回転のうち少なくとも一方を組み合せた仮説を生成する前記（１）から（５）のいずれかに記載の情報処理装置。
（７）前記予測部の処理、および前記物体認識部の処理は、パーティクルフィルタの手法を用いて実行される前記（１）から（６）のいずれかに記載の情報処理装置。
（８）前記形状ごとの前記認識器は、ツリー構造により構成される前記（２）から（７）のいずれかに記載の情報処理装置。

１情報処理装置，２２状態予測部，２３物体認識部，２５物体学習部，３１パーソナルコンピュータ

Claims

画像から認識物体を認識する物体認識部と、
前記認識物体の次の位置および形状を予測する予測部と
を備え、
前記物体認識部は、前記予測部により予測された前記位置に対応する前記画像の領域内から、予測された前記形状の前記認識物体を認識する
情報処理装置。
前記物体認識部は、前記認識物体の前記形状ごとの認識器を有し、予測された前記形状に対応する前記認識器を使用して、前記認識物体を認識する
請求項１に記載の情報処理装置。
前記予測部は、前記物体認識部の過去の認識結果と、予め記憶されている前記認識物体の標準パターンとを比較し、前記過去の認識結果との一致点の多い前記標準パターンに基づいて、前記位置および前記形状を予測する
請求項２に記載の情報処理装置。
前記予測部は、予測された前記位置および前記形状を組み合せた複数の仮説を生成し、
前記物体認識部は、前記仮説に基づいて前記認識物体を認識する
請求項３に記載の情報処理装置。
前記物体認識部の認識結果に基づいて、前記認識物体が認識されやすくなるように、前記認識器のパラメータ、および前記標準パターンのパラメータの少なくとも一方を更新する学習部
をさらに備える請求項４に記載の情報処理装置。
前記予測部は、前記認識物体の大きさおよび回転のうち少なくとも一方をさらに予測し、前記位置および前記形状に、前記大きさおよび前記回転のうち少なくとも一方を組み合せた仮説を生成する
請求項５に記載の情報処理装置。
前記予測部の処理、および前記物体認識部の処理は、パーティクルフィルタの手法を用いて実行される
請求項６に記載の情報処理装置。
前記形状ごとの前記認識器は、ツリー構造により構成される
請求項７に記載の情報処理装置。
画像から認識物体を認識する物体認識ステップと、
前記認識物体の次の位置および形状を予測する予測ステップと
を含み、
前記物体認識ステップの処理は、前記予測ステップの処理により予測された前記位置に対応する前記画像の領域内から、予測された前記形状の前記認識物体を認識する
情報処理方法。
コンピュータに、
画像から認識物体を認識する物体認識ステップと、
前記認識物体の次の位置および形状を予測する予測ステップと
を実行させるプログラムであって、
前記物体認識ステップの処理は、前記予測ステップの処理により予測された前記位置に対応する前記画像の領域内から、予測された前記形状の前記認識物体を認識する
プログラムを記録したコンピュータ読み取り可能な記録媒体。
コンピュータに、
画像から認識物体を認識する物体認識ステップと、
前記認識物体の次の位置および形状を予測する予測ステップと
を実行させるプログラムであって、
前記物体認識ステップの処理は、前記予測ステップの処理により予測された前記位置に対応する前記画像の領域内から、予測された前記形状の前記認識物体を認識する
プログラム。