JP2011186780A

JP2011186780A - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP2011186780A
Application number: JP2010051361A
Authority: JP
Inventors: Jun Yokono; 順横野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-03-09
Filing date: 2010-03-09
Publication date: 2011-09-22
Also published as: US8428369B2; US20110222759A1; CN102194126A

Abstract

【課題】パターンのグルーピングを最適化し、これにより動画像上の物体を高い精度で認識する。
【解決手段】時刻ｔの特定されたパターンをＸｉとして、時刻ｔ−τから時刻ｔ＋τまでの期間にパターンＸｊが特定される確率Ｐijについて考える。確率Ｐijは時刻ｔ−τから時刻ｔ＋τまでの時間にパターンＸｊが特定されたフレームの数をカウントすることにより取得することにする。この確率Ｐijを要素とするアフィニティマトリクスＷに基づくスペクトラルクラスタリングにより、ｎ種類のパターンをグルーピングする。本発明は、画像認識処理に適用できる。
【選択図】図４

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、画像上の物体を認識する場合に用いて好適な情報処理装置、情報処理方法、およびプログラムに関する。

従来、画像（静止画像または動画像）上に存在する物体を認識するための技術が存在する。その方法の１つとして、画像上に覗き窓を設け、覗き窓の領域の特徴量を算出し、様々な既知の物体に対応して予め用意されているパターンの特徴量と比較して、各局所ブロックがどのパターンに最も一致するかを特定する方法がある。

しかしながら、例えば人の膝などのように関節を有する物体を動画像上から認識しようとした場合、図１に示すように、当該物体は単に移動するだけでなく、より複雑な動きをする。したがって、当該物体に注目した場合、時刻ｔ１の状態を基準としてその後の状態と比較すると、同一の物体であるにも拘わらず、図２に示すように徐々に相関値が低下してしまい、各時刻において特定されるパターンが異なるものとなってしまう。すなわち、時刻ｔ１の膝の画像に対しては特徴量ｘ１のパターン（パターンｘ１とも記述する。他のパターンについても同様とする）が特定され、時刻ｔ２の膝の画像に対しては特徴量ｘ２のパターンｘ２が特定されることになる。

各パターンの特徴量ｘ１乃至ｘ４は、図３Ａに示すようにそれぞれが異なる値である。しかしながら、上述したように、同一の物体（人の膝）に対応するものとして識別するためには、何らかの変換式（射影関数など）やグルーピングなどにより、図３Ａに示す特徴量ｘ１乃至ｘ４を、図３Ｂに示す不変特徴量空間上に集めて、同一の物体に対応する特徴量であることを学習しておく必要がある。

そこで従来、異なるパターンを学習によりグルーピングする方法として、学習用画像（動画像）の各フレーム上に位置を固定した覗き窓を設け、覗き窓から抽出した画像の時間変化を利用してパターンを学習する方法が提案されている。

例えば、非特許文献１に記載の方法では、時間的にパターンの応答を持続させることで、多少変化したパターンが入ってきても、同じパターンが反応するように重みを学習するようになされている。

また、非特許文献２に記載では、局所ブロックの時間的な遷移に基づいてパターンのグルーピングを行っている。

Learning Invariance from Transformation Sequences, Peter Foldiak, Neural Computation,1991 PHD Thesis of Dileep George, "How The Brain Might Work: A Hierarchical and Temporal Model for Learning and Recognition"

上述した、非特許文献１に記載の方法では、局所的な入力にのみ注視しているので、動画像に含まれるノイズに弱いという欠点があった。

非特許文献２に記載の方法では、局所ブロックの時間的な遷移に基づくものの、隣り合うフレーム間の関係を一方向にのみ利用しているに過ぎず、パターンのグルーピング方法に改善の余地がある。

本発明はこのような状況に鑑みてなされたものであり、時間的に近いフレーム間の関係を双方向に利用することにより、パターンのグルーピングを最適化し、これにより画像上の物体を高い精度で認識できるようにするものである。

本発明の一側面である情報処理装置は、異なる複数ｎの画像パターンそれぞれに対して特徴量を算出する特徴量算出手段と、学習用動画像を構成する時間的連続性がある各フレームに対して前記複数ｎの画像パターンのうち、最も適合する前記画像パターンを特定する特定手段と、前記複数ｎの画像パターンのうちの第１の画像パターンＸｉが特定されたフレームとの時間的距離が所定の閾値τ以内に位置するフレームに対して、前記複数ｎの画像パターンのうちの第２の画像パターンＸｊが特定された確率を示す共起確率Ｐijを演算する演算手段と、演算された前記共起確率Ｐijを用いて前記複数ｎの画像パターンをグルーピングするグルーピング手段とを含む。

前記演算手段は、前記学習用動画像の各フレームを順次、基準フレームに設定して、前記基準フレームに対して特定された前記画像パターンを前記第１の画像パターンＸｉとし、前記基準フレームとの時間的な前後の距離が所定の閾値τ以内に位置する複数のフレームのうちで前記第２の画像パターンＸｊが特定されたフレームの数をカウントし、カウントした値を、前記時基準フレームを設定し直す毎に積算することにより前記共起確率Ｐijを演算するようにすることができる。

前記演算手段は、前記学習用動画像の各フレームを順次、基準フレームに設定して、前記基準フレームに対して特定された前記画像パターンを前記第１の画像パターンＸｉとし、前記基準フレームとの時間的な前後の距離が所定の閾値τ以内に位置する複数のフレームのうちで前記第２の画像パターンＸｊが特定されたフレームの数を前記基準フレームとの時間的距離に応じて重み付けしてカウントし、重み付けしてカウントした値を、前記時基準フレームを設定し直す毎に積算することにより前記共起確率Ｐijを演算するようにすることができる。

前記グルーピング手段は、演算された前記共起確率Ｐijにスペクトラルクラスタリングを適用して前記複数ｎの画像パターンをグルーピングするようにすることができる。

本発明の一側面である情報処理装置は、パターン用画像の異なる複数ｎの位置から所定のサイズの局所ブロックを抽出することにより前記複数のｎの画像パターンを生成する画像パターン生成手段をさらに含むことができる。

本発明の一側面である情報処理装置は、認識対象画像に対して、グルーピングされている前記複数ｎの画像パターンのうち、最も適合する前記画像パターンを特定し、特定結果に基づいて前記認識対象画像上の物体を認識する認識手段をさらに含むことができる。

本発明の一側面である情報処理方法は、同一の物体に対応する画像パターンをグルーピングする情報処理装置の情報処理方法において、前記情報処理装置による、異なる複数ｎの画像パターンそれぞれに対して特徴量を算出する特徴量算出ステップと、学習用動画像を構成する時間的連続性がある各フレームに対して前記複数ｎの画像パターンのうち、最も適合する前記画像パターンを特定する特定ステップと、前記複数ｎの画像パターンのうちの第１の画像パターンＸｉが特定されたフレームとの時間的距離が所定の閾値τ以内に位置するフレームに対して、前記複数ｎの画像パターンのうちの第２の画像パターンＸｊが特定された確率を示す共起確率Ｐijを演算する演算ステップと、演算された前記共起確率Ｐijを用いて前記複数ｎの画像パターンをグルーピングするグルーピングステップとを含む。

本発明の一側面であるプログラムは、同一の物体に対応する画像パターンをグルーピングする情報処理装置の制御用のプログラムであって、異なる複数ｎの画像パターンそれぞれに対して特徴量を算出する特徴量算出ステップと、学習用動画像を構成する時間的連続性がある各フレームに対して前記複数ｎの画像パターンのうち、最も適合する前記画像パターンを特定する特定ステップと、前記複数ｎの画像パターンのうちの第１の画像パターンＸｉが特定されたフレームとの時間的距離が所定の閾値τ以内に位置するフレームに対して、前記複数ｎの画像パターンのうちの第２の画像パターンＸｊが特定された確率を示す共起確率Ｐijを演算する演算ステップと、演算された前記共起確率Ｐijを用いて前記複数ｎの画像パターンをグルーピングするグルーピングステップとを含む処理を情報処理装置のコンピュータに実行させる。

本発明の一側面においては、異なる複数ｎの画像パターンそれぞれに対して特徴量が算出され、学習用動画像を構成する時間的連続性がある各フレームに対して複数ｎの画像パターンのうち、最も適合する画像パターンが特定され、複数ｎの画像パターンのうちの第１の画像パターンＸｉが特定されたフレームとの時間的距離が所定の閾値τ以内に位置するフレームに対して、複数ｎの画像パターンのうちの第２の画像パターンＸｊが特定された確率を示す共起確率Ｐijが演算され、演算された共起確率Ｐijを用いて複数ｎの画像パターンがグルーピングされる。

本発明の一側面によれば、画像認識用のパターンを最適にグルーピングすることができる。また、本発明の一側面によれば、画像上の物体を高い精度で認識できる。

認識対象の物体を含む動画像の一例を示す図である。図１に対応する時間経過と相関値の関係を示す図である。不変特徴量空間を説明する図である。本発明の概要を説明する図である。アフィニティマトリクスを示す図である。アフィニティマトリクスを幾何的に表したグラフを示す図である。本発明を適用した画像認識装置の構成例を示すブロック図である。図７の不変特徴量学習部１１の詳細な構成例を示すブロック図である。パターン用画像の一例を示す図である。学習用画像の一例を示す図である。スペクトラルクラスタリングを説明するための図である。学習処理を説明するフローチャートである。コンピュータの構成例を示すブロック図である。

以下、発明を実施するための最良の形態（以下、実施の形態と称する）について、図面を参照しながら詳細に説明する。なお、説明は、以下の順序で行なう。
１．本発明の概要
２．実施の形態

＜１．本発明の概要＞
図４乃至図６は、動画像上に存在する物体を認識するためのパターンのグループを自動的に学習するための手法の概要を示している。

図４に示すように、動画像の連続したフレームの所定の位置から抽出した局所ブロックの画像が推移した場合、すなわち、縦方向に伸びた物体が画面内で右方向に移動した場合、各時刻の局所ブロックに対して、ｎ種類のパターンのいずれかが特定される。

時刻ｔのフレームの局所ブロックに対して特定されたパターンをＸｉとして、時刻ｔよりも時間（時間的距離）τだけ前の時刻ｔ−τから、時間τだけ後の時刻ｔ＋τまでの時間のフレームの局所ブロックに対してパターンＸｊが特定される共起確率Ｐij（以下、単に確率Ｐijと称する）について考える。時間τは任意の値である。この確率Ｐijは、パターンＸｉが特定された時刻ｔを中心とする時刻ｔ−τから時刻ｔ＋τまでの時間に、パターンＸｊが特定されたフレームの数をカウントすることにより取得することにする。したがって、確率Ｐijは０以上の値となる。

ただし、パターンＸｊが特定されたフレーム数を単にカウントするだけでなく、時刻ｔに時間的に近いほどカウントする値が大きくなるように、時刻ｔに対する時間的距離に応じた重み付け係数を乗算してからカウントするようにしてもよい。

図５は、このようにして得られる確率Ｐijを要素とするアフィニティマトリクス(Affinity Matrix)Ｗを示している。

このアフィニティマトリクスＷは、パターンの数がｎ種類であることからｎ×ｎの正方行列となる。また、アフィニティマトリクスＷの要素である確率Ｐijは、パターンＸｉとパターンＸｊの時間間隔に依存し、その時間方向には依存しないので、確率Ｐij＝確率Ｐjiとなる。したがって、アフィニティマトリクスＷの各要素の値は、対角成分を結ぶ線に対して線対称となる。

図６は、アフィニティマトリクスＷを幾何的なグラフG=(V,E)に表したものである。このグラフG=(V,E)における各ノードが各パターンに対応し、エッジの太さが確率に対応する。例えば、パターンＸｉに対応するノードとパターンＸｊに対応するノードを結ぶエッジの太さが確率Ｐijに相当する。

したがって、ｎ種類のパターンをグルーピングすることは、図６に示されたグラフG=(V,E)におけるノードをグルーピングすることと等価である。グラフG=(V,E)のノードのグルーピングには、既存の手法であるグラフカット(Graph Cut)、スペクトラルクラスタリング(Spectral Clustering)などを用いることが考えられる。

ノードのグルーピングにスペクトラルクラスタリングを適用できる条件は、エッジの重み（太さ）が正であること、確率Ｐij＝確率Ｐjiとなる対称性を有することである。図５に示されたアフィニティマトリクスは、上述したように、確率Ｐijは０以上の値であり、確率Ｐij＝確率Ｐjiであるのでスペクトラルクラスタリングを適用できることが確認できる。よって、以下に説明する実施の形態においては、ｎ種類のパターンをスペクトラルクラスタリングによりグルーピングするようにする。

＜２．実施の形態＞
［画像認識装置の構成例］
図７は、本発明の一実施の形態である画像認識装置の構成例を示している。この画像認識装置１０は、不変特徴量学習部１１、特徴プール１２、および認識部１３から構成される。

不変特徴量学習部１１は、入力されるパターン用画像（静止画像）を切り出すことによりｎ種類のパターンを作成するとともに、各パターンの特徴量を算出して特徴プール１２に登録する。また、不変特徴量学習部１１は、学習用画像（動画像）を用いて、特徴プール１２に登録されているｎ種類のパターンをグルーピングする。

特徴プール１２には、ｎ種類のパターンとその特徴量がグルーピングされて登録されている。ここで、同一のグループに分類されたパターン（の特徴量）が不変特徴量となる。

認識部１３は、入力される認識対象画像（動画像）のフレームを複数の局所ブロックに分割して各局所ブロックの特徴量を算出し、特徴プール１２に登録されているｎ種類のパターンの特徴量と比較して、各局所ブロックがどのパターンに最も一致するかを特定する。そして、その特定結果と各パターンのグルーピングの状況に基づき、認識対象画像上の物体を認識して認識結果を出力する。なお、認識部１３による認識処理は既存の任意の方法を適用することができる。また、認識部１３においては、静止画像を認識対象画像とすることができる。

図８は、図７の不変特徴量学習部１１の詳細な構成例を示している。不変特徴量学習部１１は、２値化部２１、フィルタリング部２２、局所ブロック設定部２３、局所特徴量算出部２４、覗き窓設定部２５、特徴量算出部２６、マッチング判定部２７、アフィリティマトリクス生成部２８、およびグルーピング部２９から構成される。

２値化部２１は、入力されるパターン用画像の画素を２値化してフィルタリング部２２に出力する。パターン用画像としては、例えば図９に示すように、縦横数十画素程度のシンプルな画像を用いればよい。

フィルタリング部２２は、例えばガウシアンスムージングフィルタなどを用いることにより、２値化されたパターン用画像にぼかし処理を行って局所ブロック設定部２３に出力する。

局所ブロック設定部２３は、２値化されてぼかされたパターン用画像上のランダムな位置に複数ｎの局所ブロック（例えば、４×４画素）を設定し、各局所ブロックの領域を抽出して局所特徴量算出部２４に出力する。局所特徴量算出部２４は、各局所ブロックから抽出された、２値化されてぼかされたパターン用画像の領域を１つのパターンとみなし、その特徴量を算出して、特徴プール１２に出力して登録させる。なお、この局所特徴量の算出方法については、既存の任意の算出方法を用いればよい。これにより、特徴プール１２には、ｎ種類のパターンに対応付けてその特徴量が登録されたことになる。

覗き窓設定部２５は、学習用画像（動画像）の各フレームの所定の固定位置に所定のサイズの覗き窓を設定し、各覗き窓の領域を抽出して特徴量算出部２６に出力する。学習用画像としては、例えば図１０に示すように、既知の任意の物体が被写体となっている画像を用いればよい。

特徴量算出部２６は、局所特徴量算出部２４と同様の特徴量算出方法により、各除き窓から抽出された、学習用画像の各フレームの領域の特徴量を算出してマッチング判定部２７に出力する。

マッチング判定部２７は、学習用画像の各フレームの覗き窓の領域の特徴量に基づき、特徴プール１２に登録されているｎ種類のパターンのうち、最も適合するものを特定してアフィニティマトリクス生成部２８に出力する。

アフィニティマトリクス生成部２８は、学習用画像の各フレームの覗き窓に対して特定されたパターンに基づき、確率Ｐijを要素とするｎ×ｎのアフィニティマトリクスＷを生成してグルーピング部２９に出力する。

グルーピング部２９は、入力されるアフィニティマトリクスＷに基づき、スペクトラルクラスタリングを用いてｎ種類のパターンをグルーピングし、その結果を特徴プール１２に通知する。これにより、特徴プール１２に登録されているｎ種類のパターンがグルーピングされたことになる。ここで、同一のグループに分類されたパターン（の特徴量）が不変特徴量となる。

ここで、グルーピング部２９によるスペクトラルクラスタリングを用いたｎ種類のパターンのグルーピングについて説明する。

図１１は、スペクトラルクラスタリングの概要を示している。まず、アフィニティマトリクスＷの要素である確率Ｐijを各行毎に積算して、その値の対角成分の値とすることによりｎ×ｎの行列Ｄを生成する。次に、アフィニティマトリクスＷから行列Ｄを減算してラプラシアン(Laplacian)Ｌ＝Ｗ−Ｄを算出する。次に、ラプラシアンＬの固有値および固有ベクトルを算出し、Ｍ≪ｎ個の固有ベクトルから写像を計算し、それをKmeans法によってクラスタリングすることにより、ｎ種類のパターンを複数のグループにグルーピングする。

なお、グルーピング部２９によるスペクトラルクラスタリングの手順は上述したものに限定されず、任意の手順にしたがって実行するようにしてもよい。また、グルーピング部２９においてスペクトラルクラスタリング以外の方法、例えば、Kmeams法により、ｎ種類のパターンをグルーピングするようにしてもよい。

［動作説明］
次に、不変特徴量学習部１１による学習処理について説明する。図１２は、当該学習処理を説明するフローチャートである。

ステップＳ１において、不変特徴量学習部１１は、パターン用画像を取得する。このパターン用画像は２値化部２１に入力される。

ステップＳ２において、２値化部２１は、パターン用画像の画素を２値化してフィルタリング部２２に出力する。フィルタリング部２２は、２値化されたパターン用画像にぼかし処理を行って局所ブロック設定部２３に出力する。局所ブロック設定部２３は、２値化されてぼかされたパターン用画像上のランダムな位置に複数ｎの局所ブロックを設定し、各局所ブロックの領域を抽出して局所特徴量算出部２４に出力する。

ステップＳ３において、局所特徴量算出部２４は、各局所ブロックから抽出された、２値化されてぼかされたパターン用画像の領域を１つのパターンとみなし、その特徴量を算出して、特徴プール１２に出力して登録させる。

ステップＳ４において、不変特徴量学習部１１は、学習用画像を取得する。この学習用画像は覗き窓設定部２５に入力される。

ステップＳ５において、覗き窓設定部２５は、学習用画像（動画像）の各フレームの所定の固定位置に所定のサイズの覗き窓を設定し、各覗き窓の領域を抽出して特徴量算出部２６に出力する。特徴量算出部２６は、各除き窓から抽出された、学習用画像の各フレームの領域の特徴量を算出してマッチング判定部２７に出力する。マッチング判定部２７は、学習用画像の各フレームの覗き窓の領域の特徴量に基づき、特徴プール１２に登録されているｎ種類のパターンのうち、最も適合するものを特定してアフィニティマトリクス生成部２８に出力する。

アフィニティマトリクス生成部２８は、学習用画像の各フレームの覗き窓に対して特定されたパターンに基づいてアフィニティマトリクスＷを生成してグルーピング部２９に出力する。具体的には、例えば、学習用画像の各フレームを順次、基準フレームに設定する。そして、基準フレームの覗き窓に対して特定されたパターンをパターンＸｉとし、基準フレームとの時間的距離が時間τ以内のフレームのうちでパターンＸｊが特定されたフレームの数をカウントして積算する確率Ｐijを演算する。このようにして得られた確率Ｐijを要素としてアフィニティマトリクスＷを生成する。

ステップＳ６において、グルーピング部２９は、入力されたアフィニティマトリクスＷに基づき、スペクトラルクラスタリングを用いて、ｎ種類のパターンをグルーピングし、そのグルーピング結果を特徴プール１２に通知する。ステップＳ７において、特徴プール１２は、登録されているｎ種類のパターンのグルーピング結果も登録する。同一のグループに分類されたパターン（の特徴量）が不変特徴量となる。以上で登録処理は終了される。

以上に説明した登録処理のステップＳ４において、より長時間の学習用画像を用いることにより、高い学習の効果が得られる、すなわち、適切なグルーピングが行われることが期待できる。

このようにして学習された特徴プール１２には、ｎ種類のパターンがグルーピングされて、すなわち、不変特徴量として登録されるので、これを用いて動画像上の物体を認識する際に用いることにより、動画像上の物体が複雑な動きをしたとしても、それを高い精度で識別することが可能となる。また、静止画像上の物体も高い精度で識別することが可能となる。

ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図１２は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

このコンピュータ１００において、CPU（Central Processing Unit）１０１，ROM（Read Only Memory）１０２，RAM（Random Access Memory）１０３は、バス１０４により相互に接続されている。

バス１０４には、さらに、入出力インタフェース１０５が接続されている。入出力インタフェース１０５には、キーボード、マウス、マイクロホンなどよりなる入力部１０６、ディスプレイ、スピーカなどよりなる出力部１０７、ハードディスクや不揮発性のメモリなどよりなる記憶部１０８、ネットワークインタフェースなどよりなる通信部１０９、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブルメディア１１１を駆動するドライブ１１０が接続されている。

以上のように構成されるコンピュータ１００では、CPU１０１が、例えば、記憶部１０８に記憶されているプログラムを、入出力インタフェース１０５およびバス１０４を介して、RAM１０３にロードして実行することにより、上述した一連の処理が行われる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであってもよいし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであってもよい。

また、プログラムは、１台のコンピュータにより処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであってもよい。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

１０画像認識装置，１１不変特徴量学習部，１２特徴プール，１３認識部，２１２値化部，２２フィルタリング処理部，２３局所ブロック設定部，２４局所特徴量算出部，２５除き窓設定部，２６特徴量算出部，２７マッチング判定部，２８アフィリティマトリクス生成部，２９グルーピング部，１００コンピュータ，１０１ CPU

Claims

異なる複数ｎの画像パターンそれぞれに対して特徴量を算出する特徴量算出手段と、
学習用動画像を構成する時間的連続性がある各フレームに対して前記複数ｎの画像パターンのうち、最も適合する前記画像パターンを特定する特定手段と、
前記複数ｎの画像パターンのうちの第１の画像パターンＸｉが特定されたフレームとの時間的距離が所定の閾値τ以内に位置するフレームに対して、前記複数ｎの画像パターンのうちの第２の画像パターンＸｊが特定された確率を示す共起確率Ｐijを演算する演算手段と、
演算された前記共起確率Ｐijを用いて前記複数ｎの画像パターンをグルーピングするグルーピング手段と
を含む情報処理装置。
前記演算手段は、前記学習用動画像の各フレームを順次、基準フレームに設定して、前記基準フレームに対して特定された前記画像パターンを前記第１の画像パターンＸｉとし、前記基準フレームとの時間的な前後の距離が所定の閾値τ以内に位置する複数のフレームのうちで前記第２の画像パターンＸｊが特定されたフレームの数をカウントし、カウントした値を、前記時基準フレームを設定し直す毎に積算することにより前記共起確率Ｐijを演算する
請求項１に記載の情報処理装置。
前記演算手段は、前記学習用動画像の各フレームを順次、基準フレームに設定して、前記基準フレームに対して特定された前記画像パターンを前記第１の画像パターンＸｉとし、前記基準フレームとの時間的な前後の距離が所定の閾値τ以内に位置する複数のフレームのうちで前記第２の画像パターンＸｊが特定されたフレームの数を前記基準フレームとの時間的距離に応じて重み付けしてカウントし、重み付けしてカウントした値を、前記時基準フレームを設定し直す毎に積算することにより前記共起確率Ｐijを演算する
請求項２に記載の情報処理装置。
前記グルーピング手段は、演算された前記共起確率Ｐijにスペクトラルクラスタリングを適用して前記複数ｎの画像パターンをグルーピングする
請求項２に記載の情報処理装置。
パターン用画像の異なる複数ｎの位置から所定のサイズの局所ブロックを抽出することにより前記複数のｎの画像パターンを生成する画像パターン生成手段を
さらに含む請求項２に記載の情報処理装置。
認識対象画像に対して、グルーピングされている前記複数ｎの画像パターンのうち、最も適合する前記画像パターンを特定し、特定結果に基づいて前記認識対象画像上の物体を認識する認識手段を
さらに含む請求項２に記載の情報処理装置。
同一の物体に対応する画像パターンをグルーピングする情報処理装置の情報処理方法において、
前記情報処理装置による、
異なる複数ｎの画像パターンそれぞれに対して特徴量を算出する特徴量算出ステップと、
学習用動画像を構成する時間的連続性がある各フレームに対して前記複数ｎの画像パターンのうち、最も適合する前記画像パターンを特定する特定ステップと、
前記複数ｎの画像パターンのうちの第１の画像パターンＸｉが特定されたフレームとの時間的距離が所定の閾値τ以内に位置するフレームに対して、前記複数ｎの画像パターンのうちの第２の画像パターンＸｊが特定された確率を示す共起確率Ｐijを演算する演算ステップと、
演算された前記共起確率Ｐijを用いて前記複数ｎの画像パターンをグルーピングするグルーピングステップと
を含む情報処理方法。
同一の物体に対応する画像パターンをグルーピングする情報処理装置の制御用のプログラムであって、
異なる複数ｎの画像パターンそれぞれに対して特徴量を算出する特徴量算出ステップと、
学習用動画像を構成する時間的連続性がある各フレームに対して前記複数ｎの画像パターンのうち、最も適合する前記画像パターンを特定する特定ステップと、
前記複数ｎの画像パターンのうちの第１の画像パターンＸｉが特定されたフレームとの時間的距離が所定の閾値τ以内に位置するフレームに対して、前記複数ｎの画像パターンのうちの第２の画像パターンＸｊが特定された確率を示す共起確率Ｐijを演算する演算ステップと、
演算された前記共起確率Ｐijを用いて前記複数ｎの画像パターンをグルーピングするグルーピングステップと
を含む処理を情報処理装置のコンピュータに実行させるプログラム。