JP2013501289A

JP2013501289A - 画像解析方法

Info

Publication number: JP2013501289A
Application number: JP2012523372A
Authority: JP
Inventors: パーベット、フランク; 淳人牧; ステンガー、ビョルン
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-08-06
Filing date: 2009-08-06
Publication date: 2013-01-10
Also published as: GB201203946D0; US9014422B2; US20120224744A1; WO2011015801A1; GB2485733A

Abstract

固有パターンと比較することにより移動特徴の動きを映像シーケンスにおいて認識する。映像シーケンスのフレーム対における空間的な一致点を識別することにより、映像シーケンスを通して起こり得る物体の軌跡を生成する。固有パターンを検出する際には、複数の起こり得る軌跡を分析する。この起こり得る軌跡を、分析に適するように選択してもよい。これは、分析がより簡単になる長い軌跡を選択することを含む。このことは、追跡している物体が一時的に別の物体の背後となる場合に、連続的な軌跡が生成されることを意味する。

Description

この発明は映像解析に関し、より具体的には、動きに基づく映像内の移動特徴の認識に関する。

映像内で人々のような移動特徴を認識するいくつかの応用がある。例えば、歩行者認識を自動車の自動ブレーキシステムの制御に利用することができる。

映像内の移動特徴を認識するためには、映像フレームを通して特徴の動きを判定しなければならず、この動きは、当該特徴について期待される動きと比較される。

特徴の動きまたは軌跡は、映像の複数フレームの各々における特徴の位置と見なすことができる。より長い軌跡を利用可能な場合、より正確な認識結果を得ることができる。オクルージョンによって、映像フレーム内のいくつかの特徴が不明瞭になる場合がある。これは、そのような特徴について返される軌跡の長さを制限することがある。フレーム間の特徴マッチングにおいてエラーが発生することもある。これについても、特徴の軌跡の長さを制限し得る。

特徴について期待される動きの特性を選択することには課題がある。正確な分類を可能にする動きの特性は、特徴の存在有無がはっきり区別される場合の特性である。

本発明は、上述の問題に対処することを目的とする。

本発明の態様によれば、映像内の移動特徴シーケンスを認識する方法が提供される。移動特徴は、映像シーケンス上の特徴的な動きのパターンを持つ。映像シーケンスは、第１のフレームおよび複数の次フレームを含む。

該方法は、映像シーケンスの各フレームに注目点を置くことを含む。注目点は、移動特徴に対応する可能性がある。第１のフレーム内の特徴について軌跡を構築するために、次フレームとそれに先行するフレームにおける注目点の間の対応が判定される。１つのフレームにおける所与の注目点について、対応する次フレームにおける２以上の注目点が用いられる場合がある。注目点の対応を用いることにより、第１のフレーム内の注目点の軌跡が構築される。フレーム間の注目点間に複数の対応が存在する可能性から、第１のフレーム内の注目点について２以上の起こり得る軌跡が検出され得る。

第１のフレーム内の注目点の複数の軌跡がひとたび構築されると、これらは特徴的な動きのパターンと比較される。この比較に基づいて、第１のフレーム内の特徴を認識することができる。

本方法は、フレーム間の注目点マッチングの柔軟性を許容する。複数の軌跡のうちのいくつかは、全フレームにわたって同じ物理的特徴を追跡しないかもしれない。しかしながら、他の軌跡と比べて、そのような軌跡が固有パターンを持つ可能性は低く、これは、固有パターンの比較が行われる際に除外される。このような柔軟性は、物体がオクルージョンによって不明瞭になる場合、当該物体が不明瞭となるフレームからでさえも軌跡を常に生成できることから有利に働く。また、フレーム対にまたがり物体の２以上の空間的な一致がある場合、これらはすべて複数の軌跡に含めてもよい。

第１のフレームは、映像シーケンスの開始あるいは終了のいずれかとすることができる。

本発明の実施形態によれば、映像シーケンスをフレームの重複対のシーケンスとみなすことにより、フレーム間で注目点のマッチングをする。各フレーム対において、この対の第２のフレーム内の１組の注目点の各々が、この対の第１のフレーム内の注目点の同じ特徴に一致する確率を計算する。

本発明の実施形態によれば、異なるフレームにおける２つの注目点が同じ特徴に一致する確率は、注目点間の空間距離あるいは注目点間のアピアランス類似性に基づく。

本発明の実施形態によれば、フレームにおいて注目点を表わすノードと、後続フレームにおいて同じ特徴に対応する注目点をつなぐエッジとを持つ非循環グラフを構築し、該グラフをトラバースすることにより、複数の軌跡が判定される。

本発明の実施形態によれば、非循環グラフをトラバースすることは、増補確率に基づいて、各ノードでエッジの確率的な選択を行なうことを含む。増補確率は、軌跡のトレース可能な深さに依存する係数を含むことができる。この係数は、指示的関係が存在するかどうかをより確実に判定しやすい長い軌跡に対して有利に働くのを可能にする。増補確率は、速度のような物理的特性の保存に基づいた係数を含んでもよい。これは、対象物に見込まれた特性を持っている軌跡に対して有利に働くことを可能にし、非物質的な軌跡を除外することを可能にする。

本発明の実施形態によれば、軌跡は、ランダム決定森を用いて固有パターンと比較される。

本発明の実施形態によれば、固有パターンは、複数の軌跡からの２つの軌跡の間の相関である。

本発明の実施形態によって、軌跡は、軌跡対の間に存在し得る相関に基づいて分析され、分類される。

固有の動きは、歩行の動きであってもよい。歩いている歩行者の二本の足の動きの間には、いくつかの相関がある。

本発明の実施形態によれば、軌跡対を構築する第１および第２の軌跡は、静的区間と動的区間を持つ。軌跡対を分類するのに用いられる軌跡対間の指示的関係は、第１の軌跡の静的区間は、第２の軌跡の動的区間と一致するということである。

この分析によれば、歩いている歩行者の足の軌跡が静的区間と動的区間を持つことから歩行者を検出することができる。歩行者の立っている方の足は地面に対して静止しており、したがって静的である。歩行者のもう一方の足は地面に対して移動する。したがって動的区間にあるとみなすことができる。歩行者が歩くと、一方の足が静的区間である場合、他方の足は動的区間であり、各足は静的区間と動的区間を交互に繰り返す。

本発明の実施形態によれば、第１および第２の軌跡の間の指示的関係は、軌跡対の動きの方向の間の相関である。

歩行者の足の動きは、その歩行者が歩いている方向とほぼ平行になることが見込まれる。これは、歩行者の両足に関連する可能性のある軌跡対を識別することに用いることができる。

本発明の実施形態によれば、第１および第２の軌跡の動きの方向の相関は、第１の軌跡が第２の軌跡と実質的に平行であることを含んでいる。

本発明の態様によれば、本発明に従う方法をコンピューターに実行させる命令を伝えるコンピューター可読媒体が提供される。

本発明の態様によれば、映像内の移動特徴を認識するための映像解析システムが提供される。

発明の実施形態を以下の図面を参照しながら説明する。
図１はデータ処理システムのブロック図である。図２は映像内の移動特徴を認識する方法のフローチャートである。図３はフレーム間で起こり得る軌跡のトレース図である。図４は映像シーケンスにおいて対象を追跡する方法を示すフローチャートである。図５は後のフレームの注目点との空間的な一致として分析されるフレームの注目点を示す図である。図６は特徴の確率的な軌跡を生成するのに用いられる非循環グラフを示す図である。図７は歩行者が歩く際の動きの固有パターンを複数の軌跡から識別する方法を示す図である。図８は軌跡が足に関連するものであるか否かをランダム森分類器を用いて分類する方法を示す図である。図８Ａは速度ベクトル対の例を示す図である。図９はランダム決定森を示す図である。図１０はランダム決定森からの決定木を示す図である。図１１は２つの軌跡の動きの方向の相関に基づく関数を計算する方法を示す図である。図１１Ａは軌跡およびその一次の方向ベクトルの例を示す図である。図１２は、２つの軌跡の動きの位相の時間的な相関に基づく関数を計算する方法を示すである。

図１は、映像内の移動特徴を認識するためのデータ処理システム１００を示している。データ処理システム１００は、プロセッサ１０２、メモリ１０４、入力モジュール１０８および出力モジュール１１０を含む。メモリ１０４は、映像内の移動特徴を認識するためのプログラム１０６を記憶する。プログラム１０６は、プロセッサ１０２上で実行することができる。入力モジュール１０８は、映像シーケンスにおける移動特徴を認識する分析のために該映像シーケンスの入力を受け取ることができ、また、出力モジュール１１０は、その分析の結果を出力することができる。入力モジュール１０８は、ビデオカメラまたはビデオレコーダーからの映像データを受信することができるデータ接続でもよい。入力モジュール１０８は、インターネットのようなネットワーク上の映像データを受信することができるネットワーク接続でもよい。データ処理システム１００は、従来のコンピューターでもよい。以下、プログラム１０６によって行なわれる方法を説明する。

図２は、映像内の移動特徴を認識する方法のフローチャートを示す。映像は、フレームのシーケンスから構成される。各々のフレームは、同時に１組の特徴を表現する。映像が再生される場合、映像内の特徴の動きは、該映像の連続フレーム上でのそれらの位置の変化に反映される。したがって、映像中の特徴の軌跡は、映像シーケンス上の各フレーム内の位置と見なすことが可能である。特徴の軌跡を、物体の見込まれる動きと比較することにより、物体に対応するものとして特徴を認識することができる。例えば、映像中に現れる、歩いている人の足は、固有の動きのパターンを持つ。足が地面に接している時、歩行者のその足は固定区間を持ち、足が地面に対して移動している時、その足は移動区間を持つ。また、歩行者の足の歩行の動きには相関性がある。一方の足が静止している時、他方の足は動いている。映像内の特徴の動きを、足の動きのような予期される固有のパターンと比較することによって、足のような特徴を映像において識別することができ、したがって、歩行者を識別することができる。

映像内の移動特徴を認識するには、映像のフレームについての特徴の軌跡が必要である。映像内の物体の軌跡を追跡するには、映像フレームにおいてその物体の位置を識別することが必要である。したがって、対処すべき２つの問題がある。物体の位置を各フレームにおいて識別しなければならない。また、追跡するフレームにおいて同じ物体を識別しなければならない。

方法のステップＳ１００は、映像シーケンスの各フレームに注目点を置くことを含んでいる。シーケンスの２以上のフレームで起こりうる一定の特徴を示す個々のフレームの空間的ピクセルパターンを検出する。例えば、第１ステップが、各フレームのコーナーを発見することを含んでもよい。

映像内の特徴の軌跡を検出するために、ステップＳ１０１において、直接先行するフレームにおける特徴に対応する注目点が判定される。

ステップＳ１０２では、シーケンスの第１のフレーム内の所与の注目点について、１組の起こり得る軌跡を生成する。注目点について起こり得る最も一般的な軌跡の組は、次フレームにおいて識別される注目点のうちのいずれかの次フレームにおける位置を含む。フレームの外部や、フレーム内の別の物体の背後、つまり当該フレームにおいて示されない位置に通じる軌跡とすることも可能である。

起こり得る軌跡の組は、フレーム対を考慮し、該フレーム対における空間的なマッチング(matching)注目点を識別することにより判定する。マッチング注目点の対は、マッチングスコアを計算することにより識別する。マッチングスコアについては、注目点位置の間の空間距離および注目点のアピアランスの類似性のような要因を考慮する。これは、２フレーム以内で似たような位置および／または類似のアピアランスを持つ注目点を識別することにより達成することができる。空間的なフレームのマッチング対から、フレームシーケンスを通して該マッチング対をトレースすることにより、起こり得る軌跡を構築する。

映像シーケンスの第１のフレーム内の物体について起こり得る軌跡の組は、第２の後続するフレーム内の多数の注目点を含んでもよい。起こり得る軌跡の組を、物体の軌跡が従うものと予期されるパターンに基づく制約を実行することによって絞り込む。これは、例えば物体の速度保存のような物理法則とすることができる。

起こり得る軌跡の数を絞り込んだ時点で、軌跡が更なる処理に必要な場合、起こりそうな軌跡の確率的な選択を行う。結果として生ずる軌跡は、例えばジェスチャ認識アルゴリズムにおける更なる処理において用いられる。確率的な選択が繰り返される場合、選択された軌跡は相違しうることに留意されたい。

次にステップＳ１０３内において、軌跡を固有の動きのパターンと比較する。

図３は、フレーム間の起こり得る軌跡のトレース図を示している。図３において一番上のフレームは最近のフレームであり、また、時間的に前のフレームは最近のフレームの下に示される。入力シーケンスの各フレームにおいて、いくつかの注目点が見つかる。隣のフレームの注目点との間であり得る対応はリンクによって示される。

図４は、映像シーケンス内の対象を追跡する方法を示すフローチャートである。例えば、映像シーケンスは、解像度１２８０×７２０ピクセルで６０フレーム／秒の３５０フレームとする。図４に示す方法では、映像シーケンスのフレームにおけるコーナー検出により特徴を追跡する。図１に示されるデータ処理システム１００を参照しながら、この方法について説明する。ステップＳ１において、映像シーケンスの各フレームから注目点を抽出する。各フレームのコーナーを検出するために、ハリス・コーナー検出器が用いられる。各フレームにおける注目点の位置は、メモリ１０４のセクションに記憶される。ハリス・コーナー検出器は、画像の領域を考慮し、これをわずかにシフトし、その領域を当該画像の重複領域と比較することにより、画像内のコーナーの位置を検出する。ハリス・コーナー検出器は、プログラム１０６の一部として実装される。すべての方向で重複領域の変化があるところにコーナーは位置する。ハリス・コーナー検出器については、「C. Harris and M. Stephens, 'A Combined Corner and Edge Detector', Proc. Forth Alvey Vision Conference, pages 147-151, 1988」に記載されている。

時点ｔのフレームにおける注目点をｐ_ｉ（ｔ）と表す。ここで、ｉ＝１，．．．，ｎは、注目点のインデックスである。フレームｔにおける注目点ｐ_ｉ（ｔ）の二次元位置はｘ_ｉ（ｔ）である。

ステップＳ２では、諸フレームの注目点間の一致（match)を判定する。一フレームの各注目点について、空間的な祖先である前フレームの注目点が識別される。この識別は、現フレームで検討しているコーナーの一定範囲内に存在する前フレームの注目点を分析することにより行う。

図５は、時間ｔのフレームにおける注目点ｐ_ｉ（ｔ）の空間的な一致であるとして分析される時間ｔ−１のフレームにおける注目点ｐ_ｊ（ｔ−１）を示す。フレームｔにおける注目点ｐ_ｉ（ｔ）の位置ｘ_ｊ（ｔ）の範囲Ｒ内において位置ｘ_ｊ（ｔ−１）を持つ注目点ｐ_ｊ（ｔ−１）を分析する。範囲Ｒの外側の位置ｘ’_ｊ（ｔ−１）を持つ注目点ｐ’_ｊ（ｔ−１）は、注目点ｐ_ｉ（ｔ）との空間的な一致とされることはない。

各注目点対について、時間的なマッチングスコアを計算する。時間的なマッチングスコアは、前フレームにおける注目点と現フレームにおける注目点とを一致させる。

時間的なマッチングスコアは２つの注目点のアピアランス類似性およびそれらの空間距離に基づく。

時点ｔのフレームにおける注目点ｐ_ｉ（ｔ）と、時点ｔ−１の前フレームにおける注目点ｐ_ｊ（ｔ−１）の間の時間的なマッチングスコアをＰ_ｉｊ（ｐ_ｉ（ｔ），ｐ_ｊ（ｔ−１））と表す。これは、次式によって計算することができる。

ここで、Ｓ_ｉｊは、注目点ｐ_ｉ（ｔ）と注目点ｐ_ｊ（ｔ−１）の間のアピアランス類似である。アピアランス類似は、それぞれのフレーム中の注目点周囲の局所画像領域から計算される。

これは、局所画像領域間の絶対差の正規化平均の和として計算される。Ｄ_ｉｊは、注目点間の空間距離であり、次式から計算される。

空間的な一致は、時間的なマッチングスコアＰ_ｉｊに基づいて識別される。２進値Ｅ_ｉｊ（ｔ）は、時点ｔのフレームにおける注目点ｐ_ｉ（ｔ）と時点ｔ−１の前フレームにおける注目点ｐ_ｊ（ｔ−１）の間の空間的な一致の各々に関連付けられる。空間的な一致は、現フレームにおける所与のコーナーの時間的なマッチングスコアの最高値として選択してもよい。あるいは、最大値のしきい値範囲内で時間的なマッチングスコアを持つ一致をすべて空間的な一致として選択してもよい。したがって、

のいずれかについて、Ｅ_ｉｊ（ｔ）＝１である。ここで、ｅはしきい値である。

処理を逆に考えても空間的な一致は判定される。前フレームの各注目点について、時間的なマッチングスコアが現フレームの注目点について計算される。

ステップＳ３では、２つのフレーム間の一致総数を制限する。これは、一致数を単に一定に維持すればよい。フレーム対間の一致数が一定となるように、しきい値ｅは動的に調整してもよい。フレーム間の一致総数４ｎは、一致の固定数として適切な定数であることが分かった。これらは最も高い時間的なマッチングスコアを持ったものとして選択されている。これにより、コーナーの最大マッチングスコアが低い値である場合に、一致がないコーナーが結果として生じるかも知れない。

ステップＳ３の後に、シーケンスの各フレームにおけるいくつかの注目点と、フレーム間の注目点のアクティブな一致の組を入手することができ、確率的な軌跡抽出のためのグラフを構築することができる。

このグラフをステップＳ４において構築する。各フレームｔに対して、１組の注目点ｐ_ｉ（ｔ）がある。また、時間的に隣接するフレーム間において、時点ｔのフレームと時点ｔ−１のフレームの注目点との間に１組の一致Ｅ_ｉｊ（ｔ）がある。これらはグラフＧ_ｉ（Ｎ，Ｅ）を構築するのに用いられる。グラフＮのノードは、前フレームにおいて一致した注目点を表わし、エッジ（Ｅ）は、注目点間の一致を表わす。このグラフは、映像シーケンスの最終フレームに注目点の各々のルートノードを定めることによって構築される。当該注目点から前フレームにおける注目点へのエッジがアクティブな一致のそれぞれについて加えられる。ノードは、前フレームで一致した注目点について定められる。この処理を、当該シーケンスの最終フレームに先行するフレームからのアクティブな一致について繰り返し、以下の図６に示すような非循環グラフが生成される。これは、確率的な軌跡を生成するのに用いることができる。このグラフは、Ｔ個のフレームについて構築される。各エッジＥ_ｉｊ（ｔ）には、その重み係数としてｐ_ｉ（ｔ）が与えられる。

エッジのトレース可能な深さ、すなわち、グラフにおいて特徴点ｐ_ｉ（ｔ）の空間的な祖先を持つフレームの数をｄ［Ｅ_ｉｊ（ｔ）］と表記する。グラフＧ_ｉ（Ｎ，Ｅ）を表わすデータはメモリ１０４に記憶される。データは、Ｎ個のノードの各々のｘ_ｉ（ｔ）に対する値、各エッジＥ_ｉｊ（ｔ）に対するＰ_ｉｊ（ｔ）およびｄ［Ｅ_ｉｊ（ｔ）］の値として記憶される。

ステップＳ５において、この非周期グラフをトラバースすることにより軌跡を生成する。トラバースはいずれかのルートノードから開始する。また、エッジの確率的な選択を行う。この処理を各ノードで繰り返す。確率的な選択は、増補確率に基づいて行う。この増補確率は、マッチングスコアから計算され、トレース可能な深さおよび速度保存係数を考慮するための係数を含んでいる。

増補確率、あるいはサンプリング確率Ｐ’_ｉｊ（ｐ_ｉ（ｔ），ｐ_ｊ（ｔ−１））は、次式から与えられる。

ここで、γとδは正の重み係数である。また、Ｖ_ｉｊは次式から与えられる速度保存係数である。

上記速度保存係数の式は、問題のフレームｘ_ｉ（Ｔ）における注目点の位置、前フレームｘ_ｊ（Ｔ−１）内の軌跡における注目点の位置、および軌跡Ｘ_ｈ（Ｔ＋１）内で次の点と見なされている注目点の位置を考慮に入れる。

トレース可能な深さに依存する係数を含んだ増補確率を使用することは、長い軌跡を支持することを意味する。長い軌跡は、短い軌跡より利用価値が高い場合が多い。また速度保存係数は、検討中のフレームに至るまで軌跡内の物体の速度を保存する特徴点間のリンクを支持することを意味する。これにより、非循環グラフをトラバースする場合、物理的特徴の動きに対応する可能性がありそうな滑らかな軌跡を確実にたどることができる。

非循環グラフは、最終フレームの特徴点に対応する物体について複数の確率的な軌跡を生成するために複数回にわたりトラバースすることができる。生成される軌跡は相違するものとなり、このため少なくともいくつかのものは正確ではない。しかしながら、連続するフレームの対応に関して不確実性がある場合であっても可能性のある軌跡を許容することにより、シーケンスの一部においてオクルージョンにより物体が不明瞭になる場合であっても比較的長いフレームシーケンスの軌跡を得ることができる。

一の物体についての複数の軌跡は、例えば、特定の固有の動きを持つ映像シーケンス内の特徴を検出するパターン認識アルゴリズムに有用である。この場合、シーケンスの最終フレームにおける各注目点について、複数の起こり得る軌跡を検査し、特定の固有の動きを持つものについてすべての起こり得る軌跡を検査すると効果的であるかもしれない。非循環グラフを用いて複数の起こり得る軌跡を生成することは、上記の応用に特に適している。

非循環グラフのトラバースの後、確率的な軌跡Ｘ_ｉ（ｔ）＝［ｘ（ｔ），ｘ（ｔ−１），．．．ｘ（ｔ−Ｔ＋１）]をメモリ１０４に記憶する。これは、この軌跡に属する点のフレーム内の位置の集合を表わす。

図６は、上述した方法を用いて特徴の確率的な軌跡を生成するのに用いられる非循環グラフを示している。最近のフレームにおける注目点は、グラフの一番上のノードとして示される。これら注目点は、１組のエッジによって前フレームにおける注目点に連結される。時間的なマッチングスコアが、時間的に隣接するフレームにおいて注目点を表わすノードをつなぐ各エッジに関連付けられる。

注目点のグラフから軌跡を抽出するために、各ノードにおいて、そのノードを前のフレームにおいて注目点を表わすノードに接続しているエッジのうちの１つが選択される。

歩行者の歩行の動きを識別するために、軌跡を固有のパターンと比較するステップは、空間的に歩行者に一方の足に関する特徴を識別すること、および、歩行者の２本の足に対応する動きに相関を持つ特徴の対を検出することを含んでいる。これについて図７を参照して述べる。

図７は、複数の軌跡から、歩行者の歩行の動きの固有のパターンを識別する方法を示している。

ステップＳ６０１において、候補軌跡を識別する。軌跡が空間的に足に関係するかどうか判断するために、およそ１つの歩行周期の軌跡の動きが分析される。軌跡が足の位置に対応する注目点に関連している場合、歩行周期内で移動区間および固定区間を持つことが期待される。したがって、ステップＳ６０１において、一の歩行周期内で動的区間および固定区間を持つものが候補軌跡として識別される。

候補軌跡が識別されると、関連する候補軌跡対をステップＳ６０２において検出する。歩いている歩行者については、二本の足の動きは相関することが期待される。この相関は、時間的かつ空間的である。相関の時間的な態様は、歩いている歩行者の一方の足が固定区間にある場合、他方の足は動的区間にあることが期待されるということである。二本の足の空間的な位置もまた相関を持つことが予期される。これらの相関に加えて、歩行者の足の動きの方向についても相関があることが期待される。歩いている人の二本の足の軌跡は、歩行者が歩いている方向においてほぼ平行であることが期待される。上記の相関を持っている候補軌跡対を識別することによって、映像シーケンスにおいて歩行者の足に関係する注目点の動きから歩行者が識別される。

足に関連するものであるか足に関連するものでないかによって軌跡を分類し、ステップＳ６０１において候補軌跡を識別するには、ランダム森分類器を用いることができる。

足に関連するものであるか否か軌跡を分類するのにランダム森分類器を用いる方法を図８に示す。ステップＳ７０１において、軌跡を標準形に変換する。軌跡を標準形に変換することは、軌跡の角度のような係数、軌跡に関係しうる歩行者の速度、歩行者のステップの幅および相を説明することを意味する。標準形への変換は、カメラの動きのような線運動の削減、およびステップ振幅のような軌跡の正規化態様を含んでもよい。

軌跡の標準形は、次のように表記される。

ステップＳ７０２において、特徴ベクトルｖ_０およびｖ_１を軌跡の標準形から生成する。これらの特徴ベクトルは、４つの時点ｔ_０，ｔ_１，ｔ_２およびｔ_３を任意に選択し、それらの位置で軌跡を５つのセクションにカットすることで生成される。特徴ベクトルは、次式から与えられる。

図８Ａは、速度ベクトル対の例を示している。特徴を計算するために、多数の速度ベクトル対がサンプリングされる。

ステップＳ７０３において、特徴ｆ_ｓおよびｆ_ｄを特徴ベクトルおよびランダムに選択した変数から計算する。この特徴は、次のように距離および２つのベクトルｖ_０およびｖ_１の内積として計算される。

ここで、ａ_０、ａ_１、ｂ_０およびｂ_１は０と１の間の値をとる任意の係数である。

カット点ｔ_０、ｔ_１、ｔ_２、ｔ_３および係数ａ_０、ａ_１、ｂ_０、ｂ_１について異なる値を用いることにより、ｆ_ｓとｆ_ｄの多数のバリエーションを作ることができる。

ステップＳ７０４において、ランダム決定森を用いることにより、足に関連するものであるか足に関連しないものであるかに軌跡を分類する。

図９は、ランダム決定森８００を示している。ランダム決定森８００は、８本の決定木８１０、８２０、８３０、８４０、８５０、８６０、８７０、８８０を持つ。各軌跡は、全部で８本の木を用いて分類される。木の各分岐点においてパラメーターｔ_０、ｔ_１、ｔ_２、ｔ_３、ａ_０、ａ_１、ｂ_０およびｂ_１を用いてｆ_ｓとｆ_ｄの関数が計算される。この関数の値に基づいて、左の枝と右の枝のどちらをたどるかの判定がなされる。左と右の枝のどちらを選ぶかの選択に用いられるしきい値θの値は、足／非足の分散の情報増加が最大となるように選定される。

図１０は、図９に示した決定森８００から取り出した決定木８１０を示している。決定木９０２の各ノードにおいて、当該木をトラバースする場合、軌跡が当該ノードに達する条件つき確率を２本の縦線の高さで示す。決定木８１０のルートノード９０２において、この点の特徴は足であるか否かの情報がないことから、足の特徴９０４に関する軌跡の縦線と、非足の特徴９０６に関する軌跡の縦線は等しい。この木のトラバースの際に、ｆ_ｓとｆ_ｄの関数値が計算され、問題の軌跡についてのこれら値に基づいて、左の枝のノード９１０または右の枝のノード９０８のいずれかに到達する。トラバースは継続し、各分岐点で異なる関数の値が計算される。葉ノード（例えば９２０）に到達すると、木８１０からの条件つき確率は、決定森における他の木からの条件つき確率と結合され、この確率に基づいて、軌跡は、足あるいは非足のどちらかに分類される。

ランダム森は、各分岐点について、パラメーターｔ_０、ｔ_１、ｔ_２、ｔ_３、ａ_０、ａ_１、ｂ_０およびｂ_１、関数ｆ_ｓおよびｆ_ｄ、各分岐点のしきい値θに関する一連の値として記憶される。これらの値はメモリ１０４に記憶する。これらは、手動で映像シーケンスの特徴に注釈を付与し、関数ｆ_ｓおよびｆ_ｄの値を計算し、最大の情報利得を与えるしきい値θに対する値を選択することにより、プログラム１０６の実行に先立って計算される。

足の候補軌跡が識別されると、これらを分析し、同一歩行者について相関する足の組を検出する。この分析についても、上述と同様の方法でランダム決定森を用いて行う。ランダム決定森において木をトラバースする場合に判定を下すのに用いられる関数は、検討中の２つの軌跡の動きの方向の相関、および軌跡における動きの移動区間と固定区間の相関に基づいて計算される。

図１１は、２つの軌跡Ｘ_ｉ（ｔ）およびＸ_ｕ（ｔ）の動きの方向の相関に基づく関数を計算する方法を示している。ステップＳ１００１において、各軌跡の動きの方向を検出する。軌跡Ｘ_ｉ（ｔ）の動きの方向は、位置ｘ_ｉ（Ｔ）の集合Ｔ＝ｔ．．．ｔ−Ｔ＋１の分散行列を計算し、分散行列の最大固有値に対応する固有ベクトルξ_ｉを計算することにより検出される。したがって、ξ_ｉは、Ｘ_ｉ（ｔ）の一次の方向を表わす。第２の軌跡Ｘ_ｕ（ｔ）の一次の方向ξ_ｕも同様に計算される。

図１１Ａは、軌跡Ｘ_ｉ（ｔ）および一次の方向ベクトルξ_ｉの例を示している。

ステップＳ１００２において、２つの軌跡に関連している時点ｔのフレームにおける注目点の位置ｘ_ｉ（ｔ）およびＸ_ｕ（ｔ）に基づいて、該２つの軌跡について歩行方向のベクトルｘ_ｉｕ（ｔ）を計算する。

ステップＳ１００３において、互いの動きの方向の内積および歩行の方向によりコンシステンシーｃを計算する。

コンシステンシーは、歩行者の足の移動方向がほぼ平行になること、および、これらの方向は歩行の歩行方向とほぼ平行になることが見込まれるという事実を利用するものである。

ステップＳ１００４において、コンシステンシーに基づいた関数ｆ_０およびランダムベクトルΦを計算する。

図１２は、検討中の２つの軌跡Ｘ_ｉ（ｔ）およびＸ_ｕ（ｔ）の動きの位相の時間的な相関に基づいて関数を計算する方法を示している。

ステップＳ１１０１において、軌跡の速度ベクトルＹ_ｉ（ｔ）を計算する。

ここで、Ｔ＝ｔ，．．．ｔ−Ｔ＋２について、ｙ（Ｔ）＝ｘ（Ｔ）−ｘ（Ｔ−１）である。

ステップＳ１１０２において、修正した速度ベクトルを計算する。次式すなわち

を用いることにより、一定のカメラモーションを相殺することができる。修正された速度ベクトルは次式を用いて生成される。

ステップＳ１１０３において、修正された速度ベクトルを固定のカット点でｌ個の部分にカットする。そしてステップＳ１１０４において、カットされ修正された速度ベクトルの内積に基づくベクトルを計算する。

最後にステップＳ１１０５において、このベクトルおよびランダムベクトルに基づいた関数を計算する。

両足に関連するものであるか否かに軌跡対を分類するために、別のランダム決定森が用いられる。決定森の結果として、同じ両足に関連する多数の軌跡対が生ずるかも知れない。主要クラスターを検出するためにmean-shiftアルゴリズムが用いられ、最も起こりそうなクラスターの平均が最終結果になる。

Claims

映像シーケンス内の移動特徴を認識する方法であって、前記移動特徴は前記映像シーケンス上の固有パターンを持ち、前記映像シーケンスは第１のフレームおよび複数の次フレームを含み、該方法は、
前記映像シーケンスの各フレームにおける注目点を識別すること；
前記第１のフレーム以外の各フレームについて、前記映像シーケンスの前フレームにおける注目点に対応する少なくとも１つの注目点を判定すること；
前記第１のフレーム内の注目点について複数の軌跡を構築することであって、各軌跡は前記映像シーケンスにおける少なくとも１つの前記次フレームおよび前記第１のフレームにおける位置を含み、前記第１のフレーム内の前記位置は前記第１のフレーム内の前記注目点の位置であり、前記少なくとも１つの次フレームは、前記シーケンスの次フレームの各々を連続的に検討することにより判定され、少なくとも１つの軌跡は前フレームに伸び、その軌跡において、前フレームにおいて該軌跡に含まれる注目点に対応する注目点の位置を含むこと；および
前記複数の軌跡を前記固有パターンと比較すること、を含む方法。
前記第１のフレーム以外の各フレームについて、前記映像シーケンスの前フレームにおける注目点に対応する少なくとも１つの注目点を判定することは、
前記映像シーケンスをフレームの重複対のシーケンスとみなすこと、ここで、各フレーム対は第１のフレームおよび第２のフレームを持ち、前記フレーム対は、前記第２のフレームが前記シーケンス内の次のフレーム対の第１のフレームとなるように重複し；
各フレーム対について、フレーム対の前記第２のフレームにおける複数の注目点の各々が、前記フレーム対内の第１のフレーム内の注目点と同じ特徴に対応する確率を計算すること；および
各フレーム対について、前記映像シーケンスの前フレームにおける注目点に対応する少なくとも１つの注目点を、前記対の前記確率に基いて選択すること、を含む請求項１の方法。
フレーム対の前記第２のフレーム内の複数の注目点の各々が前記フレーム対における前記第１のフレーム内の注目点と同じ特徴に一致する前記確率は、前記第２のフレーム内の注目点と前記第１のフレーム内の注目点の間の空間距離および／または類似性に基づく、請求項２の方法。
前記第１のフレーム内の注目点について複数の軌跡を構築することは、フレームにおいて注目点を表わすノードと、後続フレームにおいて同じ特徴に対応する注目点をつなぐエッジとを持つ非循環グラフを構築し、該グラフをトラバースすることにより複数の軌跡を判定すること、を含む上記請求項のいずれかの方法。
前記非循環グラフをトラバースすることは、増補確率に基づいて、各ノードでエッジの確率的な選択を行なうことを含む請求項４の方法。
前記増補確率は、軌跡のトレース可能な深さに依存する係数を含む請求項５の方法。
前記増補確率は、物理量保存に基づいた係数を含む請求項５または６の方法。
前記物理量は速度である請求項７の方法。
前記複数の軌跡を前記固有パターンと比較することは、ランダム決定森を用いることを含む上記請求項のいずれかの方法。
前記固有パターンは、前記複数の軌跡からの２つの軌跡の間の相関を含む上記請求項のいずれかの方法。
前記相関は、前記２つの軌跡のいずれかの軌跡の静的区間と、該２つの軌跡の別の軌跡の動的区間の間の対応である請求項１０の方法。
前記相関は、前記２つの軌跡の方向における対応を含む請求項１０または１１の方法。
前記相関はランダム決定森を用いて判定される請求項１０〜１２のいずれかの方法。
コンピューター上で実行されたときに、上記のいずれかの請求項に従う方法を該コンピューターに行なわせる計算機実行可能命令を伝えるコンピューター可読媒体。
第１のフレームおよび複数の次フレームを含む映像シーケンスを受け取る入力モジュール；
記憶モジュール；および
前記映像シーケンスの各フレームにおける注目点を識別し、前記注目点を前記記憶モジュールに記憶し、前記第１のフレーム以外の各フレームについて、前記映像シーケンスの前フレームにおける注目点に対応する少なくとも１つの注目点を決定し、前記第１のフレーム内の注目点について複数の軌跡を構築し、各軌跡は前記映像シーケンスの前記第１のフレームおよび前記次フレームの少なくともいずれかにおける位置を含んでおり、前記第１のフレーム内の前記位置は前記第１のフレーム内の前記注目点の位置であり、前記少なくとも１つの次フレームにおける前記位置は前記のシーケンスの各次フレームを連続的に検討することにより判定され、該位置において少なくとも１つの軌跡が前フレームに延び、前記少なくとも１つの次フレームにおける前記位置は当該軌跡に含まれる前フレーム内の注目点に対応する、当該軌跡における注目点の位置を含んでおり、
前記複数の軌跡を移動特徴の固有パターンと比較するプロセッサを具備する映像解析システム。
前記フレームにおいて前記注目点を表わすノード、および、各フレームについて前記少なくとも１つの注目点と前記前フレーム内の対応する前記注目点とを結ぶ少なくとも１つのエッジを含む非循環グラフを記憶するためのストレージをさらに具備し、前記プロセッサは、前記非循環グラフをトラバースして前記第１のフレーム内の前記注目点について前記複数の軌跡を構築する請求項１５の映像解析システム。
前記固有パターンは、前記複数の軌跡からの２つの軌跡の間の相関を含む請求項１５または１６の映像解析システム。
前記相関は、前記２つの軌跡におけるいずれかの軌跡の静的区間と、該２つの軌跡の別の軌跡の動的区間の間の対応である請求項１７の映像解析システム。
前記プロセッサは、前記第１のフレーム以外の各フレームについて、前記映像シーケンスの前フレームにおける注目点に対応する少なくとも１つの注目点を、前記少なくとも１つの注目点と前記前フレームにおける注目点の間の空間距離および／またはアピアランス類似性を計算することにより計算する請求項１６〜１８のうちのいずれかの映像解析システム。
前記記憶モジュールは、ランダム森分類器をさらに記憶し、前記複数の軌跡を前記固有パターンと比較するために前記ランダム森分類器を用いる請求項１６〜１９のいずれかの映像解析システム。