JP4682365B2

JP4682365B2 - ３次元データからの特徴抽出方法および装置

Info

Publication number: JP4682365B2
Application number: JP2007287045A
Authority: JP
Inventors: 展之大津; 匠小林
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2007-11-05
Filing date: 2007-11-05
Publication date: 2011-05-11
Anticipated expiration: 2023-09-12
Also published as: JP2008097624A

Description

本発明は、動画像における動作の認識、および３次元形状認識に関わる技術に関するものである。

画像データから特定の図形等を検出し認識したり、登録されている画像との照合のための各種の技術が提案されている。発明者らは下記に公報番号を示すように、２次元画像に対して、幾つかの望ましい条件から非常に汎用的な高次自己相関特徴に基づく学習適応型画像認識・計測方式の発明を行った。
特許第２９８２８１４号公報

動画像は２次元（静止）画像が時間に沿って並んだ３次元（立体）の数値データである。これらの動画像における動作の認識の分野では、新たなニーズが高まりつつあるが、文字など２次元の静止画像の認識に比べると、幾つかのヒューリスティックな（思いつき）手法の提案を除き、殆ど基本的かつ汎用的な体系立った特徴抽出方式が存在しない。従来の動画像からの最も基本的な特徴抽出手法とされているものにオプティカルフローがあるが、それが寄って立つ前提条件が実際には厳しく、しかも微分に基づくために実際のノイズに弱いなど、実応用につながっていない。

本発明は、動画像認識において今後ますますニーズの高くなるコンピュータ・ビジョン（人工視覚）に広く使える基本的かつ汎用的な特徴抽出方式であり、高次局所自己相関特徴抽出方式を３次元に拡張した立体高次局所自己相関特徴抽出方式であることを最も主要な特徴とする。そして、この立体高次局所自己相関特徴抽出方式と多変量解析などの統計的な情報統合手法を組み合わせることにより、適応学習型の汎用動画像認識方式が得られる。また同手法は、３次元形状認識にもそのまま用いることができる。

立体高次局所自己相関特徴抽出方式によって抽出される特徴値は、対象の立体における場所や時間に依らない位置不変な値である（位置不変性）ので、対象を画像から切り出す必要がない。また、立体内に複数個の対象がある場合、全体の特徴値はそれぞれの個別の特徴値の和になる性質を持つ（加法性）。これらの性質は、以後の認識にとって扱い易く好ましい性質である。さらに、微分でなく積分（累積）に基づくためにノイズに頑健である。また、特徴抽出のための計算量が少なく、実時間処理が可能である。

発明者がこの方式を実際の動画像認識に対して実験した結果、本発明の動画像からの動作の認識結果は非常に良好であり、画像認識、計測、人工視覚、ロボット視覚、コンピュータ・ヒューマン・インタフェース分野全般、さらにはビデオサーベイランス、監視システム、警備システムなどセキュリティに関わる応用分野など、広く様々な課題に応用できるという利点がある。

動画像データの認識や計測は、対象の３次元データ内における場所に寄らないことが望ましく、従って抽出される特徴データは位置不変であることが望ましい。また、３次元データ内に複数個の対象がある場合、全体の特徴値はそれぞれの個別の特徴値の和になると以後の認識にとって扱い易い。さらに、特徴抽出としては計算量が少なく実時間処理が可能であることが望ましい。

これらの要請条件を満たす基本的で汎用的な特徴抽出方式として、２次元の場合の高次局所自己相関特徴抽出方式を３次元に拡張した立体高次局所自己相関特徴抽出方式を用いる。そして、この特徴抽出方式と多変量解析などの統計的な情報統合手法を組み合わせることにより、適応学習型の汎用動画像（動作）認識方式が得られる。

図１は、本発明による動作認識処理の内容を示すフローチャートである。なお、この処理は、デジタルビデオカメラやその他の動画像を取り込むためのインターフェイス回路を備えたパソコンなどの周知の任意のコンピュータシステムにおいてプログラムを作成し、インストールして起動することにより実行される。動画像データは例えばビデオカメラから実時間で入力されてもよいし、一旦ファイルに保存されてから３次元データとして読み込んでもよい。従って、システムのハードウェア構成については説明を省略する。

Ｓ１０においては、動画像（あるいは３次元画像）データ等の３次元データを読み込む。Ｓ１１においては、入力動画データに対して「動き」の情報を検出し、背景など静止しているものを除去する目的で差分データを生成する。差分の取り方としては、隣接するフレーム間の同じ位置の画素の輝度（カラー画像の場合は色）の変化を抽出するフレーム間差分またはフレーム内における輝度の変化部分を抽出して得られるエッジのフレーム間差分、あるいは両方を採用可能である。

Ｓ１２においては、差分値から「動き」に無関係な輝度値や色情報、ノイズを除去し、動きあり（値１）動きなし（値０）の２値情報にするために、自動閾値選定による２値化を行う。輝度あるいはエッジの差分で動きのある画素が得られるが、差分の値は輝度の差であり、照明条件や色などで値が異なってくるため、動きの情報だけではない。２値化の目的は、ある閾値を設けて、これより差分値が小さいとノイズとみなし、値を０とし、動きなしと判断する。また、閾値より差分値が大きいと値を１とし、動きありと見なす（判断する）ことにある。これによって、ノイズや色や明るさの違いに頑健にいわゆる「動き」情報を得ることができる。カラー画像の場合も、差分値として色ベクトル(R,G,B)差分値（距離）をとれば、濃淡画像と同様に扱うことができる。
２値化の方法としては、一定閾値、判別最小二乗自動閾値法（大津方式：画像内のピクセル値のヒストグラムを作成し、２群が統計的にもっとも分離される閾値を自動的に選定する）、閾値０及びノイズ処理方式（濃淡画像において差が０以外を全て動き有り＝１としてまず２値化を行い、その２値画像のノイズを除去するために２値画像に対して収縮処理を行う方法）を採用可能である。図４は、２値化差分処理結果の画像を示す説明図である。図４左は入力された濃淡画像であり、右がフレーム間差分を取り、２値化した画像である。以上の前処理により入力動画データは画素値に「動いた（１）」「動かない（０）」の論理値をもつフレームの列となる。

図１に戻って、Ｓ１３においては、詳細は後述するが、立体高次局所自己相関特徴抽出処理（２５１次元特徴データ生成）を行う。自己相関関数の高次への拡張が高次自己相関関数である。Ｎ次自己相関関数は、３次元データをｆ（ｒ）（但しｒ＝（ｘ，ｙ，ｚ））とすると、次の式１となる。

ｘ_N(a₁,a₂,…,a_N)=∫f(r)f(r+a₁)…f(r+a_N)dr ……（式１）
ただし、０次は３次元データの総和、x₀(0)=∫f(r)drである。

ここで(a₁,a₂,…,a_N)は参照点（注目画素）からみた変位方向である。変位方向、次数のとり方により高次自己相関関数は無数に考えられるが、これを局所領域に限定したものが高次局所自己相関関数である。立体高次局所自己相関特徴では相関を取る範囲を注目画素から所定の距離にある画素の範囲とし、例えば変位方向を参照点を中心とする３×３×３画素の局所領域内、即ち参照点の２６近傍に限定している。特徴量の計算は１組の変位方向に対して式１の積分値が１つの特徴量になる。従って変位方向の組み合わせ（＝マスクパターン）の数だけ特徴量が生成される。

特徴量の数、つまり特徴ベクトルの次元はマスクパターンの種類に相当する。２値画像の場合、画素値１を何回乗算しても１であるので、二乗以上の項は乗数のみが異なる１乗の項と重複するものとして削除する。また式１の積分操作（スキャン）において、平行移動すると一致するパターンは重複するので、１つの代表パターンを残して他を削除する。式１右辺の式で参照点f(r)は局所領域の中心を必ず含むので、代表パターンとしては中心点を参照点とし、パターン全体が３×３×３画素の局所領域内に収まるものを選択する。
この結果、中心点を含むマスクパターンの種類は、選択画素数が１個のもの：１個、２個のもの：２６個、３個のもの：２６×２５／２＝３２５個の計３５２個あるが、式１の積分操作（平行移動：スキャン）で重複するパターンを除くと、マスクパターンの種類は２５１種類となる。即ち、１つの３次元データに対する立体高次局所自己相関特徴ベクトルは２５１次元となる。
なお、画素の値が多値の濃淡画像の場合には、例えば画素値をａとすると、相関値はａ（０次）≠ａ×ａ（１次）≠ａ×ａ×ａ（２次）となり、選択画素が同じでも乗数の異なるものを重複削除できない。従って、多値の場合には、２値の場合より選択画素数が１の場合に２個、選択画素数が２の場合に２６個増加し、マスクパターンの種類は計２７９種類となる。

このように計算される立体高次局所自己相関特徴の性質としては、自己相関で積分の特徴量であるために、しかも変位方向を局所領域に限定しているために、データ内の対象の位置に依らない位置不変性と、対象に対する加法性といった好ましい性質がある。またノイズ対しても頑強である性質を持つ。Ｓ１４においては、多変量解析手法により予め求めた課題に適した係数行列Ａを用いて、下記の計算により、課題に有効な新特徴データを生成する。

ｙ＝Ａ’ｘ

ここで、ｘは２５１次元特徴ベクトルデータ（縦ベクトル）、ｙはｎ次元（一般にｎ≪２５１）の新特徴ベクトルデータ（縦ベクトル）、Ａ’は係数行列Ａの転置行列である。新特徴ベクトルｙの次数ｎは、例えば判別分析の場合、「識別したいクラスの数−１」および「元の特徴ベクトルの次元」の小さい方となるので、例えばクラスが４であればｙは３次元となり、特徴データが大幅に圧縮される。また、主成分分析の場合は元の次元251以下の任意の次元を有効な順番に取れる。

ここで、係数行列Ａの決定方法について説明する。係数行列Ａは、例えば「右歩き」など「動作」が判明している学習用データ（２５１次元特徴ベクトルデータ）を使用して、回帰分析、主成分分析、判別分析等の周知の多変量解析手法を使用して求める。なお、多変量解析手法については前記した特許文献あるいは、柳井他編「多変量解析実例ハンドブック」（2002年6月25日朝倉書店発行）などに記載されているので詳細な説明は省略すが、一例として判別分析について説明する。
判別分析においては、ベクトルｙが空間としてＫクラスを最適に分離するように係数Ａは次の固有値問題の解（固有値ベクトル）として求まる。

Ｘ_BＡ＝Ｘ_wＡΛ （Ａ’Ｘ_wＡ＝Ｉ）

ここに、Λは固有値対角行列、Ｉは単位行列である。また、Ｘ_w、Ｘ_Bはそれぞれ特徴ベクトルｘのクラス内、クラス間共分散行列であり、次式で定義される。

ここで、ω_jはクラスｊの生起確率、ｘ_j（アッパーライン）はクラスｊの平均ベクトル、ｘ_jはクラスｊの共分散行列、ｘ_T（アッパーライン）は全平均ベクトルである。

Ｓ１５においては、新特徴空間Ｙにおいて登録データと比較する。比較方法としては、例えば新特徴空間における各クラスの平均ベクトル（ｙ_j（アッパーライン）=Ａ’ｘ_j（アッパーライン））と入力新特徴ベクトル間の距離を計算する。Ｓ１６においては、比較結果に基づき判定を行い、認識結果を出力する。最も単純な判定方法としては、登録されている各クラス平均ベクトル（各クラスの重心）の内で最も距離の近いものに対応する動作と判定する。あるいは新特徴ベクトルの内で最も入力に距離が近いk個の登録データの内、最大多数のクラスに対応する動作と判定するk-ＮＮ（Nearest neighbor rule）法などの方法が考えられる。更に高度な非線形識別方法としては、カーネルベース識別手法を採用してもよい。

図２は、Ｓ１３の立体高次局所自己相関特徴抽出処理の内容を示すフローチャートである。Ｓ２０においては、２５１個の相関パターンカウンタをクリアする。Ｓ２１においては、未処理の画素を１つ選択する（注目画素を順にスキャンする）。Ｓ２２においては、未処理のマスクパターンを１つ選択する。

図５は、３次元画素空間における自己相関処理範囲を示す斜視図である。また、図６は、３次元画素空間における自己相関処理座標を示す説明図である。図６においては、ｔ−１フレーム、ｔフレーム、ｔ＋１フレームの３つのフレームのｘｙ平面を並べて図示してある。
本発明においては、注目画素を中心とする３×３×３（＝２７）画素の立方体の内部の画素について相関を取る。マスクパターンは、相関を取る画素の組合せを示す情報であり、マスクパターンによって選択された画素のデータは相関値の計算に使用されるが、マスクパターンによって選択されなかった画素は無視される。

前記したように、マスクパターンでは注目画素（中心の画素）は必ず選択される。また、２値画像で０次〜２次までの相関値を考えた場合、３×３×３画素の立方体において重複を排除した後のパターン数は２５１個となる。図７は、自己相関マスクパターンの例を示す説明図である。図７（１）はハッチングを施した注目画素のみの最も簡単な０次のマスクであり、（２）は２つの画素が選択されている例（１次）、（３）、（４）は３つの画素が選択されている例（２次）である。

図２に戻って、Ｓ２３においては、前記した式１を用いて相関値を計算する。式１のf(r)f(r+a₁)…f(r+a_N)の式はマスクパターンと対応する座標の差分２値化３次元データの値を掛け合わせる（＝相関値、０または１）ことに相当する。また、式１の積分操作は注目画素を３次元データ内で移動（スキャン）させて相関値をカウンタによって足し合わせる（１をカウントする）ことに相当する。

Ｓ２４においては、相関値は１か否かが判定され、判定結果が肯定の場合にはＳ２５に移行するが、否定の場合にはＳ２６に移行する。Ｓ２５においては、マスクパターンと対応する相関パターンカウンタを＋１する。Ｓ２６においては、全てのパターンについて処理が完了したか否かが判定され、判定結果が肯定の場合にはＳ２７に移行するが、否定の場合にはＳ２２に移行する。

Ｓ２７においては、全ての画素について処理が完了したか否かが判定され、判定結果が肯定の場合にはＳ２８に移行するが、否定の場合にはＳ２１に移行する。Ｓ２８においては、パターンカウンタ値の集合を２５１次元特徴データとして出力する。なお、画素値が多値のグレースケールの場合には相関値も多値となるので、カウンタの代わりにレジスタを使用し、相関値をレジスタに加算していくことによって特徴量を生成する。

図３は、本発明による動画像実時間処理の内容を示すフローチャートである。図１、２に示した処理は動画像データを予め取り込んでから処理を行う場合の例であるが、図３の例は、例えばビデオカメラから実時間で画像データを取り込んで処理を行う場合の例である。

Ｓ３０においては、フレームデータの入力があるまで待つ。Ｓ３１においては、フレーム画像データを入力する。Ｓ３２においては、図１のＳ１１、Ｓ１２と同様に差分データを生成し、２値化する。Ｓ３３においては、新たな１フレーム分の画素データに関する相関パターンカウント処理を行う。

図８は、本発明による動画像実時間処理の内容を示す説明図である。動画像データはフレームのシーケンスとなっている。そこで時間方向に一定幅の時間窓を設定し、窓内のフレーム集合を１つの３次元データとする。そして、新たなフレームが入力される度に時間窓を移動させ、古いフレームを削除することで有限な３次元データが得られる。この時間窓の長さは、認識しようとする動作の１周期より長く設定することが望ましい。

図８において時刻ｔに新たなフレームが入力された時点では、直前の時間窓（t-1，t-n-1）に対応する特徴データはすでに算出されている。但し、（t-1）フレームは端なので相関値は（t-2）フレームに対応するものまで算出されている。

そこで、新たに入力されたｔフレームを用いて（t-1）フレームに対応する特徴データを生成し、現在の特徴データに加算する。また、最も古い（t-n-1）フレームと対応する特徴データを現在の特徴データから減算する。このような処理により、より少ない計算量で特徴データの更新が可能となる。なお、上記処理を行うために、各フレームに対応して生成された特徴データを保存しておく。

図３に戻って、Ｓ３４においては、特徴データであるカウント値集合をフレームに対応して保存する。Ｓ３５においては、カウント値集合を現在の特徴データに加算する。Ｓ３６においては、最も古いフレームに対応するカウント値集合を特徴データから減算する。

Ｓ３７においては、Ｓ１４と同様に多変量解析手法により得られた係数を使用して特徴データから新特徴データを生成する。Ｓ３８においては、Ｓ１５、Ｓ１６と同様に登録されている新特徴データとの一致を判定する。Ｓ３９においては、判定結果を出力する。Ｓ４０においては、処理を終了するか否かが判定され、判定結果が肯定の場合には処理を終了するが、否定の場合にはＳ３０に移行する。以上のような方法によって、実時間処理が可能となる。

次に、発明者らが行った実験の結果について説明する。基礎実験においては、対象者は５人、識別クラス（動作の種類）は「右歩き」「左歩き」「右走り」「左走り」の４クラス。動画像は352×240画素、グレースケール。人の大きさは30×80画素。全データ数は立体データが約2000個とした。

ランダムに全体の3分の2をテストデータ、残りを学習データとして識別を行った。立体データの時間幅は３０フレームとした。但し歩行１周期は時間幅２５フレームに相当する。変更パラメータはマスクパターンの局所立体における縦、横、奥行の長さである。縦横はフレーム内での相関をとる空間的距離に相当し、奥行は時間軸上での相関をとる時間間隔に相当する。この結果、マスクの大きさにほとんど依存せずに高い識別率を得られることがわかった。

次に立体データの時間幅を変えて実験を行った。この結果、行動１周期が収まらない時間幅では若干識別率が落ちるが、それでもどの時間幅でも高い識別率が得られた。以上の実験から立体高次局所自己相関特徴がパラメータに依存しない特徴抽出手法であることが実証された。
図９は、行動認識実験における新特徴空間での実験データの分布を示すグラフである。この実験では、クラス数が４であるので、判別分析によって得られる新特徴空間は３次元となり、グラフの各軸がそれぞれの次元（判別軸）を表している。さらに、発明者らは画面内に複数人の行動が映っている場合の認識実験を行なった。従来は個々の人物の検出とトラッキングを行なった上で別々に認識する方法しかなかったが、立体高次局所自己相関特徴の加法性を利用することでこれを同時に認識することが可能である。一般の複数人対象の場合は、加法性より次のように定式化される。

ｘ＝α₁f₁＋α₂f₂＋α₃f₃＋α₄f₄＋ε……（式２）

ここでｘは複数人が映っている動画像に対する立体高次局所自己相関特徴ベクトル、f₁,…,f₄は「右歩き」「左歩き」「右走り」「左走り」の各クラスにおける立体高次局所自己相関特徴ベクトルの平均ベクトル、α₁,…,α₄は「右歩き」「左歩き」「右走り」「左走り」のそれぞれの行動が画面内に含まれている数(整数値)、εは誤差ベクトルである。図９の判別空間プロット図を見ると、確かに行動ベクトルの線形和付近にデータが密集しているため、加法性（式２）の正当性が確かめられる。式２は立体高次局所自己相関特徴ベクトルの次元（２５１次元）と判別クラス数（４つ）の関係から疑似逆行列を用いて解析的に一意に解ける。また、線形判別空間（３次元）は元の特徴空間を線形写像したものであるため、式２は成立する。そこで、線形判別空間において式２の解を探索することも可能である。解の探索は、０≦α₁,…,α₄≦１０の範囲での全探索と、遺伝的アルゴリズムを用いた探索を行った。結果は、疑似逆行列では識別率が悪いが、これは２５１次元の特徴ベクトル空間においては各クラスがそれほどカテゴリを形成していないことによると考えられる。それぞれのクラスがほぼ左右対称な位置にあり、その平均ベクトルが独立でないと推測され、このことが原因と思われる。しかし線形判別空間では完全に識別できているため、複数対象の場合でも十分に識別が可能であることがわかった。

図１０は、行動認識実験における新特徴空間での行動の遷移状態を示すグラフである。実環境において人間の行動は一定ではなく、様々に変化する。そこで、そのような行動の遷移が含まれる動画像に対する動作の認識を行なう。基本実験で用いた行動データを人間の行動が連続するようにつなぎ合わせることにより行動の遷移が含まれるデータを作成した。図１０を見ると、判別空間内での行動クラス間の遷移がほぼ直線状にきれいに現れている。

次に行動からの個人の同定、つまりGait Recognitionについて説明する。Gait Recognitionはバイオメトリクス認証の一つとして、近年注目をあつめている。その利点としては歩様などの行動は特徴を隠しづらく、また離れた位置からも個人認証が可能となる点である。図１１は、行動による複数人同時同定実験における新特徴空間での実験データの分布を示すグラフである。実験の対象者は5人、識別クラスは「人1」「人2」「人3」「人4」「人5」の5クラス。動画像は352×240画素、グレースケール。人の大きさは30×80画素とした。左右走歩行のデータ全体に対してランダムに3分の2をテストデータ、残りを学習データとして識別を行った。また、左右走歩行のデータそれぞれに対して、それぞれのデータ内においてランダムに3分の2をテストデータ、残りを学習データとして識別を行った。識別率はこれらを１００回繰り返し平均をとる。時間幅は30とした。その結果、どの行動に対しても高い識別率が得られた。つまり、立体高次局所自己相関特徴は個人の行動の差異を反映していると言える。そのためGait Recognitionも可能であることがわかる。

次に、より実環境に促した拡張実験を行なった。但し時間幅は３０とした。画面内に複数「人」が映っている場合の同定を行なう。これは人の往来の多い場所での認証に必要となる。従来は個々の人のトラッキングを行なった上で別々に同定する方法しかなかったが、立体高次局所自己相関特徴の加法性を利用することで、画面に写っている人全員を同時に同定することが可能となる。一般の複数人の場合は、加法性より次のように定式化される。

ｘ＝α₁f₁＋α₂f₂＋α₃f₃＋α₄f₄＋α₅f₅＋ε……（式３）

ここでｘは複数人が映っている動画像に対する立体高次局所自己相関特徴ベクトル、f₁，…，f₅は「人１」「人２」「人３」「人４」「人５」の各クラスにおける立体高次局所自己相関特徴ベクトルの平均ベクトル、α₁,…,α₅は「人１」「人２」「人３」「人４」「人５」のそれぞれの行動が画面内に含まれている数(0 or 1)、εは誤差ベクトルである。図１１の判別空間プロット図を見ると、確かに人ベクトルの線形和付近にデータが密集しているため、加法性の正当性が確かめられた。式３は立体高次局所自己相関特徴ベクトルの次元（２５１次元）と判別クラス数（５つ）の関係から疑似逆行列を用いて解析的に一意に解ける。また、線形判別空間（３次元）は元の特徴空間を線形変換したものであるため、式３は成立する。そこで、線形判別空間において式３の解を探索することも可能である。解の探索は、０≦α₁,…,α₅≦１の範囲での全探索と、遺伝的アルゴリズムを用いた探索を行った。この結果、疑似逆行列では識別率が悪いが、これは２５１次元の特徴ベクトル空間においては各クラスがそれほどカテゴリを形成していないことによると考えられる。しかし線形判別空間では完全に識別できているため、複数対象の場合でも十分に識別が可能であることがわかる。

以上、実施例および実験結果を示したが、本発明の手法は３次元データから認識に実質的に有効な特徴を抽出することで、これまでの手法よりデータの本質を捉えた認識が可能になると考えられる。また、この手法の基本概念である相関はノイズにも強いことが知られており、この手法がノイズにロバストな特徴量を算出することが期待できる。

本発明の有効性を確かめるために動画像認識における行動認識とGait（歩様）Recognitionに適用し、実験により高い識別率が得られた。さらにこれまでの手法では不可能であった複数対象の同時認識も立体高次局所自己相関特徴の加法性から可能であることを示し、実験によりそれを実証した。

動画像に対して、時間幅を設定することで時系列データの対処を行ったが、これは人間での短期記憶に相当すると考えられる。しかし、時間幅が短すぎると識別率が悪くなり、長すぎても行動の遷移に鈍くなるため、時間幅の適切な設定も重要である。

立体高次局所自己相関特徴はスケールの変化に敏感であるため、スケールの設定が重要である。立体高次局所自己相関特徴をスケール不変とするためには、１つの３次元データからスケールの異なる複数の３次元データを生成し、それぞれのデータにおいて行動等の認識処理を行い、その結果を用いて総合的に判定することが考えられる。実施例においては、２次までの自己相関を用いたが、３次以上のより高次の自己相関を用いてもよい。相関を取る範囲も３×３×３より狭い範囲あるいは広い範囲を用いてもよく、範囲が立方体でなくてもよい。また、１画素飛びや２画素飛びに３×３×３画素を取るようにしてもよい。実施例においては、２５１種のマスクパターン全てを使用する例を開示したが、特徴の表現に寄与しているパターンのみを選択して使用してもよい。そうすれば、処理速度がより向上する。以上、動作の認識を行う実施例について説明したが、ステレオビジョンやレンジファインダーなどの方法で得られる３次元（静止）物体のデータ、あるいはＭＲＩやＣＴスキャナにより得られるデータも３次元（立体）の数値データであるので、本発明をそのまま適用して、３次元物体の認識を行うことが可能であり、物体の識別や病巣の検出などの応用に利用可能である。

本発明による物体、動作認識処理の内容を示すフローチャートである。Ｓ１３の立体高次局所自己相関特徴抽出処理の内容を示すフローチャートである。本発明による動画像実時間処理の内容を示すフローチャートである。２値化差分処理結果の画像を示す説明図である。３次元画素空間における自己相関処理範囲を示す斜視図である。３次元画素空間における自己相関処理座標を示す説明図である。自己相関マスクパターンの例を示す説明図である。本発明による動画像実時間処理の内容を示す説明図である。行動認識実験における新特徴空間での実験データの分布を示すグラフである。行動認識実験における新特徴空間での行動の遷移状態を示すグラフである。行動による複数人同時同定実験における新特徴空間での実験データの分布を示すグラフである。

符号の説明

ｘ２５１次元特徴データ
Ａ係数行列
ｙ新特徴データ

Claims

注目点と相関を取る点の位置を示す相関パターンの内、３次元方向に平行移動することにより一致する相関パターンを１つを残して他を削除した相関パターンを用い、前記相関パターン毎に３次元データの注目点の値と相関を取るべき１つあるいは複数の点の値との積を取り、前記相関パターン毎に前記積を前記３次元データについて積分する立体高次局所自己相関によって特徴データを抽出する特徴データ抽出手段を備え、
前記３次元データは動画像データである
ことを特徴とする３次元データからの特徴抽出装置。
前記立体高次局所自己相関においては、相関を取る範囲を注目点を中心とする３×３×３点の範囲とすることを特徴とする請求項１に記載の３次元データからの特徴抽出装置。
前記立体高次局所自己相関においては、注目点のみの０次相関パターン、注目点と相関を取る１点からなる１次相関パターン、注目点と相関を取る２点からなる２次相関パターンによって相関を取ることを特徴とする請求項１に記載の３次元データからの特徴抽出装置。
更に、前記動画像データから隣接するフレーム間で輝度値の差分を取ったフレーム間差分データを生成するフレーム間差分データ生成手段を備えたことを特徴とする請求項１に記載の３次元データからの特徴抽出装置。
前記フレーム間差分データの差分値の絶対値が所定の閾値以上であるか否かによって値が決定される２値化手段を備えたことを特徴とする請求項４に記載の３次元データからの特徴抽出装置。
前記特徴データ抽出手段は、
新たな動画像のフレームデータを入力する入力手段と、
前記フレームデータを動画像データに追加したことによって新たに生成される特徴データを生成する特徴データ生成手段と、
前記新たに生成された特徴データをフレームデータと対応して保存すると共に現在の特徴データに加算する加算手段と、
所定の時間窓と対応する時間が経過したフレームデータと対応する特徴データを読み出して現在の特徴データから減算する減算手段と
を含むことを特徴とする請求項１に記載の３次元データからの特徴抽出装置。
コンピュータを
動画像データである３次元データを入力し、注目点と相関を取る点の位置を示す相関パターンの内、３次元方向に平行移動することにより一致する相関パターンを１つを残して他を削除した相関パターンを用い、前記相関パターン毎に前記３次元データの注目点の値と相関を取るべき１つあるいは複数の点の値との積を取り、前記相関パターン毎に前記積を前記３次元データについて積分する立体高次局所自己相関によって特徴データを抽出する特徴データ抽出手段
として機能させることを特徴とする３次元データからの特徴抽出プログラム。
動画像データである３次元データを入力し、注目点と相関を取る点の位置を示す相関パターンの内、３次元方向に平行移動することにより一致する相関パターンを１つを残して他を削除した相関パターンを用い、前記相関パターン毎に前記３次元データの注目点の値と相関を取るべき１つあるいは複数の点の値との積を取るステップ、
前記相関パターン毎に前記積を前記３次元データについて積分することにより立体高次局所自己相関特徴データを抽出するステップ、
を含むことを特徴とする３次元データからの特徴抽出方法。
前記３次元データは、所定の時間窓によって切り出した動画像データであり、前記立体高次局所自己相関においては、相関を取る範囲を注目画素を中心とする３×３×３画素の範囲とし、注目画素のみの０次相関パターン、注目画素と相関を取る１画素からなる１次相関パターン、注目画素と相関を取る２画素からなる２次相関パターンによって相関を取ることを特徴とする請求項８に記載の３次元データからの特徴抽出方法。