JP3141004B2

JP3141004B2 - 動画中のオブジェクトを分類する方法

Info

Publication number: JP3141004B2
Application number: JP10244556A
Authority: JP
Inventors: 宏毅中野; 富夫越後; 潤治前田
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1998-08-31
Filing date: 1998-08-31
Publication date: 2001-03-05
Anticipated expiration: 2018-08-31
Also published as: US6606412B1; JP2000076461A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、動画中の人物のような
オブジェクトの動き（モーション）を分類する方法に関
し、さらに具体的にいえば、動画中のノンリジッドなオ
ブジェクト（non-rigid object）のモーションをウェー
ブレット変換を用いて分類する方法に関する。

【０００２】

【従来の技術】最近は、ＰＣ（パーソナル・コンピュー
タ）の普及に伴い、様々な分野および様々なアプリケー
ションで、ビデオ画像の処理が行われている。通信速
度、コンピュータの処理速度および記憶容量の増加に従
い、今後は、動画を含めたビデオ画像の多様な処理が一
層進むと考えられる。

【０００３】しかしながら、動画はノンリジッドなオブ
ジェクト、すなわち、静止状態に固定されないオブジェ
クト、を含むから、静止画の処理技術をそのまま適用で
きないという問題がある。例えば、静止画中のオブジェ
クトの分類は、静止画から取り出したオブジェクト画像
をテンプレートの基準画像と比較し、対象オブジェクト
に最も近似した基準画像を判定することにより、簡単に
行なうことができる。しかし、動画中のオブジェクトは
動きを伴うから、動画中のオブジェクトを分類するため
には、経時的変化を考慮する必要がある。

【０００４】動画中のオブジェクトの識別、分類は、様
々なアプリケーションで利用可能である。１つの例は、
画像のコンテンツ（内容）による自動インデクシング
（割り出し）および画像検索である。例えば、スポーツ
選手のジャンプ、キックなどの動きをコンテンツとして
入力し、ビデオ画像シーケンスからそのコンテンツを含
むシーンを自動検索することができる。これは、ハイラ
イト・シーンを検索したり、ダイジェスト画像を作成し
たり、あるいは動画のデータベースを検索したりするの
に利用できよう。あるいは、スポーツ画像における各選
手の経時的動作を分類することにより、選手の動きを解
析したりすることも可能である。

【０００５】もう１つの例は、自動監視である。セキュ
リテイ区域での人の動きを監視し、不審な動きを自動検
出して犯罪の予防に役立てることが可能である。さらに
別の例は、マン・マシーン・インターフェースとしての
機能である。キーボード入力や音声入力の代わりに、身
振りや手振りでコンピュータにデータや制御情報を入力
したり、手話動作を可視出力、音声出力または点字出力
に変換したりすることも可能になるであろう。

【０００６】したがって、動画中のオブジェクトの識別
ないしは分類は、将来、様々なアプリケーションを開拓
すると考えられる。特に、画像の自動インデクシング
は、ＭＰＥＧ−７スタンダード（西暦２００１年にドラ
フト作成予定）におけるコンテンツ記述の標準化のため
の要素技術と考えられており、そのための技術の確立が
要請されている。

【０００７】画像処理は一般に、膨大な量の計算を必要
とし、動画の処理は、静止画の処理よりもさらに多量の
計算を必要とする。したがって、動画中のオブジェクト
を分類する技術は、オブジェクトの動きを少ないデータ
処理量で正確に且つ簡単に検出できるものであるのが好
ましい。

【０００８】ウェーブレット変換を用いて動画中のオブ
ジェクトを識別ないしは分類する技術は、本発明者が知
る限りでは、これまで提案されていないが、ウェーブレ
ット変換を用いた画像処理に関する文献としては、例え
ば、次のものがある。（１）H. Nakano et al, "A Method for Detection and
Visualization of Macro Defects in Color Liquid Cr
ystal Displays by Using Gabor Wavelets", PROCEEDIN
GS OF SPIE REPRINT, reprinted from Wavelet Applica
tions in Signaland Image Processing V, 30 July - 1
August, 1997, Sandiego, California,Vol.3169, pp.5
05-516 この文献は、本発明者の１人を共著者とする論文であ
り、２次元ガボール・ウェーブレット（2D Gabor wavel
et）を用いて液晶デイスプレイのマクロ欠陥を検出する
方法を示している。この文献は、本明細書で後述する
（式１）−（式３）を開示している。しかしこの文献
は、動画中のオブジェクトの動きの分類については論及
しておらず、また、（式１）−（式３）をオブジェクト
の動きの検出にどのように適用するかついても示唆して
いない。（２）M. Oren 他、"Pedestrian Detection Using Wave
let Templates", Proceedings of the 1997 IEEE Compu
ter Society Conference on Computer Vision and Patt
ern Recognition, 1997, pp.193-199 この文献は、ハール（Haar）関数を用いたウェーブレッ
ト変換により歩行者のパターンを分類する技術を示して
いる。しかしこの文献は、静止画の背景の中から歩行者
を検出し、歩行者のパターンを分類するのにウェーブレ
ット変換を用いており、動画中のオブジェクトの動きを
検出して分類するものではない。また、本発明における
ガボール・ウェーブレットを用いたウェーブレット変換
についても示していない。（３）A. Corghi 他、"Sequence Matching Using a Spa
tio-Temporal Wavelet Decomposition, Proceedings of
SPIE, Vol.3024, pt. 2, pp.938-952, Feb.1997 この文献は、ウェーブレット変換を用いてイメージ・シ
ーケンスのインデクシングおよび検索を行なう技術を示
している。しかしこの文献は、キー・フレームの各々の
画像全体をウェーブレット変換し、キー・フレーム間の
ウェーブレット展開係数の正規化相関によってイメージ
・シーンのインデクシングを行なうものである。動画中
のオブジェクト自体の動きの分類については論及してお
らず、また本発明におけるガボール・ウェーブレットを
用いたウェーブレット変換についても示していない。（４）特開平９−２３１３７５号公報この文献は、ウェーブレット変換を用いて画像の動きを
検出する技術を示している。１フレームの画像は８画素
の画素ブロックに分解され、各画素ブロックはウェーブ
レット変換により、多重解像度ブロックに変換される。
前フレームおよび現フレームの対応する多重解像度ブロ
ックのウェーブレット係数が比較され、差に基づいて動
きの有無が判定される。このように検出された動きは、
優先的に更新されるべき領域を特定するために使用され
る。この文献は、動画中のオブジェクトの動きの分類に
ついては論及していない。また、本発明におけるガボー
ル・ウェーブレットを用いたウェーブレット変換につい
ても示していない。

【０００９】

【発明が解決しようとする課題】したがって、本発明の
目的は、動画中のオブジェクトの動きを分類する効果的
な方法を提供することである。

【００１０】他の目的は、特定のガボール・ウェーブレ
ット関数を用いたウェーブレット変換により、オブジェ
クトの未知のパターンを検出し分類する方法を提供する
ことである。

【００１１】

【課題を解決するための手段】本発明に従う、動画中の
オブジェクトを分類する方法は、オブジェクトの複数の
基準モーションの各々を表わすビデオ画像シーケンスの
複数のフレームにおける前記オブジェクトの画像のウェ
ーブレット展開係数を含むテンプレートを準備するステ
ップと、前記オブジェクトの未知のモーションを表わす
ビデオ画像シーケンスの複数のフレームにおける前記オ
ブジェクトの画像のウェーブレット展開係数を求めるス
テップと、前記未知のモーションの展開係数と前記テン
プレートにおける前記基準モーションの展開係数とに基
づいて前記未知のモーションと前記基準モーションとの
間の一致度を算出するステップと、前記一致度に基づい
て前記未知のモーションを分類するステップとを含む。

【００１２】ウェーブレット展開係数は、ガボール・ウ
ェーブレット関数に基づいて求められる。好ましくは、
ウェーブレット展開係数は、オブジェクトのほぼ中心を
座標原点に設定して、オブジェクト画像の選択された複
数のサンプリング点で求められる。また、ウェーブレッ
ト展開係数は、複数のスケール変換レベルで求められ、
サンプリング点の数は前記レベルごとに異なる数に設定
される。一致度の算出は、前記スケール変換レベルに応
じて、展開係数に所定の重み付けをして行われるのが好
ましい。さらに、ウェーブレット展開係数は、各サンプ
リング点を回転中心とする所定の複数の回転位置で求め
られるのが好ましい。

【００１３】

【発明の実施の形態】次に、本発明の好適な実施形態に
ついて説明する。この例では、人体のモーションを分類
するものとして説明する。本発明において、モーション
とは、複数の画像フレームによって構成される動作の単
位を表わし、例えば、ジャンプ、キック、歩行などの動
作として認識できる、まとまりのある動きを表わす。

【００１４】図１は、本発明の基本手順を示している。
手順Ｓ１は、ｋ種類の基準モーションの各々について、
基準モーションを撮像し、基準モーションを表わすビデ
オ画像を記憶する部分１００と、記憶されたビデオ画像
をウェーブレット変換し、ウェーブレット展開係数を計
算する部分２００とを含む。ｋは、分類に使用されるモ
ーションの種類の数であり、任意に選択できる。

【００１５】手順Ｓ２は、未知のモーションを撮像し、
未知のモーションを表わすビデオ画像を記憶する部分３
００と、記憶されたビデオ画像をウェーブレット変換
し、ウェーブレット展開係数を計算する部分４００とを
含む。

【００１６】手順Ｓ３は、手順Ｓ２で求めたウェーブレ
ット展開係数と、手順Ｓ１で求めた基準モーションのウ
ェーブレット展開係数とに基づいて一致度を計算し、計
算結果に基づいて未知のモーションを分類する部分５０
０を含む。

【００１７】図２は、手順Ｓ１の部分１００のステップ
を表わしている。部分１００は４つのステップ１１０、
１２０、１３０および１４０を含む。

【００１８】ステップ１１０：カメラあるいはビデオ再
生装置などの画像入出力装置により、人が存在しない背
景ビデオ画像を作成し、コンピュータの記憶装置に記憶
する。画像は、各画素の濃淡をデイジタル値で表わした
デイジタル・ビデオ・データとして記憶される。カラー
画像は、デイジタルの濃淡画像に変換される。背景画像
は、人体を抜き出す基準となる。

【００１９】ステップ１２０：カメラあるいはビデオ再
生装置などの画像入出力装置により、ステップ１１０で
記憶した背景の前で１つの基準モーションを行う人の画
像を撮像する。そして、基準モーションの所定の開始点
と終了点との間の区間で、必要枚数（Ｆ個）のフレーム
の画像をサンプルし、コンピュータの記憶装置に記憶す
る。フレーム画像は、同様に、画素の濃淡をデイジタル
値で表わしたデイジタル・ビデオ・データとして記憶さ
れる。３０フレーム／秒のビデオ画像シーケンスの場
合、サンプルされるフレームの数は、通常のモーション
に対しては５−１０枚／秒が適当である。１つのモーシ
ョンを表現するのに必要なフレーム数Ｆは、通常、１０
−３０枚程度である。フレームは、一定のサンプリング
間隔でサンプルされるのが好ましい。サンプリング間隔
およびサンプルするフレーム数Ｆは、対象とするモーシ
ョンの特性に応じて適宜選択することができる。

【００２０】ステップ１３０：記憶装置に記憶した全フ
レームについて、背景画像との減算を行なう。減算は２
つのフレーム画像（背景のフレーム画像と、人を含むフ
レーム画像）の対応する画素の値を減算することにより
行なわれる。結果としてのフレーム画像は、背景を除去
したオブジェクトのパターン画像を含む。減算結果の絶
対値をフレーム単位でコンピュータの記憶装置に記憶す
る。

【００２１】ステップ１４０：残りの基準モーションに
ついて、上記のステップ１２０および１３０を繰り返
す。これにより、手順Ｓ１の部分１００の処理が終了す
る。

【００２２】なお、同一種類に属するモーションであっ
ても、動作速度に差があれば、フレームのオブジェクト
画像が変化するから、異なるウェーブレット展開係数を
与えることになる。したがって、同一種類に属するモー
ションであっても、異なる動作速度で生じうる場合は、
いくつかの異なる動作速度に対して個別に基準モーショ
ンを用意するのが好ましい。

【００２３】図３は、手順Ｓ１の部分２００の具体的ス
テップを示している。部分２００は、部分１００で作成
したモーション画像からウェーブレット展開係数を算出
するものであり、ステップ２１０−２８０を含む。

【００２４】ステップ２１０：１つの基準モーションに
対するＦ個のフレームのうちの選択されたフレーム（第
ｉフレーム）における人体の画像を２値化し、人体のシ
ルエット画像を作成する。この２値化は、ステップ１３
０で得た絶対値データにおいて、所定のしきい値未満の
画素を０、しきい値以上の画素を１にすることにより得
られる。しきい値は、人体のシルエットを良好に抽出で
きるように、人体の濃淡値と背景の濃淡値との差に基づ
いて設定される。

【００２５】ステップ２２０：シルエット画像の高さ
が、例えば１２８画素になるように正規化する。正規化
したシルエット画像の幅は、シルエット画像の高さを１
２８画素にしたときの縮尺比によって決まる。正規化に
より、シルエット画像ｓ（ｘ，ｙ）が得られる。ここ
で、−６３≦（ｘ，ｙ）≦６４である。

【００２６】ステップ２３０：次に、シルエット画像ｓ
（ｘ，ｙ）について、スケール変換レベル０（ｍ＝０）
のガボール・ウェーブレット（Gabor-wavelet）展開係
数の計算を行なう。本発明において、画像ｓ（ｘ，ｙ）
の、座標（ｘ₀，ｙ₀）におけるガボール・ウェーブレッ
ト展開係数は、［数９］（式１）で表わされる。

【００２７】

【数９】

【００２８】ここで、

【数１０】

【数１１】

【数１２】

【００２９】ｊは（−１）^1/2（虚数単位）であり、α
はスケール定数、ｍはスケール変換レベルを与える拡大
縮小パラメータ、ｐはオブジェクト・シルエット画像の
ｘ方向画素数、ｑはオブジェクト・シルエット画像のｙ
方向画素数、（ｘ₀,ｙ₀）はサンプリング点の座標、φ_l
はサンプリング点（ｘ₀,ｙ₀）を中心とするガボール・
ウェーブレットの回転角度、ｌは回転ステップ、ｕ₀は
［数４］のガボール・ウェーブレットの中心周波数（単
位：ラジアン／画素）、σ₀ ²はガウス窓関数の分散であ
る。［数４］のガボール・ウェーブレットの中心波長
は、２π／ｕ₀となる。本実施例では、α＝２、ｕ₀＝
０．１、σ₀ ²＝１２とした。

【００３０】ここで、（式１）−（式３）について説明
する。（式１）は、（式３）を基本ウェーブレット関数
とする、画像ｓ（ｘ，ｙ）の２次元ウェーブレット変換
を表わしている。ウェーブレット展開係数は、（式１）
により求められる。基本ウェーブレット関数は、アナラ
イジング・ウェーブレット（analysing wavelet）、あ
るいはマザー・ウェーブレット（mother wavelet）と呼
ばれることもある。（式３）のψ（ｘ，ｙ）は、一種の
ガボール関数であり、本明細書では、（式３）で示され
た基本ウェーブレット関数をガボール・ウェーブレット
と呼ぶ。（式２．１）および（式２．２）は、ｘｙ平面
の原点（ｘ＝０，ｙ＝０）を回転中心とした、角度φ_l
の回転を表わしている。（式１）において、座標位置は
サンプリング点の座標（ｘ₀,ｙ₀）だけシフトされる。
したがって、（式１）における角度φ_lの回転は、サン
プリング点を回転中心として行なわれる。

【００３１】ガボール関数は、周知のように、ガウス関
数を正弦波変調したような、空間的に局在した関数の総
称であり、種々のガボール型関数が提案されている。本
発明において用いられる（式３）のガボール関数は、２
つの特徴を有する。１つは、（式３）のうちの下記の
［数１３］の部分が、２次元ガウス窓と呼ばれる窓関数
を形成しており、正規化係数１／４π²σ₀ ²により、周
波数領域でのψ（ｘ，ｙ）の最大値が１になるように正
規化されていることである。ガボール・ウェーブレット
の展開係数の計算は、周波数領域で求められ、周波数領
域での最大値を１に正規化することにより、計算を単純
化することができる。もう１つの特徴は、（式３）のう
ちの下記の［数１４］の部分がψ（ｘ，ｙ）の直流成分
を０にするための補正項として働くことである。

【００３２】

【数１３】

【数１４】

【００３３】直流成分が０でない場合は、０でない画素
値をもつ平坦な画像領域、すなわち濃淡差がない画像領
域（例えば、人体部分が２進１に設定されるシルエット
画像）に対して展開係数を求めると、画素値に比例した
０でない結果が得られる。本来、ウェーブレット展開係
数は、その基底関数と信号との相関を意味するため、相
関以外の要因で展開係数が変動するのは望ましくない。
従って、直流成分が０でないガボール関数は、モーショ
ン分類には適していない。（式４）は、ψ（ｘ，ｙ）の
直流成分を０にするための補正項［数１４］をもつ。

【００３４】（式１）−（式３）は、上述した本発明者
の１人（H. Nakano）による論文に開示されたものであ
るが、本発明は、（式３）のガボール・ウェーブレット
を含む（式１）によるウェーブレット変換によれば、人
のようなオブジェクトの動きを好適に解析することがで
きることを見出したものである。

【００３５】（式１）において、α^mはスケール変換を
表わし、ｘ₀およびｙ₀はサンプリング点の座標によるシ
フト変換を表わし、ｌはサンプリング点を中心とした回
転を表わしている。従って、（式１）によるウェーブレ
ット変換は、ガボール・ウェーブレットのスケール・パ
ラメータ、シフト・パラメータおよび回転パラメータを
動かすことによって得られる基底関数の族と、シルエッ
ト画像との局所的相関を求めていることに相当する。従
って、例えば、オブジェクト画像における人体の腕の形
状と、ガボール・ウェーブレットの波形とが似ていれ
ば、その位置で局所的に展開係数の振幅が大きくなる。

【００３６】スケール・パラメータα^mは、ウェーブレ
ット展開係数の空間周波数成分に影響を与える。スケー
ル変換レベルｍは、任意の自然数を取りうる。ｍが大き
くなるほど、オブジェクトの微細な特徴（高周波成分）
を抽出することができる。複数の変換レベルでウェーブ
レット展開係数を求めることにより、低周波成分（巨視
的成分）および高周波成分（微視的成分）を検出するこ
とができる。しかし、モーションの特徴は低周波成分に
より多く含まれ、レベル数を増やしても、必ずしも、モ
ーションの特徴の抽出に役立つわけではない。また、レ
ベル数が増えるほど、計算量が増す。したがって、通常
の場合は、ｍ＝０、１、２の３レベル程度で十分であ
る。

【００３７】（式１）によるガボール・ウェーブレット
変換によって人のモーションを解析するためには、座標
原点およびガボール・ウェーブレットの中心波長２π／
ｕ₀を適正に選択する必要がある。座標原点は、オブジ
ェクトまたは人体のほぼ中心に設定されるのが好まし
い。人のモーションあるいは姿勢は、胴体の中心に対す
る頭の位置および手足の位置関係によって特徴付けられ
る。座標原点をオブジェクトの中心（人の場合は、胴体
の中心）に設定することにより、姿勢の変化の検出が容
易になる。

【００３８】ウェーブレット展開係数は、原点の位置に
より変動するので、各フレームで座標原点を常にオブジ
ェクトの中心に設定するのが好ましい。しかし、ウェー
ブレット展開係数は微視的成分（高周波成分）および巨
視的成分（低周波成分）の両方を含み、巨視的成分は原
点の位置ずれやオブジェクトの輪郭の変動の影響を比較
的受けにくい。また、ガボール・ウェーブレット展開係
数は実部と虚部（互いに９０度位相がずれている）を含
み、原点（ｘ＝０、ｙ＝０）の取り方によってサンプリ
ング座標が多少変動しても、展開係数の絶対値（振幅）
は大きく変動しない。つまり、位置ずれに強いというメ
リットがある。従って、原点はオブジェクトの中心に正
確に位置づけられる必要はなく、中心付近にあればよ
い。

【００３９】ガボール・ウェーブレットの中心波長２π
／ｕ₀は胴体の幅の２倍程度に設定されるのが好まし
い。２π／ｕ₀を胴体の幅の２倍程度に取ることによ
り、スケール変換レベルｍ＝０のガボール・ウェーブレ
ットと、胴体の形状との相関が高まり、胴体の姿勢に関
する情報が展開係数に良好に反映される。具体的にいう
と、ｍ＝０のときの（式１）の波長λは、λ＝２π／α
^mｕ₀（実施例では、ｕ₀＝０．１、α＝２）から、λ＝
２０π（約６０画素）となる。このとき、幅が１０π
（約３０画素）のシルエット画像部分との相関が強ま
る。１０πの幅は、高さが１２８画素に正規化されたシ
ルエット画像における人体の胴体部分の幅にほぼ相当す
る。ｍ＝１の場合の中心波長は、１０π（約３０画素）
となり、幅５π（約１５画素）のシルエット部分との相
関が強まる。ｍを４以上に大きくしても、シルエットの
輪郭の微細変動を検出するだけであり、必ずしもモーシ
ョンの特徴を抽出するのに有効ではない。

【００４０】ここで、図４を参照して、図示の人体につ
いてウェーブレット展開係数を求める処理について具体
的に説明する。展開係数はすべての座標で求める必要は
ない。選択されたサンプリング点で求めるだけで十分に
オブジェクト・パターンの特徴を取り出すことができ
る。サンプリング点の間隔は、スケール変換レベルに応
じて設定される。ｍ＝０の場合は、サンプリング点の間
隔をπ／ｕ₀程度にするのが好ましい。サンプリング点
は、十字マークで示されているように、ｘ方向に３つの
座標位置（ｘ₀＝［−２４、０、２４］）、ｙ方向に５
つの座標位置（ｙ₀＝［−４８、−２４、０、２４、４
８］）の計１５の座標点とした。

【００４１】（式３）のガボール・ウェーブレットは方
向性を有する。方向性を反映させて検出精度を高めるた
め、各サンプリング点を回転中心として、（式２．１）
および（式２．２）によって与えられるｌ個の異なる回
転角度でガボール・ウェーブレット展開係数を求める。
ガボール・ウェーブレットを回転させることにより、腕
や足の特定方向への曲がりを反映したウェーブレットを
形成することができる。この例では、ｌ＝４、例えば、
φ_l＝［０、π／４、π／２、３π／４］における展開
係数を求めた。したがって、ｍ＝０の場合は、合計６０
個の展開係数が求められることになる。

【００４２】ステップ２４０：次に、（式１）を使用し
て、レベル１（ｍ＝１）のガボール・ウェーブレット展
開係数を計算する。ｍ＝１の場合、サンプリング点は、
ｘ方向に５つの座標位置（ｘ₀＝［−２４、−１２、
０、１２、２４］、ｙ方向に９つの座標位置（ｙ₀＝
［−４８、−３６、−２４、−１２、０、１２、２４、
３６、４８］）の計４５個の座標点とした。ステップ２
３０と同様に、サンプリング点当たり４つの角度での展
開係数が求められるので、ｍ＝１の場合は合計１８０個
の展開係数が求められる。

【００４３】ステップ２５０：（式１）を使用して、レ
ベル２（ｍ＝２）のガボール・ウェーブレット展開係数
を計算する。ｍ＝２の場合、サンプリング点は、ｘ方向
に９つの座標位置（ｘ ₀＝［−２４、−１８、−１２、
−６、０、６、１２、１８、２４、］）、ｙ方向に１７
の座標点（ｙ₀＝［−４８、−４２、−３６、−３０、
−２４、−１８、−１２、−６、０、６、１２、１８、
２４、３０、３６、４２、４８］）の計１５３点とし
た。ステップ２３０と同様に、サンプリング点当たり４
つの角度位置での展開係数が求められるので、ｍ＝２の
場合は合計１８０個の展開係数が求められる。

【００４４】ステップ２６０：ステップ２３０−２５０
で求めた合計８５２個の展開係数の絶対値を、このシル
エット画像の特徴量または特徴ベクトルとしてコンピュ
ータのメモリに記憶する。

【００４５】ステップ２７０：現在考慮下の１つの基準
モーションを構成するＦ枚のフレームのうちの残りの
（Ｆ−１）枚のフレームに対して上記ステップ２１０−
２６０を繰り返す。１つの基準モーションのＦ枚のフレ
ームの処理が終了したとき、１つの基準モーションのた
めの展開係数の計算処理が終了する。

【００４６】ステップ２８０：ｋ種類の基準モーション
のうちの残りの（ｋ−１）個の基準モーションの各々に
ついて上述のステップ２１０−２７０を繰り返す。ステ
ップ２１０−２８０で作成されたｋ種類の基準モーショ
ンに対するウエーブレット展開係数列は、未知モーショ
ン分類のためのテンプレートとしてメモリに記憶され
る。

【００４７】図５は、手順Ｓ２の部分３００の具体的ス
テップを表わしている。部分３００は３つのステップ３
１０、３２０および３３０を含む。図６は、手順Ｓ２の
部分４００の具体的ステップを示している。部分４００
は、部分３００で作成した未知のモーション画像からウ
エーブレット展開係数を算出するものであり、ステップ
４１０−４７０を含む。手順２は、手順１のｋ種類の基
準モーションの代わりに、１つの未知のモーションを表
わすビデオ画像を処理することを除けば、手順１と同じ
である。図５のステップ３１０−３３０は図１のステッ
プ１１０−１３０と対応し、図６のステップ４１０−４
７０は図３のステップ２１０−２７０と対応する。した
がって、個々のステップについての詳しい説明は省略す
る。

【００４８】手順２において留意すべきことは、未知の
モーションで取り出すフレームの数である。基準モーシ
ョンの開始点および終了点と対応する未知モーションの
開始点および終了点を特定できるときは、開始点と終了
点との間の区間で基準モーシュンと同数のフレームを取
ればよい。しかし、未知モーションの開始点および終了
点が不明の場合が起こりうる。このような場合は、未知
モーションを含むビデオ区間から、同じサンプリング間
隔で、Ｆ個よりも多数のフレームを取り出す必要があ
る。この場合は、図７に関して後述する一致度の計算の
際に、１フレームずつずらしてＦ個のフレームのグルー
プで調べる必要がある。

【００４９】図７は、一致度を計算し、一致度の計算結
果に応じて、未知のモーションを既知の基準モーション
の１つに分類するための手順Ｓ３を示しており、ステッ
プ５１０−５３０を含む。

【００５０】ステップ５１０：未知のモーションの展開
係数列と、ｊ番目の基準モーションの展開係数列とに対
して、それぞれ、ｍのレベルに応じた重み付けをする。
一例として、レベル０の重みＷ（０）を０．８、レベル
１の重みＷ（１）を１．０、レベル２の重みＷ（２）を
０．８とする。重みは、どのレベルの展開係数が特徴量
として重要かに基づいて定められ、これは経験的に決定
されている。

【００５１】ｊ番目の基準モーションの重み付き展開係
数列をＲj（ｎ）、未知のモーションのそれをＴ（ｎ）
とする（１≦ｎ≦Ｎ）。Ｎは、フレーム当たりの展開係
数の数とフレーム数Ｆとの積である。正規化相関によ
る相関値Ｃj（−１≦Ｃｊ≦１）は、［数１５］で定義
される。

【００５２】

【数１５】

【００５３】ここで、σ_R ²はｊ番目の基準モーションの
重み付き展開係数列Ｒj（ｎ）の分散、σ_T ²は未知のモ
ーションの重み付き展開係数列Ｔ（ｎ）の分散、σ_RT ²
はＲj（ｎ）とＴ（ｎ）との共分散である。σ_R ²、σ_T ²
およびσ_RT ²は、それぞれ、［数１６］、［数１７］お
よび［数１８］で求められる。

【００５４】

【数１６】

【数１７】

【数１８】

【００５５】ここで、

【数１９】

【数２０】

【００５６】ステップ５２０：ステップ５１０をｋ種類
の基準モーションについて実行する。つまり、（式７）
のＣj をすべての基準モーションについて求める。次
に、その中で最大の値Ｃj(max) を求める。Ｃj(max)
は、最大の一致度を表わす。

【００５７】ステップ５３０：最大一致度Ｃj(max)
が、所定のしきい値よりも大きいときに、その最大一致
度と対応する基準モーションと、未知のモーションとが
同一であると判定する。したがって、この未知のモーシ
ョンは、最大一致度を与えた基準モーションと符合する
ものとして識別され、分類されることになる。

【００５８】なお、上述したように、未知のモーション
に対してＦ個よりも多数のフレームを取り出した場合
は、１フレームずつずらしてＦ個のフレームのグループ
で各基準モーションとの一致度を調べる必要がある。最
大の一致度を生じた基準モーションが、識別されたモー
ションを表わし、最大の一致度を生じたフレーム・グル
ープがそのときの未知のモーションと対応する。

【００５９】また、上述した例では、レベル数を３（ｍ
＝０、１、２）にし、それぞれのｍに対するサンプリン
グ点の数を１５個、６０個、１８０個にし、各サンプリ
ング点に対する回転角度を４つに設定したが、これらの
数を他の値にすることもできる。一般に、これらの数を
増やせば解析精度が高まるが、必要な計算の量が増え、
処理速度が遅くなる。また、一般に、複雑なモーション
の分類は、単純なモーションよりも高精度の解析を必要
とする。したがって、レベル、サンプリング点および回
転角度の数は、分類対象のモーションの複雑さや、必要
とされる解析精度などに応じて適宜選択することができ
る。

【００６０】さらに、本明細書では、分類対象のオブジ
ェクトの一例として人物を示したが、本発明は、手、
指、腕などの人体の一部のモーションや、動物、あるい
はアニメーション中のキャラクターのような任意のオブ
ジェクトのモーションの識別分類に適用できることは理
解されよう。

【００６１】

【発明の効果】（１）オブジェクトのモーションを表わ
す一連のオブジェクト画像のウェーブレット展開係数を
特徴ベクトルとし、かかる特徴ベクトルの時系列相関を
取ることにより、モーションを識別し分類することがで
きる。（２）ウェーブレット変換は、スケール変換レベルｍの
値に応じて、（多重解像度解析の特性により）オブジェ
クトを巨視的および微視的に解析できる。従って、例え
ば、オブジェクトの輪郭の一部が隠蔽あるいは欠落して
いる場合、または体格（大きさ、太さ）に差がある場合
でも、全体として、そのモーションの特徴を検出するこ
とができる。（３）比較的少ない数のサンプリング点で特徴を取り出
すことができ、計算量を減じて、処理効率を高めること
ができる。また、ウェーブレット展開係数のデータ量
は、元のビデオ画像の１／１０ないし１／１００であ
り、一致度の計算量も著しく減少する。（４）オブジェクトの中心付近に原点を設定し、ガボー
ル・ウェーブレットの中心波長２π／ｕ₀をオブジェク
ト幅のほぼ２倍とすることにより、人体の姿勢の特徴を
効果的に抽出できる。

【図面の簡単な説明】

【図１】本発明の基本手順を示したフロー図である。

【図２】図１の手順Ｓ１の部分１００の具体的ステップ
を示したフロー図である。

【図３】図１の手順Ｓ１の部分２００の具体的ステップ
を示したフロー図である。

【図４】レベルｍ＝０においてウエーブレット展開係数
を求めるのに用いられるサンプリング点を示した図であ
る。

【図５】図５は、手順Ｓ２の部分３００の具体的ステッ
プを示したフロー図である。

【図６】図６は、手順Ｓ２の部分４００の具体的ステッ
プを示したフロー図である。

【図７】図７は、一致度を計算し、一致度の計算結果に
応じて、未知のモーションを既知の基準モーションの１
つに分類するための手順Ｓ３を示したフロー図である。

【符合の説明】

Ｓ１、Ｓ２、Ｓ３基本手順１００手順Ｓ１の基準モーション撮像／記憶部分２００手順Ｓ１のガボール・ウェーブレット展開係数
算出部分３００手順Ｓ２の未知モーション撮像／記憶部分４００手順Ｓ２のガボール・ウェーブレット展開係数
算出部分５００手順Ｓ３の一致度計算／分類手順

───────────────────────────────────────────────────── フロントページの続き (72)発明者越後富夫神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内 (72)発明者前田潤治神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内 (56)参考文献特開平11−75203（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06T 7/20 G06T 1/00 H04N 7/32 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】オブジェクトの複数の異なる基準モーショ
ンの各々を表わすビデオ画像シーケンスの複数のフレー
ムにおける前記オブジェクトの画像のウェーブレット展
開係数を含むテンプレートを準備するステップと、前記オブジェクトの未知のモーションを表わすビデオ画
像シーケンスの複数のフレームにおける前記オブジェク
トの画像のウェーブレット展開係数を求めるステップ
と、前記未知のモーションの展開係数と前記テンプレートに
おける前記基準モーションの展開係数とに基づいて前記
未知のモーションと前記基準モーションとの間の一致度
を算出するステップと、前記一致度に基づいて前記未知のモーションを分類する
ステップとを含む、動画中のオブジェクトを分類する方
法。
【請求項２】前記基準モーションおよび未知モーション
に対するウェーブレット展開係数は、ガボール・ウェー
ブレット関数に基づいて求められることを特徴とする請
求項１に記載の方法。
【請求項３】前記ウェーブレット展開係数は、前記オブ
ジェクトのほぼ中心を座標原点として求められることを
特徴とする請求項２に記載の方法。
【請求項４】前記ウェーブレット展開係数は、前記オブ
ジェクト画像の選択された複数のサンプリング点で求め
られることを特徴とする請求項２または３に記載の方
法。
【請求項５】前記ウェーブレット展開係数は、複数のス
ケール変換レベルで求められ、前記サンプリング点の数
は前記レベルごとに異なる数に設定されることを特徴と
する請求項４に記載の方法。
【請求項６】前記一致度の算出は、前記スケール変換レ
ベルに応じて、前記展開係数に所定の重み付けをして行
われることを特徴とする請求項５に記載の方法。
【請求項７】前記ウェーブレット展開係数は、各前記サ
ンプリング点を回転中心とする複数の回転位置で求めら
れることを特徴とする請求項４−６のいずれか１項に記
載の方法。
【請求項８】前記ウェーブレット展開係数は、［数１］
に基づいて求められることを特徴とする請求項７に記載
の方法。【数１】ここで、【数２】【数３】【数４】ｊは（−１）^1/2（虚数単位） αはスケール定数、ｍはスケール変換レベルを与える拡大縮小パラメータ、ｐはオブジェクト画像のｘ方向画素数、ｑはオブジェクト画像のｙ方向画素数、（ｘ₀,ｙ₀）はサンプリング点の座標 φ_lはサンプリング点（ｘ₀,ｙ₀）を中心とするガボール
・ウェーブレットの回転角度、ｌは回転ステップ、ｕ₀は［数４］のガボール・ウェーブレットの中心周波
数 σ₀ ²はガウス窓関数の分散
【請求項９】前記オブジェクトが人体であり、前記ガボ
ール・ウェーブレットの中心波長２π／ｕ₀が前記人体
の胴体幅の約２倍であることを特徴とする請求項８に記
載の方法。
【請求項１０】オブジェクトの複数の異なる基準モーシ
ョンの各々を表わすビデオ画像シーケンスの複数のフレ
ームにおける前記オブジェクトの画像のガボール・ウェ
ーブレット展開係数を含むテンプレートを準備するステ
ップと、前記オブジェクトの未知のモーションを表わすビデオ画
像シーケンスの複数のフレームにおける前記オブジェク
トの画像を取り出すステップと、前記取り出された前記オブジェクト画像のガボール・ウ
ェーブレット展開係数を求めるステップと、前記未知のモーションの展開係数と前記テンプレートに
おける前記基準モーションの展開係数とに基づいて前記
未知のモーションと前記基準モーションとの間の一致度
を算出するステップと、前記一致度に基づいて前記未知のモーションを分類する
ステップとを含み、前記基準モーションおよび未知モーションに対するウェ
ーブレット展開係数は、前記オブジェクトのほぼ中心を
座標原点として前記オブジェクト画像の選択された複数
のサンプリング点において求められ、且つ各前記サンプ
リング点を回転中心とする所定の複数の回転位置で求め
られる、動画中のオブジェクトを分類する方法。
【請求項１１】前記ウェーブレット展開係数は、複数の
スケール変換レベルで求められ、且つ前記一致度の算出
は、前記レベルに応じて、前記展開係数に所定の重み付
けをして行われることを特徴とする請求項１０に記載の
方法。
【請求項１２】オブジェクトの複数の異なる基準パター
ンを表わす基準パターン画像のウェーブレット展開係数
を含むテンプレートを準備するステップと、前記オブジェクトの未知のパターンを表わす未知パター
ン画像のウェーブレット展開係数を求めるステップと、前記未知のパターンに対する展開係数と前記テンプレー
トにおける前記基準パターンに対する展開係数とに基づ
いて前記未知のパターンと前記基準パターンとの間の一
致度を算出するステップと、前記一致度に基づいて前記未知のパターンを分類するス
テップとを含み、前記基準パターンおよび未知のパターンに対するウェー
ブレット展開係数は、前記パターン画像のほぼ中心を座
標原点として前記パターン画像の選択された複数のサン
プリング点において［数５］に基づいて求められること
を特徴とする、オブジェクトのパターンを分類する方
法。【数５】ここで、【数６】【数７】【数８】ｊは（−１）^1/2（虚数単位） αはスケール定数、ｍはスケール変換レベルを与える拡大縮小パラメータ、ｐはオブジェクト画像のｘ方向画素数、ｑはオブジェクト画像のｙ方向画素数、（ｘ₀,ｙ₀）はサンプリング点の座標 φ_lはサンプリング点（ｘ₀,ｙ₀）を中心とするガボール
・ウェーブレットの回転角度、ｌは回転ステップ、ｕ₀は［数４］のガボール・ウェーブレットの中心周波
数 σ₀ ²はガウス窓関数の分散