JP3141004B2 - 動画中のオブジェクトを分類する方法 - Google Patents

動画中のオブジェクトを分類する方法

Info

Publication number
JP3141004B2
JP3141004B2 JP10244556A JP24455698A JP3141004B2 JP 3141004 B2 JP3141004 B2 JP 3141004B2 JP 10244556 A JP10244556 A JP 10244556A JP 24455698 A JP24455698 A JP 24455698A JP 3141004 B2 JP3141004 B2 JP 3141004B2
Authority
JP
Japan
Prior art keywords
image
wavelet
motion
equation
expansion coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP10244556A
Other languages
English (en)
Other versions
JP2000076461A (ja
Inventor
宏毅 中野
富夫 越後
潤治 前田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP10244556A priority Critical patent/JP3141004B2/ja
Priority to US09/384,743 priority patent/US6606412B1/en
Publication of JP2000076461A publication Critical patent/JP2000076461A/ja
Application granted granted Critical
Publication of JP3141004B2 publication Critical patent/JP3141004B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、動画中の人物のような
オブジェクトの動き(モーション)を分類する方法に関
し、さらに具体的にいえば、動画中のノンリジッドなオ
ブジェクト(non-rigid object)のモーションをウェー
ブレット変換を用いて分類する方法に関する。
【0002】
【従来の技術】最近は、PC(パーソナル・コンピュー
タ)の普及に伴い、様々な分野および様々なアプリケー
ションで、ビデオ画像の処理が行われている。通信速
度、コンピュータの処理速度および記憶容量の増加に従
い、今後は、動画を含めたビデオ画像の多様な処理が一
層進むと考えられる。
【0003】しかしながら、動画はノンリジッドなオブ
ジェクト、すなわち、静止状態に固定されないオブジェ
クト、を含むから、静止画の処理技術をそのまま適用で
きないという問題がある。例えば、静止画中のオブジェ
クトの分類は、静止画から取り出したオブジェクト画像
をテンプレートの基準画像と比較し、対象オブジェクト
に最も近似した基準画像を判定することにより、簡単に
行なうことができる。しかし、動画中のオブジェクトは
動きを伴うから、動画中のオブジェクトを分類するため
には、経時的変化を考慮する必要がある。
【0004】動画中のオブジェクトの識別、分類は、様
々なアプリケーションで利用可能である。1つの例は、
画像のコンテンツ(内容)による自動インデクシング
(割り出し)および画像検索である。例えば、スポーツ
選手のジャンプ、キックなどの動きをコンテンツとして
入力し、ビデオ画像シーケンスからそのコンテンツを含
むシーンを自動検索することができる。これは、ハイラ
イト・シーンを検索したり、ダイジェスト画像を作成し
たり、あるいは動画のデータベースを検索したりするの
に利用できよう。あるいは、スポーツ画像における各選
手の経時的動作を分類することにより、選手の動きを解
析したりすることも可能である。
【0005】もう1つの例は、自動監視である。セキュ
リテイ区域での人の動きを監視し、不審な動きを自動検
出して犯罪の予防に役立てることが可能である。さらに
別の例は、マン・マシーン・インターフェースとしての
機能である。キーボード入力や音声入力の代わりに、身
振りや手振りでコンピュータにデータや制御情報を入力
したり、手話動作を可視出力、音声出力または点字出力
に変換したりすることも可能になるであろう。
【0006】したがって、動画中のオブジェクトの識別
ないしは分類は、将来、様々なアプリケーションを開拓
すると考えられる。特に、画像の自動インデクシング
は、MPEG−7スタンダード(西暦2001年にドラ
フト作成予定)におけるコンテンツ記述の標準化のため
の要素技術と考えられており、そのための技術の確立が
要請されている。
【0007】画像処理は一般に、膨大な量の計算を必要
とし、動画の処理は、静止画の処理よりもさらに多量の
計算を必要とする。したがって、動画中のオブジェクト
を分類する技術は、オブジェクトの動きを少ないデータ
処理量で正確に且つ簡単に検出できるものであるのが好
ましい。
【0008】ウェーブレット変換を用いて動画中のオブ
ジェクトを識別ないしは分類する技術は、本発明者が知
る限りでは、これまで提案されていないが、ウェーブレ
ット変換を用いた画像処理に関する文献としては、例え
ば、次のものがある。 (1)H. Nakano et al, "A Method for Detection and
Visualization of Macro Defects in Color Liquid Cr
ystal Displays by Using Gabor Wavelets", PROCEEDIN
GS OF SPIE REPRINT, reprinted from Wavelet Applica
tions in Signaland Image Processing V, 30 July - 1
August, 1997, Sandiego, California,Vol.3169, pp.5
05-516 この文献は、本発明者の1人を共著者とする論文であ
り、2次元ガボール・ウェーブレット(2D Gabor wavel
et)を用いて液晶デイスプレイのマクロ欠陥を検出する
方法を示している。この文献は、本明細書で後述する
(式1)−(式3)を開示している。しかしこの文献
は、動画中のオブジェクトの動きの分類については論及
しておらず、また、(式1)−(式3)をオブジェクト
の動きの検出にどのように適用するかついても示唆して
いない。 (2)M. Oren 他、"Pedestrian Detection Using Wave
let Templates", Proceedings of the 1997 IEEE Compu
ter Society Conference on Computer Vision and Patt
ern Recognition, 1997, pp.193-199 この文献は、ハール(Haar)関数を用いたウェーブレッ
ト変換により歩行者のパターンを分類する技術を示して
いる。しかしこの文献は、静止画の背景の中から歩行者
を検出し、歩行者のパターンを分類するのにウェーブレ
ット変換を用いており、動画中のオブジェクトの動きを
検出して分類するものではない。また、本発明における
ガボール・ウェーブレットを用いたウェーブレット変換
についても示していない。 (3)A. Corghi 他、"Sequence Matching Using a Spa
tio-Temporal Wavelet Decomposition, Proceedings of
SPIE, Vol.3024, pt. 2, pp.938-952, Feb.1997 この文献は、ウェーブレット変換を用いてイメージ・シ
ーケンスのインデクシングおよび検索を行なう技術を示
している。しかしこの文献は、キー・フレームの各々の
画像全体をウェーブレット変換し、キー・フレーム間の
ウェーブレット展開係数の正規化相関によってイメージ
・シーンのインデクシングを行なうものである。動画中
のオブジェクト自体の動きの分類については論及してお
らず、また本発明におけるガボール・ウェーブレットを
用いたウェーブレット変換についても示していない。 (4)特開平9−231375号公報 この文献は、ウェーブレット変換を用いて画像の動きを
検出する技術を示している。1フレームの画像は8画素
の画素ブロックに分解され、各画素ブロックはウェーブ
レット変換により、多重解像度ブロックに変換される。
前フレームおよび現フレームの対応する多重解像度ブロ
ックのウェーブレット係数が比較され、差に基づいて動
きの有無が判定される。このように検出された動きは、
優先的に更新されるべき領域を特定するために使用され
る。この文献は、動画中のオブジェクトの動きの分類に
ついては論及していない。また、本発明におけるガボー
ル・ウェーブレットを用いたウェーブレット変換につい
ても示していない。
【0009】
【発明が解決しようとする課題】したがって、本発明の
目的は、動画中のオブジェクトの動きを分類する効果的
な方法を提供することである。
【0010】他の目的は、特定のガボール・ウェーブレ
ット関数を用いたウェーブレット変換により、オブジェ
クトの未知のパターンを検出し分類する方法を提供する
ことである。
【0011】
【課題を解決するための手段】本発明に従う、動画中の
オブジェクトを分類する方法は、オブジェクトの複数の
基準モーションの各々を表わすビデオ画像シーケンスの
複数のフレームにおける前記オブジェクトの画像のウェ
ーブレット展開係数を含むテンプレートを準備するステ
ップと、前記オブジェクトの未知のモーションを表わす
ビデオ画像シーケンスの複数のフレームにおける前記オ
ブジェクトの画像のウェーブレット展開係数を求めるス
テップと、前記未知のモーションの展開係数と前記テン
プレートにおける前記基準モーションの展開係数とに基
づいて前記未知のモーションと前記基準モーションとの
間の一致度を算出するステップと、前記一致度に基づい
て前記未知のモーションを分類するステップとを含む。
【0012】ウェーブレット展開係数は、ガボール・ウ
ェーブレット関数に基づいて求められる。好ましくは、
ウェーブレット展開係数は、オブジェクトのほぼ中心を
座標原点に設定して、オブジェクト画像の選択された複
数のサンプリング点で求められる。また、ウェーブレッ
ト展開係数は、複数のスケール変換レベルで求められ、
サンプリング点の数は前記レベルごとに異なる数に設定
される。一致度の算出は、前記スケール変換レベルに応
じて、展開係数に所定の重み付けをして行われるのが好
ましい。さらに、ウェーブレット展開係数は、各サンプ
リング点を回転中心とする所定の複数の回転位置で求め
られるのが好ましい。
【0013】
【発明の実施の形態】次に、本発明の好適な実施形態に
ついて説明する。この例では、人体のモーションを分類
するものとして説明する。本発明において、モーション
とは、複数の画像フレームによって構成される動作の単
位を表わし、例えば、ジャンプ、キック、歩行などの動
作として認識できる、まとまりのある動きを表わす。
【0014】図1は、本発明の基本手順を示している。
手順S1は、k種類の基準モーションの各々について、
基準モーションを撮像し、基準モーションを表わすビデ
オ画像を記憶する部分100と、記憶されたビデオ画像
をウェーブレット変換し、ウェーブレット展開係数を計
算する部分200とを含む。kは、分類に使用されるモ
ーションの種類の数であり、任意に選択できる。
【0015】手順S2は、未知のモーションを撮像し、
未知のモーションを表わすビデオ画像を記憶する部分3
00と、記憶されたビデオ画像をウェーブレット変換
し、ウェーブレット展開係数を計算する部分400とを
含む。
【0016】手順S3は、手順S2で求めたウェーブレ
ット展開係数と、手順S1で求めた基準モーションのウ
ェーブレット展開係数とに基づいて一致度を計算し、計
算結果に基づいて未知のモーションを分類する部分50
0を含む。
【0017】図2は、手順S1の部分100のステップ
を表わしている。部分100は4つのステップ110、
120、130および140を含む。
【0018】ステップ110:カメラあるいはビデオ再
生装置などの画像入出力装置により、人が存在しない背
景ビデオ画像を作成し、コンピュータの記憶装置に記憶
する。画像は、各画素の濃淡をデイジタル値で表わした
デイジタル・ビデオ・データとして記憶される。カラー
画像は、デイジタルの濃淡画像に変換される。背景画像
は、人体を抜き出す基準となる。
【0019】ステップ120:カメラあるいはビデオ再
生装置などの画像入出力装置により、ステップ110で
記憶した背景の前で1つの基準モーションを行う人の画
像を撮像する。そして、基準モーションの所定の開始点
と終了点との間の区間で、必要枚数(F個)のフレーム
の画像をサンプルし、コンピュータの記憶装置に記憶す
る。フレーム画像は、同様に、画素の濃淡をデイジタル
値で表わしたデイジタル・ビデオ・データとして記憶さ
れる。30フレーム/秒のビデオ画像シーケンスの場
合、サンプルされるフレームの数は、通常のモーション
に対しては5−10枚/秒が適当である。1つのモーシ
ョンを表現するのに必要なフレーム数Fは、通常、10
−30枚程度である。フレームは、一定のサンプリング
間隔でサンプルされるのが好ましい。サンプリング間隔
およびサンプルするフレーム数Fは、対象とするモーシ
ョンの特性に応じて適宜選択することができる。
【0020】ステップ130:記憶装置に記憶した全フ
レームについて、背景画像との減算を行なう。減算は2
つのフレーム画像(背景のフレーム画像と、人を含むフ
レーム画像)の対応する画素の値を減算することにより
行なわれる。結果としてのフレーム画像は、背景を除去
したオブジェクトのパターン画像を含む。減算結果の絶
対値をフレーム単位でコンピュータの記憶装置に記憶す
る。
【0021】ステップ140:残りの基準モーションに
ついて、上記のステップ120および130を繰り返
す。これにより、手順S1の部分100の処理が終了す
る。
【0022】なお、同一種類に属するモーションであっ
ても、動作速度に差があれば、フレームのオブジェクト
画像が変化するから、異なるウェーブレット展開係数を
与えることになる。したがって、同一種類に属するモー
ションであっても、異なる動作速度で生じうる場合は、
いくつかの異なる動作速度に対して個別に基準モーショ
ンを用意するのが好ましい。
【0023】図3は、手順S1の部分200の具体的ス
テップを示している。部分200は、部分100で作成
したモーション画像からウェーブレット展開係数を算出
するものであり、ステップ210−280を含む。
【0024】ステップ210:1つの基準モーションに
対するF個のフレームのうちの選択されたフレーム(第
iフレーム)における人体の画像を2値化し、人体のシ
ルエット画像を作成する。この2値化は、ステップ13
0で得た絶対値データにおいて、所定のしきい値未満の
画素を0、しきい値以上の画素を1にすることにより得
られる。しきい値は、人体のシルエットを良好に抽出で
きるように、人体の濃淡値と背景の濃淡値との差に基づ
いて設定される。
【0025】ステップ220:シルエット画像の高さ
が、例えば128画素になるように正規化する。正規化
したシルエット画像の幅は、シルエット画像の高さを1
28画素にしたときの縮尺比によって決まる。正規化に
より、シルエット画像s(x,y)が得られる。ここ
で、−63≦(x,y)≦64である。
【0026】ステップ230:次に、シルエット画像s
(x,y)について、スケール変換レベル0(m=0)
のガボール・ウェーブレット(Gabor-wavelet)展開係
数の計算を行なう。本発明において、画像s(x,y)
の、座標(x0,y0)におけるガボール・ウェーブレッ
ト展開係数は、[数9](式1)で表わされる。
【0027】
【数9】
【0028】ここで、
【数10】
【数11】
【数12】
【0029】jは(−1)1/2(虚数単位)であり、α
はスケール定数、mはスケール変換レベルを与える拡大
縮小パラメータ、pはオブジェクト・シルエット画像の
x方向画素数、qはオブジェクト・シルエット画像のy
方向画素数、(x0,y0)はサンプリング点の座標、φl
はサンプリング点(x0,y0)を中心とするガボール・
ウェーブレットの回転角度、lは回転ステップ、u0
[数4]のガボール・ウェーブレットの中心周波数(単
位:ラジアン/画素)、σ0 2はガウス窓関数の分散であ
る。[数4]のガボール・ウェーブレットの中心波長
は、2π/u0となる。本実施例では、α=2、u0
0.1、σ0 2=12とした。
【0030】ここで、(式1)−(式3)について説明
する。(式1)は、(式3)を基本ウェーブレット関数
とする、画像s(x,y)の2次元ウェーブレット変換
を表わしている。ウェーブレット展開係数は、(式1)
により求められる。基本ウェーブレット関数は、アナラ
イジング・ウェーブレット(analysing wavelet)、あ
るいはマザー・ウェーブレット(mother wavelet)と呼
ばれることもある。(式3)のψ(x,y)は、一種の
ガボール関数であり、本明細書では、(式3)で示され
た基本ウェーブレット関数をガボール・ウェーブレット
と呼ぶ。(式2.1)および(式2.2)は、xy平面
の原点(x=0,y=0)を回転中心とした、角度φl
の回転を表わしている。(式1)において、座標位置は
サンプリング点の座標(x0,y0)だけシフトされる。
したがって、(式1)における角度φlの回転は、サン
プリング点を回転中心として行なわれる。
【0031】ガボール関数は、周知のように、ガウス関
数を正弦波変調したような、空間的に局在した関数の総
称であり、種々のガボール型関数が提案されている。本
発明において用いられる(式3)のガボール関数は、2
つの特徴を有する。1つは、(式3)のうちの下記の
[数13]の部分が、2次元ガウス窓と呼ばれる窓関数
を形成しており、正規化係数1/4π2σ0 2により、周
波数領域でのψ(x,y)の最大値が1になるように正
規化されていることである。ガボール・ウェーブレット
の展開係数の計算は、周波数領域で求められ、周波数領
域での最大値を1に正規化することにより、計算を単純
化することができる。もう1つの特徴は、(式3)のう
ちの下記の[数14]の部分がψ(x,y)の直流成分
を0にするための補正項として働くことである。
【0032】
【数13】
【数14】
【0033】直流成分が0でない場合は、0でない画素
値をもつ平坦な画像領域、すなわち濃淡差がない画像領
域(例えば、人体部分が2進1に設定されるシルエット
画像)に対して展開係数を求めると、画素値に比例した
0でない結果が得られる。本来、ウェーブレット展開係
数は、その基底関数と信号との相関を意味するため、相
関以外の要因で展開係数が変動するのは望ましくない。
従って、直流成分が0でないガボール関数は、モーショ
ン分類には適していない。(式4)は、ψ(x,y)の
直流成分を0にするための補正項[数14]をもつ。
【0034】(式1)−(式3)は、上述した本発明者
の1人(H. Nakano)による論文に開示されたものであ
るが、本発明は、(式3)のガボール・ウェーブレット
を含む(式1)によるウェーブレット変換によれば、人
のようなオブジェクトの動きを好適に解析することがで
きることを見出したものである。
【0035】(式1)において、αmはスケール変換を
表わし、x0およびy0はサンプリング点の座標によるシ
フト変換を表わし、lはサンプリング点を中心とした回
転を表わしている。従って、(式1)によるウェーブレ
ット変換は、ガボール・ウェーブレットのスケール・パ
ラメータ、シフト・パラメータおよび回転パラメータを
動かすことによって得られる基底関数の族と、シルエッ
ト画像との局所的相関を求めていることに相当する。従
って、例えば、オブジェクト画像における人体の腕の形
状と、ガボール・ウェーブレットの波形とが似ていれ
ば、その位置で局所的に展開係数の振幅が大きくなる。
【0036】スケール・パラメータαmは、ウェーブレ
ット展開係数の空間周波数成分に影響を与える。スケー
ル変換レベルmは、任意の自然数を取りうる。mが大き
くなるほど、オブジェクトの微細な特徴(高周波成分)
を抽出することができる。複数の変換レベルでウェーブ
レット展開係数を求めることにより、低周波成分(巨視
的成分)および高周波成分(微視的成分)を検出するこ
とができる。しかし、モーションの特徴は低周波成分に
より多く含まれ、レベル数を増やしても、必ずしも、モ
ーションの特徴の抽出に役立つわけではない。また、レ
ベル数が増えるほど、計算量が増す。したがって、通常
の場合は、m=0、1、2の3レベル程度で十分であ
る。
【0037】(式1)によるガボール・ウェーブレット
変換によって人のモーションを解析するためには、座標
原点およびガボール・ウェーブレットの中心波長2π/
0を適正に選択する必要がある。座標原点は、オブジ
ェクトまたは人体のほぼ中心に設定されるのが好まし
い。人のモーションあるいは姿勢は、胴体の中心に対す
る頭の位置および手足の位置関係によって特徴付けられ
る。座標原点をオブジェクトの中心(人の場合は、胴体
の中心)に設定することにより、姿勢の変化の検出が容
易になる。
【0038】ウェーブレット展開係数は、原点の位置に
より変動するので、各フレームで座標原点を常にオブジ
ェクトの中心に設定するのが好ましい。しかし、ウェー
ブレット展開係数は微視的成分(高周波成分)および巨
視的成分(低周波成分)の両方を含み、巨視的成分は原
点の位置ずれやオブジェクトの輪郭の変動の影響を比較
的受けにくい。また、ガボール・ウェーブレット展開係
数は実部と虚部(互いに90度位相がずれている)を含
み、原点(x=0、y=0)の取り方によってサンプリ
ング座標が多少変動しても、展開係数の絶対値(振幅)
は大きく変動しない。つまり、位置ずれに強いというメ
リットがある。従って、原点はオブジェクトの中心に正
確に位置づけられる必要はなく、中心付近にあればよ
い。
【0039】ガボール・ウェーブレットの中心波長2π
/u0は胴体の幅の2倍程度に設定されるのが好まし
い。2π/u0を胴体の幅の2倍程度に取ることによ
り、スケール変換レベルm=0のガボール・ウェーブレ
ットと、胴体の形状との相関が高まり、胴体の姿勢に関
する情報が展開係数に良好に反映される。具体的にいう
と、m=0のときの(式1)の波長λは、λ=2π/α
m0(実施例では、u0=0.1、α=2)から、λ=
20π(約60画素)となる。このとき、幅が10π
(約30画素)のシルエット画像部分との相関が強ま
る。10πの幅は、高さが128画素に正規化されたシ
ルエット画像における人体の胴体部分の幅にほぼ相当す
る。m=1の場合の中心波長は、10π(約30画素)
となり、幅5π(約15画素)のシルエット部分との相
関が強まる。mを4以上に大きくしても、シルエットの
輪郭の微細変動を検出するだけであり、必ずしもモーシ
ョンの特徴を抽出するのに有効ではない。
【0040】ここで、図4を参照して、図示の人体につ
いてウェーブレット展開係数を求める処理について具体
的に説明する。展開係数はすべての座標で求める必要は
ない。選択されたサンプリング点で求めるだけで十分に
オブジェクト・パターンの特徴を取り出すことができ
る。サンプリング点の間隔は、スケール変換レベルに応
じて設定される。m=0の場合は、サンプリング点の間
隔をπ/u0程度にするのが好ましい。サンプリング点
は、十字マークで示されているように、x方向に3つの
座標位置(x0=[−24、0、24])、y方向に5
つの座標位置(y0=[−48、−24、0、24、4
8])の計15の座標点とした。
【0041】(式3)のガボール・ウェーブレットは方
向性を有する。方向性を反映させて検出精度を高めるた
め、各サンプリング点を回転中心として、(式2.1)
および(式2.2)によって与えられるl個の異なる回
転角度でガボール・ウェーブレット展開係数を求める。
ガボール・ウェーブレットを回転させることにより、腕
や足の特定方向への曲がりを反映したウェーブレットを
形成することができる。この例では、l=4、例えば、
φl=[0、π/4、π/2、3π/4]における展開
係数を求めた。したがって、m=0の場合は、合計60
個の展開係数が求められることになる。
【0042】ステップ240:次に、(式1)を使用し
て、レベル1(m=1)のガボール・ウェーブレット展
開係数を計算する。m=1の場合、サンプリング点は、
x方向に5つの座標位置(x0=[−24、−12、
0、12、24]、y方向に9つの座標位置(y0
[−48、−36、−24、−12、0、12、24、
36、48])の計45個の座標点とした。ステップ2
30と同様に、サンプリング点当たり4つの角度での展
開係数が求められるので、m=1の場合は合計180個
の展開係数が求められる。
【0043】ステップ250:(式1)を使用して、レ
ベル2(m=2)のガボール・ウェーブレット展開係数
を計算する。m=2の場合、サンプリング点は、x方向
に9つの座標位置(x 0=[−24、−18、−12、
−6、0、6、12、18、24、])、y方向に17
の座標点(y0=[−48、−42、−36、−30、
−24、−18、−12、−6、0、6、12、18、
24、30、36、42、48])の計153点とし
た。ステップ230と同様に、サンプリング点当たり4
つの角度位置での展開係数が求められるので、m=2の
場合は合計180個の展開係数が求められる。
【0044】ステップ260:ステップ230−250
で求めた合計852個の展開係数の絶対値を、このシル
エット画像の特徴量または特徴ベクトルとしてコンピュ
ータのメモリに記憶する。
【0045】ステップ270:現在考慮下の1つの基準
モーションを構成するF枚のフレームのうちの残りの
(F−1)枚のフレームに対して上記ステップ210−
260を繰り返す。1つの基準モーションのF枚のフレ
ームの処理が終了したとき、1つの基準モーションのた
めの展開係数の計算処理が終了する。
【0046】ステップ280:k種類の基準モーション
のうちの残りの(k−1)個の基準モーションの各々に
ついて上述のステップ210−270を繰り返す。ステ
ップ210−280で作成されたk種類の基準モーショ
ンに対するウエーブレット展開係数列は、未知モーショ
ン分類のためのテンプレートとしてメモリに記憶され
る。
【0047】図5は、手順S2の部分300の具体的ス
テップを表わしている。部分300は3つのステップ3
10、320および330を含む。図6は、手順S2の
部分400の具体的ステップを示している。部分400
は、部分300で作成した未知のモーション画像からウ
エーブレット展開係数を算出するものであり、ステップ
410−470を含む。手順2は、手順1のk種類の基
準モーションの代わりに、1つの未知のモーションを表
わすビデオ画像を処理することを除けば、手順1と同じ
である。図5のステップ310−330は図1のステッ
プ110−130と対応し、図6のステップ410−4
70は図3のステップ210−270と対応する。した
がって、個々のステップについての詳しい説明は省略す
る。
【0048】手順2において留意すべきことは、未知の
モーションで取り出すフレームの数である。基準モーシ
ョンの開始点および終了点と対応する未知モーションの
開始点および終了点を特定できるときは、開始点と終了
点との間の区間で基準モーシュンと同数のフレームを取
ればよい。しかし、未知モーションの開始点および終了
点が不明の場合が起こりうる。このような場合は、未知
モーションを含むビデオ区間から、同じサンプリング間
隔で、F個よりも多数のフレームを取り出す必要があ
る。この場合は、図7に関して後述する一致度の計算の
際に、1フレームずつずらしてF個のフレームのグルー
プで調べる必要がある。
【0049】図7は、一致度を計算し、一致度の計算結
果に応じて、未知のモーションを既知の基準モーション
の1つに分類するための手順S3を示しており、ステッ
プ510−530を含む。
【0050】ステップ510:未知のモーションの展開
係数列と、j番目の基準モーションの展開係数列とに対
して、それぞれ、mのレベルに応じた重み付けをする。
一例として、レベル0の重みW(0)を0.8、レベル
1の重みW(1)を1.0、レベル2の重みW(2)を
0.8とする。重みは、どのレベルの展開係数が特徴量
として重要かに基づいて定められ、これは経験的に決定
されている。
【0051】j番目の基準モーションの重み付き展開係
数列をRj(n)、未知のモーションのそれをT(n)
とする(1≦n≦N)。Nは、フレーム当たりの展開係
数の数とフレーム 数Fとの積である。正規化相関によ
る相関値Cj(−1≦Cj≦1)は、[数15]で定義
される。
【0052】
【数15】
【0053】ここで、σR 2はj番目の基準モーションの
重み付き展開係数列Rj(n)の分散、σT 2は未知のモ
ーションの重み付き展開係数列T(n)の分散、σRT 2
はRj(n)とT(n)との共分散である。σR 2、σT 2
およびσRT 2は、それぞれ、[数16]、[数17]お
よび[数18]で求められる。
【0054】
【数16】
【数17】
【数18】
【0055】ここで、
【数19】
【数20】
【0056】ステップ520:ステップ510をk種類
の基準モーションについて実行する。つまり、(式7)
のCj をすべての基準モーションについて求める。次
に、その中で最大の値Cj(max) を求める。Cj(max)
は、最大の一致度を表わす。
【0057】ステップ530:最大一致度 Cj(max)
が、所定のしきい値よりも大きいときに、その最大一致
度と対応する基準モーションと、未知のモーションとが
同一であると判定する。したがって、この未知のモーシ
ョンは、最大一致度を与えた基準モーションと符合する
ものとして識別され、分類されることになる。
【0058】なお、上述したように、未知のモーション
に対してF個よりも多数のフレームを取り出した場合
は、1フレームずつずらしてF個のフレームのグループ
で各基準モーションとの一致度を調べる必要がある。最
大の一致度を生じた基準モーションが、識別されたモー
ションを表わし、最大の一致度を生じたフレーム・グル
ープがそのときの未知のモーションと対応する。
【0059】また、上述した例では、レベル数を3(m
=0、1、2)にし、それぞれのmに対するサンプリン
グ点の数を15個、60個、180個にし、各サンプリ
ング点に対する回転角度を4つに設定したが、これらの
数を他の値にすることもできる。一般に、これらの数を
増やせば解析精度が高まるが、必要な計算の量が増え、
処理速度が遅くなる。また、一般に、複雑なモーション
の分類は、単純なモーションよりも高精度の解析を必要
とする。したがって、レベル、サンプリング点および回
転角度の数は、分類対象のモーションの複雑さや、必要
とされる解析精度などに応じて適宜選択することができ
る。
【0060】さらに、本明細書では、分類対象のオブジ
ェクトの一例として人物を示したが、本発明は、手、
指、腕などの人体の一部のモーションや、動物、あるい
はアニメーション中のキャラクターのような任意のオブ
ジェクトのモーションの識別分類に適用できることは理
解されよう。
【0061】
【発明の効果】(1)オブジェクトのモーションを表わ
す一連のオブジェクト画像のウェーブレット展開係数を
特徴ベクトルとし、かかる特徴ベクトルの時系列相関を
取ることにより、モーションを識別し分類することがで
きる。 (2)ウェーブレット変換は、スケール変換レベルmの
値に応じて、(多重解像度解析の特性により)オブジェ
クトを巨視的および微視的に解析できる。従って、例え
ば、オブジェクトの輪郭の一部が隠蔽あるいは欠落して
いる場合、または体格(大きさ、太さ)に差がある場合
でも、全体として、そのモーションの特徴を検出するこ
とができる。 (3)比較的少ない数のサンプリング点で特徴を取り出
すことができ、計算量を減じて、処理効率を高めること
ができる。また、ウェーブレット展開係数のデータ量
は、元のビデオ画像の1/10ないし1/100であ
り、一致度の計算量も著しく減少する。 (4)オブジェクトの中心付近に原点を設定し、ガボー
ル・ウェーブレットの中心波長2π/u0をオブジェク
ト幅のほぼ2倍とすることにより、人体の姿勢の特徴を
効果的に抽出できる。
【図面の簡単な説明】
【図1】本発明の基本手順を示したフロー図である。
【図2】図1の手順S1の部分100の具体的ステップ
を示したフロー図である。
【図3】図1の手順S1の部分200の具体的ステップ
を示したフロー図である。
【図4】レベルm=0においてウエーブレット展開係数
を求めるのに用いられるサンプリング点を示した図であ
る。
【図5】図5は、手順S2の部分300の具体的ステッ
プを示したフロー図である。
【図6】図6は、手順S2の部分400の具体的ステッ
プを示したフロー図である。
【図7】図7は、一致度を計算し、一致度の計算結果に
応じて、未知のモーションを既知の基準モーションの1
つに分類するための手順S3を示したフロー図である。
【符合の説明】
S1、S2、S3 基本手順 100 手順S1の基準モーション撮像/記憶部分 200 手順S1のガボール・ウェーブレット展開係数
算出部分 300 手順S2の未知モーション撮像/記憶部分 400 手順S2のガボール・ウェーブレット展開係数
算出部分 500 手順S3の一致度計算/分類手順
───────────────────────────────────────────────────── フロントページの続き (72)発明者 越後 富夫 神奈川県大和市下鶴間1623番地14 日本 アイ・ビー・エム株式会社 東京基礎研 究所内 (72)発明者 前田 潤治 神奈川県大和市下鶴間1623番地14 日本 アイ・ビー・エム株式会社 東京基礎研 究所内 (56)参考文献 特開 平11−75203(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06T 7/20 G06T 1/00 H04N 7/32 JICSTファイル(JOIS)

Claims (12)

    (57)【特許請求の範囲】
  1. 【請求項1】オブジェクトの複数の異なる基準モーショ
    ンの各々を表わすビデオ画像シーケンスの複数のフレー
    ムにおける前記オブジェクトの画像のウェーブレット展
    開係数を含むテンプレートを準備するステップと、 前記オブジェクトの未知のモーションを表わすビデオ画
    像シーケンスの複数のフレームにおける前記オブジェク
    トの画像のウェーブレット展開係数を求めるステップ
    と、 前記未知のモーションの展開係数と前記テンプレートに
    おける前記基準モーションの展開係数とに基づいて前記
    未知のモーションと前記基準モーションとの間の一致度
    を算出するステップと、 前記一致度に基づいて前記未知のモーションを分類する
    ステップとを含む、動画中のオブジェクトを分類する方
    法。
  2. 【請求項2】前記基準モーションおよび未知モーション
    に対するウェーブレット展開係数は、ガボール・ウェー
    ブレット関数に基づいて求められることを特徴とする請
    求項1に記載の方法。
  3. 【請求項3】前記ウェーブレット展開係数は、前記オブ
    ジェクトのほぼ中心を座標原点として求められることを
    特徴とする請求項2に記載の方法。
  4. 【請求項4】前記ウェーブレット展開係数は、前記オブ
    ジェクト画像の選択された複数のサンプリング点で求め
    られることを特徴とする請求項2または3に記載の方
    法。
  5. 【請求項5】前記ウェーブレット展開係数は、複数のス
    ケール変換レベルで求められ、前記サンプリング点の数
    は前記レベルごとに異なる数に設定されることを特徴と
    する請求項4に記載の方法。
  6. 【請求項6】前記一致度の算出は、前記スケール変換レ
    ベルに応じて、前記展開係数に所定の重み付けをして行
    われることを特徴とする請求項5に記載の方法。
  7. 【請求項7】前記ウェーブレット展開係数は、各前記サ
    ンプリング点を回転中心とする複数の回転位置で求めら
    れることを特徴とする請求項4−6のいずれか1項に記
    載の方法。
  8. 【請求項8】前記ウェーブレット展開係数は、[数1]
    に基づいて求められることを特徴とする請求項7に記載
    の方法。 【数1】 ここで、 【数2】 【数3】 【数4】 jは(−1)1/2(虚数単位) αはスケール定数、 mはスケール変換レベルを与える拡大縮小パラメータ、 pはオブジェクト画像のx方向画素数、 qはオブジェクト画像のy方向画素数、 (x0,y0)はサンプリング点の座標 φlはサンプリング点(x0,y0)を中心とするガボール
    ・ウェーブレットの回転角度、 lは回転ステップ、 u0は[数4]のガボール・ウェーブレットの中心周波
    数 σ0 2はガウス窓関数の分散
  9. 【請求項9】前記オブジェクトが人体であり、前記ガボ
    ール・ウェーブレットの中心波長2π/u0が前記人体
    の胴体幅の約2倍であることを特徴とする請求項8に記
    載の方法。
  10. 【請求項10】オブジェクトの複数の異なる基準モーシ
    ョンの各々を表わすビデオ画像シーケンスの複数のフレ
    ームにおける前記オブジェクトの画像のガボール・ウェ
    ーブレット展開係数を含むテンプレートを準備するステ
    ップと、 前記オブジェクトの未知のモーションを表わすビデオ画
    像シーケンスの複数のフレームにおける前記オブジェク
    トの画像を取り出すステップと、 前記取り出された前記オブジェクト画像のガボール・ウ
    ェーブレット展開係数を求めるステップと、 前記未知のモーションの展開係数と前記テンプレートに
    おける前記基準モーションの展開係数とに基づいて前記
    未知のモーションと前記基準モーションとの間の一致度
    を算出するステップと、 前記一致度に基づいて前記未知のモーションを分類する
    ステップとを含み、 前記基準モーションおよび未知モーションに対するウェ
    ーブレット展開係数は、前記オブジェクトのほぼ中心を
    座標原点として前記オブジェクト画像の選択された複数
    のサンプリング点において求められ、且つ各前記サンプ
    リング点を回転中心とする所定の複数の回転位置で求め
    られる、動画中のオブジェクトを分類する方法。
  11. 【請求項11】前記ウェーブレット展開係数は、複数の
    スケール変換レベルで求められ、且つ前記一致度の算出
    は、前記レベルに応じて、前記展開係数に所定の重み付
    けをして行われることを特徴とする請求項10に記載の
    方法。
  12. 【請求項12】オブジェクトの複数の異なる基準パター
    ンを表わす基準パターン画像のウェーブレット展開係数
    を含むテンプレートを準備するステップと、 前記オブジェクトの未知のパターンを表わす未知パター
    ン画像のウェーブレット展開係数を求めるステップと、 前記未知のパターンに対する展開係数と前記テンプレー
    トにおける前記基準パターンに対する展開係数とに基づ
    いて前記未知のパターンと前記基準パターンとの間の一
    致度を算出するステップと、 前記一致度に基づいて前記未知のパターンを分類するス
    テップとを含み、 前記基準パターンおよび未知のパターンに対するウェー
    ブレット展開係数は、前記パターン画像のほぼ中心を座
    標原点として前記パターン画像の選択された複数のサン
    プリング点において[数5]に基づいて求められること
    を特徴とする、オブジェクトのパターンを分類する方
    法。 【数5】 ここで、 【数6】 【数7】 【数8】 jは(−1)1/2(虚数単位) αはスケール定数、 mはスケール変換レベルを与える拡大縮小パラメータ、 pはオブジェクト画像のx方向画素数、 qはオブジェクト画像のy方向画素数、 (x0,y0)はサンプリング点の座標 φlはサンプリング点(x0,y0)を中心とするガボール
    ・ウェーブレットの回転角度、 lは回転ステップ、 u0は[数4]のガボール・ウェーブレットの中心周波
    数 σ0 2はガウス窓関数の分散
JP10244556A 1998-08-31 1998-08-31 動画中のオブジェクトを分類する方法 Expired - Fee Related JP3141004B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP10244556A JP3141004B2 (ja) 1998-08-31 1998-08-31 動画中のオブジェクトを分類する方法
US09/384,743 US6606412B1 (en) 1998-08-31 1999-08-27 Method for classifying an object in a moving picture

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10244556A JP3141004B2 (ja) 1998-08-31 1998-08-31 動画中のオブジェクトを分類する方法

Publications (2)

Publication Number Publication Date
JP2000076461A JP2000076461A (ja) 2000-03-14
JP3141004B2 true JP3141004B2 (ja) 2001-03-05

Family

ID=17120476

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10244556A Expired - Fee Related JP3141004B2 (ja) 1998-08-31 1998-08-31 動画中のオブジェクトを分類する方法

Country Status (2)

Country Link
US (1) US6606412B1 (ja)
JP (1) JP3141004B2 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6795504B1 (en) * 2000-06-21 2004-09-21 Microsoft Corporation Memory efficient 3-D wavelet transform for video coding without boundary effects
US6944315B1 (en) * 2000-10-31 2005-09-13 Intel Corporation Method and apparatus for performing scale-invariant gesture recognition
US6778705B2 (en) * 2001-02-27 2004-08-17 Koninklijke Philips Electronics N.V. Classification of objects through model ensembles
US7212651B2 (en) * 2003-06-17 2007-05-01 Mitsubishi Electric Research Laboratories, Inc. Detecting pedestrians using patterns of motion and appearance in videos
US7536064B2 (en) * 2005-05-31 2009-05-19 Microsoft Corporation Image comparison by metric embeddings
US8014565B2 (en) * 2005-08-26 2011-09-06 Sony Corporation Labeling used in motion capture
US20080123959A1 (en) * 2006-06-26 2008-05-29 Ratner Edward R Computer-implemented method for automated object recognition and classification in scenes using segment-based object extraction
KR100846500B1 (ko) * 2006-11-08 2008-07-17 삼성전자주식회사 확장된 가보 웨이브렛 특징 들을 이용한 얼굴 인식 방법 및장치
US8788848B2 (en) * 2007-03-22 2014-07-22 Microsoft Corporation Optical DNA
US8837721B2 (en) * 2007-03-22 2014-09-16 Microsoft Corporation Optical DNA based on non-deterministic errors
US8208552B2 (en) * 2008-01-25 2012-06-26 Mediatek Inc. Method, video encoder, and integrated circuit for detecting non-rigid body motion
US8577154B2 (en) * 2008-06-16 2013-11-05 University Of Southern California Automated single viewpoint human action recognition by matching linked sequences of key poses
KR101016095B1 (ko) * 2009-02-20 2011-02-17 성균관대학교산학협력단 이진영상들 및 하프변환을 이용한 영상 배경 변화량 검출 장치 및 방법
US9135948B2 (en) * 2009-07-03 2015-09-15 Microsoft Technology Licensing, Llc Optical medium with added descriptor to reduce counterfeiting
US9036920B2 (en) * 2010-10-08 2015-05-19 Industrial Technology Research Institute Method of detecting feature points of an object in a system for motion detection
US8761437B2 (en) 2011-02-18 2014-06-24 Microsoft Corporation Motion recognition
JP5632512B1 (ja) * 2013-07-02 2014-11-26 パナソニック株式会社 人物行動分析装置、人物行動分析システムおよび人物行動分析方法、ならびに監視装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6081750A (en) * 1991-12-23 2000-06-27 Hoffberg; Steven Mark Ergonomic man-machine interface incorporating adaptive pattern recognition based control system
US5684894A (en) * 1994-11-28 1997-11-04 Eastman Kodak Company Scale specific and robust line/edge encoding of images
AUPN727195A0 (en) 1995-12-21 1996-01-18 Canon Kabushiki Kaisha Motion detection method and apparatus
US5828769A (en) * 1996-10-23 1998-10-27 Autodesk, Inc. Method and apparatus for recognition of objects via position and orientation consensus of local image encoding
US6075878A (en) * 1997-11-28 2000-06-13 Arch Development Corporation Method for determining an optimally weighted wavelet transform based on supervised training for detection of microcalcifications in digital mammograms
US6301370B1 (en) * 1998-04-13 2001-10-09 Eyematic Interfaces, Inc. Face recognition from video images

Also Published As

Publication number Publication date
US6606412B1 (en) 2003-08-12
JP2000076461A (ja) 2000-03-14

Similar Documents

Publication Publication Date Title
JP3141004B2 (ja) 動画中のオブジェクトを分類する方法
KR100474848B1 (ko) 영상시각 정보를 결합하여 실시간으로 복수의 얼굴을검출하고 추적하는 얼굴 검출 및 추적 시스템 및 방법
Matern et al. Gradient-based illumination description for image forgery detection
JP4739355B2 (ja) 統計的テンプレートマッチングによる高速な物体検出方法
Tang Wavelet theory approach to pattern recognition
US7957560B2 (en) Unusual action detector and abnormal action detecting method
US7003135B2 (en) System and method for rapidly tracking multiple faces
US8401250B2 (en) Detecting objects of interest in still images
Lu et al. Robust and efficient saliency modeling from image co-occurrence histograms
Yarlagadda et al. A novel method for human age group classification based on Correlation Fractal Dimension of facial edges
US11315358B1 (en) Method and system for detection of altered fingerprints
Rida et al. Forensic shoe-print identification: a brief survey
WO2023165616A1 (zh) 图像模型隐蔽后门的检测方法及系统、存储介质、终端
JP2009064434A (ja) 判定方法、判定システムおよびコンピュータ読み取り可能な媒体
Anzid et al. Multimodal images classification using dense SURF, spectral information and support vector machine
CN115527269A (zh) 一种人体姿态图像智能识别方法及系统
Qian et al. A learning framework for the automatic and accurate segmentation of cardiac tagged MRI images
kumar Shukla et al. A novel method for identification and performance improvement of Blurred and Noisy Images using modified facial deblur inference (FADEIN) algorithms
Chakraborty et al. Hand gesture recognition: A comparative study
CN110516638B (zh) 一种基于轨迹和随机森林的手语识别方法
ALAMRI et al. Face recognition based on convolution neural network and scale invariant feature transform
Vasconez et al. Finding a proper approach to obtain cognitive parameters from human faces under illumination variations
Nautiyal et al. An automated technique for criminal face identification using biometric approach
Walker et al. Correspondence Using Distinct Points Based on Image Invariants.
Tang Status of pattern recognition with wavelet analysis

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees