JP4971114B2

JP4971114B2 - 物体認識装置、物体認識方法、物体認識プログラム、および該プログラムを格納するコンピュータ可読媒体

Info

Publication number: JP4971114B2
Application number: JP2007306778A
Authority: JP
Inventors: 崇松嶋
Original assignee: Nippon Systemware Co Ltd
Current assignee: Nippon Systemware Co Ltd
Priority date: 2007-11-28
Filing date: 2007-11-28
Publication date: 2012-07-11
Anticipated expiration: 2027-11-28
Also published as: JP2009129388A

Description

本発明は、動画像中の物体を識別し、その動きをリアルタイムで追跡する物体認識装置、物体認識方法、物体認識プログラム、および該プログラムを格納するコンピュータ可読媒体に関する。

画像中の物体を認識する従来の画像処理技術としては、テンプレートマッチングを用いた手法やオプティカルフローを用いた手法などが広く知られている。

テンプレートマッチングは、認識する物体の画像（テンプレート画像）を予め用意し、処理対象の画像上に該テンプレート画像を移動させながら比較して、該物体を認識する方法である（特許文献１参照）。この方法は、物体の形状や色の違いまで識別できるため、高い精度で物体を検出することが可能である。

一方、オプティカルフローは、動画像の差分画像を作成し、作成した差分画像中の物体の動きベクトルを求めて、該物体の動きを追跡する方法である（特許文献２および３参照）。この方法は、動画像中の移動物体をリアルタイムに追跡することが可能である。
特開平０６−０７６０６２特開２００６−１４８４２５特開２００４−２２００５９

テンプレートマッチングを用いて移動物体の動きをリアルタイムで追従するためには、入力画像の走査を十数回程度に設定しなくてはならない。しかし、詳細に物体を識別するためには走査回数はテンプレート画像の画素数と同等、すなわち相当な回数が必要となる。したがって、テンプレート画像処理は動画像中の移動物体をリアルタイムで認識をする用途には適していない。

一方、オプティカルフローは物体の動き情報のみに着目し、物体の色、大きさ、形状などをあまり考慮していない。そのため、物体を精度よく識別することは困難である。よって、画像中に複数の物体が存在する場合に誤認識を生じる恐れがある。

本発明は上記のような問題を考慮して創案されたものであり、本発明の課題は、動画像中の物体を高精度で識別し、その動きをリアルタイムで追跡することが可能な物体認識装置、物体認識方法、物体認識プログラム、および該プログラムを格納したコンピュータ可読媒体を提供することである。本発明の別の課題は、テンプレートマッチングで動画像を適切に処理する物体認識装置、物体認識方法、物体認識プログラム、および該プログラムを格納したコンピュータ可読媒体を提供することである。

前記課題を解決するために創案された請求項１の発明は、テンプレートマッチングを用いて動画像中の物体を認識する物体認識装置であって、前記動画像から背景画像を差分することで、フレーム画像を作成する差分画像生成手段と、テンプレート画像から、そのデータ量を段階的に変化した削減率で減少させることにより複数の階層テンプレート画像を作成する階層テンプレート生成手段と、前記動画像を構成する複数のフレーム画像のそれぞれから、そのデータ量を前記削減率で減少させることにより複数の階層フレーム画像を作成する階層フレーム生成手段と、同一の前記削減率を有する前記階層フレーム画像と前記階層テンプレート画像とを組み合わせ、前記削減率の大きい順にテンプレートマッチング処理を行うマッチング手段と、前記テンプレートマッチング処理時に、前記階層フレーム画像の各領域における類似度を求める類似度計算手段と、前記類似度と所定の閾値とを比較する閾値判定手段と、を備える。さらに、前記フレーム画像は、色情報と透明度情報を有し、前記類似度は、前記階層フレーム画像における色分布の類似度と、透明度分布の類似度と、１つ前に処理したフレーム画像の最も高い類似度を有する領域からの距離による重みとから求められ、前記所定の閾値よりも小さい類似度を有する領域については、以降の前記テンプレートマッチング処理を行なわず、最後に該処理を行った階層フレーム画像の最も高い類似度を有する領域に前記物体が存在すると判断することを特徴とする。

前記課題を解決するために創案された請求項２の発明は、請求項１に記載の装置において、前記領域当たりの前記類似度を、該領域を構成する画素のそれぞれで類似度を求めて、その類似度の絶対値を用いて算出することを特徴とする。

前記課題を解決するために創案された請求項３の発明は、請求項１または２に記載の物体認識装置を搭載したポインティングデバイスである。

前記課題を解決するために創案された請求項４の発明は、テンプレートマッチングを用いて動画像中の物体を認識する物体認識方法であって、前記動画像から背景画像を差分することで、フレーム画像を作成する差分画像生成段階と、テンプレート画像から、そのデータ量を段階的に変化した削減率で減少させることにより複数の階層テンプレート画像を作成する階層テンプレート生成段階と、前記動画像を構成する複数のフレーム画像のそれぞれから、そのデータ量を前記削減率で減少させることにより複数の階層フレーム画像を作成する階層フレーム生成段階と、同一の前記削減率を有する前記階層フレーム画像と前記階層テンプレート画像とを組み合わせ、前記削減率の大きい順にテンプレートマッチング処理を行うマッチング段階と、前記マッチング段階に、前記階層フレーム画像の各領域における類似度を求める類似度計算段階と、前記類似度と所定の閾値とを比較する閾値判定段階と、を含み、前記フレーム画像は、色情報と透明度情報を有し、前記類似度は、前記階層フレーム画像における色分布の類似度と、透明度分布の類似度と、１つ前に処理したフレーム画像の最も高い類似度を有する領域からの距離による重みとから求められ、前記所定の閾値よりも小さい類似度を有する領域については、以降の前記テンプレートマッチング処理を行なわず、最後に該処理を行った階層フレーム画像の最も高い類似度を有する領域に前記物体が存在すると判断することを特徴とする。

前記課題を解決するために創案された請求項５の発明は、請求項４に記載の物体認識方法において、前記領域当たりの前記類似度は、該領域を構成する画素のそれぞれで類似度を求めて、その類似度の絶対値を用いて算出することを特徴とする。

前記課題を解決するために創案された請求項６の発明は、請求項４または５に記載の方法をコンピュータに実行させるためのプログラムである。

前記課題を解決するために創案された請求項７の発明は、請求項６に記載のプログラムを格納したコンピュータ可読媒体である。

請求項１の装置および請求項４の方法では、従来、処理速度が遅いため動画像には適用が困難であったテンプレートマッチング処理を、動画像中に好適に適用可能な程度まで高速化させている。この装置および方法は、動画像中の移動物体のリアルタイムな追跡および識別の可否は該動画像のデータ量に依存しないというコンセプトに基づいている。画像のデータ量を低減させると物体の詳細な輪郭は不明瞭になるが、それでも物体の有無や他の物体との識別は可能である。そのため、データ量を削減させたフレーム画像で高速に物体の検出および識別を行い、物体が存在すると思われる領域を選別し、次にデータ量のより多いフレーム画像の選別した領域だけに同様の処理を行う。そして、最後にオリジナルのフレーム画像の選別した領域のみ処理を行い、最終的な動画像中の物体の動きとその位置を特定する。

この装置および方法は、テンプレートマッチングの高い精度で物体を識別可能という長所を生かし、かつ、処理速度が遅いという従来の問題点を克服している。

また、請求項１の装置および請求項４の方法では、更に、フレーム画像の差分画像を作成することで、画像に色（ＲＧＢ）情報に加え、さらに透明度（Ａ）情報を付加し、より物体の検出および識別の精度を高め、誤認識の可能性を低減している。例えば、処理する動画像の背後に非検出物体と類似の形状や色を有する別の静止物体が存在する場合、装置は誤ってこの別の物体を非検出物体として認識する可能性がある。しかし、上述の差分画像を作成すれば、この別の静止物体は取り除かれる。さらに、背景は短時間には変化しないという前提の基で、背景同士のマッチングも防止している。これにより、画像全体がマッチングするような事象も防ぐことが可能となる。

また、請求項１の装置および請求項４の方法は、更に、類似度を、階層フレーム画像における色分布の類似度と、透明度分布の類似度と、１つ前に処理したフレーム画像の最も高い類似度を有する領域からの近さによる重みとから求めることで、高い精度で動画像中の物体を検出および識別する。

請求項２の装置および請求項５の方法では、１領域当たりの類似度を、該領域を構成する複数の画素それぞれの類似度を求めて、その類似度の絶対値を用いて算出している。従来、類似度を求める場合には、各画素の類似度を所定の閾値と比較し、その結果を基に該類似度を２値化し、それらの値を所定の領域単位で平均化することでその領域における類似度を算出していた。しかし、当該装置および方法では、そのような２値化は行わず、各画素の類似度の絶対値を用いて、それぞれの領域における類似度を算出している。このようにして類似度を算出する方が、従来の手法よりも正確に類似度を求めることができる。したがって、より高い精度で動画像中の物体を検出および識別することができる。

請求項３のポインティングデバイスは、操作者のすばやいジェスチャに追従し、ジェスチャの微妙な変化を識別することが可能である。よって、当該ポインティングデバイスを用いれば、マウスなどのデバイスを使用できない状況下でプログラムに所望の動作をさせたり、あるいはペインティングプログラムに様々な文字や絵を描かせることが可能となる。

請求項６のプログラムによって、上記の物体認識方法を任意のコンピュータに実行させることが可能となる。

請求項７のコンピュータ可読媒体によって、上記の物体認識方法を特定のユーザに好適に提供することが可能となる。

本発明により、テンプレートマッチングの処理を動画像に適用可能な程度まで高速化することができる。その結果、動画像中の物体を識別し、その動きをリアルタイムで追従することが可能な物体認識装置および方法を提供することができる。さらに、当該の装置または方法を、ポインティングデバイス、プログラム、コンピュータ可読媒体などの様々な形態で提供することができる。

本発明の実施形態を説明する前に、本発明で使用しているテンプレートマッチング処理の手法について簡単に説明する。図１は、テンプレートマッチングの処理原理を示す図である。テンプレートマッチングは、処理対象の画像から予め用意した画像（テンプレート画像）と同一部分を検出する。この図において、画像Ａはテンプレート画像に相当し、画像Ｂが処理対象の画像に相当する。具体的なマッチング処理手順は以下の通りである。
１、処理対象の画像Ｂ上（図では左上）にテンプレート画像Ａを重ねる。
２、重ねた領域の双方の輝度値の相関（類似度）を求める。
３、画像Ｂに対して画像Ａの位置を画像Ｂ１つ分だけ横の方向（図では右方向）にシフトさせる。
４、１〜３を繰り返し、横方向が終わったら、画像Ｂ１つ分だけ垂直方向（図では下方向）にシフトさせる。
４、１〜４を繰り返し、画像Ｂ全体に対して相関を調べる。
５、画像Ｂ上の一番高い相関を示す領域（図では斜線で囲んだ領域）に画像Ａの部分が存在すると断定する。

次に、添付図面を参照して、本発明の１実施形態を説明する。なお、本実施形態において、非検出物体が写った動画を構成するコマ画像をフレーム画像と称する。
図２は、本発明の一実施形態に係る物体認識装置１０００のブロック図である。物体認識装置１０００は、動画が撮影可能なビデオカメラなどの撮像装置とケーブルまたは無線等で接続され、該撮像装置から入力された動画像中の物体を識別し、その動きをリアルタイムで追跡する機能を有し、主に汎用コンピュータで実装される。主な機能は、図２に示すように、画像データ入力部１０と、差分画像生成部２０と、テンプレート画像登録部３０と、フレーム画像登録部４０と、階層テンプレート画像群生成部５０と、階層フレーム画像群生成部６０と、テンプレートマッチング部９０と、類似度計算部１００と、閾値判定部１１０と、物体特定部１２０と、物体識別および位置情報出力部１３０とから構成される。更に、類似度に関するデータを格納するためのデータベース（図示せず）を備えてもよい。このデータベースの詳細については後述する。

画像データ入力部１０は、物体認識装置１０００と接続された撮像装置から動画像および静画像を所定のインターフェースを介して受け取る機能を有する。なお、対応可能な画像のファイル形式については特に限定はせず、動画像ならばＭＰＥＧ−２、ＱｕｉｃｋＴｉｍｅ（登録商標）、ＲｅａｌＶｉｄｅｏ、ＭＰＥＧ−４、ｗｍｖ、Ｆｌａｓｈファイルなど、静画像ならばＪＰＥＧ、ＴＩＦＦ、ＧＩＦ、ＰＮＧなどの周知の形式に対応可能であることが好ましい。

差分画像生成部２０は、画像データ入力部１０が受け取ったフレーム画像を基に、差分画像を作成する機能を有する。差分とは、２つの画像のそれぞれの対応する画素間の階級値の差、あるいは差の絶対値のことであり、差分画像は白＝２５５〜黒＝０で表現された画像である。画像データ入力部１０が受け取った画像は色（ＲＧＢ）情報を有するが、この差分画像はさらに透明度（Ａ）情報を有する。

より詳細に説明すると、ある物体を撮像装置で撮影する場合に、併せてその物体を除いた背景も撮影する。差分画像生成部２０は、物体が写ったフレーム画像と、背景の写った画像（以下、背景画像とする）を受け取り、双方の対応する画素の差分を求める。図６を参照すると、（ａ）が背景画像で、（ｂ）がフレーム画像、そして（ｃ）は双方の画像から求めた差分画像の例である。同一部分が黒色で、異なる部分が白色で示されている。

このように差分画像を作成する理由は、物体認識装置１０００の誤認識を防ぎ、検出確度を向上させるためである。仮に、背後に非検出物体と類似の形状や色を有する別の静止物体が存在した場合、装置１０００は誤ってこの別の物体を非検出物体として認識する恐れがある。しかし、上述の差分画像を作成すれば、この別の静止物体は取り除かれるため、装置１０００に検出される可能性はなくなる。さらに、背景は短時間には変化しないという前提の基で、背景同士のマッチングも防止している。これにより、画像全体がマッチングするような事象も防ぐことが可能となる。

差分画像生成部２０はテンプレート画像およびフレーム画像の差分画像を作成した後、テンプレート画像の差分画像はテンプレート画像登録部３０に、フレーム画像の差分画像はフレーム画像登録部４０に送る。

テンプレート画像登録部３０およびフレーム画像登録部４０は、それぞれ差分画像生成部２０から受け取ったテンプレート画像およびフレーム画像を装置のメモリまたはディスクに記憶させる。

階層テンプレート画像群生成部５０は、テンプレート画像登録部３０に記憶されたテンプレート画像を基に、そのデータ量が段階的に削減した、すなわち、その画素数が段階的に減少した画像を複数個作成する。なお、データ量の削減の度合い（以下、削減率ｄ）は、任意の分数値、例えば１／１、１／２、１／４、・・・１／２^ｎ、または１／１、１／４、１／１６、・・・１／４^ｎ等でよい。なお、これらのデータ量が削減した画像を階層テンプレート画像と称する（ここで、ｎ＋１は階層画像の作成数を表す）。作成数ｎ＋１は、任意の正整数であり、本実施形態ではｎ＝２、すなわち作成数ｎ＋１＝３とする。なお、これらの変数の決定方法については後述する。

階層フレーム画像群生成部６０は、フレーム画像登録部４０に記憶されたフレーム画像を基に、そのデータ量が段階的に削減した、すなわち、その画素数が段階的に減少した画像を複数個作成する。なお、その削減率ｄは上記した階層テンプレート画像の削減率ｄと同一で、同様に作成数ｎ＋１も同一である。これらのデータ量が削減した画像を階層フレーム画像と称する。

テンプレートマッチング部９０は、物体認識装置１０００の中で最も重要な役割を果たす構成要素であって、階層テンプレート画像を用いて、階層フレーム画像にテンプレートマッチング処理を施すことで、フレーム画像上の非検出物体の位置を特定する機能を有する。また、内部に類似度計算部１００と、閾値判定部１１０と、物体特定部１２０とを備える。そして、その特定した物体とその物体が位置する領域座標とに関する情報を物体識別および位置情報出力部１３０に送る。テンプレートマッチング部９０の行うテンプレートマッチング処理方法の詳細については後述する。

物体識別および位置情報出力部１３０は、後段の装置と所定のインターフェースを介して接続され、テンプレートマッチング部９０内の物体特定部１２０から受け取った物体と領域座標とに関する情報を該後段の装置に所定の形式で出力する機能を有する。なお、出力形式については特に限定せず、後段の装置とコミュニケーション可能な当該技術において周知の形式でよい。

以上、本願の一実施形態に係る物体認識装置１０００の機能について説明をした。次はテンプレートマッチング部９０が行うテンプレートマッチング処理内容について詳細に説明する。なお、説明において削減率ｄを１／２^ｎ倍、作成数ｎ＋１を３と定義する。

最初に、受け取った階層テンプレート画像および階層フレーム画像の中から同一の削減率を有する画像同士を組み合わせる。すなわち、削減率ｄが１／１のペア（第１のペア）と、１／２のペア（第２のペア）と、１／４のペア（第３のペア）とを構成する。

次に、データ量の少ない順に、すなわち、第３のペア、第２のペア、第１のペアの順に、テンプレートマッチングを行う。
図３（ａ）〜（ｃ）は、それぞれ第３ペアから第１ペアの階層フレーム画像および階層テンプレート画像と、該階層フレーム画像の類似度算出の例を示している。この図を参照して説明を続ける。なお、図中で左側は階層フレーム画像で、右側がテンプレート画像である。この図のそれぞれの画像の左上角を原点とし、横側をＸ軸、縦側をＹ軸と定義する。また、削減率ｄはフレーム全体のデータ量の削減の度合いを意味するが、この他に、幅（Ｘ）方向のデータ量の削減の度合いを「幅（width）の削減率」、Ｙ方向のデータ量の削減の度合いを「高さ（height）の削減率」と定義する。
まず、第３のペアの階層フレーム画像と階層テンプレート画像とを用いてテンプレートマッチングを行う。図３（ａ）は、第３のペアの階層フレーム画像と階層テンプレート画像とを例示している。この階層フレームの削減率ｄは１／４、高さの削減率は１／２、幅のd削減率も１／２である。この階層フレーム画像は、それぞれ同一のデータ量を有するＲ１ａ〜Ｒ９ａの計９個の類似度算出領域を有している。テンプレートマッチング部９０は、階層テンプレート画像を階層フレーム画像上でスライドさせ、類似度計算部１００がそれぞれの類似度計算領域に対して類似度を求める。ここで、図３（ａ）〜（ｃ）に示す階層テンプレート画像上の灰色で塗りつぶした部分は、階層テンプレート画像の原点が移動する範囲である。なお、類似度の算出式については後述する。

次に、閾値判定部１１０が、算出したそれぞれの領域（Ｒ１ａ〜Ｒ９ａ）における類似度と、所定の閾値ｔ（本実施形態では０．６と設定する）とを比較する。図３（ａ）において、太線で囲んだエリアが所定の閾値ｔよりも大きな類似度を有する領域（Ｒ５ａ、Ｒ６ａ、Ｒ８ａ、Ｒ９ａ）とする。これで、第３のペアの階層フレーム画像の処理を終了する。

続いて、第２のペアである削減率ｄが１／２の階層フレーム画像と階層テンプレート画像とを用いてテンプレートマッチングを行う。図３（ｂ）は、第２のペアの階層フレーム画像と階層テンプレート画像とを例示している。この階層フレームの削減率ｄは１／２、高さの削減率は１／２、幅の削減率は１／１である。また、この第２のペアの階層フレーム画像はＲ１ｂ〜Ｒ１８ｂの計１８個の領域を有する。領域Ｒ１ｂとＲ２ｂとが第３のペアの領域Ｒ１ａに相当し、以下、領域Ｒ３ｂとＲ４ｂとが領域Ｒ２ａ、領域Ｒ５ｂとＲ６ｂとが領域Ｒ３ａ、領域Ｒ７ｂとＲ８ｂとが領域Ｒ４ａ、領域Ｒ９ｂとＲ１０ｂとが領域Ｒ５ａ、領域Ｒ１１ｂとＲ１２ｂとが領域Ｒ６ａ、領域Ｒ１３ｂとＲ１４ｂとが領域Ｒ７ａ、領域Ｒ１５ｂとＲ１６ｂとが領域Ｒ８ａ、領域Ｒ１７ｂとＲ１８ｂとが領域Ｒ９ａに相当する。
第３のペアの場合と同様に各領域の類似度を算出するが、今度はすべての領域についてマッチングを行うのではなく、図３（ｂ）に示す、第３のペアの階層フレーム画像で閾値よりも大きな類似度を示した領域（Ｒ５ａ、Ｒ６ａ、Ｒ８ａ、Ｒ９ａ）に相当する領域（Ｒ９ｂ、Ｒ１０ｂ、Ｒ１１ｂ、Ｒ１２ｂ、Ｒ１５ｂ、Ｒ１６ｂ、Ｒ１７ｂ、Ｒ１８ｂ）のみマッチングを行い、その類似度を求める。そして、求めた類似度を閾値ｔと再び比較する。ここでは、太線で囲んだエリアの領域（Ｒ１０ｂ、Ｒ１１ｂ、Ｒ１２ｂ、Ｒ１６ｂ、Ｒ１７ｂ、Ｒ１８ｂ）が閾値よりも大きな類似度を有している。これで、第２ペアの階層フレーム画像の処理を終了する。

最後に、第１のペアである削減率ｄが１／１の階層フレーム画像と階層テンプレート画像とを用いてテンプレートマッチングを行う。図３（ｃ）は、第１のペアの階層フレーム画像と階層テンプレート画像とを例示している。この階層フレームの削減率ｄは１／１、高さおよび幅の削減率も１／１である。また、この第１のペアの階層フレーム画像はＲ１ｃ〜Ｒ３６ｃの計３６個の領域を有する。領域Ｒ１ｃとＲ７ｃとが第２のペアの領域Ｒ１ｂに相当し、以下、領域Ｒ２ｃとＲ８ｃとが領域Ｒ２ｂ、領域Ｒ３ｃとＲ９ｃとが領域Ｒ３ｂ、領域Ｒ４ｃとＲ１０ｃとが領域Ｒ４ｂ、領域Ｒ５ｃとＲ１１ｃとが領域Ｒ５ｂ、領域Ｒ６ｃとＲ１２ｃとが領域Ｒ６ｂ、領域Ｒ１３ｃとＲ１９ｃとが領域Ｒ７ｂ、領域Ｒ１４ｃとＲ２０ｃとが領域Ｒ８ｂ、領域Ｒ１５ｃとＲ２１ｃとが領域Ｒ９ｂ、領域Ｒ１６ｃとＲ２２ｃとが領域Ｒ１０ｂ、領域Ｒ１７ｃとＲ２３ｃとが領域Ｒ１１ｂ、領域Ｒ１８ｃとＲ２４ｃとが領域Ｒ１２ｂ、領域Ｒ２５ｃとＲ３１ｃとが領域Ｒ１３ｂ、領域Ｒ２６ｃとＲ３２ｃとが領域Ｒ１４ｂ、領域Ｒ２７ｃとＲ３３ｃとが領域Ｒ１５ｂ、領域Ｒ２８ｃとＲ３４ｃとが領域Ｒ１６ｂ、領域Ｒ２９ｃとＲ３５ｃとが領域Ｒ１７ｂ、領域Ｒ３０ｃとＲ３６ｃとが領域Ｒ１８ｂに相当する。
今度は、図３（ｃ）に示す、第２のペアの階層フレーム画像で閾値よりも大きな類似度を示した領域（Ｒ１０ｂ、Ｒ１１ｂ、Ｒ１２ｂ、Ｒ１６ｂ、Ｒ１７ｂ、Ｒ１８ｂ）に相当する領域（Ｒ１６ｃ、Ｒ１７ｃ、Ｒ１８ｃ、Ｒ２２ｃ、Ｒ２３ｃ、Ｒ２４ｃ、Ｒ２８ｃ、Ｒ２９ｃ、Ｒ３０ｃ、Ｒ３４ｃ、Ｒ３５ｃ、Ｒ３６ｃ）のみ類似度を求める。そして、その領域内で類似度の一番高い領域（Ｒ２２ｃ）を特定して、物体特定部１２０はその特定した領域Ｒ２２ｃに非検出物体が存在すると判断し、その領域の座標情報を非検出物体の情報と併せて物体識別および位置情報出力部１３０に送る。
また、第３のペアのすべての領域の類似度が閾値よりも小さい場合は、物体特定部１２０は非検出物体が処理画像中に存在しないと判断し、所定のコードを物体識別および位置情報出力部１３０に送る。

なお、上述の図３（ａ）〜（ｃ）に示した第３〜１のペアの階層フレーム画像の各領域は、すべて同一のデータ量を有していることに留意されたい。よって、階層フレーム画像の削減率ｄが小さいほど（すなわち、所有するデータ量が多い階層フレーム画像ほど）、所有する領域の数が多くなり、物体識別の精度も向上する。

次に、テンプレートマッチング部９０が有するデータベース構造について、図４（ａ）〜（ｃ）を参照して説明する。（ａ）は削減率ｄが１／４、（ｂ）はｄが１／２、（ｃ）はｄが１／１の階層フレーム画像の場合をそれぞれ例示している。左に示した表がデータベースの構造図であり、右に示した図は、このデータベースの構造の理解を容易にするために用いる階層フレーム画像である。

この図に示すように、テンプレートマッチング部９０のデータベースには、テンプレートマッチング部９０自身が求めた類似度が、該当する階層フレーム画像および類似度算出領域に関連付けられたデータとしてデータベースに格納されている。

この関連付けされたデータは、ＭＡＰｍ（ｉ）＝（Ｘ座標、Ｙ座標、類似度）の関数で定義される。ここで、ｍは階層フレーム画像の番号を示し、この例では、削減率が１／１の場合は０、１／２の場合は１、１／４の場合は２である。ｉは各階層フレーム画像の類似度算出領域を示し、図示の例では各階層フレーム画像の左上から順に一意に付与されている。ＸおよびＹ座標は、各階層フレーム画像上の座標位置を示す。なお、図示の例では、階層フレーム画像の左上角が原点で、横側がＸ軸、縦側がＹ軸である。

最後に、各領域における類似度の算出式を示すが、その前に類似度を求める数式１〜４にて用いる文字列を以下のように定義する。

上記数式１は、Ｍａｐ１（ｉ）を求めるときの式であり、他の階層については、１を置き換えて求める。

なお、上記計算式において、1つ前に処理を行ったフレーム画像の最大類似度を有する領域の座標と、各処理座標との間の距離を求めて類似度に重み付けを行っている。つまり、処理領域の位置が１フレーム前の画像で特定された領域に近いほど、その領域の類似度は大きくなるように重み付けが行われる。また、１フレーム前の画像が存在しない場合には、予め決められた任意の領域（例えば、フレーム画像の真ん中の領域）の座標を用いる。

また、従来、類似度を求める場合には、各画素の類似度を所定の閾値と比較し、その結果を基に該類似度を２値化し、それらの値を領域単位で平均化することでその領域における類似度を算出していた。しかし、上記数式１から４に示す類似度算出方法では、そのような２値化は行わず、各画素の類似度の絶対値を用いて、それぞれの領域における類似度を算出している。本発明の発明者らは、この類似度算出方法の方が、従来の２値化を用いた方法よりも正確に物体の位置を特定できることを確認している。

本実施形態では、階層フレーム画像において類似度が所定の閾値ｔより大きい領域のみを抽出して、次の階層フレーム画像のマッチング対象としたが、本発明はこの抽出方法に限定されるものではない。
代替の方法としては、階層フレーム画像の各領域における類似度を求めた後に、その類似度と所定の閾値ｔと比較し、該閾値よりも小さい類似度を有する領域を排除した後、残った領域の中から類似度が大きい順に所定の数ｋ個の領域を抽出し、その抽出した領域を次の階層フレーム画像における処理対象としてよい。本発明の発明者らは、この方法の方が前者の方法よりも高い確度で非検出物体を認識できることを確認している。後述する実施例ではこの方法を採用する。ｋは任意の正整数であり、階層フレーム画像ごとに異なる数値を用いてよい。

この処理で用いる変数である削減率ｄ、階層画像作成数ｎ＋１、閾値ｔ、抽出領域数ｋは、物体認識装置１０００の演算処理能力、入力された動画像のフレームレート、フレーム画像のデータ量、テンプレート画像のデータ量などに依存し、一意に決定することはできない。よって、これらの変数を可変しながら装置を動作させて、結果をモニタしながら変数を決定する必要がある。よって、物体認識装置１０００は、これらの変数を可変できるように構成されねばならない。

なお、本発明の発明者らは、以下の条件で好適に装置を使用できることを実験より確認した。
ｄ＝１／４^ｎ、ｎ＝５（すなわち、作成数はｎ＋１＝６）、ｔ＝０．６
ｋ＝１２８（＠ｎ＞＝３）、４（＠ｎ＝２）、２（＠ｎ＝１）、１（＠ｎ＝０）
ここで、入力動画像のフレームレートは１２ｆｐｓ、フレーム画像の画素数は６４０×４８０、テンプレート画像の画素数は２５６×１９２、物体認識装置１０００のＣＰＵはＩｎｔｅｌＣｏｒｅＤｕｏ（登録商標）Ｌ２５００、クロック周波数１．８３ＧＨｚ、メモリ５１２ＭＢである。
これらの関係を以下の表に示す。

ただし、これらの数値は参考値であり、本発明を限定するものではないことに留意されたい。

以上、本願の１実施形態に係る物体認識装置１０００のテンプレートマッチング部９０が行うマッチング処理について説明した。
この処理方法によれば、従来のテンプレートマッチング処理方法に比べて高速に画像中の物体を認識することが可能となり、それゆえ、該処理方法を動画像の移動体検出に好適に適用することができる。

次に、上記の物体認識装置１０００を用いて、実際に動画像中の移動物体を検出する手順について説明する。なお、各変数は、ｎ＝０〜２とし、後は表１の条件に従うものとする。
本実施例では、本発明の実施形態に係る物体認識装置１０００をポインティングデバイスに適用した例を示す。ポインティングデバイスとは、コンピュータの入力装置であり、主に、マウス、トラップパッド、トラックボールなどに代表され、画面上のカーソルの移動や、各種のコマンドを実行する際に用いられる。本実施例のポインティングデバイスは、操作者のジェスチャによって画面上のカーソルの移動や、各種のコマンドの実行を可能とする。このデバイスは、医療または食品加工現場などで衛生上の理由でマウス等を使用できない場合や、家電リモコンなどの操作機器を取りに行く手間を省きたい状況において好適に用いることができる。

図５（ａ）は、操作者が本実施例のポインティングデバイス２２０を用いて実際にコンピュータ２１０に所定のコマンドを実行させる例を示している。本実施例のポインティングデバイス２２０は、本発明の実施形態に係る物体認識装置１０００を内蔵し、汎用コンピュータ２１０で実装されている。また、コンピュータ２１０にはカメラ２００が接続されている。このカメラ２００は、動画像を撮像可能で、汎用コンピュータ２１０とインターフェース可能であれば、如何なる機種、型名であってよい。カメラ２００は、図２の撮像装置に相当し、操作者を撮像し、その動画像をコンピュータ２１０に送る。コンピュータ２１０に組み込まれたポインティングデバイス２２０内の物体認識装置１０００は、送られた動画像中の操作者のジェスチャを認識し、該デバイス内の後段の装置に認識結果を送る。該デバイス内の後段の装置は、その認識結果に基づいてコンピュータ２１０に所定の動作を行わせる。

ポインティングデバイス２２０を用いてコンピュータ２１０に所定の動作を実行させる前に、操作者は自身のジェスチャをポインティングデバイス２２０に登録しなくてはならない。これは、ポインティングデバイス２２０の操作の数（ｍ）に相当する数のジェスチャを割り当てて、登録する必要がある。本実施例では、画面上にカーソルを移動させる場合に右手をパー状に開き（図５（ｂ））、画面上のアイコン等をクリックする場合には右手をチョッキ状にし（図５（ｃ））。画面上のアイコン等をダブルクリックする場合には、右手をグー状にする（図５（ｄ））ように設定する。

図８は、操作者のジェスチャを登録するためのフローを示している。
まず、図６（ａ）に示す背景画像をカメラ２００が撮影する（ステップＳ１）。

次に、図６（ｂ）に示すジェスチャを撮影する（ステップＳ２）。これは、ステップ１で背景画像を撮影した場合と同じ条件で撮影する必要がある。

背景画像とジェスチャが写った画像とは、カメラ２００からポインティングデバイス２２０内の物体認識装置１０００が備える画像データ入力部１０を経由して、差分画像生成部２０に送られる。そして、差分画像生成部２０は、受け取った背景画像とジェスチャの画像とを基に、図６（ｃ）に示す差分画像を作成する（ステップ３）。作成された差分画像は、テンプレート画像としてテンプレート画像登録部３０に記憶される（ステップ４）。

テンプレート画像は階層テンプレート画像群生成部５０に送られ、階層テンプレート画像群生成部５０は、受け取ったテンプレート画像を基にして、ｎ＋１、すなわち３個の階層テンプレート画像を作成する。データ量の削減率ｄは、１／１、１／２、１／４となる。つまり、オリジナルのテンプレート画像のデータ量に対し、１／１のデータ量の画像（図６（ｃ）参照）、１／２のデータ量の画像（図６（ｄ）参照）、１／４のデータ量の画像（図６（ｅ）参照）を作成する（ステップＳ５）。

また、階層テンプレート画像群生成部５０は、内部に記憶装置を有し、この記憶装置に作成した階層テンプレート画像を記憶させる。

以上で１つのジェスチャ（パー）の登録手順が終了する。本実施例では、さらに２つのジェスチャ（チョキおよびグー）を登録する必要があるが、これは単に上述のステップＳ１からＳ６の手順を２回繰り返せばよい。したがって、その説明を省略する。

上述の登録手順が終わり、図５（ａ）に示すように、本実施例のポインティングデバイス２２０を動作させる。
まず、カメラ２００のズームを調整して、図５（ｅ）に示すように操作者の上半身が撮影できるようにする。調整後、図９のフローの手順を実行する。

最初に、背景（図７（ａ）参照）をカメラ２００が撮影する。撮影された背景画像は、ポインティングデバイス２２０内の物体認識装置１０００が有する画像データ入力部１０を経由して、差分画像生成部２０に送られる（ステップＳ１０）。

次に、操作者のジェスチャを撮影する。ここで、操作者は、カーソルをコンピュータ画面上の所望の位置に移動させるために、右手をパーの状態で移動させる。カメラ２００は、操作者の上半身を撮影し、その動画像はポインティングデバイス２２０内の物体認識装置１０００が有する画像データ入力部１０を経由して、差分画像生成部２０に送られる（ステップＳ１１）。差分画像生成部２０は、受け取った動画像を構成する各フレーム画像に対し、事前に受け取っている背景画像を用いて、図７（ｃ）に示すような差分画像を作成し、これをフレーム画像登録部４０にフレーム画像として記憶させる（ステップＳ１２）。

階層フレーム画像群生成部６０は、作成したフレーム画像を基に、そのデータ量を削減することにより複数の階層フレーム画像を作成する。データ量の削減率ｄは、先に作成した階層テンプレート画像の削減率ｄと同一とする。つまり、本実施例では１／１、１／２、１／４とする。また、１フレーム画像当たりの階層フレーム画像の数ｎ＋１も、階層テンプレート画像の数と同一で、本実施例では３とする。作成する階層フレーム画像の例を図７（ｃ）から（ｅ）に示す（それぞれデータ量は１／１、１／２、１／４である）。階層フレーム画像を作成後、階層フレーム画像群生成部６０は、内部の記憶装置に作成した階層フレーム画像を記憶させる（ステップＳ１３）。

階層テンプレート画像および階層フレーム画像は、テンプレートマッチング部９０に送られ、テンプレートマッチング部９０は双方の画像を用いて、テンプレートマッチング処理を行う（ステップＳ１４）。このテンプレートマッチングの処理の詳細フローについては後述するが、この処理を用いて物体特定部１２０は、テンプレート画像に写った操作者の右手のジェスチャ（グー、チョキ、パー）と、該右手がフレーム画像のどの位置に存在するかを特定することができる（ステップＳ１５）。物体特定部１２０は、検出した操作者の右手のジェスチャ情報と該右手の位置する領域座標情報とを物体識別および位置情報出力部１３０に送り、物体識別および位置情報出力部１３０は、ポインティングデバイス２２０の後段の装置にその情報を所定の形式で出力する（ステップＳ１６）。なお、登録した操作者の右手のジェスチャがフレーム画像中から検出されない場合には、登録したジェスチャが存在しないことを示す所定のコードを出力する。以上のステップで手順を終了する。実際は、動画像を構成するフレーム画像毎にステップＳ１０からＳ１６の手順を繰り返す。

最後に、図９のフローに示したテンプレートマッチング処理（ステップＳ１４）の詳細を説明する。図１０にテンプレートマッチング処理の詳細なフローを示す。

始めに、テンプレートマッチング部９０が、複数（本実施例ではそれぞれ３つ）の階層テンプレート画像と階層フレーム画像とを、階層テンプレート画像群生成部５０および階層フレーム画像群生成部６０からそれぞれ受け取ると、同一の削減率ｄを有する階層テンプレート画像と階層フレーム画像とを組み合わせる（ステップＳ３０）。ここでは、図６（ｃ）の階層テンプレート画像および図７（ｃ）の階層フレーム画像と、図６（ｄ）の階層テンプレート画像および図７（ｄ）の階層フレーム画像と、図６（ｅ）の階層テンプレート画像および図７（ｅ）の階層フレーム画像と、が組み合わされる。この組み合わせをそれぞれペア１、２、３とする。

組み合わせが終わると、ｐ（ペア番号）が３から１の順に処理を開始する。ｐ＝３の場合、すなわち図６（ｅ）の階層テンプレート画像と図７（ｅ）の階層フレーム画像とのペアの場合について（ステップＳ３１で「Ｎｏ」）、テンプレートマッチングを行い、類似度計算部１００がこの階層フレーム画像のすべての領域についての類似度を求める（ステップＳ３２）。

類似度の算出が終わると、閾値判定部１１０がそれぞれの領域における類似度を、予め設定した閾値（０．６）と比較し、この閾値より小さな類似度を有する領域を除外する（ステップＳ３３）。

除外後、残った領域が存在するかどうかを判断する（ステップＳ３４）。残った領域が存在しない場合は（ステップＳ３４で「Ｎｏ」）、テンプレートマッチング処理を終了する（ステップＳ３９）。
残った領域が存在する場合は（ステップＳ３４で「Ｙｅｓ」）、その領域から類似度が高い順にｋ個（この場合、ｋ＝４）の領域を抽出する（ステップＳ３５）。抽出後、ペア番号ｐの値を１だけデクリメントして、ペア２の処理で進む（ステップＳ３６、Ｓ３７）。
次にｐ＝２の場合、すなわち図６（ｄ）の階層テンプレート画像と図７（ｄ）の階層フレーム画像とのペアの場合について（ステップＳ３１で「Ｙｅｓ」）、テンプレートマッチングを行い、前回のステップＳ３５で抽出した領域の類似度を求める（ステップＳ３８）。そして、閾値より小さな類似度を有する領域を除外し（ステップＳ３３）、ｋ個（ｋ＝２）の領域を抽出して（ステップＳ３５）、ペア番号ｐの値を１だけデクリメントして（ステップＳ３６）、ペア１の処理で進む（ステップＳ３７）。

ｐ＝１の場合、すなわち図６（ｃ）の階層テンプレート画像と図７（ｃ）の階層フレーム画像とのペアの場合について（ステップＳ３１で「Ｙｅｓ」）、テンプレートマッチングを行い、前回のステップＳ３５で抽出した領域の類似度を求める（ステップＳ３８）。次いで、閾値より小さな類似度を有する領域を除外し（ステップＳ３３）、ｋ個（ｋ＝１）の領域を抽出する（ステップＳ３５）。そしてテンプレートマッチング処理を終了する（ステップＳ３６、Ｓ３７）。
以上の処理を、登録したジェスチャの数（ｍ）だけ繰り返す。

以上、本発明の画像認識装置１０００をポインティングデバイス２２０に適用した本実施例を説明したが、本実施例は本発明の画像認識装置１０００の適用範囲をポインティングデバイスに限定させるものではない。例えば、本発明の画像認識装置を物体の動きの軌跡を解析するためのモーションキャプチャー、あるいはＴＶリモコンなどに適用することも可能である。

上述した本発明の１実施形態に係る物体認識方法は、プログラムとして実装されることが好ましい。その場合には、プログラムはメインのサーバから該方法を実行するコンピュータへダウンロードされるか、コンピュータ可読媒体の形態で分配されることが好ましい。コンピュータ可読媒体の例としては、ＣＤ−ＲＯＭ、磁気テープ、フレキシブルディスク、光学式データ保存装置などが挙げられる。

以上、本発明を図面に示した実施形態を用いて説明したが、これらは例示的なものに過ぎず、本技術分野の当業者ならば、本発明の範囲および趣旨から逸脱しない範囲で多様な変更および変形が可能なことは理解できるであろう。したがって、本発明の範囲は、説明された実施形態によって定められず、特許請求の範囲に記載された技術的趣旨により定められねばならない。

テンプレートマッチング処理を説明するための図である。本発明の１実施形態に係る物体認識装置の機能を示すブロック図である。本発明の１実施形態に係る物体認識方法の原理を説明するための図である。本発明の１実施形態に係るテンプレートマッチング部が有するデータベース構造を説明するための図である。本発明の１実施形態に係る物体認識装置を備えたポインティングデバイスの機能を説明するための図である。本発明の１実施形態に係る階層テンプレート画像を説明するための図である。本発明の１実施形態に係る階層フレーム画像を説明するための図である。本発明の実施例に係る物体認識処理の事前処理のフロー図である。本発明の実施例に係る物体認識処理のフロー図である。本発明の実施例に係るテンプレートマッチング処理の詳細なフロー図である。

１０００物体認識装置
１０画像データ入力部
２０差分画像生成部
３０テンプレート画像登録部
４０フレーム画像登録部
５０階層テンプレート画像郡生成部
６０階層フレーム画像郡生成部
９０テンプレートマッチング部
１００類似度計算部
１１０閾値判定部
１２０物体特定部
１３０物体識別および位置情報出力部

Claims

テンプレートマッチングを用いて動画像中の物体を認識する物体認識装置であって、
前記動画像から背景画像を差分することで、フレーム画像を作成する差分画像生成手段と、
テンプレート画像から、そのデータ量を段階的に変化した削減率で減少させることにより複数の階層テンプレート画像を作成する階層テンプレート生成手段と、
前記動画像を構成する複数の前記フレーム画像のそれぞれから、そのデータ量を前記削減率で減少させることにより複数の階層フレーム画像を作成する階層フレーム生成手段と、
同一の前記削減率を有する前記階層フレーム画像と前記階層テンプレート画像とを組み合わせ、前記削減率の大きい順にテンプレートマッチング処理を行うマッチング手段と、
前記テンプレートマッチング処理時に、前記階層フレーム画像の各領域における類似度を求める類似度計算手段と、
前記類似度と所定の閾値とを比較する閾値判定手段と、
を備え、
前記フレーム画像は、色情報と透明度情報を有し、
前記類似度は、前記階層フレーム画像における色分布の類似度と、透明度分布の類似度と、１つ前に処理したフレーム画像の最も高い類似度を有する領域からの距離による重みとから求められ、
前記所定の閾値よりも小さい類似度を有する領域については、以降の前記テンプレートマッチング処理を行なわず、最後に該処理を行った階層フレーム画像の最も高い類似度を有する領域に前記物体が存在すると判断することを特徴とする物体認識装置。
前記領域当たりの前記類似度は、該領域を構成する画素のそれぞれで類似度を求めて、その類似度の絶対値を用いて算出することを特徴とする請求項１に記載の物体認識装置。
請求項１または２に記載の物体認識装置を搭載したポインティングデバイス。
テンプレートマッチングを用いて動画像中の物体を認識する物体認識方法であって、
前記動画像から背景画像を差分することで、フレーム画像を作成する差分画像生成段階と、
テンプレート画像から、そのデータ量を段階的に変化した削減率で減少させることにより複数の階層テンプレート画像を作成する階層テンプレート生成段階と、
前記動画像を構成する複数の前記フレーム画像のそれぞれから、そのデータ量を前記削減率で減少させることにより複数の階層フレーム画像を作成する階層フレーム生成段階と、
同一の前記削減率を有する前記階層フレーム画像と前記階層テンプレート画像とを組み合わせ、前記削減率の大きい順にテンプレートマッチング処理を行うマッチング段階と、
前記マッチング段階に、前記階層フレーム画像の各領域における類似度を求める類似度計算段階と、
前記類似度と所定の閾値とを比較する閾値判定段階と、
を含み、
前記フレーム画像は、色情報と透明度情報を有し、
前記類似度は、前記階層フレーム画像における色分布の類似度と、透明度分布の類似度と、１つ前に処理したフレーム画像の最も高い類似度を有する領域からの距離による重みとから求められ、
前記所定の閾値よりも小さい類似度を有する領域については、以降の前記テンプレートマッチング処理を行なわず、最後に該処理を行った階層フレーム画像の最も高い類似度を有する領域に前記物体が存在すると判断することを特徴とする物体認識方法。
前記領域当たりの前記類似度は、該領域を構成する画素のそれぞれで類似度を求めて、その類似度の絶対値を用いて算出することを特徴とする請求項４に記載の物体認識方法。
請求項４または５に記載の方法をコンピュータに実行させるためのプログラム。
請求項６に記載のプログラムを格納したコンピュータ可読媒体。