JP4971114B2 - 物体認識装置、物体認識方法、物体認識プログラム、および該プログラムを格納するコンピュータ可読媒体 - Google Patents

物体認識装置、物体認識方法、物体認識プログラム、および該プログラムを格納するコンピュータ可読媒体 Download PDF

Info

Publication number
JP4971114B2
JP4971114B2 JP2007306778A JP2007306778A JP4971114B2 JP 4971114 B2 JP4971114 B2 JP 4971114B2 JP 2007306778 A JP2007306778 A JP 2007306778A JP 2007306778 A JP2007306778 A JP 2007306778A JP 4971114 B2 JP4971114 B2 JP 4971114B2
Authority
JP
Japan
Prior art keywords
image
similarity
hierarchical
template
frame image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007306778A
Other languages
English (en)
Other versions
JP2009129388A (ja
Inventor
崇 松嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Systemware Co Ltd
Original Assignee
Nippon Systemware Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Systemware Co Ltd filed Critical Nippon Systemware Co Ltd
Priority to JP2007306778A priority Critical patent/JP4971114B2/ja
Publication of JP2009129388A publication Critical patent/JP2009129388A/ja
Application granted granted Critical
Publication of JP4971114B2 publication Critical patent/JP4971114B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、動画像中の物体を識別し、その動きをリアルタイムで追跡する物体認識装置、物体認識方法、物体認識プログラム、および該プログラムを格納するコンピュータ可読媒体に関する。
画像中の物体を認識する従来の画像処理技術としては、テンプレートマッチングを用いた手法やオプティカルフローを用いた手法などが広く知られている。
テンプレートマッチングは、認識する物体の画像(テンプレート画像)を予め用意し、処理対象の画像上に該テンプレート画像を移動させながら比較して、該物体を認識する方法である(特許文献1参照)。この方法は、物体の形状や色の違いまで識別できるため、高い精度で物体を検出することが可能である。
一方、オプティカルフローは、動画像の差分画像を作成し、作成した差分画像中の物体の動きベクトルを求めて、該物体の動きを追跡する方法である(特許文献2および3参照)。この方法は、動画像中の移動物体をリアルタイムに追跡することが可能である。
特開平06−076062 特開2006−148425 特開2004−220059
テンプレートマッチングを用いて移動物体の動きをリアルタイムで追従するためには、入力画像の走査を十数回程度に設定しなくてはならない。しかし、詳細に物体を識別するためには走査回数はテンプレート画像の画素数と同等、すなわち相当な回数が必要となる。したがって、テンプレート画像処理は動画像中の移動物体をリアルタイムで認識をする用途には適していない。
一方、オプティカルフローは物体の動き情報のみに着目し、物体の色、大きさ、形状などをあまり考慮していない。そのため、物体を精度よく識別することは困難である。よって、画像中に複数の物体が存在する場合に誤認識を生じる恐れがある。
本発明は上記のような問題を考慮して創案されたものであり、本発明の課題は、動画像中の物体を高精度で識別し、その動きをリアルタイムで追跡することが可能な物体認識装置、物体認識方法、物体認識プログラム、および該プログラムを格納したコンピュータ可読媒体を提供することである。本発明の別の課題は、テンプレートマッチングで動画像を適切に処理する物体認識装置、物体認識方法、物体認識プログラム、および該プログラムを格納したコンピュータ可読媒体を提供することである。
前記課題を解決するために創案された請求項1の発明は、テンプレートマッチングを用いて動画像中の物体を認識する物体認識装置であって、前記動画像から背景画像を差分することで、フレーム画像を作成する差分画像生成手段と、テンプレート画像から、そのデータ量を段階的に変化した削減率で減少させることにより複数の階層テンプレート画像を作成する階層テンプレート生成手段と、前記動画像を構成する複数のフレーム画像のそれぞれから、そのデータ量を前記削減率で減少させることにより複数の階層フレーム画像を作成する階層フレーム生成手段と、同一の前記削減率を有する前記階層フレーム画像と前記階層テンプレート画像とを組み合わせ、前記削減率の大きい順にテンプレートマッチング処理を行うマッチング手段と、前記テンプレートマッチング処理時に、前記階層フレーム画像の各領域における類似度を求める類似度計算手段と、前記類似度と所定の閾値とを比較する閾値判定手段と、を備える。さらに、前記フレーム画像は、色情報と透明度情報を有し、前記類似度は、前記階層フレーム画像における色分布の類似度と、透明度分布の類似度と、1つ前に処理したフレーム画像の最も高い類似度を有する領域からの距離による重みとから求められ、前記所定の閾値よりも小さい類似度を有する領域については、以降の前記テンプレートマッチング処理を行なわず、最後に該処理を行った階層フレーム画像の最も高い類似度を有する領域に前記物体が存在すると判断することを特徴とする。
前記課題を解決するために創案された請求項の発明は、請求項に記載の装置において、前記領域当たりの前記類似度を、該領域を構成する画素のそれぞれで類似度を求めて、その類似度の絶対値を用いて算出することを特徴とする。
前記課題を解決するために創案された請求項の発明は、請求項1または2に記載の物体認識装置を搭載したポインティングデバイスである。
前記課題を解決するために創案された請求項の発明は、テンプレートマッチングを用いて動画像中の物体を認識する物体認識方法であって、前記動画像から背景画像を差分することで、フレーム画像を作成する差分画像生成段階と、テンプレート画像から、そのデータ量を段階的に変化した削減率で減少させることにより複数の階層テンプレート画像を作成する階層テンプレート生成段階と、前記動画像を構成する複数のフレーム画像のそれぞれから、そのデータ量を前記削減率で減少させることにより複数の階層フレーム画像を作成する階層フレーム生成段階と、同一の前記削減率を有する前記階層フレーム画像と前記階層テンプレート画像とを組み合わせ、前記削減率の大きい順にテンプレートマッチング処理を行うマッチング段階と、前記マッチング段階に、前記階層フレーム画像の各領域における類似度を求める類似度計算段階と、前記類似度と所定の閾値とを比較する閾値判定段階と、を含み、前記フレーム画像は、色情報と透明度情報を有し、前記類似度は、前記階層フレーム画像における色分布の類似度と、透明度分布の類似度と、1つ前に処理したフレーム画像の最も高い類似度を有する領域からの距離による重みとから求められ、前記所定の閾値よりも小さい類似度を有する領域については、以降の前記テンプレートマッチング処理を行なわず、最後に該処理を行った階層フレーム画像の最も高い類似度を有する領域に前記物体が存在すると判断することを特徴とする。
前記課題を解決するために創案された請求項の発明は、請求項に記載の物体認識方法において、前記領域当たりの前記類似度は、該領域を構成する画素のそれぞれで類似度を求めて、その類似度の絶対値を用いて算出することを特徴とする。
前記課題を解決するために創案された請求項の発明は、請求項4または5に記載の方法をコンピュータに実行させるためのプログラムである。
前記課題を解決するために創案された請求項の発明は、請求項に記載のプログラムを格納したコンピュータ可読媒体である。
請求項1の装置および請求項の方法では、従来、処理速度が遅いため動画像には適用が困難であったテンプレートマッチング処理を、動画像中に好適に適用可能な程度まで高速化させている。この装置および方法は、動画像中の移動物体のリアルタイムな追跡および識別の可否は該動画像のデータ量に依存しないというコンセプトに基づいている。画像のデータ量を低減させると物体の詳細な輪郭は不明瞭になるが、それでも物体の有無や他の物体との識別は可能である。そのため、データ量を削減させたフレーム画像で高速に物体の検出および識別を行い、物体が存在すると思われる領域を選別し、次にデータ量のより多いフレーム画像の選別した領域だけに同様の処理を行う。そして、最後にオリジナルのフレーム画像の選別した領域のみ処理を行い、最終的な動画像中の物体の動きとその位置を特定する。
この装置および方法は、テンプレートマッチングの高い精度で物体を識別可能という長所を生かし、かつ、処理速度が遅いという従来の問題点を克服している。
また、請求項の装置および請求項の方法では、更に、フレーム画像の差分画像を作成することで、画像に色(RGB)情報に加え、さらに透明度(A)情報を付加し、より物体の検出および識別の精度を高め、誤認識の可能性を低減している。例えば、処理する動画像の背後に非検出物体と類似の形状や色を有する別の静止物体が存在する場合、装置は誤ってこの別の物体を非検出物体として認識する可能性がある。しかし、上述の差分画像を作成すれば、この別の静止物体は取り除かれる。さらに、背景は短時間には変化しないという前提の基で、背景同士のマッチングも防止している。これにより、画像全体がマッチングするような事象も防ぐことが可能となる。
また、請求項の装置および請求項の方法は、更に、類似度を、階層フレーム画像における色分布の類似度と、透明度分布の類似度と、1つ前に処理したフレーム画像の最も高い類似度を有する領域からの近さによる重みとから求めることで、高い精度で動画像中の物体を検出および識別する。
請求項の装置および請求項の方法では、1領域当たりの類似度を、該領域を構成する複数の画素それぞれの類似度を求めて、その類似度の絶対値を用いて算出している。従来、類似度を求める場合には、各画素の類似度を所定の閾値と比較し、その結果を基に該類似度を2値化し、それらの値を所定の領域単位で平均化することでその領域における類似度を算出していた。しかし、当該装置および方法では、そのような2値化は行わず、各画素の類似度の絶対値を用いて、それぞれの領域における類似度を算出している。このようにして類似度を算出する方が、従来の手法よりも正確に類似度を求めることができる。したがって、より高い精度で動画像中の物体を検出および識別することができる。
請求項のポインティングデバイスは、操作者のすばやいジェスチャに追従し、ジェスチャの微妙な変化を識別することが可能である。よって、当該ポインティングデバイスを用いれば、マウスなどのデバイスを使用できない状況下でプログラムに所望の動作をさせたり、あるいはペインティングプログラムに様々な文字や絵を描かせることが可能となる。
請求項プログラムによって、上記の物体認識方法を任意のコンピュータに実行させることが可能となる。
請求項のコンピュータ可読媒体によって、上記の物体認識方法を特定のユーザに好適に提供することが可能となる。
本発明により、テンプレートマッチングの処理を動画像に適用可能な程度まで高速化することができる。その結果、動画像中の物体を識別し、その動きをリアルタイムで追従することが可能な物体認識装置および方法を提供することができる。さらに、当該の装置または方法を、ポインティングデバイス、プログラム、コンピュータ可読媒体などの様々な形態で提供することができる。
本発明の実施形態を説明する前に、本発明で使用しているテンプレートマッチング処理の手法について簡単に説明する。図1は、テンプレートマッチングの処理原理を示す図である。テンプレートマッチングは、処理対象の画像から予め用意した画像(テンプレート画像)と同一部分を検出する。この図において、画像Aはテンプレート画像に相当し、画像Bが処理対象の画像に相当する。具体的なマッチング処理手順は以下の通りである。
1、処理対象の画像B上(図では左上)にテンプレート画像Aを重ねる。
2、重ねた領域の双方の輝度値の相関(類似度)を求める。
3、画像Bに対して画像Aの位置を画像B1つ分だけ横の方向(図では右方向)にシフトさせる。
4、1〜3を繰り返し、横方向が終わったら、画像B1つ分だけ垂直方向(図では下方向)にシフトさせる。
4、1〜4を繰り返し、画像B全体に対して相関を調べる。
5、画像B上の一番高い相関を示す領域(図では斜線で囲んだ領域)に画像Aの部分が存在すると断定する。
次に、添付図面を参照して、本発明の1実施形態を説明する。なお、本実施形態において、非検出物体が写った動画を構成するコマ画像をフレーム画像と称する。
図2は、本発明の一実施形態に係る物体認識装置1000のブロック図である。物体認識装置1000は、動画が撮影可能なビデオカメラなどの撮像装置とケーブルまたは無線等で接続され、該撮像装置から入力された動画像中の物体を識別し、その動きをリアルタイムで追跡する機能を有し、主に汎用コンピュータで実装される。主な機能は、図2に示すように、画像データ入力部10と、差分画像生成部20と、テンプレート画像登録部30と、フレーム画像登録部40と、階層テンプレート画像群生成部50と、階層フレーム画像群生成部60と、テンプレートマッチング部90と、類似度計算部100と、閾値判定部110と、物体特定部120と、物体識別および位置情報出力部130とから構成される。更に、類似度に関するデータを格納するためのデータベース(図示せず)を備えてもよい。このデータベースの詳細については後述する。
画像データ入力部10は、物体認識装置1000と接続された撮像装置から動画像および静画像を所定のインターフェースを介して受け取る機能を有する。なお、対応可能な画像のファイル形式については特に限定はせず、動画像ならばMPEG−2、QuickTime(登録商標)、RealVideo、MPEG−4、wmv、Flashファイルなど、静画像ならばJPEG、TIFF、GIF、PNGなどの周知の形式に対応可能であることが好ましい。
差分画像生成部20は、画像データ入力部10が受け取ったフレーム画像を基に、差分画像を作成する機能を有する。差分とは、2つの画像のそれぞれの対応する画素間の階級値の差、あるいは差の絶対値のことであり、差分画像は白=255〜黒=0で表現された画像である。画像データ入力部10が受け取った画像は色(RGB)情報を有するが、この差分画像はさらに透明度(A)情報を有する。
より詳細に説明すると、ある物体を撮像装置で撮影する場合に、併せてその物体を除いた背景も撮影する。差分画像生成部20は、物体が写ったフレーム画像と、背景の写った画像(以下、背景画像とする)を受け取り、双方の対応する画素の差分を求める。図6を参照すると、(a)が背景画像で、(b)がフレーム画像、そして(c)は双方の画像から求めた差分画像の例である。同一部分が黒色で、異なる部分が白色で示されている。
このように差分画像を作成する理由は、物体認識装置1000の誤認識を防ぎ、検出確度を向上させるためである。仮に、背後に非検出物体と類似の形状や色を有する別の静止物体が存在した場合、装置1000は誤ってこの別の物体を非検出物体として認識する恐れがある。しかし、上述の差分画像を作成すれば、この別の静止物体は取り除かれるため、装置1000に検出される可能性はなくなる。さらに、背景は短時間には変化しないという前提の基で、背景同士のマッチングも防止している。これにより、画像全体がマッチングするような事象も防ぐことが可能となる。
差分画像生成部20はテンプレート画像およびフレーム画像の差分画像を作成した後、テンプレート画像の差分画像はテンプレート画像登録部30に、フレーム画像の差分画像はフレーム画像登録部40に送る。
テンプレート画像登録部30およびフレーム画像登録部40は、それぞれ差分画像生成部20から受け取ったテンプレート画像およびフレーム画像を装置のメモリまたはディスクに記憶させる。
階層テンプレート画像群生成部50は、テンプレート画像登録部30に記憶されたテンプレート画像を基に、そのデータ量が段階的に削減した、すなわち、その画素数が段階的に減少した画像を複数個作成する。なお、データ量の削減の度合い(以下、削減率d)は、任意の分数値、例えば1/1、1/2、1/4、・・・1/2、または1/1、1/4、1/16、・・・1/4等でよい。なお、これらのデータ量が削減した画像を階層テンプレート画像と称する(ここで、n+1は階層画像の作成数を表す)。作成数n+1は、任意の正整数であり、本実施形態ではn=2、すなわち作成数n+1=3とする。なお、これらの変数の決定方法については後述する。
階層フレーム画像群生成部60は、フレーム画像登録部40に記憶されたフレーム画像を基に、そのデータ量が段階的に削減した、すなわち、その画素数が段階的に減少した画像を複数個作成する。なお、その削減率dは上記した階層テンプレート画像の削減率dと同一で、同様に作成数n+1も同一である。これらのデータ量が削減した画像を階層フレーム画像と称する。
テンプレートマッチング部90は、物体認識装置1000の中で最も重要な役割を果たす構成要素であって、階層テンプレート画像を用いて、階層フレーム画像にテンプレートマッチング処理を施すことで、フレーム画像上の非検出物体の位置を特定する機能を有する。また、内部に類似度計算部100と、閾値判定部110と、物体特定部120とを備える。そして、その特定した物体とその物体が位置する領域座標とに関する情報を物体識別および位置情報出力部130に送る。テンプレートマッチング部90の行うテンプレートマッチング処理方法の詳細については後述する。
物体識別および位置情報出力部130は、後段の装置と所定のインターフェースを介して接続され、テンプレートマッチング部90内の物体特定部120から受け取った物体と領域座標とに関する情報を該後段の装置に所定の形式で出力する機能を有する。なお、出力形式については特に限定せず、後段の装置とコミュニケーション可能な当該技術において周知の形式でよい。
以上、本願の一実施形態に係る物体認識装置1000の機能について説明をした。次はテンプレートマッチング部90が行うテンプレートマッチング処理内容について詳細に説明する。なお、説明において削減率dを1/2倍、作成数n+1を3と定義する。
最初に、受け取った階層テンプレート画像および階層フレーム画像の中から同一の削減率を有する画像同士を組み合わせる。すなわち、削減率dが1/1のペア(第1のペア)と、1/2のペア(第2のペア)と、1/4のペア(第3のペア)とを構成する。
次に、データ量の少ない順に、すなわち、第3のペア、第2のペア、第1のペアの順に、テンプレートマッチングを行う。
図3(a)〜(c)は、それぞれ第3ペアから第1ペアの階層フレーム画像および階層テンプレート画像と、該階層フレーム画像の類似度算出の例を示している。この図を参照して説明を続ける。なお、図中で左側は階層フレーム画像で、右側がテンプレート画像である。この図のそれぞれの画像の左上角を原点とし、横側をX軸、縦側をY軸と定義する。また、削減率dはフレーム全体のデータ量の削減の度合いを意味するが、この他に、幅(X)方向のデータ量の削減の度合いを「幅(width)の削減率」、Y方向のデータ量の削減の度合いを「高さ(height)の削減率」と定義する。
まず、第3のペアの階層フレーム画像と階層テンプレート画像とを用いてテンプレートマッチングを行う。図3(a)は、第3のペアの階層フレーム画像と階層テンプレート画像とを例示している。この階層フレームの削減率dは1/4、高さの削減率は1/2、幅のd削減率も1/2である。この階層フレーム画像は、それぞれ同一のデータ量を有するR1a〜R9aの計9個の類似度算出領域を有している。テンプレートマッチング部90は、階層テンプレート画像を階層フレーム画像上でスライドさせ、類似度計算部100がそれぞれの類似度計算領域に対して類似度を求める。ここで、図3(a)〜(c)に示す階層テンプレート画像上の灰色で塗りつぶした部分は、階層テンプレート画像の原点が移動する範囲である。なお、類似度の算出式については後述する。
次に、閾値判定部110が、算出したそれぞれの領域(R1a〜R9a)における類似度と、所定の閾値t(本実施形態では0.6と設定する)とを比較する。図3(a)において、太線で囲んだエリアが所定の閾値tよりも大きな類似度を有する領域(R5a、R6a、R8a、R9a)とする。これで、第3のペアの階層フレーム画像の処理を終了する。
続いて、第2のペアである削減率dが1/2の階層フレーム画像と階層テンプレート画像とを用いてテンプレートマッチングを行う。図3(b)は、第2のペアの階層フレーム画像と階層テンプレート画像とを例示している。この階層フレームの削減率dは1/2、高さの削減率は1/2、幅の削減率は1/1である。また、この第2のペアの階層フレーム画像はR1b〜R18bの計18個の領域を有する。領域R1bとR2bとが第3のペアの領域R1aに相当し、以下、領域R3bとR4bとが領域R2a、領域R5bとR6bとが領域R3a、領域R7bとR8bとが領域R4a、領域R9bとR10bとが領域R5a、領域R11bとR12bとが領域R6a、領域R13bとR14bとが領域R7a、領域R15bとR16bとが領域R8a、領域R17bとR18bとが領域R9aに相当する。
第3のペアの場合と同様に各領域の類似度を算出するが、今度はすべての領域についてマッチングを行うのではなく、図3(b)に示す、第3のペアの階層フレーム画像で閾値よりも大きな類似度を示した領域(R5a、R6a、R8a、R9a)に相当する領域(R9b、R10b、R11b、R12b、R15b、R16b、R17b、R18b)のみマッチングを行い、その類似度を求める。そして、求めた類似度を閾値tと再び比較する。ここでは、太線で囲んだエリアの領域(R10b、R11b、R12b、R16b、R17b、R18b)が閾値よりも大きな類似度を有している。これで、第2ペアの階層フレーム画像の処理を終了する。
最後に、第1のペアである削減率dが1/1の階層フレーム画像と階層テンプレート画像とを用いてテンプレートマッチングを行う。図3(c)は、第1のペアの階層フレーム画像と階層テンプレート画像とを例示している。この階層フレームの削減率dは1/1、高さおよび幅の削減率も1/1である。また、この第1のペアの階層フレーム画像はR1c〜R36cの計36個の領域を有する。領域R1cとR7cとが第2のペアの領域R1bに相当し、以下、領域R2cとR8cとが領域R2b、領域R3cとR9cとが領域R3b、領域R4cとR10cとが領域R4b、領域R5cとR11cとが領域R5b、領域R6cとR12cとが領域R6b、領域R13cとR19cとが領域R7b、領域R14cとR20cとが領域R8b、領域R15cとR21cとが領域R9b、領域R16cとR22cとが領域R10b、領域R17cとR23cとが領域R11b、領域R18cとR24cとが領域R12b、領域R25cとR31cとが領域R13b、領域R26cとR32cとが領域R14b、領域R27cとR33cとが領域R15b、領域R28cとR34cとが領域R16b、領域R29cとR35cとが領域R17b、領域R30cとR36cとが領域R18bに相当する。
今度は、図3(c)に示す、第2のペアの階層フレーム画像で閾値よりも大きな類似度を示した領域(R10b、R11b、R12b、R16b、R17b、R18b)に相当する領域(R16c、R17c、R18c、R22c、R23c、R24c、R28c、R29c、R30c、R34c、R35c、R36c)のみ類似度を求める。そして、その領域内で類似度の一番高い領域(R22c)を特定して、物体特定部120はその特定した領域R22cに非検出物体が存在すると判断し、その領域の座標情報を非検出物体の情報と併せて物体識別および位置情報出力部130に送る。
また、第3のペアのすべての領域の類似度が閾値よりも小さい場合は、物体特定部120は非検出物体が処理画像中に存在しないと判断し、所定のコードを物体識別および位置情報出力部130に送る。
なお、上述の図3(a)〜(c)に示した第3〜1のペアの階層フレーム画像の各領域は、すべて同一のデータ量を有していることに留意されたい。よって、階層フレーム画像の削減率dが小さいほど(すなわち、所有するデータ量が多い階層フレーム画像ほど)、所有する領域の数が多くなり、物体識別の精度も向上する。
次に、テンプレートマッチング部90が有するデータベース構造について、図4(a)〜(c)を参照して説明する。(a)は削減率dが1/4、(b)はdが1/2、(c)はdが1/1の階層フレーム画像の場合をそれぞれ例示している。左に示した表がデータベースの構造図であり、右に示した図は、このデータベースの構造の理解を容易にするために用いる階層フレーム画像である。
この図に示すように、テンプレートマッチング部90のデータベースには、テンプレートマッチング部90自身が求めた類似度が、該当する階層フレーム画像および類似度算出領域に関連付けられたデータとしてデータベースに格納されている。
この関連付けされたデータは、MAPm(i)=(X座標、Y座標、類似度)の関数で定義される。ここで、mは階層フレーム画像の番号を示し、この例では、削減率が1/1の場合は0、1/2の場合は1、1/4の場合は2である。iは各階層フレーム画像の類似度算出領域を示し、図示の例では各階層フレーム画像の左上から順に一意に付与されている。XおよびY座標は、各階層フレーム画像上の座標位置を示す。なお、図示の例では、階層フレーム画像の左上角が原点で、横側がX軸、縦側がY軸である。
最後に、各領域における類似度の算出式を示すが、その前に類似度を求める数式1〜4にて用いる文字列を以下のように定義する。
Figure 0004971114

Figure 0004971114
上記数式1は、Map1(i)を求めるときの式であり、他の階層については、1を置き換えて求める。
Figure 0004971114
Figure 0004971114
Figure 0004971114
なお、上記計算式において、1つ前に処理を行ったフレーム画像の最大類似度を有する領域の座標と、各処理座標との間の距離を求めて類似度に重み付けを行っている。つまり、処理領域の位置が1フレーム前の画像で特定された領域に近いほど、その領域の類似度は大きくなるように重み付けが行われる。また、1フレーム前の画像が存在しない場合には、予め決められた任意の領域(例えば、フレーム画像の真ん中の領域)の座標を用いる。
また、従来、類似度を求める場合には、各画素の類似度を所定の閾値と比較し、その結果を基に該類似度を2値化し、それらの値を領域単位で平均化することでその領域における類似度を算出していた。しかし、上記数式1から4に示す類似度算出方法では、そのような2値化は行わず、各画素の類似度の絶対値を用いて、それぞれの領域における類似度を算出している。本発明の発明者らは、この類似度算出方法の方が、従来の2値化を用いた方法よりも正確に物体の位置を特定できることを確認している。
本実施形態では、階層フレーム画像において類似度が所定の閾値tより大きい領域のみを抽出して、次の階層フレーム画像のマッチング対象としたが、本発明はこの抽出方法に限定されるものではない。
代替の方法としては、階層フレーム画像の各領域における類似度を求めた後に、その類似度と所定の閾値tと比較し、該閾値よりも小さい類似度を有する領域を排除した後、残った領域の中から類似度が大きい順に所定の数k個の領域を抽出し、その抽出した領域を次の階層フレーム画像における処理対象としてよい。本発明の発明者らは、この方法の方が前者の方法よりも高い確度で非検出物体を認識できることを確認している。後述する実施例ではこの方法を採用する。kは任意の正整数であり、階層フレーム画像ごとに異なる数値を用いてよい。
この処理で用いる変数である削減率d、階層画像作成数n+1、閾値t、抽出領域数kは、物体認識装置1000の演算処理能力、入力された動画像のフレームレート、フレーム画像のデータ量、テンプレート画像のデータ量などに依存し、一意に決定することはできない。よって、これらの変数を可変しながら装置を動作させて、結果をモニタしながら変数を決定する必要がある。よって、物体認識装置1000は、これらの変数を可変できるように構成されねばならない。
なお、本発明の発明者らは、以下の条件で好適に装置を使用できることを実験より確認した。
d=1/4、n=5(すなわち、作成数はn+1=6)、t=0.6
k=128(@n>=3)、4(@n=2)、2(@n=1)、1(@n=0)
ここで、入力動画像のフレームレートは12fps、フレーム画像の画素数は640×480、テンプレート画像の画素数は256×192、物体認識装置1000のCPUはIntel Core Duo(登録商標)L2500、クロック周波数1.83GHz、メモリ512MBである。
これらの関係を以下の表に示す。
Figure 0004971114
ただし、これらの数値は参考値であり、本発明を限定するものではないことに留意されたい。
以上、本願の1実施形態に係る物体認識装置1000のテンプレートマッチング部90が行うマッチング処理について説明した。
この処理方法によれば、従来のテンプレートマッチング処理方法に比べて高速に画像中の物体を認識することが可能となり、それゆえ、該処理方法を動画像の移動体検出に好適に適用することができる。
次に、上記の物体認識装置1000を用いて、実際に動画像中の移動物体を検出する手順について説明する。なお、各変数は、n=0〜2とし、後は表1の条件に従うものとする。
本実施例では、本発明の実施形態に係る物体認識装置1000をポインティングデバイスに適用した例を示す。ポインティングデバイスとは、コンピュータの入力装置であり、主に、マウス、トラップパッド、トラックボールなどに代表され、画面上のカーソルの移動や、各種のコマンドを実行する際に用いられる。本実施例のポインティングデバイスは、操作者のジェスチャによって画面上のカーソルの移動や、各種のコマンドの実行を可能とする。このデバイスは、医療または食品加工現場などで衛生上の理由でマウス等を使用できない場合や、家電リモコンなどの操作機器を取りに行く手間を省きたい状況において好適に用いることができる。
図5(a)は、操作者が本実施例のポインティングデバイス220を用いて実際にコンピュータ210に所定のコマンドを実行させる例を示している。本実施例のポインティングデバイス220は、本発明の実施形態に係る物体認識装置1000を内蔵し、汎用コンピュータ210で実装されている。また、コンピュータ210にはカメラ200が接続されている。このカメラ200は、動画像を撮像可能で、汎用コンピュータ210とインターフェース可能であれば、如何なる機種、型名であってよい。カメラ200は、図2の撮像装置に相当し、操作者を撮像し、その動画像をコンピュータ210に送る。コンピュータ210に組み込まれたポインティングデバイス220内の物体認識装置1000は、送られた動画像中の操作者のジェスチャを認識し、該デバイス内の後段の装置に認識結果を送る。該デバイス内の後段の装置は、その認識結果に基づいてコンピュータ210に所定の動作を行わせる。
ポインティングデバイス220を用いてコンピュータ210に所定の動作を実行させる前に、操作者は自身のジェスチャをポインティングデバイス220に登録しなくてはならない。これは、ポインティングデバイス220の操作の数(m)に相当する数のジェスチャを割り当てて、登録する必要がある。本実施例では、画面上にカーソルを移動させる場合に右手をパー状に開き(図5(b))、画面上のアイコン等をクリックする場合には右手をチョッキ状にし(図5(c))。画面上のアイコン等をダブルクリックする場合には、右手をグー状にする(図5(d))ように設定する。
図8は、操作者のジェスチャを登録するためのフローを示している。
まず、図6(a)に示す背景画像をカメラ200が撮影する(ステップS1)。
次に、図6(b)に示すジェスチャを撮影する(ステップS2)。これは、ステップ1で背景画像を撮影した場合と同じ条件で撮影する必要がある。
背景画像とジェスチャが写った画像とは、カメラ200からポインティングデバイス220内の物体認識装置1000が備える画像データ入力部10を経由して、差分画像生成部20に送られる。そして、差分画像生成部20は、受け取った背景画像とジェスチャの画像とを基に、図6(c)に示す差分画像を作成する(ステップ3)。作成された差分画像は、テンプレート画像としてテンプレート画像登録部30に記憶される(ステップ4)。
テンプレート画像は階層テンプレート画像群生成部50に送られ、階層テンプレート画像群生成部50は、受け取ったテンプレート画像を基にして、n+1、すなわち3個の階層テンプレート画像を作成する。データ量の削減率dは、1/1、1/2、1/4となる。つまり、オリジナルのテンプレート画像のデータ量に対し、1/1のデータ量の画像(図6(c)参照)、1/2のデータ量の画像(図6(d)参照)、1/4のデータ量の画像(図6(e)参照)を作成する(ステップS5)。
また、階層テンプレート画像群生成部50は、内部に記憶装置を有し、この記憶装置に作成した階層テンプレート画像を記憶させる。
以上で1つのジェスチャ(パー)の登録手順が終了する。本実施例では、さらに2つのジェスチャ(チョキおよびグー)を登録する必要があるが、これは単に上述のステップS1からS6の手順を2回繰り返せばよい。したがって、その説明を省略する。
上述の登録手順が終わり、図5(a)に示すように、本実施例のポインティングデバイス220を動作させる。
まず、カメラ200のズームを調整して、図5(e)に示すように操作者の上半身が撮影できるようにする。調整後、図9のフローの手順を実行する。
最初に、背景(図7(a)参照)をカメラ200が撮影する。撮影された背景画像は、ポインティングデバイス220内の物体認識装置1000が有する画像データ入力部10を経由して、差分画像生成部20に送られる(ステップS10)。
次に、操作者のジェスチャを撮影する。ここで、操作者は、カーソルをコンピュータ画面上の所望の位置に移動させるために、右手をパーの状態で移動させる。カメラ200は、操作者の上半身を撮影し、その動画像はポインティングデバイス220内の物体認識装置1000が有する画像データ入力部10を経由して、差分画像生成部20に送られる(ステップS11)。差分画像生成部20は、受け取った動画像を構成する各フレーム画像に対し、事前に受け取っている背景画像を用いて、図7(c)に示すような差分画像を作成し、これをフレーム画像登録部40にフレーム画像として記憶させる(ステップS12)。
階層フレーム画像群生成部60は、作成したフレーム画像を基に、そのデータ量を削減することにより複数の階層フレーム画像を作成する。データ量の削減率dは、先に作成した階層テンプレート画像の削減率dと同一とする。つまり、本実施例では1/1、1/2、1/4とする。また、1フレーム画像当たりの階層フレーム画像の数n+1も、階層テンプレート画像の数と同一で、本実施例では3とする。作成する階層フレーム画像の例を図7(c)から(e)に示す(それぞれデータ量は1/1、1/2、1/4である)。階層フレーム画像を作成後、階層フレーム画像群生成部60は、内部の記憶装置に作成した階層フレーム画像を記憶させる(ステップS13)。
階層テンプレート画像および階層フレーム画像は、テンプレートマッチング部90に送られ、テンプレートマッチング部90は双方の画像を用いて、テンプレートマッチング処理を行う(ステップS14)。このテンプレートマッチングの処理の詳細フローについては後述するが、この処理を用いて物体特定部120は、テンプレート画像に写った操作者の右手のジェスチャ(グー、チョキ、パー)と、該右手がフレーム画像のどの位置に存在するかを特定することができる(ステップS15)。物体特定部120は、検出した操作者の右手のジェスチャ情報と該右手の位置する領域座標情報とを物体識別および位置情報出力部130に送り、物体識別および位置情報出力部130は、ポインティングデバイス220の後段の装置にその情報を所定の形式で出力する(ステップS16)。なお、登録した操作者の右手のジェスチャがフレーム画像中から検出されない場合には、登録したジェスチャが存在しないことを示す所定のコードを出力する。以上のステップで手順を終了する。実際は、動画像を構成するフレーム画像毎にステップS10からS16の手順を繰り返す。
最後に、図9のフローに示したテンプレートマッチング処理(ステップS14)の詳細を説明する。図10にテンプレートマッチング処理の詳細なフローを示す。
始めに、テンプレートマッチング部90が、複数(本実施例ではそれぞれ3つ)の階層テンプレート画像と階層フレーム画像とを、階層テンプレート画像群生成部50および階層フレーム画像群生成部60からそれぞれ受け取ると、同一の削減率dを有する階層テンプレート画像と階層フレーム画像とを組み合わせる(ステップS30)。ここでは、図6(c)の階層テンプレート画像および図7(c)の階層フレーム画像と、図6(d)の階層テンプレート画像および図7(d)の階層フレーム画像と、図6(e)の階層テンプレート画像および図7(e)の階層フレーム画像と、が組み合わされる。この組み合わせをそれぞれペア1、2、3とする。
組み合わせが終わると、p(ペア番号)が3から1の順に処理を開始する。p=3の場合、すなわち図6(e)の階層テンプレート画像と図7(e)の階層フレーム画像とのペアの場合について(ステップS31で「No」)、テンプレートマッチングを行い、類似度計算部100がこの階層フレーム画像のすべての領域についての類似度を求める(ステップS32)。
類似度の算出が終わると、閾値判定部110がそれぞれの領域における類似度を、予め設定した閾値(0.6)と比較し、この閾値より小さな類似度を有する領域を除外する(ステップS33)。
除外後、残った領域が存在するかどうかを判断する(ステップS34)。残った領域が存在しない場合は(ステップS34で「No」)、テンプレートマッチング処理を終了する(ステップS39)。
残った領域が存在する場合は(ステップS34で「Yes」)、その領域から類似度が高い順にk個(この場合、k=4)の領域を抽出する(ステップS35)。抽出後、ペア番号pの値を1だけデクリメントして、ペア2の処理で進む(ステップS36、S37)。
次にp=2の場合、すなわち図6(d)の階層テンプレート画像と図7(d)の階層フレーム画像とのペアの場合について(ステップS31で「Yes」)、テンプレートマッチングを行い、前回のステップS35で抽出した領域の類似度を求める(ステップS38)。そして、閾値より小さな類似度を有する領域を除外し(ステップS33)、k個(k=2)の領域を抽出して(ステップS35)、ペア番号pの値を1だけデクリメントして(ステップS36)、ペア1の処理で進む(ステップS37)。
p=1の場合、すなわち図6(c)の階層テンプレート画像と図7(c)の階層フレーム画像とのペアの場合について(ステップS31で「Yes」)、テンプレートマッチングを行い、前回のステップS35で抽出した領域の類似度を求める(ステップS38)。 次いで、閾値より小さな類似度を有する領域を除外し(ステップS33)、k個(k=1)の領域を抽出する(ステップS35)。そしてテンプレートマッチング処理を終了する(ステップS36、S37)。
以上の処理を、登録したジェスチャの数(m)だけ繰り返す。
以上、本発明の画像認識装置1000をポインティングデバイス220に適用した本実施例を説明したが、本実施例は本発明の画像認識装置1000の適用範囲をポインティングデバイスに限定させるものではない。例えば、本発明の画像認識装置を物体の動きの軌跡を解析するためのモーションキャプチャー、あるいはTVリモコンなどに適用することも可能である。
上述した本発明の1実施形態に係る物体認識方法は、プログラムとして実装されることが好ましい。その場合には、プログラムはメインのサーバから該方法を実行するコンピュータへダウンロードされるか、コンピュータ可読媒体の形態で分配されることが好ましい。コンピュータ可読媒体の例としては、CD−ROM、磁気テープ、フレキシブルディスク、光学式データ保存装置などが挙げられる。
以上、本発明を図面に示した実施形態を用いて説明したが、これらは例示的なものに過ぎず、本技術分野の当業者ならば、本発明の範囲および趣旨から逸脱しない範囲で多様な変更および変形が可能なことは理解できるであろう。したがって、本発明の範囲は、説明された実施形態によって定められず、特許請求の範囲に記載された技術的趣旨により定められねばならない。
テンプレートマッチング処理を説明するための図である。 本発明の1実施形態に係る物体認識装置の機能を示すブロック図である。 本発明の1実施形態に係る物体認識方法の原理を説明するための図である。 本発明の1実施形態に係るテンプレートマッチング部が有するデータベース構造を説明するための図である。 本発明の1実施形態に係る物体認識装置を備えたポインティングデバイスの機能を説明するための図である。 本発明の1実施形態に係る階層テンプレート画像を説明するための図である。 本発明の1実施形態に係る階層フレーム画像を説明するための図である。 本発明の実施例に係る物体認識処理の事前処理のフロー図である。 本発明の実施例に係る物体認識処理のフロー図である。 本発明の実施例に係るテンプレートマッチング処理の詳細なフロー図である。
1000 物体認識装置
10 画像データ入力部
20 差分画像生成部
30 テンプレート画像登録部
40 フレーム画像登録部
50 階層テンプレート画像郡生成部
60 階層フレーム画像郡生成部
90 テンプレートマッチング部
100 類似度計算部
110 閾値判定部
120 物体特定部
130 物体識別および位置情報出力部

Claims (7)

  1. テンプレートマッチングを用いて動画像中の物体を認識する物体認識装置であって、
    前記動画像から背景画像を差分することで、フレーム画像を作成する差分画像生成手段と、
    テンプレート画像から、そのデータ量を段階的に変化した削減率で減少させることにより複数の階層テンプレート画像を作成する階層テンプレート生成手段と、
    前記動画像を構成する複数の前記フレーム画像のそれぞれから、そのデータ量を前記削減率で減少させることにより複数の階層フレーム画像を作成する階層フレーム生成手段と、
    同一の前記削減率を有する前記階層フレーム画像と前記階層テンプレート画像とを組み合わせ、前記削減率の大きい順にテンプレートマッチング処理を行うマッチング手段と、
    前記テンプレートマッチング処理時に、前記階層フレーム画像の各領域における類似度を求める類似度計算手段と、
    前記類似度と所定の閾値とを比較する閾値判定手段と、
    を備え、
    前記フレーム画像は、色情報と透明度情報を有し、
    前記類似度は、前記階層フレーム画像における色分布の類似度と、透明度分布の類似度と、1つ前に処理したフレーム画像の最も高い類似度を有する領域からの距離による重みとから求められ、
    前記所定の閾値よりも小さい類似度を有する領域については、以降の前記テンプレートマッチング処理を行なわず、最後に該処理を行った階層フレーム画像の最も高い類似度を有する領域に前記物体が存在すると判断することを特徴とする物体認識装置。
  2. 前記領域当たりの前記類似度は、該領域を構成する画素のそれぞれで類似度を求めて、その類似度の絶対値を用いて算出することを特徴とする請求項に記載の物体認識装置。
  3. 請求項1または2に記載の物体認識装置を搭載したポインティングデバイス。
  4. テンプレートマッチングを用いて動画像中の物体を認識する物体認識方法であって、
    前記動画像から背景画像を差分することで、フレーム画像を作成する差分画像生成段階と、
    テンプレート画像から、そのデータ量を段階的に変化した削減率で減少させることにより複数の階層テンプレート画像を作成する階層テンプレート生成段階と、
    前記動画像を構成する複数の前記フレーム画像のそれぞれから、そのデータ量を前記削減率で減少させることにより複数の階層フレーム画像を作成する階層フレーム生成段階と、
    同一の前記削減率を有する前記階層フレーム画像と前記階層テンプレート画像とを組み合わせ、前記削減率の大きい順にテンプレートマッチング処理を行うマッチング段階と、
    前記マッチング段階に、前記階層フレーム画像の各領域における類似度を求める類似度計算段階と、
    前記類似度と所定の閾値とを比較する閾値判定段階と、
    を含み、
    前記フレーム画像は、色情報と透明度情報を有し、
    前記類似度は、前記階層フレーム画像における色分布の類似度と、透明度分布の類似度と、1つ前に処理したフレーム画像の最も高い類似度を有する領域からの距離による重みとから求められ、
    前記所定の閾値よりも小さい類似度を有する領域については、以降の前記テンプレートマッチング処理を行なわず、最後に該処理を行った階層フレーム画像の最も高い類似度を有する領域に前記物体が存在すると判断することを特徴とする物体認識方法。
  5. 前記領域当たりの前記類似度は、該領域を構成する画素のそれぞれで類似度を求めて、その類似度の絶対値を用いて算出することを特徴とする請求項に記載の物体認識方法。
  6. 請求項4または5に記載の方法をコンピュータに実行させるためのプログラム
  7. 請求項に記載のプログラムを格納したコンピュータ可読媒体。
JP2007306778A 2007-11-28 2007-11-28 物体認識装置、物体認識方法、物体認識プログラム、および該プログラムを格納するコンピュータ可読媒体 Active JP4971114B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007306778A JP4971114B2 (ja) 2007-11-28 2007-11-28 物体認識装置、物体認識方法、物体認識プログラム、および該プログラムを格納するコンピュータ可読媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007306778A JP4971114B2 (ja) 2007-11-28 2007-11-28 物体認識装置、物体認識方法、物体認識プログラム、および該プログラムを格納するコンピュータ可読媒体

Publications (2)

Publication Number Publication Date
JP2009129388A JP2009129388A (ja) 2009-06-11
JP4971114B2 true JP4971114B2 (ja) 2012-07-11

Family

ID=40820200

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007306778A Active JP4971114B2 (ja) 2007-11-28 2007-11-28 物体認識装置、物体認識方法、物体認識プログラム、および該プログラムを格納するコンピュータ可読媒体

Country Status (1)

Country Link
JP (1) JP4971114B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5317934B2 (ja) * 2009-11-25 2013-10-16 富士フイルム株式会社 オブジェクト検出装置および方法並びにプログラム
JP5633245B2 (ja) 2010-08-20 2014-12-03 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP5409719B2 (ja) 2011-07-27 2014-02-05 日立アロカメディカル株式会社 超音波画像処理装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08279044A (ja) * 1995-03-14 1996-10-22 Imeeji Joho Kagaku Kenkyusho パターン認識装置およびジェスチャ認識装置
JPH1021389A (ja) * 1996-07-03 1998-01-23 Mitsubishi Electric Corp テンプレートマッチング方法およびその装置
JP2003216955A (ja) * 2002-01-23 2003-07-31 Sharp Corp ジェスチャ認識方法、ジェスチャ認識装置、対話装置及びジェスチャ認識プログラムを記録した記録媒体
JP2006172439A (ja) * 2004-11-26 2006-06-29 Oce Technologies Bv 手操作を用いたデスクトップスキャン

Also Published As

Publication number Publication date
JP2009129388A (ja) 2009-06-11

Similar Documents

Publication Publication Date Title
JP6942488B2 (ja) 画像処理装置、画像処理システム、画像処理方法、及びプログラム
JP4929109B2 (ja) ジェスチャ認識装置及びその方法
US10438360B2 (en) Video processing apparatus, video processing method, and storage medium
CN105830093B (zh) 用于产生与非均匀大小的空间区相关的元数据的系统、方法及设备
JP4575829B2 (ja) 表示画面上位置解析装置及び表示画面上位置解析プログラム
US8379987B2 (en) Method, apparatus and computer program product for providing hand segmentation for gesture analysis
JP4915655B2 (ja) 自動追尾装置
JP4855556B1 (ja) 動体検出装置、動体検出方法、動体検出プログラム、動体追跡装置、動体追跡方法及び動体追跡プログラム
US9503629B2 (en) Image processing apparatus, image processing method, and computer-readable device having instructions for generating focused image
EP2372654A1 (en) Object tracking apparatus, object tracking method, and control program
US20150145762A1 (en) Position-of-interest detection device, position-of-interest detection method, and position-of-interest detection program
US10721431B2 (en) Method for estimating a timestamp in a video stream and method of augmenting a video stream with information
JP2021048617A (ja) 情報処理システム、情報処理方法及びプログラム
JP2012003414A (ja) ジェスチャ認識装置、ジェスチャ認識方法およびプログラム
TWI571772B (zh) 虛擬滑鼠驅動裝置及虛擬滑鼠模擬方法
JP2011076255A (ja) ジェスチャ認識装置、ジェスチャ認識方法、およびジェスチャ認識プログラム
JP2014236312A (ja) 設定装置および設定方法
JP2008288684A (ja) 人物検出装置及びプログラム
JP4971114B2 (ja) 物体認識装置、物体認識方法、物体認識プログラム、および該プログラムを格納するコンピュータ可読媒体
JP2008035301A (ja) 移動体追跡装置
JP2002366963A (ja) 画像処理方法、画像処理装置、撮像装置及びコンピュータプログラム
JP4559375B2 (ja) 対象物位置追跡方法、装置、およびプログラム
KR101281461B1 (ko) 영상분석을 이용한 멀티 터치 입력 방법 및 시스템
JP2006244272A (ja) 手位置追跡方法、装置、およびプログラム
JP2006318064A (ja) 画像センサ

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111121

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120315

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120405

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150413

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250