JP3688489B2

JP3688489B2 - 画像認識方法および画像認識装置

Info

Publication number: JP3688489B2
Application number: JP37133298A
Authority: JP
Inventors: 功雄三原; 康晋山内; 明森下; 美和子土井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1998-12-25
Filing date: 1998-12-25
Publication date: 2005-08-31
Anticipated expiration: 2018-12-25
Also published as: US20060034490A1; US7394918B2; JP2000194860A; US7035433B1; US7388970B2; US20060126900A1

Description

【０００１】
【発明の属する技術分野】
本発明は、取得した距離画像または距離画像ストリームに基づいて画像の形状および／または動きを認識する画像認識装置及び画像認識方法に関する。
【０００２】
【従来の技術】
従来、人間の手や顔の動きなどの３次元的な動きの認識を行う場合、まず、ビデオカメラなどの撮像装置を用いて、手や顔などの認識対象物を正面から撮影する。そして、その撮像された画像に現れる平面的な（奥行き情報を持たない）限られた動きの変化と、それ以外の様々な知識などを総動員して、３次元的な動きを推測することで認識を行っていた。
【０００３】
それでは、その方法について幾つか説明する。
【０００４】
１つ目の方法として、認識対象物の特徴点を用いて動きの推測を行う方法がある。これは、認識対象物に予め幾つかの特徴点を定めておいて、対象物の動きによって生じる特徴点どうしの位置関係の変化を用いて動きを推測する方法である。例えば、顔を左右に振っている（左右方向に回転させている）動作を認識する場合、顔の特徴点として、目や鼻など数カ所定めておき、顔の動きによって、目の位置の特徴点が左右に動いた、両目の特徴点の間隔が狭くなった、右目の特徴点が消失した（右目がカメラから見えない位置に移動したため）、などといった変化から顔を右に振っているのであろうと推測する。
【０００５】
しかし、この方法を用いた場合、対応点をカメラ画像内で安定して得るためには、顔の特徴点の位置にマーカーなどを貼付しなければならないため、使用できる環境が限られているなどの問題があった。マーカーを用いないこともあるが、この場合は特徴点の抽出を安定的に行えない上に、特徴点を得るために多大な計算コストも必要としてしまう。
【０００６】
また、別の方法として、運動モーメントの変化を求めることで推測する方法がある。これは、例えば、手を縦軸周りに回転させる動きの場合、手の横方向の前方投影面積が著しく変化するのに対し、縦方向はあまり変化しないというような性質を利用しており、このような場合、手の横方向の運動モーメントのみの変化が激しいことより、手を縦軸周りに回転させているのではないかと推測される。
【０００７】
この方法は、確かに３次元的な動きを推測する一手法ではあるが、認識に使用できる対象物の形状に制限があったり、平面的な別の動きとの区別がつき難いため、誤認識をする可能性があるなどの問題点があった。
【０００８】
また、認識対象物の幾何学的な形状の性質から推測する方法もある。例えば、さいころの３次元的な動きを認識する場合、現在、「１」の面がカメラから見えていて、それが「３」の面に変化したのだから、サイコロが回転したのだろうという推測が成り立つ。この方法は、認識対象物の幾何学的な立体情報の知識を用いているため、比較的確実に３次元的な動きを推測することが可能であるが、認識を行うことのできる物体が限られている、しかも、その物体に対する幾何学的な知識を必要とするといったように、汎用性に関する問題点がある。
【０００９】
ここで挙げた以外にも様々な方法があるであろうが、何れにしても、これらの方法では、あくまでも平面的な情報のみしか持たない画像から、３次元的な動きを推測しているに過ぎず、３次元的な動きの認識を安定的に、高精度で行うことは困難である。もともと３次元的な形状の対象物をカメラで平面情報として取得した時点で、かなりの情報が欠落しているからである。
【００１０】
これらの問題を回避するために、複数のビデオカメラを用いて、数カ所から同時に撮像し、各カメラの対応点を求めることで、複数の撮像画像から立体情報を計算し、それを用いて３次元的な動きを求めるということが行われていた。
【００１１】
この方法では、実際に複数の撮像画像から立体情報を構成しているため、上述したような平面情報から３次元情報を推測するという問題点は解決されるが、複数のカメラからの画像を立体的に融合するための対応点の計算に大変計算時間を必要とするため、リアルタイム処理に不向きであった。また、対応点を求めるためにカメラの位置情報を必要とするため、カメラの位置に制約があったり、カメラ位置のキャリブレーションの必要があったりした。
【００１２】
以上のように、従来方法では、画像から３次元的な動きの認識を行う方法には様々な問題点があった。
【００１３】
【発明が解決しようとする課題】
従来の手法では、ビデオカメラなどを用いて認識対象物を２次元情報しかもたない画像として取得していたため、３次元的動きの認識を、２次元情報のみから行うしかなく、安定して、高精度で３次元的な動きの認識を行うことは困難であるという問題点があった。
【００１４】
また、認識対象をあらかじめテンプレートあるいは認識辞書として準備しておく必要があり、テンプレートや認識辞書の作成の手間が煩雑であるばかりでなく、認識対象に応じて、常に作成し直すコストが膨大であるという問題点があった。
【００１５】
さらに、認識時に、膨大なテンプレートとのマッチングを行う必要があり、認識処理に時間がかかるとい問題点があった。
【００１６】
そこで、本発明は、対象物に対する距離画像の３次元的な変形画像を用いることにより、認識のためのテンプレートや辞書を作る手間なく、かつ３次元的な動きの認識を短時間でしかも安定して高精度に行うことができる画像認識方法およびそれを用いた画像認識装置を提供することを目的とする。
【００１７】
【課題を解決するための手段】
（１）本発明の画像認識方法は、取得した距離画像に対し変形を施して得られた変形画像と新たに取得した距離画像とを比較することにより、前記距離画像中の対象物の３次元的な動きの有無を認識することを特徴とする。
【００１８】
本発明によれば、対象物に対する距離画像の３次元的な変形画像を用いることにより、認識のためのテンプレートや辞書を作る手間なく、かつ３次元的な動きの有無の認識を短時間でしかも安定して高精度に行うことができる。
【００１９】
（２）本発明の画像認識方法は、取得した距離画像に対し変形を施して得られた変形画像と新たに取得した距離画像とを比較することにより、前記距離画像中の対象物の３次元的な動きの有無を認識し、一連の複数の距離画像のそれぞれから認識された一連の動きを認識することを特徴とする。
【００２０】
本発明によれば、対象物に対する距離画像の３次元的な変形画像を用いることにより、認識のためのテンプレートや辞書を作る手間なく、かつ３次元的な動きの認識を短時間でしかも安定して高精度に行うことができる。
【００２１】
（３）好ましくは、前記認識された一連の動きに基づき前記対象物の動きを予測する。
【００２２】
好ましくは、前記取得した距離画像から抽出された前記対象物の特徴量を基に前記対象物の動きを予測する。
【００２３】
好ましくは、前記取得した距離画像から抽出された前記対象物の特徴量と前記認識された一連の動きとに基づき、前記対象物の動きを予測する。
【００２４】
対象物の動きを予測することで、例えば、距離画像の変形態様を限定することができ、認識処理の時間短縮が図れる。
【００２５】
（４）好ましくは、前記認識された対象物の動きに基づき前記画像取得手段で取得された距離画像を圧縮する。
【００２６】
これにより、高い圧縮率が実現でき、距離画像を通信を用いて転送する際の通信時間が短縮できる。
【００２７】
（５）本発明の画像認識装置は、距離画像を取得する画像取得手段と、
この画像取得手段で取得した距離画像に対し変形を施す画像変形手段と、
この画像変形手段で得られた変形画像と前記画像取得手段で新たに取得した距離画像とを比較することにより、対象物の３次元的な動きの有無を認識する認識手段と、
を具備する。
【００２８】
本発明によれば、対象物に対する距離画像の３次元的な変形画像を用いることにより、認識のためのテンプレートや辞書を作る手間なく、かつ３次元的な動きの有無の認識を短時間でしかも安定して高精度に行うことができる。
【００２９】
（６）本発明の画像認識装置は、距離画像を取得する画像取得手段と、
この画像取得手段で取得した距離画像に対し変形を施す画像変形手段と、
この画像変形手段で得られた変形画像と前記画像取得手段で新たに取得した距離画像とを比較することにより、対象物の３次元的な動きの有無を認識する第１の認識手段と、
この認識手段で一連の複数の距離画像のそれぞれから認識された一連の動きを認識する第２の認識手段と、
を具備する。
【００３０】
本発明によれば、対象物に対する距離画像の３次元的な変形画像を用いることにより、認識のためのテンプレートや辞書を作る手間なく、かつ３次元的な動きの認識を短時間でしかも安定して高精度に行うことができる。
【００３１】
（７）本発明の画像認識装置は、距離画像を取得する画像取得手段と、
この画像取得手段で取得した距離画像を記憶する記憶手段と、
前記画像取得手段で取得した距離画像およびまたは前記記憶手段に記憶された距離画像のうち指定された距離画像に対し変形を施す画像変形手段と、
この画像変形手段で得られた変形画像あるいは前記記憶手段に記憶された距離画像と、前記画像取得手段で新たに取得した距離画像とを比較することにより、対象物の３次元的な動きの有無を認識する認識手段と、
を具備する。
【００３２】
本発明によれば、対象物に対する距離画像の３次元的な変形画像を用いることにより、認識のためのテンプレートや辞書を作る手間なく、かつ３次元的な動きの有無の認識を短時間でしかも安定して高精度に行うことができる。
【００３３】
また、予め蓄えられた距離画像の変形画像をテンプレート画像とした認識を行うことにより、予め判別したい動きの距離画像を記憶手段に登録しておけば、その動作が行われたのかどうかを認識することが可能になる。
【００３４】
（８）本発明の画像認識装置は、距離画像を取得する画像取得手段と、
この画像取得手段で取得した距離画像を記憶する記憶手段と、
前記画像取得手段で取得した距離画像およびまたは前記記憶手段に記憶された距離画像のうち指定された距離画像に対し変形を施す画像変形手段と、
この画像変形手段で得られた変形画像あるいは前記記憶手段に記憶された距離画像と、前記画像取得手段で新たに取得した距離画像とを比較することにより、対象物の３次元的な動きの有無を認識する第１の認識手段と、
この第１の認識手段で一連の複数の距離画像のそれぞれから認識された一連の動きを認識する第２の認識手段と、
を具備したことを特徴とする。
【００３５】
本発明によれば、対象物に対する距離画像の３次元的な変形画像を用いることにより、認識のためのテンプレートや辞書を作る手間なく、かつ３次元的な動きの認識を短時間でしかも安定して高精度に行うことができる。
【００３６】
また、予め蓄えられた距離画像の変形画像をテンプレート画像とした認識を行うことにより、予め判別したい動きの距離画像を記憶手段に登録しておけば、その動作が行われたのかどうかを認識することが可能になる。
（９）好ましくは、前記第２の認識手段で認識された一連の動きに基づき前記対象物の動きを予測する予測手段をさらに具備する。
【００３７】
好ましくは、前記画像取得手段で取得された距離画像から前記対象物の特徴量を抽出する特徴量抽出手段と、
この特徴量抽出手段で抽出された特徴量を基に、前記対象物の動きを予測する予測手段と、
を具備さらに具備する。
【００３８】
好ましくは、前記画像取得手段で取得された距離画像から前記対象物の特徴量を抽出する特徴量抽出手段と、
この特徴量抽出手段で抽出された特徴量と前記第２の認識手段で認識された一連の動きとに基づき、前記対象物の動きを予測する予測手段と、
を具備する。
【００３９】
対象物の動きを予測することで、例えば、距離画像の変形態様を限定することができ、認識処理の時間短縮が図れる。
（１０）好ましくは、前記認識された対象物の動きに基づき前記画像取得手段で取得された距離画像を圧縮する画像圧縮手段を具備する。
【００４０】
これにより、高い圧縮率が実現でき、距離画像を通信を用いて転送する際の通信時間が短縮できる。
【００４１】
【発明の実施の形態】
以下、図面を参照しながら発明の実施の形態を説明する。
【００４２】
（第１の実施形態）
まず、本発明の第１の実施形態について説明する。
【００４３】
図１は、本発明の第１の実施形態に係る画像認識装置の全体構成図である。
【００４４】
本実施形態の画像認識装置は、距離画像ストリームを取得するための撮像手段を備えた画像取得部１と、画像取得部１で取得された任意の距離画像に３次元的な回転変形処理を施すための画像変形部２と、画像変形部２で得られた変形後の距離画像と、画像取得部１で取得された距離画像ストリーム中の任意の距離画像とを比較するための画像比較部３とから構成される。
【００４５】
まず、画像取得部１および距離画像について説明する。
【００４６】
画像取得部１は、認識対象物体（例えば、人間の手、顔、全身など）を、その３次元形状を反映した奥行き値を持つ画像（以降、距離画像と呼ぶ）として所定時間毎（例えば１／３０秒毎など）に取得するものである（例えば、特願平８−２７４９４９号の画像取得方法などを用いて実現することができる）。
【００４７】
所定時間毎に距離画像が取得されてゆくため、これらをメモリなどを用いて、画像取得部１の内部または外部で逐次保持することで、対象物の距離画像による動画像（以降、距離画像ストリームと呼ぶ）を得ることができる。このとき、距離画像ストリームは、距離画像の取得間隔をｔ秒としたとき、「最新の距離画像」、「最新からｔ秒前（以降、１フレーム前と呼ぶ）の距離画像」、「最新から２ｔ秒前（２フレーム前、以下同様）の距離画像」、…、といった複数フレームの距離画像の集合体として得られることになる。
【００４８】
画像取得部１は、図２に示すように、主に、発光部１０１、受光部１０３、反射光抽出部１０２、タイミング信号生成部１０４から構成される。
【００４９】
発光部１０１は、タイミング信号生成部１０４にて生成されたタイミング信号に従って時間的に強度変動する光を発光する。この光は発光部前方にある対象物体に照射される。
【００５０】
受光部１０３は、発光部１０１が発した光の対象物体による反射光の量を検出する。
【００５１】
反射光抽出部１０２は、受光部１０３にて受光された反射光の空間的な強度分布を抽出する。この反射光の空間的な強度分布は画像として捉えることができるので、これを反射光画像あるいは距離画像と呼ぶ。
【００５２】
受光部１０３は一般的に発光部１０１から発せられる光の対象物による反射光だけでなく、照明光や太陽光などの外光も同時に受光する。そこで、反射光抽出部１０２は発光部１０１が発光しているときに受光した光の量と、発光部１０１が発光していないときに受光した光の量の差をとることによって、発光部１０１からの光の対象物体による反射光成分だけを取り出す。
【００５３】
反射光抽出部１０２では、受光部１０３にて受光された反射光から、その強度分布、すなわち、図３に示すような反射光画像（距離画像）を抽出する。
【００５４】
図３では、簡単のため、２５６×２５６画素の反射光画像の一部である８×８画素の反射光画像の場合について示している。
【００５５】
物体からの反射光は、物体の距離が大きくなるにつれ大幅に減少する。物体の表面が一様に光を散乱する場合、反射光画像１画素あたりの受光量は物体までの距離の２乗に反比例して小さくなる。
【００５６】
反射光画像の各画素値は、その画素に対応する単位受光部で受光した反射光の量を表す。反射光は、物体の性質（光を鏡面反射する、散乱する、吸収する、など）、物体の向き、物体の距離などに影響されるが、物体全体が一様に光を散乱する物体である場合、その反射光量は物体までの距離と密接な関係を持つ。手などは、このような性質をもつため、距離画像取得部１の前方に手を差し出した場合の反射光画像は、手までの距離、手の傾き（部分的に距離が異なる）などを反映する図４に示したような３次元的なイメージを得ることができる。
【００５７】
図５は、例えば、特願平９−２９９６４８号に記載されているような画像取得部１を構成する発光部１０１と、受光部１０３の外観の一例を示したもので、中央部には円形レンズとその後部にあるエリアセンサ（図示せず）から構成される受光部１０３が配置され、円形レンズの周囲にはその輪郭に沿って、赤外線などの光を照射するＬＥＤから構成される発光部１０１が複数（例えば６個）等間隔に配置されている。
【００５８】
発光部１０１から照射された光が物体に反射され、受光部１０３のレンズにより集光され、レンズの後部にあるエリアセンサで受光される。エリアセンサは、例えば２５６×２５６のマトリックス状に配列されたセンサで、マトリックス中の各センサにて受光された反射光の強度がそれぞれ画素値となる。このようにして取得された画像が、図３に示すような反射光の強度分布としての距離画像である。
【００５９】
図３は、距離画像データの一部（２５６ｘ２５６画素の一部の８ｘ８画素）を示したものである。この例では、行列中のセルの値（画素値）は、取得した反射光の強さを２５６ビットで示したものである。例えば、「２５５」の値があるセルは、画像取得部１に最も接近した状態、「０」の値があるセルは、画像取得部１から遠くにあり、反射光が画像取得部１にまで到達しないことを示している。
【００６０】
図４は、図３に示したようなマトリックス形式の距離画像データ全体を３次元的に示したものである。この例では、人間の手の距離画像データの場合を示している。
【００６１】
図６に、画像取得部１により取得された手の距離画像の例を示す。距離画像は、奥行き情報を有する３次元画像で、例えば、ｘ軸（横）方向６４画素、ｙ軸（縦）方向６４画素、ｚ軸（奥行き）方向２５６階調の画像になっている。図６は、距離画像の距離値、すなわちｚ軸方向の階調をグレースケールで表現したもので、この場合、色が黒に近いほど画像取得部１からの距離が近く、白に近くなるほど距離が遠いことを示している。また、色が完全に白のところは、画像がない、あるいはあっても遠方でないのと同じであることを示している。
【００６２】
物体からの反射光の強さは当該物体までの距離の２乗に反比例して小さくなる。すなわち、距離画像中の各画素（ｉ、ｊ）の画素値をＱ（ｉ、ｊ）とすると、
Ｑ（ｉ、ｊ）＝Ｋ／ｄ^２
と表すことができる。
【００６３】
ここで、Ｋは、例えば、ｄ＝０．５ｍのときに、Ｒ（ｉ、ｊ）の値が「２５５」になるように調整された係数である。上式をｄについて解くことで、距離値を求めることができる。
【００６４】
次に、画像変形部２について説明する。
【００６５】
画像変形部２は、画像取得部１によって取得された認識対象物体の距離画像ストリーム中に含まれる距離画像のうち、常に最新より数フレーム前（例えば、常に１フレーム前）の距離画像（以降、サンプル画像と呼ぶ）に３次元的な回転変形処理を施し、新たな距離画像（以降、変形画像と呼ぶ）を生成するものである。
【００６６】
ここで、サンプル画像として何フレーム前の距離画像を用いるかは、画像取得部１の距離画像取得間隔（フレームレート）、対象物の動作速度などの情報を基に決定する。例えば、ｙ軸回りに手を回転させる、といったような一連の動作の間に、Ｎフレーム取得できるならば、サンプル画像は、１ないしＮフレーム前の距離画像の間で任意に選べばよい。
【００６７】
それでは、画像変形部２で実際にどのようにして距離画像に３次元的な回転変形処理を行うのかを詳細に説明する。図７に画像変形部２における回転変形処理を説明するためのフローチャートを示す。
【００６８】
まず、各画素（ｘ、ｙ）位置の距離値ｄ（ｘ、ｙ）＝ｚの時、その画素位置にはｚ個の立方体（以降、ボクセルと呼ぶ）が積み重なっていると見なし、図８のように距離画像をボクセル単位に分割する（ステップＳ１）。
【００６９】
なお、以上に示したボクセル分割の方法は一例であり、図９のように対象物のボクセル分割の範囲を限定してもよい。例えば、図９（ａ）に示すように、下方向に無限にボクセルが続いているとみなしたり、図９（ｂ）に示すように、ある範囲以下では、ボクセルは存在しないとみなしたり、また、図９（ｃ）（ｄ）に示すように、表面付近にしかボクセルがないとみなすなどしてもよい。
【００７０】
次に、回転の中心（ｘ０、ｙ０、ｚ０）を決定する（ステップＳ２）。なお、回転の中心位置は、目的により任意に定めることができる。例えば、顔の回転を求めたければ、クビの中心軸が中心になるようにすればよいし、手の回転を求めたければ、手の重心位置にすればよい。
【００７１】
さらに、回転の方向（θｘ、θｙ、θｚ）を決定する（ステップＳ３）。ここで、θｘはｘ軸に対する回転角、θｙはｙ軸に対する回転角、θｚはｚ軸に対する回転角である。
【００７２】
この際、回転角は、認識対象物の動作速度と、画像取得部１の距離画像取得間隔（フレームレート）、および何フレーム前をサンプル画像とするかにより定めることができる。例えば、手のｙ軸回りの回転動作の速度が３０度／秒ぐらいの動作を、１フレーム前をサンプル画像とし、フレームレートが１／３０秒の撮像装置で捉えたい場合には、手は１フレーム間で１度回転することになるから、θｙ＝１度とすればよい。
【００７３】
そして、図１０（ａ）に示す各ボクセル（ｘ、ｙ、ｚ）毎に次式（１）を用いて回転後の位置（ｘ’、ｙ’、ｚ’）を計算する（ステップＳ４）。
【００７４】
【数１】

【００７５】
式（１）では、図７のステップＳ２で求めた回転の中心位置（ｘ０、ｙ０、ｚ０）を中心に、各ボクセル（ｘ、ｙ、ｚ）をｘ軸、ｙ軸、ｚ軸に対し、それぞれθｘ、θｙ、θｚだけ回転させる場合の計算式を示している。
【００７６】
ここで、座標（ｘ、ｙ、ｚ）にあるボクセルのことを、ボクセル（ｘ、ｙ、ｚ）と呼ぶ。
【００７７】
全てのボクセルについて、ステップＳ４の演算処理を行う（ステップＳ５）。各ボクセルを回転させた結果を図１０（ｂ）に示す。
【００７８】
全てのボクセルについて終了したら、図１１（ａ）に示すように、各画素位置（ｘ、ｙ）にあるボクセル（ｘ、ｙ、ｚ）のｚの最大値（Ｚｍａｘ）を求め、それを変形画像の画素（ｘ、ｙ）の距離値ｄ（ｘ、ｙ）＝Ｚｍａｘとして、距離画像を再構成する（ステップＳ６）。
【００７９】
なお、以上の説明において、ボクセル分割と式（１）による回転変形処理の流れは、あくまでも一例であり、これに限定されるものではない。他の手法を用いて距離画像の回転変形を行っても構わない。
【００８０】
以上の作業により、サンプル画像に、任意の３次元的な回転処理を施した距離画像、すなわち変形画像を生成することができる。
【００８１】
図１２（ａ）にサンプル画像と、図１２（ｂ）に画像変形部２でサンプル画像に３次元的な回転変形処理を施した変形画像の例を示す。この例では、手のサンプル画像をｙ軸（縦方向）回りに回転変形処理を行うことにより得られた変形画像が示されている。
【００８２】
次に、画像比較部３について説明する。
【００８３】
画像比較部３では、画像取得部１によって取得された最新の距離画像（以降、最新画像と呼ぶ）と、画像変形部２で得られた変形画像とを比較し、これら２画像が類似しているかどうかを判別する。
【００８４】
この際、類似の判別は、最新画像と変形画像の相関を求めることにより行う。テンプレートマッチング法は、その一手法で、比較対象物の画像と、予め用意したテンプレート画像との類似度を計算することで、対象物の画像とテンプレート画像が類似しているかどうかを比較する方法である。ここでは、このテンプレートマッチング法を用いることにより、相関を求めることとする。
【００８５】
具体的には、変形画像をテンプレート画像とし、それと最新画像とを、テンプレートマッチング法を用いて比較することで、両者の類似の度合いを判別する。
【００８６】
図１３（ａ）は、図１２（ｂ）に示したサンプル画像に回転処理を施して得られた変形画像で、図１３（ｂ）は、最新画像の例を示す。これら変形画像と最新画像との間の類似の度合いを判別するのである。
【００８７】
図１４に画像比較部３におけるテンプレートマッチング法を用いた処理の流れを説明するためのフローチャートを示す。以下、処理の流れを図１４に沿って説明する。
【００８８】
まず、必要であれば、最新画像とテンプレート画像の位置の正規化を行う（ステップＳ１１）。位置の正規化は、例えば、最新画像とテンプレート画像の両者の重心位置を一致させることにより求めることができる。このようにするためには、具体的には、最新画像の重心位置を（ｘｃ、ｙｃ、ｚｃ）、テンプレート画像の重心位置を（ｘｔ、ｙｔ、ｚｔ）とすると、テンプレート画像をｘ方向にｘｃ−ｘｔ、ｙ方向にｙｃ−ｙｔ、ｚ方向にｚｃ−ｚｔの距離だけ平行移動すればよい。
【００８９】
なお、ここでは、位置の正規化の一手法を説明したが、位置の正規化の方法はこれに限定されるものではなく、最新画像とテンプレート画像の両者の重心が特定の場所になるように、両者をそれぞれ平行移動してもよいし、重心位置以外の他の手がかりを用いることで行っても良い。
【００９０】
次に、最新画像とテンプレート画像とのハミング距離を計算する（ステップＳ１２）。ハミング距離（Ｈ）は、次式（２）より計算する。
【００９１】
【数２】

【００９２】
ここで、ｉ、ｊはそれぞれ各画素のｘ、ｙ座標、ｄ（ｉ、ｊ）は最新画像の座標（ｉ、ｊ）での距離値、ｔ（ｉ、ｊ）はテンプレート画像の座標（ｉ、ｊ）での距離値である。
【００９３】
なお、ここでは、ハミング距離の導出の一方法を説明したが、ハミング距離の導出は、これに限定されるものではなく、他の計算式を用いても良い。
【００９４】
そして、このハミング距離（Ｈ）の値が、予め定めた閾値（Ｔｈ）を下回っている（すなわち、Ｈ＜Ｔｈ）かどうか判定する。閾値を下回っている場合は、最新画像とテンプレート画像が類似していると見なす（ステップＳ１３〜ステップＳ１４）。
【００９５】
以上の作業により、最新画像と変形画像が類似しているかどうかを判別することができる。
【００９６】
なお、ここでは、最新画像とテンプレート画像とのハミング距離を求めることで、最新画像とテンプレート画像の類似度を計算する方法について説明したが、類似度の計算は、これに限定されるものではなく、ハミング距離とは異なった定義を持つ距離の計算を用いる方法など、他の計算方法を用いても構わない。
【００９７】
また、ここでは、テンプレートマッチング法を用いて相関を計算する方法について説明したが、相関の導出方法はこれに限定されるものではなく、ＤＰマッチング法、ＫＬ変換法などを用いて求める方法、両画像をフーリエ変換し、フーリエ変換後の画像について相関解析をする方法など、考えられるあらゆる方法を用いることができる。
【００９８】
以上説明したように、本実施形態では、数フレーム前（例えば、１フレーム前）の画像を回転させたものと、最新の画像が類似しているかどうかを知ることができる。つまり、対象物が数フレーム前から現在までに、回転を行ったかどうかを認識することができる。
【００９９】
さらに、本実施形態では、従来の２次元画像内の２次元的な情報から、３次元的な回転を推測するといった認識手法（例えば、手のｘ軸方向（横方向）の投影面積が減少したから、手をｙ軸周りで回転したのであろうといったもの）と異なり、実際に距離画像の３次元的な回転を行い、その３次元的な情報を用いることで認識を行っているため、従来法よりも、より確実に、より安定して認識を行うことが可能である。
【０１００】
また、従来のテンプレートマッチングを用いた認識では、予め多数のテンプレート画像を用意しておく必要があったが、本実施形態の方法では、常にリアルタイムに変形画像を生成し、それをテンプレート画像として用いるため、予めテンプレート画像を用意しておく必要がなく、メモリなどを消費しないため効率的である。
【０１０１】
また、従来のテンプレートマッチングを用いた認識の場合、予めあらゆるテンプレート画像を全て用意することは事実上不可能なので、通常は、認識対象物の代表的な形状と考えられているものを幾つか選別して用意しておくことが多い。例えば、顔の認識の場合、成人男性の顔、成人女性の顔、子供の顔、老人の顔などを何人分か用意するといったようにである。このとき、比較対象となるテンプレート画像は代表的な形状で代用されるため、現在の認識対象物と細部の面で異なることが多く、それが類似度を下げる一因になっていた。また、不特定の対象物に対して認識を行おうとする場合、テンプレート画像をなるべく多数用意しなければ、認識率を向上させることができなかった。しかし、本実施形態の方法では、認識対象物自身を変形することによりテンプレート画像を生成しているため、このような問題点は生じることがなくなった。
【０１０２】
以上のように、本実施形態によれば、認識対象物の数フレーム前の距離画像の３次元的な回転変形をその場で行い、その変形により得られた画像と現在の距離を比較することで、対象物の３次元的な回転動作をリアルタイムで、安定して認識することが可能となった。
【０１０３】
本実施形態は、上記した構成に限定されず、種々変形して実施することができる。以下では、本実施形態のいくつかの変形例を示す。
（第１の実施形態の第１の変形例）
画像取得部１で、所定時間毎に距離画像を取得するのではなく、特定のタイミング（例えば、ユーザの指示など）で距離画像を取得するようにしてもよい。
【０１０４】
このようにすることにより、例えばユーザが開始時と終了時をスイッチで指示し、その間に回転動作が行われたかどうかといったような、任意の時間間隔内での３次元的な回転動作認識を行うことが可能である。
【０１０５】
例えば、自動車では事故時の衝突を和らげるために、エアバッグ装備が法制化されている。が、エアバッグの膨張時に助手席の同乗者がどちらを向いてどのあたりに座っているかを検知して、同乗者をエアバッグで圧迫することがないようにせねばならない。このような時、座席に座って、シートベルトを装着した時点で、助手席の同乗者の顔の距離画像を取得し、それをサンプル画像として変形画像を求める。エアバッグを膨らませる直前の顔の距離画像を取得し、変形画像と比較することで、同乗者の顔の位置と向きを高精度で認識することが可能となる。
（第１の実施形態の第２の変形例）
画像変形部２で、最新のフレームではなく、過去の特定のフレームを基準として、そこから数フレーム前（例えば、１フレーム前）の距離画像の３次元的な回転変形処理により変形画像を生成し、画像比較部３で、画像変形部２で基準としたフレームと、画像変形部２で得られた変形画像とを比較し、これら２画像が類似しているかどうかを判別するようにしてもよい。
【０１０６】
このようにすることにより、過去の特定の時点での３次元的な回転動作認識を行うことが可能である。
（第１の実施形態の第３の変形例）
画像変形部２および画像比較部３を以下のように変更して用いることもできる。
【０１０７】
新たな画像変形部２では、サンプル画像に、変形パラメータが異なる複数の３次元的な回転変形処理を施し、複数の変形画像の生成を行う。
【０１０８】
そして、新たな画像比較部３では、画像取得部１によって取得された最新画像と、新たな画像変形手部２で得られた変形パラメータが異なる複数の変形画像とを比較し、最新画像と類似している変形画像があるか、あるならば、どの変形画像が最も類似しているかを判別する。
【０１０９】
それでは、本変形例の新たな画像変形部２でどのような処理を行うのかを具体的に説明する。
【０１１０】
例えば、図１５に示したような人の顔の距離画像がサンプル画像として得られたとする。
【０１１１】
この顔のサンプル画像に対して、図１６〜図１９に示すように、例えば、上下左右方向にそれぞれ同じ角度だけ回転させた４つの変形画像を生成する。図１６は、頭の重心位置を中心とし、（θｘ、θｙ、θｚ）＝（２、０、０）だけ回転させて、顔を少し上に向かせたものである。図１７は、同じく、頭の重心位置を中心とし、（θｘ、θｙ、θｚ）＝（−２、０、０）だけ回転させて、顔を少し下に向かせたものである。図１８は、同じく、頭の重心位置を中心とし、（θｘ、θｙ、θｚ）＝（０、２、０）だけ回転させて、顔を紙面に向かって少し右に向かせたものである。図１９は、同じく、頭の重心位置を中心とし、（θｘ、θｙ、θｚ）＝（０、−２、０）だけ回転させて、顔を紙面に向かって少し左に向けたものである。なお、角度の単位は、「度」である。
【０１１２】
図１６〜図１９は、それぞれ回転変形させたことにより、画像取得部１に近づく方向に変形された部分の色が黒に近づき、遠くなる方向に変形された部分が白に近くなっている。
【０１１３】
次に、画像変形部２で得られた図１６〜図１９の４つの変形画像を全てテンプレート画像として、画像比較部３では、これら変形画像と図２０に示すような最新画像とでテンプレートマッチング法を用いて、４つの変形画像中で最新画像に類似しているものがあるかどうか、あるならば、どれが一番類似しているかを調べる。
【０１１４】
図２１に新たな画像比較部３におけるテンプレートマッチング法を用いた処理の流れを説明するためのフローチャートを示す。以下、処理の流れを図２１に沿って説明する。
【０１１５】
まず、テンプレート画像（Ｔｉ）を１つ選択する（ステップＳ２１）。すなわち、Ｔｉは、図１６〜図１９の４つの変形画像中のどれかということになる。
【０１１６】
そして、必要であれば、図１４の説明と同様に、位置の正規化を行う（ステップＳ２２）。
【０１１７】
次に、図１４の説明と同様に、最新画像とテンプレート画像（Ｔｉ）とのハミング距離を計算する（ステップＳ２３）。
【０１１８】
全てのテンプレート画像についてハミング距離の計算が終わったかどうか判定する（ステップＳ２４）。終わっていなければ、ステップＳ２１に戻る。全てのテンプレート画像について終わったら、ハミング距離が最小（Ｈｍｉｎ）となるテンプレート画像（Ｔｍｉｎ）を選ぶ（ステップＳ２５）。ここでは、例えば、図１６に示した変形画像が選ばれたとする。
【０１１９】
そして、このハミング距離（Ｈｍｉｎ）の値が、予め定めた閾値（Ｔｈ）を下回っている（すなわち、Ｈｍｉｎ＜Ｔｈ）かどうか判定する（ステップＳ２６）。閾値を下回っている場合は、最新画像とテンプレート画像（Ｔｉ）が類似していると見なす（ステップＳ２７）。もしこの条件に当てはまれば、図１６の変形画像が最新画像に類似していることが求められた。
【０１２０】
以上の作業により、最新画像と最も類似している変形画像を知ることができる。（類似している変形画像がないという結果が得られる場合もある（ステップＳ２８）。）
このようにすることで、図２０に示した最新画像は、図１６に示した顔を右側に向けたものと類似していることが得られたので、「顔を右側に向けた」ことが認識された。
【０１２１】
以上のように、本変形例では、認識対象物の回転方向（どちら側に回転したか）を認識することが可能である。
【０１２２】
なお、ここでは、上下左右の４方向について変形画像を作成する方法について説明したが、これは変形パラメータが異なる複数の３次元的な回転変形処理の一例であり、これに限定されるものではない。上下左右、右上、左上、右下、左下の８方向にしたり、右側だけを重点的に調べるために増やしたり、また、同じ方向でも、回転角を代えたものを複数枚用意したり、というように認識の目的に応じて自由に選択することができる。
【０１２３】
例えば、手の回転動作を考える。図２２で示したようなサンプル画像に対し、図２３〜図２６に示したような手の重心位置を中心として、上下左右の４方向のそれぞれに回転させて変形画像を生成する交わりに、図２７〜図３０に示すように、上下左右方向にそれぞれ回転角の異なる変形画像を複数（この例では、１度と２度の２通り）生成してもよい。
【０１２４】
図２７（ａ）は、（θｘ、θｙ、θｚ）＝（１、０、０）だけ回転させて、手を少し上に向けたもので、図２７（ｂ）は、さらに１度、（θｘ、θｙ、θｚ）＝（２、０、０）だけ回転させて、手をさらに上に向けたものである。図２８（ａ）は、（θｘ、θｙ、θｚ）＝（−１、０、０）だけ回転させて、手を少し下に向けたもので、図２８（ｂ）は、さらに１度、（θｘ、θｙ、θｚ）＝（−２、０、０）だけ回転させて、手をさらに上に向けたものである。図２９（ａ）は、（θｘ、θｙ、θｚ）＝（０、１、０）だけ回転させて、手を紙面に向けて右に少し向けたもので、図２９（ｂ）は、さらに１度、（θｘ、θｙ、θｚ）＝（０、２、０）だけ回転させて、手をさらに右に向けたものである。図３０（ａ）は、（θｘ、θｙ、θｚ）＝（０、−１、０）だけ回転させて、手を紙面に向けて左に少し向けたもので、図３０（ｂ）は、さらに１度、（θｘ、θｙ、θｚ）＝（０、−２、０）だけ回転させて、手をさらに左に向けたものである。
【０１２５】
このように、上下左右方向にそれぞれ回転角の異なる変形画像を複数（この例では、１度と２度の２通り）用意することで、認識対象物の回転方向だけでなく、回転量も同時に認識することができる。
【０１２６】
このとき、距離画像取得のフレームレートが変化しなければ、回転量は、動作の速度に比例するので、動作方向と動作速度の認識が同時に行われたことになる。
【０１２７】
つまり、手をどちら側に向けたか、というような対象物の動作の認識だけでなく、その動作の速度も同時に得ることができる訳である。
（第１の実施形態の第４の変形例）
第１の実施形態の画像変形部２では、３次元的な回転変形処理を施して変形画像を生成したが、何の変形も行わないもの、つまりサンプル画像をそのまま変形画像として用いることも可能である。
【０１２８】
この場合、認識対象物が静止していたかどうかの認識が可能である。
（第１の実施形態の第５の変形例）
第１の実施形態の画像変形部２では、３次元的な回転変形処理を施して変形画像を生成したが、平行移動変形処理を施して変形画像を生成するようにしてもよい。
【０１２９】
この場合、認識対象物の３次元的な平行移動動作の認識が可能である。
【０１３０】
また、画像変形部２における変形手段の一手法として平行移動変形処理について説明したが、変形手段はこれに限定されるものではなく、拡大・縮小、反転（ミラーリング）、トリミングなど、その他考えられる全ての変形手法を用いることが可能である。
【０１３１】
このようにすることで、例えば、３次元的な拡大・縮小動作の認識などといったような、認識対象物の任意の変形に関する動作認識を行うことが可能となる。
【０１３２】
さらに、画像変形部２で、これらの変形処理を複数組み合わせて同時に施すことで、回転動作、平行移動動作といった単一の動作の認識のみだけでなく、任意の動作の認識を行うことが可能である。
【０１３３】
例えば、「手のｚ軸（奥行き）方向の平行移動変形」と「ｙ軸（縦方向）周りの回転変形」を組み合わせて変形画像を生成することで、手を奥行き方向の前後に動かしながら縦軸周りに左右に回転させるなどという動作を認識することができる。
（第２の実施形態）
次に、本発明の第２の実施形態について説明する。
【０１３４】
図３１は、本発明の第２の実施形態に係る画像認識装置の全体構成図である。
【０１３５】
本実施形態の画像認識装置は、第１の実施形態の画像認識装置に加え、画像比較部３での比較結果を用いて動きの認識を行うための動き認識部４が追加された構成になっている。
【０１３６】
それでは、動き認識部４について説明する。
【０１３７】
第１の実施形態に係る画像認識装置を用いることで、最新フレームとその数フレーム前との間で回転動作が行われたかどうかを判別することが可能であった。第１の実施形態における画像取得部１では、所定の間隔で、逐次距離画像の取得が行われるため、この回転動作の判別を最新フレームが得られる毎に繰り返すことで、「回転動作が行われた」および「回転動作がおこなわれなかった」という２つの選択肢のうちの１つが認識結果として逐次得られてゆくことになる。
【０１３８】
動き認識部４では、この画像比較部３で逐次得られた回転動作が行われたかどうかの判定結果の流れを用いて、さらに詳細に、その回転動作にどのような意味があるかという動きの認識を行うものである。
【０１３９】
画像比較部３では、その時点での最新フレームで回転動作が行われたかどうかの判定結果が逐次得られるので、任意の時間間隔内での回転動作が行われた回数の合計をカウントすることで、その時間間隔内に行われた動作の回数を知ることができる。
【０１４０】
これにより、例えば、病気や事故などで声を発することができず、手しか動かせないような人の場合でも、例えば、手を１回転させたら「はい」、２回なら「いいえ」、３回なら「なにかしたい」などというように自分の意志を伝えることが可能となる。従来、病室などにいる患者が何か異常をきたした場合には、枕元にある押しボタン式のブザーで、看護婦や医者を呼び出し、インターフォンで会話をすることで意思を伝えていた。しかし、声を発することができない場合には、看護婦や医者が病室に到着するまで意思の疎通が困難だった。このような場合に本画像認識装置をブザーやインターフォンの代わりに用いることで、前述したように医者や看護婦がその場にいなくても意思の疎通が可能となる。
【０１４１】
さらに、本実施形態の画像認識装置では、特定時間で回転動作を「した、した、しない、した、しない、…」といった様に、動作をしたかどうかのパターンとして得ることも可能である。
【０１４２】
このようにすることにより、例えば、本画像認識装置をパーソナルコンピュータ（ＰＣ）に接続し、回転動作を「しない、しない、した」という動作パターンが得られた時には、ワープロソフトを起動する、「しない、した、した」の時には、表計算ソフトを起動する、などというようにして、予め定めておいた動作パターンに応じて何が起こるかを決めておき、ユーザの手振りのアクションなどでＰＣを操作することが可能となる。また、同様にして、あるパターンの時は、電源ＯＮ、別のパターンの時は音量の切り替え、というようにＴＶ・ビデオなどの家電機器を操作する、パターンによってキャラクターの動きを変えるなどというようにゲーム機の操作に用いる、といったようにハンドアクションでの様々な機器の操作などに用いることができる。
【０１４３】
例えば、画像比較部３で、任意の時間間内で手の回転動作の回数を計数する場合、動き認識部４は、手を１回転させた動作に対し「はい」、２回転させた動作に対し「いいえ」、３回転させた動作に対し「なにかしたい」という動きの意味（種類）を記憶したテーブルを持っている。動き認識部４では、このテーブルを参照して、画像比較部３での認識結果から得られる動き（例えば、手の回転）の回数に対応する、その動きの種類を認識して出力する。
【０１４４】
例えば、画像比較部３で回転動作を「する」「しない」という認識が行われるのであれば、動き認識部４には、回転動作を「しない、しない、した」という一連の動作パターンに対し「ワープロソフトを起動する」という種類の動きを、また、回転動作を「しない、した、した」という一連の動作パターンに対し「表計算ソフトを起動する」という種類の動きを予め記憶したテーブルを持っている。動き認識部４では、このテーブルを参照して、画像比較部３での認識結果から得られる予め定められた一連の動作パターンに対応する、その動きの種類を認識して出力する。
（第２実施形態の第１の変形例）
第１の実施形態の第３の変形例で説明した画像認識装置に、上で説明した動き認識部４が追加された場合、動き認識部４では、どのような動作が続けて行われたのかを知ることができる。
【０１４５】
例えば、顔を撮像し、「顔を右に回転した」「顔の動きはない（静止している）」、「顔を左に回転した」、「顔を左に回転した」、「顔の動きはない」、「顔を右に回転した」、…、といった動作が行われたならば、顔を左右に振っている（いいえの動作をしている）と認識することができる。
（第２の実施形態の第２の変形例）
第１の実施形態の第５の変形例に動き認識部４を追加することで、例えば、手が、まず「右に平行移動」し、次に「縦軸周りに回転」、そして「奥行き方向に移動」、…、などといったような一連の動作の認識を行うことができる。
【０１４６】
これにより、例えば、自分しか知らない特有のモーションをドアの自動ロック装置や銀行のＡＴＭ装置などの個人認証装置に予め登録しておき、その装置の認証過程でそのモーションを実行しそれが登録されているモーションと合致しているかどうかを判定することで、登録した人物かどうかを知ることができる。このように、本画像認識装置を個人認証に用いることが可能である。
【０１４７】
さらに、画像変形部２で変形した際の個々の変形パラメータが分かっているため、そのパラメータを全て保持することで、任意のモーションを数式化することができる。
【０１４８】
これにより、従来の人間の動作は、機械などのそれと異なり、あいまい性が高いため、例えば、回転の中心、回転角度等のパラメータを用いて数式で表すことが難しかったが、これを数式で明示化できる。
（第３の実施形態）
次に、本発明の第３の実施形態について説明する。
【０１４９】
図３２は、本発明の第３の実施形態に係る画像認識装置の全体構成図である。
【０１５０】
本実施形態の画像認識装置は、第１の実施形態の画像認識装置に加え、距離画像または距離画像ストリーム（所定時間おきに取得される時系列に連続した複数枚の距離画像）を保持しておくための画像保持部６と、画像保持部６に保持された距離画像または距離画像ストリームの中から、任意の距離画像または距離画像ストリームを抽出するための画像指示部５が追加された構成になっている。
【０１５１】
まず、画像保持部６について説明する。
【０１５２】
画像保持部６は、本画像認識装置の内外で得られた距離画像または距離画像ストリームを保持しておくためのものである。保持の方法としては、例えば、保持対象の距離画像または距離画像ストリームを１つの、あるいは複数のファイルとしてハードディスクやシリコンディスク、メモリなどに蓄えておく。
【０１５３】
なお、ここで説明した保持の方法は、一例でありこれに限定されるものではない。任意の保持方法を用いることができる。また、２種類以上の保持方法を同時に用いることも可能である。
【０１５４】
また、保持場所は、１カ所であるとは限らない。複数のハードディスクなどに分割して保持されていても良いし、ネットワークを介して物理的に異なる場所（例えば、東京と大阪など）に存在しているＰＣ内のハードディスクなどに分散的に保持されていてもよい。
【０１５５】
さらに、画像保持部６では、外部で生成された任意の距離画像、または距離画像ストリームや、画像取得部１で取得された距離画像または距離画像ストリーム、画像変形部２で変形処理された距離画像などを任意のタイミングで保持することができる。
【０１５６】
次に、画像指示部５について説明する。
【０１５７】
画像指示部５は、画像保持部６に保持された任意の距離画像または距離画像ストリームを抽出し、画像変形部２に渡す。
【０１５８】
また、距離画像ストリーム中の一部のみを抽出することも可能である。例えば、１０フレームから構成される距離画像ストリームがあった場合、その３フレーム目から７フレーム目までの５フレームのみを抽出し、５フレームからなる距離画像ストリームとして渡すこともできるし、距離画像ストリーム中の任意の距離画像を渡すこともできる。
【０１５９】
この際、画像変形部２では、画像取得部１で取得したサンプル画像ではなく、画像指示部５で抽出された距離画像をサンプル画像とした変形画像の生成が行われる。
【０１６０】
これにより、本実施形態では、第１の実施形態とは異なり、予め蓄えられた距離画像の変形画像をテンプレート画像とした認識が行われる。
【０１６１】
つまり、予め動作を判別したい距離画像を画像保持部６に登録しておけば、その動作が行われたのかどうかを認識することが可能になる。
（第３の実施形態の第１の変形例）
第２の実施形態で説明したような動き認識部４を本実施形態にさらに具備してもよい。
【０１６２】
この場合、本実施形態で得られる効果に加えて、第２の実施形態での効果も同時に得ることができる画像認識装置を構成することができる。
（第３実施形態の第２の変形例）
本実施形態では、画像指定部５で抽出した距離画像または距離画像ストリームを画像変形部２に入力して変形画像を生成し、それを画像比較部３での比較対象（テンプレート画像）としているが、画像指示部５で抽出した距離画像または距離画像ストリームを直接画像比較部３に入力して、比較対象としてもよい。
【０１６３】
こうすることで、予め認識したい動作列を示した距離画像ストリームを画像保持部部６に登録しておき、これを画像指示部５で抽出し、画像取得部１で取得された距離画像ストリームと抽出された距離画像ストリームを比較することが可能となる。
【０１６４】
つまり、本変形例によれば、予め登録されたモーションが行われたかどうかを認識することができる。
【０１６５】
また、画像変形部２で施されるのと同等な変形処理を予め施した距離画像を画像保持部５で保持しておくことにより、画像変形部２で変形処理に要する計算コストをかけることなく比較を行うことができる。こうすることで、よりリアルタイム性を高めることができる。
（第４の実施形態）
次に、本発明の第４の実施形態について説明する。
【０１６６】
図３３は、本発明の第４の実施形態に係る画像認識装置の全体構成図である。
【０１６７】
本実施形態の画像認識装置は、第２の実施形態の画像認識装置に加え、未来の動きの予測を行う動き予測部７が追加された構成になっている。
【０１６８】
まず、動き予測部７について説明する。
【０１６９】
動き予測部７は、動き認識部４の結果を用いて未来の動きの予測をするものである。
【０１７０】
例えば、対象物が、「縦軸周りに回転」を３回連続で行っていたら、次も「縦軸周りに回転」をするか、あるいは「動きを止める」か、のどちらかの動作を次のフレーム（現在よりも１フレーム未来のフレーム）で行うのではないかなどといったような予測をする。
【０１７１】
この際、予測をするための手がかりとして、上述した動き認識部４での結果に加え、対象物の構造上の性質などの背景知識を考慮しても良い。例えば、人間の手の指は、その構造上、動く範囲が限られている。これらの知識などを予測のための手がかりとして考慮することもできる。
【０１７２】
動き予測部７には、動き認識部４で認識された動き（例えば、３回連続して縦軸周りに回転）に対応して、その後に予測される動きを記憶したテーブルを持ち、このテーブルを参照して、動き予測を行うようにしてもよい。
【０１７３】
このようにすることで、対象物が次にどの様に動くのかを予測することが可能となる。
（第４の実施形態の第１の変形例）
第４の実施形態では、動き認識部４での認識結果を用いて動きの予測をするための動き予測部７を具備したが、これの代わりに、図３４に示すように、画像取得部１などで取得された距離画像または距離画像ストリームからその特徴量を抽出するための特徴量抽出部８および、特徴量抽出部８からの特徴量の情報を用いて動きの予測を行うため新たな動き予測部７を具備するようにしてもよい。
【０１７４】
この際、特徴量抽出部８では、例えば、距離画像から対象物の重心位置を抽出したり、距離画像ストリームから対象物の重心速度の値を抽出したりといった対象物の特徴量の抽出を行う。
【０１７５】
ここで、距離画像から対象物の重心位置Ｇを求める場合について説明する。
【０１７６】
【数３】

【０１７７】
【数４】

【０１７８】
【数５】

【０１７９】
なお、上式（３）〜（５）において、Ｆ（ｘ、ｙ）は、画素（ｘ、ｙ）の画素値で、Ｃ（ｘ、ｙ）は、次のように定義された関数である。
【０１８０】
・Ｆ（ｘ、ｙ）！＝０のときＣ（ｘ、ｙ）＝１
・それ以外のときＣ（ｘ、ｙ）＝０
また、ｍ、ｎは、それぞれフレームのｘ方向、ｙ方向のサイズ（画素の個数）である。
【０１８１】
重心位置の速度は、連続して取得された距離画像のそれぞれから抽出された対象物の重心位置の移動量と、その間の時間とから容易に求めることができる。
【０１８２】
なお、ここでは、特徴量の一例として、重心位置や速度を挙げたが、特徴量はこれに限定されるものではなく、対象物の面積、体積、形状の特徴などあらゆるものを用いることができる。これら特徴量は、距離画像から抽出された対象物の輪郭情報、奥行き情報等から従来からある手法を用いて容易に求めることができるので、説明は省略する。
【０１８３】
そして、動き予測部７で、特徴量抽出部８で得られた対象物の重心位置の変化や、重心速度などの特徴量を手がかりとして、次の動きの予測を行う。
【０１８４】
このようにすることでも、第４の実施形態で述べたのと同様に、対象物が次にどの様に動くのかを予測することが可能となる。
【０１８５】
さらに、第４の実施形態で説明したような動き認識部４での結果と、特徴量抽出部８で抽出した特徴量とを、動き予測部７で両方同時に用いることで予測を行うようにしても良い。
【０１８６】
こうすることで、より多くの情報を手がかりとして予測を行うことができるため、より安定した確実な予測を行うことが可能となる。
【０１８７】
例えば、自動車の事故時にエアバッグを膨らませる時に、大変近い距離内に、人間がいるときには、エアバッグを膨らませないようにすることが求められている。が、通常の超音波や赤外線などの距離センサでは、一定距離内に物体があるかどうかは判別できるが、その物体が蠅なのか、後部座席から子供が投げたボールなのか、人間なのかの判別ができない。が、本発明によれば、特徴量抽出部８により距離画像より求めた体積などの特徴量と、動き予測手部７が求めた人間の動きとから、人間と、それ以外の判別を高精度で行うことができるので、その効果は大きい。
（第４の実施形態の第２の変形例）
図３５に示すように、動き予測部７の結果をさらに画像変形部２の変形パラメータの導出の手がかりに用いるようにしてもよい。
【０１８８】
例えば、第１の実施形態の第３の変形例で、対象物に対し、上下左右４方向の変形を行う方法の説明をしたが、動き予測部７を用いて動きの予測を行うことによって、可能性のある変形方法を知ることができる。それを用いることで、例えば、この状況であれば、次に右方向に回転する可能性は低いため、上下左の３方向の変形のみを行えば十分であるというように、変形の個数を絞り込むことができる。
【０１８９】
これにより、無駄な変形処理を施す必要が無くなり、余計な計算コストを削減することができるため、より認識のリアルタイム性が高まる。
（第４の実施形態の第３の変形例）
第３の実施形態で説明したような、画像取得部１で取得した距離画像や画像変形部２で生成された変形画像を記憶するための画像保持部６を図３４、図３５の構成にさらに具備してもよい。
【０１９０】
この場合、本実施形態で得られる効果に加えて、第３の実施形態での効果も同時に得ることができる画像認識装置を構成することができる。
（第５の実施形態）
次に、本発明の第５の実施形態について説明する。
【０１９１】
図３６は、本発明の第５の実施形態に係る画像認識装置の構成の一例を示している。
【０１９２】
本実施形態の画像認識装置は、第１、第２、第３、あるいは、第４の実施形態の画像認識装置に加え、画像認識装置の認識結果に基づき画像の圧縮を行うための画像圧縮部９が追加された構成になっている。
【０１９３】
これにより第１、第２、第３、あるいは、第４の実施形態で得られた結果を用いて距離画像の圧縮を行うことができる。
【０１９４】
なお、図３６では、動き認識手段４での認識結果を用いて、画像変形部２で用いた各種パラメータに基づき距離画像の圧縮を行う構成となっているが、この場合に限らず、画像比較部３での認識結果を用いて、画像変形部２で用いた各種パラメータに基づき距離画像の圧縮を行う構成であってもよい。すなわち、認識結果を用いて、画像変形部２で用いた各種パラメータ等に基づき距離画像の圧縮を行うものであれば特に限定するものではない。
【０１９５】
それでは、画像圧縮部９について説明する。
【０１９６】
画像圧縮部９は、認識結果に基づき、画像取得部１などで取得された距離画像または距離画像ストリームのデータを圧縮するものである。
【０１９７】
この際、画像圧縮の方法は、目的に応じて、可逆圧縮、非可逆圧縮のどちらの方法でも構わない。
【０１９８】
圧縮は、具体的には、次のような方法で行う。
【０１９９】
例えば、第２の実施形態の第２の変形例で説明した図３１に示したような構成の画像認識装置に画像圧縮部９を追加した場合、動き認識部４で対象物の任意のモーションを数式化することができる。
【０２００】
そこで、例えば、５フレーム間隔で実際の距離画像のデータを保持し、その間の４フレームは、実際の距離画像から画像変形部２で距離画像を変形する際に用いた変形パラメータの値のみを保持することで、圧縮画像を形成する。
【０２０１】
距離画像の実際のデータは、縦６４画素、横６４画素、奥行き２５６階調の距離画像の場合、１画素に対して８ｂｉｔのデータ量が必要なため、全体として、６４×６４×８＝３２７６８ｂｉｔ＝４０９６ｂｙｔｅのデータ量が必要とされることになる。つまり、変形パラメータのデータ量がこれよりも少ないときにはデータの圧縮になることになる。例えば、回転変形の場合、パラメータは、回転中心座標（ｘ、ｙ、ｚ）および回転角（θｘ、θｙ、θｚ）となる。ｘ、ｙ、ｚは、それぞれ０から６４までの値を表現できれば良いので、それぞれ６ｂｉｔを必要とし、回転角は、それぞれ０から３６０までの値を表現できれば良いので、整数精度の場合それぞれ９ｂｉｔを必要とする（浮動小数精度なら３２ｂｉｔもあれば十分である）。つまり、回転変形では、パラメータの値に必要とされるデータ量は全体で４５ｂｉｔ程度（浮動小数精度の場合でも１１４ｂｉｔ程度）しか必要とされないことになる。回転変形以外の他の変形についても同様である。これは、圧縮前の４０９６ｂｙｔｅよりも遙かに小さなオーダーの量なので、本手法における画像圧縮ではかなりの圧縮率を見込めることとなる。
【０２０２】
なお、こうして得られた圧縮画像を復元するには、復元する際に、特定フレーム間隔で存在する実際の距離画像データをもとに、それぞれの変形パラメータの値を用いて変形画像を逐次生成していけばよい。すなわち、特定フレーム間隔で存在する実際の距離画像データと、その間の距離画像を復元するために必要な動きのパラメータとを含む圧縮画像データ（圧縮画像データの受け渡しには、フロッピーディスク等の所定の記録媒体を用いても通信を用いてもよい）を復元するための画像伸長装置には、少なくとも、前述したような画像変形部２と同様な機能を有した構成部をもつ必要がる。
【０２０３】
従来のＭＰＥＧ（ＭｏｔｉｏｎＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ）１、ＭＰＥＧ２、ＭＰＥＧ４などの画像圧縮方法では、２次元画像に対し、おのおののフレームで個別に圧縮したものを用いたり、前後のフレームからの差分信号を利用して圧縮を行っている。これに対し、本発明では、３次元の距離画像に対し、抽出された動きのパラメータを用いて圧縮を行っている点が大きく異なっている。
（第６の実施形態）
本発明の第６の実施形態について説明する。
【０２０４】
図３７は、本発明の第６の実施形態に係る画像認識装置の構成の一例を示している。
【０２０５】
本実施形態の画像認識装置は、第１、第２、第３、第４、あるいは、第５の実施形態の画像認識装置に加え、外部との通信を行う通信部１０を追加したものである。
【０２０６】
これにより第１、第２、第３、第４、あるいは、第５の実施形態で得られた結果を電話回線などの通信路を用いて外部に通信することができる。
【０２０７】
例えば、第５の実施形態の画像認識装置に通信部１０を追加すれば、第５の実施形態で説明したような圧縮画像データのみを送信し、受信先でそれを復元することで、受信先で多大な距離画像データが得られるにも関わらず、通信路には圧縮された少量のデータのみを流すことが可能である。
【０２０８】
これにより、従来の動画像などの通信で常に問題となっていた、通信する際のデータ量の増大を避けることができ、本画像認識装置の認識結果をインターネットなどを介した別の場所にリアルタイムで通信するのに大変効果的である。
【０２０９】
例えば、離れた場所にいるユーザがじゃんけんやボクシングなどの身体を使ったゲームをする場合でも、取得した手や身体の３次元の距離画像を、圧縮して、通信することにより、互いに生の３次元画像をやりとりができる。つまり、離れた場所にいるのに、立体的な手や身体のデータが送られ、再生されるので、まるで、その場にいて、ゲームをしているような感覚を、非常に安価な装置により、得ることができるので、その効果は大きい。
（その他）
なお、以上の各実施形態やその変形例は、適宜組み合わせて実施することが可能である。
【０２１０】
また、以上の各実施形態やその変形例あるいはそれらを適宜組み合わせたものでは、画像取得部１を省き、与えられた距離画像もしくはそのストリームに基づいて、動作を認識し、あるいはさらにその認識結果をもとに各種の処理を行うような装置として構成することも可能である。
【０２１１】
以上の各構成部は、画像取得部１の撮像部分を除いて、ソフトウェアとしても実現可能である。すなわち、上記した各手順をコンピュータに実行させることのできるプログラムとして機械読みとり可能な記録媒体に記録して頒布することができる。
【０２１２】
本発明は、上述した実施の形態に限定されるものではなく、その技術的範囲において種々変形して実施することができる。
【０２１３】
【発明の効果】
以上説明したように、本発明によれば、認識対象物に対する距離画像の３次元的な変形画像を用いることにより、認識のためのテンプレートや辞書を作る手間なく、かつ３次元的な動きの認識を短時間でしかも安定して高精度に行うことができる。
【図面の簡単な説明】
【図１】本発明の第１の実施形態に係る画像認識装置の構成例を概略的に示す図。
【図２】画像取得部の概略的な構成図。
【図３】距離画像をマトリックス状に示した図。
【図４】距離画像を３次元的に示した図。
【図５】画像取得部を構成する発光部と受光部の外観の一例を示した図。
【図６】距離画像の一具体例を示した図。
【図７】距離画像の回転変形処理の流れを示すフローチャート。
【図８】ボクセル単位の分割について説明するための図。
【図９】ボクセル単位の分割の方法について説明するための図。
【図１０】ボクセル単位の回転変形処理について説明するための図で、回転変形前のボクセル位置と回転変形後のボクセル位置を示した図。
【図１１】回転計算後の距離画像の再構成の仕方について説明するための図。
【図１２】手のサンプル画像と、その変形画像を示した図。
【図１３】手の変形画像と、最新画像を示した図。
【図１４】テンプレートマッチング法の処理の流れを示すフローチャート。
【図１５】顔のサンプル画像を示した図。
【図１６】図１５のサンプル画像から生成された変形画像を示した図で、頭の重心位置を中心とし、（θｘ、θｙ、θｚ）＝（２、０、０）だけ回転させて、顔を少し上に向かせたものである。
【図１７】図１５のサンプル画像から生成された変形画像を示した図で、頭の重心位置を中心とし、（θｘ、θｙ、θｚ）＝（−２、０、０）だけ回転させて、顔を少し下に向かせたものである。
【図１８】図１５のサンプル画像から生成された変形画像を示した図で、頭の重心位置を中心とし、（θｘ、θｙ、θｚ）＝（０、２、０）だけ回転させて、顔を紙面に向かって少し右に向かせたものである。
【図１９】図１５のサンプル画像から生成された変形画像を示した図で、頭の重心位置を中心とし、（θｘ、θｙ、θｚ）＝（０、−２、０）だけ回転させて、顔を紙面に向かって少し左に向けたものである。
【図２０】図１６〜図１９に示した変形画像と比較するた顔の最新画像を示した図。
【図２１】テンプレートマッチング法の処理の流れを示すフローチャート。
【図２２】手のサンプル画像を示した図。
【図２３】図２２のサンプル画像から生成された変形画像を示した図で、手の重心位置を中心とし回転させて、上に少し向けたものである。
【図２４】図２２のサンプル画像から生成された変形画像を示した図で、手の重心位置を中心とし回転させて、下に少し向けたものである。
【図２５】図２２のサンプル画像から生成された変形画像を示した図で、手の重心位置を中心とし回転させて、紙面に向かって右に少し向けたものである。
【図２６】図２２のサンプル画像から生成された変形画像を示した図で、手の重心位置を中心とし回転させて、紙面に向かって左に少し向けたものである。
【図２７】図２２のサンプル画像から生成された２枚の変形画像を示した図で、それぞれ手の重心位置を中心とし回転角を変えて回転させて、上に少し向けたものである。
【図２８】図２２のサンプル画像から生成された２枚の変形画像を示した図で、それぞれ手の重心位置を中心とし回転させて、下に少し向けたものである。
【図２９】図２２のサンプル画像から生成された２枚の変形画像を示した図で、それぞれ手の重心位置を中心とし回転させて、紙面に向かって右に少し向けたものである。
【図３０】図２２のサンプル画像から生成された２枚の変形画像を示した図で、それぞれ手の重心位置を中心とし回転させて、紙面に向かって左に少し向けたものである。
【図３１】本発明の第２の実施形態に係る画像認識装置の構成例を概略的に示す図。
【図３２】本発明の第３の実施形態に係る画像認識装置の構成例を概略的に示す図。
【図３３】本発明の第４の実施形態に係る画像認識装置の構成例を概略的に示す図。
【図３４】本発明の第４の実施形態の第１の変形例に係る画像認識装置の構成例を概略的に示す図。
【図３５】本発明の第４の実施形態の第２の変形例に係る画像認識装置の構成例を概略的に示す図。
【図３６】本発明の第５の実施形態に係る画像認識装置の構成例を概略的に示す図。
【図３７】本発明の第６の実施形態に係る画像認識装置の構成例を概略的に示す図。
【符号の説明】
１…画像取得部
２…画像変形部
３…画像比較部
４…動き認識部
５…画像指示部
６…画像保持部
７…動き予測部
８…特徴量抽出部
９…画像圧縮部
１０…通信部

Claims

各画素値により対象物までの距離及び当該対象物の３次元形状を表す距離画像を所定時間毎に取得する画像取得手段が、第１の距離画像を取得する第１のステップと、
前記第１の距離画像の前記対象物の画像領域の各画素を、当該画素位置の距離値に対応する数のボクセルに分割する第２のステップと、
前記対象物が回転中心位置を回転中心として任意の回転角で回転しているときの前記所定時間後の分割された各ボクセルの位置を算出し、当該所定時間後の各ボクセルの位置を基に各画素位置の距離値を求めることにより、前記所定時間後の前記対象物までの距離及び当該対象物の３次元形状を表した前記対象物の回転の有無を認識するための変形画像を生成する第３のステップと、
前記第１の距離画像を取得した後、前記所定時間後に前記画像取得手段が第２の距離画像を取得する第４のステップと、
前記第２の距離画像の前記対象物の画像領域と前記変形画像との間で各画素値を比較して、前記変形画像が前記第２の距離画像の前記対象物の画像領域に類似するか否かを判定することにより、前記対象物の回転の有無を認識する第４のステップと、
を有することを特徴とする画像認識方法。
各画素値により対象物までの距離及び当該対象物の３次元形状を表す距離画像を所定時間毎に取得する画像取得手段が、第１の距離画像を取得する第１のステップと、
前記第１の距離画像の前記対象物の画像領域の各画素を、当該画素位置の距離値に対応する数のボクセルに分割する第２のステップと、
前記対象物が回転中心位置を回転中心として任意の回転角で回転しているときの前記所定時間後の分割された各ボクセルの位置を算出し、当該所定時間後の各ボクセルの位置を基に各画素位置の距離値を求めることにより、当該対象物の回転方向及び回転量がそれぞれ異なる複数の場合のそれぞれについて、各画素値により前記所定時間後の前記対象物までの距離及び当該対象物の３次元形状を表した前記対象物の回転方向及び回転量を認識するための複数の変形画像をそれぞれ生成する第３のステップと、
前記第１の距離画像を取得した後、前記所定時間後に前記画像取得手段が第２の距離画像を取得する第４のステップと、
前記第２の距離画像の前記対象物の画像領域と前記複数の変形画像との間で各画素値を比較して、前記複数の変形画像のなかから前記第２の距離画像の前記対象物の画像領域に最も類似する変形画像を選択することにより、前記対象物の回転方向及び回転量を認識する第５のステップと、
を有することを特徴とする画像認識方法。
前記第５のステップは、選択された変形画像が示す前記対象物の動きの量と、前記第１の距離画像を取得した後前記第２の距離画像を取得するまでの前記所定時間とから、前記対象物の動作速度をさらに認識することを特徴とする請求項２記載の画像認識方法。
前記第５のステップで認識された前記対象物の回転方向に基づき前記対象物の次の回転方向を予測する第６のステップをさらに具備し、
前記対象物の次の回転方向を認識する際には、前記対象物を前記第６のステップで予測された回転方向に回転した結果をそれぞれ示す複数の変形画像を生成することを特徴とする請求項２記載の画像認識方法。
前記対象物の３次元空間内での平行移動の有無をさらに認識するために、前記変形画像を拡大・縮小する第７のステップをさらに有し、
前記第５のステップは、前記第２の距離画像の前記対象物の画像領域と、拡大・縮小された前記変形画像との間で各画素値を比較して、当該変形画像が前記第２の距離画像の前記対象物の画像領域に類似するか否かを判定することにより、前記認識対象の平行移動の有無をさらに認識することを特徴とする請求項１記載の画像認識方法。
前記対象物の３次元空間内での平行移動の有無をさらに認識するために、前記複数の変形画像を拡大・縮小する第７のステップをさらに有し、
前記第５のステップは、前記第２の距離画像の前記対象物の画像領域と、拡大・縮小された前記複数変形画像との間で各画素値を比較して、当該複数の変形画像のなかから前記第２の距離画像の前記対象物の画像領域に最も類似する変形画像を選択することにより、前記認識対象の平行移動をさらに認識することを特徴とする請求項２記載の画像認識方法。
各画素値により対象物までの距離及び当該対象物の３次元形状を表す距離画像を所定時間毎に取得する画像取得手段と、
前記画像取得手段で取得された第１の距離画像の前記対象物の画像領域の各画素を、当該画素位置の距離値に対応する数のボクセルに分割して、前記対象物が回転中心位置を回転中心として任意の回転角で回転しているときの前記所定時間後の分割された各ボクセルの位置を算出し、当該所定時間後の各ボクセルの位置を基に各画素位置の距離値を求めることにより、各画素値により前記所定時間後の前記対象物までの距離及び当該対象物の３次元形状を表した前記対象物の回転の有無を認識するための変形画像を生成する変形画像生成手段と、
前記画像取得手段で前記第１の距離画像取得後、前記所定時間後に取得された第２の距離画像の前記対象物の画像領域と前記変形画像との間で各画素値を比較して、前記変形画像が前記第２の距離画像の前記対象物の画像領域に類似するか否かを判定することにより、前記対象物の回転の有無を認識する認識手段と、
を具備したことを特徴とする画像認識装置。
各画素値により対象物までの距離及び当該対象物の３次元形状を表す距離画像を所定時間毎に取得する画像取得手段と、
前記第１の距離画像の前記対象物の画像領域の各画素を、当該画素位置の距離値に対応する数のボクセルに分割して、前記対象物が回転中心位置を回転中心として任意の回転角で回転しているときの前記所定時間後の分割された各ボクセルの位置を算出し、当該所定時間後の各ボクセルの位置を基に各画素位置の距離値を求めることにより、当該対象物の回転方向及び回転量がそれぞれ異なる複数の場合のそれぞれについて、各画素値により前記所定時間後の前記対象物までの距離及び当該対象物の３次元形状を表した前記対象物の回転方向及び回転量を認識するための複数の変形画像をそれぞれ生成する変形画像生成手段と、
前記画像取得手段で前記第１の距離画像取得後、前記所定時間後に取得された第２の距離画像の前記対象物の画像領域と前記複数の変形画像との間で各画素値を比較して、前記複数の変形画像のなかから前記第２の距離画像の前記対象物の画像領域に最も類似する変形画像を選択することにより、前記対象物の回転方向及び回転量を認識する認識手段と、
を具備したことを特徴とする画像認識装置。
前記認識手段は、選択された変形画像が示す前記対象物の動きの量と、前記第１の距離画像を取得した後前記第２の距離画像を取得するまでの前記所定時間とから、前記対象物の動作速度をさらに認識することを特徴とする請求項８記載の画像認識装置。
前記認識手段で認識された前記対象物の回転方向に基づき前記対象物の次の回転方向を予測する予測手段をさらに具備し、
前記対象物の次の回転方向を認識する際には、前記変形画像変形手段は、前記対象物を前記予測手段で予測された回転方向に回転した結果をそれぞれ示す複数の変形画像を生成することを特徴とする請求項８記載の画像認識装置。
各画素値により対象物までの距離及び当該対象物の３次元形状を表す距離画像を所定時間毎に取得する画像取得手段を有するコンピュータに、
前記画像取得手段で取得された第１の距離画像の前記対象物の画像領域の各画素を、当該画素位置の距離値に対応する数のボクセルに分割して、前記対象物が回転中心位置を回転中心として任意の回転角で回転しているときの前記所定時間後の分割された各ボクセルの位置を算出し、当該所定時間後の各ボクセルの位置を基に各画素位置の距離値を求めることにより、各画素値により前記所定時間後の前記対象物までの距離及び当該対象物の３次元形状を表した前記対象物の回転の有無を認識するための変形画像を生成する第１のステップと、
前記画像取得手段で前記第１の距離画像を取得した後、前記所定時間後に取得された第２の距離画像の前記対象物の画像領域と前記変形画像との間で各画素値を比較して、前記変形画像が前記第２の距離画像の前記対象物の画像領域に類似するか否かを判定することにより、前記対象物の回転の有無を認識する第２のステップと、
を含む処理を実行させるプログラムを記録した機械読み取り可能な記録媒体。
各画素値により対象物までの距離及び当該対象物の３次元形状を表す距離画像を所定時間毎に取得する画像取得手段を有するコンピュータに、
前記画像取得手段で取得された第１の距離画像の画像領域の各画素を、当該画素位置の距離値に対応する数のボクセルに分割して、前記対象物が回転中心位置を回転中心として任意の回転角で回転しているときの前記所定時間後の分割された各ボクセルの位置を算出し、当該所定時間後の各ボクセルの位置を基に各画素位置の距離値を求めることにより、当該対象物の回転方向及び回転量がそれぞれ異なる複数の場合のそれぞれについて、各画素値により前記所定時間後の前記対象物までの距離及び当該対象物の３次元形状を表した前記対象物の回転方向及び回転量を認識するための複数の変形画像をそれぞれ生成する第１のステップ、
前記画像取得手段で前記第１の距離画像を取得した後、前記所定時間後に取得された第２の距離画像の前記対象物の画像領域と前記複数の変形画像との間で各画素値を比較して、前記複数の変形画像のなかから前記第２の距離画像の前記対象物の画像領域に最も類似する変形画像を選択することにより、前記対象物の回転方向及び回転量を認識する第２のステップと、
を含む処理を実行させるプログラムを記録した機械読み取り可能な記録媒体。
対象物に発光手段により光を照射し、当該対象物からの反射光を受光手段で受光することにより、各画素値が当該受光手段で受光された反射光の強度を示し、各画素値が示す反射光の強度により当該対象物までの距離値及び当該対象物の３次元形状を表す距離画像を所定時間毎に取得する画像取得手段が、第１の距離画像を取得する第１のステップと、
前記第１の距離画像の前記対象物の画像領域の各画素を、当該画素位置の距離値に対応する数のボクセルに分割する第２のステップと、
前記対象物が回転中心位置を回転中心として任意の回転角で回転しているときの前記所定時間後の分割された各ボクセルの位置を算出し、当該所定時間後の各ボクセルの位置を基に各画素位置の距離値を求めることにより、各画素値により前記所定時間後の前記対象物までの距離及び当該対象物の３次元形状を表した前記対象物の回転の有無を認識するための変形画像を生成する第３のステップと、
前記第１の距離画像を取得した後、前記所定時間後に前記画像取得手段が第２の距離画像を取得する第４のステップと、
前記第２の距離画像の前記対象物の画像領域と前記変形画像との間で各画素値を比較して、前記変形画像が前記第２の距離画像の前記対象物の画像領域に類似するか否かを判定することにより、前記対象物の回転の有無を認識する第４のステップと、
を有することを特徴とする画像認識方法。
各画素値により対象物までの距離及び当該対象物の３次元形状を表す距離画像を所定時間毎に取得する画像取得手段が、第１の距離画像を取得する第１のステップと、
前記第１の距離画像の前記対象物の画像領域の各画素を、当該画素位置の距離値に対応した前記対象物表面付近でボクセルに分割する第２のステップと、
前記対象物が回転中心位置を回転中心として任意の回転角で回転しているときの前記所定時間後の分割された各ボクセルの位置を算出し、当該所定時間後の各ボクセルの位置を基に各画素位置の距離値を求めることにより、前記所定時間後の前記対象物までの距離及び当該対象物の３次元形状を表した前記対象物の回転の有無を認識するための変形画像を生成する第３のステップと、
前記第１の距離画像を取得した後、前記所定時間後に前記画像取得手段が第２の距離画像を取得する第４のステップと、
前記第２の距離画像の前記対象物の画像領域と前記変形画像との間で各画素値を比較して、前記変形画像が前記第２の距離画像の前記対象物の画像領域に類似するか否かを判定することにより、前記対象物の回転の有無を認識する第４のステップと、
を有することを特徴とする画像認識方法。