JP2002366958A - 画像認識方法および画像認識装置 - Google Patents

画像認識方法および画像認識装置

Info

Publication number
JP2002366958A
JP2002366958A JP2001174574A JP2001174574A JP2002366958A JP 2002366958 A JP2002366958 A JP 2002366958A JP 2001174574 A JP2001174574 A JP 2001174574A JP 2001174574 A JP2001174574 A JP 2001174574A JP 2002366958 A JP2002366958 A JP 2002366958A
Authority
JP
Japan
Prior art keywords
image
motion
movement
dimensional
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001174574A
Other languages
English (en)
Other versions
JP3732757B2 (ja
Inventor
Norio Mihara
功雄 三原
Shunichi Numazaki
俊一 沼崎
Miwako Doi
美和子 土井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2001174574A priority Critical patent/JP3732757B2/ja
Publication of JP2002366958A publication Critical patent/JP2002366958A/ja
Application granted granted Critical
Publication of JP3732757B2 publication Critical patent/JP3732757B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】3次元的な動きを容易にしかも安定的かつ高精
度に認識可能な画像認識方法および画像認識装置を提供
する。 【解決手段】被写体の3次元情報を持つ画像を取得し、
取得した複数の画像の差分データを求め、この差分デー
タから前記被写体の動きに伴い画素値の減少した領域と
増加した領域とを抽出し、これらの3次元的な位置関係
から前記被写体の3次元的な動きの特徴量を抽出して、
この特徴量を基に前記被写体の動きを認識する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えば、距離画像
のような被写体の3次元情報の表れた画像から被写体の
3次元的な動きを認識する画像認識方法およびそれを用
いた画像認識装置に関する。
【0002】
【従来の技術】従来、ビデオカメラなどの撮像装置を用
いて、認識対象物の動きを認識しようとした場合、以下
のような方法が取られていた。
【0003】まず1つ目は、オプティカルフローと呼ば
れる方法である。これは、所定のブロック画像に着目
し、隣り合うフレーム画像間で、ある着目画像領域が平
面内でどの方角に動いたかを計測し、その方向を推定す
るものである。次フレームにおける対象画像の移動方向
を特定するには、時系列的に隣り合うフレーム間で類似
度を算出する方法が代表的である。対象画像領域近傍で
同じサイズのブロック画像を対象に前フレームにおける
着目ブロック画像との相関係数を計算し、その係数の最
も高いブロックへの方向が動きベクトルとして推定され
る。
【0004】この技術は人間の顔のトラッキングなどロ
ボットビジョンの分野では広く利用されている。この手
法は、着目ブロック画像が2次元的に大きく変化しない
場合、かなりの精度で平面方向の動きを検出することが
可能であるが、対象画像はビデオカメラなどで取得した
2次元画像であるため、奥行き方向を含めた3次元的な
動きの検出は不可能である。
【0005】また、別の手法としては、認識対象物の特
徴点を用いて動きの推測を行う方法がある。これは、認
識対象物に予め幾つかの特徴点を定めておいて、対象物
の動きによって生じる特徴点どうしの位置関係の変化を
用いて動きを推測する方法である。例えば、顔を左右に
振っている(左右方向に回転させている)動作を認識す
る場合、顔の特徴点として、目や鼻など数カ所定めてお
き、顔の動きによって、目の位置の特徴点が右に動い
た、両目の特徴点の間隔が狭くなった、右目の特徴点が
消失した(右目がカメラから見えない位置に移動したた
め)、などといった変化から顔を右に振っているのであ
ろうであろうと推測する。
【0006】しかし、この方法を用いた場合、対応点を
カメラ画像内で安定して得るためには、顔の特徴点の位
置にマーカーなどを貼付しなければならないため、使用
できる環境が限られているなどの問題があった。マーカ
ーを用いない実現方法もあるが、この場合は画像内から
特徴点を自動的に認識する必要があり、特徴点の抽出を
安定的に行えない可能性がある上に、特徴点を得るため
に多大な計算コストも必要としてしまう。この手法も、
対象画像はビデオカメラなどで取得した2次元画像であ
るため、奥行き方向を含めた3次元的な動きは、2次元
画像から推定するしかない。
【0007】また、別の方法として、運動モーメントの
変化を求めることで推測する方法がある。これは、例え
ば、手を縦軸周りに回転させる動きの場合、手の横方向
の前方投影面積が著しく変化するのに対し、縦方向はあ
まり変化しないというような性質を利用しており、この
ような場合、手の横方向の運動モーメントのみの変化が
激しいことより、手を縦軸周りに回転させているのでは
ないかと推測される。
【0008】この方法は、確かに3次元的な動きを推測
する一手法ではあるが、認識に使用できる対象物の形状
に制限があったり、平面的な別の動きとの区別がつき難
いため、誤認識をする可能性があるなどの問題点があっ
た。
【0009】ここで挙げた以外にも様々な方法があるで
あろうが、何れにしても、ビデオカメラなどの撮像装置
を用いたこれらの方法では、あくまでも平面的な情報の
みしか持たない2次元画像から、3次元的な動きを推測
しているに過ぎず、3次元的な動きの認識を安定的に、
高精度で行うことは困難である。もともと3次元的な形
状の対象物をカメラで平面情報として取得した時点で、
かなりの情報が欠落しているからである。
【0010】これらの問題を回避するために、複数のビ
デオカメラを用いて、数カ所から同時に撮像し、各カメ
ラの対応点を求めることで、複数の撮像画像から立体情
報を計算し、3次元画像を構成して、それを用いて動作
の認識を行う方法がある。
【0011】この方法は、ステレオ法と呼ばれ、実際に
複数の撮像画像から立体情報を構成しているため、上述
したような平面情報から3次元情報を推測するという問
題点は解決されるが、複数のカメラからの画像を立体的
に融合するための対応点の計算に大変計算時間を必要と
するため、リアルタイム処理に不向きであった。また、
対応点を求めるためにカメラの位置情報を必要とするた
め、カメラの位置に制約があったり、カメラ位置のキャ
リブレーションの必要があったりした。そのため、一般
ユーザが容易に使用することは困難であった。
【0012】また、動きを特徴づける関節などの部位に
あらかじめセンサを装着し、撮像した画像からセンサ部
位を抽出し、2次元的あるいは3次元的な動きを計測す
るモーションキャプチャと呼ばれる手法も存在する。こ
の手法では、上記で紹介した手法に比べ、特徴点の抽出
や対応づけ処理は軽くなるが、システム全体のコストが
高くつき、システムを稼働する上での制約も多い。さら
に煩わしい特定のセンサデバイスを装着する必要があ
り、とても一般ユーザが使えるものにはなっていない。
【0013】以上のように、従来方法では、画像から奥
行き情報を含む3次元的な動きの認識を行う方法には様
々な問題点があった。
【0014】
【発明が解決しようとする課題】従来の手法では、ビデ
オカメラなどを用いて認識対象物を2次元情報しかもた
ない画像として取得していたため、対象物の3次元的動
きの認識を、2次元情報のみから行うしかなく、安定し
て、高精度で奥行き方向を含めた3次元的な動きの認識
を行うことは困難であった。
【0015】そこで、本発明は、3次元的な動きを容易
に、しかも安定的かつ高精度で認識できる画像認識方法
およびそれを用いた画像認識装置を提供することを目的
とする。
【0016】
【課題を解決するための手段】本発明は、被写体の3次
元情報を持つ画像を取得し、取得した複数の画像の差分
データを求め、この差分データから前記被写体の動きに
伴い画素値の減少した領域と増加した領域とを抽出し、
これらの3次元的な位置関係から前記被写体の3次元的
な動きの特徴量を抽出して、この特徴量を基に前記被写
体の動きを認識することにより、前記画像中の3次元的
な動きを容易にしかも安定的かつ高精度に認識すること
ができる。
【0017】被写体の3次元情報を持つ画像を取得し、
取得した複数の画像から前記被写体の動きを検知し、動
きの検知された画像領域対応の前記複数の画像の差分デ
ータから前記画像領域毎に前記被写体の動きに伴い画素
値の減少した領域と増加した領域とを抽出し、これらの
3次元的な位置関係から前記被写体の3次元的な動きの
特徴量を抽出し、前記画像領域毎に、それぞれの画像領
域から抽出された特徴量を基に前記検知された動きを認
識することにより、前記画像中に複数の動きが存在する
場合も、その複数の3次元的な動きのそれぞれを容易に
しかも安定的かつ高精度に認識することができる。
【0018】好ましくは、前記3次元的な動きの特徴量
のx方向、y方向、z方向の各成分値のうち、認識すべ
き動きに応じて選択された少なくとも1つの成分値に基
づき、前記被写体の動きを認識する。その際、好ましく
は、前記認識すべき動きの特徴的な動き方向に基づき、
前記特徴量の各成分値のうち少なくとも1つの成分値を
選択する。あるいは、前記認識すべき動きの特徴的な動
き方向と、その動き方向と相関関係のある方向とに基づ
き、前記特徴量の各成分値のうち少なくとも1つの成分
値を選択する。
【0019】好ましくは、前記画像として距離画像を用
いる。
【0020】
【発明の実施の形態】以下、本発明の実施形態につい
て、図面を参照しながら説明する。
【0021】(第1の実施形態)まず、本発明の第1の
実施形態について説明する。
【0022】図1は、第1の実施形態に係る画像認識装
置の全体構成図である。本実施形態の画像認識装置は、
距離画像または奥行き方向の情報を持った画像を取得す
るための撮像手段を備えた画像取得部1と、画像取得部
1で取得された任意の2枚の奥行き方向の情報を持った
画像(例えば、距離画像)の差を計算するための差分計
算部2と、差分計算部2で結果得られた差分画像から特
徴量を検出するための検出部3と、検出部3で得られた
特徴量を基に画像内に含まれる対象物の動作を認識する
ための認識部4とから構成される。
【0023】まず、画像取得部1について説明する。
【0024】画像取得部1は、認識対象物体(例えば、
人間の手、顔、全身など)を被写体として、所定時間毎
(例えば1/30秒毎など)に、その3次元形状を反映
した奥行き方向の値を持つ画像の1つである例えば距離
画像として取得するものである。例えば、距離画像は、
特開平10−177449号に開示されている手法を用
いて取得することができる。
【0025】所定時間毎に距離画像が取得されてゆくた
め、これらをメモリなどを用いて、画像取得部1の内部
または外部で逐次保持することで、対象物の距離画像に
よる動画像(以降、距離画像ストリームと呼ぶ)をも得
ることができる。このとき、距離画像ストリームは、距
離画像の取得間隔をt秒としたとき、「最新の距離画
像」、「最新からt秒前(以降、1フレーム前と呼ぶ)
の距離画像」、「最新から2t秒前(2フレーム前、以
下同様)の距離画像」、…、といった複数フレームの距
離画像の集合体として得られることになる。
【0026】ここで、距離画像を取得する画像取得部1
(以下、距離画像を取得するための画像取得部を距離画
像取得部1と呼ぶ)および距離画像について説明する。
距離画像取得部1は、対象物としての人物が本装置の所
定位置についたとき、当該人物の手腕や顔、全身などが
撮像できるように、予め位置決めされている。
【0027】距離画像取得部1の外観を図2に示す。中
央部には円形レンズとその後部にあるエリアセンサ(図
示せず)から構成される受光部103が配置され、円形
レンズの周囲にはその輪郭に沿って、赤外線などの光を
照射するLEDから構成される発光部101が複数個
(例えば8個)等間隔に配置されている。
【0028】発光部101から照射された光が物体に反
射され、受光部103のレンズにより集光され、レンズ
の後部にあるエリアセンサで受光される。エリアセンサ
は、例えば256×256のマトリックス状に配列され
たセンサで、マトリックス中の各センサにて受光された
反射光の強度がそれぞれ画素値となる。このようにして
取得された画像が、図4に示すような反射光の強度分布
としての距離画像である。
【0029】図3は、距離画像取得部1の構成例を示し
たもので、主に、発光部102、受光部103、反射光
抽出部102、タイミング信号生成部104から構成さ
れる。
【0030】発光部101は、タイミング信号生成部1
04にて生成されたタイミング信号に従って時間的に強
度変動する光を発光する。この光は発光部前方にある対
象物体に照射される。
【0031】受光部103は、発光部101が発した光
の対象物体による反射光の量を検出する。
【0032】反射光抽出部102は、受光部103にて
受光された反射光の空間的な強度分布を抽出する。この
反射光の空間的な強度分布は画像として捉えることがで
きるので、以下、これを距離画像と呼ぶ。
【0033】受光部103は一般的に発光部101から
発せられる光の対象物による反射光だけでなく、照明光
や太陽光などの外光も同時に受光する。そこで、反射光
抽出部102は発光部101が発光しているときに受光
した光の量と、発光部101が発光していないときに受
光した光の量の差をとることによって、発光部101か
らの光の対象物体による反射光成分だけを取り出す。
【0034】反射光抽出部102では、受光部103に
て受光された反射光から、その強度分布、すなわち、図
4に示すような距離画像のデータを抽出する。
【0035】図4では、簡単のため、256×256画
素の距離画像の一部である8×8画素の距離画像のデー
タ場合について示している。
【0036】物体からの反射光は、物体の距離が大きく
なるにつれ大幅に減少する。物体の表面が一様に光を錯
乱する場合、距離画像1画素あたりの受光量は物体まで
の距離の2乗に反比例して小さくなる。
【0037】図4において、行列中のセルの値(画素
値)は、取得した反射光の強さを256階調(8ビッ
ト)で示したものである。例えば、「255」の値があ
るセルは、距離画像取得部1に最も接近した状態、
「0」の値があるセルは、距離画像取得部1から遠くに
あり、反射光が距離画像取得部1にまで到達しないこと
を示している。
【0038】距離画像の各画素値は、その画素に対応す
る単位受光部で受光した反射光の量を表す。反射光は、
物体の性質(光を鏡面反射する、散乱する、吸収する、
など)、物体の向き、物体の距離などに影響されるが、
物体全体が一様に光を錯乱する物体である場合、その反
射光量は物体までの距離と密接な関係を持つ。手など
は、このような性質をもつため、距離画像取得部1の前
方に手を差し出した場合の距離画像は、手までの距離、
手の傾き(部分的に距離が異なる)などを反映する図5
に示したような3次元的なイメージを得ることができ
る。
【0039】物体からの反射光の強さは物体までの距離
dの2乗に反比例して小さくなる。すなわち、当該物体
の画像の代表画素値をQ(i、j)とすると、 Q(i、j)=K/d…(1) と表すことができる。
【0040】ここで、Kは、例えば、d=0.5mのと
きに、画素値R(i、j)の値が「255」になるよう
に調整された係数である。式(1)をdについて解くこ
とで、距離dを求めることができる。
【0041】このように、図4に示したような反射光の
強度分布を表した距離画像の各画素値は、そのまま画像
取得部1からの距離(奥行き方向の値)に対応する情報
である。距離画像は奥行き情報を有する3次元画像であ
る。なお、距離画像の各画素値は、画像取得部1からの
距離(奥行き方向の値)に対応する情報であるが、この
画素値を上記式(1)を用いて、画像取得部1からの距
離値に変換したものであってもよいし、このような絶対
的な距離値に限らず、相対的な値に変換して、それを画
素値としてもよい。また、画像取得部1からの距離に対
応する情報は、上述したような2次元行列形式だけでは
なく、他の方法を取ることも可能である。
【0042】なお、距離画像の取得方法は、上述した特
開平10−177449号の画像取得方法に限定される
ものではなく、これに準じる、あるいは別の手段を用い
て取得するものでも構わない。例えば、レンジファイン
ダと呼ばれるレーザー光を用いた距離画像取得方法や、
ステレオ法と呼ばれる2台のカメラを用いて同時に撮像
した2枚の画像の視差情報を用いて距離画像を取得する
方法などがそれにあたる。
【0043】図6は、画像取得部1により取得された手
の距離画像の表示イメージを示したもので、例えば、x
軸(横)方向64画素、y軸(縦)方向64画素、z軸
(奥行き)方向256階調の画像になっている。図6
は、距離画像の奥行き値、すなわちz軸方向の階調(画
素値)をグレースケールで表現したもので、この場合、
色が黒に近いほど距離が近く、白に近くなるほど距離が
遠いことを示している。また、色が完全に白のところ
は、画像がない、あるいはあっても遠方でないのと同じ
であることを示している。
【0044】次に、図7に示すフローチャートを参照し
て、図1の画像認識装置の処理動作について説明する。
【0045】まず、画像取得部1は、認識対象物体の距
離画像ストリームを取得し、その中に含まれる任意の2
フレームの距離画像(以降、距離画像A、距離画像B)
を差分計算部2へ渡す(ステップS1)。
【0046】差分計算部2は、画像取得部1によって取
得された認識対象物体の距離画像ストリーム中に含まれ
る任意の2フレームの距離画像(以降、距離画像A、距
離画像B)に差分処理を施し、差分画像を生成する(ス
テップS2)。
【0047】任意の2フレームは、リアルタイムに認識
を行いたい場合は、通常、最新フレーム(時刻t)の距
離画像A、および、それから数フレーム前(時刻t−
n、nは任意の正定数)の距離画像Bが選択される。こ
こで、何フレーム前の距離画像を用いるかは、画像取得
部1の距離画像取得間隔(フレームレート)や、対象物
の動作速度などの情報を基に決定する。
【0048】それでは、差分計算部2おける差分処理の
方法について具体的に説明する。
【0049】距離画像A(時刻tに撮像)と距離画像B
(時刻t−nに撮像)との差分画像Dの計算は、全ての
画素(i,j)に関して式(2)適用する。
【0050】ここで、時刻tにおける距離画像の各画素
位置(i,j)の距離値をF(t)(i,j)、時刻t
における差分画像をD(t)、その各画素位置(i,
j)の値をD(t)(i,j)と表現する。
【0051】つまり、距離画像Aの画素位置(i,j)
での距離値はF(t)(i,j)、距離画像Bの画素位
置(i,j)での距離値はF(t−n)(i,j)、距
離画像Aと距離画像Bとの差分画像D(t)(i、j)
は、式(2)から生成することができる。
【0052】
【数1】
【0053】差分画像について、図14を参照して、具
体的に説明する。図14(a)は、距離画像Bの一部の
データであり、画素値が「200」と「150」の2つ
の画素P1、P2があったとする。また、図14(b)
は、距離画像Aの図14(a)に示した2つの画素P
1、P2と同じ位置にある2つの画素を示したもので、
画素値がそれぞれ「150」と「200」であったとす
る。この場合、式(2)を用いることにより、距離画像
Aと距離画像Bとの間の画素P1、P2の画素値の変化
量は、それぞれ「−50」「50」となり、この値が、
図14(c)に示すように、差分画像上の画素P1、P
2の画素値となる。すなわち、距離画像Bでは、画素P
1の位置にあったものが、当該対象物が動作した結果、
距離画像Aでは、画素P2に移動し、その結果、差分画
像上では、画素P1の画素値が「−」の値を持ち、画素
P2が「+」の値をもつこととなる。
【0054】差分画像で得られたものは、距離画像Aと
距離画像Bで変化のあった部分、つまり、時刻t−nと
時刻tでそれぞれの距離画像に撮像されているもののう
ち、変化のあった部分である。距離画像Aと距離画像B
が時系列的に同じものを撮像した画像の場合、動きのあ
った部分のみが変化するため、差分画像によって得られ
るものは、撮像された対象物のうち、動きのあった部分
であるといえる。
【0055】例えば、図8に示すように、人間の上半身
が撮像されている際に、その人間が手振り動作をしてい
る時には、距離画像Aとしての図8(b)と距離画像B
としての図8(a)とから、実際に動いた腕の部分の領
域が差分画像として得られる。図8(c)は、図8
(a)と図8(b)とから生成される差分画像の表示イ
メージを示したものである。差分画像のデータ中「−」
の値を持つ画素値の画素は、その画素値の絶対値をとっ
て、グレースケールで表現したものである。
【0056】図7の説明に戻る。次に、検出部3では、
差分計算部2によって生成された差分画像から対象物の
動きの特徴量を検出する(図7のステップS3〜ステッ
プS5)。
【0057】それでは、検出部3で実際にどのようにし
て特徴量の検出を行うのかを主に、図9〜図13を参照
して具体的に説明する。
【0058】まず、得られた差分画像から流入領域と流
出領域とを抽出する(ステップS3)。
【0059】対象物の動きにより、距離画像Bの時点
(時刻t−n)では物体が存在せずに、距離画像Aの時
点(時刻t)で新たに物体が存在するようになった領域
(以降、流入領域DINと呼ぶ)と、逆に、距離画像B
の時点(時刻t−n)では物体が存在し、距離画像Aの
時点(時刻t)で既に物体が存在しなくなった領域(以
降、流出領域DOUTと呼ぶ)が生じる。
【0060】例えば、図9(a)(b)に示すように、
対象物が時刻t−nから時刻tの間に、移動した場合を
考える。この場合、時刻t−nに取得された距離画像B
と、時刻tに取得された距離画像Aとの差分画像の表示
イメージは、図10(a)に示したようなものとなる。
実際の差分画像のデータでは、図10(b)に示すよう
に、流入領域に対応する部分の画素の画素値(z軸方向
の値)は「+」の値であり、流出領域に対応する部分の
画素の画素値は「−」の値である。
【0061】すなわち、流入領域は、差分画像中「+」
の値の画素値を持つ画素からなる領域であって、流出領
域は、差分画像中「−」の値の画素値を持つ画素からな
る領域であり、時刻tにおける流入領域DIN (t)
流出領域DOUT (t)は、それぞれ式(3)、(4)
で表すことができる。
【0062】
【数2】
【0063】例えば、図14(c)に示した差分画像
(の一部)からは、画素値「50」の画素P2が流入領
域(の一部)として抽出され、画素値「−50」の画素
P1が流出領域の(一部)として抽出される。
【0064】図10(a)に示した差分画像から抽出さ
れる流入領域の画像を図11(a)に、流出領域の画像
を図12(a)に示す。なお、図12(a)に示すよう
に、流出領域の画像は、式(4)からも明らかなよう
に、各画素値は絶対値に変換されている。
【0065】次に、流入領域DIN (t)、流出領域D
OUT (t)の位置を求める(ステップS4)。本実施
形態では、両領域の位置を重心点で代表し(図11,図
12参照)、流入領域DIN (t)の重心位置をGIN
(t)、流出領域DOUT t)の重心位置をGOUT
(t)を計算する。
【0066】重心位置G=(Gx,Gy,Gz)は式
(5)を用いて計算する。
【0067】
【数3】
【0068】なお、ここに示した重心の計算方法は一例
で、これに限定されるものではなく、他の定義を用いて
計算することが可能である。
【0069】さらに、図13に示すように、ステップS
4で得られた重心位置GOUT (t からGIN (t)
へのベクトルV(t)=(V(t)x,V(t)y,V
(t z)を求め、これを特徴量として得る(ステップ
S5)。この特徴量を以降、ディファレンシャル・フロ
ー(Differential Flow)と呼ぶ。時
刻tにおけるディファレンシャル・フローは、式(6)
で得られる。
【0070】
【数4】
【0071】なお、以上で説明したディファレンシャル
・フローの計算方法は一例であり、これに限定されるも
のではない。また、特徴量は、ディファレンシャル・フ
ローに限定されるものではない。
【0072】図7の説明に戻る。次に、認識部4は、検
出部3で得られた特徴量、すなわち、ディファレンシャ
ル・フローを基に、画像内に含まれる対象物の動きを認
識する。
【0073】それでは、認識部4で実際にどのようにし
て認識処理を行うのかを人間の上半身における手振り動
作の例を用いて具体的に説明する。手振り動作は、手挙
げ/手下げ動作と、手の左右振りという一連の複数の動
作から構成されているが、ここでは、この一連の複数の
動作のうち、まず、人間の手挙げ/手下げ動作を認識す
る場合を例にとり説明する。なお、以下の説明では、
「動作」という用語も「動き」という用語も同じ意味合
いで用いている。
【0074】図15に人間の手挙げ/手下げ動作の様子
を示し、図16(a)〜(c)は、この動作中のディフ
ァレンシャル・フローV(t)=(V(t)x,V
(t)y,V(t)z)の時間変化の様子を各成分毎に
示したものである。なお、図16(a)〜(c)では、
横軸方向に時間、縦軸にディファレンシャル・フローの
各成分の値を示し、縦軸方向の値は、動きの大きさ
(量)の大小を表すための適当な値である。
【0075】図16では、実際にある(任意の)人に手
挙げ/手下げ動作を行ってもらい、その際の距離画像か
ら上記のようにして求めたファレンシャル・フローの値
の時間的な変化を示したものである、図16中、手挙げ
/手下げ動作時の部分を点線で囲った。動きがあった部
分は、ディファレンシャル・フローの値が大きく変化し
ており、それ以外の動きが無い部分(静止状態)は
「0」に近い値を取っていることが分かる。このよう
に、ディファレンシャル・フローの値を解析すること
で、動きの認識を行うことができる。
【0076】以降では、より具体的にディファレンシャ
ル・フローの値の解析方法について説明する。
【0077】例えば、人間の「手挙げ」動作の場合、図
15(a)、(b)に示すように、手を挙げるのである
から、y軸方向の動きに特徴がある。さらに、「手挙
げ」動作の場合、一般的に人間は腕を手前方向(z軸方
向)に動かしながら、手を挙げるものである。このよう
に、y軸方向とz軸方向の動きに特徴があれば、それら
の動き量を乗算した結果には、当該「手挙げ」動作の動
き量およびその動作時点がより顕著に表されている。そ
こで、このように、一般的な人間の「手挙げ」動作を分
析した結果、人間の「手挙げ」動作は、ディファレンシ
ャル・フローV t)=(V(t)x,V(t)y,V
(t)z)のy成分とz成分を用いて、以下に示す式
(7)より認識を行うこととができる。
【0078】
【数5】
【0079】式(7)において、TH1は閾値で、任意
の正定数である。得られたディファレンシャル・フロー
の成分Vy、Vzが式(7)の関係を満たすとき、「手
挙げ」動作が行われたと認識する。
【0080】図17に|Vy×Vz|の変化の様子を示
す。なお、図17において、横軸方向に時間、縦軸に|
Vy×Vz|の値を示し、縦軸方向の値は、動きの量
(大きさ)の大小を表すための適当な値である。式
(7)の関係を満たし、|Vy×Vz|の値が閾値TH
1を越える時点で、「手挙げ」動作が行われたと認識す
るわけである。
【0081】このように、例えば、人間の動作を認識す
る場合、実際の人間の動きの3次元性を利用する。人間
が手を動かす際、その平面方向(xy平面方向)の動き
と、奥行き方向(z方向)の動きは、独立して生じるこ
とはない。つまり、例えば、「手挙げ」動作を行うとき
には、単に手が上方向に動いているだけではなく、奥行
き方向の値も、従属して変化している訳である。つま
り、平面方向の動きの成分と奥行き方向の成分には相関
関係が存在する。そこで、平面方向の成分と奥行き方向
の成分を同時に見ることで、このような3次元的な動き
を安定して認識することが可能であるという訳である。
【0082】そこで、式(7)で示したように、「手挙
げ」動作の場合には、ディファレンシャル・フローの各
成分のうち、その動作を特徴付ける動きの方向(例え
ば、ここでは、y軸方向)の成分と、この動き方向と相
関関係のある方向の成分とを用いて、例えば、Vy×V
zというような平面方向と奥行き方向の成分の積を得る
ことで、「手挙げ」動作といった認識が可能となる。
【0083】さらに、ディファレンシャル・フローを用
いた、人間の「手による否定表現(手振り)」動作の認
識手法について説明する。
【0084】「手振り」動作は、手を何回か横方向に動
かす動作と考える。図18に示すように、最少の手振り
回数は4回である。手挙げ時(図18(b)参照)に1
回、横方向(図18(c)、(d)参照)に2回(一往
復で左右に1回ずつ)、手下げ時(図18(e)参照)
に1回である。そこで、横方向に4回以上の運動があっ
た場合、「手振り」動作であるとする。
【0085】このように、人間の「手振り」動作は、x
軸方向の動きに特に特徴があり、x軸方向の動きには、
必ずz軸方向の動きも伴う(従って、x軸方向とz軸方
向とは相関関係がある)ため、例えば、|Vx×Vz|
の値をみることで認識を行うことができる。そこで、左
右振り動作は、式(7)によって検出することができ
る。ここで、TH2は閾値であり、任意の正定数値をと
る。
【0086】
【数6】
【0087】式(8)の条件を、一連の動作中に4回以
上満たす場合、その動作を「手振り」動作と認識する。
【0088】図19は、実際に人間が一般的に普通の早
さで「手振り」動作を行った場合の、|Vx×Vz|の
値の変化の様子を示したものである。なお、図19にお
いて、横軸方向に時間、縦軸に|Vx×Vz|の値を示
し、縦軸方向の値は、動き量の大小を表すための適当な
値である。
【0089】図19に示した例の場合、一連の動作中に
6回の横方向の運動が検出され、この動作は、「手振
り」動作であると認識された。
【0090】なお、以上に説明では、ディファレンシャ
ル・フローの3つの成分のうち、これから認識しようと
する動きの特徴的な動き方向の成分とその動き方向と相
関関係のある方向の成分との2つを用いて、当該動きを
認識するようになっているが、この場合に限らず、ディ
ファレンシャル・フローの3つの成分のうち、これから
認識しようとする動きの特徴的な動きの方向成分のみを
用い、その成分値が予め定められた閾値を超えたとき、
当該動きを認識するようにしてもよい。さらに、ディフ
ァレンシャル・フローの3つの成分全てを用い、各成分
値を乗算した結果が予め定められた閾値を超えたとき、
当該動きを認識するようにしてもよい。このように、認
識しようとする動きの種類に応じて、ディファレンシャ
ル・フローの3つの成分のうちの少なくとも1つを用い
ることにより、動きを認識することができる。その際、
3つの成分のうち選択された成分は、認識しようとする
動きの特徴的な動き方向の成分のみである場合か、ある
いは、認識しようとする動きの特徴的な動き方向の成分
とその動き方向と相関関係のある方向の成分とである場
合であることが望ましい。
【0091】また、認識部4は、動きの種類を認識する
だけでなく、その動作を行う際の動きの早さ、動きの量
(大きさ)などの動きの状態も認識することができる。
【0092】例えば、図19に示したような手の振り方
よりも早く手を左右に振った場合の「手振り」動作の|
Vx×Vz|の値の時間的な変化を図20に示す。な
お、図20において、横軸方向に時間、縦軸に|Vx×
Vz|の値を示し、縦軸方向の値は、動きの量(大き
さ)の大小を表すための適当な値である。
【0093】図19と図20を比較することにより明ら
かなように、図20では、動作の開始時刻と終了時刻が
図19の場合より早くなり、しかも一連の動作中に検出
される、6回の横方向の運動の間隔は狭くなっているこ
とがわかる。そこで、例えば、認識すべき動きに含まれ
る一連の動きの検出間隔が所定時間より短い場合には、
「早い動き」であると判定するようにしてもよい。
【0094】また、図19に示したような手の振り方よ
りも大振りで手を左右に振った場合の「手振り」動作の
|Vx×Vz|の値は、図19の場合よりも大きくな
る。従って、|Vx×Vz|の値に、横方向の動きを検
出するための第1の閾値(この場合、TH2)の他に、
「大きな動き」であると判定するための第2の閾値を設
け、例えば、この値を超えるような場合には、「大きな
動き」であると判定するようにしてもよい。
【0095】一般的に、「手振り」動作には、「さよう
なら」を意味する「手振り」動作や、「ちがう、ちが
う」と否定するときの「手振り」動作があるが、この両
者の違いは、手を振るときの早さであろう。「ちがう、
ちがう」と手を振るときの方が、「バイバイ」と手を振
るときよりも手を振る動作は速くなるのが普通である。
そこで、認識部4では、「手挙げ」「手下げ」あるい
は、これらと「手の左右振り」とからなる「手振り」動
作であるかといった動きの種類を認識するだけでなく、
上記したような動きの状態をも認識することにより、例
えば、早い動きの「手振り」動作が認識されたときに
は、「いいえ」を意味し、早き動きでない通常の「手振
り」動作が認識されたときには、「さようなら」を意味
していると判断することもできる。すなわち、認識され
た動きが表す意味も認識することができる。
【0096】なお、以上で述べた解析手法は、あくまで
も一例であり、これに限定されるものではない。Vx、
Vy、Vzに関する他の計算方法を用いてもよいし、F
FTやWavelet変換に代表されるような信号処理
の手法を用いることも可能である。人工知能における知
識処理的な手法でも構わない。あるいは、その他の考え
られるあらゆる手法を取ることができる。
【0097】また、以上で述べた「手挙げ」、「手の左
右振り」といった動作は、あくまでも一例であり、これ
に限定されることなく、あらゆる動作を解析することが
可能である。動作主体も人間に限定されるものではな
く、あらゆる物体に関して、本手法を適用可能である。
【0098】さらに、ディファレンシャル・フローを用
いた解析は、一例であり、これとはことなる特徴量を解
析しても構わない。
【0099】以上で説明したように、上記第1の実施形
態では、対象物を撮影した2枚の距離画像間の差を用い
ることで、対象物の動きに関する3次元的な特徴量を算
出し、それを利用して、対象物の動きの3次元的な認識
を実現している。
【0100】もし、奥行き方向の情報をも表した距離画
像を用いず、2次元画像から2次元的な特徴量のみで動
きを認識しようとしても、例えば、人の「頭を横に向け
る」といった動作の場合、2枚の2次元画像上の頭の画
像領域の差分からでは、頭に動きがあったことは検出す
ることはできるが、その動きが「横に向けた」動きでる
ことは正確には認識することができない。しかし、上記
第1の実施形態では、距離画像のように奥行き方向の情
報を持たない従来の2次元画像内の2次元的な情報か
ら、3次元的な動きを推測するといった認識手法(例え
ば、手のx軸方向(横方向)の投影面積が減少したか
ら、手をy軸周りで回転したのであろうといったもの)
と異なり、実際に距離画像の3次元的な性質を表す特徴
量(ディファレンシャル・フロー)を用いることで認識
を行っているため、従来法よりも、より確実に、より安
定して3次元的な動きの認識を行うことが可能である。
【0101】以下、第1の実施形態のいくつかの変形例
を示す。
【0102】(第1実施形態の変形例1)画像取得部1
で、所定時間毎に距離画像を取得するのではなく、任意
のタイミングで距離画像を取得するようにしてもよい。
動きの速い物体を撮像している際には速い間隔毎に、遅
い物体を撮像している際には遅い間隔毎になどといった
ように、撮像物に応じて取得間隔をダイナミックに変化
させてもよいし、例えば、ユーザの指示などを用いて、
任意のタイミングで取得するようにしてもよい。また、
それ以外の方法でも構わない。
【0103】このようにすることにより、例えばユーザ
が開始時と終了時をスイッチで指示し、その間に特定の
動きが行われたかどうかといったような任意の時間間隔
内での3次元的な動き認識を行うことが可能である。ま
た、認識したい物体の動作速度に応じて、動作認識に適
した取得間隔に制御するようにしてもよい。
【0104】(第1実施形態の変形例2)差分計算部2
で、最新のフレームではなく、過去の特定のフレーム
(時刻t(現在)よりも前の任意の時刻t’)を距離画
像Aとし、そこから数フレーム前(例えば、時刻t’−
nのフレーム)を距離画像Bとして差分画像を生成する
ようにしてもよい。
【0105】このようにすることにより、過去の特定の
時点での3次元的な動き認識を行うことが可能である。
【0106】つまり、第1の実施形態で説明したよう
に、リアルタイムの動き認識だけではなく、任意の時点
の動き認識を行うことが可能である。これにより、ビデ
オテープ、ハードディスクなどの記録装置に記録された
距離画像ストリームのオフライン認識を行うことができ
る。
【0107】(第1実施形態の変形例3)第1の実施形
態および上記変形例2で、差分計算部2において、距離
画像Aは、距離画像Bよりも時刻的に新しい画像として
説明したが、これに限られるものではなく、時刻関係が
逆転しても同様である。
【0108】(第1実施形態の変形例4)第1の実施形
態でも説明したように、認識部4では、特徴量(一例と
してディファレンシャル・フロー)の解析を行うこと
で、ある動きが行われているかどうかが認識するととも
に、特徴量の値の大きさや、その変動幅などを解析する
ことで、その動きがどのくらいの大きさで行われている
のかをも認識することができる。
【0109】例えば、第1の実施形態では、「手の左右
振り」動作の認識の例で、横方向の動きを検出する際
に、|Vx×Vz|の値がある閾値を越えたかどうかを
みていたが、これを押し進めて、閾値を1つだけではな
く、TH1、TH2、TH3(これらは任意の正定数
で、TH1<TH2<TH3を満たすものとする)など
と言ったように例えば3つ用意して、この値の大きさが
どの閾値を超えたかによって動きの大きさを3段階に分
けることができる。このように、複数の閾値を用意する
ことで、動きが行われたかどうかだけでなく、その動き
の大きさのレベルをも知ることが可能である。また、閾
値処理ではなく、その値自体をアナログ量として見て、
動きの大きさをアナログ量として表現することも可能で
ある。
【0110】なお、ここで説明した方法は一例であり、
これに限定されるものではない。どの値を解析するかも
自由に選べるし、その選んだ値からどのように動きの大
きさを判別するかも、各種の方法を取ることができる。
【0111】(第1実施形態の変形例5)画像取得部1
で、取得する距離画像は、第1の実施形態で表現した画
像に限られない。例えば、モーションキャプチャ法によ
り得られた物体の特徴点データと物体の3次元モデルを
組み合わせることで得られた物体の3次元形状データ
や、CGなどで用いられるために作成された3次元デー
タなどは、通常画像と呼ばないことが多いが、データの
持つ性質は、3次元的な形状を表現しているため、第1
の実施形態で説明した距離画像に準じる性質を持つ。そ
こで、これらは本実施形態における距離画像と同等とみ
なすことができる。
【0112】このように、通常画像と呼ばれないデータ
に関しても、3次元の形状データを持つものを画像取得
部1で取得することで、同様に、その物体の動きの認識
を行うことが可能である。
【0113】(第1実施形態の変形例6)認識部4で、
動きが行われたかどうかの認識結果だけではなく、その
認識に対する信頼度と併せて結果として出力することが
ある。信頼度は、認識を行う際、認識のための条件を満
たす際の数値の差異などをもとに決定する。例えば、第
1の実施形態における「手挙げ」動作を認識する場合、
式(7)を用いて認識のための判別を行っているが、|
Vy×Vz|−TH1の値(閾値との差の大きさ)や、
Vyの値を信頼度とすることができる。また、これらを
相互用いて信頼度を算出してもよいし、これ以外の値を
用いてもよい。
【0114】このようにすることで、ある動きの認識が
どのくらい信頼度で行われているのかを知ることができ
る。例えば、「手挙げ」の認識が高い信頼度で成功して
いれば、ユーザは、この認識結果は非常に信頼する事が
できるが、信頼度が低い場合、参考程度に考えるなどと
いうことが可能となる。
【0115】(第2の実施形態)上記第1の実施形態で
説明した画像認識装置およびその手法は、距離画像から
対象物の3次元的な動きの特徴量(ディファレンシャル
・フロー)を検出し、それを用いて距離画像内に含まれ
る対象物の動きを認識するものであり、距離画像内の1
つの動きの特徴量を求めて、その1つの動きの認識のみ
を行う場合について説明した。次に、第2の実施形態で
は、距離画像に含まれる複数の動きのそれぞれを認識す
る場合について説明する。
【0116】図21は、第2の実施形態に係る画像認識
装置の全体構成図である。なお、図21において、図1
と同一部分には同一符号を付し、異なる部分についての
み説明する。すなわち、図21の画像認識装置は、差分
計算部2で得られた差分画像から、対象物の動作認識の
ための認識領域を抽出する領域抽出部5が新たに追加さ
れ、検出部3は、領域抽出部5で差分画像から抽出され
た認識領域毎に特徴量を検出するようになっている。
【0117】画像取得部1および差分計算部2に関して
は、第1の実施形態とまったく同様である。
【0118】次に、領域抽出部5について、図22に示
すフローチャートを参照して説明する。
【0119】領域抽出部5は、画像取得部1から送られ
てきた、例えば、図23(a)(b)に示したような距
離画像中に複数の動きが同時に混在している場合に、図
23(c)に示したように、差分画像から、各動きを認
識するための複数の領域を抽出するようになっている。
【0120】まず、図23(a)、(b)に示した距離
画像A(時刻tに撮像されたもの)、距離画像B(時刻
t−nに撮像されたもの)に含まれる対象物(動き)の
領域を抽出する(ステップS101)。ここで、1つの
対象物は連続する領域で占められた領域であると定義
し、対象物の画像の外接矩形領域を抽出するものとす
る。なお、外接矩形領域に限らず、対象物の存在する領
域が抽出されれば、他の形状の領域であってもよい。こ
の場合、図23(a)に示した距離画像Aからは、図2
4(a)に示すように、対象物の領域R1、R2が抽出
される。また、図23(b)に示した距離画像Bから
は、図24(b)に示すように、対象物の領域R1´、
R2´が抽出される。
【0121】次に、距離画像A、B中の対応する2つの
領域(好ましくは、同じ対象物が含まれる2つの領域)
を合成して認識領域を生成する(ステップS102)。
例えば、図23(a)の距離画像A中の領域R1と図2
3(b)の距離画像B中の領域R1´とが対応し、図2
3(a)の距離画像A中の領域R2と図23(b)の距
離画像B中の領域R2´とが対応するのであれば、図2
5に示したように、領域R1とR1´とを合成して動き
を認識するための認識領域CR1が生成され、また、領
域R2とR2´とを合成して認識領域CR2が生成され
る。
【0122】例えば、距離画像AとBとを重ね合わせた
ときに、領域R1とR1´の重なり合う領域と、それ以
外の両者の全ての領域とを認識領域CR1とする。認識
領域CR2も同様に、距離画像AとBとを重ね合わせた
ときに、領域R2とR2´の重なり合う領域と、それ以
外の両者の全ての領域とを認識領域CR2とする。
【0123】ここで、対応の求め方に関しては本発明で
は特に限定しないが、一番近い領域同士が同じ対象物の
領域であると判断し、それらを対応させても良いし、何
らかの知識を用いて同じ対象物だと判別される領域を求
め、それらを対応させてもよい。他の方法でも構わな
い。
【0124】さらに、領域抽出部5は、差分計算部2で
求めた差分画像から複数の認識領域を抽出する(ステッ
プS103)。すなわち、例えば、図23(a)に示し
た距離画像Aと図23(b)に示した距離画像Bとか
ら、差分計算部2にて、図26(a)に示すような差分
画像が生成されたとする。このような差分画像から図2
5に示した認識領域CR1、CR2のそれぞれに対応す
る部分を認識領域CR1´、CR2´として抽出する。
例えば、距離画像AとBとを重ね合わせて認識領域CR
1、CR2を生成したが、さらに、その上に差分画像を
重ね合わせたときの、差分画像中の認識領域CR1、C
R2のそれぞれに対応する領域を認識領域CR1´、C
R2´として抽出する。
【0125】なお、領域抽出部5は、ステップS101
において、距離画像中から1つの対象物の領域のみが抽
出されたときでも、ステップS102,ステップS10
3の処理を行って、距離画像Aと距離画像B中の当該対
象物の含まれる対応する領域を合成して認識領域を生成
し、差分画像から当該認識領域を抽出する。
【0126】次に検出部3について説明する。
【0127】検出部3では、領域抽出部5で差分画像か
ら抽出された複数の認識領域のそれぞれについて、特徴
量(例えば、ここでは、ディファレンシャル・フロー)
を求める(図27参照)。
【0128】特徴量の検出処理に関しては、第1の実施
形態の検出部3と同様である。
【0129】認識部4では、検出部3で検出された複数
の認識領域毎の特徴量をそれぞれ解析し、動きの認識を
行う。具体的な個々の動作の認識方法に関しては、第1
の実施形態の認識部4と同様である。
【0130】この際、認識のための解析は、それぞれの
特徴量の値に関して独立して行ってもよいし、それぞれ
の値を相互参照して解析してもよい。
【0131】このように、距離画像中に複数の動きが存
在する場合には、差分画像から各動きの存在位置に対応
する複数の認識領域を抽出して、この認識領域毎に複数
の動きのそれぞれに対応した特徴量を求めて動作を認識
することにより、単一の動きの認識にとどまらず、複数
の動きの認識を同時に行うことが可能となり、しかも、
複数の3次元的な動きのそれぞれを、安定的かつ高精度
に認識することができる。
【0132】なお、以上で説明した領域抽出部における
差分画像からの認識領域の抽出手法は一例であり、これ
に限定されるものではない。
【0133】(第3の実施形態)第1の実施形態では、
認識部4において、ある動きに関する認識を行ってい
た。第3の実施形態では、これを推し進め、複数の動き
の識別を含んだ動き認識を可能とするものである。
【0134】例えば、第1の実施形態では、「手振り」
動作を例にとり説明したが、この「手振り」動作は、
「手挙げ」「手下げ」「手の左右振り」という動きから
なる。このように、1つの認識対象の動きには、複数種
類の動きから構成される場合もある。そこで、第3の実
施形態では、複数種類の動きをそれぞれ認識して、それ
らの関連性から1つの動きを識別する事も可能な画像認
識装置について説明する。
【0135】図28は、第3の実施形態に係る画像認識
装置の全体構成図である。なお、図28において、図1
と同一部分には、同一符号を付し、異なる部分について
のみ説明する。すなわち、図28の画像認識装置は、検
出部3で得られた特徴量(例えば、ここでは、ディファ
レンシャル・フロー)を基に画像内に含まれる対象物の
動きを認識するための複数の(例えば、ここでは、x個
(xは、任意の整数))認識部(第1の認識部4a、第
2の認識部4b、…、第xの検出部4x)を持ち、さら
に、この複数の認識部4a〜4xで得られた認識結果を
もとに、対象物の動きの識別を行う動作識別部6が新た
に追加されている。
【0136】画像取得部1、差分計算部2および検出部
3に関しては、第1の実施形態とまったく同様である。
【0137】次に、複数の認識部4a〜4xについて説
明する。各認識部では、その認識部に予め定められた特
定の動きを認識する。
【0138】例えば、第1の認識部4aは、「手挙げ」
動作の認識を行う。認識の方法に関しては、第1の実施
形態と同様である。第2の認識部4bでは、第1の認識
部4aとは異なる特定の動きの認識を行う。例えば、
「手の左右振り」動作の認識を行う。認識の方法に関し
ては、第1の実施形態と同様である。
【0139】以下、同様にして、第xの認識部4xで
は、それ以外の認識部とは異なる特定の動きの認識を行
う。例えば、「首の上下振り」動作の認識を行う。認識
の方法に関しては、第1の実施形態と同様である。
【0140】次に、動作識別部6について説明する。動
作識別部6では、複数の認識部4aから4xで得られた
認識結果をもとに、対象物の動きの種類を最終的に識別
(弁別)する。
【0141】例えば、「首の上下振り」動作のみが認識
成功の結果が得られており、他の動きに関する認識が失
敗している場合、対象物の動作は、「首の上下振り」で
あると識別することができる。このように、複数の認識
部4a〜4xのうちの1つの認識部での認識結果のみが
成功している場合は、動作識別部6は、その認識された
動きをそのまま識別結果として出力する。
【0142】複数の認識部4a〜4xでの認識結果に複
数の成功が含まれる場合の動作識別部6の処理動作につ
いて説明する。第1の実施形態で説明したように、人間
が「手振り」動作を行う場合、通常、人間は手を体の前
ぐらいまで挙げて、それから左右方向に手を振る。そし
て、最後には、手を降ろす。そこで、このような動作の
場合、「手挙げ」、「手の左右振り」、「手下げ」の3
つの動きの認識が成功し、この順番に動作が行われてい
るのであれば、「手振り」という動作が識別(弁別)さ
れることとなる。
【0143】このような場合、複数の認識部4a〜4x
のいずれか3つで、上記3つの動作のそれぞれを認識す
るようにし、人間の「手振り」動作に関する知識とし
て、上述したような3つの動作が包含されるという知識
を予め動作識別部6に記憶させておけばよい。
【0144】なお、知識の表現方法、記憶方法などは、
本発明では特に問わない。考えられる任意の方法をとる
ことが可能である。また、知識は、予め記憶しておいた
もので固定されているわけではなく、動作中に任意に入
れ替えたり、更新したりすることも可能である。
【0145】なお、上述した弁別の手法はあくまでも一
例であり、これに限定されるものではない。第1の実施
形態の第6の変形例の項で説明した信頼度などをもとに
弁別を行ってもよいし、これ以外の方法でも構わない。
【0146】また、上記第3の実施形態では、1つの対
象物の動きを認識する場合を説明したが、この手法を第
2の実施形態で説明した画像認識装置にも適用する事も
可能である。すなわち、距離画像中に複数の動きが存在
する場合には、領域抽出部5で差分画像から各動きの存
在位置に対応する複数の認識領域を抽出し、検出部3で
抽出された認識領域毎に、複数の動きのそれぞれに対応
した特徴量を求めれば、各認識対象領域のそれぞれにつ
いて、複数の認識部4a〜4xで動きの種類を認識し
て、動作識別部6で最終的に各認識対象領域でどのよう
な動作が行われていたのかを識別する。また、動作識別
部6は、各認識対象領域から認識された各動きから、全
体で、どのような動きが行われていたのかを識別するこ
ともできる。(第4の実施形態)図29は、本発明の第
4の実施形態に係る画像認識装置の全体構成図である。
なお、図29において、図1と同一部分には同一符号を
付し、異なる部分についてのみ説明する。すなわち、図
29に示す画像認識装置には、画像取得部1で取得され
た距離画像から、その画像中に含まれる動作認識の対象
物の形状を認識するための形状認識部7がさらに追加さ
れている。
【0147】形状認識部7での対象物の形状の識別手法
に関しては本発明では特に言及しないが、考えられるあ
らゆる手段を用いることができる。例えば、その一手法
として、テンプレートマッチング法が挙げられる。これ
は、テンプレートと呼ばれる形状の雛形を多数用意し、
画像に含まれる物体と一番類似しているテンプレートを
検出し、そのテンプレートが表現している形状を結果と
して得るというものである。具体的には、丸、三角、四
角、手の形状…などといったようなテンプレートを形状
認識部7に予め記憶しておき、距離画像内の物体が三角
のテンプレートに最も類似している場合には、距離画像
内の対象物の形状は三角形状であると認識する。
【0148】そのために、形状認識部7は、例えば、画
像取得部1から取得した距離画像から対象物の輪郭情報
を抽出するようにしてもよい。すなわち、図6に示した
ような距離画像から画素値が予め定められた所定値以下
のセルを除き、図30に示すような撮像された対象物の
輪郭情報を抽出する。
【0149】図30のような輪郭情報を抽出するには、
隣り合う画素の画素値を比較し、画素値が一定値α以上
のところだけに定数値を入れて、同じ定数値が割り振ら
れた連続した画像領域の画素を抽出すればよい。
【0150】すなわち、例えば図4に示したような距離
画像データのマトリックス上の座標位置(i、j)にあ
る画素値をP(i、j)とし、輪郭情報の画素値をR
(i、j)とすると、 ・{P(i、j)−P(i−1、j)}>α、かつ {P(i、j)−P(i、j−1)}>α、かつ {P(i、j)−P(i+1、j)}>α、かつ {P(i、j)−P(i、j+1)}>α のとき、R(i、j)=255 ・ 上記以外のとき、R(i、j)=0 とすることにより、図30のような対象物の輪郭情報を
得ることができる。
【0151】このようにして抽出された対象物の輪郭情
報と、予め記憶されたテンプレートとを比較し、対象物
の輪郭情報と一番類似しているテンプレートを検出し、
そのテンプレートが表現している形状を対象物の形状の
認識結果として出力すればよい。
【0152】なお、上記のような輪郭を用いた対象物の
形状の認識手法は、一例であって、距離画像から輪郭を
求めることなく、テンプレート自体が距離画像であっ
て、取得した距離画像をそのままテンプレートである距
離画像と比較して、対象物の形状を認識するようにして
もよい。
【0153】このように、対象物の動作の認識だけでは
なく、その形状の認識も同時に行い、対象物の動作の認
識の際に、認識された形状を参照することにより、例え
ば、手をどのような形状にどのように動かしたかなども
認識することができる。さらに、上記手法は、手話認識
にも適用可能である。
【0154】以上の各実施形態やその変形例は、適宜組
み合わせて実施することが可能である。また、本発明の
手法は、与えられた距離画像もしくはそのストリームに
基づいて、動作を認識し、あるいはさらにその認識結果
をもとに各種の処理を行うような装置に適用可能であ
る。
【0155】図1、図21、図28,図29に示した各
構成部は、画像取得部1を除いて、ソフトウェアとして
も実現可能である。また、上記した本発明の手法は、コ
ンピュータに実行させるためのプログラムを記録した機
械読みとり可能な媒体として実行することもできる。
【0156】本発明の実施の形態に記載した本発明の手
法は、コンピュータに実行させることのできるプログラ
ムとして、磁気ディスク(フロッピー(登録商標)ディ
スク、ハードディスクなど)、光ディスク(CD−RO
M、DVDなど)、半導体メモリなどの記録媒体に格納
して頒布することもできる。
【0157】なお、本発明は、上記実施形態に限定され
るものではなく、実施段階ではその要旨を逸脱しない範
囲で種々に変形することが可能である。さらに、上記実
施形態には種々の段階の発明は含まれており、開示され
る複数の構成用件における適宜な組み合わせにより、種
々の発明が抽出され得る。例えば、実施形態に示される
全構成要件から幾つかの構成要件が削除されても、発明
が解決しようとする課題の欄で述べた課題(の少なくと
も1つ)が解決でき、発明の効果の欄で述べられている
効果(のなくとも1つ)が得られる場合には、この構成
要件が削除された構成が発明として抽出され得る。
【0158】
【発明の効果】以上説明したように、本発明によれば、
3次元的な動きの認識を容易にしかも安定して、高精度
で行うことができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る画像認識装置の
構成例を概略的に示す図。
【図2】距離画像を取得する画像取得部の外観の一例を
示した図。
【図3】距離画像を取得する画像取得部の構成例を示し
た図。
【図4】反射光の強度を画素値とする距離画像の一例を
示した図。
【図5】図3に示した様なマトリックス形式の距離画像
を3次元的な表した図。
【図6】画像取得部により取得された手の距離画像の表
示イメージを示した図。
【図7】図1の画像認識装置の処理動作を説明するため
のフローチャート。
【図8】差分画像について説明するための図。
【図9】特徴量について説明するための図。
【図10】特徴量について説明するための図で、特に、
流入領域と流出領域について説明するための図。
【図11】特徴量について説明するための図で、特に、
流入領域とその代表点(ここでは、重心)について説明
するための図。
【図12】特徴量について説明するための図で、特に、
流出領域とその代表点(ここでは、重心)について説明
するための図。
【図13】特徴量としてのディファレンシャル・フロー
について説明するための図。
【図14】差分画像、流入領域、流出領域の画像データ
について説明するための図。
【図15】距離画像を用いた、手挙げ/手下げ動作につ
いて説明するための図。
【図16】特徴量(ディファレンシャル・フロー)の時
間的変化の様子を示した図。
【図17】|Vy×Vz|の時間的変化の様子を示した
図。
【図18】手動作における横方向の動きを説明するため
の図。
【図19】|Vx×Vz|の時間的変化の様子を示した
図。
【図20】速い動きで手振り動作を行った場合の|Vx
×Vz|の時間的変化の様子を示した図。
【図21】本発明の第2の実施形態に係る画像認識装置
の構成例を概略的に示す図。
【図22】図21の領域抽出部5の処理動作を説明する
ためのフローチャート。
【図23】2枚の距離画像に複数の(例えば、ここで
は、2つの)動きが存在する場合を説明するための図。
【図24】距離画像から対象物の外接矩形を抽出する処
理を説明するための図。
【図25】動きを認識するための認識領域を生成する処
理を説明するための図。
【図26】差分画像から認識領域を抽出する処理を説明
するための図。
【図27】差分画像から抽出された認識領域から求めた
特徴量(ディファレンシャル・フロー)を説明するため
の図。
【図28】本発明の第3の実施形態に係る画像認識装置
の構成例を概略的に示す図。
【図29】本発明の第4の実施形態に係る画像認識装置
の構成例を概略的に示す図。
【図30】距離画像から抽出された物体の輪郭画像の一
例を示した図。
【符号の説明】
1…画像取得部 2…差分計算部 3…検出部 4…認識部 4a…第1の認識部 4b…第2の認識部 4x…第xの認識部 5…領域抽出部 6…動作識別部 7…形状認識部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06T 7/00 300 G06T 7/00 300F H04N 7/18 H04N 7/18 K (72)発明者 土井 美和子 神奈川県川崎市幸区小向東芝町1番地 株 式会社東芝研究開発センター内 Fターム(参考) 5B047 AA07 AB02 BB04 BC11 5B057 CA13 DB03 DC08 DC09 DC36 5C054 AA04 FC13 FD01 5L096 AA09 CA02 FA00 HA03 JA11

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】被写体の3次元情報を持つ画像を取得し、
    取得した複数の画像の差分データを求め、この差分デー
    タから前記被写体の動きに伴い画素値の減少した領域と
    増加した領域とを抽出し、これらの3次元的な位置関係
    から前記被写体の3次元的な動きの特徴量を抽出して、
    この特徴量を基に前記被写体の動きを認識することを特
    徴とする画像認識方法。
  2. 【請求項2】被写体の3次元情報を持つ画像を取得し、
    取得した複数の画像から前記被写体の動きを検知し、動
    きの検知された画像領域対応の前記複数の画像の差分デ
    ータから前記画像領域毎に前記被写体の動きに伴い画素
    値の減少した領域と増加した領域とを抽出し、これらの
    3次元的な位置関係から前記被写体の3次元的な動きの
    特徴量を抽出し、前記画像領域毎に、それぞれの画像領
    域から抽出された特徴量を基に前記検知された動きを認
    識することを特徴とする画像認識方法。
  3. 【請求項3】前記3次元的な動きの特徴量のx方向、y
    方向、z方向の各成分値のうち、認識すべき動きに応じ
    て選択された少なくとも1つの成分値に基づき、前記被
    写体の動きを認識することを特徴とする請求項1または
    2記載の画像認識方法。
  4. 【請求項4】前記認識すべき動きの特徴的な動き方向に
    基づき、前記特徴量の各成分値のうち少なくとも1つの
    成分値を選択することを特徴とする請求項3記載の画像
    認識方法。
  5. 【請求項5】前記認識すべき動きの特徴的な動き方向
    と、その動き方向と相関関係のある方向とに基づき、前
    記特徴量の各成分値のうち少なくとも1つの成分値を選
    択することを特徴とする請求項3記載の画像認識方法。
  6. 【請求項6】前記画像は距離画像であることを特徴とす
    る請求項1または2記載の画像認識方法。
  7. 【請求項7】被写体の3次元情報を持つ画像を取得する
    取得手段と、 この取得手段で取得した複数の画像の差分データを生成
    する生成手段と、 前記差分データから、前記被写体の動きに伴い画素値の
    減少した領域と増加した領域とを抽出し、これらの3次
    元的な位置関係から前記被写体の3次元的な動きの特徴
    量を抽出する特徴量抽出手段と、 前記特徴量を基に前記被写体の動きを認識する認識手段
    と、 を具備したことを特徴とする画像認識装置。
  8. 【請求項8】被写体の3次元情報を持つ画像を取得する
    取得手段と、 この取得手段で取得した複数の画像の差分データを生成
    する生成手段と、 前記複数の画像から前記被写体の動きを検知する検知手
    段と、 この検知手段で動きの検知された画像領域対応の前記差
    分データから、前記画像領域毎に、前記被写体の動きに
    伴い画素値の減少した領域と増加した領域とを抽出し
    て、これらの3次元的な位置関係から前記被写体の3次
    元的な動きの特徴量を抽出する特徴量抽出手段と、 前記画像領域毎に、それぞれの画像領域から抽出された
    特徴量を基に前記検知された動きを認識する認識手段
    と、 を具備したことを特徴とする画像認識装置。
  9. 【請求項9】前記3次元的な動きの特徴量のx方向、y
    方向、z方向の各成分値のうち、認識すべき動きに応じ
    て選択された少なくとも1つの成分値に基づき、前記対
    象物の動きを認識することを特徴とする請求項7または
    8記載の画像認識装置。
  10. 【請求項10】前記認識すべき動きの特徴的な動き方向
    に基づき、前記特徴量の各成分値のうち少なくとも1つ
    の成分値を選択することを特徴とする請求項9記載の画
    像認識装置。
  11. 【請求項11】前記認識すべき動きの特徴的な動き方向
    と、その動き方向と相関関係のある方向とに基づき、前
    記特徴量の各成分値のうち少なくとも1つの成分値を選
    択することを特徴とする請求項9記載の画像認識装置。
  12. 【請求項12】前記画像は距離画像であることを特徴と
    する請求項7または8記載の画像認識装置。
JP2001174574A 2001-06-08 2001-06-08 画像認識方法および画像認識装置 Expired - Fee Related JP3732757B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001174574A JP3732757B2 (ja) 2001-06-08 2001-06-08 画像認識方法および画像認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001174574A JP3732757B2 (ja) 2001-06-08 2001-06-08 画像認識方法および画像認識装置

Publications (2)

Publication Number Publication Date
JP2002366958A true JP2002366958A (ja) 2002-12-20
JP3732757B2 JP3732757B2 (ja) 2006-01-11

Family

ID=19015843

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001174574A Expired - Fee Related JP3732757B2 (ja) 2001-06-08 2001-06-08 画像認識方法および画像認識装置

Country Status (1)

Country Link
JP (1) JP3732757B2 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004107266A1 (en) * 2003-05-29 2004-12-09 Honda Motor Co., Ltd. Visual tracking using depth data
JP2006072661A (ja) * 2004-09-01 2006-03-16 Hirosaki Univ 介護支援システム
JP2007323268A (ja) * 2006-05-31 2007-12-13 Oki Electric Ind Co Ltd 映像提供装置
US7593552B2 (en) 2003-03-31 2009-09-22 Honda Motor Co., Ltd. Gesture recognition apparatus, gesture recognition method, and gesture recognition program
JP2011501316A (ja) * 2007-10-26 2011-01-06 本田技研工業株式会社 ラベル割当を用いた手サイン認識
JP2011203159A (ja) * 2010-03-26 2011-10-13 Nec Corp 赤外線撮像装置及び赤外線画像の表示方法
JP2014501415A (ja) * 2011-01-05 2014-01-20 ソフトキネティック ソフトウェア 自然なジェスチャに基づくユーザ・インターフェース方法及びシステム
JP2014524071A (ja) * 2011-06-06 2014-09-18 マイクロソフト コーポレーション 開いた手または閉じた手を認識するシステム
JP2014535098A (ja) * 2011-10-14 2014-12-25 サムスン エレクトロニクス カンパニー リミテッド イベント基盤ビジョンセンサを用いた動作認識装置及び方法
JP2015176485A (ja) * 2014-03-17 2015-10-05 国立大学法人豊橋技術科学大学 三次元モデル特徴抽出方法、及び三次元モデル・アノテーションシステム
JP2017214191A (ja) * 2016-05-31 2017-12-07 株式会社日立製作所 輸送機器制御システム、及び、輸送機器制御方法
JP2018082745A (ja) * 2016-11-21 2018-05-31 国立大学法人鳥取大学 姿勢判定装置及び通報システム
JP2018180788A (ja) * 2017-04-07 2018-11-15 コニカミノルタ株式会社 動体追跡方法、動体追跡プログラム、および動体追跡システム
CN112088304A (zh) * 2018-05-10 2020-12-15 株式会社荏原制作所 检查装置及检查方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05229756A (ja) * 1992-02-21 1993-09-07 Toshiba Corp 画像監視装置および該画像監視装置を利用したエレベータ制御装置
JPH07200632A (ja) * 1993-12-28 1995-08-04 Toshiba Corp 情報処理装置
JPH11316820A (ja) * 1998-04-30 1999-11-16 Toshiba Corp 行動計測方法および行動計測装置および制御装置および電子的装置および記録媒体
JP2000222585A (ja) * 1999-02-01 2000-08-11 Toshiba Corp 動き検出方法および動き検出装置および動き認識方法および動き認識装置および記録媒体
JP2000315259A (ja) * 1999-05-06 2000-11-14 Sharp Corp データベース作成装置及びデータベース作成プログラムを記録した記録媒体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05229756A (ja) * 1992-02-21 1993-09-07 Toshiba Corp 画像監視装置および該画像監視装置を利用したエレベータ制御装置
JPH07200632A (ja) * 1993-12-28 1995-08-04 Toshiba Corp 情報処理装置
JPH11316820A (ja) * 1998-04-30 1999-11-16 Toshiba Corp 行動計測方法および行動計測装置および制御装置および電子的装置および記録媒体
JP2000222585A (ja) * 1999-02-01 2000-08-11 Toshiba Corp 動き検出方法および動き検出装置および動き認識方法および動き認識装置および記録媒体
JP2000315259A (ja) * 1999-05-06 2000-11-14 Sharp Corp データベース作成装置及びデータベース作成プログラムを記録した記録媒体

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7593552B2 (en) 2003-03-31 2009-09-22 Honda Motor Co., Ltd. Gesture recognition apparatus, gesture recognition method, and gesture recognition program
WO2004107266A1 (en) * 2003-05-29 2004-12-09 Honda Motor Co., Ltd. Visual tracking using depth data
JP2006072661A (ja) * 2004-09-01 2006-03-16 Hirosaki Univ 介護支援システム
JP2007323268A (ja) * 2006-05-31 2007-12-13 Oki Electric Ind Co Ltd 映像提供装置
JP2011501316A (ja) * 2007-10-26 2011-01-06 本田技研工業株式会社 ラベル割当を用いた手サイン認識
JP2011203159A (ja) * 2010-03-26 2011-10-13 Nec Corp 赤外線撮像装置及び赤外線画像の表示方法
JP2014225288A (ja) * 2011-01-05 2014-12-04 ソフトキネティック ソフトウェア 自然なジェスチャに基づくユーザ・インターフェース方法及びシステム
JP2014501415A (ja) * 2011-01-05 2014-01-20 ソフトキネティック ソフトウェア 自然なジェスチャに基づくユーザ・インターフェース方法及びシステム
JP2014524071A (ja) * 2011-06-06 2014-09-18 マイクロソフト コーポレーション 開いた手または閉じた手を認識するシステム
JP2014535098A (ja) * 2011-10-14 2014-12-25 サムスン エレクトロニクス カンパニー リミテッド イベント基盤ビジョンセンサを用いた動作認識装置及び方法
US9389693B2 (en) 2011-10-14 2016-07-12 Samsung Electronics Co., Ltd. Apparatus and method for recognizing motion by using an event-based vision sensor
JP2015176485A (ja) * 2014-03-17 2015-10-05 国立大学法人豊橋技術科学大学 三次元モデル特徴抽出方法、及び三次元モデル・アノテーションシステム
JP2017214191A (ja) * 2016-05-31 2017-12-07 株式会社日立製作所 輸送機器制御システム、及び、輸送機器制御方法
JP2018082745A (ja) * 2016-11-21 2018-05-31 国立大学法人鳥取大学 姿勢判定装置及び通報システム
JP2018180788A (ja) * 2017-04-07 2018-11-15 コニカミノルタ株式会社 動体追跡方法、動体追跡プログラム、および動体追跡システム
CN112088304A (zh) * 2018-05-10 2020-12-15 株式会社荏原制作所 检查装置及检查方法

Also Published As

Publication number Publication date
JP3732757B2 (ja) 2006-01-11

Similar Documents

Publication Publication Date Title
US8401225B2 (en) Moving object segmentation using depth images
Choi et al. A general framework for tracking multiple people from a moving camera
US8320618B2 (en) Object tracker and object tracking method
JP4349367B2 (ja) 物体の位置姿勢を推定する推定システム、推定方法および推定プログラム
Bobick et al. The recognition of human movement using temporal templates
KR101533686B1 (ko) 시선 추적 장치 및 방법, 이를 수행하기 위한 기록매체
JP5529660B2 (ja) 瞳孔検出装置及び瞳孔検出方法
JP5001930B2 (ja) 動作認識装置及び方法
WO2016107638A1 (en) An image face processing method and apparatus
CN104364733A (zh) 注视位置检测装置、注视位置检测方法和注视位置检测程序
JP3732757B2 (ja) 画像認識方法および画像認識装置
CN111488775B (zh) 注视度判断装置及方法
JP2006343859A (ja) 画像処理装置及び画像処理方法
JP7230345B2 (ja) 情報処理装置及び情報処理プログラム
KR102295183B1 (ko) Cctv 프로젝션 모델을 이용한 cctv 영상의 객체 추적 방법
KR101661211B1 (ko) 얼굴 인식률 개선 장치 및 방법
RU2004123248A (ru) Система и способ отслеживания объекта
KR100977259B1 (ko) 다중 기울기 히스토그램을 이용한 사람 탐색 및 추적 방법
KR101290517B1 (ko) 촬영장치 및 이의 대상 추적방법
JP4559375B2 (ja) 対象物位置追跡方法、装置、およびプログラム
KR20060121503A (ko) 무인 감시 로봇에서 중요 얼굴 추적 장치 및 방법
JP5482412B2 (ja) ロボット、位置推定方法及びプログラム
KR101447958B1 (ko) 신체 부분 검출 방법 및 장치
JPH09305743A (ja) 人物顔動作検出方式
JP2019075051A (ja) 画像処理装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051011

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051013

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081021

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091021

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101021

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111021

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111021

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121021

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131021

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees