JPH08212327A - 身振り認識装置 - Google Patents
身振り認識装置Info
- Publication number
- JPH08212327A JPH08212327A JP7018112A JP1811295A JPH08212327A JP H08212327 A JPH08212327 A JP H08212327A JP 7018112 A JP7018112 A JP 7018112A JP 1811295 A JP1811295 A JP 1811295A JP H08212327 A JPH08212327 A JP H08212327A
- Authority
- JP
- Japan
- Prior art keywords
- gesture
- histogram
- orientation
- gesture recognition
- recognition device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Processing (AREA)
- Facsimile Image Signal Circuits (AREA)
- Image Analysis (AREA)
Abstract
(57)【要約】
【目的】 画像入力装置で取り込んだ画像から動的およ
び静的身振りを認識してコンピュータへの入力の仲介を
行う身振り認識装置を得る。 【構成】 低レベルモデルフリーの動的および静的身振
りの認識システムは、静的身振り用の、空間オリエンテ
ーション角度対発生頻度の一次元ヒストグラム、又は動
的身振り用の二次元空間時間オリエンテーションヒスト
グラムを使用している。各場合に於て、ヒストグラム
は、身振り認識に使用される身振りのシグニチャを構成
する。動的身振りの検出のためには、三次元空間時間マ
ップは、オリエンテーションおよび移動の両方対発生頻
度をグラフ化した二次元空間時間オリエンテーションヒ
ストグラムへ融合または変換される。入力された動的身
振りが突き合わされるのはこの表示即ちテンプレートで
ある。
び静的身振りを認識してコンピュータへの入力の仲介を
行う身振り認識装置を得る。 【構成】 低レベルモデルフリーの動的および静的身振
りの認識システムは、静的身振り用の、空間オリエンテ
ーション角度対発生頻度の一次元ヒストグラム、又は動
的身振り用の二次元空間時間オリエンテーションヒスト
グラムを使用している。各場合に於て、ヒストグラム
は、身振り認識に使用される身振りのシグニチャを構成
する。動的身振りの検出のためには、三次元空間時間マ
ップは、オリエンテーションおよび移動の両方対発生頻
度をグラフ化した二次元空間時間オリエンテーションヒ
ストグラムへ融合または変換される。入力された動的身
振りが突き合わされるのはこの表示即ちテンプレートで
ある。
Description
【0001】
【産業上の利用分野】この発明は、コンピュータのイン
タフェースに関し、特にコンピュータ制御のための身振
り認識装置に関する。
タフェースに関し、特にコンピュータ制御のための身振
り認識装置に関する。
【0002】
【従来の技術】マウス、ペン、ジョイスティック、トラ
ックボール、そして最近ではデータグラブといった手に
より制御を行う種々のコンピュータインタフェース装置
が存在する。これらの装置は、多くの利用分野で十分に
満足して利用されている一方、幾つかのシステムでは、
便利なコンピュータ制御のために、もっと柔軟性を加味
することが要求されている。
ックボール、そして最近ではデータグラブといった手に
より制御を行う種々のコンピュータインタフェース装置
が存在する。これらの装置は、多くの利用分野で十分に
満足して利用されている一方、幾つかのシステムでは、
便利なコンピュータ制御のために、もっと柔軟性を加味
することが要求されている。
【0003】例えば、コンピュータへの連結ラインを有
する、人の手にはめたデータグラブにより、仮想現実シ
ーン中に変化する飛翔像等のアイコンの動画が制御され
る。このようなデータグラブは、内部に多くのセンサが
設けられていることから高価なものであり、またこれを
着たり脱いだりする必要があることから煩わしいもので
ある。従って、研究者達は、それほどハードウェアに依
存しないコンピュータ制御システムを研究してきた。身
振り認識装置は、そのようなシステムの一つである。
する、人の手にはめたデータグラブにより、仮想現実シ
ーン中に変化する飛翔像等のアイコンの動画が制御され
る。このようなデータグラブは、内部に多くのセンサが
設けられていることから高価なものであり、またこれを
着たり脱いだりする必要があることから煩わしいもので
ある。従って、研究者達は、それほどハードウェアに依
存しないコンピュータ制御システムを研究してきた。身
振り認識装置は、そのようなシステムの一つである。
【0004】身振りの検出は、手の向きが重要な情報を
与えるだけでなく、手の移動も重要な情報を与えるの
で、重要である。従って、親指を立てて静止したジェス
チャは、賛成を意味したり、同じジェスチャだが、動か
すと、ヒッチハイクの便乗を求めることを意味する。同
様に、手の姿勢(attitude)も検出可能であるが、身振り
をより正確に定義する動的な動作の検出となる。
与えるだけでなく、手の移動も重要な情報を与えるの
で、重要である。従って、親指を立てて静止したジェス
チャは、賛成を意味したり、同じジェスチャだが、動か
すと、ヒッチハイクの便乗を求めることを意味する。同
様に、手の姿勢(attitude)も検出可能であるが、身振り
をより正確に定義する動的な動作の検出となる。
【0005】過去において、日本の横須賀のNTTヒュ
ーマンインタフェース研究所のヤマモト(Yamato)、オオ
ヤ(Ohya)、イシイ(Ishii)による1992年3月のIE
EE会議紀要、IEEEカタログ番号92CH3168
−2、”隠れマルコフ連鎖法を使用した時系列画像にお
ける人の動作の認識”(Recongnizing Human Action in
Time Sequence Images Using Hidden Markov Model)に
報告されているように、手振り認識システムは、ある動
作の静的画像を捕え、隠れマルコフ連鎖法を使用して、
得られたビデオ入力が起こり得る手振りのセットのどれ
に対応するかを推論すると記されている。
ーマンインタフェース研究所のヤマモト(Yamato)、オオ
ヤ(Ohya)、イシイ(Ishii)による1992年3月のIE
EE会議紀要、IEEEカタログ番号92CH3168
−2、”隠れマルコフ連鎖法を使用した時系列画像にお
ける人の動作の認識”(Recongnizing Human Action in
Time Sequence Images Using Hidden Markov Model)に
報告されているように、手振り認識システムは、ある動
作の静的画像を捕え、隠れマルコフ連鎖法を使用して、
得られたビデオ入力が起こり得る手振りのセットのどれ
に対応するかを推論すると記されている。
【0006】本来、音声認識用に開発されたこのような
手法は、計算量が大きくなる可能性がある。身振り認識
に対するこの手法のさらなる問題点は、動作を推論によ
ってのみ計測していることである。これは、種々の画像
間の移動(動き)は決して表現または計算されていないと
いう事実に基づく。
手法は、計算量が大きくなる可能性がある。身振り認識
に対するこの手法のさらなる問題点は、動作を推論によ
ってのみ計測していることである。これは、種々の画像
間の移動(動き)は決して表現または計算されていないと
いう事実に基づく。
【0007】イシイ(Ishii)、モチズキ(Mochizuki)、キ
シノ(Kishino)によるイマジナ '93会議で発表され
た、論文”ステレオ画像からのモデルベースの認識によ
る人の動画合成”(A Human Motion Image Synthesizing
By Model-Based RecognitionFrom Stereo Images)で示
されているように、ビジョンベースの手振り認識に対す
る他の手法として、ステレオカメラ法を使用している。
ここでは、人物像のモデルが使用され、関節の間の角
度、従って腕や手の向きを推測するために、そのモデル
をステレオレンジデータに当てはめている。
シノ(Kishino)によるイマジナ '93会議で発表され
た、論文”ステレオ画像からのモデルベースの認識によ
る人の動画合成”(A Human Motion Image Synthesizing
By Model-Based RecognitionFrom Stereo Images)で示
されているように、ビジョンベースの手振り認識に対す
る他の手法として、ステレオカメラ法を使用している。
ここでは、人物像のモデルが使用され、関節の間の角
度、従って腕や手の向きを推測するために、そのモデル
をステレオレンジデータに当てはめている。
【0008】このようなシステムにおける最も重要な問
題は、システムを一つの人物像以外に適用しようとする
と、新規のモデルを導入する必要があるという意味にお
いてこのシステムは、モデルベースであるということで
ある。このシステムは、認識処理において高レベルモデ
ルに依存しているので、”低レベル”システムではな
い。
題は、システムを一つの人物像以外に適用しようとする
と、新規のモデルを導入する必要があるという意味にお
いてこのシステムは、モデルベースであるということで
ある。このシステムは、認識処理において高レベルモデ
ルに依存しているので、”低レベル”システムではな
い。
【0009】さらに、トレバ・ジェイ・ダレル(Trevor
J. Darrell)およびアレックス・ピー・ペントランド(Al
ex P. Pentland)による”分散表現を使用した空間時間
の身振りの認識”(Recognition of Space Time Gesture
s Using a Distributed Representation)と題するMI
Tメディア研究所、ビジョンおよびモデリンググループ
技術レポートNo.197で説明されているように、身
振りは、一連の画像に似た、一連のテンプレートから検
出される。身振りは、このシステムでは、静的な手の位
置のシーケンスにより確認され、この場合、特定の手の
位置は、テンプレートを取りだし、最も合致するものを
見いだすように全体の画像に対して畳み込むことにより
決定される。これは、高レベルモデルが使用されていな
いので、”低レベル”手法であるが、ダレル/ペントラ
ンド(Darrell/Pentland)による方法は、大きいマスクに
対する畳み込みの必要性故に既に述べたヤマモト−オオ
ヤ−イシイ(Yamamoto-Ohya-Ishii)のシステムより更に
多量の計算を必要とする。また、強度に基づくので、こ
のシステムは、照明の変化に対して許容性が低く、以上
述べた他のシステムと同様に、動作を直接測定せずに、
静的な姿勢のシーケンスを解析する。
J. Darrell)およびアレックス・ピー・ペントランド(Al
ex P. Pentland)による”分散表現を使用した空間時間
の身振りの認識”(Recognition of Space Time Gesture
s Using a Distributed Representation)と題するMI
Tメディア研究所、ビジョンおよびモデリンググループ
技術レポートNo.197で説明されているように、身
振りは、一連の画像に似た、一連のテンプレートから検
出される。身振りは、このシステムでは、静的な手の位
置のシーケンスにより確認され、この場合、特定の手の
位置は、テンプレートを取りだし、最も合致するものを
見いだすように全体の画像に対して畳み込むことにより
決定される。これは、高レベルモデルが使用されていな
いので、”低レベル”手法であるが、ダレル/ペントラ
ンド(Darrell/Pentland)による方法は、大きいマスクに
対する畳み込みの必要性故に既に述べたヤマモト−オオ
ヤ−イシイ(Yamamoto-Ohya-Ishii)のシステムより更に
多量の計算を必要とする。また、強度に基づくので、こ
のシステムは、照明の変化に対して許容性が低く、以上
述べた他のシステムと同様に、動作を直接測定せずに、
静的な姿勢のシーケンスを解析する。
【0010】さらなる背景技術としては、いわゆる、”
オリエンテーションヒストグラム”が、テクスチャ解析
のために使用されてきた。このシステムは、MITメデ
ィア研究所、知覚計算グループ研究レポートNo.22
2、1993年5月においてMITメディア研究所のモ
ジガン・モニカ・ゴルカニ(Mojgan Monika Gorkani)
により説明されている。この論文において、オリエンテ
ーションヒストグラムは、オリエンテーションヒストグ
ラムにおける局所ピークを見ることによって”きめ(tex
tures)”を解析する目的で開発された。しかし、ヒスト
グラムのピークのみを検出することは、静的または動的
な身振りを解析するのに有効な関連情報を廃棄するか、
破壊してしまう。
オリエンテーションヒストグラム”が、テクスチャ解析
のために使用されてきた。このシステムは、MITメデ
ィア研究所、知覚計算グループ研究レポートNo.22
2、1993年5月においてMITメディア研究所のモ
ジガン・モニカ・ゴルカニ(Mojgan Monika Gorkani)
により説明されている。この論文において、オリエンテ
ーションヒストグラムは、オリエンテーションヒストグ
ラムにおける局所ピークを見ることによって”きめ(tex
tures)”を解析する目的で開発された。しかし、ヒスト
グラムのピークのみを検出することは、静的または動的
な身振りを解析するのに有効な関連情報を廃棄するか、
破壊してしまう。
【0011】身振り認識の応用分野として、最近、いわ
ゆるテレビ会議が関心を集めている。テレビ会議では、
フレーム映像全体を送信するというよりは、種々のシナ
リオがテレビ会議場で描写される。テレビ会議の参加者
に実際に示されるものは、例えば、手によるジェスチャ
あるいは頭のジェスチャ、さらにはこの組み合わせのい
ずれかによって決まる。そのようなシステムは、マシン
インテリジェンスのパターン解析に関するIEEE論文
集、第15巻、No.6、1993年6月に含まれる、
エイ・アザルバイェジャーニ(A. Azarbayejani)、ティ
ー・スタナー(T.Starner)、ビー・ホロウィッツ(B. Hor
owitz)、およびエイ・ペントランド(A.Pentland)によ
る”視覚制御されたグラフィックス”(Visually Contro
lled Graphics)と題する論文で説明されている。このシ
ステムは、コーナーポイントは、注目する特徴として検
出され、コーナーポイントを、頭の位置を決定するため
に空間および時間で追尾する。このシステムは、人の手
のように関節を有する対象物によく適応するとは限らな
い。
ゆるテレビ会議が関心を集めている。テレビ会議では、
フレーム映像全体を送信するというよりは、種々のシナ
リオがテレビ会議場で描写される。テレビ会議の参加者
に実際に示されるものは、例えば、手によるジェスチャ
あるいは頭のジェスチャ、さらにはこの組み合わせのい
ずれかによって決まる。そのようなシステムは、マシン
インテリジェンスのパターン解析に関するIEEE論文
集、第15巻、No.6、1993年6月に含まれる、
エイ・アザルバイェジャーニ(A. Azarbayejani)、ティ
ー・スタナー(T.Starner)、ビー・ホロウィッツ(B. Hor
owitz)、およびエイ・ペントランド(A.Pentland)によ
る”視覚制御されたグラフィックス”(Visually Contro
lled Graphics)と題する論文で説明されている。このシ
ステムは、コーナーポイントは、注目する特徴として検
出され、コーナーポイントを、頭の位置を決定するため
に空間および時間で追尾する。このシステムは、人の手
のように関節を有する対象物によく適応するとは限らな
い。
【0012】
【発明が解決しようとする課題】以上のように、手によ
る制御の殆どのヒューマンコンピュータインタフェース
装置には、厳しい制約がある。マウス、ペンおよびトラ
ックボールは、二次元情報のみを与える。ジョイステッ
クは、2つの角度について情報を与えるに過ぎない。こ
れら全ては、手で握る物理的なハードウェアを必要と
し、これらを移動したり、摘み揚げたり、握ったりする
ことはやっかいである。
る制御の殆どのヒューマンコンピュータインタフェース
装置には、厳しい制約がある。マウス、ペンおよびトラ
ックボールは、二次元情報のみを与える。ジョイステッ
クは、2つの角度について情報を与えるに過ぎない。こ
れら全ては、手で握る物理的なハードウェアを必要と
し、これらを移動したり、摘み揚げたり、握ったりする
ことはやっかいである。
【0013】物理的なハードウェアから逃れる努力の一
環として、手振りの認識のためのモデルベースのビジュ
アル方法が開発されたが、手をビジュアルデータに合致
させる幾つもの方法があり、低速度となる傾向がある。
さらに、モデルベースの方法は、新規のモデルの作成を
必要とし、システムを手ではない入力に拡張するために
は、全体のアルゴリズムを再設計すること必要とするこ
ともありうる。
環として、手振りの認識のためのモデルベースのビジュ
アル方法が開発されたが、手をビジュアルデータに合致
させる幾つもの方法があり、低速度となる傾向がある。
さらに、モデルベースの方法は、新規のモデルの作成を
必要とし、システムを手ではない入力に拡張するために
は、全体のアルゴリズムを再設計すること必要とするこ
ともありうる。
【0014】身振りとして、人が知覚するものは、単
に、手のような特定の対象物の静的なスナップショット
のような姿勢の一連のものというだけでなく、知覚され
るのは、これらの静的姿勢の間の手の運動である。身振
りを測定しようとするシステムは、運動を通じて移動す
る対象物の静的なスナップショットを考慮する一方、運
動自身を記述または認識しなければならない。上述のシ
ステムのいずれも運動を測定しないので、これらは、必
要とされる身振り認識型のものにはなり得ない。従来の
装置には、以上のような問題点があった。
に、手のような特定の対象物の静的なスナップショット
のような姿勢の一連のものというだけでなく、知覚され
るのは、これらの静的姿勢の間の手の運動である。身振
りを測定しようとするシステムは、運動を通じて移動す
る対象物の静的なスナップショットを考慮する一方、運
動自身を記述または認識しなければならない。上述のシ
ステムのいずれも運動を測定しないので、これらは、必
要とされる身振り認識型のものにはなり得ない。従来の
装置には、以上のような問題点があった。
【0015】
【課題を解決するための手段】この発明は、身振りを認
識する装置であって、予め設定した身振りに対応するト
レーニングヒストグラムを提供する手段と、身振りを実
行している対象物のビデオ画像を生成する手段と、上記
ビデオ画像に対応する身振りを実行している対象物のヒ
ストグラムを生成する手段と、上記ヒストグラムを比較
する手段と、上記ヒストグラム間で一致を示すための手
段と、を含み、上記身振りを認識することを特徴とする
身振り認識装置にある。
識する装置であって、予め設定した身振りに対応するト
レーニングヒストグラムを提供する手段と、身振りを実
行している対象物のビデオ画像を生成する手段と、上記
ビデオ画像に対応する身振りを実行している対象物のヒ
ストグラムを生成する手段と、上記ヒストグラムを比較
する手段と、上記ヒストグラム間で一致を示すための手
段と、を含み、上記身振りを認識することを特徴とする
身振り認識装置にある。
【0016】この発明はまた、上記身振が、静的な身振
りであり、上記ヒストグラムは、上記身振りの空間オリ
エンテーション角度に対する発生の頻度に関するもので
あることを特徴とする請求項1の身振り認識装置を含
む。
りであり、上記ヒストグラムは、上記身振りの空間オリ
エンテーション角度に対する発生の頻度に関するもので
あることを特徴とする請求項1の身振り認識装置を含
む。
【0017】さらに、上記身振が、動的な身振りであ
り、上記ヒストグラムは、上記ジェスチャの空間時間オ
リエンテーションに対する発生の頻度に関するものであ
ることを特徴とする請求項1の身振り認識装置を含む。
り、上記ヒストグラムは、上記ジェスチャの空間時間オ
リエンテーションに対する発生の頻度に関するものであ
ることを特徴とする請求項1の身振り認識装置を含む。
【0018】さらに、上記ヒストグラム生成手段が、上
記身振りの三次元空間時間オリエンテーションマップを
生成する手段と、この三次元空間時間オリエンテーショ
ンマップを二次元ヒストグラムへ変換する手段とを含む
ことを特徴とする請求項3の身振り認識装置を含む。
記身振りの三次元空間時間オリエンテーションマップを
生成する手段と、この三次元空間時間オリエンテーショ
ンマップを二次元ヒストグラムへ変換する手段とを含む
ことを特徴とする請求項3の身振り認識装置を含む。
【0019】さらにまた、上記ヒストグラム生成手段
が、二つの直交する方向について、上記身振りのビデオ
画像の強度の導関数を得るための手段を含むことを特徴
とする請求項1の身振り認識装置を含む。
が、二つの直交する方向について、上記身振りのビデオ
画像の強度の導関数を得るための手段を含むことを特徴
とする請求項1の身振り認識装置を含む。
【0020】さらにまた、上記ヒストグラム生成手段
が、更に、時間について、上記ビデオ画像の強度の導関
数を得るための手段を含むことを特徴とする請求項5の
身振り認識装置を含む。
が、更に、時間について、上記ビデオ画像の強度の導関
数を得るための手段を含むことを特徴とする請求項5の
身振り認識装置を含む。
【0021】また、上記ビデオ画像の主角度を得るため
に、上記導関数の逆正接を得るための手段を更に含むこ
とを特徴とする請求項5の身振り認識装置を含む。
に、上記導関数の逆正接を得るための手段を更に含むこ
とを特徴とする請求項5の身振り認識装置を含む。
【0022】またさらに、勾配強度測定値を得るために
上記導関数の二乗の和を得るための手段と、予め設定さ
れたスレシホールドに満たないヒストグラム勾配強度の
発生を拒絶するための手段とをさらに含むことを特徴と
する請求項5の身振り認識装置を含む。
上記導関数の二乗の和を得るための手段と、予め設定さ
れたスレシホールドに満たないヒストグラム勾配強度の
発生を拒絶するための手段とをさらに含むことを特徴と
する請求項5の身振り認識装置を含む。
【0023】またさらに、平滑化されたヒストグラムシ
グニチャを得るために、上記ヒストグラムをぼかすため
の手段を更に含むことを特徴とする請求項1の身振り認
識装置を含む。
グニチャを得るために、上記ヒストグラムをぼかすため
の手段を更に含むことを特徴とする請求項1の身振り認
識装置を含む。
【0024】そしてまた、上記ヒストグラムに局所ゲイ
ンコントロールを適用するための手段を更に含むことを
特徴とする請求項1の身振り認識装置を含む。
ンコントロールを適用するための手段を更に含むことを
特徴とする請求項1の身振り認識装置を含む。
【0025】
【作用】身振りを認識するために、この発明の身振り認
識システムでは、仕事が、静的および動的の2つの成分
に分解される。まず、静的成分を分析するためには、こ
の発明のシステムは、画像の局所空間オリエンテーショ
ンに基づくビジュアル画像を解析する。例えば、静的な
手の位置を認識するためには、画像上の空間オリエンテ
ーションの分布が検出され、空間オリエンテーションマ
ップが作成される。空間オリエンテーションマップか
ら、特定の手の位置を特徴付ける特性”シグニチャベク
トル(signature vector)”が導出される。一実施例で
は、シグニチャベクトルは、頻度の一次元ヒストグラム
であり、その頻度でもって各特定のオリエンテーション
がオリエンテーションまたは角度に対してグラフ化され
た画像において発生する。これは、身振りを行う対象物
のモデルが必要とされないので低レベル手法である。
識システムでは、仕事が、静的および動的の2つの成分
に分解される。まず、静的成分を分析するためには、こ
の発明のシステムは、画像の局所空間オリエンテーショ
ンに基づくビジュアル画像を解析する。例えば、静的な
手の位置を認識するためには、画像上の空間オリエンテ
ーションの分布が検出され、空間オリエンテーションマ
ップが作成される。空間オリエンテーションマップか
ら、特定の手の位置を特徴付ける特性”シグニチャベク
トル(signature vector)”が導出される。一実施例で
は、シグニチャベクトルは、頻度の一次元ヒストグラム
であり、その頻度でもって各特定のオリエンテーション
がオリエンテーションまたは角度に対してグラフ化され
た画像において発生する。これは、身振りを行う対象物
のモデルが必要とされないので低レベル手法である。
【0026】この一次元ヒストグラムは、時間に対して
対立する空間に対するヒストグラムであるということ
は、静的画像解析に対して意味を持つ。このことは、検
出されるものは、空間の特定の位置に於て発生する、対
象物のオリエンテーションのセットであることを意味す
る。より具体的には、静的ヒストグラムは、オリエンテ
ーション即ち角度に対する頻度のグラフであり、このヒ
ストグラムが、静的な身振りの認識のシグニチャを形成
する。一実施例では、このシグニチャは、シグニチャ突
き合わせの目的で平滑化されたシグニチャを提供するた
めに、低域フィルタによる畳み込みにより、意図的にぼ
かされる。
対立する空間に対するヒストグラムであるということ
は、静的画像解析に対して意味を持つ。このことは、検
出されるものは、空間の特定の位置に於て発生する、対
象物のオリエンテーションのセットであることを意味す
る。より具体的には、静的ヒストグラムは、オリエンテ
ーション即ち角度に対する頻度のグラフであり、このヒ
ストグラムが、静的な身振りの認識のシグニチャを形成
する。一実施例では、このシグニチャは、シグニチャ突
き合わせの目的で平滑化されたシグニチャを提供するた
めに、低域フィルタによる畳み込みにより、意図的にぼ
かされる。
【0027】この低レベル画像シグニチャを導出する
と、実際のビデオカメラ出力から導出されたシグニチャ
とシグニチャの記憶されたセットとを比較する。最近似
または曲線あてはめ手法が、手の姿勢または静的な手振
りを求めるために、どの記憶シグニチャが、入力ビデオ
信号のシグニチャに対する最近似を有するかを決定する
の使用される。そうしても、静的な身振りの認識のみで
は、身振り認識には不十分である。
と、実際のビデオカメラ出力から導出されたシグニチャ
とシグニチャの記憶されたセットとを比較する。最近似
または曲線あてはめ手法が、手の姿勢または静的な手振
りを求めるために、どの記憶シグニチャが、入力ビデオ
信号のシグニチャに対する最近似を有するかを決定する
の使用される。そうしても、静的な身振りの認識のみで
は、身振り認識には不十分である。
【0028】身振りが、単に固定オリエンテーションで
ない場合は、運動が検出される。この運動は、まず、三
次元空間時間オリエンテーションマップを導出すること
によって、この発明のシステムでは、直接に測定され
る。このマップは、空間および時間の関数としての空時
オリエンテーションの三次元プロットである。定義する
と、これは、局所空時画像強度勾配(local spatio-temp
oral image intensity gradient)の方向に向いた単位ベ
クトルの三次元空時に於けるプロットである。この空時
画像強度勾配は、水平、垂直および時間位置の関数とし
ての画像強度を微分することによって得られる。
ない場合は、運動が検出される。この運動は、まず、三
次元空間時間オリエンテーションマップを導出すること
によって、この発明のシステムでは、直接に測定され
る。このマップは、空間および時間の関数としての空時
オリエンテーションの三次元プロットである。定義する
と、これは、局所空時画像強度勾配(local spatio-temp
oral image intensity gradient)の方向に向いた単位ベ
クトルの三次元空時に於けるプロットである。この空時
画像強度勾配は、水平、垂直および時間位置の関数とし
ての画像強度を微分することによって得られる。
【0029】動的な身振りの突き合わせのための二次元
ヒストグラムまたはテンプレートに変換されるのはこの
三次元マップである。
ヒストグラムまたはテンプレートに変換されるのはこの
三次元マップである。
【0030】後述のように、二次元テンプレートは、オ
リエンテーションと移動を身振りを特徴付けるために結
合する。例えば、親指の手振りの二次元空間時間オリエ
ンテーションヒストグラムまたはテンプレートは、まゆ
毛のようなカーブであり、0°で静止している親指は、
ゼロ移動でまゆの開始を表す。親指が右に動くに従い、
まゆのカーブは、上昇し右への移動を表す。まゆのカー
ブが下降するにつれ、親指は、90°で停止する。この
二次元テンプレートシグニチャは、通常の親指の運動を
こうして固有に定義する。
リエンテーションと移動を身振りを特徴付けるために結
合する。例えば、親指の手振りの二次元空間時間オリエ
ンテーションヒストグラムまたはテンプレートは、まゆ
毛のようなカーブであり、0°で静止している親指は、
ゼロ移動でまゆの開始を表す。親指が右に動くに従い、
まゆのカーブは、上昇し右への移動を表す。まゆのカー
ブが下降するにつれ、親指は、90°で停止する。この
二次元テンプレートシグニチャは、通常の親指の運動を
こうして固有に定義する。
【0031】このテンプレートは、他の動的な身振りが
突き合わされる動的身振りの基準となる。こうしてオリ
エンテーションと移動は、一つのテンプレートに於て説
明される。三次元空間時間オリエンテーションマップを
二次元空間時間オリエンテーションヒストグラムに変換
することを必要とするこの技術は、静的画像で記述され
た静的低レベルシステムより若干計算量は多いが、身振
りの固有基準を提供するための、よく知られた画像処理
技術により容易に実現される。
突き合わされる動的身振りの基準となる。こうしてオリ
エンテーションと移動は、一つのテンプレートに於て説
明される。三次元空間時間オリエンテーションマップを
二次元空間時間オリエンテーションヒストグラムに変換
することを必要とするこの技術は、静的画像で記述され
た静的低レベルシステムより若干計算量は多いが、身振
りの固有基準を提供するための、よく知られた画像処理
技術により容易に実現される。
【0032】この発明の身振り認識装置は、新規の静的
ヒストグラム技術を使用して実現可能であるが、二次元
空間時間オリエンテーションヒストグラムを使用して直
接に運動を計測することにより改良されることは注目す
る必要がある。
ヒストグラム技術を使用して実現可能であるが、二次元
空間時間オリエンテーションヒストグラムを使用して直
接に運動を計測することにより改良されることは注目す
る必要がある。
【0033】更に、何人かのユーザについて特定の身振
りの二次元空間時間オリエンテーションヒストグラムを
平均化し、実質的にユーザから独立した空間時間オリエ
ンテーションヒストグラム基準を得ることが可能である
ということは注目される。
りの二次元空間時間オリエンテーションヒストグラムを
平均化し、実質的にユーザから独立した空間時間オリエ
ンテーションヒストグラム基準を得ることが可能である
ということは注目される。
【0034】静的オリエンテーションを導出するための
一実施例では、空間フィルタリングが、ビデオ入力信号
のxについての導関数とyについての導関数とを提供
し、これらの対の逆正接が空間オリエンテーションを得
るために計算される。この出力は必要に応じて、2で掛
け算し、ゼロと360°へ循環連続(wrap)させる。ここ
で、角度の測定値をコントラストとは独立したオリエン
テーション測定値のサインに変換するために、掛け算と
循環接続とを実行することは任意である。しかし、コン
トラストに依存したオリエンテーション測定値のサイン
で、十分な場合もある。逆正接の操作は、対象物の角度
を与え、コントラスト強度は、xの微分およびyの微分
を実行し、これらの二乗を加算することによって得られ
る。コントラスト強度をスレシホールドとして使用し、
あるスレシホールドに満たない強度を有す角度即ちオリ
エンテーションは、無視するようにすることも可能であ
る。これは、対象物を取り囲む領域での低コントラスト
雑音を取り消すのに有効である。
一実施例では、空間フィルタリングが、ビデオ入力信号
のxについての導関数とyについての導関数とを提供
し、これらの対の逆正接が空間オリエンテーションを得
るために計算される。この出力は必要に応じて、2で掛
け算し、ゼロと360°へ循環連続(wrap)させる。ここ
で、角度の測定値をコントラストとは独立したオリエン
テーション測定値のサインに変換するために、掛け算と
循環接続とを実行することは任意である。しかし、コン
トラストに依存したオリエンテーション測定値のサイン
で、十分な場合もある。逆正接の操作は、対象物の角度
を与え、コントラスト強度は、xの微分およびyの微分
を実行し、これらの二乗を加算することによって得られ
る。コントラスト強度をスレシホールドとして使用し、
あるスレシホールドに満たない強度を有す角度即ちオリ
エンテーションは、無視するようにすることも可能であ
る。これは、対象物を取り囲む領域での低コントラスト
雑音を取り消すのに有効である。
【0035】発生の頻度対オリエンテーションとして静
的ヒストグラムを導出すると、既に述べたぼかし技法を
使用することにより、若干のずれのある角度の認識を可
能とする。この技法により、非常に近接した角度が、明
白に異なった角度に対比し、一つの角度として検出され
るような処理が可能となる。
的ヒストグラムを導出すると、既に述べたぼかし技法を
使用することにより、若干のずれのある角度の認識を可
能とする。この技法により、非常に近接した角度が、明
白に異なった角度に対比し、一つの角度として検出され
るような処理が可能となる。
【0036】動的な身振りについては、画像は、まず、
シーケンスとしてデジタル化され、低域空間フィルタ処
理され、x、yおよびzについて微分される。これら導
関数のセットは、空時オリエンテーションを計算するの
に使用され、またこれら導関数は、コントラスト強度を
計算するのに、即ち空間時間オリエンテーションマップ
を計算するのに使用される。三次元空間時間オリエンテ
ーションマップは、空間時間オリエンテーションヒスト
グラムで表現される各可能な空時オリエンテーションに
ついて、空間時間オリエンテーションマップに於けるそ
のオリエンテーションの発生回数を記録することによっ
て、二次元空間時間オリエンテーションヒストグラムに
変換される。
シーケンスとしてデジタル化され、低域空間フィルタ処
理され、x、yおよびzについて微分される。これら導
関数のセットは、空時オリエンテーションを計算するの
に使用され、またこれら導関数は、コントラスト強度を
計算するのに、即ち空間時間オリエンテーションマップ
を計算するのに使用される。三次元空間時間オリエンテ
ーションマップは、空間時間オリエンテーションヒスト
グラムで表現される各可能な空時オリエンテーションに
ついて、空間時間オリエンテーションマップに於けるそ
のオリエンテーションの発生回数を記録することによっ
て、二次元空間時間オリエンテーションヒストグラムに
変換される。
【0037】このヒストグラムは、既に述べた理由によ
りぼかしてもよい。ぼかした後の出力は、局所ゲインコ
ントロールにかけられ、画像の小さい領域が、大きい領
域により圧倒されないようにする。これにより、身振り
の識別に有効な小さいが特徴的な運動の認識を可能とし
ている。局所ゲインコントロールの後の出力は、動的な
身振りのシグニチャとなる。
りぼかしてもよい。ぼかした後の出力は、局所ゲインコ
ントロールにかけられ、画像の小さい領域が、大きい領
域により圧倒されないようにする。これにより、身振り
の識別に有効な小さいが特徴的な運動の認識を可能とし
ている。局所ゲインコントロールの後の出力は、動的な
身振りのシグニチャとなる。
【0038】このようにして、この発明によるコンピュ
ータ制御のための動的および静的な身振りの認識システ
ムは、静的画像のための空間オリエンテーションヒスト
グラムかまたは動的な身振りの認識のための空間時間オ
リエンテーションヒストグラムを使用する。代表的な例
では、オリエンテーションシグニチャは、多数の異なっ
た手の位置に対するトレーニングシーケンスに於て導出
される。その後、実行時のアルゴリズムは、デジタル化
された映像としての手の画像を検出し、検出された手の
姿勢および形状に対応して要求されらたコンピュータ動
作を命令する。静的および動的アクションの両方が認識
されると、システムは、例えば、”回る”、”右へ行
く”、あるいは”こんにちは”といった動作を示す通常
の人の手の動作を検出することが可能となる。静的な身
振りは、特定のオリエンテーションに手を置くことを含
み、コンピュータがそのオリエンテーションを記述する
角度を確かめる。
ータ制御のための動的および静的な身振りの認識システ
ムは、静的画像のための空間オリエンテーションヒスト
グラムかまたは動的な身振りの認識のための空間時間オ
リエンテーションヒストグラムを使用する。代表的な例
では、オリエンテーションシグニチャは、多数の異なっ
た手の位置に対するトレーニングシーケンスに於て導出
される。その後、実行時のアルゴリズムは、デジタル化
された映像としての手の画像を検出し、検出された手の
姿勢および形状に対応して要求されらたコンピュータ動
作を命令する。静的および動的アクションの両方が認識
されると、システムは、例えば、”回る”、”右へ行
く”、あるいは”こんにちは”といった動作を示す通常
の人の手の動作を検出することが可能となる。静的な身
振りは、特定のオリエンテーションに手を置くことを含
み、コンピュータがそのオリエンテーションを記述する
角度を確かめる。
【0039】システムは、また、他の視覚入力を認識す
るか、分類することが可能であり、これは、例えば、映
像中の歩いている人を検出するすることを含む。より一
般的な低レベル知覚解析に対する応用には、監視とか、
あるいは、またデータベースを予め設定された種類の動
画や静止画について問い合わせる、マルチメディアデー
タベースに対する内容依存アクセスが含まれる。
るか、分類することが可能であり、これは、例えば、映
像中の歩いている人を検出するすることを含む。より一
般的な低レベル知覚解析に対する応用には、監視とか、
あるいは、またデータベースを予め設定された種類の動
画や静止画について問い合わせる、マルチメディアデー
タベースに対する内容依存アクセスが含まれる。
【0040】
【実施例】図1を参照すると、画像表示装置12で表示
されているアイコン10の制御に関して、そのアイコン
の位置がハードウェアを操作した入力によらず、身振り
の認識により決定されているということが重要である。
ビデオカメラ14が人18の手16を走査し、手振りの
認識に基づいて、アイコンの動作、より一般的には、コ
ンピュータの動作を決定する。
されているアイコン10の制御に関して、そのアイコン
の位置がハードウェアを操作した入力によらず、身振り
の認識により決定されているということが重要である。
ビデオカメラ14が人18の手16を走査し、手振りの
認識に基づいて、アイコンの動作、より一般的には、コ
ンピュータの動作を決定する。
【0041】図で示されているように、飛行機の航路を
模擬するために、手が点線20で示される軌跡に沿って
動かされる。アイコン10は、手に対する走査に基づい
て制御され、処理のための手のデジタル画像を提供す
る。動的身振りの認識のため、処理は、後述のように、
低レベルシステムとして使用され種々の動的な手振りを
検出するための二次元テンプレートを作成するアルゴリ
ズムを含む。
模擬するために、手が点線20で示される軌跡に沿って
動かされる。アイコン10は、手に対する走査に基づい
て制御され、処理のための手のデジタル画像を提供す
る。動的身振りの認識のため、処理は、後述のように、
低レベルシステムとして使用され種々の動的な手振りを
検出するための二次元テンプレートを作成するアルゴリ
ズムを含む。
【0042】動的な身振りの認識システムの一部である
静的な手振りの認識の説明の前に、図2において、(a)
の親指30aで示される親指による手振りが、親指が垂
線となす角度について特徴付けられることが理解できよ
う。ここで示されているように、親指による手振りは最
初、親指は、垂直0°の位置である。その後、(b)の3
0bで示されているように、親指は、20°まで移動
し、親指は、更に、(c)の30cで示されるように、4
5°まで移動し、更に、(d)の30dで示される90°
で停止する。親指の先は、実際に、右に動いていること
が理解できよう。勿論、通常の親指の動作では、親指は
もとより腕も右側に移動する。
静的な手振りの認識の説明の前に、図2において、(a)
の親指30aで示される親指による手振りが、親指が垂
線となす角度について特徴付けられることが理解できよ
う。ここで示されているように、親指による手振りは最
初、親指は、垂直0°の位置である。その後、(b)の3
0bで示されているように、親指は、20°まで移動
し、親指は、更に、(c)の30cで示されるように、4
5°まで移動し、更に、(d)の30dで示される90°
で停止する。親指の先は、実際に、右に動いていること
が理解できよう。勿論、通常の親指の動作では、親指は
もとより腕も右側に移動する。
【0043】例えば、賛成を意味する親指を上に向けた
静的な手振り、或は、反対を意味する親指を下に向けた
静的な手振りではなく、この発明のシステムでは、この
例のように、垂直位置から水平位置へ親指が移動した
り、また、一つの位置から別の位置へ動いていくような
動きのある身振りを認識することが可能である。
静的な手振り、或は、反対を意味する親指を下に向けた
静的な手振りではなく、この発明のシステムでは、この
例のように、垂直位置から水平位置へ親指が移動した
り、また、一つの位置から別の位置へ動いていくような
動きのある身振りを認識することが可能である。
【0044】この発明のシステムでは、これは、図3で
示されるように三次元マップを発生するシステムにより
収集され、ここでは、このシステムは、基本的には、図
示のような時間軸42上の40a、40b等といった種
々の時間位置においてデジタル画像40を収集してい
る。図示のように、単位ベクトル44〜44dは、親指
の先に起点を有し、時間と共に親指の向く主方向を向
く。こうして、親指の動的な手振りの認識について、ベ
クトル44のオリエンテーションは、右に回転し、これ
は、親指の動作の間、親指の主方向を追尾するのに適し
ている。
示されるように三次元マップを発生するシステムにより
収集され、ここでは、このシステムは、基本的には、図
示のような時間軸42上の40a、40b等といった種
々の時間位置においてデジタル画像40を収集してい
る。図示のように、単位ベクトル44〜44dは、親指
の先に起点を有し、時間と共に親指の向く主方向を向
く。こうして、親指の動的な手振りの認識について、ベ
クトル44のオリエンテーションは、右に回転し、これ
は、親指の動作の間、親指の主方向を追尾するのに適し
ている。
【0045】以下に述べる手法に三次元マップを一旦導
出すると、図4に示されるように二次元テンプレート
(標本)またはヒストグラムに三次元マップを変換または
融合させることが必要になる。後述のように、これは、
既に述べたアルゴリズムにより都合良く実行される。こ
の発明の目的のために、二次元テンプレートが、移動に
対する空間でのオリエンテーションをグラフ化すること
が分かる。左および右への移動が描写されるが、グラフ
化された移動は、より正確に空間勾配に沿うか、または
空間勾配に対向する。46は垂直0°の軸であり、48
は水平0°の軸である。
出すると、図4に示されるように二次元テンプレート
(標本)またはヒストグラムに三次元マップを変換または
融合させることが必要になる。後述のように、これは、
既に述べたアルゴリズムにより都合良く実行される。こ
の発明の目的のために、二次元テンプレートが、移動に
対する空間でのオリエンテーションをグラフ化すること
が分かる。左および右への移動が描写されるが、グラフ
化された移動は、より正確に空間勾配に沿うか、または
空間勾配に対向する。46は垂直0°の軸であり、48
は水平0°の軸である。
【0046】親指の手振りを解析すると、親指は、初期
は0°であり、全く移動しない。点49で示されるグラ
フの起点がこれである。親指が0°から90°まで回転
すると、発生位置は、水平に沿って移動する。ここで、
移動は、水平線48上の角度オリエンテーションの発生
位置に於ける垂直上昇により示される。二次元テンプレ
ートの生成は、全ての後続の移動が、一般的な曲線マッ
チング手法を使用して、それに対して突き合わせがなさ
れるものである。
は0°であり、全く移動しない。点49で示されるグラ
フの起点がこれである。親指が0°から90°まで回転
すると、発生位置は、水平に沿って移動する。ここで、
移動は、水平線48上の角度オリエンテーションの発生
位置に於ける垂直上昇により示される。二次元テンプレ
ートの生成は、全ての後続の移動が、一般的な曲線マッ
チング手法を使用して、それに対して突き合わせがなさ
れるものである。
【0047】図5ないし図7を参照すると、静的な身振
りのヒストグラムの決定は、以下のようになる。まず、
手のデジタル画像50が提供される。画像は、低域フィ
ルタ52で低域フィルタ処理され、サブサンプリングユ
ニット54でサブサンプリングされ、図6のようにサブ
サンプリング画像56が得られる。サブサンプリングさ
れた画像は、図6のx導関数発生ユニット58、y導関
数発生ユニット60でそれぞれx導関数およびy導関数
を得るのに使用される。これら2つの導関数から、既に
述べた勾配空間強度(gradient spatial intensity)が導
き出される。逆正接処理ユニット62で逆正接処理がな
され、検出された特定の角度67が導出される。必要に
応じて角度測定値をコントラストから独立したオリエン
テーション測定値へ変換するために、その結果は、×2
ユニット64で2による掛け算処理がされ、ラップユニ
ット66で示されるように0°または360°へラップ
(wrap)される。この処理の結果は、主方向の検出結果と
なり、これは、ヒストグラム発生ユニット68へ送ら
れ、このユニット68は、所定の画像強度スレシホール
ド72より高いデータ点の全てについての角度オリエン
テーションの関数としての角度の発生頻度のヒストグラ
ムを提供する(図7参照)。また、勾配強度は、以下のよ
うにして導出される。
りのヒストグラムの決定は、以下のようになる。まず、
手のデジタル画像50が提供される。画像は、低域フィ
ルタ52で低域フィルタ処理され、サブサンプリングユ
ニット54でサブサンプリングされ、図6のようにサブ
サンプリング画像56が得られる。サブサンプリングさ
れた画像は、図6のx導関数発生ユニット58、y導関
数発生ユニット60でそれぞれx導関数およびy導関数
を得るのに使用される。これら2つの導関数から、既に
述べた勾配空間強度(gradient spatial intensity)が導
き出される。逆正接処理ユニット62で逆正接処理がな
され、検出された特定の角度67が導出される。必要に
応じて角度測定値をコントラストから独立したオリエン
テーション測定値へ変換するために、その結果は、×2
ユニット64で2による掛け算処理がされ、ラップユニ
ット66で示されるように0°または360°へラップ
(wrap)される。この処理の結果は、主方向の検出結果と
なり、これは、ヒストグラム発生ユニット68へ送ら
れ、このユニット68は、所定の画像強度スレシホール
ド72より高いデータ点の全てについての角度オリエン
テーションの関数としての角度の発生頻度のヒストグラ
ムを提供する(図7参照)。また、勾配強度は、以下のよ
うにして導出される。
【0048】xおよびyの導関数発生ユニット58、6
0の出力は、2乗ユニット70により2乗処理で統合さ
れ、これらの2乗は、対象とする特定のデータ点の勾配
強度を示す。この強度は、ユニット68へ送られ、スレ
シホールド72が設定されて、予め設定されたスレシホ
ールドより低い画像強度勾配(image intensity gradien
ts)に対応する角度は無視される。
0の出力は、2乗ユニット70により2乗処理で統合さ
れ、これらの2乗は、対象とする特定のデータ点の勾配
強度を示す。この強度は、ユニット68へ送られ、スレ
シホールド72が設定されて、予め設定されたスレシホ
ールドより低い画像強度勾配(image intensity gradien
ts)に対応する角度は無視される。
【0049】ヒストグラム発生ユニット68の出力は、
図7の74で示されるように、オリエンテーションまた
は角度対所定角度の発生頻度のグラフとなる。これによ
り、ぎざぎざの標示(signature)76となり、これを従
来のぼかしユニット78により、80で示される静的な
身振りの平滑化された標示にする。また必要であれば、
このヒストグラムに局所ゲインコントロールを適用する
ことが可能である。
図7の74で示されるように、オリエンテーションまた
は角度対所定角度の発生頻度のグラフとなる。これによ
り、ぎざぎざの標示(signature)76となり、これを従
来のぼかしユニット78により、80で示される静的な
身振りの平滑化された標示にする。また必要であれば、
このヒストグラムに局所ゲインコントロールを適用する
ことが可能である。
【0050】静的な身振りの認識では、ヒストグラムが
形成される空間強度勾配は、
形成される空間強度勾配は、
【0051】
【数1】
【0052】ここで、
【0053】
【数2】
【0054】は、それぞれxおよびy方向の単位ベクト
ルである。一次元ヒストグラムは、以下のように生成さ
れる。
ルである。一次元ヒストグラムは、以下のように生成さ
れる。
【0055】
【数3】
【0056】ここで、φは、オリエンテーションであ
る。
る。
【0057】動的な身振りの認識では、
【0058】
【数4】
【0059】が追加され、動的な身振りの勾配が、次式
となる。
となる。
【0060】
【数5】
【0061】ここで、
【0062】
【数6】
【0063】は、時間方向に於ける単位ベクトルであ
る。
る。
【0064】二次元の動的な身振りのヒストグラムにつ
いては、次式がなりたち、
いては、次式がなりたち、
【0065】
【数7】
【0066】ここで、
【0067】
【数8】
【0068】ここで、φは、オリエンテーションであ
り、θは、移動量である。
り、θは、移動量である。
【0069】一般に、静的な身振りの解析は、二次元勾
配を収集し、全てのオリエンテーションを得たときに、
得られる空間オリエンテーションマップで開始する。空
間オリエンテーションマップから、以下のアルゴリズム
により一次元オリエンテーションヒストグラムが形成さ
れる。 1)(二次元)空間オリエンテーションマップをラスター
スキャン 2)各ベクトルのオリエンテーションを読み出す 3)(一次元)空間オリエンテーションヒストグラムに向
かい、このベクトルに対応するオリエンテーションに記
憶されたカウント値に”1”を加算 4)全体の空間オリエンテーションマップに対して、ス
テップ1)から繰り返す。
配を収集し、全てのオリエンテーションを得たときに、
得られる空間オリエンテーションマップで開始する。空
間オリエンテーションマップから、以下のアルゴリズム
により一次元オリエンテーションヒストグラムが形成さ
れる。 1)(二次元)空間オリエンテーションマップをラスター
スキャン 2)各ベクトルのオリエンテーションを読み出す 3)(一次元)空間オリエンテーションヒストグラムに向
かい、このベクトルに対応するオリエンテーションに記
憶されたカウント値に”1”を加算 4)全体の空間オリエンテーションマップに対して、ス
テップ1)から繰り返す。
【0070】静的な身振りの認識については、静的ヒス
トグラムシグニチャが形成されるトレーニング段階があ
る。一実施例では、静的な身振りの認識の実行のための
トレーニング段階で必要とされるステップは、以下のも
のがある。まず、コンピュータは、通常、十字カーソル
で、目標オリエンテーションインジケータを表示する。
第二に、オペレータは、十字カーソルの方向に自身の手
をおくことにより、目標のオリエンテーションに合致さ
せるように手の向きを決める。第三に、コンピュータ
は、手の画像をデジタル化し、目標オリエンテーション
情報と共に、対応するシグニチャベクトルを計算し、記
憶する。次に、コンピュータは、次の目標オリエンテー
ションインジケータを表示し、オペレータは、自身の手
を新しく向けられた十字カーソルに合わせる。以後、コ
ンピュータは、手の画像をデジタル化し、この特定のオ
リエンテーションのためのシグニチャベクトル、目標オ
リエンテーションを計算し、記憶する。これらのステッ
プは、入力情報を突き合わせるに十分な数のシグニチャ
をトレーニングシーケンスが持つまで繰り返される。
トグラムシグニチャが形成されるトレーニング段階があ
る。一実施例では、静的な身振りの認識の実行のための
トレーニング段階で必要とされるステップは、以下のも
のがある。まず、コンピュータは、通常、十字カーソル
で、目標オリエンテーションインジケータを表示する。
第二に、オペレータは、十字カーソルの方向に自身の手
をおくことにより、目標のオリエンテーションに合致さ
せるように手の向きを決める。第三に、コンピュータ
は、手の画像をデジタル化し、目標オリエンテーション
情報と共に、対応するシグニチャベクトルを計算し、記
憶する。次に、コンピュータは、次の目標オリエンテー
ションインジケータを表示し、オペレータは、自身の手
を新しく向けられた十字カーソルに合わせる。以後、コ
ンピュータは、手の画像をデジタル化し、この特定のオ
リエンテーションのためのシグニチャベクトル、目標オ
リエンテーションを計算し、記憶する。これらのステッ
プは、入力情報を突き合わせるに十分な数のシグニチャ
をトレーニングシーケンスが持つまで繰り返される。
【0071】一実施例では、補間が標示の突き合わせに
使用される。また、一実施例では、補間関数の係数をコ
ンピュータが計算し、記憶する一般的な(共通)補間が使
用される。補間関数により、標示ベクトルの関数として
のオリエンテーションの高速計算が可能となる。
使用される。また、一実施例では、補間関数の係数をコ
ンピュータが計算し、記憶する一般的な(共通)補間が使
用される。補間関数により、標示ベクトルの関数として
のオリエンテーションの高速計算が可能となる。
【0072】画像シグニチャベクトルの関数としての手
のオリエンテーションを得るために、線形補間関数(lin
ear interpolation function)、または放射基底関数(ra
dialbasis function)といった幾つかのよく知られた補
間手法を使用することが可能である。この例では、ガウ
ス放射基底関数(gaussian radial basis function)を使
用する。ψ=F(v)が次式であるとする。
のオリエンテーションを得るために、線形補間関数(lin
ear interpolation function)、または放射基底関数(ra
dialbasis function)といった幾つかのよく知られた補
間手法を使用することが可能である。この例では、ガウ
ス放射基底関数(gaussian radial basis function)を使
用する。ψ=F(v)が次式であるとする。
【0073】
【数9】
【0074】パラメータσは、いろいろ試しながら決定
する。使用上、好ましい値は、全てのトレーニングベク
トルの間の平均距離である。
する。使用上、好ましい値は、全てのトレーニングベク
トルの間の平均距離である。
【0075】a、b、cについては、関数Fが、vがト
レーニングベクトルとなる、既知の値となるようにする
ことにより、これらは見いだされる。この場合、これ
は、次のマトリックス方程式とする。
レーニングベクトルとなる、既知の値となるようにする
ことにより、これらは見いだされる。この場合、これ
は、次のマトリックス方程式とする。
【0076】
【数10】
【0077】マトリックスAの逆マトリックスを上式の
両辺に予め掛け算することにより、a、b、cの希望値
が見いだせる。
両辺に予め掛け算することにより、a、b、cの希望値
が見いだせる。
【0078】静的な身振りの認識の実行時の段階では、
オペレータは、カメラ視野に、あるオリエンテーション
で自身の手を置いてみる。コンピュータは、手の画像を
デジタル化し、シグニチャベクトルに変換する。コンピ
ュータは、補間関数から手のオリエンテーションを計算
し、これは、対応するそれぞれのオリエンテーションお
よび補間関数において、トレーニングシグニチャベクト
ルを使用する。次にコンピュータは、表示を変化させる
か、または手の計算値に応答してなんらかの動作を行
う。例えば、手のオリエンテーションを得るために、図
1の飛行機の傾きの模擬を行う。最後に、全てのステッ
プを別の静的な身振りに対して繰り返す。
オペレータは、カメラ視野に、あるオリエンテーション
で自身の手を置いてみる。コンピュータは、手の画像を
デジタル化し、シグニチャベクトルに変換する。コンピ
ュータは、補間関数から手のオリエンテーションを計算
し、これは、対応するそれぞれのオリエンテーションお
よび補間関数において、トレーニングシグニチャベクト
ルを使用する。次にコンピュータは、表示を変化させる
か、または手の計算値に応答してなんらかの動作を行
う。例えば、手のオリエンテーションを得るために、図
1の飛行機の傾きの模擬を行う。最後に、全てのステッ
プを別の静的な身振りに対して繰り返す。
【0079】図8ないし10を参照すると、異なった角
度での手の一連のデジタル化された静的画像、即ち画像
82、84および86が、トレーニングヒストグラム8
2a、84aおよび86aとなる。対応する平滑化され
たヒストグラムが、82b、84bおよび86bで示さ
れる。
度での手の一連のデジタル化された静的画像、即ち画像
82、84および86が、トレーニングヒストグラム8
2a、84aおよび86aとなる。対応する平滑化され
たヒストグラムが、82b、84bおよび86bで示さ
れる。
【0080】図11を参照すると、静的な身振りに本発
明を利用した結果が表示されていて、中間の手の位置9
0、92について、検出角度応答が破線94に沿って存
在し、この破線94は、点96により示される10°に
於けるトレーニング点と、点98により示される20°
のトレーニング点と、点100により示される30°の
トレーニング点を含む。対応する画像は、106、10
8および110で示され、対応するシグニチャベクトル
は、112、114および116で示される。
明を利用した結果が表示されていて、中間の手の位置9
0、92について、検出角度応答が破線94に沿って存
在し、この破線94は、点96により示される10°に
於けるトレーニング点と、点98により示される20°
のトレーニング点と、点100により示される30°の
トレーニング点を含む。対応する画像は、106、10
8および110で示され、対応するシグニチャベクトル
は、112、114および116で示される。
【0081】図示されているように、主トレーニング画
像角度は、画像106、108および110に対応する
破線94に沿って存在する。これらは、デジタル化され
た画像に於ける手の主位置に対応する検出角度を示す。
120および122で表示されるデータ点は、それぞれ
シグニチャ124、126による主位置の検出を示し、
手の対応するデジタル化画像から導出される。
像角度は、画像106、108および110に対応する
破線94に沿って存在する。これらは、デジタル化され
た画像に於ける手の主位置に対応する検出角度を示す。
120および122で表示されるデータ点は、それぞれ
シグニチャ124、126による主位置の検出を示し、
手の対応するデジタル化画像から導出される。
【0082】トレーニング画像については、手の角度オ
リエンテーションが予め指定され、テスト画像につい
て、角度オリエンテーションがここで示されるこの発明
のアルゴリズムにより計算される。
リエンテーションが予め指定され、テスト画像につい
て、角度オリエンテーションがここで示されるこの発明
のアルゴリズムにより計算される。
【0083】図12を参照すると、既に説明したよう
に、動的な身振りの認識システムは、静的な身振りの認
識システムについて説明した勾配を決定するのと同様な
手法を使用している。図12で示すように、画像がデジ
タル化され、130で示されるデジタル画像シーケンス
が与えられる。この画像は、空間的低域フィルタ132
で低域空間フィルタ処理され、これよりx、yおよびt
導関数発生ユニット134、136および138に送ら
れ、図3の三次元マップに対応する、x、yおよびtの
方向についての微分した導関数が提供される。
に、動的な身振りの認識システムは、静的な身振りの認
識システムについて説明した勾配を決定するのと同様な
手法を使用している。図12で示すように、画像がデジ
タル化され、130で示されるデジタル画像シーケンス
が与えられる。この画像は、空間的低域フィルタ132
で低域空間フィルタ処理され、これよりx、yおよびt
導関数発生ユニット134、136および138に送ら
れ、図3の三次元マップに対応する、x、yおよびtの
方向についての微分した導関数が提供される。
【0084】導関数を使用して図3の三次元マップが発
生された後、主オリエンテーション計算ユニット137
は、通常、動的な身振りに付随する空間−時間強度勾配
の極座標についての、主オリエンテーションを計算す
る。三次元マップの二次元ヒストグラムへの融合は、オ
リエンテーションヒストグラム計算ユニット140で実
行され、このユニット140は、角度オリエンテーショ
ンおよび移動対発生の頻度を示す図4に示される特性ヒ
ストグラムに三次元マップを融合する。この融合すなわ
ち変換のアルゴリズムは、後述される。コントラスト強
度計算ユニット(手段)139は、所定のスレシホールド
より低い画像強度を無視できるようにして、コントラス
ト強度の計算を行うために提供される。
生された後、主オリエンテーション計算ユニット137
は、通常、動的な身振りに付随する空間−時間強度勾配
の極座標についての、主オリエンテーションを計算す
る。三次元マップの二次元ヒストグラムへの融合は、オ
リエンテーションヒストグラム計算ユニット140で実
行され、このユニット140は、角度オリエンテーショ
ンおよび移動対発生の頻度を示す図4に示される特性ヒ
ストグラムに三次元マップを融合する。この融合すなわ
ち変換のアルゴリズムは、後述される。コントラスト強
度計算ユニット(手段)139は、所定のスレシホールド
より低い画像強度を無視できるようにして、コントラス
ト強度の計算を行うために提供される。
【0085】以上述べたオリエンテーションと移動の両
方を考慮に入れたヒストグラムを発生したのち、ヒスト
グラムは、データの平滑化のためにぼかしユニット14
2でぼかされる。そしてここでも、動的な身振りの特性
シグニチャを導出するために、局所ゲインコントロール
ユニット144で示されるように、局所ゲインコントロ
ールがヒストグラムに適用される。
方を考慮に入れたヒストグラムを発生したのち、ヒスト
グラムは、データの平滑化のためにぼかしユニット14
2でぼかされる。そしてここでも、動的な身振りの特性
シグニチャを導出するために、局所ゲインコントロール
ユニット144で示されるように、局所ゲインコントロ
ールがヒストグラムに適用される。
【0086】図12のシステムは、入力される身振りに
対応するシグニチャ(標示)が比較される、二次元テンプ
レートシグニチャを導出するために、トレーニングモー
ドでも使用される。またここでも、曲線突き合わせに、
即ちもっと具体的には入力ヒストグラムとトレーニング
シーケンスで記憶されたヒストグラムとの突き合わせ
に、従来の補間技術が使用される。
対応するシグニチャ(標示)が比較される、二次元テンプ
レートシグニチャを導出するために、トレーニングモー
ドでも使用される。またここでも、曲線突き合わせに、
即ちもっと具体的には入力ヒストグラムとトレーニング
シーケンスで記憶されたヒストグラムとの突き合わせ
に、従来の補間技術が使用される。
【0087】動的な身振りの特性シグニチャまたはテン
プレートを提供するために、この三次元空間時間オリエ
ンテーションマップは、身振りの角度および身振りの移
動対発生の頻度をプロットした二次元空間時間オリエン
テーションヒストグラムに、以下のアルゴリズムにより
変換される。 1)(三次元)空間時間オリエンテーションマップをラス
タースキャンする 2)各ベクトルのオリエンテーションを読み出す 3)(二次元)ヒストグラムに向かい、このベクトルに対
応するオリエンテーションに記憶されたカウント値に”
1”を加算 4)全体の空間時間オリエンテーションマップに対し
て、ステップ1)から繰り返す。
プレートを提供するために、この三次元空間時間オリエ
ンテーションマップは、身振りの角度および身振りの移
動対発生の頻度をプロットした二次元空間時間オリエン
テーションヒストグラムに、以下のアルゴリズムにより
変換される。 1)(三次元)空間時間オリエンテーションマップをラス
タースキャンする 2)各ベクトルのオリエンテーションを読み出す 3)(二次元)ヒストグラムに向かい、このベクトルに対
応するオリエンテーションに記憶されたカウント値に”
1”を加算 4)全体の空間時間オリエンテーションマップに対し
て、ステップ1)から繰り返す。
【0088】空時と時間とのオリエンテーションは、世
界のマップが緯度経度で表示できるように、空間時間オ
リエンテーションヒストグラムに於て極座標で記述でき
る。経度の座標は、画像情報の空間オリエンテーション
を表す。経度の座標は、その空間オリエンテーションの
方向に於ける移動量を表す。赤道、即ち0度緯度線は、
ゼロ移動量または静止画像情報を表す。空間時間オリエ
ンテーションヒストグラムの0度緯度線に沿ったカウン
トの総数は、どれだけの身振りが静止画像情報からなっ
ているかを示す。
界のマップが緯度経度で表示できるように、空間時間オ
リエンテーションヒストグラムに於て極座標で記述でき
る。経度の座標は、画像情報の空間オリエンテーション
を表す。経度の座標は、その空間オリエンテーションの
方向に於ける移動量を表す。赤道、即ち0度緯度線は、
ゼロ移動量または静止画像情報を表す。空間時間オリエ
ンテーションヒストグラムの0度緯度線に沿ったカウン
トの総数は、どれだけの身振りが静止画像情報からなっ
ているかを示す。
【0089】0度経度線は、水平向きの画像情報を示
す。0度緯度と0度経度位置に於ける二次元空間時間オ
リエンテーションヒストグラムのカウントの数は、どれ
だけの身振りが、静止、水平向き画像情報からなってい
るかを示す。0度経度に沿った高緯度位置は、水平空間
オリエンテーションに対して直交する方向で、すなわち
垂直方向で移動している、水平方向に向いている画像情
報の量を示している。
す。0度緯度と0度経度位置に於ける二次元空間時間オ
リエンテーションヒストグラムのカウントの数は、どれ
だけの身振りが、静止、水平向き画像情報からなってい
るかを示す。0度経度に沿った高緯度位置は、水平空間
オリエンテーションに対して直交する方向で、すなわち
垂直方向で移動している、水平方向に向いている画像情
報の量を示している。
【0090】動的な身振りの認識についての一つの試験
では、手の動きを必要とする16の手振りのセットがヒ
ストグラムのシグニチャ基準として使用された。そのよ
うな手振りは、手で円を描いてかき混ぜるような動作、
指をならす動作、指し示す目的で上下左右を示す動作、
こちらへ招いたりまた向こうへ行くように指示する動
作、別れの手を振る動作、親指を立てる動作を含む。こ
の発明による空間時間オリエンテーションヒストグラム
を使用した最初の試験に於て、所定の照明状態セットに
於て、16の異なった身振りの内15の認識に成功し
た。異なった照明状態で、16の身振りの内10の認識
に成功した。異なった照明状態下では、性能は若干劣る
が、比較的高い認識率が維持できた。この身振り解析
は、画像オリエンテーションに基づくもので、この画像
オリエンテーションは、異なった照明状態により大きく
変化する画像強度よりも、照明状態の変化に対する許容
度が高く、照明状態に対する良好な許容度が維持され
る。
では、手の動きを必要とする16の手振りのセットがヒ
ストグラムのシグニチャ基準として使用された。そのよ
うな手振りは、手で円を描いてかき混ぜるような動作、
指をならす動作、指し示す目的で上下左右を示す動作、
こちらへ招いたりまた向こうへ行くように指示する動
作、別れの手を振る動作、親指を立てる動作を含む。こ
の発明による空間時間オリエンテーションヒストグラム
を使用した最初の試験に於て、所定の照明状態セットに
於て、16の異なった身振りの内15の認識に成功し
た。異なった照明状態で、16の身振りの内10の認識
に成功した。異なった照明状態下では、性能は若干劣る
が、比較的高い認識率が維持できた。この身振り解析
は、画像オリエンテーションに基づくもので、この画像
オリエンテーションは、異なった照明状態により大きく
変化する画像強度よりも、照明状態の変化に対する許容
度が高く、照明状態に対する良好な許容度が維持され
る。
【0091】得られるシステムは、静的な身振りの認識
および動的な身振りの認識の両用であり、この両システ
ムは、身振りが比較されるシグニチャを形成するヒスト
グラムを利用する。静的な身振りは、オリエンテーショ
ン角度に対する発生の頻度のヒストグラムであり、移動
する動的な身振りのヒストグラムは、時間情報と共に空
間オリエンテーション情報を利用し、角度オリエンテー
ションだけでなく移動も反映したヒストグラムを構成し
ている。
および動的な身振りの認識の両用であり、この両システ
ムは、身振りが比較されるシグニチャを形成するヒスト
グラムを利用する。静的な身振りは、オリエンテーショ
ン角度に対する発生の頻度のヒストグラムであり、移動
する動的な身振りのヒストグラムは、時間情報と共に空
間オリエンテーション情報を利用し、角度オリエンテー
ションだけでなく移動も反映したヒストグラムを構成し
ている。
【0092】要約すると、低レベルモデルフリーの動的
および静的な手振りの認識システムは、静的な身振り用
の、空間オリエンテーション角度対発生頻度の一次元ヒ
ストグラム、或いは動的な身振り用の、二次元空間時間
オリエンテーションヒストグラムを使用している。各場
合に於て、ヒストグラムは、身振りの認識に使用される
身振りのシグニチャを構成している。動的な身振りの検
出のためには、三次元空間時間オリエンテーションマッ
プは、オリエンテーションおよび移動の両方対発生頻度
をグラフ化した二次元空間時間オリエンテーションヒス
トグラムへ融合あるいは変換される。入力された動的な
身振りが突き合わされるのは、この表示即ちテンプレー
トである。
および静的な手振りの認識システムは、静的な身振り用
の、空間オリエンテーション角度対発生頻度の一次元ヒ
ストグラム、或いは動的な身振り用の、二次元空間時間
オリエンテーションヒストグラムを使用している。各場
合に於て、ヒストグラムは、身振りの認識に使用される
身振りのシグニチャを構成している。動的な身振りの検
出のためには、三次元空間時間オリエンテーションマッ
プは、オリエンテーションおよび移動の両方対発生頻度
をグラフ化した二次元空間時間オリエンテーションヒス
トグラムへ融合あるいは変換される。入力された動的な
身振りが突き合わされるのは、この表示即ちテンプレー
トである。
【0093】具体的には、移動な身振りは、角度および
移動ヒストグラム対発生の頻度の二次元ヒストグラム、
即ちテンプレートに融合された三次元空間時間オリエン
テーションマップから検出される。二次元ヒストグラ
ム、即ちテンプレートは、所定の空時オリエンテーショ
ンの発生の頻度をプロットしたものである。このテンプ
レートは、画像強度の空間時間勾配ベクトルの方位角お
よび極角から導出される。マップから二次元空間時間オ
リエンテーションヒストグラムへの融合は、移動する身
振りの認識を容易にし、融合により効果的に身振り測定
値を平滑化し、測定値を身振りが開始し停止した実際の
時間から独立させ、または身振りが実際に起こった正確
な位置から独立させる。
移動ヒストグラム対発生の頻度の二次元ヒストグラム、
即ちテンプレートに融合された三次元空間時間オリエン
テーションマップから検出される。二次元ヒストグラ
ム、即ちテンプレートは、所定の空時オリエンテーショ
ンの発生の頻度をプロットしたものである。このテンプ
レートは、画像強度の空間時間勾配ベクトルの方位角お
よび極角から導出される。マップから二次元空間時間オ
リエンテーションヒストグラムへの融合は、移動する身
振りの認識を容易にし、融合により効果的に身振り測定
値を平滑化し、測定値を身振りが開始し停止した実際の
時間から独立させ、または身振りが実際に起こった正確
な位置から独立させる。
【0094】静的な身振りの解析については、主オリエ
ンテーションを決定する空間強度勾配を得て、画像の各
ピクセルに対するオリエンテーションを見いだす結果で
ある空間オリエンテーションマップで開始される。以
後、特性ヒストグラムシグニチャが生成される。動的な
身振りの解析については、空間時間強度データの勾配を
得て、画像の各ピクセルについて空時オリエンテーショ
ンを見いだす結果である空間時間オリエンテーションマ
ップで開始される。その後、二次元空間時間オリエンテ
ーションヒストグラム、即ちテンプレートが生成され
る。静的および動的身振りの認識の双方の実施例で、シ
グニチャは、異なった多数の手の位置および移動、また
はいずれかに関するトレーニングシーケンスで導出され
る。その後、実行時のアルゴリズムが、映像による手の
画像のデジタル化されたもので動作し、手の角度および
移動またはいずれかを検出する。
ンテーションを決定する空間強度勾配を得て、画像の各
ピクセルに対するオリエンテーションを見いだす結果で
ある空間オリエンテーションマップで開始される。以
後、特性ヒストグラムシグニチャが生成される。動的な
身振りの解析については、空間時間強度データの勾配を
得て、画像の各ピクセルについて空時オリエンテーショ
ンを見いだす結果である空間時間オリエンテーションマ
ップで開始される。その後、二次元空間時間オリエンテ
ーションヒストグラム、即ちテンプレートが生成され
る。静的および動的身振りの認識の双方の実施例で、シ
グニチャは、異なった多数の手の位置および移動、また
はいずれかに関するトレーニングシーケンスで導出され
る。その後、実行時のアルゴリズムが、映像による手の
画像のデジタル化されたもので動作し、手の角度および
移動またはいずれかを検出する。
【0095】なお、上述の動作は、実際には、例えばコ
ンピュータにおけるプログラムにより実行される。
ンピュータにおけるプログラムにより実行される。
【0096】以上にこの発明の推奨実施例を説明した
が、この発明の範囲内で種々の改変を為し得ることは当
業者には明らかであろう。従って、この発明の範囲は、
添付の特許請求の範囲の記載のみによって決定されるも
のであることを付記する。
が、この発明の範囲内で種々の改変を為し得ることは当
業者には明らかであろう。従って、この発明の範囲は、
添付の特許請求の範囲の記載のみによって決定されるも
のであることを付記する。
【0097】
【発明の効果】手振りの認識に対するこの発明の装置に
おける手法の効果は、まず、シグニチャベクトルが、照
明の変化に相対的に許容性が高い局所オリエンテーショ
ンに基づいているということである。第2に、シグニチ
ャベクトルの計算は容易で、高速である。更に、この発
明のシステムは、低レベルシステムであり、従って手振
り以外の入力の解析にも使用可能である。最後に、動的
な身振りの認識は、シグニチャベクトルに含まれる運動
情報を含むので、直接に運動を計測する。これにより、
人の知覚特徴描写に合致した身振りの描写が得られる。
おける手法の効果は、まず、シグニチャベクトルが、照
明の変化に相対的に許容性が高い局所オリエンテーショ
ンに基づいているということである。第2に、シグニチ
ャベクトルの計算は容易で、高速である。更に、この発
明のシステムは、低レベルシステムであり、従って手振
り以外の入力の解析にも使用可能である。最後に、動的
な身振りの認識は、シグニチャベクトルに含まれる運動
情報を含むので、直接に運動を計測する。これにより、
人の知覚特徴描写に合致した身振りの描写が得られる。
【図1】 CRTまたは表示部上で移動するアイコンを
制御するための動的な身振りの認識を説明する図であ
る。
制御するための動的な身振りの認識を説明する図であ
る。
【図2】 親指の角度オリエンテーションの多くの中の
1つに於ける動作を示す図である。
1つに於ける動作を示す図である。
【図3】 図2の親指の動作期間の三次元空間時間オリ
エンテーションマップの概略図である。
エンテーションマップの概略図である。
【図4】 図2に表示された親指の運動についての、こ
の発明による検出の結果である、まゆ形状曲線を示す二
次元テンプレートを示す図である。
の発明による検出の結果である、まゆ形状曲線を示す二
次元テンプレートを示す図である。
【図5】 任意に平滑化されたオリエンテーションヒス
トグラム対発生の頻度によって、手のデジタル化した画
像から静止画のためのシグニチャベクトルの計算を示す
概略図である。
トグラム対発生の頻度によって、手のデジタル化した画
像から静止画のためのシグニチャベクトルの計算を示す
概略図である。
【図6】 図5に続くシグニチャベクトルの計算を示す
概略図である。
概略図である。
【図7】 図6に続くシグニチャベクトルの計算を示す
概略図である。
概略図である。
【図8】 非平滑化および平滑化ヒストグラムの両方に
対する特性ヒストグラムシグニチャを示す、手の位置を
示すオリエンテーションヒストグラムの概略図である。
対する特性ヒストグラムシグニチャを示す、手の位置を
示すオリエンテーションヒストグラムの概略図である。
【図9】 別の手の位置を示すオリエンテーションヒス
トグラムの概略図である。
トグラムの概略図である。
【図10】 さらに別の手の位置を示すオリエンテーシ
ョンヒストグラムの概略図である。
ョンヒストグラムの概略図である。
【図11】 検出された手のオリエンテーションが実際
にはロードする前のトレーニング画像中であることを説
明する、図5ないし図7の検出システムに関連した静的
な身振りの認識の試験結果を表示した図である。
にはロードする前のトレーニング画像中であることを説
明する、図5ないし図7の検出システムに関連した静的
な身振りの認識の試験結果を表示した図である。
【図12】 動的な身振りのヒストグラムを提供するの
に使用されるシステムを説明する図である。
に使用されるシステムを説明する図である。
10 アイコン、12 画像表示装置、52 低域フィ
ルタ、54 サブサンプリングユニット、56 サブサ
ンプリング画像、58 x導関数発生ユニット、60
y導関数発生ユニット、62 逆正接処理ユニット、6
4 ×2ユニット、66 ラップユニット、68 ヒス
トグラム発生器、70 2乗ユニット、78 ぼかしユ
ニット、130 デジタル画像シーケンス、132 空
間的低域フィルタ、134 x導関数発生ユニット、1
36 y導関数発生ユニット、137 主オリエンテー
ション形成ユニット、138 t導関数発生ユニット、
140 オリエンテーションヒストグラム計算ユニッ
ト、142 ぼかしユニット、144 局所ゲインコン
トロールユニット。
ルタ、54 サブサンプリングユニット、56 サブサ
ンプリング画像、58 x導関数発生ユニット、60
y導関数発生ユニット、62 逆正接処理ユニット、6
4 ×2ユニット、66 ラップユニット、68 ヒス
トグラム発生器、70 2乗ユニット、78 ぼかしユ
ニット、130 デジタル画像シーケンス、132 空
間的低域フィルタ、134 x導関数発生ユニット、1
36 y導関数発生ユニット、137 主オリエンテー
ション形成ユニット、138 t導関数発生ユニット、
140 オリエンテーションヒストグラム計算ユニッ
ト、142 ぼかしユニット、144 局所ゲインコン
トロールユニット。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 H04N 1/40 Z
Claims (10)
- 【請求項1】 身振りを認識する装置であって、 予め設定した身振りに対応するトレーニングヒストグラ
ムを提供する手段と、 身振りを実行している対象物のビデオ画像を生成する手
段と、 上記ビデオ画像に対応する身振りを実行している対象物
のヒストグラムを生成する手段と、 上記ヒストグラムを比較する手段と、 上記ヒストグラム間で一致を示すための手段と、 を含み、上記身振りを認識することを特徴とする身振り
認識装置。 - 【請求項2】 上記身振りは、静的な身振りであり、上
記ヒストグラムは、上記身振りの空間オリエンテーショ
ン角度に対する発生の頻度に関するものであることを特
徴とする請求項1に記載の身振り認識装置。 - 【請求項3】 上記身振りは、動的な身振りであり、上
記ヒストグラムは、上記ジェスチャの空間時間オリエン
テーションに対する発生の頻度に関するものであること
を特徴とする請求項1に記載の身振り認識装置。 - 【請求項4】 上記ヒストグラム生成手段は、上記身振
りの三次元空間時間オリエンテーションマップを生成す
る手段と、この三次元空間時間オリエンテーションマッ
プを二次元ヒストグラムへ変換する手段とを含むことを
特徴とする請求項3に記載の身振り認識装置。 - 【請求項5】 上記ヒストグラム生成手段は、二つの直
交する方向について、上記身振りのビデオ画像の強度の
導関数を得るための手段を含むことを特徴とする請求項
1に記載の身振り認識装置。 - 【請求項6】 上記ヒストグラム生成手段は、更に、時
間について、上記ビデオ画像の強度の導関数を得るため
の手段を含むことを特徴とする請求項5に記載の身振り
認識装置。 - 【請求項7】 上記ビデオ画像の主角度を得るために、
上記導関数の逆正接を得るための手段を更に含むことを
特徴とする請求項5に記載の身振り認識装置。 - 【請求項8】 勾配強度測定値を得るために上記導関数
の二乗の和を得るための手段と、予め設定されたスレシ
ホールドに満たないヒストグラム勾配強度の発生を拒絶
するための手段とをさらに含むことを特徴とする請求項
5に記載の身振り認識装置。 - 【請求項9】 平滑化されたヒストグラムシグニチャを
得るために、上記ヒストグラムをぼかすための手段を更
に含むことを特徴とする請求項1に記載の身振り認識装
置。 - 【請求項10】 上記ヒストグラムに局所ゲインコント
ロールを適用するための手段を更に含むことを特徴とす
る請求項1に記載の身振り認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7018112A JPH08212327A (ja) | 1995-02-06 | 1995-02-06 | 身振り認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7018112A JPH08212327A (ja) | 1995-02-06 | 1995-02-06 | 身振り認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH08212327A true JPH08212327A (ja) | 1996-08-20 |
Family
ID=11962538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7018112A Pending JPH08212327A (ja) | 1995-02-06 | 1995-02-06 | 身振り認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH08212327A (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006091948A (ja) * | 2004-09-21 | 2006-04-06 | Victor Co Of Japan Ltd | 電子機器の制御装置 |
CN100351750C (zh) * | 2004-07-27 | 2007-11-28 | 索尼株式会社 | 信息处理设备,信息处理方法,记录介质,以及程序 |
JP2008527854A (ja) * | 2005-01-07 | 2008-07-24 | ジェスチャー テック,インコーポレイテッド | オプティカルフローに基づく傾きセンサー |
JP2009140009A (ja) * | 2007-12-03 | 2009-06-25 | Sony Corp | 情報処理装置および情報処理方法、プログラム、並びに記録媒体 |
JP2010003303A (ja) * | 2009-07-21 | 2010-01-07 | Victor Co Of Japan Ltd | 電子機器の制御装置 |
JP2010239499A (ja) * | 2009-03-31 | 2010-10-21 | Brother Ind Ltd | 通信端末装置、通信制御装置、通信端末装置の通信制御方法、通信制御プログラム |
JP2011522318A (ja) * | 2008-05-26 | 2011-07-28 | マイクロソフト インターナショナル ホールディングス ビイ.ヴイ. | 仮想現実の制御 |
US8099460B2 (en) | 2004-07-27 | 2012-01-17 | Sony Corporation | Information processing device and method, recording medium, and program |
CN113032282A (zh) * | 2021-04-29 | 2021-06-25 | 北京字节跳动网络技术有限公司 | 一种手势识别装置的测试方法、装置及设备 |
-
1995
- 1995-02-06 JP JP7018112A patent/JPH08212327A/ja active Pending
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8099460B2 (en) | 2004-07-27 | 2012-01-17 | Sony Corporation | Information processing device and method, recording medium, and program |
CN100351750C (zh) * | 2004-07-27 | 2007-11-28 | 索尼株式会社 | 信息处理设备,信息处理方法,记录介质,以及程序 |
US8856231B2 (en) | 2004-07-27 | 2014-10-07 | Sony Corporation | Information processing device and method, recording medium, and program |
JP2006091948A (ja) * | 2004-09-21 | 2006-04-06 | Victor Co Of Japan Ltd | 電子機器の制御装置 |
US7629959B2 (en) | 2004-09-21 | 2009-12-08 | Victor Company Of Japan, Limited | Controller for electronic appliance |
JP2008527854A (ja) * | 2005-01-07 | 2008-07-24 | ジェスチャー テック,インコーポレイテッド | オプティカルフローに基づく傾きセンサー |
US8983139B2 (en) | 2005-01-07 | 2015-03-17 | Qualcomm Incorporated | Optical flow based tilt sensor |
JP2009140009A (ja) * | 2007-12-03 | 2009-06-25 | Sony Corp | 情報処理装置および情報処理方法、プログラム、並びに記録媒体 |
JP2011522318A (ja) * | 2008-05-26 | 2011-07-28 | マイクロソフト インターナショナル ホールディングス ビイ.ヴイ. | 仮想現実の制御 |
US8860713B2 (en) | 2008-05-26 | 2014-10-14 | Microsoft International Holdings B.V. | Controlling virtual reality |
JP2010239499A (ja) * | 2009-03-31 | 2010-10-21 | Brother Ind Ltd | 通信端末装置、通信制御装置、通信端末装置の通信制御方法、通信制御プログラム |
JP2010003303A (ja) * | 2009-07-21 | 2010-01-07 | Victor Co Of Japan Ltd | 電子機器の制御装置 |
CN113032282A (zh) * | 2021-04-29 | 2021-06-25 | 北京字节跳动网络技术有限公司 | 一种手势识别装置的测试方法、装置及设备 |
CN113032282B (zh) * | 2021-04-29 | 2024-04-09 | 北京字节跳动网络技术有限公司 | 一种手势识别装置的测试方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5454043A (en) | Dynamic and static hand gesture recognition through low-level image analysis | |
Bobick et al. | The recognition of human movement using temporal templates | |
US6147678A (en) | Video hand image-three-dimensional computer interface with multiple degrees of freedom | |
US6204852B1 (en) | Video hand image three-dimensional computer interface | |
Heap et al. | Towards 3D hand tracking using a deformable model | |
US6624833B1 (en) | Gesture-based input interface system with shadow detection | |
Reale et al. | A multi-gesture interaction system using a 3-D iris disk model for gaze estimation and an active appearance model for 3-D hand pointing | |
CN105391970B (zh) | 提供由车辆的场景相机捕获的至少一个图像的方法和系统 | |
US6677969B1 (en) | Instruction recognition system having gesture recognition function | |
O'Hagan et al. | Visual gesture interfaces for virtual environments | |
Sato et al. | Real-time input of 3D pose and gestures of a user's hand and its applications for HCI | |
CN108200334B (zh) | 图像拍摄方法、装置、存储介质及电子设备 | |
JP3512992B2 (ja) | 画像処理装置および画像処理方法 | |
CN112506340B (zh) | 设备控制方法、装置、电子设备及存储介质 | |
JP4597391B2 (ja) | 顔領域検出装置およびその方法並びにコンピュータ読み取り可能な記録媒体 | |
EP3136203B1 (en) | System and method of real-time interactive operation of user interface | |
JP2004094288A (ja) | 指示位置検出装置及び自律ロボット | |
JP7162079B2 (ja) | 頭部のジェスチャーを介してディスプレイ装置を遠隔制御する方法、システムおよびコンピュータプログラムを記録する記録媒体 | |
JP2003533817A (ja) | 3次元モデリングを行うことなく画像処理によってターゲットを指し示す装置及びその方法 | |
JP3144400B2 (ja) | ジェスチャ認識装置及び方法 | |
JPH08212327A (ja) | 身振り認識装置 | |
Utsumi et al. | Multi-camera hand pose recognition system using skeleton image | |
CN115461794A (zh) | 从二维图像估计用户手势的方法、系统和非暂时性计算机可读记录介质 | |
CN117456558A (zh) | 一种基于摄像头的人体姿态估计与控制方法及相关设备 | |
Akman et al. | Multi-cue hand detection and tracking for a head-mounted augmented reality system |