JP2003533817A

JP2003533817A - ３次元モデリングを行うことなく画像処理によってターゲットを指し示す装置及びその方法

Info

Publication number: JP2003533817A
Application number: JP2001585011A
Authority: JP
Inventors: ウェインシャル，ダフナ; リー，ミ−スーエン
Original assignee: Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2000-05-17
Filing date: 2001-05-08
Publication date: 2003-11-11
Anticipated expiration: 2021-05-08
Also published as: DE60133386T2; KR20020025198A; EP1292877A1; CN1380996A; KR100869447B1; JP4768196B2; WO2001088681A1; DE60133386D1; CN1222859C; ATE390664T1; EP1292877B1

Abstract

(57)【要約】一対のカメラを用いることにより、ユーザが指し示す平面上のターゲットの座標は、３次元モデリングを必要とせず、且つ、それぞれの画像から得られるデータのみを使用し、また、３次元シーンデータを必要とせずに得られることが可能である。各カメラビューは、平面上の少なくとも４つの位置合わせ点と、方向のインジケータを見る。ターゲットは、方向のインジケータ上にある。第１の画像の線形変換を行うことにより、方向インジケータの平面投影が第２の画像にマッピングされる。第２の画像におけるターゲットの座標は、第２の画像における方向の投影と第１の画像からの変換された投影の交点によって決められる。別の実施例では、それぞれの線形変換によって方向は、第３の基準フレーム又は画像にマッピングされる。このシステムを適用することによって、ユーザは、静的なポインティングジェスチャを使用することにより、投影又はテレビジョンスクリーン上の位置を指し示すことが可能となる。カメラの位置に関する情報は必要ではなく、従って、このシステムは迅速にセットアップすることが可能である。

Description

【発明の詳細な説明】

【０００１】［関連出願への相互参照］本出願は、本出願にその全体が述べられるのと同様にその全体を参考文献とし
て組み込む以下の出願に関連する。

【０００２】「Multi-modal video target acquisition and re-direction system and met
hod」について２０００年１月２０日に出願された米国出願番号０９／４８８，
０２８。

【０００３】「Hands-Free Home Video Production Camcorder」について２０００年３月２
１日に出願された米国出願番号０９／５３２，８２０。

【０００４】「Method and system for gesture based option selection」について２００
０年１２月２２日に出願された米国出願番号０８／９９５，８２３。

【０００５】［発明の背景］［発明の属する技術分野］本発明は、画像認識に係り、より詳細には、シーンの３次元モデリングを用い
ることなく、平面上のターゲット点を指し示すために使用されるポインティング
ジェスチャの認識に関する。

【０００６】［背景］ジェスチャ認識によって恩恵を受けることが可能である適用が多くある。適用
の例として、例えば、カメラの照準を制御する自然な機構がある。別の適用は、
スクリーン上のカーソルを動かすためにハンドジェスチャを使用することである
。例えば、指でスクリーン上の対象物を単にポインティングすることによって、
将来のスマートテレビジョン上で選択を行うことを想像し得るであろう。マウス
は必要でなくなる。

【０００７】ターゲットを指し示すポインティングジェスチャといったジェスチャを解釈す
るためにシーン画像を使用するビデオに基づいたシステムは、急成長しつつある
分野である。コンピュータの速度及び画像処理の速度は、照準合わせ、及び、再
照準合わせを可能にするのに非常に好都合な機構をカメラに与えることが可能な
程である。ビデオ会議システムにおいて、例えば、ユーザは、ズーム可能なカメ
ラをＰＴベース上に設置するよう関心の対象物を指し示すことが可能である。こ
のような自動化されたシステムは、例えば、音声命令（「命令‐制御」、各言葉
の命令が、例えば、「パン‐左」、「上」、「下」等といった指令に対応する基
本的には発話に基づいた記号プロセッサ）、ジョイスティック制御、及び連続的
なターゲット追跡といった明確な命令を必要とする従来のシステムより直観的で
あり、且つ、より制御するのが容易である。このようなシステムでは一般的に、
多数の角度視野が組み合わされて、シーンの３次元モデルが作成される。３次元
モデルは、その後ユーザが指し示すターゲットを決定するために使用される。

【０００８】カメラの制御を可能にする「スマート」技術を用いる１つのシステムは、「Sy
stem and Method for Permitting Three-Dimensional Navigation Through a Vi
rtual Reality Environment Using Camera-Based Gesture Inputs」なる名称の
１９９７年１２月２３日に出願された米国特許出願番号０８／９９６，６７７に
説明される。この特許出願では、内部のカメラが、画像処理技術を用いて背景か
ら人間である被写体の輪郭を区別する装置が説明される。画像処理技術は、背景
から被写体を区別することを目的とする。その後、被写体は、パン／チルト／ズ
ーム（ＰＴＺ）カメラによって追跡されることが可能である。このようなシステ
ムは、ターゲットの位置を繰り返し決定し、ズームし、且つ、焦点を合わせるこ
とが可能であるので、ターゲットは比較的画面の中心にあり続ける。

【０００９】米国特許第５，１８７，５７４号に説明されるような別の技術は、バーチャル
又は電子ズームと称される。１つ以上の固定カメラからのビデオ情報は、対象物
がどの特定のカメラの視野において中心になくても、関心のターゲットが出力ビ
デオ信号内において常に見えるよう電子的に処理される。抽出及び補間演算によ
って、追跡処理は固定カメラによって達成されることが可能であり、固定カメラ
は、ＰＴＺカメラよりも一般的に安価である。

【００１０】別のシステムが、Masaaki Fukumoto、Yasuhito Suenaga、及びKenji Maseによ
る論文「Finger-Pointer’; Pointing interface by Image Processing」に詳細
に説明される。この論文中において、著者らは、システムの視野内に配置される
オペレータがターゲットを指し示すようにすることによって、ターゲットに焦点
を合わせるようカメラを方向付けるシステムを説明する。システムは、オペレー
タの指の画像を走査且つ処理し、カメラをその方向に照準を合わせるよう方向付
ける。この論文は更に、ポインティングジェスチャ及び音声命令の組合わせを使
用するシステムも説明する。単純な音声又はジェスチャ命令を使用することによ
り、オペレータは、ズームイン又はズームアウト、又は、画面を消去するといっ
た単純な機能をカメラが行うよう導くことが可能である。この論文はその全体が
述べられたのと同様に本出願に参考文献として組込まれる。

【００１１】ターゲットを指し示すための従来の技術は一般的に、ビデオシーンの３次元構
成物をコンピュータ内で作成することと、ユーザが何を指しているのかを決める
ためのターゲット領域を必要とする。これは、多数のカメラと、一般的に非常に
複雑であり演算量が多い３次元推論とを必要とするのでセットアップが厄介であ
る。

【００１２】米国特許第５，４５４，０４３号に、上述されたような制限を有さない１つの
従来技術が記載される。この特許では、ビデオカメラによって手の動きが捕捉さ
れ、向きと動きのパターンは、画像処理によって命令に変化される。この技術は
、ユーザが異なる場所に立つと、従来技術における３次元モデリングによる解決
策では可能であるようにターゲットを指し示すために使用することはできないが
、ユーザに、例えば、ビデオスクリーン上のカーソルを、制限された方法で制御
することを可能にする利点を有する。

【００１３】現在の技術における状況を考慮すると、ポインティングジェスチャといった方
向指示を解釈することが可能であるが、機器及びシーンの構成要素の位置合わせ
、及び、シーンの３次元モデリングに関連する集中的な演算を要しないシステム
が必要である。

【００１４】［発明の概要］特定の３次元ターゲットのサブセットは、表面上に配置されるサブセットであ
り、その形状は予め既知ではない。例えば、投影スクリーンの平らな表面は、話
者が指し示す場合のあるターゲットを含んでもよい。他の例は、例えば、棒、指
、手の動き等によってポインティングするといった幾つか他の方向指示によって
見る人がポイントする又は指し示すビデオスクリーン上のサブ画像である。本発
明では、上述されたようなターゲットは、カメラの位置又はターゲットが存在す
る表面の位置に関する情報を位置合わせに用いることなくシーン画像中に識別す
ることが可能である。表面の形状に関する少なくとも幾つかの情報のみが先験的
に必要である。

【００１５】ユーザが指し示すターゲットを決定する方法は、１つの実施例によると、ポイ
ンタとターゲット領域の両方を含む少なくとも２つのシーン画像を使用する。こ
の例では、ターゲットは、両方のカメラのシーン画像中に見える位置合わせマー
ク又は基点を含む平らな面上に配置されると仮定する。ポインティングジェスチ
ャも、両方のシーン中に捕捉される。ポインティングジェスチャは処理され、シ
ーン自体のＸ−Ｙ座標において線を決定するために必要である程度にまで分析さ
れる。これは両方のカメラシーンに行われる。例えば、ユーザの右目と指先と一
致する点（ピクセルの単位でのＸ−Ｙ座標）が使用されてよい。或いは、線は、
ジェスチャによって指し示される方向を表すよう画成され得、この線は、その線
上の２つの任意の点によって画成され得る。両方のシーンからのこれらの点の照
準対はマッピングされる。

【００１６】それぞれの画像は位置合わせマークを用いてモーフィングされ、それにより、
画像は、ターゲットが配置される面の外観を正確に模倣する。これにより、３次
元推論を全く必要とすることなく、２次元推論のみを使用しターゲットを決定す
ることが可能となる。各画像は、基準面と称されてもよいターゲット面上の全て
の点が、基準面上に現れるのと全く同じ位置でその画像中に現れるようモーフィ
ングされる。以下に説明するように、４つの対応点が、画像及び基準面中に識別
されると線形位置合わせ変換が計算可能である。基準面上の点が、基準面が真っ
直ぐに見られた際に現れるのと等しい相対位置でカメラ画像中に現れるよう変換
される。つまり、４つの基点が基準面に矩形パターンで配置されると、これらの
４つの基点を斜めに見るカメラ画像は、モーフィングされた画像中に再び矩形を
形成するようモーフィングされる。モーフィングは、平面投影変換によって行わ
れ、それにより、シーン中の全ての点は最終的には歪み、原画像中で任意の直線
上にある全ての点は、依然として直線上にある。第２の画像も同様にモーフィン
グされ、２つの画像は合わせられ、各画像の基準面上の基点は、単一の画像に合
わされるようにされる。２つの画像は、ユーザが１つのカメラビューにおいても
う１つのカメラビューとは異なる位置に現れるようかなり異なる角度から撮られ
ることが好適である。直線が、各画像におけるユーザの右目と指先の間に引かれ
、直線が交わるところがターゲットの位置である。言うまでも無く、上述は単に
比喩的に過ぎない。実際の処理は数値により計算され、関心の点のみが変換され
る。関心の点とは、ユーザの目と指先の画像を結びつける２つの画像中の点であ
る。

【００１７】この取り組み方法は、多数の変形に使用されることが可能である。２つの変形
が好適であると考えられる。カメラがユーザの前に配置され、ユーザがカメラに
向かって指し示す第１の変形は、ビュースクリーン又はモニタ上の選択を指し示
すといったヒューマン／マシーン対話に特に好適である。各カメラから見える平
面に向けて指し示す第２の変形は、ビデオ会議といったマルチメディアアプリケ
ーションにおいて有用である。

【００１８】「ピークスルー構成」と称される第１の変形は、例えば、メニュからアイテム
を選択する、又は、コンピュータゲームで遊ぶために、ＴＶ又はコンピュータモ
ニタを介し通信するのに有用であろうことが想像される。この設計では、１つ又
は２つの多角形のアパーチャ（隣り合わせにされる）を有する垂直の不透明の平
面が、コンピュータ又はＴＶモニタの上に、スクリーンと略同一平面上に配置さ
れる。他の可能性として、各アパーチャが少なくとも４つの特徴点によって取っ
て代わられる透明の延長面を使用することである。スクリーンとアパーチャ延長
部を含む伸ばされた面は、「基準面」と称される。１つ又は２つのカメラが延長
面の後ろに置かれ、２つのアパーチャの後ろからユーザを見る。各アパーチャ（
又は４つのマーカ点）は、それぞれの画像面において常に完全に見ることが可能
である（或いは、２つのカメラは、２つの鏡と、２つの画像を隣り合わせで記録
する１つのカメラによって取って代わられてもよい。）最初に（且つ、１回限り
）、基準面の歪みのない２次元の外観を表すよう基準面（スクリーン＋取り付け
られたアパーチャ又はマーカ）の前面画像が、非常に狭い視野（略正投影）で撮
られる。この画像は、ターゲットの位置を計算するための基準フレームとなる。

【００１９】必要な画像位置合わせ（モーフィング）変換を計算するために、各画像及び基
準フレームにアパーチャ境界が検出される。位置合わせは、画像に２次元線形変
換を行うことを含み、その後に、アパーチャ境界は、基準フレームに現れる関係
と等しい関係で画像中に現れる。この変換を計算するために４つの点が十分であ
り、このことは本明細書の他の部分に詳細に説明される。

【００２０】この設計では、ユーザは、カメラを指し示しているところを撮られる。指し示
されるターゲットの位置を求めるためには、ユーザの目及び指先を検出すること
が必要である。指先の検出を容易にするよう、ユーザは明るい色がつけられたシ
ンブルを着用してもよい。シンブルは、遠隔制御器といった他の対話手段に取っ
て代わってよい。指先の検出を容易にすることに追加して、ウェラブルマウスは
、多数のユーザのポインティングジェスチャを区別する能力を与えるといったユ
ーザインタフェース目的のための別の利点を有する。従って、異なる色の付いた
シンブルを着用する多数のユーザが、同一の又は異なるターゲットを同時に指し
示すことが可能である。

【００２１】「ダイレクトビュー構成」と称される第２の変形は、大きなスクリーンを使用
するプレゼンテーション又はビデオ会議、或いは、カメラセットアップが一時的
又は携帯式である状況において最も有用である。このセットアップでは、ターゲ
ット面又は基準面と、ユーザは、両方のカメラから見ることが可能である。ピー
クスルー構成と同様に、位置合わせは画像データのみに基づいている。基準面上
の４点は各画像中に識別され、位置合わせは、その画像に２次元線形変換を行う
ことにより行われる。基準面は一般的に、投影スクリーン又はホワイトボードで
あるので、点は容易に検出可能である。点は、高いコントラストを有する投影か
ら形成され、セットアップを記録するために少しの間使用され、その後、スクリ
ーンから取り除かれることが可能である。或いは、基点マークの代わりに２組の
平行線を使用することが可能である。スクリーン又はホワイトボードの境界を使
用することが可能である。

【００２２】最終的な段階において、１つの画像が基準フレームとして選択されてよい。位
置合わせ変換によって、４つの識別された点が、第１の画像において表れる位置
と等しい位置に現れるよう第２の画像にマッピングされる。位置合わせは、基準
面ではなく、基準フレームに対し行われ、これはポインティングターゲットの識
別には十分である。

【００２３】本発明をより深く理解することが出来るよう、以下の説明的な図面を参照し、
特定の好適な実施例に関連して説明する。図面を参照するに、図示される詳細は
例示的に過ぎず、本発明の好適な実施例を説明するだけのものであり、本発明の
原理及び概念的な面の最も有用且つ容易な説明を与えるものとして示されること
を強調する。この点について、本発明の基本的な理解に必要である以上に、本発
明の構造的な詳細に関しては詳しくは説明しておらず、当業者は、図面と供に考
慮されることによって上述の説明から、本発明の幾つかの形式が実際に具現化さ
れることが明らかになろう。

【００２４】［好適な実施例の詳細な説明］図１を参照するに、テレビジョン又は投影スクリーン１０又は壁（図示せず）
といった平らな表面上にあるターゲット２５は、ユーザ３０によって指し示され
ている。ターゲット位置は、２つのカメラ３５及び４０のどちらかの画像中に、
以下に説明されるような方法で２つのカメラ３５及び４０からの画像を組合わせ
ることによって識別することが可能である。図面では、ユーザ３０は、ターゲッ
ト２５をポインティングジェスチャによって指し示していることが示される。尚
、実験によって人々がターゲットを指し示すために用いるジェスチャは、例えば
、ユーザの指先によるもの、ユーザの右（又は左）目によるものであることが分
かっており、ターゲットは直線によって結び付けられる。これは、いずれかのカ
メラから見たときのターゲットの平面投影は、ユーザの目及び指によって画成さ
れる直線の平面投影上にあることを意味する。本発明では、これら２つの平面投
影は、カメラ３５及び４０のいずれかで有り得る共通の平面投影、又は、任意の
第３の平面に変換される。

【００２５】図２を参照するに、カメラは、それぞれがポインティング装置、ここでは、ユ
ーザの目９０と組み合わされる指先８０を捕捉するよう向けられる。更に、各カ
メラの視野４５及び５０は、ターゲットが配置される平面上に４つの位置合わせ
マーク２０が見えるようにされる。カメラ３５及び４０の正確な位置又は照準は
本発明の実行に対し重要でない。ただし、本発明の更なる説明の後に明らかとな
るように、ターゲット位置の正確さに影響するという限りでは重要である。正確
を期すために、カメラ画像は、その分解能及び正確さを（真の平面投影の表すも
のとして）最大限に使用することが有利である。

【００２６】図２及び３を参照するに、ユーザ３０の目９０及び指先８０の位置は、３次元
ベクトル（インジケータ）８５によって表され、この３次元ベクトル８５のカメ
ラ３５の画像における平面投影は、２次元ベクトル７６として示される。シーン
の平面投影の残りの部分では、スクリーン１１の画像は、通常の方法で奥行きが
縮められることによって歪んでいる。ベクトル７６の延長（軌跡）６１が示され
、これは、そのコンテキストでは既知ではないターゲット２５の位置を通過する
のに十分に長い。位置合わせマーク２０（図１）の座標の投影は、図３の画像に
おいて、ｘ_１，ｙ_１、…、ｘ_４，ｙ_４として識別される。ベクトル８５の投影７
６の端点は、ｘ_５，ｙ_５及びｘ_６，ｙ_６として識別される。

【００２７】図４及び５を参照するに、ここでも、ユーザ３０の目９０及び指先８０の位置
は、３次元ベクトル８６によって示される。カメラ４０の画像におけるベクトル
８６の平面投影は、２次元ベクトル８７として示される。ここでも、スクリーン
１２の画像は、通常の方法で奥行きが縮められることにより歪んでいるが、カメ
ラ４０の位置及び向きが異なるので歪みは上記と異なる。ベクトル８６の延長６
２が示され、これは、ターゲット２５の位置を通過するのに十分に長い。延長６
２の平面投影は軌跡６３として示される。ここでも、ターゲット位置の投影は、
予め既知ではない。位置合わせマーク２０（図１）の座標の投影は、図５の画像
において、ｐ_１，ｑ_１、…、ｐ_４，ｑ_４として識別される。ベクトル８５の投影
８７の端点は、ｐ_５，ｑ_５及びｐ_６，ｑ_６として識別される。

【００２８】図６を参照するに、図３の投影の上に、ベクトル８６の投影８７の変換された
バージョン８７´が重ねられる。変換された投影８７´は２次元線形変換演算を
行うことによって得られ、この演算は、点ｐ_１，ｑ_１、…、ｐ_４，ｑ_４が座標ｘ_１，ｙ_１、…、ｘ_４，ｙ_４にそれぞれ正確にマッピングされるよう図５の投影を
マッピングする。ターゲット位置は、２つの延長線の交点に一致する。

【００２９】この変換は、

【００３０】

【数１】によって示され、これは、スケールを考慮しない変換を表す。各点は、２つの制
約をＭに与え、Ｍは、スケールを考慮せずに決められる３×３行列なので、Ｍは
８つの未知数を含み、従って、４つの独立した点を使用することによって決めら
れることが可能である。このことから、４つの位置合わせマーク２０が使用され
る。Ｍは、

【００３１】

【数２】として決められ、従って、

【００３２】

【数３】となり、４点ｐ_１，ｑ_１、…、ｐ_４，ｑ_４が与えられると、Ｍにおける全ての未
知数は、以下の線形方程式を解くことにより得られる。

【００３３】

【数４】一旦、ターゲットが識別されると、この情報は、様々な特徴を与えるよう使用
されてよい。例えば、スクリーン上に投影される対象物は、ポインティングする
ことによって制御されることが可能である。この例では、２つのカメラ画像がス
クリーン１０の面に変換されてもよい。ターゲットのスクリーン１０上の座標が
与えられると、どのコンピュータ処理もこの情報を使用することが可能である。
例えば、それぞれポインティングジェスチャによって制御される多数のプレーヤ
のいるゲームがある。スクリーン上に再現される異なる対象物を制御するよう、
異なるプレーヤによって違う色の付いたシンブル又はワンドを着用／使用してよ
い。マウス、光ペン、タッチスクリーン等によって現在行われているどのタスク
も、ポインティングジェスチャによって行われることが可能となる。

【００３４】上述された実施例では、ターゲットは特定の方法（目対指先）によるポインテ
ィングジェスチャによって指し示されるが、他の方法で指し示されてもよい。例
えば、照準器又はワンドが使用されてもよい。更に、ターゲットはスクリーン上
にあるのではなく、共通の平面に実質的に存在する任意の対象物又は画像であっ
てよい。更に、対象物又はターゲットは単一の平面上に存在しなくてもよく、多
数の平面上に存在することも可能であり、各平面は、それぞれ位置合わせマーク
の組を有する。本発明は更に他の変換を用いて適用される範囲を広げてもよく、
それにより、ターゲットは平らな表面以外の表面上に存在することが可能となる
。更なる他の変形としては、方向を指し示すためのジェスチャの方法がある。方
向を指し示すためのジェスチャをする際の短時間に亘る手又は指の一振りの方向
といった方向を得るために時系列の画像を使用することが可能である。更に、別
の好適な適用は、ホワイトボードへの適用であり得る。更には、位置合わせマー
ク２０はスクリーン上のマークである必要はなく、スクリーン１０の角（かど）
であってよい。更に、位置合わせマークは、セットアップの際のある時点におい
てスクリーン上に投影され、その後、取り除かれてよい。この場合、セットアッ
プが変更されるまで、位置合わせ点の座標は変換を計算するために使用され、位
置合わせマークへの更なる参照が必要でなくなる。この技術は、ターゲットにカ
メラの照準を合わせる際の使用に更に適用することが出来る。基準画像における
座標が既知となると、２つのカメラのうちの１つのカメラ、又は、第３のカメラ
は、ターゲットを得るよう再び照準が合わされ且つズームされる。これは、自動
化されたビデオ会議システムのコンテキストにおいて有用である。

【００３５】図７を参照するに、本発明の他の実施例であるセットアップにおいて、ベクト
ル２００はターゲット２２６を指し示す。延長線２０５は、ベクトル２００の軸
に沿ってターゲットに向けられる。前の実施例で説明したように、ベクトル２０
０は、例えば、ポインティングジェスチャといった多数の異なる指示手段のうち
のいずれかを表す。他の実施例と同様に、ターゲット２２６は、平面に、この例
では、例えば、大型テレビジョンのスクリーン２７０に存在する。カメラ２３５
及び２４０は、それぞれの基準フレーム２６０及び２６５を通り照準が合わせら
れる。基準フレーム２６０及び２６５は単に、カメラ２３５の視野に位置合わせ
点１乃至４を、カメラ２４０の視野に位置合わせ点５乃至８を与える。各カメラ
２３５及び２４０は、それぞれの位置合わせ点の組とベクトル２００が見るよう
向けられる。従って、例えば、このセットアップでは、ユーザがテレビジョンの
前のいすに座り、テレビジョン上のカメラがユーザに向けられることが可能であ
る。

【００３６】この実施例では、位置合わせマークは単にフレーム２６０及び２６５の角１乃
至８である。これらの角の座標は、特にビデオカメラといったカメラの有限の分
解能を考えると、最高の精度で正確さが得られるようフレームの縁に基づきあて
はまる輪郭を推定することにより決定されることが好適である。このような技術
は、この技術において既知である。

【００３７】カメラ２４０の画像を示す図８及びカメラ２３５の画像を示す図９を参照する
に、それぞれ、ポインティングベクトル２００のそれぞれの投影２１０及び２２
０を含む。更に、ベクトル投影２１０及び２２０によって指し示される方向によ
って決められる線２１５及び２２５も示される。図７は、３次元シーンを説明す
るよう使用されたが、この配置は更に、スクリーン２７０の方に見た際の投影も
表す。この画像は、この実施例では、基準画像として使用され、両方のカメラ画
像のベクトルはこの基準画像に変換され、基準画像内のターゲットの座標が決定
される。

【００３８】図１０を参照するに、図７のシーン投影を示し、ベクトル画像が２次元線形変
換を用いて基準フレームに変換された後に、線２１５及び２２５は、それぞれ線
２８５及び２８０に変換される。変換によって、図９の画像中の点１乃至４は、
図１０の画像の対応する点にマッピングされる。しかし、変換される必要のある
点は、ベクトル投影２１０及び２２０を画成する点だけである。基準画像（フレ
ーム２６０、２６５、及び、図７又は図１０の基準画像）は、基準点の座標を決
定するために、各セットアップに対し１回だけ考慮されればよい。

【００３９】図１１を参照するに、本発明の適用を実施するために使用される装置及び処理
をブロック図で示す。画像プロセッサ３０５は、カメラ３０１及び３０２から画
像データを受け取る。画像及び座標データは、メモリ３１０又は不揮発性記憶媒
体３２０に格納されてよい。例えば、変換データは、一旦計算されると、不揮発
性メモリ３２０及びメモリ３１０に格納され、これは、ターゲットの座標ｘ，ｙ
を得るようカメラ３０１及び３０２からの画像の計算に使用され、その後、アプ
リケーション処理３３０に与えられる。アプリケーション処理３３０は、その後
、ホワイトボード上のトレース、又は、ゲームのアバターの制御データといった
出力を発生する。

【００４０】尚、カメラ３０１及び３０２によって集められる投影データは、ソナー、無線
、超音波医用機器、又は、平面投影を形成することが可能である任意の他の装置
といった他の情報源からも得られる。

【００４１】当業者には、本発明は上述した実施例の詳細に制限されず、また、本発明は本
発明の目的又は本質的な特性から逸脱することなく他の特定の形式で具現化され
得ることが明らかであろう。従って、上述される実施例は、どの点においても説
明的且つ非制限的であると考えられるべきであり、本発明の範囲は上述された説
明ではなく特許請求の範囲によって示され、従って、特許請求の等価物の意味及
び範囲内である全ての変更は本発明に含まれるものとする。

【図面の簡単な説明】

【図１】本発明の１つの実施例に従って、１つのカメラのシーン投影（又は基準投影）
上のターゲット位置を、第２のカメラの投影を使用することにより識別するため
のセットアップを示す図である。

【図２】図１の実施例に従って、１つのカメラによって得られる投影に関し説明するた
めのシーンを示す図である。

【図３】図２のカメラによって撮られるシーン投影を示す図である。

【図４】図１の実施例のもう１つのカメラによって得られる投影に関し説明するための
シーンを示す図である。

【図５】図４のカメラによって撮られるシーン投影を示す図である。

【図６】ターゲット座標を得るために、図５のシーンから選択される方向を指し示す点
が、平面投影変換されることにより、図３のシーンにマッピングされる図である
。

【図７】本発明の別の実施例に従って、２つのカメラからの画像を用いて基準投影上へ
のターゲット位置の投影を識別するよう使用され、ターゲットを指し示す方向ベ
クトルを含むシーンを有するセットアップを示す図である。

【図８】図７の実施例におけるカメラ画像の画像投影を示す図である。

【図９】図７の実施例におけるカメラ画像の画像投影を示す図である。

【図１０】方向ベクトルによって指し示されるターゲットを識別するために、単一の方向
ベクトルの基準画像上への投影の平面投影変換を組合わせた図である。

【図１１】本発明を適用するために用いられてよい装置及び処理を示す図である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者リー，ミ−スーエンオランダ国，5656 アーアーアインドーフェン，プロフ・ホルストラーン６Ｆターム(参考） 5B057 BA02 CC01 CH07 CH08 CH11 CH18 DA07 DA08 DA16 DB03 DC08 DC09 DC32 DC36 5B087 CC26 CC33 DD11 5L096 BA18 CA02 FA67 FA69

Claims

【特許請求の範囲】

【請求項１】平面上のターゲットの位置を求める装置であって、ターゲットの指し示すインジケータを含むシーンの第１の投影を表す第１の信
号を集める第１の画像収集装置と、上記シーンの第２の投影を表す第２の信号を集める第２の画像収集装置と、上記第１の信号及び上記第２の信号を受信するよう接続されるコンピュータ装
置とを含み、上記コンピュータ装置は、上記第１の信号及び上記第２の信号のうちの少なく
とも１つの信号の少なくとも一部に線形変換を行い、上記線形変換の結果を、上
記第１の信号及び上記第２の信号のうちのもう一方の信号に組合わせ、それによ
り、上記シーンの基準投影上の上記ターゲットの位置を得るようプログラムされ
、上記基準投影は、上記シーンの第３の投影、上記第１の投影、及び上記第２の
投影のうちの１つである装置。
【請求項２】シーンの第１の平面投影及び第２の平面投影を受け取るよう
プログラムされるプロセッサを含み、上記プロセッサは、上記第１の平面投影及び上記第２の平面投影のそれぞれか
ら、個々の軌跡を識別するようプログラムされ、上記プロセッサは、上記第１の平面投影の軌跡及び上記第２の平面投影の軌跡
のうちの少なくとも１つの変換を計算し、少なくとも１つの変換された軌跡を形
成するよう更にプログラムされ、上記プロセッサは、上記少なくとも１つの変換された軌跡から、上記第１の平
面投影の軌跡及び上記第２の平面投影の軌跡のうちの少なくとも１つと合わされ
る３次元表面上のターゲットの、上記シーンの上記第１の平面投影及び上記第２
の平面投影のいずれか、又は、第３の共通の平面投影上における座標位置を計算
するよう更にプログラムされる画像プロセッサ。
【請求項３】ターゲットの位置を求める方法であって、平面上にあるターゲットを指し示すインジケータの第１の画像及び第２の画像
を収集する段階と、上記第１の画像及び上記第２の画像のうちの少なくとも１つに平面投影変換を
行い、上記ターゲットの座標を決定する段階とを含む方法。
【請求項４】上記収集する段階は、シーンの平面投影を表す第１の画像及
び第２の画像をそれぞれ形成する段階を含む請求項３記載の方法。
【請求項５】上記変換を行う段階は、人間のポインティングジェスチャの
特徴を識別する段階を含む請求項３記載の方法。
【請求項６】上記変換を行う段階は、上記平面にある４つの点の画像にお
ける座標から上記平面投影を決定する段階を含む請求項３記載の方法。
【請求項７】平面上にあるターゲットを識別する方法であって、第１の平面投影の少なくとも４つの点、及び、第２の平面投影の少なくとも４
つの点から線形変換を計算する段階と、上記第１の平面投影に対応する平面における第１の軌跡を、上記第２の平面投
影に変換させる段階と、上記第１の軌跡の変換と、上記第２の平面投影に対応する平面における軌跡と
の交点を決定する段階とを含む方法。
【請求項８】上記第１の平面投影及び上記第２の平面投影のそれぞれの上
記少なくとも４つの点は、全て基準面にある少なくとも４つの点からなる単一の
組の投影である請求項７記載の方法。
【請求項９】平面上にあるターゲットを識別する方法であって、それぞれの視野から基準面にある点を撮像し、上記それぞれの視野からの上記
点を上記基準面の対応する点にマッピングするのに有効な変換を得ることにより
線形変換を計算する段階と、上記線形変換のうちの１つを用いて、３次元軌跡の第１の画像を変換する段階
と、上記線形変換のうちのもう１つを用いて、上記軌跡の第２の画像を変換する段
階と、上記変換段階から結果として得られる上記軌跡の各変換の交点を決定し、上記
軌跡によって指し示され、上記基準面における上記ターゲットの座標を決め、上
記ターゲットは上記基準面内にある段階とを含む方法。
【請求項１０】基準表面にあるターゲット点を識別する方法であって、上記基準表面の点の少なくとも１つの第１の表面投影及び第２の表面投影を形
成し、上記点の数は、上記基準表面の形状によって部分的に決められる段階と、上記基準表面の上記点の上記投影に反応して変換を得、上記変換は、上記点の
それぞれを、上記第１の投影面及び上記第２の投影面のうちのいずれか、又は、
第３の面で有り得る結果としての投影面上のそれぞれの点に変換するよう行われ
、上記基準面上の所与の点の各投影は、上記結果としての投影面上で同一の座標
にある段階と、上記変換を使用し、軌跡の少なくとも１つの投影を変換し、上記ターゲットを
識別する段階とを含む方法。