JP4053903B2 - Pointing method, apparatus, and program - Google Patents

Pointing method, apparatus, and program Download PDF

Info

Publication number
JP4053903B2
JP4053903B2 JP2003062545A JP2003062545A JP4053903B2 JP 4053903 B2 JP4053903 B2 JP 4053903B2 JP 2003062545 A JP2003062545 A JP 2003062545A JP 2003062545 A JP2003062545 A JP 2003062545A JP 4053903 B2 JP4053903 B2 JP 4053903B2
Authority
JP
Japan
Prior art keywords
tag
tracking
instruction
cursor
pointing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003062545A
Other languages
Japanese (ja)
Other versions
JP2004272598A (en
Inventor
育生 原田
晃 小野澤
英一 細谷
久雄 野島
秀則 佐藤
美紀 北端
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003062545A priority Critical patent/JP4053903B2/en
Publication of JP2004272598A publication Critical patent/JP2004272598A/en
Application granted granted Critical
Publication of JP4053903B2 publication Critical patent/JP4053903B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Position Input By Displaying (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a pointing device allowing operation even in a position apart from an interface device, allowing the operation without restraint from a specific remote controller, and having recognition accuracy not differing by peripheral illumination conditions or the like. <P>SOLUTION: An image including a color tag 5 held by a hand of an operator 4 is photographed by a camera, and is sent to a position detection part 11 through a directing tag registration part 16. The directing tag registration part 16 designates an area of a window W1 to start the position detection part 11, and detects an object position. When a unique object is decided as a detection result thereof, the position of the object is periodically tracked by use of a vicinity search part 12, and a temporary cursor position is transmitted to an interaction interface part 15. When the object is present inside the window W1 for a prescribed time T1 sec or above, comes out of the window W1, comes into a window W2 within a prescribed time T2 sec, and remains inside the window W2 for a prescribed time T3 sec or above, the object is recognized as a directing tag. <P>COPYRIGHT: (C)2004,JPO&amp;NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、機器制御やモニタリング・コマンド実行などのインタラクションを実施するインタフェース装置に関する。
【0002】
【従来の技術】
ディスプレイ装置の画面上をポインティングする従来の代表的な技術として、1.マウスやタブレットペンのように、システムに接続された特定のポインティングデバイスを用いるもの、2.リモコン端末を用いて、インタフェース装置側と離れた位置から通信を行うことによりポインティングを行う手段、3.カメラから取得した操作者画像に基づく操作者のジェスチャー動作認識を用いる手段、4.操作者画像を表示画面に重畳し、該操作者の体の一部とポインティング対象物との重なりを検出することによるポインティング手法が存在する。
【0003】
第1のマウスやタブレットペンのようなポインティングデバイスを用いる方法は伝統的な方法であり、インタフェース装置に接続されたポインティングデバイスを板状の物体の上で移動させる移動量、あるいは、電子的手段で検出されたx, y座標を画面に対応付け、カーソルとして表示することで、ポインティングを実現している。表示画面を直接タッチするタッチパネルもインタフェース装置に接続されたデバイスを用いたx, y座標値を得る点で、この方法の一種である。この方法の拡張として、赤外線を用いた無線のマウスなども存在する。
【0004】
第2のリモコン端末による方法は、操作者のボタン操作に基づいて、赤外線の発光などを用いてコマンドを送信、インタフェース装置側が受信することでポインティングを行う。操作者は、インタフェース装置から数m離れていても操作が可能となる。
【0005】
第3のジェスチャー動作認識による方法では、操作者の動作を分析しコマンドを選択する(非特許文献1、2参照)。操作者の動作は、カメラを用いて2次元あるいは3次元に取得し、その画面の特徴量の変化、あるいは画像処理により特定された身体部位の動作軌跡のパターン認識処理により規定のコマンド集合から1つを選択することができる。
【0006】
第4の操作者画像と対象物の画像上の重なりを用いる方法では、カメラ画像から操作者あるいは操作者の手の部分を抽出し、抽出された領域とポインティング対象物との重なりを検出して、ポインティングを実現する(非特許文献3から5を参照)。
【0007】
第3、第4の方法では、操作者の動作や画像の認識において、磁気センサや発光素子、あるいは反射材を用いたマーカやセンサを体に装着して認識を容易にする方法と、背景差分・動き差分処理や肌色の認識などの画像処理によって認識処理を行うものがある。
【0008】
【非特許文献1】
桐島、佐藤、千原、“注視点の学習と選択制御による身振りの実時間画像認識”信学技報、PRMU2001―203, Jan., 2002.
【非特許文献2】
今野、八木、山内、安村、“ジェスチャー入力によるマルチモーダルインタラクティブシステムの試作”、情処研報、HI, No. 60, pp. 65―72, 1995.
【非特許文献3】
Vivid Group 社のGesture Xtreme Software関連製品、
http://www.vividgroup.com/
【非特許文献4】
佐木ら、“パソコン映像入力を用いたアクション・インタフェースの試み”、計測自動制御学会部会ヒューマンインタフェース部会、第12回ヒューマン・インタフェース・シンポジウム論文集、pp. 213 ―218, 1996.
【非特許文献5】
北端、池永、野島、内村、山下、“キャラクタエージェントとのインタラクションの検討―自己像表示を使ったインタフェースの評価―”、ヒューマンインタフェース学会、第5回ノンバーバルインタフェース研究会(SIGNOI), pp. 11―16, 2002.
【0009】
【発明が解決しようとする課題】
実空間にある物体を指定し、該物体の情報を取得あるいは該物体を操作するための指示(ポインティング)操作においては、操作者は操作対象の物体に直接接触して操作できない状態が想定される。また、その物体を利用するに当たって、その操作のためにインタフェース装置(計算機や操作パネルなど)の近くに束縛されず、かつ、特殊なデバイスを用いずに操作できることが望ましい。この点で、従来のポインティング手法は、以下に示す問題点があった。
【0010】
第1のマウスやタブレットペンなどのポインティングデバイスを用いる方法では、操作者はインタフェース装置の至近位置に束縛され、インタフェース指定のポインティングデバイスを用いる必要があった。タッチパネルの場合でも、操作者は手またはペンで操作する必要があり、操作者はインタフェース装置から離れることはできない。
【0011】
第2のリモコン端末によるポインティング操作では、多くの場合、リモコン端末は特定の機器の操作に特化して作製されているため、操作対象物体(機器)毎にリモコン端末を持ち運ぶ必要があり、また、必要なリモコン端末が手元に発見できなければそれを探索する手間が発生する。また、リモコン装置の多くは汚れを嫌うため、濡れ手で触れないなど、操作者の手の状態に制約が発生する。
【0012】
【課題を解決するための手段】
本発明のポインティング装置は、 カメラで取得され、ディスプレー画面に表示された物体の画像をポインティングして特定の指示または操作を指示するインタフェース装置における、操作者のポインティング操作を認識するポインティング装置であって、
実空間内にある、色相、彩度、明度、あるいは光の三原色の所定範囲の色を発光または反射する色タグの付いた所定の物体の、カメラ画像内の与えられた領域内での位置検出を行う位置検出手段と、
カメラ画像での時間的に1つ手前のカメラ画像において、前記位置検出手段が出力した物体位置を含む予め指定された大きさの領域を位置検出範囲として前記位置検出手段に位置検出を指示する近傍探索手段と、
タグ座標をディスプレ画面座標に変換するカーソル生成手段と、
該変換後のディスプレー画面座標を前記インタフェース装置にカーソルデータとして送信するインタラクションインタフェース手段と、
前記近傍探索手段を用いて前記色タグを追跡し、前記色タグ座標を前記カーソル生成手段に送信するカーソル追跡手段と、
前記位置検出手段によって前記物体が画面上の所定の領域に検出されると、前記近傍追跡手段を用いて、前記物体の位置を定期的に検出するとともに、前記物体が一定時間以上その所定の領域内に存在することにより、前記物体を指示用タグとして登録し、前記カーソル追跡手段に指示用タグの追跡指示を送信する指示用タグ登録手段と
を有し、
前記指示用タグ登録手段によって前記指示用タグが登録された後、登録時に前記指示用タグが実際に発光あるいは反射する色範囲の発光あるいは反射頻度を用いて、頻度の高い範囲を含む色範囲となるように所定の色範囲を縮小した色範囲を求め、その指示用タグの探索において、縮小された色範囲を用いて前記近傍探索手段による近傍探索を実施する。
【0013】
本発明の目的は、インタフェース装置から離れた位置でも操作でき、または特定のリモコン装置に縛られずに操作でき、認識精度が周囲の照光条件などで劣化しにくいポインティング方法、装置、およびプログラムを提供することにある。
【0014】
【課題を解決するための手段】
本発明のポインティング装置は、
与えられた領域内において、実空間内にある所定の物体の位置の検出を行う位置検出手段と、
時間的に1つ手前の画面での物体位置の近傍を位置検出範囲として前記位置検出手段に指示する近傍探索手段と、
指示用タグ座標をディスプレイ画面座標に変換するカーソル生成手段と、
インタフェース装置にカーソルデータを送信するインタラクションインタフェース手段と、
近傍探索手段を用いて指示用タグを追跡し、前記カーソル生成手段に送信するカーソル追跡手段と、
位置検出手段と近傍探索手段とカーソル追跡手段を用いて、任意のタイミングで物体を指示用タグとして認識する指示用タグ登録手段を有する。
【0015】
本発明では、操作者が手に触れ得る任意の物体についてあらかじめ簡単な特徴づけを行い、ポインティング操作時に操作者が手に持っている物体をその場でシステムに提示することにより、ポインティング装置として利用できるようにしている。操作者は、自らの手元にある手ごろな物体を任意に選んでポインティング装置とすることができ、システムに再提示することにより、その場その場の状況に応じてポインティング装置に使用する物体を取り替えることができる。このため、操作の都度計算機近くまで移動したり、手の汚れを都度洗ったり、リモコン装置を紛失して部屋中を捜したりすることなく、簡易に計算機や家電装置などの操作が可能になる。
【0016】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照して説明する。
【0017】
(第1の実施形態)
図1は本発明の第1の実施形態のポインティング装置の構成図である。本実施形態のポインティング装置は、カーソル情報を作成し、アイコンの選択・実行処理を実行するインタラクション装置へ該カーソル情報を送出する装置である。
【0018】
操作者4が手にしている色タグ5は、あらかじめ定められた色を発光または反射する物体である。カメラ3は、室内を撮影するカメラであって、当該色が判別できるようなカラー画像を取得するものとする。ポインティング装置1は、位置検出部11と近傍探索部12とカーソル生成部13とカーソル追跡部14とインタラクションインタフェース部15と指示用タグ登録部16ならびに表示用のディスプレー2で構成される。ディスプレー2上には、指示用タグ登録用の窓W1と窓W2が設けられている。
【0019】
インタラクション装置はディスプレー2に含まれている。ただし、カメラ画像は、本ポインティング装置1とインタラクション装置で共有しなけらばならない。現実的には、同一のPC上で互いに通信しながら動作するプログラムとして実現される。また、カメラ映像を両方から参照できる処理プロセスも同時に動作する。
【0020】
位置検出部11は本実施形態では、指示用タグ登録部16から与えられた領域内において、当該色による位置の検出を行う。カメラ3から取得した画像から当該色として定めた色相範囲・明度範囲・彩度範囲の色信号を検出し、画像を連続する領域毎に分割する。面積の小さすぎる領域はノイズとして無視した後、検出した領域集合の重心座標と面積列を出力する。重心は物体の位置そのものとして用いられる。面積は、物体の大きさを示し、座標近傍探索で検出した物体とサイズの比較をするのが目的である。適当な閾値を定め、サイズが大きく異なるものは追跡中の物体ではないと推定する。物体がなくなったら、重心座標と面積は消失扱いする。
【0021】
近傍探索部12は前画面(その処理時点で取得している画面に対して時間的に1つ手前の画面)での物体(色タグ5の付いた物体)位置の近傍を指定して位置検出部11により位置検出を行う。近傍内に物体が検出されれば新しい位置を出力する。複数の物体が検出された場合は、前画面での物体位置との距離、領域面積などを評価値として唯1つの位置を選択する。近傍内に物体が検出されなければ探索失敗を指示用タグ登録部16に報告する。「複数の物体」については、指定された領域に、当該色の物体が複数個入ってしまう可能性と、一つの物体の幾つかの部分が当該色になっているため、複数の物体に見える可能性がある。この場合、実際には正確な物体認識はできないが、仮に面積最大の該当色領域を、目指す「物体」と推定する、あるいは、閾値以下の距離に近接する当該色領域を一塊と扱って、複数の塊の中で最大のものを物体と推定する、等の方法で唯一に定める。
【0022】
カーソル生成部13はカーソル追跡部14から与えられた指示用タグ座標をディスプレー画面座標に変換する。カメラ設置位置とディスプレー設置位置、カメラの画角を考慮して、回転・拡大/縮小・移動処理により変換する。変換のパラメータは、操作者の平均的な立ち位置からみてディスプレー上の適切な範囲が指示可能となるようにあらかじめキャリブレーションによって設定する。
【0023】
インタラクションインタフェース部15はインタラクション装置にカーソルデータを送信する。カーソルは、本カーソルと仮カーソルの2状態があり、インタラクション装置におけるインタラクション作業は本カーソル状態においてのみ有効となり、仮カーソルの状態では、カーソルの位置表示のみが行われるものとする。
【0024】
指示用タグ登録部16は最初に追加したい物体の位置を検出するために、ある時点において、その時点の画面上の特定領域である窓W1の領域を指定して位置検出部11を起動し、位置検出部11に物体位置を検出させる(検出は色によって行われる)。一度物体の位置を検出すると(唯一の物体に定まると)、カーソル追跡部14を用いて、その物体が次にどこに移動したかを検出する動作を繰り返し、物体の追跡を行う。物体位置検出済み画面の次の画面では、検出済みの位置付近(近傍)を探索の範囲として位置検出を行うことで、次の時点(画面)における移動後の物体位置の検出を試みる。指示用タグ登録部16は、カーソル追跡部14に物体を追跡させる一方で、図2左側(指示用タグ登録部16)のフローに沿って新しい物体を検出した場合は、その位置から窓W1、W2内の物体を追い、仮カーソルの検出と本カーソルへの変更判断を行っている。新しく仮カーソルあるいは本カーソル化が検出されると、それをカーソル追跡部14に送信する。
【0025】
カーソル追跡部14は指示用タグ登録部16から起動されると、指示用タグ登録部16とは独立してカーソル位置(同時に2つのタグ(仮カーソルと本カーソル))を追跡し続ける。カーソル追跡部14は指示用タグ登録部16から受け取った指示用タグを追跡し、結果をカーソル生成部13でカーソル座標に変換して、インタラクションインタフェース部15から出力する。指示用タグ登録部16から新しい位置を受信した場合は、その位置から追跡を行う。追跡に失敗した場合、指示用タグ登録部16から新しい追跡位置を受信するまで、追跡を中止する。
【0026】
図2は、上記各部の動作フローの概要を示したフローチャートである。各部は、独立した処理プロセスとして動作し、相互に情報を伝達しつつ処理を進める構成となっている。
【0027】
指示用タグ登録部16は色タグ5の付いた物体が一定時間T1秒以上の間窓W1内に存在すると、その物体の位置を仮カーソルとして生成する。物体が窓W1から出て一定時間T2秒以内に窓W2に入り、さらに一定時間T3秒以上窓W2内に滞留した場合、その物体を指示用タグと認識し、カーソルとして使用することを決定する(仮カーソルが本カーソルになる)。条件が満たされない場合、仮カーソルの送信を中止し、初期状態に戻る。
【0028】
こうすることにより、操作者5は、当該色の物体(つまり、当該色の色タグ5がついた物体)を手に持って、画面を見ながら物体を移動させて窓W1に、次に窓W2に入れてやることで、その物体をそれ以後、通常のマウスかタブレットペンのような役割をする物体にすることができる。システムがその物体の追跡に成功する限りポインティングデバイスの機能は有効で(色タグをカーソルとして利用でき)、操作者4は、インタラクション装置とインタラクションを実施できる。途中で物体の追跡に失敗すれば、カーソルが消失する。しかし、改めて窓W1、W2へ物体をかざすことでカーソルを復活できる。さらに、カーソルが生きている状態でさえ、別の物体を窓W1へ入れると仮カーソルが生成され、窓W2へ移動させると、別の物体が本カーソルになる。別の物体が本カーソルになった段階で、最初の物体の位置は無視される。本カーソル追跡中に、仮カーソルが生成され得るので、カーソル追跡部14は、同時に2つのタグを追跡する。
【0029】
このようにして、色さえ当該色であれば、どんなものでもマウスやタブレットペンのようなポインティングデバイスとして利用可能である。IDタグを用いる場合も、ユーザが適当に選んだ物体のIDタグがそのままポインティングデバイスになるので、IDタグがある限り、そこら辺りにあるものを掴んで、何でもポインティングデバイスにできる。通常のマウスやタブレットペンのように、あらかじめシステムに取り付けたりIDを固定的に割り付けることが不要になる。指示用タグ登録部16はカーソル追跡部14が起動されていないときはカーソル追跡部14を起動し、既に起動されているときは、カーソル追跡部14に新しい指示物体の位置を伝える。
【0030】
本実施形態では、指示用タグ登録部16がカーソル追跡部14と並行的に動作することにより、ポインティング操作中に、操作者4が色タグ5を放置して移動した場合も、移動先に同色の色タグを別に用意しておけば、再度登録作業を実行することで、ポインティング操作を再開可能である。
【0031】
室内の任意の適当な位置に色タグ5を複数用意しておくことで、登録済みの物体に束縛されずに、場所を移動しても操作の継続が可能になる。
【0032】
また、本装置が操作途中で色タグの追跡に失敗した場合、カーソルの消失によってそれを知ることができる。その場合、登録操作をやり直すことで、ポインティングを再開することができ、認識精度を上げられない環境下でも利用が容易になる。カーソルの消失に際して操作者に警告を発する機構を設ければ、さらにユーザビリティを向上できる。
【0033】
本実施形態の変形例として、肌色の認識を用いることにより、操作者の手を色タグとして用いることが可能である。手の認識には、既存の発明を応用して精度を向上させることも可能である。さらに、目立つ色のシールのようなものでも十分に明るければ色タグとして使用できる。
【0034】
なお、指示用タグ登録部16によって指示用タグが登録された後、登録時に指示用タグが実際に発光あるいは反射する色範囲の発光あるいは反射頻度を用いて、頻度の高い範囲を含む色範囲となるように所定の色範囲を縮小した色範囲を求め、その指示用タグの探索においてのみ、縮小された色範囲を用いて近傍探索部12による近傍探索を実施するようにしてもよい。
【0035】
元々所定の色範囲をHSVやRGBなどの色の空間中の小領域に分割して、実際に検出された画面上の各ピクセルの色をその空間中にプロットすれば、色の使用頻度が出る。この使用頻度の上位n位を含む色集合、あるいは上位の色から選んで頻度値の累積が全体のx%以上となる色集合を囲む色範囲を新たに近傍探索用に用いることで、色を絞りこむことができる。
【0036】
これは、所定の色範囲を広く取っておいて、実際に何かそれらしいものが窓に入ってきたら、それが何でも指示用タグと思って、その色を用い、別のものが入ってきたら、その別のものの色で追跡を掛けるという方法である。利点は、指示タグに使えるものの色範囲を広くした上で(より多くのものが指示用タグとして使える)、一旦タグとして選ぶと、色を絞り込むことで他の物を誤認識する可能性を減らせることである。
【0037】
(第2の実施形態)
図3のポインティング装置は、自己像表示インタフェース装置に本発明を適用した例である。自己像表示型インタフェース装置は、操作者を撮影したカメラ画像の鏡像をディスプレー2に重畳表示し、ディスプレー2内に同時に撮影されている物体やCGによる仮想物体、アイコン等を選択操作するインタフェースである。鏡像を作製するために、鏡像処理部17が必要になる。
【0038】
本ポインティング装置は、インタラクション装置に鏡像データをカーソル情報とともに送信することで、自己像表示インタフェース装置の中に統合化することができる。
【0039】
(第3の実施形態)
図4のポインティング装置は、ID付きタグを用いた実施形態である。ID付きタグ6として、本実施形態では赤外線(IR)を使ったタグを想定している。タグは自分のIDを赤外線でモールス信号のような信号を用いて送信し、その映像を赤外線カメラで取得して、画像処理により、ID何番のタグが画面のどの位置にいるかという情報を配信する機能を有している。カメラ側にもう一つ赤外線発信源をおいて、外からIDを送って、タグに自分のIDにAcknowledg信号を返させて位置を特定する方法もある。いずれにせよ、IDタグの画面上の位置を検出して、ID+座標値として配信させることにより、本実施形態において利用可能である。無線電波タグ(RFタグ)や超音波を使ったタグなど、ディスプレー画面上に対応付ける際に十分な精度を得られるならば他のID付きタグを用いてもよい。IDタグの認識装置はカメラが必ずしも共有されなくてもよいので別PCで実現されることもある。
【0040】
タグ位置のセンシングについては、既存技術を用いることが可能である。図4では、赤外線カメラ3’とIRタグ制御・ID/座標検出部18によりタグID・座標値対の集合20を得ている。位置検出部11において、第1の実施形態と異なり、IRタグ制御・ID/座標検出部18から出力された座標群から指定領域のタグを検出する。また、近傍探索部12では、追跡中タグと同一IDのタグについて近傍を探索する。
【0041】
(第4の実施形態)
図5に示す第4の実施形態は、第2の実施形態と第3の実施形態を統合し、タグ認識による自己像表示インタフェースを構成したものである。タグ認識結果は、実世界の物体認識に基づくインタフェースを構築する際に物体登録のための情報として利用できる。図5に示すように、IR IDタグのID・座標情報と、カメラの鏡像データの両方をインタラクション装置と共有することで、IR IDタグを装着させた物体を指示用タグとしても、実世界インタフェースの処理対象となる実世界物体としても使用可能な自己表示型インタフェースを構築できる。
【0042】
また、第3、第4の実施形態のように、IDタグで選択する場合は、最初の検出(近傍探索部12ではなく、指示用タグ登録部16から直接位置検出部11を起動して選択する)の際に、複数のID付き物体が領域内にある可能性がある。この場合は、ランダムに選ぶ、過去の履歴で選ばれたものがあれば、それを選ぶ、番号の一番若いものを選ぶ、等の方法が想定できる。但し、一度IDが決まれば、近傍探索部12では、そのIDの物体のみを探索しようとするので、ID付き物体が複数あっても、選ばれるものは唯一に定まる(IDが重複しない限り)。
【0043】
(第5の実施形態)
図5に示す第5の実施形態のポインティング装置は、第1の実施形態のポインティング装置にマイク7と音声認識コマンド部21を追加したものである。
【0044】
窓W1で物体が検出されてT1秒以上経過して仮カーソルを生成するまでは第1の実施形態と同様に動作し、その後、T4秒以内に、音声コマンド認識部21から「タグ登録」などの所定のキーワードが検出されれば、仮カーソルを本カーソルに移行し、T4秒以内にキーワードが検出できなければ、指示用タグ登録部16は、窓W1内の物体検出処理に戻ってやり直す。
【0045】
(第6の実施形態)
図6に示す第6の実施形態のポインティング装置は、第1の実施形態のポインティング装置に移動軌跡分析部22を追加したものである。
【0046】
窓W1で物体が検出されてT1秒以上経過して仮カーソルを生成するまでは第1の実施形態と同様に動作した後、指示用タグ登録部16は、近傍探索の結果の物体位置情報の時間系列を移動軌跡分析部22に送信する。移動軌跡分析部22では、物体の移動軌跡を分析し、一例として、所定回数以上、所定振幅以上の物体の往復運動が検出されると、その旨を指示用タグ登録部16に報告することにより指示用タグを登録することが可能である。移動軌跡分析部22からの報告がT5秒以上来なければ、指示用タグ登録部16は移動軌跡分析部22に追跡の終了を通知して、窓W1内の物体検出処理に戻ってやり直す。
【0047】
なお、本発明は専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フロッピーディスク、光磁気ディスク、CD―ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。
【0048】
【発明の効果】
以上説明したように本発明によれば、下記の効果がある。
【0049】
操作者は、任意の色タグやIDタグを指示用タグとして用いることにより、操作者は、インタフェース装置の近くに束縛されずに離れた位置からでも、また室内を移動しながらでも操作を実施できる。
【0050】
さらに、任意の指示用タグを登録できることにより、特定のリモコン装置に縛られずに操作が実施でき、したがって、リモコンを探すことにより操作者の時間を浪費することなく操作できる。人の手の認識技術と組み合わせることで、手をタグの代用とした、素手によるポインティングも可能であり、自由度の高いマンマシンインタフェースを構築できる。
【0051】
また、実施形態に示したように、ポインティング実施中でも、再登録操作により、指示用タグを切り替えることが可能になる。操作途中で別作業のために指示用タグを手放して席を立つなどの行為の後に作業を再開する際でも、先に登録した指示用タグに束縛されずに新しく登録したタグで操作を再開できる。
【0052】
さらに、操作途中でタグの追跡に失敗した場合も、タグを再登録することで、容易に作業を再開することが可能である。
【0053】
指示用タグに使う色タグやIDタグは小型のもが製作可能なので、多様なものに取り付け可能である。オフィスで使うペンや物差し、家庭内でもペーパーナイフや台所用品でも使用可能である。
【0054】
このように、本発明によれば、多くの場面で計算機とのインタフェースを利用することが可能になり、日常の多様状況下で、計算パワーを利用するインタフェースを構築するためのポインティング装置を構築できる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態のポインティング装置の構成図である。
【図2】第1の実施形態のポインティング装置の各部の動作を示すフローチャートである。
【図3】本発明の第2の実施形態のポインティング装置の構成図である。
【図4】本発明の第3の実施形態のポインティング装置の構成図である。
【図5】本発明の第4の実施形態のポインティング装置の構成図である。
【図6】本発明の第5の実施形態のポインティング装置の構成図である。
【図7】本発明の第6の実施形態のポインティング装置の構成図である。
【符号の説明】
1 ポインティング装置
2 ディスプレー
3 カメラ
3’ 赤外線カメラ
4 操作者
5 色タグ
6 IR IDタグ
7 マイク
W1, W2 窓
C カーソル
11 位置検出部
12 近傍探索部
13 カーソル生成部
14 カーソル追跡部
15 インストラクションインタフェース部
16 指示用タグ登録部
17 鏡像処理部
18 画像データ
19 IRタグ制御ID/座標検出部
20 タグID/座標データ
21 音声コマンド認識部
22 移動軌跡分析部
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an interface device that performs interactions such as device control and monitoring command execution.
[0002]
[Prior art]
Typical conventional techniques for pointing on the screen of a display device are: 1. Using a specific pointing device connected to the system, such as a mouse or tablet pen, 2. Using the remote control terminal, the interface device side Means for performing pointing by communicating from a remote location; 3. means for using gesture motion recognition of an operator based on an operator image acquired from a camera; 4. superimposing the operator image on a display screen and performing the operation There is a pointing method by detecting an overlap between a part of a person's body and a pointing object.
[0003]
The method using a pointing device such as the first mouse or tablet pen is a traditional method, and is a movement amount for moving the pointing device connected to the interface device on a plate-like object, or an electronic means. Pointing is realized by associating the detected x and y coordinates with the screen and displaying them as a cursor. A touch panel that directly touches the display screen is a kind of this method in that x and y coordinate values are obtained using a device connected to the interface device. As an extension of this method, there is a wireless mouse using infrared rays.
[0004]
In the second remote control terminal method, a command is transmitted using infrared light emission or the like based on an operator's button operation, and pointing is performed by the interface device receiving the command. The operator can operate even a few meters away from the interface device.
[0005]
In the third method based on gesture recognition, an operator's action is analyzed and a command is selected (see Non-Patent Documents 1 and 2). The motion of the operator is acquired in two dimensions or three dimensions using a camera, and is changed from a specified command set by a pattern recognition process of a motion locus of a body part specified by a change in the feature amount of the screen or image processing. You can choose one.
[0006]
In the fourth method using the overlap between the operator image and the object image, the operator or the operator's hand part is extracted from the camera image, and the overlap between the extracted area and the pointing object is detected. , Pointing is realized (see Non-Patent Documents 3 to 5).
[0007]
In the third and fourth methods, in recognition of an operator's action and image, a method of facilitating recognition by attaching a marker or sensor using a magnetic sensor, a light emitting element, or a reflective material to the body, and background difference -Some perform recognition processing by image processing such as motion difference processing and skin color recognition.
[0008]
[Non-Patent Document 1]
Kirishima, Sato, and Chihara, “Real-Time Image Recognition of Gestures by Learning of Gaze and Selection Control” IEICE Technical Report, PRMU2001-203, Jan., 2002.
[Non-Patent Document 2]
Konno, Yagi, Yamauchi, Yasumura, “Prototype of multi-modal interactive system by gesture input”, Information Processing Research Reports, HI, No. 60, pp. 65-72, 1995.
[Non-Patent Document 3]
Vivid Group Gesture Xtreme Software related products,
http://www.vividgroup.com/
[Non-Patent Document 4]
Saki et al., "A trial of action interface using personal computer video input", Human Interface Group, Society of Instrument and Control Engineers, Proceedings of the 12th Human Interface Symposium, pp. 213 -218, 1996.
[Non-Patent Document 5]
Kitabata, Ikenaga, Nojima, Uchimura, Yamashita, “Examination of Interaction with Character Agent: Evaluation of Interface Using Self-Image Display”, Human Interface Society, 5th Nonverbal Interface Study Group (SIGNOI), pp. 11- 16, 2002.
[0009]
[Problems to be solved by the invention]
In an instruction (pointing) operation for specifying an object in real space and acquiring information about the object or operating the object, it is assumed that the operator cannot directly touch the object to be operated. . Further, when using the object, it is desirable that the object is not constrained near the interface device (computer, operation panel, etc.) and can be operated without using a special device. In this regard, the conventional pointing method has the following problems.
[0010]
In the first method using a pointing device such as a mouse or a tablet pen, the operator is restricted to the closest position of the interface device and needs to use a pointing device designated by the interface. Even in the case of the touch panel, the operator needs to operate with a hand or a pen, and the operator cannot leave the interface device.
[0011]
In the pointing operation by the second remote control terminal, in many cases, the remote control terminal is specially made for the operation of a specific device, so it is necessary to carry the remote control terminal for each operation target object (device), If the necessary remote control terminal cannot be found at hand, it will take time to search for it. In addition, since many remote control devices do not like dirt, there are restrictions on the state of the operator's hand, such as not touching with a wet hand.
[0012]
[Means for Solving the Problems]
The pointing device of the present invention is a pointing device that recognizes an operator's pointing operation in an interface device that points to a specific instruction or operation by pointing an image of an object acquired by a camera and displayed on a display screen. ,
Location detection in a given area in a camera image of a given object with a color tag that emits or reflects a given range of hue, saturation, brightness, or light primary colors in real space Position detecting means for performing,
In the camera image immediately before in the camera image, a vicinity instructing position detection to the position detection unit using a region of a predetermined size including the object position output by the position detection unit as a position detection range Search means;
Cursor generating means for converting the color tag coordinates on the displacer screen coordinates,
Interaction interface means for transmitting the converted display screen coordinates as cursor data to the interface device;
Cursor tracking means for tracking the color tag using the proximity search means and transmitting the color tag coordinates to the cursor generation means;
When the position detecting unit detects the object in a predetermined area on the screen, the proximity tracking unit is used to periodically detect the position of the object, and the object is in the predetermined area for a predetermined time or more. An instruction tag registration means for registering the object as an instruction tag and transmitting an instruction tag tracking instruction to the cursor tracking means ,
After the instruction tag is registered by the instruction tag registering means, a color range including a high frequency range using a light emission or reflection frequency of a color range in which the instruction tag actually emits or reflects at the time of registration; Thus, a color range obtained by reducing a predetermined color range is obtained, and in the search for the instruction tag, a neighborhood search is performed by the neighborhood search means using the reduced color range.
[0013]
An object of the present invention is to provide a pointing method, apparatus, and program that can be operated at a position away from an interface apparatus or can be operated without being bound by a specific remote control apparatus, and whose recognition accuracy is less likely to deteriorate due to surrounding illumination conditions. There is.
[0014]
[Means for Solving the Problems]
The pointing device of the present invention includes:
Position detecting means for detecting the position of a predetermined object in real space within a given area;
Proximity search means for instructing the position detection means as a position detection range in the vicinity of the object position on the previous screen in time;
A cursor generating means for converting the instruction tag coordinates into display screen coordinates;
Interaction interface means for transmitting cursor data to the interface device;
Cursor tracking means for tracking an instruction tag using a proximity search means and transmitting to the cursor generation means;
It has an instruction tag registration means for recognizing an object as an instruction tag at an arbitrary timing using a position detection means, a proximity search means, and a cursor tracking means.
[0015]
In the present invention, an arbitrary object that can be touched by the operator is simply characterized in advance, and the object held by the operator during the pointing operation is presented to the system on the spot, thereby being used as a pointing device. I can do it. The operator can arbitrarily select a handy object at hand to be a pointing device, and by re-presenting it to the system, the object to be used for the pointing device can be replaced according to the situation on the spot be able to. For this reason, it is possible to easily operate a computer, a home appliance, and the like without moving to the computer each time the operation is performed, washing the hands each time, losing the remote control device and searching the room.
[0016]
DETAILED DESCRIPTION OF THE INVENTION
Next, embodiments of the present invention will be described with reference to the drawings.
[0017]
(First embodiment)
FIG. 1 is a configuration diagram of a pointing device according to a first embodiment of the present invention. The pointing device of the present embodiment is a device that creates cursor information and sends the cursor information to an interaction device that executes icon selection / execution processing.
[0018]
The color tag 5 held by the operator 4 is an object that emits or reflects a predetermined color. The camera 3 is a camera that captures an image of a room, and acquires a color image that allows the color to be identified. The pointing device 1 includes a position detection unit 11, a proximity search unit 12, a cursor generation unit 13, a cursor tracking unit 14, an interaction interface unit 15, an instruction tag registration unit 16, and a display 2 for display. On the display 2, an instruction tag registration window W1 and a window W2 are provided.
[0019]
The interaction device is included in the display 2. However, the camera image must be shared between the pointing device 1 and the interaction device. Actually, it is realized as a program that operates while communicating with each other on the same PC. In addition, a processing process capable of referring to the camera video from both operates simultaneously.
[0020]
In this embodiment, the position detection unit 11 detects a position based on the color in the region given from the instruction tag registration unit 16. Color signals in the hue range, brightness range, and saturation range determined as the color are detected from the image acquired from the camera 3, and the image is divided into continuous regions. A region having an area that is too small is ignored as noise, and then the barycentric coordinates and area column of the detected region set are output. The center of gravity is used as the position of the object itself. The area indicates the size of the object, and the purpose is to compare the size with the object detected by the coordinate neighborhood search. Appropriate thresholds are set, and it is estimated that objects that differ greatly in size are not objects being tracked. When the object disappears, the center of gravity coordinates and area are treated as disappearance.
[0021]
The proximity search unit 12 detects the position by specifying the vicinity of the object (object with the color tag 5) position on the previous screen (the screen immediately before the screen acquired at the time of processing). Position detection is performed by the unit 11. If an object is detected in the vicinity, a new position is output. When a plurality of objects are detected, only one position is selected using the distance from the object position on the previous screen, the area of the area, and the like as evaluation values. If no object is detected in the vicinity, the search failure is reported to the instruction tag registration unit 16. As for “multiple objects”, there is a possibility that a plurality of objects of that color will enter the specified area, and some parts of one object will be in that color, so it looks like multiple objects there is a possibility. In this case, although accurate object recognition cannot actually be performed, it is assumed that the corresponding color region having the largest area is estimated as an “object” to be aimed at, or the color regions close to a distance equal to or less than the threshold are treated as a lump. It is uniquely determined by a method such as estimating the largest of the lump of objects as an object.
[0022]
The cursor generation unit 13 converts the instruction tag coordinates given from the cursor tracking unit 14 into display screen coordinates. The image is converted by rotating / enlarging / reducing / moving processing in consideration of the camera installation position, the display installation position, and the angle of view of the camera. The conversion parameters are set in advance by calibration so that an appropriate range on the display can be instructed from the average standing position of the operator.
[0023]
The interaction interface unit 15 transmits cursor data to the interaction device. The cursor has two states, a main cursor and a temporary cursor, and the interaction work in the interaction device is valid only in the main cursor state, and only the cursor position is displayed in the temporary cursor state.
[0024]
In order to detect the position of the object to be added first, the instruction tag registration unit 16 activates the position detection unit 11 by designating a region of the window W1, which is a specific region on the screen at a certain point in time, The position detection unit 11 is caused to detect the object position (detection is performed by color). Once the position of the object is detected (determined as the only object), the cursor tracking unit 14 is used to repeat the operation of detecting where the object has moved next to track the object. On the screen next to the object position detected screen, position detection is performed using the vicinity of the detected position (neighboring) as a search range, thereby attempting to detect the moved object position at the next time point (screen). The instruction tag registration unit 16 causes the cursor tracking unit 14 to track the object. On the other hand, when a new object is detected along the flow on the left side of FIG. 2 (instruction tag registration unit 16), the window W1, Following the object in W2, the temporary cursor is detected and the change to the main cursor is determined. When a new temporary cursor or real cursor is detected, it is transmitted to the cursor tracking unit 14.
[0025]
When activated by the instruction tag registration unit 16, the cursor tracking unit 14 keeps tracking the cursor position (two tags (temporary cursor and main cursor) at the same time) independently of the instruction tag registration unit 16. The cursor tracking unit 14 tracks the instruction tag received from the instruction tag registration unit 16, converts the result into cursor coordinates by the cursor generation unit 13, and outputs the result from the interaction interface unit 15. When a new position is received from the instruction tag registration unit 16, tracking is performed from that position. If tracking fails, the tracking is stopped until a new tracking position is received from the instruction tag registration unit 16.
[0026]
FIG. 2 is a flowchart showing an outline of the operation flow of each of the above parts. Each unit operates as an independent processing process, and is configured to advance processing while transmitting information to each other.
[0027]
The instruction tag registration unit 16 generates the position of the object as a temporary cursor when an object with the color tag 5 exists in the window W1 for a predetermined time T1 seconds or longer. When an object exits the window W1 and enters the window W2 within a predetermined time T2 seconds and stays in the window W2 for a predetermined time T3 seconds or more, the object is recognized as an instruction tag and is determined to be used as a cursor. (The temporary cursor becomes the real cursor.) If the condition is not satisfied, the temporary cursor transmission is stopped and the initial state is restored.
[0028]
By doing this, the operator 5 holds the object of the color (that is, the object with the color tag 5 of the color) in his hand, moves the object while looking at the screen, and then moves to the window W1. By putting it in W2, the object can then be made an object that acts like a normal mouse or tablet pen. As long as the system successfully tracks the object, the function of the pointing device is valid (the color tag can be used as a cursor) and the operator 4 can interact with the interaction device. If tracking an object fails along the way, the cursor disappears. However, the cursor can be restored by holding the object again over the windows W1 and W2. Furthermore, even when the cursor is alive, a temporary cursor is generated when another object is entered into the window W1, and another object becomes the main cursor when moved to the window W2. When another object becomes the cursor, the position of the first object is ignored. Since the temporary cursor can be generated during the tracking of the cursor, the cursor tracking unit 14 tracks two tags at the same time.
[0029]
In this way, any color can be used as a pointing device such as a mouse or tablet pen. Even in the case of using an ID tag, the ID tag of the object appropriately selected by the user becomes the pointing device as it is. Therefore, as long as the ID tag is present, it is possible to grasp anything around that and make any pointing device. It becomes unnecessary to attach to the system in advance or to assign the ID fixedly like a normal mouse or tablet pen. The instruction tag registration unit 16 activates the cursor tracking unit 14 when the cursor tracking unit 14 is not activated, and notifies the cursor tracking unit 14 of the position of a new designated object when the cursor tracking unit 14 is already activated.
[0030]
In the present embodiment, since the instruction tag registration unit 16 operates in parallel with the cursor tracking unit 14, even when the operator 4 leaves the color tag 5 during the pointing operation, the same color is displayed at the destination. If a separate color tag is prepared, the pointing operation can be resumed by executing the registration operation again.
[0031]
By preparing a plurality of color tags 5 at any appropriate position in the room, the operation can be continued even if the place is moved without being bound by a registered object.
[0032]
Also, if the device fails to track the color tag during operation, it can be known by the disappearance of the cursor. In that case, the pointing operation can be resumed by performing the registration operation again, and the use becomes easy even in an environment where the recognition accuracy cannot be increased. If a mechanism for issuing a warning to the operator when the cursor disappears is provided, the usability can be further improved.
[0033]
As a modification of the present embodiment, it is possible to use the operator's hand as a color tag by using skin color recognition. For hand recognition, it is possible to improve the accuracy by applying the existing invention. Furthermore, even a sticker of a prominent color can be used as a color tag if it is sufficiently bright.
[0034]
In addition, after the instruction tag is registered by the instruction tag registration unit 16, a color range including a high frequency range is used by using the light emission or reflection frequency of the color range in which the instruction tag actually emits or reflects at the time of registration. Thus, a color range obtained by reducing a predetermined color range may be obtained, and a neighborhood search by the neighborhood search unit 12 may be performed using the reduced color range only in the search for the instruction tag.
[0035]
If a predetermined color range is originally divided into small areas in a color space such as HSV or RGB, and the color of each pixel actually detected on the screen is plotted in that space, the frequency of use of the color is increased. . By using a color range surrounding the color set including the top n of the usage frequencies, or a color set in which the cumulative frequency value is x% or more selected from the top colors, a new color is used for neighborhood search. Can be squeezed.
[0036]
This is because if a certain color range is kept wide, and something like that actually enters the window, whatever it is, it will be used as an instruction tag, and if another color comes in It is a method of applying the tracking with the color of the other one. The advantage is that you can reduce the possibility of misrecognizing other things by narrowing down the color once you have selected a tag after widening the color range of things that can be used for the instruction tag (more can be used as instruction tags). Is Rukoto.
[0037]
(Second Embodiment)
The pointing device of FIG. 3 is an example in which the present invention is applied to a self-image display interface device. The self-image display type interface device is an interface that superimposes and displays a mirror image of a camera image taken by an operator on the display 2 and selects and operates an object that is simultaneously photographed in the display 2, a virtual object by CG, an icon, and the like. . In order to produce a mirror image, the mirror image processing unit 17 is required.
[0038]
The pointing device can be integrated into the self-image display interface device by transmitting mirror image data together with cursor information to the interaction device.
[0039]
(Third embodiment)
The pointing device of FIG. 4 is an embodiment using a tag with an ID. In this embodiment, a tag using infrared (IR) is assumed as the tag 6 with ID. The tag transmits its ID by infrared signal using a signal such as a Morse code, the image is acquired by an infrared camera, and information about the ID number and the tag is distributed by image processing. It has a function to do. There is another method in which another infrared ray transmission source is placed on the camera side, an ID is sent from the outside, and an Acknowledge signal is returned to the ID of the tag to identify the position. In any case, the present embodiment can be used by detecting the position of the ID tag on the screen and distributing it as an ID + coordinate value. Other tags with IDs may be used as long as sufficient accuracy can be obtained when matching on the display screen, such as a radio wave tag (RF tag) or a tag using ultrasonic waves. The ID tag recognizing apparatus may be realized by another PC because the camera does not necessarily have to be shared.
[0040]
Existing technology can be used for tag position sensing. In FIG. 4, a set 20 of tag ID / coordinate value pairs is obtained by the infrared camera 3 ′ and the IR tag control / ID / coordinate detection unit 18. Unlike the first embodiment, the position detection unit 11 detects a tag in the designated area from the coordinate group output from the IR tag control / ID / coordinate detection unit 18. Further, the neighborhood searching unit 12 searches for a neighborhood of a tag having the same ID as the tracking tag.
[0041]
(Fourth embodiment)
The fourth embodiment shown in FIG. 5 integrates the second embodiment and the third embodiment to configure a self-image display interface by tag recognition. The tag recognition result can be used as information for object registration when constructing an interface based on real-world object recognition. As shown in FIG. 5, by sharing both the ID / coordinate information of the IR ID tag and the mirror image data of the camera with the interaction device, the object with the IR ID tag attached can be used as an instruction tag. It is possible to construct a self-display interface that can be used as a real-world object to be processed.
[0042]
Further, as in the third and fourth embodiments, when selecting by ID tag, the first detection (not by the proximity search unit 12 but by starting the position detection unit 11 directly from the instruction tag registration unit 16 and selecting) A plurality of ID-added objects may be present in the area. In this case, it is possible to envisage methods such as selecting at random, selecting one that has been selected in the past history, or selecting the one with the smallest number. However, once the ID is determined, the proximity search unit 12 tries to search only the object with the ID, so even if there are a plurality of ID-attached objects, the one to be selected is determined uniquely (unless the IDs overlap).
[0043]
(Fifth embodiment)
The pointing device of the fifth embodiment shown in FIG. 5 is obtained by adding a microphone 7 and a voice recognition command unit 21 to the pointing device of the first embodiment.
[0044]
It operates in the same manner as in the first embodiment until the provisional cursor is generated after an object is detected in the window W1 for more than T1 seconds, and thereafter, from the voice command recognition unit 21 within the T4 seconds, “tag registration” and the like If the predetermined keyword is detected, the temporary cursor is moved to the main cursor, and if the keyword cannot be detected within T4 seconds, the instruction tag registration unit 16 returns to the object detection process in the window W1 and starts again.
[0045]
(Sixth embodiment)
The pointing device of the sixth embodiment shown in FIG. 6 is obtained by adding a movement trajectory analysis unit 22 to the pointing device of the first embodiment.
[0046]
After the operation is performed in the same manner as in the first embodiment until the temporary cursor is generated after an object is detected in the window W1 for T1 seconds or longer, the instruction tag registration unit 16 stores the object position information as a result of the proximity search. The time series is transmitted to the movement trajectory analysis unit 22. The movement trajectory analysis unit 22 analyzes the movement trajectory of the object. For example, when a reciprocating motion of the object having a predetermined amplitude or more is detected more than a predetermined number of times, the fact is reported to the instruction tag registration unit 16. Instruction tags can be registered. If the report from the movement trajectory analysis unit 22 does not come for T5 seconds or more, the instruction tag registration unit 16 notifies the movement trajectory analysis unit 22 of the end of tracking, and returns to the object detection processing in the window W1 and starts again.
[0047]
In addition to what is implemented by dedicated hardware, the present invention records a program for realizing the function on a computer-readable recording medium, and the program recorded on the recording medium is stored in a computer system. It may be read and executed. The computer-readable recording medium refers to a recording medium such as a floppy disk, a magneto-optical disk, a CD-ROM, or a storage device such as a hard disk device built in the computer system. Furthermore, a computer-readable recording medium is a server that dynamically holds a program (transmission medium or transmission wave) for a short period of time, as in the case of transmitting a program via the Internet, and a server in that case. Some of them hold programs for a certain period of time, such as volatile memory inside computer systems.
[0048]
【The invention's effect】
As described above, the present invention has the following effects.
[0049]
By using an arbitrary color tag or ID tag as an instruction tag, the operator can perform an operation even from a remote location without being constrained near the interface device or while moving in the room. .
[0050]
Furthermore, since any instruction tag can be registered, the operation can be performed without being tied to a specific remote control device, and therefore, the operation can be performed without wasting the operator's time by searching for the remote control. By combining with human hand recognition technology, it is possible to point with bare hands, using hands instead of tags, and to build man-machine interfaces with a high degree of freedom.
[0051]
Further, as shown in the embodiment, it is possible to switch the instruction tag by a re-registration operation even during pointing. Even when resuming work after an act such as letting go of the instruction tag and standing up for another work during the operation, the operation can be resumed with the newly registered tag without being bound by the previously registered instruction tag. .
[0052]
Furthermore, even if the tag tracking fails during the operation, it is possible to easily resume the work by re-registering the tag.
[0053]
Since color tags and ID tags used for instruction tags can be manufactured in small sizes, they can be attached to various types of tags. It can be used with pens and rulers used in the office, paper knives and kitchen utensils at home.
[0054]
As described above, according to the present invention, it is possible to use an interface with a computer in many situations, and a pointing device for constructing an interface that uses calculation power can be constructed under various daily situations. .
[Brief description of the drawings]
FIG. 1 is a configuration diagram of a pointing device according to a first embodiment of the present invention.
FIG. 2 is a flowchart illustrating the operation of each unit of the pointing device according to the first embodiment.
FIG. 3 is a configuration diagram of a pointing device according to a second embodiment of the present invention.
FIG. 4 is a configuration diagram of a pointing device according to a third embodiment of the present invention.
FIG. 5 is a configuration diagram of a pointing device according to a fourth embodiment of the present invention.
FIG. 6 is a configuration diagram of a pointing device according to a fifth embodiment of the present invention.
FIG. 7 is a configuration diagram of a pointing device according to a sixth embodiment of the present invention.
[Explanation of symbols]
1 Pointing device 2 Display 3 Camera 3 'Infrared camera 4 Operator 5 Color tag 6 IR ID tag 7 Microphone W1, W2 Window
C Cursor 11 Position detection unit 12 Neighborhood search unit 13 Cursor generation unit 14 Cursor tracking unit 15 Instruction interface unit 16 Instruction tag registration unit 17 Mirror image processing unit 18 Image data 19 IR tag control ID / coordinate detection unit 20 Tag ID / coordinate data 21 voice command recognition unit 22 movement trajectory analysis unit

Claims (9)

カメラで取得され、ディスプレー画面に表示された物体の画像をポインティングして特定の指示または操作を指示するインタフェース装置における、操作者のポインティング操作を認識するポインティング方法であって、
実空間内にある、色相、彩度、明度、あるいは光の三原色の所定範囲の色を発光または反射する色タグの付いた所定の物体の、カメラ画像内の与えられた領域内での位置の検出を行う位置検出ステップと、
カメラ画像での時間的に1つ手前のカメラ画像において、前記位置検出ステップが出力した物体位置を含む予め指定された大きさの領域を位置検出範囲として前記位置検出ステップに位置検出を指示する近傍探索ステップと、
タグ座標をディスプレー画面座標に変換するカーソル生成ステップと、
該変換後のディスプレー画面座標を前記インタフェース装置にカーソルデータとして送信するインタラクションインタフェースステップと、
前記近傍探索ステップを用いて前記色タグを追跡し、前記色タグ座標を前記カーソル生成ステップに送信するカーソル追跡ステップと、
前記位置検出ステップによって前記物体が画面上の所定の領域に検出されると、前記近傍追跡ステップを用いて、前記物体の位置を定期的に検出するとともに、前記物体が一定時間以上その所定の領域内に存在することにより、前記物体を指示用タグとして登録し、前記カーソル追跡ステップに指示用タグの追跡指示を送信する指示用タグ登録ステップと
を有し、
前記指示用タグ登録ステップによって前記指示用タグが登録された後、登録時に前記指示用タグが実際に発光あるいは反射する色範囲の発光あるいは反射頻度を用いて、頻度の高い範囲を含む色範囲となるように所定の色範囲を縮小した色範囲を求め、その指示用タグの探索において、縮小された色範囲を用いて前記近傍探索ステップによる近傍探索を実施する、
ことを特徴とするポインティング方法。
Are acquired by a camera in the interface device to instruct the image specific instructions or operations by pointing a thing body displayed on the display screen, a recognizing pointing method of the pointing operation of the operator,
The position of a given object in a given area in a camera image with a color tag that emits or reflects a given range of colors in hue, saturation, lightness, or light in the three primary colors in real space. A position detection step for performing detection;
The vicinity instructing position detection to the position detection step in the camera image immediately before in the camera image with a region of a predetermined size including the object position output by the position detection step as a position detection range A search step;
A cursor generation step for converting color tag coordinates into display screen coordinates;
An interaction interface step of transmitting the converted display screen coordinates as cursor data to the interface device;
A cursor tracking step of tracking the color tag using the proximity search step and transmitting the color tag coordinates to the cursor generation step;
When the object is detected in a predetermined area on the screen by the position detecting step, the proximity tracking step is used to periodically detect the position of the object, and the object is detected in the predetermined area for a predetermined time or more. the presence within, registers the object as instructed tag, possess an indication tag registration step of transmitting the tracking instruction instruction tag on the cursor tracking step,
After the instruction tag is registered by the instruction tag registration step, a color range including a high-frequency range using a light emission or reflection frequency of a color range in which the instruction tag actually emits or reflects at the time of registration; A color range obtained by reducing the predetermined color range is obtained, and in the search for the instruction tag, a neighborhood search is performed by the neighborhood search step using the reduced color range.
A pointing method characterized by the above .
カメラで取得され、ディスプレー画面に表示された物体の画像をポインティングして特定の指示または操作を指示するインタフェース装置における、操作者のポインティング操作を認識するポインティング方法であって、
実空間内にある、カメラ画像上の位置とIDが検出可能なIDタグの付いた所定の物体の、カメラ画像内の位置と該IDを検出するIDタグ位置検出ステップと
カメラ画像での時間的に1つ手前のカメラ画像において、前記IDタグ位置検出ステップが検出したIDを持つIDタグを追跡する追跡ステップと、
IDタグ座標をディスプレー画面座標に変換するカーソル生成ステップと、
該変換後のディスプレー画面座標を前記インタフェース装置にカーソルデータとして送信するインタラクションインタフェースステップと、
前記追跡ステップを用いて前記IDタグを追跡し、前記IDタグ座標を前記カーソル生成ステップに送信するカーソル追跡ステップと
前記IDタグ位置検出ステップによって前記物体が画面上の所定の領域に検出されると、前記追跡ステップを用いて、前記物体の位置を定期的に検出するとともに、前記物体が一定時間以上その所定の領域内に存在することにより、前記物体を指示用タグとして登録し、前記カーソル追跡ステップに指示用タグの追跡指示を送信する指示用タグ登録ステップと
を有し、
前記指示用タグ登録ステップによって前記指示用タグが登録された後、登録時のIDタグのIDをポインタとして追跡する、
ことを特徴とするポインティング方法
A pointing method for recognizing an operator's pointing operation in an interface device for pointing a specific instruction or operation by pointing an image of an object acquired by a camera and displayed on a display screen,
An ID tag position detecting step for detecting a position in a camera image of a predetermined object with an ID tag capable of detecting the position and ID in the real image in the real space ; and
A tracking step of tracking an ID tag having an ID detected by the ID tag position detection step in a camera image one time earlier in the camera image;
A cursor generation step for converting ID tag coordinates into display screen coordinates;
An interaction interface step of transmitting the converted display screen coordinates as cursor data to the interface device;
A cursor tracking step of tracking the ID tag using the tracking step and transmitting the ID tag coordinates to the cursor generating step ;
When the object is detected in a predetermined area on the screen by the ID tag position detection step, the tracking step is used to periodically detect the position of the object, and the object is detected for a predetermined time or more. An instruction tag registration step of registering the object as an instruction tag by being present in the region, and transmitting an instruction tag tracking instruction to the cursor tracking step ;
After the instruction tag is registered by the instruction tag registration step, the ID of the ID tag at the time of registration is tracked as a pointer.
A pointing method characterized by the above .
前記指示用タグ登録ステップは、前記物体が画面上のあらかじめ指定された第1の領域にあると前記位置検出ステップまたは前記IDタグ位置検出ステップで検出されると、前記近傍探索ステップまたは前記追跡ステップを用いて前記物体の位置を定期的に検出するとともに、その座標を仮のカーソル位置として前記カーソル追跡ステップに送信し、前記物体が前記第1の領域を出て第2の領域に入ると前記物体を指示用タグと認識して、前記カーソル追跡ステップに指示用タグの追跡指示を送信するステップである、請求項1または2に記載のポインティング方法。In the instruction tag registration step, the proximity search step or the tracking step is performed when the object is in a first area designated in advance on the screen and detected in the position detection step or the ID tag position detection step. with periodically detects the position of the object using the and transmitted to the cursor tracking step the coordinates as the cursor position of the temporary, the object enters the second region out of the first region The pointing method according to claim 1, wherein the pointing method is a step of recognizing an object as an instruction tag and transmitting an instruction tag tracking instruction to the cursor tracking step. 音声コマンド認識ステップさらに有し、前記指示用タグ登録ステップは、前記物体が画面上の前記所定の領域に検出されると、前記近傍追跡ステップまたは前記追跡ステップを用いて、位置を定期的に検出するとともに、音声認識コマンドによって、タグ認識コマンドが与えられた場合に、前記物体を指示用タグと認識して、前記カーソル追跡ステップに指示用タグの追跡指示を送信するステップである、請求項1から3のいずれかに記載の方法。Further comprising a voice command recognition step, the instruction tag registration step, when the object is detected in the predetermined area on the screen, using the neighboring tracking step or said tracking step, position the regular And a step of recognizing the object as an instruction tag and transmitting an instruction tag tracking instruction to the cursor tracking step when a tag recognition command is given by a voice recognition command. The method according to any one of 1 to 3. 移動軌跡分析ステップをさらに有し、前記指示用タグ登録ステップは、前記物体が画面上の前記所定の領域に検出されると、前記近傍追跡ステップを用いて、位置を定期的に検出するとともに、前記移動軌跡分析ステップにより、簡単なジェスチャーを検出することによって、前記物体を指示用タグと認識して、前記カーソル追跡ステップに指示用タグの追跡指示を送信するステップである、請求項1から4のいずれかに記載の方法。Has a movement locus analysis step further, the instruction tag registration step, when the object is detected in the predetermined area on the screen, using the neighboring tracking step, with periodically detecting position, 5. The step of recognizing the object as an instruction tag by detecting a simple gesture in the moving locus analysis step and transmitting an instruction tag tracking instruction to the cursor tracking step. The method in any one of. 操作者を撮影したカメラ画像の鏡像を生成し、カーソル情報とともに前記インタフェース装置に送信する鏡像処理ステップをさらに有する、請求項1から5のいずれか1項に記載の方法。The method according to any one of claims 1 to 5, further comprising a mirror image processing step of generating a mirror image of a camera image obtained by photographing an operator and transmitting the image to the interface device together with cursor information. カメラで取得され、ディスプレー画面に表示された物体の画像をポインティングして特定の指示または操作を指示するインタフェース装置における、操作者のポインティング操作を認識するポインティング装置であって、
実空間内にある、色相、彩度、明度、あるいは光の三原色の所定範囲の色を発光または反射する色タグの付いた所定の物体の、カメラ画像内の与えられた領域内での位置の検出を行う位置検出手段と、
カメラ画像での時間的に1つ手前のカメラ画像において、前記位置検出手段が出力した物体位置を含む予め指定された大きさの領域を位置検出範囲として前記位置検出手段に位置検出を指示する近傍探索手段と、
タグ座標をディスプレ画面座標に変換するカーソル生成手段と、
該変換後のディスプレー画面座標を前記インタフェース装置にカーソルデータとして送信するインタラクションインタフェース手段と、
前記近傍探索手段を用いて前記色タグを追跡し、前記色タグ座標を前記カーソル生成手段に送信するカーソル追跡手段と、
前記位置検出手段によって前記物体が画面上の所定の領域に検出されると、前記近傍追跡手段を用いて、前記物体の位置を定期的に検出するとともに、前記物体が一定時間以上その所定の領域内に存在することにより、前記物体を指示用タグとして登録し、前記カーソル追跡手段に指示用タグの追跡指示を送信する指示用タグ登録手段と
を有し、
前記指示用タグ登録手段によって前記指示用タグが登録された後、登録時に前記指示用タグが実際に発光あるいは反射する色範囲の発光あるいは反射頻度を用いて、頻度の高い範囲を含む色範囲となるように所定の色範囲を縮小した色範囲を求め、その指示用タグの探索において、縮小された色範囲を用いて前記近傍探索手段による近傍探索を実施する、
ことを特徴とするポインティング装置。
A pointing device for recognizing an operator's pointing operation in an interface device for pointing a specific instruction or operation by pointing an image of an object acquired by a camera and displayed on a display screen,
The position of a given object in a given area in a camera image with a color tag that emits or reflects a given range of colors in hue, saturation, lightness, or light in the three primary colors in real space. Position detecting means for performing detection;
In the camera image immediately before in the camera image, a vicinity instructing position detection to the position detection unit using a region of a predetermined size including the object position output by the position detection unit as a position detection range Search means;
Cursor generating means for converting the color tag coordinates on the displacer screen coordinates,
Interaction interface means for transmitting the converted display screen coordinates as cursor data to the interface device;
Cursor tracking means for tracking the color tag using the proximity search means and transmitting the color tag coordinates to the cursor generation means;
When the position detecting unit detects the object in a predetermined area on the screen, the proximity tracking unit is used to periodically detect the position of the object, and the object is in the predetermined area for a predetermined time or more. An instruction tag registration means for registering the object as an instruction tag and transmitting an instruction tag tracking instruction to the cursor tracking means ,
After the instruction tag is registered by the instruction tag registering means, a color range including a high frequency range using a light emission or reflection frequency of a color range in which the instruction tag actually emits or reflects at the time of registration; A color range obtained by reducing the predetermined color range is obtained, and in the search for the instruction tag, a neighborhood search is performed by the neighborhood search means using the reduced color range.
A pointing device.
カメラで取得され、ディスプレー画面に表示された物体の画像をポインティングして特定の指示または操作を指示するインタフェース装置における、操作者のポインティング操作を認識するポインティング装置であって、
実空間内にある、カメラ画像上の位置とIDが検出可能なIDタグの付いた所定の物体の、カメラ画像内の位置と該IDを検出するIDタグ位置検出手段と
カメラ画像での時間的に1つ手前のカメラ画像において、前記IDタグ位置検出手段が検出したIDを持つIDタグを追跡する追跡手段と、
IDタグ座標をディスプレー画面座標に変換するカーソル生成手段と、
該変換後のディスプレー画面座標を前記インタフェース装置にカーソルデータとして送信するインタラクションインタフェースと、
前記追跡手段を用いて前記IDタグを追跡し、前記IDタグ座標を前記カーソル生成ステップに送信するカーソル追跡手段と
前記IDタグ位置検出手段によって前記物体が画面上の所定の領域に検出されると、前記追跡手段を用いて、前記物体の位置を定期的に検出するとともに、前記物体が一定時間以上その所定の領域内に存在することにより、前記物体を指示用タグとして登録し、前記カーソル追跡手段に指示用タグの追跡指示を送信する指示用タグ登録手段と
を有し、
前記指示用タグ登録手段によって前記指示用タグが登録された後、登録時のIDタグのIDをポインタとして追跡する、
ことを特徴とするポインティン装置
A pointing device for recognizing an operator's pointing operation in an interface device for pointing a specific instruction or operation by pointing an image of an object acquired by a camera and displayed on a display screen,
An ID tag position detecting means for detecting a position in the camera image of a predetermined object with an ID tag capable of detecting the position on the camera image and the ID in the real space ;
A tracking means for tracking an ID tag having an ID detected by the ID tag position detecting means in a camera image one time earlier in the camera image;
Cursor generation means for converting ID tag coordinates into display screen coordinates;
An interaction interface for transmitting the converted display screen coordinates as cursor data to the interface device;
Cursor tracking means for tracking the ID tag using the tracking means and transmitting the ID tag coordinates to the cursor generating step ;
When the object is detected in a predetermined area on the screen by the ID tag position detection means, the tracking means is used to periodically detect the position of the object, and the object is detected for a predetermined time or more. Registering the object as an instruction tag by being present in the region, and having an instruction tag registration means for transmitting an instruction tag tracking instruction to the cursor tracking means ,
After the instruction tag is registered by the instruction tag registration means, the ID tag ID at the time of registration is tracked as a pointer.
Pointin device characterized by that .
請求項1からのいずれか1項に記載のポインティング方法をコンピュータに実行させるためのポインティングプログラム。Pointing program for executing a pointing method according to the computer in any one of claims 1 to 6.
JP2003062545A 2003-03-07 2003-03-07 Pointing method, apparatus, and program Expired - Lifetime JP4053903B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003062545A JP4053903B2 (en) 2003-03-07 2003-03-07 Pointing method, apparatus, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003062545A JP4053903B2 (en) 2003-03-07 2003-03-07 Pointing method, apparatus, and program

Publications (2)

Publication Number Publication Date
JP2004272598A JP2004272598A (en) 2004-09-30
JP4053903B2 true JP4053903B2 (en) 2008-02-27

Family

ID=33124386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003062545A Expired - Lifetime JP4053903B2 (en) 2003-03-07 2003-03-07 Pointing method, apparatus, and program

Country Status (1)

Country Link
JP (1) JP4053903B2 (en)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10279254B2 (en) 2005-10-26 2019-05-07 Sony Interactive Entertainment Inc. Controller having visually trackable object for interfacing with a gaming system
JP4742196B2 (en) * 2004-11-18 2011-08-10 学校法人慶應義塾 Presentation system and content creation system
JP4555701B2 (en) * 2005-02-14 2010-10-06 日本電信電話株式会社 Information processing method, interface device, program, and recording medium
JP5296144B2 (en) * 2011-05-30 2013-09-25 オリンパスイメージング株式会社 Digital platform device
JP2013065112A (en) * 2011-09-15 2013-04-11 Omron Corp Gesture recognition device, electronic apparatus, control method of gesture recognition device, control program, and recording medium
JP5862143B2 (en) * 2011-09-15 2016-02-16 オムロン株式会社 Gesture recognition device, electronic apparatus, gesture recognition device control method, control program, and recording medium
JP5174978B1 (en) * 2012-04-26 2013-04-03 株式会社三菱東京Ufj銀行 Information processing apparatus, electronic device, and program

Also Published As

Publication number Publication date
JP2004272598A (en) 2004-09-30

Similar Documents

Publication Publication Date Title
TWI653563B (en) Projection touch image selection method
US11561519B2 (en) Systems and methods of gestural interaction in a pervasive computing environment
US11914792B2 (en) Systems and methods of tracking moving hands and recognizing gestural interactions
US11481040B2 (en) User-customizable machine-learning in radar-based gesture detection
US10761610B2 (en) Vehicle systems and methods for interaction detection
JP4323180B2 (en) Interface method, apparatus, and program using self-image display
US20130194173A1 (en) Touch free control of electronic systems and associated methods
US9996160B2 (en) Method and apparatus for gesture detection and display control
US20130211843A1 (en) Engagement-dependent gesture recognition
WO2016075796A1 (en) Projection image display apparatus and image display method
JP6349800B2 (en) Gesture recognition device and method for controlling gesture recognition device
JP2012515966A (en) Device and method for monitoring the behavior of an object
KR20140114913A (en) Apparatus and Method for operating sensors in user device
US20160041632A1 (en) Contact detection system, information processing method, and information processing apparatus
JP4053903B2 (en) Pointing method, apparatus, and program
KR20100075282A (en) Wireless apparatus and method for space touch sensing and screen apparatus using depth sensor
CN105630364B (en) A kind of information processing method and electronic equipment
US20210167982A1 (en) Information processing apparatus, information processing method, and program
TW201421295A (en) Receiver device and operation method thereof
CN117389415A (en) Operation method, device, electronic equipment and readable storage medium
CN116149482A (en) Gesture interaction method and device, electronic equipment and storable medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050124

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050614

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060904

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071206

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101214

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4053903

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101214

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111214

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111214

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121214

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121214

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131214

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term