JP2005321966A - Interface method, device and program - Google Patents
Interface method, device and program Download PDFInfo
- Publication number
- JP2005321966A JP2005321966A JP2004138756A JP2004138756A JP2005321966A JP 2005321966 A JP2005321966 A JP 2005321966A JP 2004138756 A JP2004138756 A JP 2004138756A JP 2004138756 A JP2004138756 A JP 2004138756A JP 2005321966 A JP2005321966 A JP 2005321966A
- Authority
- JP
- Japan
- Prior art keywords
- information
- dimensional
- voxel
- voting
- operator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、複数台のカメラで撮影された画像を入力画像とし、操作者(ユーザ)が何も装着せずに、体の部位(指や腕等)を用いて指し示した実空間内の位置もしくは物体を検出するインタフェース方法および装置に関する。 The present invention uses an image taken by a plurality of cameras as an input image, and a position in a real space indicated by a body part (finger, arm, etc.) without being worn by an operator (user) Alternatively, the present invention relates to an interface method and apparatus for detecting an object.
コンピュータと人間とのインタフェースに関し、人間の3次元的な動作に基づくインタフェース方法や装置としては、これまで以下に挙げるような従来手法がある。 Regarding the interface between a computer and a human, there are conventional methods as described below as interface methods and apparatuses based on human three-dimensional operations.
第1の従来手法として、体に動作計測可能なセンサを装着し、センサ情報から動きを検出する装置がある。例えば、塚田らのUbi−finger(非特許文献1)は、加速度センサ等を取り付けたグローブを手に装着して、ジェスチャを認識するものである。 As a first conventional technique, there is an apparatus that attaches a sensor capable of measuring movement to a body and detects movement from sensor information. For example, Tsukada et al.'S Ubi-finger (Non-Patent Document 1) recognizes a gesture by wearing a glove with an acceleration sensor or the like attached to the hand.
第2の従来手法として、福本らの非接触ハンドリーダ(非特許文献2)がある。本手法は、体の中に求めた座標位置(「仮想投射中心」)と、検出した指先の座標位置を結び、延長した指示軸線がスクリーンと交差する点をカーソル位置(指示位置)とする方法である。仮想投射中心位置は、スクリーンの4つの角位置から指先へ延長した直線の交点から求めているので、非接触・非装着だが、指示できる位置はスクリーン上のみである。指先の位置の抽出は、2台のカメラを用い、1台を上部から撮影する位置に設置することにより、スクリーンに最も近い物体を検出することで実現している。 As a second conventional technique, there is a non-contact hand reader (Non-Patent Document 2) of Fukumoto et al. This method connects the coordinate position obtained in the body ("virtual projection center") with the detected coordinate position of the fingertip, and sets the point where the extended pointing axis intersects the screen as the cursor position (pointing position). It is. Since the virtual projection center position is obtained from the intersection of straight lines extending from the four corner positions of the screen to the fingertip, it is non-contact / non-wearing, but the position that can be indicated is only on the screen. The extraction of the fingertip position is realized by detecting the object closest to the screen by using two cameras and installing one at the position where the image is taken from above.
第3の従来手法として、金次らの指さしポインター(非特許文献3)がある。本手法は、多眼ステレオカメラを用いて生成した距離画像を用いて、スクリーン(入力画像を表示している表示装置の画面)に最も近い物体の検出によって指先の位置を抽出し、また色情報と距離情報を用いて眉間(目)の位置を検出し、これらを結んだ延長線がスクリーンと交差する点をカーソル位置(指示位置)とする方法である。非接触・非装着だが、指示できる位置はスクリーン上のみである。 As a third conventional method, there is a pointing pointer (Non-patent Document 3) of Kinji et al. This method uses the distance image generated using a multi-lens stereo camera to extract the position of the fingertip by detecting the object closest to the screen (screen of the display device displaying the input image), and color information The distance information is used to detect the position between the eyebrows (eyes), and the point where the extended line connecting them crosses the screen is used as the cursor position (indicated position). Although it is non-contact / non-wearing, the position that can be indicated is only on the screen.
第4の従来手法として、山本らの腕さしジェスチャインタフェース(非特許文献4)がある。本手法は、複数台のステレオカメラ群と統合処理するサーバコンピュータを用いて、実空間内でのユーザの腕さし方向を認識する方法である。非接触・非装着で、実空間内の位置を指し示せる。
しかしながら、上述した従来の手法では、以下のような問題があった。 However, the conventional method described above has the following problems.
1)第1の従来手法は、手または指の動作を認識でき、実空間内の3次元位置を指し示すことができるポインティング手法であるが、体の部位に常に何らかの装置を装着する必要があるため、実用的なインタフェース装置としての利便性に欠ける。 1) The first conventional method is a pointing method that can recognize the movement of a hand or a finger and can point to a three-dimensional position in real space. However, it is necessary to always wear some device on a body part. It lacks convenience as a practical interface device.
2)第2、第3の従来手法は、ユーザが非装着かつ非接触に、3次元的な動作により、スクリーン上の位置を指示することができるポインティング手法であるが、指し示せるのはスクリーン上の位置だけであるため、実空間中の3次元的な位置や物体を直接指し示すことはできない。 2) The second and third conventional methods are pointing methods in which the user can indicate the position on the screen by a three-dimensional operation without wearing and non-contacting, but can be indicated on the screen. Therefore, it is not possible to directly indicate a three-dimensional position or object in the real space.
3)第4の従来手法は、ユーザが非装着かつ非接触に、3次元的な動作により、実空間内の3次元位置を指し示すことができるポインティング手法であり、かつポインティング位置の判定のために投票処理を用いているが、ポインティング方向の周辺に対する投票処理や、投票値の重みを変えるなどの精度向上化手法は用いられていなかった。 3) The fourth conventional method is a pointing method in which a user can point to a three-dimensional position in the real space by a three-dimensional operation without wearing and non-contacting, and for determining the pointing position. Although voting processing is used, accuracy improvement techniques such as voting processing around the pointing direction and changing the weight of the voting value have not been used.
本発明の目的は、前述した従来の手法に対して、装着型のため利便性に欠ける問題、スクリーン上のポインティングができるが実空間中への3次元的なポインティングはできない問題、投票処理を利用した実空間への3次元的なポインティングはできるがポインティング方向の周辺への投票処理による性能向上化手法は用いられていない問題を解決したインタフェース方法、装置、およびプログラムを提供することにある。 An object of the present invention is to use a problem that lacks convenience due to the wearing type, a problem that can be pointed on a screen but cannot be three-dimensionally pointed into a real space, and a voting process, compared to the conventional method described above. It is an object to provide an interface method, apparatus, and program that solve the problem that the performance improvement technique by voting processing to the periphery in the pointing direction can be performed although the three-dimensional pointing to the real space can be performed.
上述した目的を達成するために、本発明のインタフェース方法は、
実空間上にある物体の情報の一部もしくは全体に渡る3次元位置情報およびその付加情報を登録する空間情報登録ステップと、
複数台のカメラで撮影した複数の入力画像から、操作者の体の部位の、該操作者の指し示した方向に関わる始点と終点の3次元座標を算出し、操作者の指し示す実空間上での3次元指示方向情報を求める3次元指示方向情報算出ステップと、
得られた該3次元指示方向情報と、前記登録された物体の情報とから、操作者が指し示す3次元指示位置情報である、操作者が指し示す方向の延長線と、登録された物体との交点に関する情報を検出する3次元指示位置検出ステップであって、実空間を分割したボクセル空間の各ボクセルに1対1に対応した投票箱を含む投票箱データメモリの、該3次元指示方向情報に基づき操作者の指し示す方向の延長線が交差するボクセルに対応する投票箱に投票処理を行う投票処理ステップと、投票箱データメモリ内の各投票箱に記録されている投票値の情報と、登録されている物体情報とから、操作者の指し示す3次元指示位置のボクセルを検出する検出処理ステップとを含む3次元指示位置検出ステップと
を有する。
In order to achieve the above object, the interface method of the present invention comprises:
A spatial information registration step for registering part or all of the information of the object in the real space and the additional information thereof;
From a plurality of input images taken by a plurality of cameras, the three-dimensional coordinates of the start point and end point of the body part of the operator related to the direction indicated by the operator are calculated, and in the real space indicated by the operator A three-dimensional pointing direction information calculating step for obtaining three-dimensional pointing direction information;
The intersection of the registered object and the extension line in the direction indicated by the operator, which is the three-dimensional indication position information indicated by the operator, from the obtained three-dimensional indication direction information and the registered object information Is a three-dimensional pointing position detection step for detecting information relating to the three-dimensional pointing direction information of a ballot box data memory including a ballot box corresponding to each voxel of the voxel space into which the real space is divided. The voting process step for performing voting processing on the ballot box corresponding to the voxel where the extension line in the direction indicated by the operator intersects, and the information of the voting value recorded in each ballot box in the ballot box data memory are registered. A three-dimensional designated position detecting step including a detection processing step for detecting a voxel at the three-dimensional designated position indicated by the operator from the detected object information.
非装着であるため、ユーザの利便性が向上する。また、ユーザの指示方向を検出し指示位置を検出するため、3次元的なポインティングを実現できる。さらに、3次元的なポインティングの指示先として、スクリーン上だけでなく実空間上の位置もポインティング可能であり、応用先を広げることができる。また、投票処理を用いることによりユーザが指し示したい位置を精度よく認識することができる。よって、前記課題の1)と2)を解決できる。 Since it is not attached, user convenience is improved. In addition, since the pointing direction of the user is detected and the pointing position is detected, three-dimensional pointing can be realized. Further, as a destination for three-dimensional pointing, not only the position on the screen but also the position in the real space can be pointed, and the application destination can be expanded. Further, by using the voting process, it is possible to accurately recognize the position that the user wants to point to. Therefore, the above problems 1) and 2) can be solved.
本発明の実施態様によれば、投票処理ステップが、交差するボクセルに隣接し、ボクセル毎に異なる重み付けがされた投票値が予め設定されているボクセルに投票処理を行うステップをさらに有し、検出ステップは、時間的に連続した画像に対する投票処理により積算された投票値が所定の閾値を越えたボクセルを、該操作者の指し示す3次元指示位置のボクセルとして検出する。 According to an embodiment of the present invention, the voting process step further includes the step of performing a voting process on a voxel that is adjacent to the intersecting voxel and in which a voting value differently weighted for each voxel is preset. In the step, a voxel having a vote value integrated by a voting process for temporally continuous images exceeds a predetermined threshold is detected as a voxel at a three-dimensional designated position indicated by the operator.
そのため、ポインティング方向の周辺に対する投票処理を行うことや投票値の重みを変えることによる精度向上化を図れることから、前記課題の3)を解決できる。 Therefore, it is possible to improve accuracy by performing voting processing on the periphery in the pointing direction and changing the weight of the voting value, so that the problem 3) can be solved.
本発明の実施形態によれば、重み付けは、交差するボクセルに近い方から高い点数となるようなものである。 According to an embodiment of the invention, the weighting is such that the higher the score from the closer to the intersecting voxel.
本発明の実施態様によれば、3次元指示位置検出ステップが、時間的に連続した画像に対する投票値を減算するステップを有している。 According to the embodiment of the present invention, the three-dimensional designated position detecting step includes a step of subtracting a vote value for temporally continuous images.
そのため、投票した投票値を時間経過とともに減らすことができるので誤認識を減らせることから、前記課題の3)を解決できる。 Therefore, since the voted vote value can be reduced with the passage of time, it is possible to reduce misrecognition, so that the above problem 3) can be solved.
本発明は下記の効果がある。
1)請求項1と5と6の発明によれば、非装着であるため、ユーザの利便性が向上し、またユーザの指示方向を検出し指示位置を検出できるため、3次元的なポインティングを実現でき、さらに3次元的なポインティングの指示先として、スクリーン上だけでなく実空間上の位置もポインティング可能であり、応用先を広げることができ、また投票処理を用いることによりユーザが指し示したい位置を精度よく認識することができる。
2)請求項2の発明によれば、ポインティング方向の周辺に対する投票処理を行うことや投票値の重みを変えることによる精度向上化を図ることができる。
3)請求項4の発明によれば、投票した投票値を時間経過とともに減らすことができるので、誤認識を減らし、精度を向上させることができる。
The present invention has the following effects.
1) According to the inventions of
2) According to the invention of claim 2, it is possible to improve accuracy by performing voting processing on the periphery in the pointing direction and changing the weight of the voting value.
3) According to the invention of claim 4, since the voted vote value can be reduced with time, misrecognition can be reduced and the accuracy can be improved.
次に、本発明の実施の形態について図面を参照して説明する。 Next, embodiments of the present invention will be described with reference to the drawings.
[第1の実施形態]
図1は本発明の第1の実施形態のインタフェース装置の構成図、図2はその処理の流れを示すフローチャートである。
[First Embodiment]
FIG. 1 is a configuration diagram of an interface apparatus according to the first embodiment of the present invention, and FIG. 2 is a flowchart showing a flow of the processing.
本インタフェース装置は、画像入力部1a,1bと3次元指示方向情報算出部2と3次元指示位置検出部3と空間情報登録部4と空間情報メモリ5から構成される。
The interface apparatus includes
画像入力部1a,1bとしては、図1のように2台(もしくは3台以上)のカメラを用いる。カメラは一般に用いられるビデオカメラやCCDカメラでよく、白黒でもカラーでもよい。ただし後述する色情報を使用した方法を用いる場合はカラーカメラが必要である。2台のカメラの場合、カメラは、ステレオ法による画像処理が可能な程度の距離に、かつカメラの視線方向(光軸)が3次元空間上で並行、もしくは並行に近いように設置する。3台以上の場合も同様(含まれる2台が同様の条件)である。
As the
3次元指示方向情報算出部2は、ユーザ6の指し示す方向(3次元指示方向)の3次元情報を求めるものである。具体的には、3次元指示方向情報算出部2は、例えば、距離画像生成部21と始終点2次元座標算出部22と始終点3次元座標算出部23で構成され、以下のような方法によって、該3次元指示方向の3次元情報を求めることができる。
The three-dimensional indication direction information calculation unit 2 obtains three-dimensional information on the direction (three-dimensional indication direction) indicated by the
距離画像生成部21は、入力された2個以上の入力画像から、ステレオ法による画像処理を用いて距離画像を生成する(ステップ101)。距離画像とは、カメラから物体までの距離を視覚化した画像のことで、例えば近いものを明るく(値を大きく)、遠いものを暗く(値を小さく)して表示するものである。また、ステレオ法は両眼立体視とも言い、人間の両眼と同様に、同一の物体を異なる2つの視点から見ることにより、対象物の3次元的な位置を測定する方法である。
The distance
距離画像を生成する具体的な画像処理方法の例としては、市販の製品(Point Grey Research社のDigiclops(3眼カメラ式)やBumblebee(2眼カメラ式)等)を用いる方法がある。これらは各々、2個もしくは3個のカメラが内蔵された画像入力機器であり、出力として距離画像を生成できるものである。また、ステレオ法を用いる手法は、画像処理分野において一般的である(発表文献多数)ので、任意の2個以上のカメラを用いて自作することも可能である。 As an example of a specific image processing method for generating a distance image, there is a method using a commercially available product (Diglops (trinocular camera type) or Bumblebee (binocular camera type) manufactured by Point Gray Research). Each of these is an image input device incorporating two or three cameras, and can generate a distance image as an output. In addition, since the method using the stereo method is common in the field of image processing (many publications), it is possible to make it by using any two or more cameras.
始終点2次元座標算出部22は、距離画像生成部21で用いた入力画像のうち少なくとも1個の入力画像を用いて、ユーザの体の予め定めた部位2箇所(始点と終点)の入力画像上での2次元座標を算出するものである(ステップ102)。始点と終点は、例えば、ユーザの肩の位置を始点とし、手または腕の重心の位置を終点とすることが考えられる。これにより、この場合は腕を伸ばした手または腕の重心へ向かう方向が後述する3次元指示方向となる。肩と手(または腕)の位置を始点・終点とした場合の入力画像上での具体的な検出方法について、以下に示す。手または腕の位置を画像処理により検出する方法としては、例えば、入力画像をカラー画像とした場合、カラー画像中のRGB等の色情報から、肌色成分(任意に幅を持たせた色の値の範囲で指定可能)を抽出し、ラベリング処理を行う。得られた複数の肌色部分の中から、手または腕の大きさや位置等の制約情報(例えば、手または腕の大きさから推測される可能性のある肌色面積の範囲を指定したり、入力画像上の天井付近や床付近等、手または腕が存在する可能性の低いところを除外したりする等の制約)を利用して、目的とする手または腕の肌色部分を選択する。選択する具体的な方法例としては、通常ユーザが衣服を着ているとすると、肌色部分の候補となる可能性が高いのは両手(または腕)と顔と考えられ、また最も面積の大きいのは顔と考えられるので、2番目と3番目に面積が大きい肌色部分を手または腕の候補として選択する。ユーザ指定位置として両手(または腕)2つ使うとした利用方法の場合、その2つの(2番目と3番目に大きい)肌色部分の候補に対する各重心位置を、各々左右の手または腕のユーザ指定位置とすればよい。左右の選択は左手側にあるものを左手(腕)、右手側にあるものを右手(腕)とすればよい。また、ユーザ指定位置を1つ(片手または片腕)だけ使うとした利用方法の場合は、2つの候補から1つを選ぶ必要があるが、予め例えば右手(または右腕)を指定する手としたら、体より右手側にある候補を、右手(または右腕)の可能性が高いことから、右手(または右腕)の肌色部分として選び、その重心位置を右手(または右腕)のユーザ指定位置とすればよい。左手(または左腕)の場合も同様である。また、肩の位置を画像処理により検出する方法としては、例えば、初めに顔の位置を抽出してから、肩の位置を算出する方法がある。具体的には、まず、前記の肌色抽出処理を行った結果から、1番目に面積が大きい肌色部分は顔の可能性が高いので、その肌色部分を顔と判断し、その重心を求める。次に、(通常の姿勢では)肩の位置は顔の重心位置から、下へある程度の距離、左右へある程度の距離ずらしたものと仮定することができるので、予めそのずらす距離を決めておいて(個人差あるのでユーザ6によって値を変えてもよい)、顔の重心位置から左右の肩の位置を算出することができる。また、始点・終点の2次元座標を出力する際に、その候補値を複数求め、始終点3次元座標算出部23へ複数の値を出力してもよい。その場合、始終点3次元座標算出部23において、始終点の3次元座標を求める際に用いられる。これらにより、始点・終点の入力画像上での2次元座標を求めることができる。また、ここでは肩の位置を始点としているが、前記により求められる顔の位置(重心)をそのまま始点としてもよい。その場合、顔の位置と手(または腕)の位置を結ぶ延長線がユーザ6の指示方向となる。
The start / end point two-dimensional coordinate
始終点3次元座標算出部23は、生成された距離画像情報と、始点・終点の2次元座標から、始点・終点の3次元座標値を求めるものである(ステップ103)。具体的な方法としては、例えば、距離画像上で、始点の入力画像上での2次元座標と同じ位置の値(距離値)を参照し、それを始点の距離値とすればよい。終点も同様である。3次元の実空間上において、入力画像の2次元座標系と3次元座標系の変換は一般に、予め容易に算出しておけるので、それに基づいて得られた入力画像上での始点および終点の2次元座標値とその各距離値から、始点と終点の3次元空間上での3次元座標値を求めることができる。さらに、得られた始点・終点の2つの3次元座標値から、2点を結ぶ3次元直線を求めることにより、ユーザの指示方向を求めることができる。また、始点・終点の2次元座標が複数入力された場合(始終点2次元座標算出部22にて記述)、距離画像情報に基づいて、複数の2次元座標候補から選択することもできる。例えば、ユーザ6のいる位置が予め制限された空間内にしかいないとすると、その制限を越えた場所を指示する候補を除くこと等が可能である。すなわち、始終点3次元座標算出部23において、始終点3次元座標だけでなく、始終点2次元座標の絞込み処理も可能である。これにより、始終点2次元座標算出部22における誤検出を異なる情報(距離画像情報)を用いて除外できるので、精度向上が期待できる。
The start / end point three-dimensional coordinate
空間情報登録部4は、ユーザ6が指示する可能性のある実空間中の物体等の情報を空間情報メモリ5に登録するものである(ステップ104)。実空間中の物体等としては、例えば、ユーザ6が部屋の中にいる場合には、部屋の中にある家電機器等(テレビ、エアコン、コンピュータ、時計、窓、棚、椅子、机、引出し、書類、オーディオ機器、照明機器等)の物体や、また部屋自体の壁、床、天井、窓等、任意のものが対象として考えられる。これらの物体等の情報(3次元位置の座標情報やその他物体に関する情報等)は、表1に示すように、予め空間情報データメモリ5に登録・保存しておく。
The spatial information registration unit 4 registers information such as an object in the real space that the
また、情報の登録に関しては、予め固定の3次元位置座標としておくのではなく、対象とする実物体毎に位置認識可能なセンサ(市販されている磁気センサ、超音波センサ、赤外線タグ、無線タグ等)を取り付けておくことにより、各々の物体の位置をリアルタイムに認識することができるので、それらにより得られた3次元位置情報から該物体情報を生成し、常時その物体の3次元位置座標等の情報を更新していくことも可能である。この場合、物体を移動させても3次元位置情報等をリアルタイムに更新させることができる。 Regarding the registration of information, a sensor capable of recognizing a position for each target real object (commercially available magnetic sensor, ultrasonic sensor, infrared tag, wireless tag) is not used as fixed three-dimensional position coordinates in advance. Etc.), the position of each object can be recognized in real time. Therefore, the object information is generated from the three-dimensional position information obtained from the object, and the three-dimensional position coordinates of the object are always generated. It is also possible to update the information. In this case, even if the object is moved, the three-dimensional position information and the like can be updated in real time.
3次元指示位置検出部3は、ユーザ6が指し示した実空間中の3次元位置を検出するもので、例えば、投票処理部31と検出処理部32と投票箱データメモリ33から構成される。ここで、予め3次元の実空間を分割した3次元のボクセル空間を設定する(図3)。例えば、幅5m×奥行5m×高さ5mの空間を各々10等分した場合(すなわち10×10×10個のボクセルに分割した場合)、1個のボクセルは50cm×50cm×50cmのサイズの空間領域に対応する。空間情報登録部4で登録された物体の座標情報に基づき、各物体はどのボクセルに属するか(空間的にどこに位置するか)を予め求めておき、空間情報データメモリ5に登録されている各物体毎に、対応するボクセル座標を求めておく。1個のボクセルには、1個の投票箱を設ける。ここで、実空間の分割数を(Xdiv,Ydiv,Zdiv)とし、座標(X,Y,Z)のボクセルをV(X,Y,Z)とする。投票箱とは、数値(整数でも実数でもよい)を記憶できるメモリであり、Xdiv×Ydiv×Zdiv個分のメモリがあればよく、これらのメモリを持つものを投票箱データメモリと呼ぶ。すべての投票箱に記憶されている値(投票値)は、最初に1度初期化(例えば値0をセット)しておく。
The three-dimensional designated position detection unit 3 detects a three-dimensional position in the real space pointed to by the
投票処理部31は、まず3次元指示方向情報算出部2の始終点3次元座標算出部23で求められた、始点・終点を結ぶ3次元直線を手または腕(終点)方向に延長していき、このとき、該延長線が交差するボクセル(交差ボクセル)を算出する(ステップ105、図4)。延長線は、ボクセル空間内を通過する際に、複数のボクセルと交差するのでそれら交差ボクセルをすべて求める。求めた交差ボクセルに対応する投票箱に対し、各々投票処理を行う(ステップ105)。投票処理とは、投票箱に、予め定めた投票値を加算していく処理である。延長線が交差したボクセルの投票箱の値は、初期値0とし、投票値をvとすると、0+v=vとなる。投票するボクセルは、交差ボクセルすべてでもよいが、複数の交差ボクセルの中で、(前述したように)予め行う空間情報データとの対応付けによって、そのボクセルに何かの物体が対応付けられている場合のみ、投票する方法も考えられる(図5)。これにより、何もない空間のボクセル(すなわち投票箱)には投票されず、誤認識を減らすことができる。時間的に連続して入力される画像群に対し、各画像毎に3次元指示方向情報算出処理(ステップ101〜103)、および3次元位置検出処理(ステップ105、106)を行う。よって、投票処理も各画像毎に行うので、投票箱データメモリ33内の各ボクセルの投票値は時間と共に積算される。
The voting processing unit 31 first extends the three-dimensional straight line connecting the start point and the end point obtained by the start / end point three-dimensional coordinate
検出処理部32は、時間的に連続した画像毎に投票処理部31にて投票されることにより投票箱データメモリ33内の各ボクセルにおいて時間的に積算された投票値の中で、予め定めた閾値を超える投票値を持つ投票箱(すなわちボクセル)を検索する(ステップ106)。ここで、閾値とは、時間的に連続した画像に対する投票処理により積算された投票値がその閾値を超えたとき、その投票値のあるボクセルが、ユーザ6の指示する3次元指示位置であると判定するための値であり、例えば投票値v=1、閾値th=5のように任意に設定すればよい。この例のように1回の投票値より閾値を高く設定した場合は、複数の画像において同じ投票箱(ボクセル)に投票されるため(この場合は画像5回分)、ユーザ6がある一定時間(これは連続した時間でも不連続な時間でもよい)指し示すことにより目的のボクセルが検出されることになるので、ユーザ6が腕を動かす際の移動中等に、目的でないボクセルが誤検出されることが大幅に少なくなり、検出性能を高くすることができる。検索する方法は、ボクセル空間内のすべてのボクセル(に対応する投票箱)の中から、閾値を超える投票値を持つ投票箱(ボクセル)を探す方法がある。また、交差ボクセルの中だけから探す方法もあり、そのようにすれば探すボクセルの数を少なくでき処理量を小さくできる。閾値を超えた投票箱(ボクセル)を検出した場合、投票箱はすべて初期化(0にセット)すればよい。
The
以上により、本実施形態によれば、ユーザ6が腕を伸ばして、3次元空間中の物体等を直接実空間中で、ある一定時間指し示すことにより、指し示された3次元位置(物体)を検出することが可能になる。
As described above, according to the present embodiment, the
[第2の実施形態]
図6は本発明の第2の実施形態のインタフェース装置の構成図、図7はその処理の流れを示すフローチャートである。
[Second Embodiment]
FIG. 6 is a block diagram of the interface apparatus according to the second embodiment of the present invention, and FIG. 7 is a flowchart showing the processing flow.
本インタフェース装置は、画像入力部1a,1bと3次元指示方向情報算出部2と3次元指示位置検出部3と空間情報登録部4と空間情報データメモリ5から構成される。3次元指示位置検出部3は投票処理部31と検出処理部32と投票箱データメモリ33から構成され、投票処理部31は交差ボクセル投票処理部31aと隣接ボクセル投票処理部31bから構成される。画像入力部1a,1b、3次元指示方向情報算出部2、空間情報登録部4、空間情報データメモリ5については、第1の実施形態と同様の構成である。
The interface device includes
交差ボクセル投票処理部31aは、第1の実施形態と同様に、まず3次元指示方向情報算出部2の始終点3次元座標算出部23で求められた、始点・終点を結ぶ3次元直線を手または腕(終点)方向に延長していく。このとき、該延長線が交差するボクセル(交差ボクセル)を算出する。延長線は、ボクセル空間内を通過する際に、複数のボクセルと交差するのでそれら交差ボクセルをすべて求める。求めた交差ボクセルに対応する投票箱に対し、各々投票処理を行う(ステップ107)。投票処理とは、投票箱に、予め定めた投票値を加算していく処理である。
As in the first embodiment, the intersecting voxel
隣接ボクセル投票処理部31bは、交差ボクセル投票処理部31aで投票が行われる各々のボクセルに対して、その周辺の(隣接した)ボクセルにも投票処理を行うものである(ステップ108)。投票するボクセルは、例えば3次元ボクセル空間における該ボクセルの26近傍の全ボクセルでもよいし、もしくは6近傍のボクセルや18近傍のボクセルでもよいし、また2次元上の4近傍のボクセルや8近傍のボクセルでもよい(図8)。投票する値(投票値)は、近傍すべて同じ値でもよいし、異なる値でもよい。例えば、26近傍への投票を考えた場合、中央の交差ボクセルへの投票値をaとし、隣接の近傍ボクセルへの投票値をそれぞれ、6近傍ボクセルをb、18近傍ボクセルから6近傍ボクセルを除いた近傍ボクセルをc、26近傍ボクセルから18近傍ボクセルを除いた近傍ボクセルをdとすればよい。ここで、a=b=c=d=1(または1以外の値)としてもよいし、また中心(交差ボクセル)に近いボクセルほど値を大きくして、例えばa=10、b=5、c=2、d=1のようにしてもよい(図9)。b=c=d=0とすれば交差ボクセルのみへの投票処理と、c=d=0とすれば6近傍への投票処理と、d=0とすれば18近傍への投票処理と同じである。中心に近いボクセルほど値を大きくすることにより、投票処理による認識結果の精度を向上させることができる。これは、3次元指示方向情報算出部2で得られる3次元指示方向の情報に含まれる誤差により3次元指示方向が、本来指し示すべき正しい方向よりも周囲の方向にずれる場合でも、正しい方向にあるボクセルへの投票も行われるので、精度向上が期待できるためである。また、これにより、時間と共に投票値が積算される際に、正しい方向のボクセルが早く閾値を超えることによる高速化が期待できる。
The adjacent voxel
時間的に連続して入力される画像群に対し、各画像毎に3次元指示方向情報算出処理100、投票処理(交差ボクセル投票処理107、隣接ボクセル投票処理108)、検出処理109を行う。よって、投票処理も各画像毎に行われるので、投票箱データメモリ33内の各ボクセルの投票値は時間と共に積算される。
A three-dimensional pointing direction
検出処理部32は、第1の実施形態と同様に、投票箱データメモリ33内の各ボクセルの投票値の中で、予め定めた閾値を超える投票値を持つ投票箱(すなわちボクセル)を検索する(ステップ106)。閾値とは、時間的に連続した画像に対する投票処理によりの積算された値がその閾値を超えたとき、その投票値のあるボクセルが、ユーザ6の指示する3次元指示位置であると判定するための値であり、例えば投票値a=10、b=5、c=2、d=1、閾値th=20などのように任意に設定すればよい。検索する方法は、第1の実施形態と同様に、ボクセル空間内のすべてのボクセル(に対応する投票箱)の中から、閾値を超える投票値を持つ投票箱(ボクセル)を探す方法や、交差ボクセルの中だけから探す方法もある。また、投票した交差ボクセルと近傍ボクセルの中から探してもよく、そのようにすれば探すボクセルの数を少なくでき処理量を小さくできる。閾値を超えた投票箱(ボクセル)を検出した場合、投票箱はすべて初期化(0にセット)すればよい。
As in the first embodiment, the
以上により、本実施形態によれば、ユーザ6が腕を伸ばして、3次元空間中の物体等を直接実空間中で、ある一定時間指し示すことにより、指し示された3次元位置(物体)を検出することが可能になるとともに、第1の実施形態よりも精度よく、かつ高速に物体検出を行うことが可能になる。
As described above, according to the present embodiment, the
[第3の実施形態]
図10は本発明の第3の実施形態のインタフェース装置の構成図、図11はその処理の流れを示すフローチャートである。
[Third Embodiment]
FIG. 10 is a block diagram of an interface apparatus according to the third embodiment of the present invention, and FIG. 11 is a flowchart showing the processing flow.
本インタフェース装置は、画像入力部1a,1bと3次元指示方向情報算出部2と3次元指示位置検出部3と空間情報登録部4と空間情報データメモリ5から構成される。3次元指示位置検出部3は投票処理部31と検出処理部32と投票箱データメモリ33と投票値減算処理部34から構成され、投票処理部31は交差ボクセル投票処理部31aと隣接ボクセル投票処理部31bから構成される。画像入力部1a,1b、3次元指示方向情報算出部2、交差ボクセル投票処理部31a、隣接ボクセル投票処理部31b、検出処理部32、投票箱データメモリ33、空間情報登録部4、空間情報データメモリ5については、第2の実施形態と同様の構成である。
The interface device includes
投票値減算処理部34は、時間的に連続して入力される画像群に対し、各画像毎に3次元指示方向情報算出処理(ステップ100)、投票処理(ステップ107、108)、検出処理(ステップ106)を行った後に、投票箱データメモリ33に積算された投票値を、時間の経過と共に(画像を変えて次に進む毎に)減算する処理を行うものである。
The voting value
減算処理の方法については例えば以下の方法がある。ある画像が入力された時刻をt(i)、連続した次の画像が入力された時刻をt(i+1)とする。時刻t(i)における処理で投票された後の投票データメモリ33内の任意のボクセル(x,y,z)に積算された投票値をv(i)(x,y,z)とし、減算値をsとすると、すべてのボクセルの投票箱に対して、
v(i+1)=v(i)(x,y,z)−s
を行うことにより実行できる。投票箱の値が0の場合は、sを減算しなくてよい。
For example, there are the following methods for the subtraction process. Let t (i) be the time when an image is input, and t (i + 1) when the next successive image is input. Subtract the voting value accumulated in an arbitrary voxel (x, y, z) in the
v (i + 1) = v (i) (x, y, z) -s
It can be executed by doing. When the value of the ballot box is 0, s need not be subtracted.
第1、第2の実施形態では、各ボクセルの投票箱では、どれかが閾値を超えて検出されるまでは、時間と共にその積算される投票箱の値が増加し続けるため、ユーザ6が投票するつもりのない場所にも、その間ずっと積算された値が残ってしまう問題があったが、本実施形態の投票値減算処理により、しばらくユーザ6が指し示していない方向のボクセルは、積算された投票値は時間と共に減少していき、最後は0に落ち着くので、ユーザ6が意図しないボクセルを検出してしまう誤検出を減らすことができる利点を持っている。
In the first and second embodiments, the value of the accumulated ballot box continues to increase with time until one of the ballot boxes of each voxel is detected exceeding the threshold value, so that the
また、上記では、減算値を−sとしたが、引き算ではなく掛け算により値を減らす方法もある。例えば、掛ける値をmとし、mを0〜1の間の実数とすると、
v(i+1)=v(i)(x,y,z)×m
を行うことにより、同様に時間と共に値を減らすことができる。求められた値はそのままでは実数になるが、計算しやすいように、小数点以下を切り捨てるなどの整数化を行ってもよい。減算を引き算(−s)で行う場合は、時間と共に単調に減少していくが、掛け算(×m)で行う場合は、時間が経つにつれ、減少する量は小さくなる特徴を持つ。必要に応じ使い分ければよい。
In the above description, the subtraction value is -s. However, there is a method of reducing the value not by subtraction but by multiplication. For example, if the value to be multiplied is m and m is a real number between 0 and 1,
v (i + 1) = v (i) (x, y, z) × m
By performing the above, the value can be reduced with time. Although the obtained value is a real number as it is, it may be converted into an integer such as truncating after the decimal point for easy calculation. When subtraction is performed by subtraction (-s), it decreases monotonically with time. However, when it is performed by multiplication (xm), the amount of decrease decreases with time. Use them as needed.
以上により、本実施形態によれば、ユーザ6が腕を伸ばして、3次元空間中の物体等を直接実空間中で、ある一定時間指し示すことにより、指し示された3次元位置(物体)を検出することが可能になるとともに、第1の実施形態よりも精度よく、かつ高速に物体検出を行うことが可能になるとともに、ユーザ6が意図しないボクセル位置を誤検出する可能性を減らすことができ、精度向上が図れる。
As described above, according to the present embodiment, the
なお、以上説明したインタフェース装置の機能は専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フロッピーディスク、光磁気ディスク、CD−ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。 The functions of the interface device described above are not realized by dedicated hardware, but a program for realizing the functions is recorded on a computer-readable recording medium and recorded on the recording medium. The program may be read into a computer system and executed. The computer-readable recording medium refers to a recording medium such as a floppy disk, a magneto-optical disk, a CD-ROM, or a storage device such as a hard disk device built in the computer system. Furthermore, a computer-readable recording medium is a server that dynamically holds a program (transmission medium or transmission wave) for a short period of time, as in the case of transmitting a program via the Internet, and a server in that case. Some of them hold programs for a certain period of time, such as volatile memory inside computer systems.
1a,1b 画像入力部
2 3次元指示方向情報算出部
3 3次元指示位置検出部
4 空間情報登録部
5 空間情報データメモリ
6 ユーザ
21 距離画像生成部
22 始終点2次元座標算出部
23 始終点3次元座標算出部
31 投票処理部
31a 交差ボクセル投票処理部
31b 隣接ボクセル投票処理部
32 検出処理部
33 投票箱データメモリ
34 投票値減算処理部
100〜109 ステップ
DESCRIPTION OF
Claims (6)
実空間上にある物体の情報の一部もしくは全体に渡る3次元位置情報およびその付加情報を登録する空間情報登録ステップと、
複数台のカメラで撮影した複数の入力画像から、操作者の体の部位の、該操作者の指し示した方向に関わる始点と終点の3次元座標を算出し、該操作者の指し示す実空間上での3次元指示方向情報を求める3次元指示方向検出ステップと、
得られた該3次元指示方向情報と、前記登録された物体の情報とから、該操作者が指し示す3次元指示位置情報である、該操作者が指し示す方向の延長線と、登録された物体との交点に関する情報を検出する3次元指示位置検出ステップであって、実空間を分割したボクセル空間の各ボクセルに1対1に対応した投票箱を含む投票箱データメモリの、該3次元指示方向情報に基づき該操作者の指し示す方向の延長線が交差するボクセルに対応する投票箱に投票処理を行う投票処理ステップと、前記投票箱データメモリ内の各投票箱に記録されている投票値の情報と、登録されている物体情報とから、操作者の指し示す3次元指示位置のボクセルを検出する検出ステップとを含む3次元指示位置検出ステップと
を有するインタフェース方法。 An interface method for inputting images taken by a plurality of cameras and recognizing a position or an object in a real space indicated by an operator using a body part,
A spatial information registration step for registering part or all of the information of the object in the real space and the additional information thereof;
From a plurality of input images photographed by a plurality of cameras, the three-dimensional coordinates of the start point and end point of the body part of the operator related to the direction indicated by the operator are calculated, and in the real space indicated by the operator A three-dimensional pointing direction detecting step for obtaining three-dimensional pointing direction information of
From the obtained three-dimensional indication direction information and the registered object information, the extension line in the direction indicated by the operator, which is three-dimensional indication position information indicated by the operator, and the registered object 3D pointing position detecting step for detecting information related to the intersection of the three-dimensional pointing direction information of a ballot box data memory including a ballot box corresponding to each voxel in the voxel space obtained by dividing the real space on a one-to-one basis A voting process step for performing voting on a ballot box corresponding to a voxel intersecting with an extension line in the direction indicated by the operator, and information on voting values recorded in each ballot box in the ballot box data memory; A three-dimensional pointing position detection step including a detection step of detecting a voxel at the three-dimensional pointing position indicated by the operator from the registered object information.
実空間上にある物体の情報の一部もしくは全体に渡る3次元位置情報およびその付加情報を登録する空間情報登録手段と、
複数台のカメラで撮影した複数の入力画像から、操作者の体の部位の、該操作者の指し示した方向に関わる始点と終点の3次元座標を算出し、該操作者の指し示す実空間上での3次元指示方向情報を求める3次元指示方向情報算出手段と、
得られた該3次元指示方向情報と、前記登録された物体の情報とから、操作者が指し示す3次元指示位置情報である、該操作者が指し示す方向の延長線と、登録された物体との交点に関する情報を検出する3次元指示位置検出手段であって、実空間を分割したボクセル空間の各ボクセルに1対1に対応した投票箱を含む投票箱データメモリと、該3次元指示方向情報に基づき該操作者の指し示す方向の延長線が通過するボクセルに対応する投票箱に投票処理を行う投票処理手段と、前記投票箱データメモリ内の各投票箱に記録されている投票値の情報と、登録されている物体情報とから、該操作者の指し示す3次元指示位置のボクセルを検出する検出処理手段とを含む3次元指示位置検出手段と
を有するインタフェース装置。 An interface device for inputting images taken by a plurality of cameras and recognizing a position or an object in a real space indicated by an operator using a body part,
Spatial information registration means for registering part or all of the information of the object in the real space and the additional information thereof;
From a plurality of input images photographed by a plurality of cameras, the three-dimensional coordinates of the start point and end point of the body part of the operator related to the direction indicated by the operator are calculated, and in the real space indicated by the operator 3D pointing direction information calculating means for obtaining 3D pointing direction information of
Based on the obtained three-dimensional indication direction information and the registered object information, the extension line in the direction indicated by the operator, which is three-dimensional indication position information indicated by the operator, and the registered object A three-dimensional pointing position detecting means for detecting information related to the intersection, a ballot box data memory including a one-to-one ballot box corresponding to each voxel in the voxel space obtained by dividing the real space, and the three-dimensional pointing direction information Voting processing means for performing voting processing on the ballot box corresponding to the voxel through which the extension line in the direction indicated by the operator passes, and information on the voting value recorded in each ballot box in the ballot box data memory, An interface device comprising: three-dimensional pointing position detection means including detection processing means for detecting voxels at the three-dimensional pointing position indicated by the operator from registered object information.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004138756A JP4221330B2 (en) | 2004-05-07 | 2004-05-07 | Interface method, apparatus, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004138756A JP4221330B2 (en) | 2004-05-07 | 2004-05-07 | Interface method, apparatus, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005321966A true JP2005321966A (en) | 2005-11-17 |
JP4221330B2 JP4221330B2 (en) | 2009-02-12 |
Family
ID=35469218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004138756A Expired - Fee Related JP4221330B2 (en) | 2004-05-07 | 2004-05-07 | Interface method, apparatus, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4221330B2 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009151419A (en) * | 2007-12-19 | 2009-07-09 | Advanced Telecommunication Research Institute International | Method and apparatus for specifying target |
JP2009240370A (en) * | 2008-03-28 | 2009-10-22 | Advanced Telecommunication Research Institute International | Motion detector |
JP2011198270A (en) * | 2010-03-23 | 2011-10-06 | Denso It Laboratory Inc | Object recognition device and controller using the same, and object recognition method |
JP2014517957A (en) * | 2011-04-29 | 2014-07-24 | マイクロソフト コーポレーション | Inferring spatial object descriptions from spatial gestures |
JP2015152338A (en) * | 2014-02-12 | 2015-08-24 | トヨタ自動車株式会社 | Distance information acquisition method, distance information acquisition apparatus, and robot |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5658500B2 (en) | 2010-07-26 | 2015-01-28 | キヤノン株式会社 | Information processing apparatus and control method thereof |
-
2004
- 2004-05-07 JP JP2004138756A patent/JP4221330B2/en not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009151419A (en) * | 2007-12-19 | 2009-07-09 | Advanced Telecommunication Research Institute International | Method and apparatus for specifying target |
JP2009240370A (en) * | 2008-03-28 | 2009-10-22 | Advanced Telecommunication Research Institute International | Motion detector |
JP2011198270A (en) * | 2010-03-23 | 2011-10-06 | Denso It Laboratory Inc | Object recognition device and controller using the same, and object recognition method |
JP2014517957A (en) * | 2011-04-29 | 2014-07-24 | マイクロソフト コーポレーション | Inferring spatial object descriptions from spatial gestures |
US9613261B2 (en) | 2011-04-29 | 2017-04-04 | Microsoft Technology Licensing, Llc | Inferring spatial object descriptions from spatial gestures |
JP2015152338A (en) * | 2014-02-12 | 2015-08-24 | トヨタ自動車株式会社 | Distance information acquisition method, distance information acquisition apparatus, and robot |
Also Published As
Publication number | Publication date |
---|---|
JP4221330B2 (en) | 2009-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8963963B2 (en) | Video-based image control system | |
US20200097091A1 (en) | Method and Apparatus of Interactive Display Based on Gesture Recognition | |
CN105229582B (en) | Gesture detection based on proximity sensor and image sensor | |
KR101581954B1 (en) | Apparatus and method for a real-time extraction of target's multiple hands information | |
KR20120068253A (en) | Method and apparatus for providing response of user interface | |
CN104487915A (en) | Maintaining continuity of augmentations | |
EP2814000A1 (en) | Image processing apparatus, image processing method, and program | |
CN109388233B (en) | Transparent display device and control method thereof | |
JP6314251B2 (en) | Operation input device, operation input method and program | |
KR20160129000A (en) | Real-time 3d gesture recognition and tracking system for mobile devices | |
JP2004265222A (en) | Interface method, system, and program | |
US20150339859A1 (en) | Apparatus and method for navigating through volume image | |
KR20140104597A (en) | Mobile devices of transmitting and receiving data using gesture | |
JP3860550B2 (en) | Interface method, apparatus, and program | |
WO2019085519A1 (en) | Method and device for facial tracking | |
JP4221330B2 (en) | Interface method, apparatus, and program | |
JP2006244272A (en) | Hand position tracking method, device and program | |
KR101535738B1 (en) | Smart device with touchless controlling operation function and the control method of using the same | |
US11199946B2 (en) | Information processing apparatus, control method, and program | |
KR101447958B1 (en) | Method and apparatus for recognizing body point | |
JP2013167938A (en) | Information input device | |
CN111373732A (en) | Information processing apparatus, information processing method, and information processing system | |
KR101558094B1 (en) | Multi-modal system using for intuitive hand motion and control method thereof | |
JP2019186698A (en) | Image processing apparatus, processing method, and program | |
JP2018181169A (en) | Information processor, and information processor control method, computer program, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060720 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080709 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080904 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081105 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081117 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111121 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111121 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121121 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121121 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131121 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |