JP2020095671A - 認識装置及び認識方法 - Google Patents
認識装置及び認識方法 Download PDFInfo
- Publication number
- JP2020095671A JP2020095671A JP2019110806A JP2019110806A JP2020095671A JP 2020095671 A JP2020095671 A JP 2020095671A JP 2019110806 A JP2019110806 A JP 2019110806A JP 2019110806 A JP2019110806 A JP 2019110806A JP 2020095671 A JP2020095671 A JP 2020095671A
- Authority
- JP
- Japan
- Prior art keywords
- indicator
- image
- pointer
- tip
- recognition device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Position Input By Displaying (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
【課題】指示体の3次元的な位置を認識する技術を提供する。【解決手段】認識装置は、指示体の画像を撮影する単眼カメラと、画像を用いて指示体の先端部の空間座標を推定する空間座標推定部と、を備える。空間座標推定部は、画像から指示体を検出する指示体検出部と、画像における指示体の形状から指示体の先端部の奥行座標を推定する奥行座標推定部と、を含む。【選択図】図1
Description
本開示は、操作者が有する指示体の空間座標を認識する認識技術に関するものである。
特許文献1には、単眼カメラを用いて手を撮像し、手の回転動作と払い動作の識別を行うシステムが開示されている。
しかしながら、上記従来技術では、カメラの光軸に垂直な平面上における2次元的な手の動きを検出できるだけであり、3次元的な位置を認識することはできなかった。そこで、従来から、手の3次元的な位置を認識できる技術が望まれていた。このような課題は、手に限らず、他の種類の指示体の3次元的な位置を認識する場合に共通する課題であった。
本開示の一形態によれば、操作者が有する指示体の空間座標を認識する認識装置が提供される。この認識装置は、前記指示体の画像を撮影する単眼カメラと、前記画像を用いて前記指示体の先端部の空間座標を推定する空間座標推定部と、を備える。前記空間座標推定部は、前記画像から前記指示体を検出する指示体検出部と、前記画像における前記指示体の形状から前記指示体の前記先端部の奥行座標を推定する奥行座標推定部と、を含む。
A. 第1実施形態
図1は、第1実施形態における指示体認識システムのブロック図である。この指示体認識システムは、操作者OPの頭部に装着される頭部装着型表示装置100で構成されている。頭部装着型表示装置100は、指示体PBとしての手指の空間座標を認識する。
図1は、第1実施形態における指示体認識システムのブロック図である。この指示体認識システムは、操作者OPの頭部に装着される頭部装着型表示装置100で構成されている。頭部装着型表示装置100は、指示体PBとしての手指の空間座標を認識する。
頭部装着型表示装置100は、操作者OPに画像を視認させる画像表示部110と、画像表示部110を制御する制御部120とを備える。画像表示部110は、操作者OPの頭部に装着される装着体として構成されており、本実施形態では眼鏡形状を有する。画像表示部110は、右目用表示部112Rと左目用表示部112Lとを含む表示部112と、カメラ114とを備える。表示部112は、透過型の表示装置であり、表示部112を透過して視認される外界の風景ともに、表示部112に表示される画像を操作者OPに視認させるように構成されている。すなわち、頭部装着型表示装置100は、表示部112を通過して視認される外界の中に、表示部112で表示された画像が浮かび上がる透過型のヘッドマウントディスプレイである。
図1の例では、表示部112を用いて外界の空間内に仮想スクリーンVSが表示されており、操作者OPは、指示体PBを用いて仮想スクリーンVS上における操作を実行する。本実施形態では、指示体PBは手指である。頭部装着型表示装置100は、カメラ114を用いて指示体PBを含む画像を撮影し、その画像を処理することによって指示体PBの先端部PTの空間座標を認識する認識装置として機能する。頭部装着型表示装置100は、更に、認識された指示体PBの先端部PTの空間的な位置やその軌跡を用いて、仮想スクリーンVS上における操作を認識し、その操作に応じた処理を実行する。カメラ114としては、単眼カメラが使用される。
指示体PBを認識する認識装置としては、頭部装着型表示装置100に限らず、他の種類の装置を使用することも可能である。また、指示体PBとしては、手指に限らず、操作者OPが指示を与えるために使用する指示用ペンや指示棒などの他の物体を利用することも可能である。
図2は、第1実施形態における頭部装着型表示装置100の機能ブロック図である。頭部装着型表示装置100の制御部120は、プロセッサーとしてのCPU122と、記憶部124と、電源部126とを備える。CPU122は、空間座標推定部200及び操作実行部300として機能する。空間座標推定部200は、カメラ114を用いて撮影された指示体PBの画像を用いて指示体PBの先端部PTの空間座標を推定する。操作実行部300は、指示体PBの先端部PTの空間座標に応じた操作を実行する。
空間座標推定部200は、指示体検出部210と奥行座標推定部220とを含む。指示体検出部210は、カメラ114を用いて撮影された指示体PBの画像から、指示体PBを検出する。奥行座標推定部220は、指示体PBの画像における指示体PBの形状から、指示体PBの先端部PTの奥行座標を推定する。指示体検出部210と奥行座標推定部220の機能の詳細については後述する。本実施形態において、空間座標推定部200の機能は、記憶部124に記憶されたコンピュータープログラムをCPU122が実行することによって実現される。但し、空間座標推定部200の機能の一部又は全部をハードウェア回路で実現してもよい。CPU122は、更に、表示部112に画像を表示することによって、操作者OPに画像を視認させる表示実行部としての機能も有しているが、図2では図示が省略されている。
図3は、空間座標推定処理の手順を示すフローチャートである。この空間座標推定処理は、空間座標推定部200によって実行される。ステップS100では、カメラ114を用いて指示体PBの画像を撮影する。
図4は、指示体PBを含む画像MPを示す説明図である。以下に詳述するように、第1実施形態では、画像MPの中で指示体PBの領域である指示体領域RBRが検出され、また、指示体PBである手指の指先が指示体PBの先端部PTとして認識される。更に、画像MP内において、先端部PTを含む先端部領域の面積Spが算出される。以下ではこの面積Spを「先端部面積Sp」と呼ぶ。
画像MP内の位置は、横方向のu座標と、縦方向のv座標で表される。指示体PBの先端部PTの空間座標は、画像MPの2次元座標(u,v)と奥行座標Zとを用いて、(u,v,Z)で表すことが可能である。奥行座標Zは、図1において、カメラ114から指示体PBの先端部PTである指先までの距離である。
図3のステップS200では、奥行座標Zの変換式を記憶部124から読み込む。
図5は、奥行座標の変換式の例を示すグラフである。第1実施形態において、奥行座標Zは、例えば以下の式で与えられる。
Z=k/Sp0.5 …(1)
ここで、kは定数、Spは指示体PBの先端部面積である。
この(1)式は、予め取得された複数の点(Z1,Sp1)〜(Zn,Spn)の値を用いて算出した式であり、図5の例ではnは3である。
Z=k/Sp0.5 …(1)
ここで、kは定数、Spは指示体PBの先端部面積である。
この(1)式は、予め取得された複数の点(Z1,Sp1)〜(Zn,Spn)の値を用いて算出した式であり、図5の例ではnは3である。
上記(1)式は、指示体PBの先端部の奥行座標Zが、指示体PBの先端部面積Spの平行根に反比例することを示している。但し、(1)式以外の関係を表す式を使用することも可能である。但し、先端部面積Spと奥行座標Zとの関係は、一般に、指示体PBの先端部面積Spが小さくなるほど奥行座標Zが大きくなるような関係である。このような先端部面積Spと奥行座標Zとの関係は、予めキャリブレーションを行うことによって決定され、記憶部124に記憶される。奥行座標Zの変換式としては、関数以外の形式のものを利用可能であり、例えば、先端部面積Spを入力とし奥行座標Zを出力とするルックアップテーブルを用いることも可能である。
図3のステップS300では、指示体検出部210が、指示体PBの画像から、指示体領域を検出する指示体領域検出処理を実行する。
図6は、指示体領域検出処理のフローチャートである。ステップS310では、画像MPの中で、予め設定された皮膚色を有する領域を抽出する。本実施形態では、手指を指示体PBとして使用するので、手指の色である皮膚色の領域が抽出される。この抽出のために、皮膚色の許容色範囲が予め設定されており、その許容色範囲内にある画素が連結した領域が皮膚色の領域として抽出される。手指以外の指示体を使用する場合には、その指示体の色を指示体色として予め設定しておき、指示体を撮影した画像内における指示体色の領域を指示体として認識することが可能である。
ステップS320では、皮膚色の領域のうちで最大の面積を有する領域を検出する。ここで、皮膚色の領域のうちで最大の面積を有する領域を検出する理由は、皮膚色の小さな領域を手指と誤認識することを防止するためである。ステップS320が終了すると、図3のステップS400に進む。
なお、皮膚色などの指示体PBの色を用いて指示体領域を検出する代わりに、他の方法を用いて指示体領域を検出するようにしてもよい。例えば、画像MP内の特徴点を検出し、画像MPを複数の小区画に区分して、特徴点の数が予め定められた閾値よりも少ない区画を抽出することによって指示体領域を検出することが可能である。この方法は、手指などの指示体PBは、特徴点が他の画像部分よりも少ないことを利用している。
特徴点は、例えば、ORB(Oriented FAST and Rotated BRIEF)やKAZEなどのアルゴリズムを用いて検出することができる。ORBで検出される特徴点は、物体のコーナーに相当する特徴点である。具体的には、注目画素周りの16画素を観測し、注目画素周りの画素の画素値が連続して明るいとき又は暗いときに、注目画素が物体のコーナーに相当する特徴点であるとして検出される。KAZEで検出される特徴点は、エッジ部分を表す特徴点である。具体的には、画像に非線形拡散フィルターを適用して擬似的に解像度を低下させる処理を行い、その処理の前後における画素値の差分が閾値よりも小さい画素が特徴点として検出される。
図3のステップS400では、指示体検出部210が、画像MP内に指示体領域RBRが存在することを検出できたか否かを判定する。この判定は、図6のステップS320で検出した皮膚色領域の面積が、予め設定された許容範囲内にあるか否かの判定である。ここで、皮膚色領域の許容範囲の上限値は、例えば、先端部PTの奥行座標Zがその現実的な範囲内で最も小さく、かつ、指示体PBがカメラ114の光軸に対して垂直な方向を向いているときの指示体領域RBRの面積として設定される。また、皮膚色領域の許容範囲の下限値は、例えば、先端部PTの奥行座標Zがその現実的な範囲内で最も大きく、かつ、指示体PBがカメラ114の光軸に対して現実的な範囲で最も傾いた方向を向いているときの指示体領域RBRの面積として設定される。
ステップS400において、指示体領域RBRが存在することを検出されない場合には、ステップS300に戻り、図6で説明した指示体領域検出処理が再度実行される。この2回目以降のステップS300の処理では、指示体領域RBRをより検出し易いように検出条件が変更される。具体的には、例えば、ステップS310の皮膚色領域の抽出処理において、皮膚色の許容色範囲を前回のステップS300の実行時の範囲からシフトさせるか、或いは、許容色範囲を拡大又は縮小する。
ステップS400において指示体領域RBRが存在することを検出できた場合には、ステップS500に進む。ステップS500では、指示体検出部210が、先端部検出処理を実行する。
図7は、先端部検出処理のフローチャートである。ステップS510では、図4に示す指示体領域RBRの重心Gの座標(u,v)を算出する。ステップS520では、指示体領域RBRの輪郭CHを検出する。具体的には、例えば、指示体領域RBRの凸包を指示体領域RBRの輪郭CHとして検出する。この輪郭CHは、指示体領域RBRの外形を近似した多角形であり、複数の頂点Vnを直線で結んだ凸多角形である。
ステップS530では、指示体領域RBRの重心Gから、指示体領域RBRの輪郭CHの複数の頂点Vnまでの距離を使用して、指示体領域RBRの先端部PTを検出する。具体的には、複数の頂点Vnのうちで、重心Gからの距離が最も大きな頂点を、指示体領域RBRの先端部PTとして検出する。
こうして指示体PBの先端部PTが検出されると、図3のステップS600に進む。ステップS600では、奥行座標推定部220が先端部PTの奥行座標Zを推定する。
図8は、奥行座標推定処理のフローチャートである。ステップS610では、図4に示す関心領域Rrefを画像MP内に設定する。関心領域Rrefは、指示体PBの先端部PTを中心とした予め定められた形状と面積を有する領域である。図4の例では、関心領域Rrefは正方形の領域であるが、正方形以外の形状の領域としてもよく、例えば、長方形の領域や円形の領域としてもよい。
ステップS620では、関心領域Rref内にある皮膚色の領域の面積を先端部面積Spとして算出する。本願の発明者は、関心領域Rref内の先端部面積Spが、カメラ114の光軸に対する指示体PBの傾きにほとんど依存せず、先端部PTとカメラ114の距離にのみ依存することを見出した。このような関係が成立する理由は、関心領域Rrefが画像MP内に設定された予め定められた形状と面積を有する領域なので、カメラ114の光軸に対する指示体PBの傾きが変化しても、関心領域Rref内に収まる指示体PBの範囲が変化するだけで、その先端部面積Spがほぼ一定に維持されるからである。
ステップS630では、先端部面積Spから先端部PTの奥行座標Zが算出される。この処理は、ステップS200で読み込まれた奥行座標の変換式に従って実行される。
上述した奥行座標Zの推定処理では、画像MP内における指示体PBの形状に応じて、先端部PTの位置と先端部面積Spとが決定され、先端部面積Spに応じて奥行座標Zが推定されている。従って、奥行座標推定部220は、画像MPにおける指示体PBの形状から指示体PBの先端部PTの奥行座標Zを推定しているものと考えることが可能である。
指示体PBの先端部PTの奥行座標Zが推定されると、画像MP内における先端部PTの座標(u,v)と合わせて、指示体PBの先端部PTの空間座標(u,v,Z)が得られる。なお、空間座標としては、(u,v,Z)以外の他の種類の3次元座標を用いても良い。例えば、頭部装着型表示装置100の基準座標系で定義された3次元座標などを用いても良い。
頭部装着型表示装置100の操作実行部300は、指示体PBの先端部PTの位置を示す空間座標を用いて、先端部PTの位置又はその軌跡に応じた処理を実行する。先端部PTの位置又はその軌跡に応じた処理としては、例えば、図1に示したように、カメラ114の前方に設定された仮想スクリーンVSにおけるタッチ操作やスワイプ操作などの操作を行うことが可能である。
図9は、タッチ操作の様子を示す説明図である。タッチ操作は、仮想スクリーンVS上で指示体PBの先端部PTを任意の位置PPにタッチする操作である。このタッチ操作に応じて、例えば、アイコンなどのオブジェクトの選択や、アプリケーションの起動等の処理を実行することができる。
図10は、スワイプ操作の様子を示す説明図である。スワイプ操作は、仮想スクリーンVS上で指示体PBの先端部PTの位置PPを移動させる操作である。このスワイプ操作に応じて、例えば、選択したオブジェクトの移動や、表示の切り替え、ロックの解除等の処理を実行することができる。
このように、第1実施形態では、画像MPにおける指示体PBの形状から指示体PBの先端部PTの奥行座標Zを推定するので、3次元空間における指示体PBの先端部PTの座標を検出することが可能である表示部112に表示される画像を操作者OPに視認させるよう。
B. 第2実施形態
図11は、第2実施形態における奥行座標推定処理のフローチャートであり、図12はその処理内容を示す説明図である。第2実施形態は、奥行座標推定処理の詳細手順が第1実施形態と異なるだけであり、装置構成や奥行座標推定処理以外の処理は第1実施形態とほぼ同じである。
図11は、第2実施形態における奥行座標推定処理のフローチャートであり、図12はその処理内容を示す説明図である。第2実施形態は、奥行座標推定処理の詳細手順が第1実施形態と異なるだけであり、装置構成や奥行座標推定処理以外の処理は第1実施形態とほぼ同じである。
ステップS640では、指示体領域RBRの重心Gと先端部PTの距離Lを算出する。ステップS650では、重心Gと先端部PTの距離Lから奥行座標Zを算出する。ステップS650の処理では、図3のステップS200で読み込まれた奥行座標Zの変換式を用いる。但し、この変換式は、重心Gと先端部PTの距離Lと、奥行座標Zとの関係を示すものである。一般に、この関係は、重心Gと先端部PTの距離Lが小さくなるほど奥行座標Zが大きくなるような関係として設定される。このような距離Lと奥行座標Zとの関係は、予めキャリブレーションを行うことによって決定され、記憶部124に記憶される。
このように、第2実施形態では、先端部面積Spの代わりに、指示体領域の重心Gと先端部PTの距離Lを用いることによって、先端部PTの奥行座標Zを推定することが可能である。
C.第3実施形態:
図13は、第3実施形態における奥行座標推定処理のフローチャートであり、図14はその処理内容を示す説明図である。第3実施形態は、奥行座標推定処理の詳細手順が第1実施形態と異なるだけであり、装置構成や奥行座標推定処理以外の処理は第2実施形態とほぼ同じである。
図13は、第3実施形態における奥行座標推定処理のフローチャートであり、図14はその処理内容を示す説明図である。第3実施形態は、奥行座標推定処理の詳細手順が第1実施形態と異なるだけであり、装置構成や奥行座標推定処理以外の処理は第2実施形態とほぼ同じである。
第3実施形態において、奥行座標推定処理(図13)では、ステップS300で検出した指示体領域に基づき、まずステップS710において、指示体の中心部分の領域に含まれる点APを設定する処理を行なう。点APは、指示体領域の中心部付近であれば、任意の点であってよい。例えば重心Gを中心とする所定半径の領域でもよく、画像における指示体内に描画可能な最大の内接円や最大の内接多角形として中心部分の領域を定めてもよい。また、指示体の中心部分の領域に含まれる任意の点とは、例えば重心であってもよく、指示体の輪郭CHと先端PTを挟む両側の2点で交わる直線のうち最大長となる直線の中点であってもよい。あるいは、指示体領域または輪郭CHで囲まれた領域を面積が等しい2つの領域に分ける直線であって、互いに交差する直線を2つ見いだし、その交点として求めてもよい。もとより、上述した内接円内等の任意の点であってもよい。
こうして点APを設定した後、ステップS720において、点APと先端部PTの距離Lを算出し、ステップS730において、この距離Lから奥行座標Zを算出する。先端部PTは、既述した先端部検出処理(図7参照)と同様に、重心Gからの距離が最も大きくなる輪郭CH上の点として求めてもよいし、指示体領域RBRに設定した点APから、指示体領域RBRの輪郭CHの複数の頂点Vnまでの距離を使用して、指示体領域RBRの先端部PTを検出してもよい。具体的には、複数の頂点Vnのうちで、点APからの距離が最も大きな頂点を、指示体領域RBRの先端部PTとして検出すればよい。
ステップS730において、距離Lから奥行座標Zを算出する際には、図3のステップS200で読み込まれた奥行座標Zの変換式を用いる。但し、この変換式は、点APと先端PTとの距離Lと奥行座標Zとの関係を、予め求めておいたものである。一般に、この関係は、指示体領域の中心部領域に含まれる点APと先端部PTの距離Lが小さくなるほど奥行座標Zが大きくなるような関係として設定される。このような距離Lと奥行座標Zとの関係は、ステップS710で設定される点APの設定の手法に基づいて、予めキャリブレーションを行うことによって決定され、記憶部124に記憶される。
このように、第3実施形態では、第2実施形態で用いた指示体領域の重心Gの代わりに、指示体領域の中心部領域の任意の点APと先端部PTの距離Lを用いることによって、先端部PTの奥行座標Zを推定することが可能である。こうすれば、点APは、重心に限られないので、指示体の種類などに応じて、点APを定める際の自由度を高くできる。
D. 第4実施形態
図15は、第4実施形態における頭部装着型表示装置100の機能ブロック図である。第4実施形態の頭部装着型表示装置100は、その空間座標推定部240の内部構成が図3に示した空間座標推定部200と異なるだけであり、他の装置構成は第1実施形態と同じである。
図15は、第4実施形態における頭部装着型表示装置100の機能ブロック図である。第4実施形態の頭部装着型表示装置100は、その空間座標推定部240の内部構成が図3に示した空間座標推定部200と異なるだけであり、他の装置構成は第1実施形態と同じである。
図16は、第4実施形態における空間座標推定部240の内部構成例を示す説明図である。この空間座標推定部240は、ニューラルネットワークによって構成されており、入力層242と中間層244と全結合層246と出力層248とを有する。このニューラルネットワークは、中間層244が畳み込みフィルターとプーリング層とを含む畳み込みニューラルネットワークである。但し、畳み込みニューラルネットワーク以外のニューラルネットワークを用いても良い。
入力層242の入力ノードには、カメラ114で撮影された画像MPが入力される。中間層244は、畳み込みフィルター層とプーリング層とを含む。中間層244は、これらのフィルター層とプーリング層を複数含んでいても良い。中間層244では、画像MPに応じた複数の特徴量が出力されて、全結合層246に入力される。全結合層246は、複数の全結合層を含んでいても良い。
出力層248は、4つの出力ノードN1〜N4を含む。第1の出力ノードN1は、画像MP内で指示体PBが検出されたか否かを示すスコアS1を出力する。他の3つの出力ノードN2〜N4は、指示体PBの先端部PTの空間座標Z,u,vを出力する。なお、2次元座標u,vを出力する出力ノードN3,N4は、省略してもよい。この場合には、先端部PTの2次元座標u,vを、他の処理で求めるようにしてもよい。具体的には、例えば、先端部PTの2次元座標u,vを図7で説明した先端部検出処理によって求めてもよい。
空間座標推定部240のニューラルネットワークの学習は、例えば、複数のカメラで撮影された複数の画像から得られる視差画像を用いて実行することができる。すなわち、視差画像から奥行座標Zが得られるので、複数の画像のうちの一つの画像に奥行座標Zを付与したデータを学習データとして用いることによって、ニューラルネットワークの学習を行うことが可能である。
ニューラルネットワークを利用した空間座標推定部240のうち、第1の出力ノードN1からスコアS1を出力する部分は、画像MPから指示体PBを検出する指示体検出部に相当する。また、第2の出力ノードN2から先端部PTの空間座標Zを出力する部分は、画像MPにおける指示体PBの形状から指示体PBの先端部PTの奥行座標Zを推定する奥行座標推定部に相当する。
この第4実施形態においても、上述した第1実施形態ないし第3実施形態と同様に、画像MPにおける指示体PBの形状からその先端部PTの奥行座標Zを推定するので、3次元空間における指示体PBの先端部PTの座標を検出することが可能である。
E. 他の実施形態
本開示は、上述した実施形態に限られるものではなく、その趣旨を逸脱しない範囲において種々の形態で実現することができる。例えば、本開示は、以下の形態(aspect)によっても実現可能である。以下に記載した各形態中の技術的特徴に対応する上記実施形態中の技術的特徴は、本開示の課題の一部又は全部を解決するために、あるいは、本開示の効果の一部又は全部を達成するために、適宜、差し替えや、組み合わせを行うことが可能である。また、その技術的特徴が本明細書中に必須なものとして説明されていなければ、適宜、削除することが可能である。
本開示は、上述した実施形態に限られるものではなく、その趣旨を逸脱しない範囲において種々の形態で実現することができる。例えば、本開示は、以下の形態(aspect)によっても実現可能である。以下に記載した各形態中の技術的特徴に対応する上記実施形態中の技術的特徴は、本開示の課題の一部又は全部を解決するために、あるいは、本開示の効果の一部又は全部を達成するために、適宜、差し替えや、組み合わせを行うことが可能である。また、その技術的特徴が本明細書中に必須なものとして説明されていなければ、適宜、削除することが可能である。
(1)本開示の第1の形態によれば、操作者が有する指示体の空間座標を認識する認識装置が提供される。この認識装置は、前記指示体の画像を撮影する単眼カメラと、前記画像を用いて前記指示体の先端部の空間座標を推定する空間座標推定部と、を備える。前記空間座標推定部は、前記画像から前記指示体を検出する指示体検出部と、前記画像における前記指示体の形状から前記指示体の前記先端部の奥行座標を推定する奥行座標推定部と、を含む。
この認識装置によれば、画像における指示体の形状からその先端部の奥行座標を推定するので、3次元空間における指示体の先端部の座標を検出できる。
この認識装置によれば、画像における指示体の形状からその先端部の奥行座標を推定するので、3次元空間における指示体の先端部の座標を検出できる。
(2)上記認識装置において、前記奥行座標推定部は、(a)前記画像において前記指示体の前記先端部を中心とした予め定められたサイズの関心領域内に存在する前記指示体の面積を先端部面積として算出し、前記先端部面積と前記奥行座標との間の予め定められた関係に従って前記先端部面積から前記奥行座標を推定する第1処理と、(b)前記画像における前記指示体の重心と前記先端部との間の距離を算出し、前記距離と前記奥行座標との間の予め定められた関係に従って前記距離から前記奥行座標を推定する第2処理と、のいずれかの処理を実行する。
この認識装置によれば、先端部面積、又は、指示体の重心と先端部との間の距離、のいずれかを用いて指示体の先端部の奥行座標を推定できる。
この認識装置によれば、先端部面積、又は、指示体の重心と先端部との間の距離、のいずれかを用いて指示体の先端部の奥行座標を推定できる。
(3)上記認識装置において、前記指示体検出部は、前記画像において、予め設定された皮膚色の領域を前記指示体として検出する。
この認識装置によれば、手指などの皮膚色の指示体を正しく認識できる。
この認識装置によれば、手指などの皮膚色の指示体を正しく認識できる。
(4)上記認識装置において、前記指示体検出部は、前記画像において、前記指示体の重心から最も遠い前記指示体の部分の位置を前記先端部の2次元座標として検出する。
この認識装置によれば、指示体の先端部の2次元座標を正しく検出できる。
この認識装置によれば、指示体の先端部の2次元座標を正しく検出できる。
(5)上記認識装置において、前記空間座標推定部は、前記画像が入力される入力ノードと、複数の出力ノードとを有するニューラルネットワークを含み、前記指示体検出部は、前記複数の出力ノードのうち、前記指示体が存在するか否かを出力する第1出力ノードを含み、前記奥行座標推定部は、前記先端部の奥行座標を出力する第2出力ノードを含む。
この認識装置によれば、ニューラルネットワークを用いて3次元空間における指示体の先端部の座標を検出できる。
この認識装置によれば、ニューラルネットワークを用いて3次元空間における指示体の先端部の座標を検出できる。
(6)上記認識装置において、前記空間座標推定部で推定された前記先端部の空間座標に応じて、前記単眼カメラの前方に設定された仮想スクリーンにおけるタッチ操作又はスワイプ操作を実行する操作実行部、を備える。
この認識装置によれば、指示体を用いて仮想スクリーンにおけるタッチ操作やスワイプ操作を実現できる。
この認識装置によれば、指示体を用いて仮想スクリーンにおけるタッチ操作やスワイプ操作を実現できる。
(7)本開示の第2の形態によれば、操作者が有する指示体の空間座標を認識する認識装置が提供される。この認識装置は、前記指示体の画像を撮影する単眼カメラと、前記画像を用いて前記指示体の先端部の空間座標を推定する空間座標推定部と、を備える。ここで、前記空間座標推定部は、前記画像から前記指示体を検出する指示体検出部と、前記画像における前記指示体の中心部分の領域に含まれる任意の点と前記先端部との間の距離を算出し、前記距離と前記指示体の前記先端部の奥行座標との間の予め定められた関係に従って前記距離から前記奥行座標を推定する奥行座標推定部と、を備えてよい。
この認識装置によれば、指示体の中心部分の領域に含まれる任意と先端部との間の距離を用いて指示体の先端部の奥行座標を推定できる。
この認識装置によれば、指示体の中心部分の領域に含まれる任意と先端部との間の距離を用いて指示体の先端部の奥行座標を推定できる。
(8)上記認識装置において、前記指示体検出部は、前記画像において、前記任意の点から最も遠い前記指示体の部分の位置を前記先端部の2次元座標として検出するものとしてよい。この認識装置によれば、指示体の先端部の2次元座標を正しく検出できる。
(9)本開示の第2の形態によれば、操作者が有する指示体の空間座標を認識する認識方法が提供される。この認識方法は、(a)単眼カメラで撮影された前記指示体の画像から前記指示体を検出する工程と、(b)前記画像における前記指示体の形状から前記指示体の先端部の奥行座標を推定する工程と、を含む。
この認識方法によれば、画像における指示体の形状からその先端部の奥行座標を推定するので、3次元空間における指示体の先端部の座標を検出できる。
この認識方法によれば、画像における指示体の形状からその先端部の奥行座標を推定するので、3次元空間における指示体の先端部の座標を検出できる。
100…頭部装着型表示装置、110…画像表示部、112…表示部、112L…左目用表示部、112R…右目用表示部、114…カメラ、120…制御部、122…CPU、124…記憶部、126…電源部、200…空間座標推定部、210…指示体検出部、220…奥行座標推定部、240…空間座標推定部、242…入力層、244…中間層、246…全結合層、248…出力層、300…操作実行部
Claims (9)
- 操作者が有する指示体の空間座標を認識する認識装置であって、
前記指示体の画像を撮影する単眼カメラと、
前記画像を用いて前記指示体の先端部の空間座標を推定する空間座標推定部と、
を備え、
前記空間座標推定部は、
前記画像から前記指示体を検出する指示体検出部と、
前記画像における前記指示体の形状から前記指示体の前記先端部の奥行座標を推定する奥行座標推定部と、
を含む認識装置。 - 請求項1に記載の認識装置であって、
前記奥行座標推定部は、
(a)前記画像において前記指示体の前記先端部を中心とした予め定められたサイズの関心領域内に存在する前記指示体の面積を先端部面積として算出し、前記先端部面積と前記奥行座標との間の予め定められた関係に従って前記先端部面積から前記奥行座標を推定する第1処理と、
(b)前記画像における前記指示体の重心と前記先端部との間の距離を算出し、前記距離と前記奥行座標との間の予め定められた関係に従って前記距離から前記奥行座標を推定する第2処理と、
のいずれかの処理を実行する、認識装置。 - 請求項1又は請求項2に記載の認識装置であって、
前記指示体検出部は、前記画像において、予め設定された皮膚色の領域を前記指示体として検出する、認識装置。 - 請求項1から請求項3のいずれか一項に記載の認識装置であって、
前記指示体検出部は、前記画像において、前記指示体の重心から最も遠い前記指示体の部分の位置を前記先端部の2次元座標として検出する、認識装置。 - 請求項1に記載の認識装置であって、
前記空間座標推定部は、前記画像が入力される入力ノードと、複数の出力ノードとを有するニューラルネットワークを含み、
前記指示体検出部は、前記複数の出力ノードのうち、前記指示体が存在するか否かを出力する第1出力ノードを含み、
前記奥行座標推定部は、前記先端部の奥行座標を出力する第2出力ノードを含む、
認識装置。 - 請求項1から請求項5のいずれか一項に記載の認識装置であって、更に、
前記空間座標推定部で推定された前記先端部の空間座標に応じて、前記単眼カメラの前方に設定された仮想スクリーンにおけるタッチ操作又はスワイプ操作を実行する操作実行部、を備える認識装置。 - 操作者が有する指示体の空間座標を認識する認識装置であって、
前記指示体の画像を撮影する単眼カメラと、
前記画像を用いて前記指示体の先端部の空間座標を推定する空間座標推定部と、
を備え、
前記空間座標推定部は、
前記画像から前記指示体を検出する指示体検出部と、
前記画像における前記指示体の中心部分の領域に含まれる任意の点と前記先端部との間の距離を算出し、前記距離と前記指示体の前記先端部の奥行座標との間の予め定められた関係に従って前記距離から前記奥行座標を推定する奥行座標推定部と、
を備える、認識装置。 - 請求項7に記載の認識装置であって、
前記指示体検出部は、前記画像において、前記任意の点から最も遠い前記指示体の部分の位置を前記先端部の2次元座標として検出する、認識装置。 - 操作者が有する指示体の空間座標を認識する認識方法であって、
(a)単眼カメラで撮影された前記指示体の画像から前記指示体を検出する工程と、
(b)前記画像における前記指示体の形状から前記指示体の先端部の奥行座標を推定する工程と、
を含む認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/697,473 US20200167005A1 (en) | 2018-11-28 | 2019-11-27 | Recognition device and recognition method |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018221853 | 2018-11-28 | ||
JP2018221853 | 2018-11-28 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020095671A true JP2020095671A (ja) | 2020-06-18 |
Family
ID=71085030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019110806A Pending JP2020095671A (ja) | 2018-11-28 | 2019-06-14 | 認識装置及び認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020095671A (ja) |
-
2019
- 2019-06-14 JP JP2019110806A patent/JP2020095671A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110006343B (zh) | 物体几何参数的测量方法、装置和终端 | |
CN106575160B (zh) | 根据用户视点识别动作的界面提供方法及提供装置 | |
CN107111753B (zh) | 用于注视跟踪模型的注视检测偏移 | |
JP6723061B2 (ja) | 情報処理装置、情報処理装置の制御方法およびプログラム | |
CN104380338B (zh) | 信息处理器以及信息处理方法 | |
CN111353930B (zh) | 数据处理方法及装置、电子设备及存储介质 | |
KR20170031733A (ko) | 디스플레이를 위한 캡처된 이미지의 시각을 조정하는 기술들 | |
JP6500355B2 (ja) | 表示装置、表示プログラム、および表示方法 | |
US20120069018A1 (en) | Ar process apparatus, ar process method and storage medium | |
US20190266798A1 (en) | Apparatus and method for performing real object detection and control using a virtual reality head mounted display system | |
CN108090463B (zh) | 对象控制方法、装置、存储介质和计算机设备 | |
CN110276774B (zh) | 物体的绘图方法、装置、终端和计算机可读存储介质 | |
US20210165492A1 (en) | Program, recognition apparatus, and recognition method | |
WO2022022449A1 (zh) | 用于空间定位的方法和装置 | |
CN115862124B (zh) | 视线估计方法、装置、可读存储介质及电子设备 | |
KR101256046B1 (ko) | 공간 제스처 인식을 위한 신체 트래킹 방법 및 시스템 | |
US20190369807A1 (en) | Information processing device, information processing method, and program | |
JP2019053603A (ja) | 表示制御プログラム、装置、及び方法 | |
JP5762099B2 (ja) | 姿勢認識装置、作業ロボット、姿勢認識方法、プログラム及び記録媒体 | |
CN117372475A (zh) | 眼球追踪方法和电子设备 | |
JP2019185475A (ja) | 特定プログラム、特定方法及び情報処理装置 | |
CN112308981A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN113228117B (zh) | 创作装置、创作方法和记录有创作程序的记录介质 | |
CN115578432B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
US20200167005A1 (en) | Recognition device and recognition method |