JP6623366B1 - 経路認識方法、経路認識装置、経路認識プログラム、及び経路認識プログラム記録媒体 - Google Patents
経路認識方法、経路認識装置、経路認識プログラム、及び経路認識プログラム記録媒体 Download PDFInfo
- Publication number
- JP6623366B1 JP6623366B1 JP2019059644A JP2019059644A JP6623366B1 JP 6623366 B1 JP6623366 B1 JP 6623366B1 JP 2019059644 A JP2019059644 A JP 2019059644A JP 2019059644 A JP2019059644 A JP 2019059644A JP 6623366 B1 JP6623366 B1 JP 6623366B1
- Authority
- JP
- Japan
- Prior art keywords
- data
- route
- gesture
- input
- artificial intelligence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/04815—Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/10—Recognition assisted with metadata
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
本構成による方法では、更に、抽出されたうちの少なくとも一部の属性が、入力データに含めて人工知能に入力される。すなわち、抽出されたうちの少なくとも一部の属性が、それに対応する属性不変位置データから分離されて人工知能に入力される。このため、人工知能は、抽出されたうちの少なくとも一部の属性について、ジェスチャの意味を規定する特徴であるのか、規定的ではなく追加の情報を伝えるのか、あるいは全く無関係であって無視できるのか、という判断を容易に行うことができる。このように、本構成によれば、ジェスチャによるユーザとコンピュータとの対話を、効果的かつ効率的に処理することが可能となる。
本構成による方法は、かかる経路集合を表現するデータの入力を受け、経路集合の意味、すなわち3つのジェスチャ要素からなるジェスチャ全体の意味が、あらかじめ準備された複数の意味のうちのいずれであるかを、人工知能を使って認識する。本構成による方法は、経路集合を構成する各経路に沿った点群の位置データを人工知能に入力する前処理として、少なくとも一部の経路の各々については、上記の場合と同様に、点群の位置データから、点群全体の(1)位置、(2)大きさ、及び(3)方向のうちの少なくとも1つの属性を抽出し、点群の位置データを属性不変位置データに変換する。そして、経路集合を構成する各経路に沿った点群の位置データを含むデータを、入力データとして人工知能に入力する。属性抽出がなされた経路については、点群の位置データとして属性不変位置データが、入力データに含めて人工知能に入力される。従って、上記の場合と同様に、人工知能は属性抽出がなされた各経路の意味、すなわち各ジェスチャ要素の意味が認識し易くなる。このことは、複数のジェスチャ要素からなるジェスチャ全体の意味を認識し易くする。
また、抽出されたうちの少なくとも一部の属性が、入力データに含めて人工知能に入力される。すなわち、抽出されたうちの少なくとも一部の属性が、それに対応する属性不変位置データから分離されて人工知能に入力される。このため、人工知能は、抽出されたうちの少なくとも一部の属性について、ジェスチャの意味を規定する特徴であるのか、規定的ではなく追加の情報を伝えるのか、あるいは全く無関係であって無視できるのか、という判断を容易に行うことができる。このように、本構成によれば、ジェスチャが複数の経路からなる経路集合によって把握される場合であっても、ジェスチャによるユーザとコンピュータとの対話を、効果的かつ効率的に処理することが可能となる。なお、人工知能に入力される「少なくとも一部の属性」は、抽出された属性のうちの少なくとも一部であれば足り、例えば、属性が抽出される少なくとも一部の経路の各々から、1つずつ属性を選び出してもよく、属性が抽出される少なくとも一部の経路のうちの1つの経路から、1つの属性を選び出してもよい。
本構成によれば、動作モードとして学習モードが選択されているときには、教師データに基づく学習が人工知能に施され、認識モードが選択されているときには、それまでになされた学習の成果を反映した認識結果が出力される。すなわち、人工知能に学習を施すことにより、精度の高い認識結果を得ることができる。
本構成によれば、認識結果データに、抽出された少なくとも一部の属性が含まれるので、本構成による方法のユーザ(利用者)あるいは利用装置は、経路集合の意味だけでなく、意味に追加される情報を取得することができる。例えば、ジェスチャーの意味が、あるオブジェクトを移動させることである場合に、意図された移動の方向あるいは距離についての情報を取得することができる。なお、本構成における「少なくとも一部の属性」は、第1の態様において人工知能に入力される「少なくとも一部の属性」と同一であっても、異なっていてもよい。
本構成によれば、点群全体の位置を適切に表現する物理量が、平均計算という比較的簡単な計算により得られる。
本発明のうち第5の態様によるものは、第1から第4のいずれかの態様による経路認識方法であって、前記少なくとも1つの属性を抽出すること(b)は、前記少なくとも一部の経路のうちの少なくとも1つの経路の各々について、対応する点群全体の標準偏差又は一組の標準偏差を、前記対応する点群全体の大きさとして抽出することを含んでいる。
本構成によれば、点群全体の大きさを適切に表現する物理量が、標準偏差の計算という比較的簡単な計算により得られる。
本発明のうち第6の態様によるものは、第1から第5のいずれかの態様による経路認識方法であって、前記少なくとも1つの属性を抽出すること(b)は、前記少なくとも一部の経路のうちの少なくとも1つの経路の各々について、主成分分析に基づいて、対応する点群全体の一組の主軸の方向を、前記対応する点群全体の方向として抽出することを含んでいる。
本構成によれば、点群全体の方向を適切に表現する物理量が、主成分分析の計算という比較的簡単な計算により得られる。
本構成によれば、属性抽出がなされる各経路について、点群全体の位置、大きさ、及び方向のすべてが、属性として抽出されることにより、属性不変位置データが得られるので、人工知能は、属性抽出がなされた各経路の意味を一層認識し易くなる。
本発明のうち第8の態様によるものは、第1から第7のいずれかの態様による経路認識方法であって、前記経路集合を構成する前記1以上の経路のうちの前記少なくとも一部の経路は、前記経路集合を構成する前記1以上の経路の全てである。
本構成によれば、経路集合を構成する経路の全てについて、属性抽出がなされるので、経路集合の意味を一層容易に認識することができる。
本発明のうち第9の態様によるものは、第1から第8のいずれかの態様による経路認識方法であって、前記少なくとも一部の属性を、前記入力データに含めて前記人工知能に入力すること(d−2)は、(d−2−1)前記少なくとも一部の経路の各々について抽出された前記少なくとも1つの属性を、前記入力データに含めて前記人工知能に入力すること、を含んでいる。
本構成によれば、抽出された属性のすべてが、入力データに含めて人工知能に入力される。抽出されたすべての属性が、それに対応する属性不変位置データから分離されて人工知能に入力されるので、ジェスチャの例で言えば、人工知能は、抽出されたすべての属性について、ジェスチャの意味を規定する特徴であるのか、規定的ではなく追加の情報を伝えるのか、あるいは全く無関係であって無視できるのか、という判断を容易に行うことができる。
本構成によれば、経路毎に定められた数の点群が、入力を受け付けた経路集合データが表現する経路集合の各経路を近似するものとして選択され、その位置データ又はその位置データから得られた属性不変位置データが、人工知能に入力されるので、人工知能による演算の負担を軽くしつつ、経路認識の精度を向上させることが容易である。
本構成によれば、疑似アニーリングによって、経路毎に定められた数の点群の探索が行われるので、探索の過程で、真の最小値ではない局所的な最小値から抜け出せなくなることを回避することができる。
本発明のうち第12の態様によるものは、第1から第11のいずれかの態様による経路認識方法であって、前記人工知能は、ニューラルネットワークである。
本構成によれば、ニューラルネットワークという比較的簡素に構成される人工知能を用いて、比較的簡単な学習により、推定の確度を高めることができる。
本構成によれば、人工知能に入力する入力データに、付加データが含められるので、付加データを考慮した経路認識の結果を得ることができる。例えば、経路集合を構成する各経路が、ジェスチャの形状輪郭又は動きに沿った経路であって、「オブジェクトを投げる」というジェスチャが、オブジェクトを選択している時にのみ意味を成す場合に、オブジェクトが選択されているか否かについての情報を、追加データに含めることができる。この追加データが、人工知能への入力データに加えられることにより、誤認識のリスクが回避される。それにより、ジェスチャー認識の信頼性が向上する。
本構成によれば、ジェスチャを認識することができる。
本発明のうち第15の態様によるものは、第1から第14のいずれかの態様による経路認識方法であって、前記データの入力を受け入れること(a)から、前記確率の推定値を前記人工知能に計算させること(e)までを、繰り返し行う。そして、前記データを前記入力データとして前記人工知能に入力すること(d)は、(d−3)入力を受け入れた前記経路集合データが表現する前記経路集合を構成する前記1以上の経路の種別に応じて、前記人工知能として異なる人工知能を選択して、前記入力データを入力することを含んでいる。
本構成によれば、経路集合を構成する経路の種別に応じて、人工知能が使い分けられるので、学習が効率よく行い得る。
本発明のうち第16の態様によるものは、第15の態様による経路認識方法であって、前記種別が、前記経路集合を構成する前記1以上の経路の数を含んでいる。
本構成によれば、経路集合を構成する経路の数に応じて、人工知能が使い分けられるので、学習が効率よく行い得る。
本構成によれば、本発明の各態様による経路認識方法を実行する経路認識装置が実現する。
本発明のうち第18の態様によるものは経路認識プログラムであって、コンピュータに読み取られることにより、前記コンピュータに第1から第16のいずれかの態様による経路認識方法を実行させる。
本構成によれば、コンピュータに本発明の各態様による経路認識方法を実行させる経路認識プログラムが実現する。
本発明のうち第19の態様によるものは、非一過性のコンピュータ読み取り可能な記録媒体であって、コンピュータに読み取られることにより、前記コンピュータに第1から第16のいずれかの態様による経路認識方法を実行させるプログラムが記録されている。
本構成によれば、コンピュータに本発明の各態様による経路認識方法を実行させる非一過性のコンピュータ読み取り可能な記録媒体が実現する。
はじめに、本発明の実施形態の概略について説明する。図1A及び図1Bは、ジェスチャを使用するユーザインタフェースの想定可能な実装例を示す。これらの図は、本発明の想定可能な適用例として意図したものでものであり、本発明を網羅して示すものではない。
以下において、ジェスチャによるユーザとコンピュータとの対話を、効果的かつ効率的に処理することを可能にする経路認識技術について、詳細に説明する。図1Kは、本発明の経路認識装置を含むシステム全体の一実施形態に関し、特にそのハードウェア構成を例示する。また、図1Lは、このシステム全体の一実施形態に関し、特にその機能構成を例示する。
ユーザは入力装置101を操作することができ、かつ空間内で動かすことができる。入力装置101の代わりにユーザの身体自身の一部を使用する実施の形態を、採用することも可能である。入力装置101の動きは、カメラ又は動き検出器などの記録装置102によって検出される。
トラッキング(追跡)システム103は、入力装置101の動きの数値表現を計算する。別の入力装置109は、例えばキーボード、マウスなどである。入力装置109は、コンピュータシステム100に、構成要素の1つとして含まれていてもよい。インターフェイス104は、コンピュータシステム100の他の構成要素と、トラッキングシステム103及び入力装置109との間のデータ転送を管理する。インターフェイス104は、更に、インターネットなどのネットワーク130に、コンピュータシステム100の他の構成要素を接続する機能を果たしてもよい。それにより、コンピュータシステム100は、ネットワーク130に接続されるクラウドサーバなどのサーバ131と、接続することも可能となる。
プロセッサー装置105は、ユーザのジェスチャを認識するために必要な演算を実行するとともに、ユーザがジェスチャによって意図する操作を行う。任意選択的な表示装置106は、ユーザのジェスチャによってなされた操作の結果を、ユーザに表示する。コンピュータメモリー107は、例えば半導体メモリであり、例えばシステムの動作中に一時的にデータを格納するのに用いられる。記憶媒体108は、例えばハードディスクであり、例えばコンピュータプログラムなどを記憶するのに使用される。本発明の一実施の形態としての経路認識プログラムは、コンピュータプログラムの形態で記憶媒体108に記憶することができ、ジェスチャ認識が必要とされる時に、読み出すことができる。
従って、コンピュータシステム100は、本発明の一実施の形態としての経路認識プログラム、経路認識プログラム記録媒体、及び経路認識装置110を、構成要素として含んでおり、さらに、本発明の一実施の形態としての経路認識方法を、処理の構成要素として実行する。また、コンピュータシステム100は、ユーザがジェスチャーによって指示する操作を実現する操作対象装置120を、構成要素として含んでいる。上記の表示装置106は、例えば操作対象装置120の一要素である。操作対象装置120は、例えば、3次元の設計図面を作成するCAD装置である。経路認識装置110は、入力されたユーザのジェスチャ動作を認識し、その結果を操作対象装置120に伝える。それにより、操作対象装置120は、ユーザがジェスチャーによって指示する操作を実現すること、例えば作図すること、が可能となる。
さらに、正しい(すなわち、意図された)ジェスチャカテゴリーの識別子217が、教師データとしてユーザによって付与される。教師データとしての識別子217は、例えば、ユーザが入力装置101又は入力装置109を操作することにより、経路認識装置110に入力される。この入力情報は、ニューラルネットワークの出力ニューロン(出力層のノード)のうち、正しいジェスチャカテゴリーに対応する出力ニューロンを「1」に設定し、その他の全ての出力ニューロンを「0」に設定するのに用いられる。ニューラルネットワークは、処理211において更に、計算した出力ニューロンの値と、正しい値である出力ニューロン値218との間の不一致に基づいて、ニューラルネットワークパラメータ212のうち、各ニューロンの重み及びバイアス値を更新し、認識モード中にユーザが意図するジェスチャの類型を正しく予測する確率を向上させる。
なお、学習モードにおいては、処理211において、ニューラルネットワークパラメータ212のうち、ノード層(レイヤ)の数及び各層のニューロン数を、最適値に調整することも可能である。その処理手順は、当分野において周知であるので、その詳細な説明は略する。
すでに述べたステップ204(図2A参照)により、ジェスチャストロークの経路を表現する、限られた数の点群401(図2Aのデータ205に相当)が得られる。入力されるジェスチャストロークを表現するデータ点群401は、位置・方向・寸法について、入力されるジェスチャストロークの間で異なったものとなることが予想される。図において左端の欄には、6つのジェスチャストロークのデータ点群401の例が表示される。矢印は、使用されている座標系の座標軸を表す。
ステップ406において得られたジェスチャストロークのデータ点群407は、座標系の原点を中心に、配向方向(回転方向)に相対的な位置に配置されており、かつ一様な(単一の)大きさとなるように配置されている。これにより、データ点群407の座標値は、様々なジェスチャストロークの間で、数値的に互いに比較し易くなっている。このテータ点群407は、ユーザがどこで、どの方向に、かつどの大きさでジェスチャ動作を行うか、には依存せず、ジェスチャ動作の動き経路の形状そのものを表している。
以上のように、データ点群401の位置の基準411として平均値を例示し、方向の基準412として、主成分分析に基づく最大および最小分散のベクトルの組を例示し、大きさの基準413として標準偏差を例示した。平均値は、データ点群401全体の位置を適切に表現する物理量であり、しかも平均計算という比較的簡単な計算により得られるという利点がある。最大および最小分散のベクトルの組は、データ点群401全体の方向を適切に表現する物理量であり、しかも比較的簡単な計算により得られるという利点がある。標準偏差は、データ点群401全体の大きさを適切に表現する物理量であり、しかも比較的簡単な計算により得られるという利点がある。特に、位置の基準411として平均値を採用し、大きさの基準413として標準偏差を採用した場合には、ニューラルネットワークに入力されるベクトル408を構成するデータ点群407の座標の原点からの平均距離は、1となる。ニューラルネットワークに用いられるロジスティック関数は、入力される数値が−1〜+1の範囲から大きくはみ出さないことが望ましい。このため、基準411として平均値を採用し、基準412として標準偏差を採用することは、ロジスティック関数を用いたニューラルネットワークに入力されるデータ点群407を算出する上では、特に好ましい。ただし本発明において、基準411,412、413は、これらの例に限定されない。例えば、位置の基準411として、データ点群401の平均値に代えて、データ点群401のうちの始点あるいは終点を採用することも可能である。
一例として、入力装置109をユーザが操作することにより、動作モードを認識モードと学習モードのいずれかに設定する動作モード選択データ710が、経路認識装置110に入力される。経路認識装置110は、動作モード選択データ710に基づいて、ニューラルネットワークに認識モード又は学習モードの動作を実行させる。学習モードが選択されているときには、例えば入力装置109をユーザが操作することにより、教師データである正しいジェスチャカテゴリーの識別子217が、ニューラルネットワークに入力される。認識モードが選択されているときには、経路認識装置110は、処理216において、出力データを構成し、操作対象装置120(図1L参照)に伝える。出力データは、認識されたジェスチャカテゴリーに関連づけられることをユーザが意図する行為を、操作対象装置120に行わせるように、操作対象装置120内に特定の事象を生じさせる(処理705)のに、使用することができる。
一例として、動作モード選択データ710は、動作モードを変更するときに入力され、次の入力があるまで、選択された動作モードが維持される。教師データである識別子217も同様に、一例として、識別子217を変更するときに入力される。また、動作モード選択データ710は、入力装置109以外に、例えば入力装置701を通じて入力されても良い。教師データである識別子217も同様である。
図5Dを参照しつつ既に例示したように、複数のストロークからなるジェスチャ(「マルチ・ストローク・ジェスチャ」と称する)を認識するために、本発明の経路認識装置110を使用することも可能である。例えば、ユーザが線を描き、(例えば、入力装置101のボタンを放すことにより)ジェスチャ動作を一時的に中断したままで入力装置101の位置を変え、その後に、(例えば、入力装置101のボタンを再び押しつつ)最初の線と平行ではあるが接続されていない第2の線を描くことも可能である。図5Dの例示では、複数のストロークの各々について、位置、方向及び寸法が抽出され、抽出された属性に不変な位置データが計算された。それにより、マルチ・ストローク・ジェスチャの認識を、容易かつ精度良く行うことができる。これに対し、一部のストローク、例えば1つのストロークについてのみ、属性の抽出がなされてもよい。また、属性の抽出は、位置、方向及び寸法の一部、例えば位置についてのみ行われても良い。これらの場合においても、マルチ・ストローク・ジェスチャの認識を、相応に、容易かつ精度良く行うことができる。
経路認識装置1000は、処理1004において、これまでに受信したストロークがジェスチャの全てかどうかを判断する。判断するには、いくつかの方法があり得る。1つの方法は、最後の動作が実行された後に経過した時間を測定し、新しい動作の入力が一定時間の間に発生しなかった場合には、ジェスチャが完了した、とみなす方法である。別の方法は、ジェスチャが完了したことを知らせる、ユーザ1001による手動入力を確認することである。経路認識装置1000は、ジェスチャが完了したかどうかを決定する方法とは無関係に、ジェスチャがまだ完了していないと判断した場合には、追加のジェスチャ動作を受信し格納する処理に戻る。経路認識装置1000は、ジェスチャが完了したと判断した場合には、次の処理に進む。
ストロークの数は、例えば、ストローク毎にトラッキングシステム1002から経路認識装置1000に入力されるコンテキスト情報(図5D参照)の入力回数によって、把握することができる。受信したデータが、ジェスチャの形状輪郭と動きとのいずれを表しているかは、例えば、コンテキスト情報に含めることができる。トラッキングシステム1002は、例えば、ユーザによる入力装置101(図1K参照)の操作に基づいて、コンテキスト情報を生成し、経路認識装置1000に入力する。
入力装置を使用する代わりに、人体または動物の身体の様々な部分の動きを、入力データとして使用することができる。例えば、ユーザが人差し指で見えない線を空中に描くこと、または犬の尾の先端の動きも、ジェスチャ動作の一形式として使用することができる。
人間または乗り物の大きな移動も、経路認識装置110,1000によって処理可能な動き経路を構成する。このようにして、本発明は、一般に移動パターンを認識するために使用することも可能である。例えば、移動経路にのみ基づいて、様々な型の航空機を認識することもできる。
時間の経過に伴う動きの経路をデータの基礎として使用する代わりに、オブジェクト(ここでは認識対象物)の視覚的輪郭に沿った経路を、経路認識装置110,1000の入力データとして使用することも可能である。このようにして、経路認識装置110,1000は、静的な手のサイン(合図)または物体を認識するために使用することができる。
マルチ・ストローク・ジェスチャとして既に説明したように、同じ種類の複数の経路を組み合わせることができるのと同様に、上記した様々な種類の入力データを組み合わせることができ、さらには空間内の経路として表すことができる限り、未だ言及していない種類の入力データを組み合わせることも可能である。例えば、経路認識装置110,1000は、特定の手の形状および特定の手の動きからなるジェスチャを認識することができ、「人差し指で振る」、「人差し指で指す」、「親指で振る」、および「親指で指す」というジェスチャは、異なるジェスチャとして認識することができる。それには、例えば、トラッキングシステム103(図1L、図9参照)が、手の形状輪郭と手の動きとを、それぞれ検出して、それぞれの経路データを生成し、これらの経路データを2つの経路からなる経路集合のデータとして、経路認識装置110,1000に入力するとよい。既に述べたマルチストロークジェスチャの例のように、経路認識装置110,1000はデータの種類について手動で指示を受けるか、または自動識別を試みることができ、異なるデータの種類の間の誤認識を回避しながら、入力されたデータの種類に適したニューラルネットワークを選択することができる。この形態についても、図9を参照することができる。
Claims (19)
- 2次元または3次元空間において各々が個別に連続した1以上の経路からなる経路集合の意味を、人工知能を用いるコンピュータにより認識する経路認識方法であって、
前記経路集合を表現する経路集合データを含むデータの入力を受け入れることと、
入力を受け入れた前記経路集合データに基づく、前記経路集合を構成する各経路に沿った点群の位置データのうち、前記経路集合を構成する前記1以上の経路のうちの少なくとも一部の経路の各々に沿った点群の位置データから、対応する点群全体の位置、大きさ、及び方向のうちの少なくとも1つの属性を抽出することと、
前記少なくとも一部の経路の各々に沿った前記点群の位置データを、対応する前記少なくとも1つの属性に相対的な位置データに変換することにより、前記対応する少なくとも1つの属性に依存しない属性不変位置データを得ることと、
前記経路集合を構成する各経路に沿った前記点群の位置データを含むデータを、入力データとして前記人工知能に入力することと、
前記人工知能の出力データとして、入力を受け入れた前記経路集合データが表現する前記経路集合の意味が、あらかじめ準備された複数の意味の各々である確率の推定値を、前記人工知能に計算させることと、を含み、
前記データを前記入力データとして前記人工知能に入力することは、
前記少なくとも一部の経路の各々に沿った前記点群の位置データとして、対応する前記属性不変位置データを、前記入力データに含めて入力することと、
前記少なくとも一部の経路の各々について抽出された前記少なくとも1つの属性のうち、少なくとも一部の属性を、前記入力データに含めて前記人工知能に入力することと、を含む、経路認識方法。 - 学習モードと認識モードとのいずれかを、動作モードとして選択する動作モード選択データの入力を受け入れることと、
前記動作モードとして前記学習モードが選択されているときには、前記人工知能の前記出力データとして正しいデータの入力を、教師データとして受け入れ、受け入れた前記教師データを前記人工知能に与えることにより、前記人工知能を学習させることと、
前記動作モードとして前記認識モードが選択されているときには、前記複数の意味のうち、前記人工知能の出力データが最高の確率の推定値を示す意味を含むデータを、認識結果データとして出力することと、を更に含む、請求項1に記載の経路認識方法。 - 前記認識結果データは、前記少なくとも一部の経路の各々について抽出された前記少なくとも1つの属性のうち、少なくとも一部の属性を含む、請求項2に記載の経路認識方法。
- 前記少なくとも1つの属性を抽出することは、前記少なくとも一部の経路のうちの少なくとも1つの経路の各々について、対応する点群全体の平均位置を、前記対応する点群全体の位置として抽出することを含む、請求項1から3のいずれかに記載の経路認識方法。
- 前記少なくとも1つの属性を抽出することは、前記少なくとも一部の経路のうちの少なくとも1つの経路の各々について、対応する点群全体の標準偏差又は一組の標準偏差を、前記対応する点群全体の大きさとして抽出することを含む、請求項1から4のいずれかに記載の経路認識方法。
- 前記少なくとも1つの属性を抽出することは、前記少なくとも一部の経路のうちの少なくとも1つの経路の各々について、主成分分析に基づいて、対応する点群全体の一組の主軸の方向を、前記対応する点群全体の方向として抽出することを含む、請求項1から5のいずれかに記載の経路認識方法。
- 前記少なくとも1つの属性を抽出することは、前記少なくとも一部の経路の各々について、対応する点群全体の位置、大きさ、及び方向を抽出することを含む、請求項1から6のいずれかに記載の経路認識方法。
- 前記経路集合を構成する前記1以上の経路のうちの前記少なくとも一部の経路は、前記経路集合を構成する前記1以上の経路の全てである、請求項1から7のいずれかに記載の経路認識方法。
- 前記少なくとも一部の属性を、前記入力データに含めて前記人工知能に入力することは、前記少なくとも一部の経路の各々について抽出された前記少なくとも1つの属性を、前記入力データに含めて前記人工知能に入力することを含む、請求項1から8のいずれかに記載の経路認識方法。
- 入力を受け入れた前記経路集合データから、前記経路集合を構成する各経路に沿った前記点群として、経路毎に定められた数の点群を選択することを、さらに含み、
当該経路毎に定められた数の点群を選択することは、経路毎に、前記経路毎に定められた数の点群を連結する一連の線分と、入力を受け入れた前記経路集合データが表現する前記経路集合のうちの対応する経路との間の差分を最小にする方向に、前記経路毎に定められた数の点群を探索することを含む、請求項1から9のいずれかに記載の経路認識方法。 - 前記経路毎に定められた数の点群を探索することは、疑似アニーリングによって行われる、請求項10に記載の経路認識方法。
- 前記人工知能は、ニューラルネットワークである、請求項1から11のいずれかに記載の経路認識方法。
- 前記経路集合データを含むデータの入力を受け入れることは、付加的データを受け入れることを含み、
前記人工知能に入力される前記入力データは、受け入れられた前記付加的データを含む、請求項1から12のいずれかに記載の経路認識方法。 - 入力を受け入れる前記経路集合データが表現する前記経路集合を構成する各経路が、ジェスチャの形状輪郭に沿った経路とジェスチャの動きに沿った経路とのいずれかである、請求項1から13のいずれかに記載の経路認識方法。
- 前記データの入力を受け入れることから、前記確率の推定値を前記人工知能に計算させることまでを、繰り返し行い、
前記データを前記入力データとして前記人工知能に入力することは、入力を受け入れた前記経路集合データが表現する前記経路集合を構成する前記1以上の経路の種別に応じて、前記人工知能として異なる人工知能を選択して、前記入力データを入力することを含む、請求項1から14のいずれかに記載の経路認識方法。 - 前記種別が、前記経路集合を構成する前記1以上の経路の数を含む、請求項15に記載の経路認識方法。
- コンピュータを備え、請求項1から16のいずれかに記載の経路認識方法を実行する、経路認識装置。
- コンピュータに読み取られることにより、前記コンピュータに請求項1から16のいずれかに記載の経路認識方法を実行させる、経路認識プログラム。
- コンピュータに読み取られることにより、前記コンピュータに請求項1から16のいずれかに記載の経路認識方法を実行させるプログラムが記録された、非一過性のコンピュータ読み取り可能な記録媒体。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019059644A JP6623366B1 (ja) | 2019-03-27 | 2019-03-27 | 経路認識方法、経路認識装置、経路認識プログラム、及び経路認識プログラム記録媒体 |
PCT/JP2020/000774 WO2020195017A1 (ja) | 2019-03-27 | 2020-01-11 | 経路認識方法、経路認識装置、経路認識プログラム、及び経路認識プログラム記録媒体 |
US17/286,403 US11513607B2 (en) | 2019-03-27 | 2020-11-01 | Path recognition method using a combination of invariant positional data and attributes of variation, path recognition device, path recognition program, and path recognition program recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019059644A JP6623366B1 (ja) | 2019-03-27 | 2019-03-27 | 経路認識方法、経路認識装置、経路認識プログラム、及び経路認識プログラム記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6623366B1 true JP6623366B1 (ja) | 2019-12-25 |
JP2020160815A JP2020160815A (ja) | 2020-10-01 |
Family
ID=69100896
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019059644A Active JP6623366B1 (ja) | 2019-03-27 | 2019-03-27 | 経路認識方法、経路認識装置、経路認識プログラム、及び経路認識プログラム記録媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11513607B2 (ja) |
JP (1) | JP6623366B1 (ja) |
WO (1) | WO2020195017A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11986570B2 (en) | 2020-07-23 | 2024-05-21 | The Boeing Company | Portable wand systems and methods of using the same to indicate and verify surface treatment applications |
EP4000647B8 (en) * | 2020-11-17 | 2023-04-19 | The Boeing Company | Portable wand systems and methods of using the same to indicate and verify surface treatment applications |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10255052A (ja) | 1997-03-14 | 1998-09-25 | Atr Chinou Eizo Tsushin Kenkyusho:Kk | ジェスチャインタフェース装置 |
US7454717B2 (en) * | 2004-10-20 | 2008-11-18 | Microsoft Corporation | Delimiters for selection-action pen gesture phrases |
US20100027845A1 (en) * | 2008-07-31 | 2010-02-04 | Samsung Electronics Co., Ltd. | System and method for motion detection based on object trajectory |
US9134798B2 (en) * | 2008-12-15 | 2015-09-15 | Microsoft Technology Licensing, Llc | Gestures, interactions, and common ground in a surface computing environment |
US8600166B2 (en) * | 2009-11-06 | 2013-12-03 | Sony Corporation | Real time hand tracking, pose classification and interface control |
JP5604279B2 (ja) * | 2010-12-08 | 2014-10-08 | 日本システムウエア株式会社 | ジェスチャー認識装置、方法、プログラム、および該プログラムを格納したコンピュータ可読媒体 |
US8488888B2 (en) * | 2010-12-28 | 2013-07-16 | Microsoft Corporation | Classification of posture states |
JP5641970B2 (ja) * | 2011-02-18 | 2014-12-17 | シャープ株式会社 | 操作装置、再生装置及びテレビ受信装置 |
US9052896B2 (en) * | 2012-07-20 | 2015-06-09 | Facebook, Inc. | Adjusting mobile device state based on user intentions and/or identity |
US9829984B2 (en) * | 2013-05-23 | 2017-11-28 | Fastvdo Llc | Motion-assisted visual language for human computer interfaces |
JP6225612B2 (ja) * | 2013-09-30 | 2017-11-08 | 富士通株式会社 | プログラム、情報処理装置、および方法 |
US20160091965A1 (en) * | 2014-09-30 | 2016-03-31 | Microsoft Corporation | Natural motion-based control via wearable and mobile devices |
US9501716B2 (en) * | 2014-12-11 | 2016-11-22 | Intel Corporation | Labeling component parts of objects and detecting component properties in imaging data |
JP6209252B1 (ja) | 2016-07-11 | 2017-10-04 | 株式会社コロプラ | 仮想空間内のキャラクタを動作させる方法、当該方法をコンピュータに実行させるためのプログラム及びコンピュータ装置 |
US20170161555A1 (en) * | 2015-12-04 | 2017-06-08 | Pilot Ai Labs, Inc. | System and method for improved virtual reality user interaction utilizing deep-learning |
-
2019
- 2019-03-27 JP JP2019059644A patent/JP6623366B1/ja active Active
-
2020
- 2020-01-11 WO PCT/JP2020/000774 patent/WO2020195017A1/ja active Application Filing
- 2020-11-01 US US17/286,403 patent/US11513607B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2020160815A (ja) | 2020-10-01 |
US20220004263A1 (en) | 2022-01-06 |
US11513607B2 (en) | 2022-11-29 |
WO2020195017A1 (ja) | 2020-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Raheja et al. | Robust gesture recognition using Kinect: A comparison between DTW and HMM | |
Yao et al. | Contour model-based hand-gesture recognition using the Kinect sensor | |
US9690982B2 (en) | Identifying gestures or movements using a feature matrix that was compressed/collapsed using principal joint variable analysis and thresholds | |
Kılıboz et al. | A hand gesture recognition technique for human–computer interaction | |
Qi et al. | Computer vision-based hand gesture recognition for human-robot interaction: a review | |
Kaur et al. | A review: Study of various techniques of Hand gesture recognition | |
D’Orazio et al. | Recent trends in gesture recognition: how depth data has improved classical approaches | |
Ibraheem et al. | Vision based gesture recognition using neural networks approaches: a review | |
Sun et al. | Magichand: Interact with iot devices in augmented reality environment | |
US20130335318A1 (en) | Method and apparatus for doing hand and face gesture recognition using 3d sensors and hardware non-linear classifiers | |
CN108475113B (zh) | 用于检测用户的手部姿态的方法、系统和介质 | |
CN108182728A (zh) | 一种基于Leap Motion的在线体感三维建模方法及系统 | |
LaViola Jr | Context aware 3D gesture recognition for games and virtual reality | |
Jang et al. | Metaphoric hand gestures for orientation-aware VR object manipulation with an egocentric viewpoint | |
CN111444488A (zh) | 一种基于动态手势的身份认证方法 | |
Nooruddin et al. | HGR: Hand-gesture-recognition based text input method for AR/VR wearable devices | |
JP6353660B2 (ja) | 手話単語分類情報生成装置およびそのプログラム | |
JP6623366B1 (ja) | 経路認識方法、経路認識装置、経路認識プログラム、及び経路認識プログラム記録媒体 | |
Devi et al. | Dance gesture recognition: a survey | |
Nandwana et al. | A survey paper on hand gesture recognition | |
Trigueiros et al. | Generic system for human-computer gesture interaction | |
Dhore et al. | Human Pose Estimation And Classification: A Review | |
Trigueiros et al. | Generic system for human-computer gesture interaction: Applications on sign language recognition and robotic soccer refereeing | |
El Magrouni et al. | Approach for the construction of gestural interfaces to control graphical interfaces based on artificial intelligence | |
Dhamanskar et al. | Human computer interaction using hand gestures and voice |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190327 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20190327 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20190603 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190719 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191017 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191021 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6623366 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |