JP2014137818A - 手の平開閉動作識別方法と装置、マン・マシン・インタラクション方法と設備 - Google Patents
手の平開閉動作識別方法と装置、マン・マシン・インタラクション方法と設備 Download PDFInfo
- Publication number
- JP2014137818A JP2014137818A JP2014001286A JP2014001286A JP2014137818A JP 2014137818 A JP2014137818 A JP 2014137818A JP 2014001286 A JP2014001286 A JP 2014001286A JP 2014001286 A JP2014001286 A JP 2014001286A JP 2014137818 A JP2014137818 A JP 2014137818A
- Authority
- JP
- Japan
- Prior art keywords
- palm
- opening
- closing operation
- images
- hand
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/113—Recognition of static hand signs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【課題】画像処理によって手の平の開閉又は閉開の動作を識別する手の平開閉動作識別方法と装置を提供する。
【解決手段】かかる方法は、時間順に複数画像を取得するステップ;複数画像から手の平の形状画像を分割するステップ;複数の手の平の各形状画像から複数の手の平の形態を表す複数特徴を抽出し、各特徴は、手の平の開閉動作における値変化過程からみて、値の逓増あるいは逓減といった単調特性を有する特徴抽出ステップ;最大差異特徴ベクトルを計算するステップ;及び、該最大差異特徴ベクトルに基づき当該複数画像中に手の平の開動作、閉動作が存在するか、手の平の開閉動作が存在しないかを判断するステップを含む。
【選択図】図3
【解決手段】かかる方法は、時間順に複数画像を取得するステップ;複数画像から手の平の形状画像を分割するステップ;複数の手の平の各形状画像から複数の手の平の形態を表す複数特徴を抽出し、各特徴は、手の平の開閉動作における値変化過程からみて、値の逓増あるいは逓減といった単調特性を有する特徴抽出ステップ;最大差異特徴ベクトルを計算するステップ;及び、該最大差異特徴ベクトルに基づき当該複数画像中に手の平の開動作、閉動作が存在するか、手の平の開閉動作が存在しないかを判断するステップを含む。
【選択図】図3
Description
本発明は全体として、画像処理と、マシンビジョンによるマン・マシン・インタラクションに関するものであり、より具体的には、手の平開閉動作の識別方法と装置、マン・マシン・インタラクション方法と設備に関するものである。
手振りは自然で直観的な意思疎通方式であり、余計な設備の助けを必要とせず、電子機器とのインタラクションに広く用いられている。コンピューターの視覚に基づく手振り識別技術は既に広くマン・マシン・インタラクションに用いられている。コンピューターの視覚に基づく手振り識別技術は、可視化画像が入力され、手振りのあるいは動作の種類を外部へ出力することによって、コンピューター制御される設備が、異なる手振りのあるいは動作を異なる命令と解釈することで、例えば、開/閉、クリック、タッチの有無あるいはテレビチャンネルの切り替えといったインタラクションの操作が可能になる。
特許文献1の米国特許出願公開第US7821541B2号は、手に対する2つの状態を識別する方法を公開した。この2つの手の状態は、それぞれ握った拳骨状態(a closed fist)と手の平を開いた状態である。ここでの識別は指の状態に対する識別で、それぞれ手の平の静的開閉状態に対応している。そこでは、単一の静的特徴だけが用いられ、隣り合った3本の指がもう1つの指に近いかどうかという目で見えるルールを検知して「開」状態か否かを判断する。実際のシステムでは、明瞭な手の外形画像を得るのは容易なことではなく(通常は、距離、設備精度および光線条件の影響がある)、このためこの方法は決してロバストではない。この他、この方法はシングルフレーム画像だけでを識別している。
また、Zhou Renを作者とする、「Robust Hand Gesture Recognition Based on Finger−Earth Mover’s Distance with a Commodity Depth Camera」, Proceedings of the 19th ACM international conference on Multi−media, MM’11, ACM, New York, NY, USA, 2011, という非特許文献1の1093−1096ページにおいては、タイムサービス曲線(time−service curve)を用いて手の形状情報を表していて、このタイムサービス曲線は手の平の輪郭上の各点と手の平の中心点との相対距離を記録している。この他、この文章はFEMD(Finger−Earth Mover’s Distance)距離尺度演算子を定義して2つの手の形状の類似性を計算することも行っている。本質的に、この方法はテンプレート・マッチング技術によって手の平の形態識別を実現している。
手の平の形態などを識別する際、テンプレート・マッチングと視覚ルールの他に、もう1つの常用的方法として機械学習の分類器技術に基づくものがあり、これによってロバストな識別効果を提供することができるが、これはその技術が各種の特徴を分類する際の影響を総合的に考慮するからであり、このために分類器技術は静的と動的手振りの識別に既に広く用いられている。
また、特許文献2の、章鵬を発明者とする申請番号CN201200147172の特許申請においては、分類器に基づく手振り識別方法が公開されており、いわゆる深度差分布演算子を用いて隣り合う数フレームの画像からCDDD特徴を抽出し、動作の起きた前後の時間の深度差分布法則を解明する。このCDDDは高次元の特徴ベクトルであり、その次元数は手振り識別要素で用いる画像フレーム数に応じて増加する。例えば、3フレーム画像を1つの手振り識別要素とすれば128次元の特徴ベクトルとなり、4フレーム画像なら192次元となる。この技術に対して、一方では高次元の特徴ベクトルが必然的に分類器の学習に用いる大量のサンプルを必要とし、他方では、このように固定画像フレームを用いて識別要素とし深度差分布を表す方法は、フレーム数によって手振りの識別が変わってしまうという問題を通常、うまく解決できない。この他、この方法は深度画像に適用できるだけで、従来のカラー画像上での応用には制約がある。
本発明の目的は、画像処理によって手の平の開閉又は閉開の動作を識別する手の平開閉動作識別方法と装置を提供することにある。
本発明は手の平開閉手振りの動作に焦点を当てている。手の平の静的と違って、手の平の開閉手振り動作は「開」から「閉」に至る、あるいは「閉」から「開」に至る変化を指し、この2つの最終状態の間で変化する中間状態を含む。なお、本発明中の「閉」には五指が縮まって拳骨状になるものがあり、五指が一点に曲がって「つかむ」状態になるものもある。
本発明の実施例により、時間順に複数画像を取得する複数画像取得ステップ;複数画像から分割により複数の手の平の形状画像を取得する手の平形状分割ステップ;複数の手の平の形状画像の各々から手の平の形態を表す複数特徴を抽出し、そこにおいては手の平の開閉動作における値変化過程から見て各特徴が値の逓増あるいは逓減といった単調特性を有する特徴抽出ステップ;当該複数特徴の各特徴に対し、その特徴における当該複数の手の平形状画像が最大差異量を計算し、当該最大差異量は当該複数の手の平形状画像中の2つの手の平形状画像が所定の順序で差を生じて得られ、符号と幅という2つの属性を有し、かつ当該最大差異量の絶対値は当該複数の手の平形状画像中の任意の2つの手の平形状画像がこの特徴上の差の絶対値の中で値が最大であり、また前記複数特徴の各特徴の最大差異量は最大差異特徴ベクトルを構成する最大差異特徴ベクトル計算ステップ;そして、当該最大差異特徴ベクトルに基づき当該複数画像中に手の平の開動作、閉動作が存在するか、手の平開閉動作が存在しないかを判断する手の平開閉動作判定ステップを含む、画像処理を通して手の平の開から閉、あるいは閉から開への動作を識別するのに用いる手の平開閉動作識別方法を提供する。
本発明のもう1つの実施例により、時間順に複数画像を取得する複数画像取得部材;複数画像から分割により複数の手の平の形状画像を取得する手の平形状分割部材;複数の手の平の形状画像の各々から手の平の形態を表す複数特徴を抽出し、そこにおいては手の平の開閉動作における値変化過程から見て各特徴が値の逓増あるいは逓減といった単調特性を有する特徴抽出部材;当該複数特徴の各特徴に対し、その特徴における当該複数の手の平形状画像が最大差異量を計算し、当該最大差異量は当該複数の手の平形状画像中の2つの手の平形状画像が所定の順序で差を生じて得られ、符号と幅という2つの属性を有し、かつ当該最大差異量の絶対値はこの複数の手の平形状画像中の任意の2つの手の平形状画像がこの特徴上の差の絶対値の中で値が最大であり、また前記複数特徴の各特徴の最大差異量は最大差異特徴ベクトルを構成する最大差異特徴ベクトル計算部材;そして当該最大差異特徴ベクトルに基づき当該複数画像中に手の平の開動作、閉動作が存在するか、手の平開閉動作が存在しないかを判断する手の平開閉動作判定部材を含む、画像処理によって手の平の開から閉あるいは閉から開への手振りを識別するのに用いる手の平開閉動作識別装置を提供する。
前記実施例の手の平開閉動作識別方法と装置により、手振り動作過程に連れて逓増あるいは逓減といった単調特性の特徴を有する値を採用し、各特徴に基づく最大差異特徴ベクトルを確定し、最大差異特徴ベクトルに基づく手の平の開閉を判定することは、少なくとも以下のような、手振り動作の単調変化特徴を視覚的に表し、次元数が少ないという理由で分類器の学習、識別速度が加速できるだけではなく、よりメインにはスライディングウィンドウの長さが固定されている状況で手振り動作フレーム数の変化に適応できるというメリットが得られる。(ここで手振り動作フレーム数とは、手振りの開始から終了までの時間に画像採集装置が採集した画像数を指し、操作者により動作習慣の速さが異なり画像採集装置の採集速度も異なるため、手振り動作フレーム数が固定しないこととなる。30フレーム/秒の速さで、実験統計結果は「開」「閉」動作のフレーム数がおよそ2ないし6フレームの間に集まることを示している)。
この他、本発明実施例の手の平開閉動作識別方法と装置により、手の平の開動作、或いは閉動作が存在するかを判断する際、手振りの開始フレームと終了フレームを確定し;各特徴の最大差異量に関連した2つの画像を確定し;この2つの画像を当該各特徴の視点から見た手振りの開始フレーム候補と終了フレーム候補とし;そして、各特徴のウェイトと各特徴の視点から得た手振りの開始フレーム候補と終了フレーム候補に基づき、手振りの開始フレームと終了フレームを確定する。前記実施例により手振り開閉動作の開始フレームと終了フレームを確定し、手振り動作の開始フレームと終了フレームの時間を得ることができ、手振りを「Hand Mouse」のようなシステムに応用するためにカーソルの位置を正確に戻し正確な情報を提供する。
この他、本発明実施例の手の平開閉動作識別方法と装置により、画像シーケンスに沿ってスライディングウィンドウの位置を移動させ;移動後のスライディングウィンドウ内の複数画像に対し前記手の平形状分割ステップ、特徴抽出ステップ、最大差異特徴ベクトル計算ステップおよび手の平開閉動作判定ステップを行い;そして、移動前後のスライディングウィンドウ内の複数画像の手振り識別結果が同じ手の平開閉動作となった場合は、当該手の平開閉識別動作を統合して1つの手の平開閉動作とし、これに応じて開始フレームと終了フレームを修正する。前記実施例の方法により、隣り合った識別要素の手振り分類結果を統合することができ、より正確に手の平開閉動作の開始フレームと終了フレームを取り出すことができるので、より適切にマン・マシン・インタラクションを行うことができる。
本発明のもう1つの実施例により、手の動きとその1つ前の手振りの状態により手の平開閉動作識別をいつ開始するかを制御し、手の平開閉動作識別の開始を制御する時は、前記方法を通じて手の平開閉動作識別を行い、そして、手の平開閉動作を識別した時には、手の平開閉動作を制御命令に対応させ、対応する制御命令を実行することによって、表示装置上の対象の操作と表示を制御するステップを含むマン・マシン・インタラクション方法を提供する。
本発明のまた1つの例により、前記手の平開閉動作識別装置;手の動きとその1つ前の手の状態により、いつ手の平開閉動作識別装置を動かし手振り識別を行うかを制御する手振り識別制御装置;そして、手の平開閉動作を制御命令に対応させるのに用いるとともに、手の平開閉動作を識別した時は、対応する制御命令を実行する手振り−命令対応装置を含むマン・マシン・インタラクション装置を提供する。
本発明の実施例のマン・マシン・インタラクション方法と装置により、手が素早く動く過程で動きが曖昧になるために手振り識別に生じる誤った情報を減少させることができると同時に、如何なる関心のある手振りの識別も漏らさないことを確保する。
当業者に本発明をより良く理解してもらうために、以下に図面と発明を実施するためのを結び付けて本発明にさらに詳細な説明を行う。
以下の順序によって記述を進める。
1、応用場面の概念
2、手の平開閉動作識別方法の例示
2.1、手の平開閉動作識別の例示的方法の全体フローチャート
2.2、手の平開閉動作の開始フレームと終了フレームの確定方法の例示
2.3、隣接する手振り識別要素の手の平開閉動作統合方法の例示
3、手の平開閉動作識別装置
4、マン・マシン・インタラクションの装置配置例示
5、マン・マシン・インタラクション方法例示
6、システムのハードウェア配置
7、まとめ。
2、手の平開閉動作識別方法の例示
2.1、手の平開閉動作識別の例示的方法の全体フローチャート
2.2、手の平開閉動作の開始フレームと終了フレームの確定方法の例示
2.3、隣接する手振り識別要素の手の平開閉動作統合方法の例示
3、手の平開閉動作識別装置
4、マン・マシン・インタラクションの装置配置例示
5、マン・マシン・インタラクション方法例示
6、システムのハードウェア配置
7、まとめ。
1、応用場面の概念
理解しやすいように、図1は本発明実施例の一つ典型的な応用場面の概念図である。オペレーターの前方にオペレーターに向かって1つのカメラ(デプスカメラあるいは従来のカメラ)を置き、オペレーターはディスプレー設備に向き合い、手を動かして色々な非接触式リモート操作を行うが、本発明が関心をもつのは手の平の開閉動作である。このインタラクションの過程においては、赤外線ペンマウスなどのような如何なる特定の外部補助装置も必要とせずに、手振りを使って現在の操作の前後の情報を結合するだけでよい。
理解しやすいように、図1は本発明実施例の一つ典型的な応用場面の概念図である。オペレーターの前方にオペレーターに向かって1つのカメラ(デプスカメラあるいは従来のカメラ)を置き、オペレーターはディスプレー設備に向き合い、手を動かして色々な非接触式リモート操作を行うが、本発明が関心をもつのは手の平の開閉動作である。このインタラクションの過程においては、赤外線ペンマウスなどのような如何なる特定の外部補助装置も必要とせずに、手振りを使って現在の操作の前後の情報を結合するだけでよい。
当然のことながら、この場面は一つの応用例に過ぎず、このディスプレースクリーンは液晶ディスプレー、投影スクリーン、携帯ディスプレー、フラットコンピューターモニターないしテレビモニターなどであってもよい。また、ディスプレーも必ずしも必要ではなく、オペレーターは冷蔵庫(ディスプレー付きでもディスプレー無しでもよい)に向かって手振り開閉動作を行っても冷蔵庫の操作を制御することができる。
図2は本発明実施例の手の平開閉動作の説明図である。ここでの手の平開閉動作とは手の平の「開」から「閉」に至る、あるいは「閉」から「開」に至る一連の状態変化であり、この2つの最終状態の間で逐次変化する半開半閉の中間状態を含む。本発明中の「閉」には五指が縮まって拳骨状になるものがあり、五指が一点に曲がって「つかむ」状態になるものもある。1つの手振り周期内で通常経過する画像フレーム数は同じではなく、主としてオペレーターの動作の速さとカメラのサンプル採取速度による。正常な操作速度と30フレーム/秒のサンプル採取率で計算すると、1つの手振り周期で経過する画像フレーム数は一般に2フレームから6フレームと異なっている。
2、手の平開閉動作識別方法の例示
以下に図面を参考にして本発明実施例の手の平開閉動作識別方法の例を説明する。
以下に図面を参考にして本発明実施例の手の平開閉動作識別方法の例を説明する。
2.1、手の平開閉動作識別の例示的方法の全体フローチャート
図3は本発明第一実施例の手の平開閉動作識別方法100の全体フローチャートである。
図3は本発明第一実施例の手の平開閉動作識別方法100の全体フローチャートである。
以下に図3と合わせて本発明第一実施例の手の平開閉動作識別方法100の全体フローを説明する。
図3に示すとおり、ステップS110において、画像シーケンスを入力し、時間順に複数画像を取得する。
ここで入力する画像シーケンスは、現場の画像撮影カメラあるいはビデオ撮影カメラから直接、時間順に入力したものでも、有線あるいは無線インターネットを通してリモート入力したもの等々でもよい。その他、ここでの画像は深度画像でも普通のカラー画像でもよい。
ここで行う手の平開閉動作識別が必要とする画像フレーム数、あるいは一般のいわゆるスライディングウィンドウの大きさ(手振り動作は一般に入力画像シーケンス上で生じる連続プロセスなので、通常の処理方法は長さの固定したスライディングウィンドウを取って入力画像シーケンス上を滑らせ、何枚かの隣り合う画像を選択して1つの動作識別要素とする)は経験的に決めてもよいし、統計手段等に基づいて決めてもよい。
実施例によれば、前記複数画像の数は開閉動作画像フレーム数頻度ヒストグラムと指定された信頼レベルを合わせて決定される。
以下は図4の(a)と(b)を参考して、開閉動作画像フレーム数頻度ヒストグラムと指定された信頼レベルを通してどのように手振り識別要素とする画像フレーム数を確定するか、あるいはスライディングウィンドウの大きさを確定するかを説明する。
図4の(a)はサンプリング率が30フレーム/秒における手の「開」手振りあるいは「閉」手振りの周期内画像フレーム数の分布ヒストグラムを示し、各棒の下の数字が画像フレーム数を示し、棒の高さが1つの手の平開閉動作が必要とするこの画像フレーム数の統計数値を示し、左から右へ画面順序に従い、各棒がそれぞれ1つの手の平「開」「閉」動作がちょうど1フレーム画像内で完成する場合の統計数値;1つの手の平開閉動作がちょうど2フレーム画像内で完成する場合の統計数値;1つの手の平開閉動作がちょうど3フレーム画像内で完成する場合の統計数値;1つの手の平開閉動作がちょうど4フレーム画像内で完成する場合の統計数値;1つの手の平開閉動作がちょうど5フレーム画像内で完成する場合の統計数値;1つの手の平開閉動作がちょうど6フレーム画像内で完成する場合の統計数値を示す。図4(a)を見て分かるように、ほとんどの場合で、1つの手の平開閉動作は3から4フレームの間で完成していると言える。
図4の(b)は図4の(a)に対応する確率分布図である。図4の(b)から分かるように、縦軸上に1つの信頼レベルを指定し、水平方向に沿って確率分布図と交わる点が対応するフレーム数Kは、スライディングウィンドウの長さとなりKフレームの画像を選択して手振り識別を行う。例えば、信頼レベル0.9に対しては1手振り5フレームが対応している。ここでの信頼レベルはKフレームの画像中でかなりの程度、1つの開閉動作が完成することを表していて、例えば信頼レベル0.9とは90%の状況で実際の手振り開閉状況をカバーできることを意味している。
前記例による、指定信頼レベルと開閉動作画像フレーム数頻度ヒストグラムに基づき一つの手振り動作識別要素のフレーム数を確定し、手振り識別の効率と正確度を高めることができる。
ステップS110で複数画像を取得した後、ステップS120に進む。
ステップS120では、手の平形状の分割を行い、複数画像から手の平形状画像を分割する。
特徴抽出前に先ず手の平画像の前景分割を完成する必要がある。例えば肌色測定、深度閾値に基づく方法、あるいは連結域分析の方法など多くの技術が手の平画像分割を行うのに用いられる。どのような分割技術を採用してもどのような種類画像を用いても、分割後は、背景あるいは手の平以外の部分の影響は入力画像から取り除かれ、最終的には比較的きれいな手の平画像(手首の上部)が得られ、その中から手の平の形態を表す特徴量を抽出することができる。
手の平の形状分割完成後、ステップS130に進む。
ステップS130では、特徴抽出を行い、複数の手の平の各形状画像から複数の手の平の形態特徴を抽出し、そこにおいて各特徴は手の平の開閉動作における値変化過程から見て値の逓増あるいは逓減といった単調特性を有している。
カメラの精度不足および被写体がレンズから一定の距離をもつ影響で(オペレーターが通常カメラから1mの距離を保つ他に)、得られる手の平画像は一般に採集された画像中に占める面積が比較的小さく同時に比較的多くのノイズも含んでいる。ロバストな識別結果を得るために、本発明者は手の平開閉過程で抽出する値が逓増あるいは逓減といった単調的特徴を有するという考え方を提起し、手の平開閉間の各々の特徴差異が大きくなるようにする。
ここで特徴の値の単調特性とは、手の平の「開」から「閉」への一連の状態変化(つまり手の平の閉じる動作)に対して、この一連の状態変化と関係する一連の特徴値が単一の逓増傾向あるいは単一の低減傾向を満たしており、反対に手の平の「閉」から「開」への一連の状態変化(つまり手の平の開く動作)に対して、この一連の状態変化と関係する一連の特徴値が単一の低減傾向あるいは単一の逓増傾向を満たしていることを指す。
例として、発明者はオリジナルに手の平前景画像と関連する幾何学的形状を用いて異なる特徴を計算し、これによってこの2つのの違いをより良く区別することができる。本発明者が用いる2つの幾何学的形状とは、(i)図5の(a)で示すような、手の平の主方向に沿って手の平を覆う最小長方形と、(ii)図5の(b)で示すような、手の平輪郭線が存在する凸包である。
手の平の主方向に沿って手の平を覆う最小長方形とは、手の平の主方向に平行な2つの辺を持ち手の平の画像を覆う面積が最小の長方形である。そのうち、手の平の主方向(図5の(a)の記号501の指し示す手の平の直線指示方向)は主成分分析方法PCAによって計算できる。図5の(a)左側は、手の平の閉状態で手の平の主方向に沿って手の平を覆う最小長方形を示し、図5の(a)右側は、手の平の開状態で手の平の主方向に沿って手の平を覆う最小長方形を示す。
ここで凸包を手の平の輪郭線を構成する点の集合Qのうち最小の凸包Pと定義すると、点の集合Qのどの点も凸包Pの辺上か、Pの内部にある。手の平輪郭線は前記ステップS120の手の平形状分割操作の結果として得られ、図5の(c)左側は、手の平の閉状態での手の平輪郭線を示し、図5の(c)右側は、手の平の開状態の輪郭線を示す。図5の(b)左側は、手の平の閉状態の手の平輪郭線の最小凸包を示し、図5の(b)右側は、手の平の開状態で手の平輪郭線の最小凸包を示す。
手の平の主方向に沿って手の平を覆う最小長方形と手の平輪郭線が存在する凸包に基づき、1つの例では、人の粗から細に移る認知習慣に従い、シングルフレームの異なる抽象階層から下記のような幾何学的特徴を取り出し手の平の形態の違いを説明することができる。
最もラフな階層では、手の平の主方向に沿って手の平を覆う最小長方形(図5の(a)で示すような)が得られ、その幅f1、高さf2および面積f3を算出し特徴とする。
中間の階層では、手の平輪郭線の最小凸包(図5(b)で示すような)が得られ、その周の長さf4、面積f5および欠陥値f6を算出し特徴とする。
精密な階層では、手の平輪郭線(図5(c)で示すような)が得られ、その長さf7、輪郭線が囲む手の平の面積f8を算出し特徴とする。
前記中間階層で手の平輪郭線の最小凸包から計算する凸包欠陥値f6とは凸包が有する欠陥線の長さの総和を指し、欠陥線は図5の(b)の手の平の開図中の凸包辺上の隣り合う2つの指の線分の中間点から隣り合う指の間の窪みに向かって引いた線に見られ、記号502で示すとおりである。前記特徴量の計算に必要な関数は全てオープンソース・プロジェクト OpenCV で探し出すことができる。
前記3つの階層から抽出した8個の特徴f1−f8は、手の平開閉の一連の変化の視点から見ると全て値が単調になるという特性を満足している。
本発明の好ましい実施例の手の平前景画像と関連した2つの幾何学的形状(手の平輪郭線凸包と手の平主方向に沿って覆う最小四辺形)により異なる特徴を計算し、開閉の2つの間の特徴差異を拡大することにより、この2つの開閉の違いをより良く区分し、識別の際のノイズの影響という問題をより良く解決することができる。
しかしながら、前記特徴f1−f8は抽出した好ましい単調的な特徴の例示のみであり、排他的あるいは制限的なものでは決してなく、必要に応じて手の平開閉動作の一連の変化の視点から見て全て値を満足する如何なる単調特性の特徴、手の平の形態を表す特徴を設計と選択してもよい。
ステップS130で特徴の抽出を終えた後、ステップS140に進む。
ステップS140では、最大差異特徴ベクトルを計算し、当該複数特徴の各特徴に対して、その特徴における当該複数手の平形状画像の最大差異量を計算し、当該最大差異量は当該複数の手の平形状画像中の2つの手の平形状画像が所定の順序で差を生じて得られ、符号と幅という2つの属性を有し、かつ当該最大差異量の絶対値は当該複数の手の平形状画像中の任意の2つの手の平形状画像がこの特徴上の差の絶対値の中で値が最大のものであり、前記複数特徴の各特徴の最大差異量は最大差異特徴ベクトルを構成する。
スライディングウィンドウはKフレームの画像を選出し手振り識別要素とし、各フレームの画像上で、例えば前記f1からf8までの8個の特徴を抽出し一組の特徴として手の平の形態を表す。このK組の特徴量から最大差異特徴ベクトルを算出することにより1つの動作識別要素の中で手の平の形態変化を更に説明し、当該最大差異特徴ベクトルの各次元の分量がその次元における一つ手振り識別要素中の最大差異を表す。
図6は、Kフレームの画像シーケンスにおいてK個のm次元特徴ベクトル(ステップS130で抽出した各特徴が特徴ベクトルの1次元となる)の中から最大差異特徴ベクトルを計算する。
ここでの最大差異特徴は、1つの特徴がKフレームシーケンスの中で値の変化を表しており、より具体的には、説明に用いる各特徴が1つの手振り識別要素の中で値の一方向での最大変化を表している。最大差異特徴ベクトルの次元数は、シングルフレーム上で取り出す特徴の個数にだけ依拠するので、識別要素の画像フレーム数とは無関係である。
1つの具体的実施例について、特徴f1を例にKフレームの画像(K組の特徴ベクトル)中でどのように対応する最大差異を計算するかを説明する。ここでf1は手の平の方向に沿って最小の四辺形がカバーする幅であり、見て分かるように、f1の値は手の平が閉じる過程で次第に減少し、手の平が開く過程で次第に増大する。事実として、前記8個の特徴量(f1、…、f8)は手の平開閉動作の一連の変化の視点から見て全て値の単調的な特徴を満たしている。
特徴f1に対応するKフレーム画像(K組の特徴ベクトル)中の最大差異d1の計算定義は以下のとおりである。
d1 = f1(s) − f1(e)、 その中で |f1(s) − f1(e)| = Max (|f1(i) − f1(j)|) (1)
d1 = f1(s) − f1(e)、 その中で |f1(s) − f1(e)| = Max (|f1(i) − f1(j)|) (1)
この中で、i、jは画像フレームの下付き文字で、0<i、j<=K、および、i<jを満たす。
公式(1)は最大差異の計算がKフレームの画像の組の中の単一方向の特徴差異に基づき計算される全ての可能な組み合わせ結果であることを表している。値の単調性が保証されているので、最大差異特徴d1は見て分かるように手の平の開から閉あるいは閉から開の変化の規則(変化の方向と変化の幅)を表している。
同様にd1と類似した計算定義に従って別の特徴が対応する最大差異特徴値dm(m=1、…、8)を算出し、これらの特徴の最大差異量d1、d2、…、dmを組合せて手振り動作識別に用いる最大差異特徴ベクトル{d1、d2、…、dm}を得る。
ここで、説明を要するのは、前記公式(1)から、各特徴f1、f2、…、fmの最大差異量が符号の1次元ベクトルを有することである。例えば、前記例示の特徴f1−f8の手の平の開から閉への過程で各値が逓減の単調を満たすことにより、理想的な場合には、その中の手の平を閉じる動作の画像シーケンスにおいて、最大差異特徴ベクトルの各次元が負のベクトルをもつこととなるはずであり、反対に、前記例示の特徴f1−f8の手の平の閉から開への過程で各値が逓減の単調を満たすので、理想的な場合には、その中の手の平を開く動作の画像シーケンスにおいて、最大差異特徴ベクトルの各次元が正のベクトルをもつこととなるはずである。
その他、説明を要するのは、公式(1)では、1つの次元の特徴について、下付き文字の小さい画像フレームを用いることによって下付き文字の大きい画像フレームを少なくして最大差異量を計算しているが、反対に下付き文字の大きい画像フレームを用いて下付き文字の小さい画像フレームを少なくして最大差異量を計算してもよいということである。
この他、前記最大差異量特徴ベクトルの計算に関して、スライディングウィンドウの長さが固定されている状況で手振り動作がKフレームで完成するかKフレームの一部で完成するかにかかわらず、全て等量に近い最大差異特徴量が得られ、このため特徴の説明と抽出において手振り動作フレーム数の変化に適応した良好な効果が得られる。
ステップS140で最大差異ベクトルを計算した後、ステップS150に進む。
ステップS150では、手の平開閉動作の判定を行い、当該最大差異特徴ベクトルに基づいて複数画像中に手の平の開、閉が存在するか手の平の開閉が存在しないかを判断する。
一つの例では、機械学習技術を通して、より具体的には、分類器が最大差異特徴ベクトル{d1、d2、…、dm}に対して分類を行いこの手振り識別要素の手振り分類結果を得る。数字フラグを用いて手振りの分類結果を表してもよく、例えば、0を変化無し、1を手の平が閉じる、2を手の平が開くとする。多種の分類器がこの分類に用いられ、例えば決定木分類器、ランダムフォレスト分類器、AdaBoost、サポートベクターマシーンSVMとBP神経ネットワークなどがある。分類器は一般に訓練過程と識別過程に分けられ、そのうち訓練過程では、訓練サンプル集合を用いて分類器を訓練し、あるいは分類器の関係パラメータ或いは形式を確定するが、例えば、訓練サンプルは次のような形式〔L、d1、d2、…、dm〕をもち、Lは分類フラグとし、識別の過程で、分類不明の識別待ちサンプルに対して分類を行い、分類結果、即ち手振り動作の識別結果を出力する。ここで、分類結果の形式は用いる分類器の様式あるいは必要によって違ってもよく、当該サンプルつまり最大特徴差異ベクトルが0と分類されれば、変化無し、つまり手の平の開閉動作ではなく、あるいは1となれば、手の平の閉を表し、2となれば、手の平の開、といった簡単な分類でも、分類結果がそれぞれ類別の確率に属する等々でも構わない。
以上、分類器を用いてこの最大差異特徴ベクトルに基づいて画像中の手の平開閉動作状況を判定することを説明したが、これは例を示すためだけのものであって、本発明に制限を加えるものでは決してない。代替方式として、ルールで手の平開閉動作の判定を行ってもよく、以下のようなルール、例えば、当該最大差異特徴ベクトルの8個の特徴分量中、値が所定の閾値、例えば0.5より大きな特徴分量の個数が所定の閾値、例えば5より大きい場合、手の平の開動作が存在するとし、当該最大差異特徴ベクトルの8個の特徴分量中、値が所定の閾値、例えば−0.5より小さい特徴分量の個数が所定の閾値、例えば5より大きい場合、手の平の閉動作が存在するとし、反対なら、手の平の開閉動作が存在しないと考えるルールを定めてもよい。当然のことながら、これは説明の便のために簡単な例を出しただけで、実際のところ、広義では、ルールに基づく前記方法も分類器による方法に帰するものであり、例えばルールによる方法は決定木分類器等に転化できる。その他、テンプレート・マッチング方法を用いて最大差異特徴ベクトルに基づき複数画像中の手の平開閉動作状況を判定する。しかし、同様に広い意味では、テンプレート・マッチングによる方法も、最近隣分類器のような分類器の実現に転化できる。特に区別しない限り、本発明の分類器は広義の意味であり、ルールによる判別方法とテンプレート・マッチングによる判別方法を含むものとする。
前記実施例の手の平開閉動作識別方法により、手振り動作過程に連れて逓増あるいは逓減といった単調特性の特徴を有する値を採用することを提起し、これによって各特徴に基づく最大差異特徴ベクトルを確定し、最大差異特徴ベクトルに基づき手の平の開閉を判定することは、少なくとも次のような、視覚的に手の平動作の単調変化特徴を表現し、次元数が少ないという理由で分類器の学習、識別速度が加速できるというだけでなく、よりメインにはスライディングウィンドウの長さが固定されている状況で特徴抽出の視点から手振り動作のフレーム数変化に適応できるというメリットが得られる。
2.2、手の平開閉動作の開始フレームと終了フレームの確定方法の例示
前記図1と結び付けて説明した手の平開閉動作識別方法は、手の平の開動作、閉動作が存在するか手の平開閉動作が存在しないかの識別結果を出す。しかし、複数の手振り制御システムでは、例えば「Hand Mouse」という手の移動つまり手のトレースポイントを用いてカーソルの移動を制御し手の平開閉動作と結び付けてマウスのクリックを真似るというシステムは、手振り動作の開始点と終了点の時間を明確に検知する必要がある。これは手の平開閉動作の変化に伴い、対応する手のトレースポイントも変化を生じ開閉動作間でカーソルもこれに連れて振らつくためであり、従って手振り終了時にカーソルを手振り開始時に戻して対応する手振り命令を出さなければならない。このような問題はこれまでの技術では合理的な解決方法が出されていないか言及されていなかった。
前記図1と結び付けて説明した手の平開閉動作識別方法は、手の平の開動作、閉動作が存在するか手の平開閉動作が存在しないかの識別結果を出す。しかし、複数の手振り制御システムでは、例えば「Hand Mouse」という手の移動つまり手のトレースポイントを用いてカーソルの移動を制御し手の平開閉動作と結び付けてマウスのクリックを真似るというシステムは、手振り動作の開始点と終了点の時間を明確に検知する必要がある。これは手の平開閉動作の変化に伴い、対応する手のトレースポイントも変化を生じ開閉動作間でカーソルもこれに連れて振らつくためであり、従って手振り終了時にカーソルを手振り開始時に戻して対応する手振り命令を出さなければならない。このような問題はこれまでの技術では合理的な解決方法が出されていないか言及されていなかった。
以下に本発明の実施例の手の平開閉動作の開始フレームと終了フレームの確定方法の例を説明する。
実施例により、例えば手の平が開くあるいは閉じる動作の存在を判定する場合に、次のように手振りの開始フレームと終了フレームを確定する。
まず、各特徴の最大差異量と関連する2つの画像を確定し、この2つの画像を各特徴の視点から見た手振りの開始フレーム候補および終了フレーム候補とする。
その後、各特徴のウェイトおよび各特徴の視点から見た手振りの開始フレーム候補および終了フレーム候補に基づき、手振りの開始フレームと終了フレームを確定する。
例えば、前記最大差異量d1を計算する公式(1)を見れば、d1に相応して最も可能な手振りの開始フレーム番号(s)と終了フレーム番号(e)が得られ、“s(1)”および“e(1)”とする。同様にd2に相応して最も可能な手振りの開始フレーム番号と終了フレーム番号s(2)、e(2)が得られ、dmに相応して最も可能な手振りの開始フレーム番号と終了フレーム番号s(m)、e(m)を得るまでに至る。仮にi個目の最大差異特徴の手振り識別に対する重要度をウェイトWiと表示すると、各特徴に関係する開始フレーム番号および終了フレーム番号s(i)、e(i)がウェイトをかけたと投票した後、最大差異特徴ベクトル{d1、d2、…、dm}にとって最も可能な手振り開始フレーム番号sおよび終了フレーム番号eが得られ、これによって手の平開閉動作に“Hand Mouse”のようなシステムを応用し正確にカーソル位置を戻して正確な情報を提供する。一つの実施例では、最大差異特徴ベクトルの各次元特徴分量と関連の開始フレームと終了フレームが関連付けて保存される。表1は最大差異特徴ベクトルの計算からどのように最も可能な手振り開始フレームを確定するかを示す。この例では、スライディングウィンドウの大きさを3、つまり一回の手振り開閉動作識別に用いる画像数を3とし、各フレーム画像は第1列の第1フレーム、第2フレーム、第3フレームで指し示し、最大差異特徴ベクトル{d1、d2、…、dm}の各次元特徴分量d1、d2、…、dmの指し示す最も可能な手振り開始フレーム番号と終了フレーム番号に基づき、また各次元特徴のウェイトに基づき、最も可能な手振り開始フレームと終了フレームを確定する。表1のd1がある列は特徴分量d1が指し示す手振り開始フレームを1とすることを示しており(つまり、d1に対し、公式1のf1(s)のsを1とし、第一次元特徴について、第1フレームと別のフレームからこの特徴に関連する最大差異量d1を共に減ずることができる)、特徴分量d1に関連する特徴ウェイトをw1とすれば、これにより、特徴分量d1に基づき、第1フレームは手振り開始フレームの評価係数を1*w1とすることができ、第2フレーム、第3フレームについては手振り開始フレームの評価係数を全て0*w1とすることができる。同様に、特徴分量d2に基づき、第1フレームは手振り開始フレームの評価係数を1*w2とすることができ、第2フレーム、第3フレームについては手振り開始フレームの評価係数を全て0*w2とすることができ、特徴分量d3に関連する手振り開始フレームを第2フレームとすれば、これにより、特徴分量d3に基づき、第2フレームは手振り開始フレームの評価係数を1*w3とすることができ、第1フレームと第3フレームは手振り開始フレームの評価係数を全て0*w3とすることができる。
第1フレームのある行の全ての各次元特徴分量が導き出す手振り開始フレームとしての評価係数を合計し、第1フレームの手振り開始フレームとしての評価係数の合計1*w1+1*w2+0*w3+1*w4+0*w5+1*w6+0*w7+1*w8が得られ、全ての特徴において手振り識別に対するウェイトが全て等しく1とする場合には、この合計値は5となる。同様に、全ての特徴において手振り識別に対するウェイトが全て等しく1とする場合には、第2フレームの手振り開始フレームとしての評価係数の合計値は3となり、第3フレームの手振り開始フレームとしての評価係数の合計値は0となる。このようにして手振り開始フレームとしての評価係数合計値が最も高いフレーム即ち第1フレームを手振り開閉動作の開始フレームに選択することができる。
前記実施例により手の平開閉動作の開始フレームと終了フレームを確定し、手振り動作の開始フレームと終了フレームの時間を得ることができ、これは手振りを「Hand Mouse」のようなシステムに応用するために正確にカーソル位置を戻して正確な情報を提供する。
その他、前記最大差異特徴ベクトルの計算および手振り開始フレーム下付き文字の確認は、スライディングウィンドウの長さが固定されている状況で手振り動作がKフレームで完成するかKフレームの一部で完成するかにかかわらず、全て等量の最大差異特徴量が得られ、これによって特徴の描写と抽出の際、手振り動作のフレーム数が変化するという問題への適応が完成する。
2.3、隣接する手振り識別要素の手の平開閉動作統合方法の例示
多くの場合、手の平開閉動作の識別は、スライディングウィンドウが入力した画像シーケンス上でKフレームの画像を選択して1つの識別要素とし、この識別要素に対して手の平開閉動作識別操作を行い、その後、スライディングウィンドウが入力した画像シーケンスに向いた後、次の位置にスライドし(一般にはフレームを追って移動し)再びKフレームの画像を選択しもう1つの識別要素とし、このもう1つの識別要素に対して手の平開閉動作識別操作を行うなど、継続して進む過程である。各識別要素は皆、近くの識別要素と一部分重なり合う画像を有しているため、好ましい1つの実施例では、各識別要素を分類する際にもう1つの処理を行い、分類結果を基に手振り動作を最終判定し、フレーム画像から動作の階層までの手振り動作判断を終える。この処理の主要方法はルールを作って隣り合う識別要素の手振り分類結果を統合させることである。
多くの場合、手の平開閉動作の識別は、スライディングウィンドウが入力した画像シーケンス上でKフレームの画像を選択して1つの識別要素とし、この識別要素に対して手の平開閉動作識別操作を行い、その後、スライディングウィンドウが入力した画像シーケンスに向いた後、次の位置にスライドし(一般にはフレームを追って移動し)再びKフレームの画像を選択しもう1つの識別要素とし、このもう1つの識別要素に対して手の平開閉動作識別操作を行うなど、継続して進む過程である。各識別要素は皆、近くの識別要素と一部分重なり合う画像を有しているため、好ましい1つの実施例では、各識別要素を分類する際にもう1つの処理を行い、分類結果を基に手振り動作を最終判定し、フレーム画像から動作の階層までの手振り動作判断を終える。この処理の主要方法はルールを作って隣り合う識別要素の手振り分類結果を統合させることである。
1つの実施例により、図3が示す手の平開閉動作識別方法は、画像シーケンスに沿ってスライディングウィンドウの位置を移動させ;移動後のスライディングウィンドウ内の2つ目以降の複数画像に対して前記手の平形状分割ステップ、特徴抽出ステップ、最大差異特徴ベクトル計算ステップおよび手の平開閉動作判定ステップを行い;そして、移動前後のスライディングウィンドウ内の複数画像の手振り識別結果が同じ手の平開閉動作となった場合は、当該手の平開閉動作識別結果を統合して1つの手の平開閉動作とし、これに応じて開始フレームと終了フレームを修正することを含む。
次は、図7を参考して、隣り合う識別要素の手振り分類結果を統合させた手の平開閉動作識別過程を含む例示を説明する。
図7は、本発明の一つ実施例の隣り合う識別要素の手振り分類結果を統合させた手の平開閉動作識別過程を含む概念図である。図7に示すように、カメラが集めた画像シーケンスは時間順に手振り識別システムに送られ、まず長さK(図7では、K=3)のスライディングウィンドウを通じて画像シーケンスから順次、Kフレームの画像を取り出し1つの手振り識別要素を組成し次の処理に進む。続いてシングルフレーム画像で抽出した値が手振りの過程で単調性の特徴を満たすという基礎に立って、Kフレーム画像が構成する要素から最大差異特徴ベクトルを計算する(図番701が指し示す段階)。その後、最大差異特徴量を手振り分類器に送り分類結果を得、図番702が示す段階のように、分類結果をフラグ0、1および2に対応させる。その後、手振り動作統合判断段階に進み、図番703が示すように、分類結果シーケンスに基づき更に判定を加え手振り動作の最終結果を出力する。
次は、図8を参考して、本発明の一つ実施例の手振り動作統合判別方法800を説明する。この手振り動作統合判別方法800は図7に示す手振り動作統合判別段階703に応用できる。
図8は、本発明の実施例の手振り動作統合判別方法800のフローチャートである。
図8が示すように、1つの識別要素が分類器によって得た分類結果フラグを入力する(S801)。その後、まず候補動作が存在するか否かを判断するが(S802)、候補動作が存在するか否かは、Fcandidate=0(候補動作なし)、Fcandidate=1(候補動作あり)のようにフラグの設置あるいはリセットで表示でき、最初に候補動作なしであれば最初にFcandidate=0とする。候補動作なしであれば(S802のNの条件処理分岐)、入力した分類結果フラグを1とするかあるいは2とするか、つまり開いた手振りに分類されるかあるいは閉じた手振りに分類されるかを判断する(S811)。もしフラグが1でも2でもないなら、分類結果は開く動作でも閉じる動作でもなく(S811のNの条件処理分岐)、ステップS801に戻って、次の分類フラグを入力する。フラグが1あるいは2であれば、分類結果は開く手振りあるいは閉じる手振りであり(S811のY条件処理分岐)、現在の新しい動作候補を開始し、例えばFcandidate=1を置いて、現在の候補動作フラグを保存してこのフラグとし、現在の候補動作の開始時間および終了時間を記録する(S812)。S802で候補動作の存在が確定した場合は(ステップS802のY条件処理分岐)、入力したこの分類結果フラグが現在の候補動作フラグ(即ち、1つ前の識別要素の結果)と同じかを検査する(S802)。異なる場合は(S803のN条件処理分岐)、現在の候補動作を閉じ(S808)、Fcandidate=0を置いて、現在の候補動作の処理継続を放棄し、入力した分類結果フラグが1となるか2となるか、つまり、開動作に分類されるかあるいは閉動作に分類されるかを判断する(S809)。フラグが既に1でも2でもなければ、即ち分類結果は開動作あるいは閉動作ではなく(S809のN条件処理分岐)、ステップS801に戻り、次の分類フラグを入力する。フラグが1あるいは2、即ち分類結果が開動作あるいは閉動作であれば(S809のY条件処理分岐)、現在の新しい候補動作を開始し、例えばFcandidate=1を置いて、現在の候補動作フラグを保存してこのフラグとし、現在の候補動作の開始時間および終了時間を記録し(S810)、ステップS801に戻って次の識別要素の分類結果の入力を待ち、現在のフラグが1つ前の識別結果と同じであれば(S803のY条件処理分岐)、現在の候補動作のデータを更新し(終了時間を更新する)(S804)、その後、現在の候補動作が手振り動作の条件を満たすか否かを検査する(S805)。手振り動作の条件に符合すれば、手振り動作が発する情報が生じ外部設備とやり取りができるようになり(S806)、現在の候補動作を終了して、例えばFcandidate=0を置いて(S807)、ステップS801に戻る。ステップS805で現在の候補動作が手振り動作の条件を満たさないと判断された場合は、ステップS801に戻る。前記過程で、手振りが検出できるか否かにかかわらず、次の要素の分類識別結果、即ち次の分類フラグの入力を全て継続処理する。
図8のステップS805が、候補動作が動作条件を満たすか否かを検知するので、適合しない候補はフィルターにかけることとし、例えば、1つの手振り動作の完成に要する時間条件を使って制限し適合しない後続をフィルターにかけるとか、例えば、1つの手振り動作時間は十分に長くなければならないので、もし時間が不十分で、例えば1/5秒より短い場合は、これは条件に合った動作とは認めず、時間が十分ある時のみ、条件に合った動作と判定し、対応するマン・マシン・インタラクションを進め、更に例えば、ある応用例では、手振り動作開始時のトレースポイント位置が手振り動作終了時のトレースポイント位置と接近していなければならないとして、トレースポイント位置が接近しているか否かにより適合しない候補動作をフィルターにかけている。
前記実施例の方法により、隣り合う識別要素の手振り分類結果を統合でき、より正確に手の平開閉手振り動作の開始フレームと終了フレームを導き出し、これによって更に適切にマン・マシン・インタラクションを行う。
3、手の平開閉動作識別装置
次は、図9を参考して、本発明実施例の手の平開閉動作識別装置の配置を説明する。
次は、図9を参考して、本発明実施例の手の平開閉動作識別装置の配置を説明する。
図9は本発明実施例の手の平開閉動作識別装置900の機能配置ブロック図である。
図9に示すように、手の平開閉動作識別装置900は画像処理を通して手の平の開から閉、あるいは閉から開への動作を識別するのに用い、次のような部材を含む。複数画像取得部材910は、時間順に複数画像を取得し、手の平形状分割部材920は、複数画像から分割により複数の手の平の形状画像を取得し;特徴抽出部材930は、複数の手の平の形状画像の各々から手の平の形態を表す複数特徴を抽出し、そこにおいては手の平の開閉動作における値変化過程から見て各特徴が値の逓増あるいは逓減といった単調特性を有し;最大差異特徴ベクトル計算部材940は、当該複数特徴の各特徴に対して、その特徴における当該複数の手の平形状画像が最大差異量を計算し、当該最大差異量は当該複数の手の平形状画像中の2つの手の平形状画像が所定の順序で差を生じて得られ、符号と幅という2つの属性を有し、かつ当該最大差異量の絶対値は当該複数の手の平形状画像中の任意の2つの形状画像がこの特徴の差の絶対値の中で値が最大のものであり、前記複数特徴の各特徴の最大差異量は最大差異特徴ベクトルを組成し;手の平開閉動作判定部材950は、当該最大差異量特徴ベクトルに基づき当該複数画像中に手の平の開動作、閉動作が存在するか、手の平開閉動作が存在しないかを判断する。前記画像取得部材910、手の平形状分割部材920、特徴抽出部材930、最大差異特徴ベクトル計算部材940および手の平開閉動作判定部材950の具体的な機能および操作は、前記および図1から図8の関連説明を参考にすることができる。ここでは重複説明は省略する。
4、マン・マシン・インタラクションの装置配置例示
次は図10を参考して、本発明実施例のマン・マシン・インタラクション設備1000の配置を説明する。
次は図10を参考して、本発明実施例のマン・マシン・インタラクション設備1000の配置を説明する。
図10は、本発明実施例のマン・マシン・インタラクション設備1000の配置ブロック図である。
図10に示すように、マン・マシン・インタラクション設備100は、図9の示す手の平開閉識別装置900により実現される手の平開閉識別装置1200;手の動きおよび1つ前の手振りの状態により、いつ手の平開閉動作識別装置を動かし手振り識別を行うかを制御するのに用いる手の平識別制御装置1100;手の平開閉動作を制御命令に対応させるのに用い、手の平開閉動作を識別した際に、例えばコンピューター制御に使う応用プログラム、コンピューター制御の外部設備等々の、対応する制御命令を実行する手振り−命令対応装置1300を含み、この他、選択的に、手の平位置が不動か否かの検知に用い、前記手の平開閉動作識別制御装置は手の平位置不動状態検知器の検知結果に基づき手の平開閉動作識別装置がいつ、手の平識別を開始するかを制御する手の平位置不動状態検知器1400(点線ブロックで指し示す)も含むことができる。
ここでの手の平識別制御装置1100の目的は手が素早く動く過程で動きが曖昧になるために手振り識別に生じる誤った情報を減少させることであり、同時に、どのような関心のある手振りの識別も漏らさないことを確保することである。手振り識別制御装置1100は2つの操作習慣に基づき制御を行い、1つは手の平の「閉」の動作を行う時は通常、腕がずっと静止を保つという習慣、もう1つの習慣は手の平の「開」の動作はいつも「閉」の動作に付いてくる、言い換えれば「開」と「閉」この2つの動作はいつもペアで現れるという習慣である。
手振り識別制御が提起する動機は、以下のような応用を考えることであり、手の動きでマウスのドラッグ・アンド・ドロップ操作を真似し、手を開いた状態がマウスの移動状態に対応し、手を閉じた状態がマウスの左クリックに対応し、手を開いた状態でカーソルをつかみたい対象の上まで移動させ、手を閉じることが対象をつかむ(対象を選択する)ことに相当し、手を閉じた状態での移動が、対象のドラッグに相当し、その後手を開けば、対象のドロップに相当する。これにより対象のドラッグ・アンド・ドロップ操作が実現する。
初期状態では、手が基本の不変位置にある(腕は静止)時にのみ、手振りの検知を開始するが、このようにして曖昧な動作をフィルターにかけることができ、閉じた手振りを検知した後、手が閉じた状態から移った後に開いた手振りになるかも知れないので、直ちに開いた手振りの検知を行い、開いた手振りを検知した時に、手の位置が基本の静止状態にあるか否かモニタリング検知を続け、手の位置の基本静止を検知した後に初めて、手振り(閉じる手振り)を検知する。
1つの例示では、手の平位置不動状態検知器1400は手の移動経路曲線の分析により、直近の時間内にこの曲線の長さおよび変化半径が所定値より小さいか否かを判断して手の平位置が基本的に変わっていないか否かを判定する。ここで言う手の移動経路曲線とは手が動く中で直近に所定M個の手の動きのトレースポイントが構成する経路を指す。
次は、図11を参考して、手振り識別制御装置1100が手の平位置不動状態検知器1400の検知結果に基づきいつ、手の平開閉動作識別装置1200を動かし手の平識別を行うかを制御するプロセス例示を説明する。
図11は、手振り識別制御装置1100が手の平位置不動状態検知器1400の検知結果に基づきいつ、手の平開閉動作識別装置1200を動かし手振り識別を行うかを制御する手振り識別制御方法1100のフローチャートである、この過程は以下のステップを含む。
(a)フラグ量「bFlag」を初期化し「FALSE」とし(S1110)、このフラグbFlagは手の平種類を閉とするか否かを指し示す。
(b)フラグ量bFlagがTRUEかFALSEかを判断し(S1120)、FALSEであれば、手静止状態検知器(S1130)を用いて現在の手が不動状態か移動状態かを検知する(S1140)。
(c)bFlagがTRUEあるいは現在の手が静止状態と判断された場合は、手振り識別器を使って手振り動作識別を行う(S1150)。
(d)識別した手振り種類が「閉」であれば(S1160のY)、フラグ変量「bFlag」に対してTRUEを与え(S1170)、そうでなく手振り種類が「開」と識別される場合は(S1160のN)、「bFlag」に対してFALSEを与える(S1180)。
(e)続けて次の1セットの画像シーケンスを入力し、順次、前記ステップ(b)−(d)を繰り返す。
図11のフローチャートから、ここでの制御戦略は手が静止(あるいは動きが速くない)状態にある時にのみ手振り「閉」の検知を行うことであると分かる。一旦手振り「閉」が検知されたら、手振り「開」が検知されるまで手振り動作変化の監視を続ける。このような制御戦略は手が素早く動く過程で動きが曖昧になるために手振り識別に生じる誤った情報を減少させ、同時に、どのような関心のある手振りの識別も漏らさないことを確保する。
5、マン・マシン・インタラクション方法例示
次は、図12を参考して、本発明実施例のマン・マシン・インタラクション方法のフローを説明する。
次は、図12を参考して、本発明実施例のマン・マシン・インタラクション方法のフローを説明する。
図12は、本発明実施例のマン・マシン・インタラクション方法1200のフローチャートである。
図12に示すように、ステップS1210で、手の動きとその一つ前の手振りの状態により手の平開閉動作識別をいつ開始するかを制御する。ステップS1210の具体的な実施に関しては、図11と結び付けて説明した手の平識別制御プロセスを利用して実現することができる。
ステップS1220で、手の平開閉動作識別の開始を制御する時には、前記を通して図3から図8が説明する方法を参考して手の平開閉動作識別を行う。
ステップS1230で、手の平開閉動作を識別した時には、手の平開閉動作を制御命令に対応させ、対応する制御命令を実行することによって、表示装置上の対象の操作と表示を制御する。
6、システムのハードウェア配置
本発明は更に手の平開閉動作識別(マン・マシン・インタラクション)のハードウェアシステムを通じて実現することができる。図13は本発明実施例の手の平開閉動作識別(マン・マシン・インタラクション)システム1300の全体ハードウェアブロック図である。図13に示すように、物体検知システム1000は、ステレオカメラあるいはカラーカメラの撮影した画像あるいはビデオストリーミングなど、外部から関係画像あるいは情報を入力するのに用い、例えばキーボード、マウス、通信ネットワークおよびそれに接続した遠隔入力設備等々を含むことができる入力設備1100;前記本発明実施例の手の平開閉動作識別(マン・マシン・インタラクション)方法の実施、あるいは前記手の平開閉動作識別(マン・マシン・インタラクション)の実施に用い、例えばコンピューターの中央演算処理装置あるいは他の処理能力を有するICチップ等々を含むことができ、インターネット・ネットワーク(未表示)と結んで、処理プロセスの必要により遠隔にマン・マシン・インタラクション命令のような処理した後の結果を伝送する処理設備1200;前記手の平開閉動作識別(マン・マシン・インタラクション)プロセスを実施して得られた結果を外部に出力するのに用い、例えばディスプレー、プリンター、通信ネットワークおよび接続する遠隔入力設備等々を含むことができ出力設備1300;そして、前記手の平開閉動作識別(マン・マシン・インタラクション)プロセスに関係する画像、特徴量、最大差異特徴ベクトル、手振り開始フレーム、手振り終了フレーム、閾値等のデータを、揮発性あるいは非揮発性方式で保存するのに用い、例えばランダムアクセスメモリー(RAM)、読み取り専用メモリー(ROM)、ハードディスク、あるいは半導体メモリー等々の各種揮発性あるいは非揮発性メモリーを含むことができるメモリー設備1400を含む。
本発明は更に手の平開閉動作識別(マン・マシン・インタラクション)のハードウェアシステムを通じて実現することができる。図13は本発明実施例の手の平開閉動作識別(マン・マシン・インタラクション)システム1300の全体ハードウェアブロック図である。図13に示すように、物体検知システム1000は、ステレオカメラあるいはカラーカメラの撮影した画像あるいはビデオストリーミングなど、外部から関係画像あるいは情報を入力するのに用い、例えばキーボード、マウス、通信ネットワークおよびそれに接続した遠隔入力設備等々を含むことができる入力設備1100;前記本発明実施例の手の平開閉動作識別(マン・マシン・インタラクション)方法の実施、あるいは前記手の平開閉動作識別(マン・マシン・インタラクション)の実施に用い、例えばコンピューターの中央演算処理装置あるいは他の処理能力を有するICチップ等々を含むことができ、インターネット・ネットワーク(未表示)と結んで、処理プロセスの必要により遠隔にマン・マシン・インタラクション命令のような処理した後の結果を伝送する処理設備1200;前記手の平開閉動作識別(マン・マシン・インタラクション)プロセスを実施して得られた結果を外部に出力するのに用い、例えばディスプレー、プリンター、通信ネットワークおよび接続する遠隔入力設備等々を含むことができ出力設備1300;そして、前記手の平開閉動作識別(マン・マシン・インタラクション)プロセスに関係する画像、特徴量、最大差異特徴ベクトル、手振り開始フレーム、手振り終了フレーム、閾値等のデータを、揮発性あるいは非揮発性方式で保存するのに用い、例えばランダムアクセスメモリー(RAM)、読み取り専用メモリー(ROM)、ハードディスク、あるいは半導体メモリー等々の各種揮発性あるいは非揮発性メモリーを含むことができるメモリー設備1400を含む。
7、まとめ
本発明の実施例により、時間順に複数画像を取得する複数画像取得ステップ;複数画像から分割により複数の手の平の形状画像を取得する手の平形状分割ステップ;複数の手の平の形状画像の各々から手の平の形態を表す複数特徴を抽出し、そこにおいては手の平の開閉動作における値変化過程から見て各特徴が値の逓増あるいは逓減といった単調特性を有する特徴抽出ステップ;当該複数特徴の各特徴に対し、その特徴における当該複数の手の平形状画像が最大差異量を計算し、当該最大差異量は当該複数の手の平形状画像中の2つの手の平形状画像が所定の順序で差を生じて得られ、符号と幅という2つの属性を有し、かつ当該最大差異量の絶対値は当該複数の手の平形状画像中の任意の2つの手の平形状画像がこの特徴上の差の絶対値の中で値が最大であり、また前記複数特徴の各特徴の最大差異量は最大差異特徴ベクトルを構成する最大差異特徴ベクトル計算ステップ;そして、当該最大差異特徴ベクトルに基づき当該複数画像中に手の平の開動作、閉動作が存在するか、手の平開閉動作が存在しないかを判断する手の平開閉動作判定ステップを含む、画像処理を通して手の平の開から閉、あるいは閉から開への動作を識別するのに用いる手の平開閉動作識別方法を提供する。
本発明の実施例により、時間順に複数画像を取得する複数画像取得ステップ;複数画像から分割により複数の手の平の形状画像を取得する手の平形状分割ステップ;複数の手の平の形状画像の各々から手の平の形態を表す複数特徴を抽出し、そこにおいては手の平の開閉動作における値変化過程から見て各特徴が値の逓増あるいは逓減といった単調特性を有する特徴抽出ステップ;当該複数特徴の各特徴に対し、その特徴における当該複数の手の平形状画像が最大差異量を計算し、当該最大差異量は当該複数の手の平形状画像中の2つの手の平形状画像が所定の順序で差を生じて得られ、符号と幅という2つの属性を有し、かつ当該最大差異量の絶対値は当該複数の手の平形状画像中の任意の2つの手の平形状画像がこの特徴上の差の絶対値の中で値が最大であり、また前記複数特徴の各特徴の最大差異量は最大差異特徴ベクトルを構成する最大差異特徴ベクトル計算ステップ;そして、当該最大差異特徴ベクトルに基づき当該複数画像中に手の平の開動作、閉動作が存在するか、手の平開閉動作が存在しないかを判断する手の平開閉動作判定ステップを含む、画像処理を通して手の平の開から閉、あるいは閉から開への動作を識別するのに用いる手の平開閉動作識別方法を提供する。
本発明のもう1つの実施例により、時間順に複数画像を取得する複数画像取得部材;複数画像から分割により複数の手の平の形状画像を取得する手の平形状分割部材;複数の手の平の形状画像の各々から手の平の形態を表す複数特徴を抽出し、そこにおいては手の平の開閉動作における値変化過程から見て各特徴が値の逓増あるいは逓減といった単調特性を有する特徴抽出部材;当該複数特徴の各特徴に対し、その特徴における当該複数の手の平形状画像が最大差異量を計算し、当該最大差異量は当該複数の手の平形状画像中の2つの手の平形状画像が所定の順序で差を生じて得られ、符号と幅という2つの属性を有し、かつ当該最大差異量の絶対値はこの複数の手の平形状画像中の任意の2つの手の平形状画像がこの特徴上の差の絶対値の中で値が最大であり、また前記複数特徴の各特徴の最大差異量は最大差異特徴ベクトルを構成する最大差異特徴ベクトル計算部材;そして、当該最大差異特徴ベクトルに基づき当該複数画像中に手の平の開動作、閉動作が存在するか、手の平開閉動作が存在しないかを判断する手の平開閉動作判定部材を含む、画像処理によって手の平の開から閉あるいは閉から開への手振りを識別するのに用いる手の平開閉動作識別装置を提供する。
前記実施例の手の平開閉動作識別方法と装置により、手振り動作過程に連れて単調特性の特徴を有する値を採用し、各特徴に基づく最大差異特徴ベクトルを確定し、最大差異特徴ベクトルに基づく手の平の開閉を判定することは、少なくとも以下のような、手振り動作の単調変化特徴を視覚的に表し、次元数が少ないという理由で分類器の学習、識別速度が加速できるだけではなく、よりメインにはスライディングウィンドウの長さが固定されている状況で特徴抽出の視点から手振り動作フレーム数の変化に適応できるというメリットが得られる。
この他、本発明実施例の手の平開閉動作識別方法と装置により、手の平の開動作、或いは閉動作が存在するかを判断する際、手振りの開始フレームと終了フレームを確定し;各特徴の最大差異量に関連した2つの画像を確定し;この2つの画像を当該各特徴の視点から見た手振りの開始フレーム候補と終了フレーム候補とし;そして、各特徴のウェイトと各特徴の視点から得た手振りの開始フレーム候補と終了フレーム候補に基づき、手振りの開始フレームと終了フレームを確定する。前記実施例が手振り開閉動作の開始フレームと終了フレームを確定することにより、手振り動作の開始フレームと終了フレームの時間を得ることができ、手振りを「Hand Mouse」のようなシステムに応用するためにカーソルの位置を正確に戻し正確な情報を提供する。
この他、本発明実施例の手の平開閉動作識別方法と装置により、画像シーケンスに沿ってスライディングウィンドウの位置を移動させ;移動後のスライディングウィンドウ内の複数画像に対して前記手の平形状分割ステップ、特徴抽出ステップ、最大差異特徴ベクトル計算ステップおよび手の平開閉動作判定ステップを行い;そして、移動前後のスライディングウィンドウ内の複数画像の手振り識別結果が同じ手の平開閉動作となった場合は、当該手の平開閉識別動作結果を統合して1つの手の平開閉動作とし、これに応じて開始フレームと終了フレームを修正する。前記実施例の方法により、隣り合った識別要素の手振り分類結果を統合することができ、より正確に手の平開閉動作の開始フレームと終了フレームを取り出すことができるので、より適切にマン・マシン・インタラクションを行うことができる。
本発明のもう1つの実施例により、手の動きとその1つ前の手振りの状態により手の平開閉動作識別をいつ開始するかを制御し、手の平開閉動作識別の開始を制御する時は、前記方法を通じて手の平開閉動作識別を行い、そして、手の平開閉動作を識別した時には、手の平開閉動作を制御命令に対応させ、対応する制御命令を実行することによって、表示装置上の対象の操作と表示を制御するステップを含むマン・マシン・インタラクション方法を提供する。
本発明のまた1つの例により、前記手の平開閉動作識別装置;手の動きとその1つ前の手振りの状態により、いつ手の平開閉動作識別装置を動かし手振り識別を行うかを制御する手の平識別制御装置;手の平開閉動作を制御命令に対応させるのに用いるとともに、手の平開閉動作を識別した時は、対応する制御命令を実行する手振り−命令対応装置を含むマン・マシン・インタラクション装置を提供する。
本発明の実施例のマン・マシン・インタラクション方法と装置により、手が素早く動く過程で動きが曖昧になるために手振り識別に生じる誤った情報を減少させることができると同時に、如何なる関心のある手振りの識別も漏らさないことを確保する。
前記本発明の実施例の手の平開閉動作識別方法と装置は、マン・マシン・インタラクション方法および設備を深度画像に適用しているものもあれば、従来のカラー画像に適用しているものもある。
前述は説明のためだけのものであり、多くの付け加え、修正および/または差替えを行うことができる。
例えば、前記例の手の平開閉動作識別方法では、手振り識別要素に対しただ各特徴から最大差異特徴ベクトルを計算し、その後、最大差異特徴ベクトルだけに基づき手の平開閉動作状況を判定した。しかし、これは単なる例で、「最大差異特徴ベクトルに基づき」の意味はオープンであり、排他的なものではなく、最大差異特徴ベクトルおよび他の要素に基づき共に手の平開閉動作状況を判定してもよく、例えば、一つ手振り識別要素における各特性の変化過程を分析計算して、各特徴の変化動向が一致するか否か等を分析し最大差異特徴ベクトルと結び付けて手振りを判定してもよい。
更に例えば、前文の例示的な記述で、根拠とする単調性の特徴の集合を手の平の主方向に沿って手の平を覆う最小長方形の幅f1、高さf2および面積f3、手の平輪郭線の最小凸包の周長f4、面積f5および欠陥値f6、手の平輪郭線の長さf7および取り囲む手の平の面積f8としたが、これは単なる例で、本発明の制限となるものではなく、選択した特徴は8個より多くても少なくてもよく、前記8個の特徴に限られず、必要により一連の手の平開閉動作変化の視点から見て値が単調特性を満足し、手の平を表す如何なる特徴を設計および選択してもよい。
以上、具体的な実施例と結び付けて本発明の基本原理を説明したが、指摘する必要があることは、当業者であれば、本発明の方法および装置の全部あるいは如何なるステップあるいは部材も理解することができ、如何なるコンピューター(処理器、メモリー媒体等を含む)あるいはコンピューター・ネットワークの中で、ハードウェア、ファームウェア、ソフトウェアあるいはそれらの組合せによって実現できることであり、これは当業者が本発明の説明を読んだ状況においては彼らの基本的なコンピュータプログラミング技能を用いて実現できることである。
このため、本発明の目的は、如何なるコンピューター上でも1つのあるいは一組のコンピュータプログラムを使うことにより実現できる。前記のコンピューターは通用している公知の装置でよい。このため、本発明の目的は、前記の方法あるいは装置を実現するプログラムコードを含むプログラム製品を提供するだけで実現する。つまり、このようなプログラム製品も本発明を構成しており、このようなプログラム製品をもつ記憶媒体も本発明を構成している。当然のことながら、前記記憶媒体は公知の如何なる記憶媒体あるいは将来開発される如何なる記憶媒体であってもよい。
更に指摘すべきことは、本発明の装置と方法においては、当然のことながら、各部材あるいは各ステップは分解および/または新たな組み合わせができることである。これらの分解および/または新たな組み合わせは本発明と同等の効果を有する方案と見做されるべきである。かつ、前記の一連の処理ステップの実行は当然、説明の順序に従い時間順に行うことができるが、必ずしも時間順に行う必要はなく、あるステップは平行してあるいは互いに独立して行うことができる。これらは本発明の制限となるものではない。
前記の発明を実施するためのは、本発明の保護範囲の制限となるものではない。当業者にとって明白なことは、設計要求および他の要素によって、色々な修正、組合せ、副次的組合せおよび代替が生じ得ることである。本発明の精神および原則中の如何なる修正、同等の入替えおよび改善等は、全て本発明の保護範囲に含まれなければならない。
Claims (10)
- 画像処理によって手の平の開閉、又は、閉開の動作を識別する、手の平開閉動作識別方法であって、
時間順に複数画像を取得する複数画像取得ステップ、
複数画像から分割により複数の手の平の形状画像を取得する手の平形状分割ステップ、
複数の手の平の形状画像の各々から手の平の形態を表す複数特徴を抽出し、各特徴が、手の平の開閉動作における値変化過程から見て、値の単調特性を有する特徴抽出ステップ、
当該複数特徴の各特徴に対し、当該複数の手の平形状画像の該特徴における最大差異量を計算し、当該最大差異量は当該複数の手の平形状画像中の2つの手の平形状画像が所定の順序で差を生じて得られたものであり、符号と幅という2つの属性を有し、かつ当該最大差異量の絶対値は当該複数の手の平形状画像中の任意の2つの手の平形状画像の該特徴における差の絶対値のうち値が最大となるものであり、前記複数特徴の各特徴の最大差異量から最大差異特徴ベクトルを構成する最大差異特徴ベクトル計算ステップ、及び
当該最大差異特徴ベクトルに基づき当該複数画像中に手の平の開動作、閉動作が存在するか、或いは手の平開閉動作が存在しないかを判断する手の平開閉動作判定ステップを含む、手の平開閉動作識別方法。 - 手の平の開動作、或いは閉動作が存在するかを判断する際に、手振りの開始フレームと終了フレームを確定し、
各特徴の最大差異量に関連した2つの画像を確定し、該2つの画像を当該各特徴の視点から見た手振りの開始フレーム候補と終了フレーム候補とし、
各特徴のウェイトと各特徴の視点から得た手振りの開始フレーム候補と終了フレーム候補に基づき、手振りの開始フレームと終了フレームを確定することを含む、請求項1に記載の手の平開閉動作識別方法。 - 前記複数画像の数は、開閉動作の画像フレーム数頻度ヒストグラム及び指定された信頼レベルによって、決定されることを含む、請求項1に記載の手の平開閉動作識別方法。
- 前記複数画像は、スライディングウィンドウを通して入力された画像シーケンスから順次選択されるものであり、
当該手の平開閉動作識別方法は、さらに、
画像シーケンスに沿ってスライディングウィンドウの位置を順次移動させ、
移動後のスライディングウィンドウ内の複数画像に対し前記手の平形状分割ステップ、特徴抽出ステップ、最大差異特徴ベクトル計算ステップおよび手の平開閉動作判定ステップを行い、及び
移動前後のスライディングウィンドウ内の複数画像の手振り識別結果が同じ手の平開閉動作となった場合は、当該手の平開閉動作識別結果を1つの手の平開閉動作として統合し、これに応じて開始フレームと終了フレームを修正することを含む、請求項1に記載の手の平開閉動作識別方法。 - 前記特徴抽出ステップで抽出した複数特徴は、
手の平の主方向に沿って手の平を覆う最小長方形の長さ、幅および面積と、手の平輪郭線の在る凸包の線長、面積および欠陥と、手の平輪郭線の長さおよび手の平輪郭線の囲む手の平形状の面積と、を含む各項目から選ぶ、請求項1に記載の手の平開閉動作識別方法。 - 画像処理によって手の平の開閉、又は、閉開の手振りを識別する手の平開閉動作識別装置であって、
時間順に複数画像を取得する複数画像取得部材と、
複数画像から分割により複数の手の平の形状画像を取得する手の平形状分割部材と、
複数の手の平の形状画像の各々から手の平の形態を表す複数特徴を抽出する部材であって、各特徴が、手の平の開閉動作における値変化過程から見て、値の逓増あるいは逓減といった単調特性を有する、特徴抽出部材と、
当該複数特徴の各特徴に対し、当該複数の手の平形状画像の該特徴における最大差異量を計算する部材であって、当該最大差異量は、当該複数の手の平形状画像中の2つの手の平形状画像を所定の順序で差を生じさせて得たもので、符号と幅という2つの属性を有し、かつ当該最大差異量の絶対値は、該複数の手の平形状画像中の任意の2つの手の平形状画像の該特徴における差の絶対値のうち最大の絶対値であり、前記複数特徴の各特徴の最大差異量から最大差異特徴ベクトルを構成する、最大差異特徴ベクトル計算部材と、
当該最大差異特徴ベクトルに基づき当該複数画像中に手の平の開動作、閉動作が存在するか、或いは手の平開閉動作が存在しないかを判断する手の平開閉動作判定部材と、を含む、手の平開閉動作識別装置。 - 請求項6に記載の手の平開閉動作識別装置と、
手の動きとその1つ前の手の状態により、手の平開閉動作識別装置による手振り識別開始を制御する手振り識別制御装置と、
手の平開閉動作と制御命令の対応付けを行うとともに、手の平開閉動作を識別した場合は、対応する制御命令を実行する手振り−命令対応装置と、を含む、マン・マシン・インタラクション設備。 - 手の平の位置が不動か否かを検知する手の平位置不動状態検知器をさらに含み、前記手振り識別制御装置は、手の平位置不動状態検知器の検知結果に基づき、手の平開閉動作識別装置による手の平識別開始を制御する、請求項7のマン・マシン・インタラクション設備。
- 前記手振り識別制御装置が、手の平位置不動状態検知器の検知結果に基づき、手の平開閉動作識別装置による手の平識別開始を制御することは、
(a)フラグbFlagを初期化しFALSEとし、
(b)フラグbFlagがTRUEかFALSEかを判断し、FALSEであれば、手静止状態検知器を用いて現在の手が不動状態か移動状態かを検知し、
(c)bFlagがTRUEあるいは現在の手が静止状態と判断された場合は、手振り識別制御装置を用いて動作識別を行い、
(d)識別した手振りが「閉」であれば、フラグbFlagをTRUEとし、手振りが「開」と識別された場合は、bFlagをFALSEとし、
(e)次の1セットの画像シーケンスが入力されると、順次、前記ステップ(b)−(d)を繰り返す、ことを含む、請求項8のマン・マシン・インタラクション設備。 - 手の動きと一つ前の手振りの状態により、手の平開閉動作識別の開始を制御し、
手の平開閉動作識別の開始を制御するときは、請求項1から6のいずれか1項に記載の方法によって、手の平開閉動作識別を行い、
手の平開閉動作を識別した場合は、手の平開閉動作を制御命令に対応させ、対応する制御命令を実行することによって、表示装置における対象の操作と表示を制御するステップを含む、マン・マシン・インタラクション方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310016169.1 | 2013-01-16 | ||
CN201310016169.1A CN103926999B (zh) | 2013-01-16 | 2013-01-16 | 手掌开合手势识别方法和装置、人机交互方法和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014137818A true JP2014137818A (ja) | 2014-07-28 |
Family
ID=51145254
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014001286A Pending JP2014137818A (ja) | 2013-01-16 | 2014-01-08 | 手の平開閉動作識別方法と装置、マン・マシン・インタラクション方法と設備 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9104242B2 (ja) |
JP (1) | JP2014137818A (ja) |
CN (1) | CN103926999B (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016162321A (ja) * | 2015-03-04 | 2016-09-05 | 株式会社メガチップス | 画像認識装置 |
JP2017027600A (ja) * | 2015-07-23 | 2017-02-02 | 株式会社リコー | 手振り識別方法と装置 |
JP2017535830A (ja) * | 2014-08-29 | 2017-11-30 | コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド | ジェスチャー解析のための時間的セグメンテーションの方法及びシステム |
JP2017539035A (ja) * | 2015-04-16 | 2017-12-28 | 楽天株式会社 | ジェスチャインタフェース |
JP2021089761A (ja) * | 2020-02-14 | 2021-06-10 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. | ジェスチャによる電子機器の制御方法及び装置 |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10702773B2 (en) * | 2012-03-30 | 2020-07-07 | Videx, Inc. | Systems and methods for providing an interactive avatar |
US9524028B2 (en) * | 2013-03-08 | 2016-12-20 | Fastvdo Llc | Visual language for human computer interfaces |
JP6287382B2 (ja) * | 2014-03-12 | 2018-03-07 | オムロン株式会社 | ジェスチャ認識装置およびジェスチャ認識装置の制御方法 |
US9575566B2 (en) * | 2014-12-15 | 2017-02-21 | Intel Corporation | Technologies for robust two-dimensional gesture recognition |
US9558389B2 (en) * | 2015-03-24 | 2017-01-31 | Intel Corporation | Reliable fingertip and palm detection |
CN105068662B (zh) * | 2015-09-07 | 2018-03-06 | 哈尔滨市一舍科技有限公司 | 一种用于人机交互的电子设备 |
CN106547337A (zh) * | 2015-09-17 | 2017-03-29 | 富泰华工业(深圳)有限公司 | 使用手势的拍照方法、系统与电子装置 |
CN105223957B (zh) * | 2015-09-24 | 2018-10-02 | 北京零零无限科技有限公司 | 一种手势操控无人机的方法和装置 |
CN105549620B (zh) * | 2016-02-25 | 2019-07-19 | 上海未来伙伴机器人有限公司 | 飞行器遥控棒及控制飞行器飞行的方法 |
CN105615160A (zh) * | 2016-03-15 | 2016-06-01 | 华南理工大学 | 一种基于红外手势识别的事务追踪智能手环及方法 |
JP6688990B2 (ja) * | 2016-04-28 | 2020-04-28 | パナソニックIpマネジメント株式会社 | 識別装置、識別方法、識別プログラムおよび記録媒体 |
WO2018018600A1 (zh) * | 2016-07-29 | 2018-02-01 | 深圳市赛亿科技开发有限公司 | 一种手势识别装置 |
CN108139797A (zh) * | 2016-07-29 | 2018-06-08 | 深圳市赛亿科技开发有限公司 | 一种指令识别方法 |
CN107368182B (zh) * | 2016-08-19 | 2020-02-18 | 北京市商汤科技开发有限公司 | 手势检测网络训练、手势检测、手势控制方法及装置 |
CN108073851B (zh) * | 2016-11-08 | 2021-12-28 | 株式会社理光 | 一种抓取手势识别的方法、装置及电子设备 |
US20180143693A1 (en) * | 2016-11-21 | 2018-05-24 | David J. Calabrese | Virtual object manipulation |
CN108447090B (zh) * | 2016-12-09 | 2021-12-21 | 株式会社理光 | 对象姿态估计的方法、装置及电子设备 |
CN109202886A (zh) * | 2017-06-30 | 2019-01-15 | 沈阳新松机器人自动化股份有限公司 | 基于固定背景下的手势识别方法及系统 |
CN107463873B (zh) * | 2017-06-30 | 2020-02-21 | 长安大学 | 一种基于rgbd深度传感器的实时手势分析与评价方法与系统 |
CN109558000B (zh) * | 2017-09-26 | 2021-01-22 | 京东方科技集团股份有限公司 | 一种人机交互方法及电子设备 |
CN107992193A (zh) * | 2017-11-21 | 2018-05-04 | 出门问问信息科技有限公司 | 手势确认方法、装置及电子设备 |
CN108227912B (zh) * | 2017-11-30 | 2021-05-11 | 北京市商汤科技开发有限公司 | 设备控制方法和装置、电子设备、计算机存储介质 |
US10489639B2 (en) * | 2018-02-12 | 2019-11-26 | Avodah Labs, Inc. | Automated sign language translation and communication using multiple input and output modalities |
CN108399380A (zh) * | 2018-02-12 | 2018-08-14 | 北京工业大学 | 一种基于三维卷积和Faster RCNN的视频动作检测方法 |
CN108446073A (zh) * | 2018-03-12 | 2018-08-24 | 阿里巴巴集团控股有限公司 | 一种利用手势模拟鼠标操作的方法、装置及终端 |
CN108804009B (zh) * | 2018-05-30 | 2020-09-08 | 北京小米移动软件有限公司 | 手势识别方法及装置 |
CN108830891B (zh) * | 2018-06-05 | 2022-01-18 | 成都精工华耀科技有限公司 | 一种钢轨鱼尾板紧固件松动检测方法 |
CN108835738A (zh) * | 2018-06-26 | 2018-11-20 | 四川大学 | 基于激光测距的导盲手套 |
CN109271847B (zh) | 2018-08-01 | 2023-04-07 | 创新先进技术有限公司 | 无人结算场景中异常检测方法、装置及设备 |
US11887396B2 (en) * | 2018-09-05 | 2024-01-30 | Mercedes-Benz Group AG | Method for identifying a hand pose in a vehicle |
CN109582144A (zh) * | 2018-12-06 | 2019-04-05 | 江苏萝卜交通科技有限公司 | 一种人机交互的手势识别方法 |
CN110032992B (zh) * | 2019-04-25 | 2023-05-23 | 沈阳图为科技有限公司 | 一种基于姿态的考试作弊检测方法 |
CN110287810B (zh) * | 2019-06-04 | 2021-05-25 | 北京字节跳动网络技术有限公司 | 车门动作检测方法、装置和计算机可读存储介质 |
CN113071438B (zh) * | 2020-01-06 | 2023-03-24 | 北京地平线机器人技术研发有限公司 | 控制指令的生成方法和装置、存储介质、电子设备 |
KR20220143704A (ko) | 2020-02-17 | 2022-10-25 | 티케이&에이치 홀딩 에이에스 | 안경테에 통합 가능한 보청기 시스템 |
AU2021222310A1 (en) | 2020-02-17 | 2022-09-29 | TK&H Holding AS | A gesture detection system |
CN111523435A (zh) * | 2020-04-20 | 2020-08-11 | 安徽中科首脑智能医疗研究院有限公司 | 一种基于目标检测ssd的手指检测方法、系统及存储介质 |
CN111242109B (zh) * | 2020-04-26 | 2021-02-02 | 北京金山数字娱乐科技有限公司 | 一种手动取词的方法及装置 |
CN111583203A (zh) * | 2020-04-27 | 2020-08-25 | 齐鲁工业大学 | 基于深度学习模型的病理图像标注方法及系统 |
CN113867521B (zh) * | 2020-06-30 | 2024-01-23 | 京东方科技集团股份有限公司 | 一种基于手势视觉识别的手写输入方法、装置及电子设备 |
CN111913574B (zh) * | 2020-07-15 | 2024-04-30 | 抖音视界有限公司 | 用于控制设备的方法、装置、电子设备和计算机可读介质 |
CN112101253B (zh) * | 2020-09-18 | 2024-07-12 | 广东机场白云信息科技有限公司 | 一种基于视频动作识别的民用机场地面保障状态识别方法 |
CN113095160B (zh) * | 2021-03-23 | 2022-09-30 | 中国大唐集团科学技术研究院有限公司华东电力试验研究院 | 基于人工智能和5g的电力系统人员安全行为识别方法及系统 |
EP4109222A1 (en) * | 2021-06-21 | 2022-12-28 | Goodrich Corporation | Gesture-based systems and methods for aircraft cabin light control |
US11907433B2 (en) * | 2021-06-21 | 2024-02-20 | Goodrich Corporation | Gesture-based systems and methods for aircraft cabin light control |
US12105884B2 (en) * | 2021-07-30 | 2024-10-01 | Jadelynn Kim Dao | Touchless, gesture-based human interface device |
CN117130469B (zh) * | 2023-02-27 | 2024-08-09 | 荣耀终端有限公司 | 一种隔空手势识别方法、电子设备及芯片系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08211979A (ja) * | 1995-02-02 | 1996-08-20 | Canon Inc | 手振り入力装置及び方法 |
JP2008009938A (ja) * | 2006-06-30 | 2008-01-17 | Omron Corp | 動画像データ処理装置、動画像データ処理方法、動画像データ処理プログラム、およびこれを記録した記録媒体 |
JP2011040860A (ja) * | 2009-08-07 | 2011-02-24 | Nikon Corp | 画像処理装置及び画像処理プログラム |
JP2011192090A (ja) * | 2010-03-15 | 2011-09-29 | Omron Corp | ジェスチャ認識装置、ジェスチャ認識装置の制御方法、および、制御プログラム |
JP2011191870A (ja) * | 2010-03-12 | 2011-09-29 | Kddi Corp | 情報端末装置 |
US20110244959A1 (en) * | 2010-03-31 | 2011-10-06 | Namco Bandai Games Inc. | Image generation system, image generation method, and information storage medium |
JP2011215921A (ja) * | 2010-03-31 | 2011-10-27 | Namco Bandai Games Inc | プログラム、情報記憶媒体及び画像生成システム |
JP2012008936A (ja) * | 2010-06-28 | 2012-01-12 | Kddi Corp | 情報端末装置 |
JP2012008772A (ja) * | 2010-06-24 | 2012-01-12 | Sony Corp | ジェスチャ認識装置、ジェスチャ認識方法およびプログラム |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7821541B2 (en) | 2002-04-05 | 2010-10-26 | Bruno Delean | Remote control apparatus using gesture recognition |
US8872899B2 (en) * | 2004-07-30 | 2014-10-28 | Extreme Reality Ltd. | Method circuit and system for human to machine interfacing by hand gestures |
EP1865404A4 (en) * | 2005-03-28 | 2012-09-05 | Panasonic Corp | USER INTERFACE SYSTEM |
JP4757836B2 (ja) * | 2007-05-11 | 2011-08-24 | パナソニック株式会社 | データ処理装置 |
US7974472B2 (en) * | 2007-06-29 | 2011-07-05 | Microsoft Corporation | Feature design for HMM based Eastern Asian character recognition |
TW200928892A (en) * | 2007-12-28 | 2009-07-01 | Wistron Corp | Electronic apparatus and operation method thereof |
US9772689B2 (en) * | 2008-03-04 | 2017-09-26 | Qualcomm Incorporated | Enhanced gesture-based image manipulation |
US8428368B2 (en) * | 2009-07-31 | 2013-04-23 | Echostar Technologies L.L.C. | Systems and methods for hand gesture control of an electronic device |
US8878779B2 (en) * | 2009-09-21 | 2014-11-04 | Extreme Reality Ltd. | Methods circuits device systems and associated computer executable code for facilitating interfacing with a computing platform display screen |
KR20120085783A (ko) * | 2009-09-23 | 2012-08-01 | 딩난 한 | 인간-컴퓨터의 상호작용을 위한 인터페이스 및 그 방법 |
US8593576B2 (en) * | 2009-10-15 | 2013-11-26 | At&T Intellectual Property I, L.P. | Gesture-based remote control |
US8787663B2 (en) * | 2010-03-01 | 2014-07-22 | Primesense Ltd. | Tracking body parts by combined color image and depth processing |
WO2011142317A1 (ja) * | 2010-05-11 | 2011-11-17 | 日本システムウエア株式会社 | ジェスチャー認識装置、方法、プログラム、および該プログラムを格納したコンピュータ可読媒体 |
CN103208006B (zh) | 2012-01-17 | 2016-07-06 | 株式会社理光 | 基于深度图像序列的对象运动模式识别方法和设备 |
TWI454966B (zh) * | 2012-04-24 | 2014-10-01 | Wistron Corp | 手勢控制方法及手勢控制裝置 |
CN202632205U (zh) * | 2012-05-16 | 2012-12-26 | 阴凉 | 一种基于人机交互动态手势的演示文稿的控制系统 |
US20140099018A1 (en) * | 2012-10-09 | 2014-04-10 | Umasankar Kandaswamy | Method, system, and device for compressing, encoding, indexing, and decoding images |
-
2013
- 2013-01-16 CN CN201310016169.1A patent/CN103926999B/zh active Active
- 2013-12-30 US US14/143,528 patent/US9104242B2/en not_active Expired - Fee Related
-
2014
- 2014-01-08 JP JP2014001286A patent/JP2014137818A/ja active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08211979A (ja) * | 1995-02-02 | 1996-08-20 | Canon Inc | 手振り入力装置及び方法 |
JP2008009938A (ja) * | 2006-06-30 | 2008-01-17 | Omron Corp | 動画像データ処理装置、動画像データ処理方法、動画像データ処理プログラム、およびこれを記録した記録媒体 |
JP2011040860A (ja) * | 2009-08-07 | 2011-02-24 | Nikon Corp | 画像処理装置及び画像処理プログラム |
JP2011191870A (ja) * | 2010-03-12 | 2011-09-29 | Kddi Corp | 情報端末装置 |
JP2011192090A (ja) * | 2010-03-15 | 2011-09-29 | Omron Corp | ジェスチャ認識装置、ジェスチャ認識装置の制御方法、および、制御プログラム |
US20110244959A1 (en) * | 2010-03-31 | 2011-10-06 | Namco Bandai Games Inc. | Image generation system, image generation method, and information storage medium |
JP2011215921A (ja) * | 2010-03-31 | 2011-10-27 | Namco Bandai Games Inc | プログラム、情報記憶媒体及び画像生成システム |
JP2012008772A (ja) * | 2010-06-24 | 2012-01-12 | Sony Corp | ジェスチャ認識装置、ジェスチャ認識方法およびプログラム |
JP2012008936A (ja) * | 2010-06-28 | 2012-01-12 | Kddi Corp | 情報端末装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017535830A (ja) * | 2014-08-29 | 2017-11-30 | コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド | ジェスチャー解析のための時間的セグメンテーションの方法及びシステム |
JP2016162321A (ja) * | 2015-03-04 | 2016-09-05 | 株式会社メガチップス | 画像認識装置 |
JP2017539035A (ja) * | 2015-04-16 | 2017-12-28 | 楽天株式会社 | ジェスチャインタフェース |
US10969872B2 (en) | 2015-04-16 | 2021-04-06 | Rakuten, Inc. | Gesture interface |
JP2017027600A (ja) * | 2015-07-23 | 2017-02-02 | 株式会社リコー | 手振り識別方法と装置 |
JP2021089761A (ja) * | 2020-02-14 | 2021-06-10 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. | ジェスチャによる電子機器の制御方法及び装置 |
JP7146977B2 (ja) | 2020-02-14 | 2022-10-04 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | ジェスチャによる電子機器の制御方法及び装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103926999B (zh) | 2017-03-01 |
US9104242B2 (en) | 2015-08-11 |
CN103926999A (zh) | 2014-07-16 |
US20140198031A1 (en) | 2014-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2014137818A (ja) | 手の平開閉動作識別方法と装置、マン・マシン・インタラクション方法と設備 | |
Boulahia et al. | Early, intermediate and late fusion strategies for robust deep learning-based multimodal action recognition | |
Al-Shamayleh et al. | A systematic literature review on vision based gesture recognition techniques | |
Mukherjee et al. | Fingertip detection and tracking for recognition of air-writing in videos | |
EP3191989B1 (en) | Video processing for motor task analysis | |
Sarma et al. | Methods, databases and recent advancement of vision-based hand gesture recognition for hci systems: A review | |
Qi et al. | Computer vision-based hand gesture recognition for human-robot interaction: a review | |
US8570383B2 (en) | Apparatus, method and computer program for recognizing a gesture in a picture, and apparatus, method and computer program for controlling a device | |
Lahiani et al. | Real time hand gesture recognition system for android devices | |
CN104123529B (zh) | 人手检测方法及系统 | |
Žemgulys et al. | Recognition of basketball referee signals from real-time videos | |
US20150199592A1 (en) | Contour-based classification of objects | |
Kumar et al. | 3D sign language recognition using spatio temporal graph kernels | |
Oh et al. | Using binary decision tree and multiclass SVM for human gesture recognition | |
Thabet et al. | Fast marching method and modified features fusion in enhanced dynamic hand gesture segmentation and detection method under complicated background | |
Alashhab et al. | Efficient gesture recognition for the assistance of visually impaired people using multi-head neural networks | |
Huang et al. | Real-time automated detection of older adults' hand gestures in home and clinical settings | |
Elakkiya et al. | Intelligent system for human computer interface using hand gesture recognition | |
Hoque et al. | Computer vision based gesture recognition for desktop object manipulation | |
Lahiani et al. | Real Time Static Hand Gesture Recognition System for Mobile Devices. | |
Jiang et al. | Spatial and temporal pyramid-based real-time gesture recognition | |
Bakalos et al. | Dance posture/steps classification using 3D joints from the kinect sensors | |
Mahmud et al. | Recognition of symbolic gestures using depth information | |
Dominio et al. | Feature descriptors for depth-based hand gesture recognition | |
CN111913584B (zh) | 一种基于手势识别的鼠标光标控制方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161222 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171003 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20180327 |