JP2014523019A - 動的ジェスチャー認識方法および認証システム - Google Patents
動的ジェスチャー認識方法および認証システム Download PDFInfo
- Publication number
- JP2014523019A JP2014523019A JP2014516295A JP2014516295A JP2014523019A JP 2014523019 A JP2014523019 A JP 2014523019A JP 2014516295 A JP2014516295 A JP 2014516295A JP 2014516295 A JP2014516295 A JP 2014516295A JP 2014523019 A JP2014523019 A JP 2014523019A
- Authority
- JP
- Japan
- Prior art keywords
- scribble
- gesture
- model
- medium
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000001902 propagating effect Effects 0.000 claims abstract description 8
- 230000009471 action Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 102100021674 Protein scribble homolog Human genes 0.000 description 43
- 101710169810 Protein scribble homolog Proteins 0.000 description 43
- 230000033001 locomotion Effects 0.000 description 9
- 230000011218 segmentation Effects 0.000 description 4
- 230000000644 propagated effect Effects 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 241000220317 Rosa Species 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/34—Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/333—Preprocessing; Feature extraction
- G06V30/347—Sampling; Contour coding; Stroke extraction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
媒体内のジェスチャー認識を実行するための方法は、少なくとも1つのカメラから少なくとも第1の未処理フレームを受信するステップと、前記第1の未処理フレーム内の1つの要素を指し示す少なくとも1つのスクリブルを描くステップと、媒体の残りの少なくとも一部で前記スクリブルを伝播することにより、前記スクリブルを媒体にわたって追跡するステップとを含む。
Description
本発明は一般に、ジェスチャー認識の技術分野に関する。
人間のジェスチャーは、人々の間の対話および通信の自然な手段である。ジェスチャーは、手、四肢、および身体の動きを用いて、言語によらずに考えを表す、または情報を交換する。人間のジェスチャーを人間コンピュータ・インターフェイスに組み入れようとする試みに、ますます関心が高まっている。ジェスチャー認識はまた、貴重な手がかりを人間の活動および意図にもたらすことができる自動監視アプリケーションおよび人間モニタリング・アプリケーションにおいて重要である。
一般に、ジェスチャーは、取り込まれて連続するビデオ・ストリームに組み込まれ、ジェスチャー認識システムは、有用な情報を抽出して、個別の動きを自動的に識別する能力を備える必要がある。時空間的変動とエンドポイント定位という2つの問題が、ジェスチャーの分割および認識にとって極めて困難であることが知られている。
時空間的変動は、さまざまな人々がさまざまな方法で動くことばかりではなく、同一の対象による繰り返される動きでさえも異なる場合があるという事実によって生じる。この変動の原因となるすべての要因の中でも特に、動作の速度は最も影響が大きく、そのためジェスチャー信号は多数の時間スケールを示す。
エンドポイント定位の問題は、連続ストリームにおけるジェスチャーの開始および終了時間を決定することである。音声信号において口頭の各単語に切れ目がないことと同様に、多くの自然に生じるシナリオにおいて、ジェスチャーは、個々のジェスチャー間にいかなる明白な中断もなく連続的に共につながっている。したがって、ジェスチャー間のはっきりした中断を見出すことによって個々のジェスチャーのエンドポイントを決定することは実行不可能である。すべての可能なポイントを徹底的に探すこともまた、明らかに極めて高いコストとなる。多くの既存の方法は、入力データが、取り込みの時点において、または取り込み後に手動で、動作単位に分割されているものと仮定する。これは多くの場合、孤立ジェスチャー認識(IGR:isolated gesture recognition)と称され、連続するジェスチャーの認識を必要とする現実世界のアプリケーションにまでは容易に拡大することはできない。
当技術分野において、連続するジェスチャーの分割および認識のためにいくつかの方法が提案されてきた。これらの手法は、分割および認識がどのように相互に絡み合っているかに基づいて、別々の分割および認識、ならびに同時の分割および認識、という2つの主要なカテゴリに分類されうる。第1のカテゴリは、通常は認識に先立って急激な特徴変化および分割を詳しく調べることによりジェスチャーの境界を検出するが、後者は、分割および認識を同一の問題の側面として扱い、かつ同時に実行される。2つのグループの多くの方法は、HMM(Hidden Markov Model:隠れマルコフモデル)およびDP(Dynamic Programming:動的計画法)ベースの方法のさまざまな形態、すなわちDTW(Dynamic Time Warping:動的時間歪曲)およびCDP(Continuous Dynamic Programming:連続動的計画法)に基づいている。
ジェスチャー認識システムは、複数の事前定義済みのジェスチャーに関連する特定の文脈内で動作するように設計される。それらの先立つ事前定義は、意味上のギャップを処理するために必要である。ジェスチャー認識システムは、通常、マッチング機構に基づく。ジェスチャー認識システムは、スケルトンなど、シーンから抽出された情報を、最も近い格納済みのモデルと照合しようと試みる。したがって、ジェスチャーを認識するために、それに関連付けられている事前保存済みのモデルを有する必要がある。
文献において、動態をモデリングすることによる認識、および状態をモデリングすることによる認識、という2つの主要な手法がジェスチャー認識に使用される。Gesture Tek(http://www.gesturetek.com)は、片手および両手のジェスチャーおよびポーズのライブラリを含むMaestro3D SDKを提案する。このシステムは、新しいジェスチャーを容易にモデリングできる機能を提供する。ジェスチャーの限定版ライブラリは、http://www.eyesight−tech.com/technology/で入手可能である。MicrosoftのKinectにより、ジェスチャーのライブラリは常に制限され、ユーザは新しいジェスチャー・モデルを容易にカスタマイズまたは定義することができない。(文化、国など)に応じて5、000を超えるジェスチャーが存在することが判明しているので、限定版のライブラリを提供することは十分ではない。
国際公開第2010/135617号の文献は、ジェスチャー認識を実行するための方法および装置を開示する。
Taoら、Pattern Recognition、3208〜3218頁
本発明の1つの目的は、ユーザがジェスチャー認識を容易にカスタマイズして、特定の技能を用いることなくジェスチャー・モデルを再定義することができるようにするジェスチャー認識のための方法およびシステムを提供することである。
本発明のさらなる目的は、従来の2Dカメラの使用を可能にするジェスチャー認識のための方法およびシステムを提供することである。
本発明の目的、利点、およびその他の特徴は、以下の開示および特許請求の範囲からさらに明らかとなろう。好ましい実施形態の以下の非限定的な説明は、添付の図面を参照して例示することのみを目的として示される。
本発明は、前述の問題の1つまたは複数の影響に対処することを対象とする。
後段では、本発明の一部の態様の基本的な理解をもたらすために、本発明の簡略化した概要を示す。
この概要は、本発明の包括的な概要ではない。本発明の主要または重要な要素を特定すること、もしくは本発明の範囲を厳密に描くことは意図されていない。この概要の唯一の目的は、後段で述べられるさらに詳細な説明の前置きとして、簡略化した形で一部の概念を示すことである。
本発明は、さまざまな変更および代替の形態が可能であるが、その特定の実施形態は、図面において例として示されている。しかし、本明細書における具体的な実施形態の説明が、本発明を開示される特定の形態に限定することは意図されていないことを理解されたい。
そのような実際の実施形態の開発において、システム関連およびビジネス関連の制約に準拠することなど、開発者の具体的な目標を達成するために、実装形態に特有の意思決定が行われるべきであることが、当然理解されるであろう。そのような開発の取り組みは多大な時間を要する場合もあるが、それでもなお、本開示を利用することができる当業者にとっては日常の理解となりうることが理解されるであろう。
第1の態様によれば、本発明は、媒体内のジェスチャー認識を実行するための方法に関し、方法は、
− 少なくとも1つのカメラから少なくとも第1の未処理フレームを受信するステップと、
− 前記第1の未処理フレーム内の1つの要素を指し示す少なくとも1つのスクリブルを描くステップと、
− 媒体の残りの少なくとも一部で前記スクリブルを伝播することにより、前記スクリブルを媒体にわたって追跡するステップと
を含む。
− 少なくとも1つのカメラから少なくとも第1の未処理フレームを受信するステップと、
− 前記第1の未処理フレーム内の1つの要素を指し示す少なくとも1つのスクリブルを描くステップと、
− 媒体の残りの少なくとも一部で前記スクリブルを伝播することにより、前記スクリブルを媒体にわたって追跡するステップと
を含む。
「媒体(media)」という用語は、本明細書において、たとえば携帯電話のような、カメラを備える電子ポータブルデバイスを使用する人物により作成されたビデオなど、ビデオ媒体を指定する。「ジェスチャー(Gesture)という用語は、本明細書において、たとえば腕の動きまたは手の動きなど、身体の一部の動きを指定するために使用される。「スクリブル(scribble)という用語は、たとえば腕上の線など、ユーザによって作成された線を指定するために使用される。背景を有する画像において前述のオブジェクトをつや消しするためのスクリブルの使用が知られている(Yssum Research Developmentの名義の米国特許出願公開第2009/0278859号を参照)。画像のカラー化のためにスクリブルの伝播を使用すること使用が知られている(Yatzivの名義の米国特許出願公開第2006/0245645号を参照)。画像分割システムのユーザにより提供される大まかなスクリブルの使用は、TaoらによるPattern Recognitionの3208〜3218頁に示される。
有利なことに、本発明によれば、前記スクリブルを伝播するステップは、前のフレームから抽出された以前の情報、色および空間情報から成る、前のフレームから抽出された情報に基づいて、次のフレーム上の前記スクリブルの将来の位置を推定するステップを含む。
有利なことに、色距離変換は、以下のように画像の各ポイントにおいて計算される:
CDT(i,j)=min(k,i)∈M(CDT(i+k,j+i)+weight(k,i)+DifColor(p(i,j)・p(k,i))
初期化
CDT(i,j)=min(k,i)∈M(CDT(i+k,j+i)+weight(k,i)+DifColor(p(i,j)・p(k,i))
初期化
有利なことに、色距離変換は、画像の2つの次元および時間に由来する第3の次元を備え、スケルトンは色距離変換から抽出される。
フレームは、有利なことに、ガウスマスク(Gaussian mask)によって最初に畳込みが行われ、最大値は後に水平および垂直方向により抽出される。スクリブルの追跡により決定された関連するスクリブルは集約され、意味タグは前記集約された関連するスクリブルにアタッチされてジェスチャー・モデルを形成する。現在のスクリブルと格納されているジェスチャー・モデルとの比較が行われる。
有利なことに、ルール・データベースのクエリが行われ、ジェスチャー・タグに関連付けられている少なくとも1つのアクションをトリガーする。
第2の態様によれば、本発明は、媒体内のジェスチャー認識を実行するためのシステムに関し、システムは、前記第1の未処理フレーム内の1つの要素を指し示す少なくとも1つのスクリブルを描くための少なくとも1つのスクリブル・ドロワーと、関連するスクリブルを決定するために媒体の残りの少なくとも一部で前記スクリブルを伝播することにより、前記スクリブルを媒体にわたって追跡するためのスクリブル・プロパゲータとを備える。
有利なことに、システムは、関連するスクリブルを集約してジェスチャー・モデルを形成するためのジェスチャー・モデル・メーカーと、前記ジェスチャー・モデルを少なくとも1つの意味タグと共に格納するジェスチャー・モデル・リポジトリとを備える。
有利なことに、システムは、前記スクリブル・ドロワー、前記スクリブル・プロパゲータ、および前記ジェスチャー・モデル・メーカーを含むジェスチャー・クリエータを備える。
有利なことに、システムは、前記ジェスチャー・クリエータ、およびアクションとジェスチャー・タグとの間のリンクを含むルール・データベースを含むジェスチャー・マネージャを備える。
有利なことに、システムは、現在のフレーム・スクリブルをジェスチャー・モデル・リポジトリに含まれる格納済みのモデルと比較するためのモデル・マッチャーを含む認識モジュールを備える。モデル・マッチャーは、ジェスチャー・タグに関連付けられているアクションをトリガーするためにルール・データベースにクエリを送信する。
第3の態様によれば、本発明は、コンピュータおよび/または専用システムのメモリに格納されている命令を含むコンピュータ・プログラムに関し、前記コンピュータ・プログラムは上記で提示される方法を実行するように構成されているか、または上記で提示されるシステムに接続される。
以下の説明において、「ジェスチャー認識」は、
− ジェスチャー・モデルの定義であって、アプリケーションによって処理されるすべてのジェスチャーはこの定義中に作成されてハードコーディングされる定義と、
− ジェスチャーの認識と
を指定する。
− ジェスチャー・モデルの定義であって、アプリケーションによって処理されるすべてのジェスチャーはこの定義中に作成されてハードコーディングされる定義と、
− ジェスチャーの認識と
を指定する。
新しいジェスチャーを認識するために、モデルが生成され、その意味定義に関連付けられる。
容易なジェスチャー・モデリングを可能にするため、本発明は、特定のジェスチャー許可ツールを提供する。このジェスチャー許可ツールは、スクリブル伝播技術に基づく。これはユーザフレンドリーな対話ツールであり、ユーザは、何らかのスクリブルを描くことによってビデオの一部の要素を大まかに指し示すことができる。次いで、選択された要素は、その動きの情報を取得するために初期スクリブルを伝播することによってビデオにわたって追跡される。
本発明は、ユーザが、認識すべき新しいジェスチャーを容易な方法で、動的に、しかもオンザフライで定義することができるようにする。
提案されるアーキテクチャは、2つの部分に分割される。第1の部分は、半自動であり、ユーザの対話を必要とする。これは、ジェスチャー許可コンポーネントである。第2の部分は、格納されているジェスチャー・モデルおよびルールに基づいて認識プロセスを達成する。
許可コンポーネントは、ジェスチャー・クリエータ(Gesture Creator)、および作成されたモデルを格納するためのジェスチャー・モデル・リポジトリ(Gesture Model Repository)の2つの部分から成る。
ジェスチャー・クリエータ・モジュールは、以下の3つの部分にさらに分割される:
第1は、スクリブル・ドロワー(Scribble Drawer)である。スクリブル・ドロワーは、ユーザが、ビデオから要素を指定するためにGUIをスローすることができるようにする(図3を参照)。例として、ユーザが、プレゼンターの腕が曲げられたかまたは伸びたときが分かるようにトリガーを定義するものとする。これを行うために、ユーザは、プレゼンターの腕でスクリブルを描く。
次いで、スクリブル・プロパゲータ(Scribble Propagator)は、腕を指定するためにビデオの残りの部分でこのスクリブルを伝播する。
第1は、スクリブル・ドロワー(Scribble Drawer)である。スクリブル・ドロワーは、ユーザが、ビデオから要素を指定するためにGUIをスローすることができるようにする(図3を参照)。例として、ユーザが、プレゼンターの腕が曲げられたかまたは伸びたときが分かるようにトリガーを定義するものとする。これを行うために、ユーザは、プレゼンターの腕でスクリブルを描く。
次いで、スクリブル・プロパゲータ(Scribble Propagator)は、腕を指定するためにビデオの残りの部分でこのスクリブルを伝播する。
スクリブルの伝播は、画像から抽出された以前の情報に基づいて次のフレームでスクリブルの将来の位置を推定することによって達成される。
第1のステップは、色および空間情報を結合することから成る。色距離変換(CDTと示される)は、現在の画像およびスクリブルに基づいて計算される。距離変換のような特殊な情報を取得することに加えて、この新しい変換では、「遠い」領域の値を、スクリブルによって指定された領域とのそれらの色の類似性が高い場合に、増大させることによって距離マップを強調する。面取りマスク(Chamfer mask)Mのようなユークリッド距離の近似を所与として、DifColorは、2つの色の間のユークリッド距離を示す。画像の各々のポイントにおいて、CDTは以下のように計算される:
CDT(i,j)=min(k,i)∈M(CDT(i+k,j+i)+weight(k,i)+DifColor(p(i,j)・p(k,i))
初期化
CDT(i,j)=min(k,i)∈M(CDT(i+k,j+i)+weight(k,i)+DifColor(p(i,j)・p(k,i))
初期化
マスクは、2つの部分に分解され、すべての最小距離を更新するために画像の二重スキャンが達成される。
次のスクリブル位置の推定を取得するために、CDTは3D(画像の2つの次元および時間軸に由来する第3の次元)、またはC3DTと示されるボリューム・ベースの色距離変換に拡張される。
この変換は、画像ペアで引き続いて行われる。取得された結果は、レイヤに編成されてもよい。レイヤt+1は、スクリブルが伝播されうる領域を表す。したがって、画像tに描かれたスクラブルは、C3DTのレイヤt+1からの取得されたマスクと共に伝播されてもよい。ドリフトを制限し、伝播エラーの可能性を避けるため、取得されたマスクは簡単なスクリブルとして縮減されてもよい。
スケルトンは、2つの操作によってC3DTレイヤから抽出される。最初に、画像は、内部ホールおよび画像の不完全さに対処するために、ガウスマスクによって畳込みが実行される。次いで、最大値が、水平および垂直方向に抽出される。このステップの後に何らかの不完全性が出現することもあるので、きれいなスクリブルを得るために小さい成分の抑止が必要である。このスクリブルは、画像の次のペアのマーカーとして使用される。以前のプロセスは、繰り返され、以下同様に続く。
次いで、ユーザは、クリックしてアクションの終了を指示し、意味タグをつける。次いで、すべての関連するスクリブルは、ジェスチャー・モデル・メーカー(Gesture Model Maker)によってジェスチャー・モデル内に集約され、次いでジェスチャー・モデル・リポジトリ(Gesture Model Repository)に格納される。ジェスチャー・モデル・メーカーモジュールは、ジェスチャーを、ジェスチャー・モデル上のその意味タグと結合する。各スクリブルは、ジェスチャーの1つの状態の空間分布を記述するベクトルに変換される。すべてのスクリブルを変換した後、モデルは、ジェスチャーのすべての可能な状態およびそれらの時間的順序を含む。また、変曲点およびそれらの変位ベクトルも格納される。
認識モジュールにおいて、モデル・マッチャー(Model Matcher)は、現在のビデオスクリブルと格納されているモデルとを比較する。このスクリブルが、2つ以上のモデルの始まりと一致する場合。比較は、最も近い要素を取得するために、選択されたモデルセットの次の要素で続行する。すべてのスクリブルのシーケンスが一致する場合、ジェスチャーは認識される。ルール・データベース(Rules database)へのクエリは、このジェスチャー・タグに関連付けられているアクションをトリガーすることができるようにする。ルールは、たとえば以下のような、基本命令の代数的組み合わせと見なされてもよい:
− Hand rose=show slides & start recording
− Gesture1|gesture2=actionX
− Hand rose=show slides & start recording
− Gesture1|gesture2=actionX
例として、ユーザは、(講義、トレードショーのような)科学または業務用プレゼンテーションを撮影する人物であってもよい。ユーザは、ビデオ・ディレクターを自動化するために、特定のジェスチャーを検出して、それらをアクションに関連付けようとする。たとえば、プレゼンターが方向およびシーンの領域を指し示すときの自動カメラズームである。したがって、プレゼンターが何かを指し示すとき、ユーザは、プレゼンターの手および腕を示す大まかなスクリブルを作成する。スクリブルは、自動的に伝播される。最後に、ユーザは、認識すべきジェスチャーの終わりを指示して、意味タグをこのジェスチャーに関連付ける。
本発明は、ユーザが、認識しようとするジェスチャーを動的に定義することができるようにする。技術的な熟練は必要とされない。
本発明の主要な利点は、自動前景分割およびスケルトン抽出、動的ジェスチャー定義、ジェスチャー許可、ジェスチャーをアクション/対話とリンクする機能、ならびにユーザフレンドリーなジェスチャー・モデリングおよび認識である。
Claims (11)
- 媒体内のジェスチャー認識を実行するための方法であって、
少なくとも1つのカメラから少なくとも第1の未処理フレームを受信するステップと、
前記第1の未処理フレーム内の1つの要素を指し示す少なくとも1つのスクリブルを描くステップと、
前記媒体の残りの少なくとも一部で前記スクリブルを伝播することにより、前記スクリブルを前記媒体にわたって追跡するステップと、
前記スクリブルの追跡により決定された関連するスクリブルを集約するステップであって、意味タグは前記集約された関連するスクリブルにアタッチされてジェスチャー・モデルを形成するステップと、
現在のスクリブルを格納されているジェスチャー・モデルと比較するステップと
を含む方法。 - 前記スクリブルを伝播するステップは、前のフレームから抽出された以前の情報に基づいて次のフレーム上の前記スクリブルの将来の位置を推定するステップを含む請求項1に記載の方法。
- 前記前のフレームから抽出された情報は、色および空間情報から成る請求項2に記載の方法。
- 色距離変換は、画像の各ポイントにおいて計算される請求項3に記載の方法。
- 前記色距離変換は、画像の2つの次元および時間に由来する第3の次元を参照して計算される請求項4に記載の方法。
- スケルトンは前記色距離変換から抽出される請求項4に記載の方法。
- 前記スケルトンの抽出に先立ち、前記フレームは最初に2次元ガウスマスクにより水平および垂直方向に畳み込みされ、その後前記スケルトンは、2つの前記方向に前記畳み込みされた画像の最大値を抽出することによって抽出される請求項6に記載の方法。
- ルール・データベースのクエリを行い、その後ジェスチャー・タグに関連付けられている少なくとも1つのアクションをトリガーするステップをさらに含む請求項1に記載の方法。
- 媒体内のジェスチャー認識を実行するためのシステムであって、
第1の未処理フレーム内の1つの要素を指し示す少なくとも1つのスクリブルを描くためのスクリブル・ドロワーと、
関連するスクリブルを決定するために前記媒体の残りの少なくとも一部で前記スクリブルを伝播することにより、前記スクリブルを前記媒体にわたって追跡するためのスクリブル・プロパゲータと、
関連するスクリブルを集約してジェスチャー・モデルを形成するためのジェスチャー・モデル・メーカーと、
前記ジェスチャー・モデルを少なくとも1つの意味タグと共に格納するジェスチャー・モデル・リポジトリと、
前記スクリブル・ドロワー、前記スクリブル・プロパゲータ、および前記ジェスチャー・モデル・メーカーを含むジェスチャー・クリエータと、
前記ジェスチャー・クリエータ、およびアクションとジェスチャー・タグとの間のリンクを含むルール・データベースを含むジェスチャー・マネージャと、
現在のフレーム・スクリブルを前記ジェスチャー・モデル・リポジトリに含まれる格納済みのモデルと比較するためのモデル・マッチャーを含む認識モジュールと
を少なくとも備えるシステム。 - 前記モデル・マッチャーは、ジェスチャー・タグに関連付けられているアクションをトリガーするために前記ルール・データベースにクエリを送信する請求項9に記載のシステム。
- コンピュータのメモリおよび/または専用システムのメモリに格納されている命令を含むコンピュータ・プログラムであって、請求項1乃至8のいずれか1項に記載の方法を実行するように構成されているコンピュータ・プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP11171237.8 | 2011-06-23 | ||
EP11171237A EP2538372A1 (en) | 2011-06-23 | 2011-06-23 | Dynamic gesture recognition process and authoring system |
PCT/EP2012/061573 WO2012175447A1 (en) | 2011-06-23 | 2012-06-18 | Dynamic gesture recognition process and authoring system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014523019A true JP2014523019A (ja) | 2014-09-08 |
Family
ID=44928472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014516295A Abandoned JP2014523019A (ja) | 2011-06-23 | 2012-06-18 | 動的ジェスチャー認識方法および認証システム |
Country Status (6)
Country | Link |
---|---|
US (1) | US20140321750A1 (ja) |
EP (1) | EP2538372A1 (ja) |
JP (1) | JP2014523019A (ja) |
KR (1) | KR20140026629A (ja) |
CN (1) | CN103649967A (ja) |
WO (1) | WO2012175447A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021184165A (ja) * | 2020-05-21 | 2021-12-02 | 富士通株式会社 | 画像処理装置、画像処理方法、及び画像処理プログラム |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IN2013MU04097A (ja) | 2013-12-27 | 2015-08-07 | Tata Consultancy Services Ltd | |
US9589203B2 (en) * | 2014-03-24 | 2017-03-07 | Tata Consultancy Services Limited | Action based activity determination system and method |
CN105095849B (zh) * | 2014-05-23 | 2019-05-10 | 财团法人工业技术研究院 | 对象识别方法与装置 |
US9400924B2 (en) * | 2014-05-23 | 2016-07-26 | Industrial Technology Research Institute | Object recognition method and object recognition apparatus using the same |
US10102630B2 (en) * | 2015-04-21 | 2018-10-16 | Disney Enterprises, Inc. | Video object tagging using segmentation hierarchy |
CN105809144B (zh) * | 2016-03-24 | 2019-03-08 | 重庆邮电大学 | 一种采用动作切分的手势识别系统和方法 |
CN109190461B (zh) * | 2018-07-23 | 2019-04-26 | 中南民族大学 | 一种基于手势关键点的动态手势识别方法和系统 |
CN111241971A (zh) * | 2020-01-06 | 2020-06-05 | 紫光云技术有限公司 | 一种三维跟踪的手势观测似然建模方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6804396B2 (en) * | 2001-03-28 | 2004-10-12 | Honda Giken Kogyo Kabushiki Kaisha | Gesture recognition system |
US7321854B2 (en) * | 2002-09-19 | 2008-01-22 | The Penn State Research Foundation | Prosody based audio/visual co-analysis for co-verbal gesture recognition |
CN1274146C (zh) * | 2002-10-10 | 2006-09-06 | 北京中星微电子有限公司 | 运动图像检测方法 |
US7672509B2 (en) | 2005-05-02 | 2010-03-02 | Regents Of The University Of Minnesota | Fast image and video data propagation and blending using intrinsic distances |
US20070165966A1 (en) * | 2005-07-15 | 2007-07-19 | Yissum Research Development Co. | Closed form method and system for matting a foreground object in an image having a background |
CA2658727C (en) * | 2006-07-25 | 2017-10-24 | Humaneyes Technologies Ltd. | Interactive segmentation of images with single scribbles |
US9417700B2 (en) * | 2009-05-21 | 2016-08-16 | Edge3 Technologies | Gesture recognition systems and related methods |
-
2011
- 2011-06-23 EP EP11171237A patent/EP2538372A1/en not_active Withdrawn
-
2012
- 2012-06-18 KR KR1020147001804A patent/KR20140026629A/ko not_active Application Discontinuation
- 2012-06-18 US US14/125,359 patent/US20140321750A1/en not_active Abandoned
- 2012-06-18 WO PCT/EP2012/061573 patent/WO2012175447A1/en active Application Filing
- 2012-06-18 JP JP2014516295A patent/JP2014523019A/ja not_active Abandoned
- 2012-06-18 CN CN201280031023.8A patent/CN103649967A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021184165A (ja) * | 2020-05-21 | 2021-12-02 | 富士通株式会社 | 画像処理装置、画像処理方法、及び画像処理プログラム |
US11610327B2 (en) | 2020-05-21 | 2023-03-21 | Fujitsu Limited | Image processing apparatus, image processing method, and image processing program |
JP7392572B2 (ja) | 2020-05-21 | 2023-12-06 | 富士通株式会社 | 画像処理装置、画像処理方法、及び画像処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
CN103649967A (zh) | 2014-03-19 |
US20140321750A1 (en) | 2014-10-30 |
KR20140026629A (ko) | 2014-03-05 |
WO2012175447A1 (en) | 2012-12-27 |
EP2538372A1 (en) | 2012-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2014523019A (ja) | 動的ジェスチャー認識方法および認証システム | |
US11429842B2 (en) | Neural network for skeletons from input images | |
CN112889108B (zh) | 使用视听数据进行说话分类 | |
US9349218B2 (en) | Method and apparatus for controlling augmented reality | |
CN106462242B (zh) | 使用视线跟踪的用户界面控制 | |
KR101796008B1 (ko) | 센서-기반 모바일 검색, 관련 방법들 및 시스템들 | |
CN109657533A (zh) | 行人重识别方法及相关产品 | |
US11317018B2 (en) | Camera operable using natural language commands | |
JP2009042876A (ja) | 画像処理装置及びその方法 | |
Tian et al. | Scene Text Detection in Video by Learning Locally and Globally. | |
Elharrouss et al. | FSC-set: counting, localization of football supporters crowd in the stadiums | |
KR20120120858A (ko) | 영상통화 서비스 및 그 제공방법, 이를 위한 영상통화서비스 제공서버 및 제공단말기 | |
Wang et al. | A comprehensive survey of rgb-based and skeleton-based human action recognition | |
Vieriu et al. | On HMM static hand gesture recognition | |
US20220405489A1 (en) | Formulating natural language descriptions based on temporal sequences of images | |
JP2018081630A (ja) | 検索装置、検索方法およびプログラム | |
WO2023168957A1 (zh) | 姿态确定方法、装置、电子设备、存储介质及程序 | |
Li et al. | Progress estimation and phase detection for sequential processes | |
Ponce-López et al. | Non-verbal communication analysis in victim–offender mediations | |
Pannattee et al. | American Sign language fingerspelling recognition in the wild with spatio temporal feature extraction and multi-task learning | |
CN115294327A (zh) | 一种基于知识图谱的小目标检测方法、设备及存储介质 | |
Bhuyan et al. | Hand motion tracking and trajectory matching for dynamic hand gesture recognition | |
Tapu et al. | Face recognition in video streams for mobile assistive devices dedicated to visually impaired | |
US11636186B1 (en) | Location-based augmented reality (AR) administration and management | |
US20230148112A1 (en) | Sports Neural Network Codec |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20140903 |