JP2014523019A

JP2014523019A - 動的ジェスチャー認識方法および認証システム

Info

Publication number: JP2014523019A
Application number: JP2014516295A
Authority: JP
Inventors: ノウリ，マルウェン; マリリー，エマニュエル; マルティノ，オリヴィエ; ヴィンセント，ニコル
Original assignee: アルカテル−ルーセント
Priority date: 2011-06-23
Filing date: 2012-06-18
Publication date: 2014-09-08
Also published as: CN103649967A; WO2012175447A1; KR20140026629A; US20140321750A1; EP2538372A1

Abstract

媒体内のジェスチャー認識を実行するための方法は、少なくとも１つのカメラから少なくとも第１の未処理フレームを受信するステップと、前記第１の未処理フレーム内の１つの要素を指し示す少なくとも１つのスクリブルを描くステップと、媒体の残りの少なくとも一部で前記スクリブルを伝播することにより、前記スクリブルを媒体にわたって追跡するステップとを含む。

Description

本発明は一般に、ジェスチャー認識の技術分野に関する。

人間のジェスチャーは、人々の間の対話および通信の自然な手段である。ジェスチャーは、手、四肢、および身体の動きを用いて、言語によらずに考えを表す、または情報を交換する。人間のジェスチャーを人間コンピュータ・インターフェイスに組み入れようとする試みに、ますます関心が高まっている。ジェスチャー認識はまた、貴重な手がかりを人間の活動および意図にもたらすことができる自動監視アプリケーションおよび人間モニタリング・アプリケーションにおいて重要である。

一般に、ジェスチャーは、取り込まれて連続するビデオ・ストリームに組み込まれ、ジェスチャー認識システムは、有用な情報を抽出して、個別の動きを自動的に識別する能力を備える必要がある。時空間的変動とエンドポイント定位という２つの問題が、ジェスチャーの分割および認識にとって極めて困難であることが知られている。

時空間的変動は、さまざまな人々がさまざまな方法で動くことばかりではなく、同一の対象による繰り返される動きでさえも異なる場合があるという事実によって生じる。この変動の原因となるすべての要因の中でも特に、動作の速度は最も影響が大きく、そのためジェスチャー信号は多数の時間スケールを示す。

エンドポイント定位の問題は、連続ストリームにおけるジェスチャーの開始および終了時間を決定することである。音声信号において口頭の各単語に切れ目がないことと同様に、多くの自然に生じるシナリオにおいて、ジェスチャーは、個々のジェスチャー間にいかなる明白な中断もなく連続的に共につながっている。したがって、ジェスチャー間のはっきりした中断を見出すことによって個々のジェスチャーのエンドポイントを決定することは実行不可能である。すべての可能なポイントを徹底的に探すこともまた、明らかに極めて高いコストとなる。多くの既存の方法は、入力データが、取り込みの時点において、または取り込み後に手動で、動作単位に分割されているものと仮定する。これは多くの場合、孤立ジェスチャー認識（IGR:ｉｓｏｌａｔｅｄｇｅｓｔｕｒｅｒｅｃｏｇｎｉｔｉｏｎ）と称され、連続するジェスチャーの認識を必要とする現実世界のアプリケーションにまでは容易に拡大することはできない。

当技術分野において、連続するジェスチャーの分割および認識のためにいくつかの方法が提案されてきた。これらの手法は、分割および認識がどのように相互に絡み合っているかに基づいて、別々の分割および認識、ならびに同時の分割および認識、という２つの主要なカテゴリに分類されうる。第１のカテゴリは、通常は認識に先立って急激な特徴変化および分割を詳しく調べることによりジェスチャーの境界を検出するが、後者は、分割および認識を同一の問題の側面として扱い、かつ同時に実行される。２つのグループの多くの方法は、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：隠れマルコフモデル）およびＤＰ（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ：動的計画法）ベースの方法のさまざまな形態、すなわちＤＴＷ（ＤｙｎａｍｉｃＴｉｍｅＷａｒｐｉｎｇ：動的時間歪曲）およびＣＤＰ（ＣｏｎｔｉｎｕｏｕｓＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ：連続動的計画法）に基づいている。

ジェスチャー認識システムは、複数の事前定義済みのジェスチャーに関連する特定の文脈内で動作するように設計される。それらの先立つ事前定義は、意味上のギャップを処理するために必要である。ジェスチャー認識システムは、通常、マッチング機構に基づく。ジェスチャー認識システムは、スケルトンなど、シーンから抽出された情報を、最も近い格納済みのモデルと照合しようと試みる。したがって、ジェスチャーを認識するために、それに関連付けられている事前保存済みのモデルを有する必要がある。

文献において、動態をモデリングすることによる認識、および状態をモデリングすることによる認識、という２つの主要な手法がジェスチャー認識に使用される。ＧｅｓｔｕｒｅＴｅｋ（ｈｔｔｐ：／／ｗｗｗ．ｇｅｓｔｕｒｅｔｅｋ．ｃｏｍ）は、片手および両手のジェスチャーおよびポーズのライブラリを含むＭａｅｓｔｒｏ３ＤＳＤＫを提案する。このシステムは、新しいジェスチャーを容易にモデリングできる機能を提供する。ジェスチャーの限定版ライブラリは、ｈｔｔｐ：／／ｗｗｗ．ｅｙｅｓｉｇｈｔ−ｔｅｃｈ．ｃｏｍ／ｔｅｃｈｎｏｌｏｇｙ／で入手可能である。ＭｉｃｒｏｓｏｆｔのＫｉｎｅｃｔにより、ジェスチャーのライブラリは常に制限され、ユーザは新しいジェスチャー・モデルを容易にカスタマイズまたは定義することができない。（文化、国など）に応じて５、０００を超えるジェスチャーが存在することが判明しているので、限定版のライブラリを提供することは十分ではない。

国際公開第２０１０／１３５６１７号の文献は、ジェスチャー認識を実行するための方法および装置を開示する。

国際公開第２０１０／１３５６１７号米国特許出願公開第２００９／０２７８８５９号米国特許出願公開第２００６／０２４５６４５号

Ｔａｏら、ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ、３２０８〜３２１８頁

本発明の１つの目的は、ユーザがジェスチャー認識を容易にカスタマイズして、特定の技能を用いることなくジェスチャー・モデルを再定義することができるようにするジェスチャー認識のための方法およびシステムを提供することである。

本発明のさらなる目的は、従来の２Ｄカメラの使用を可能にするジェスチャー認識のための方法およびシステムを提供することである。

本発明の目的、利点、およびその他の特徴は、以下の開示および特許請求の範囲からさらに明らかとなろう。好ましい実施形態の以下の非限定的な説明は、添付の図面を参照して例示することのみを目的として示される。

一機能的実施形態を示すブロック図である。スクリブルに基づく色距離変換の例示的なシミュレーション結果を示す画像である。スクリブル・ドロワーＧＵＩの例を示す図である。

本発明は、前述の問題の１つまたは複数の影響に対処することを対象とする。

後段では、本発明の一部の態様の基本的な理解をもたらすために、本発明の簡略化した概要を示す。

この概要は、本発明の包括的な概要ではない。本発明の主要または重要な要素を特定すること、もしくは本発明の範囲を厳密に描くことは意図されていない。この概要の唯一の目的は、後段で述べられるさらに詳細な説明の前置きとして、簡略化した形で一部の概念を示すことである。

本発明は、さまざまな変更および代替の形態が可能であるが、その特定の実施形態は、図面において例として示されている。しかし、本明細書における具体的な実施形態の説明が、本発明を開示される特定の形態に限定することは意図されていないことを理解されたい。

そのような実際の実施形態の開発において、システム関連およびビジネス関連の制約に準拠することなど、開発者の具体的な目標を達成するために、実装形態に特有の意思決定が行われるべきであることが、当然理解されるであろう。そのような開発の取り組みは多大な時間を要する場合もあるが、それでもなお、本開示を利用することができる当業者にとっては日常の理解となりうることが理解されるであろう。

第１の態様によれば、本発明は、媒体内のジェスチャー認識を実行するための方法に関し、方法は、
− 少なくとも１つのカメラから少なくとも第１の未処理フレームを受信するステップと、
− 前記第１の未処理フレーム内の１つの要素を指し示す少なくとも１つのスクリブルを描くステップと、
− 媒体の残りの少なくとも一部で前記スクリブルを伝播することにより、前記スクリブルを媒体にわたって追跡するステップと
を含む。

「媒体（ｍｅｄｉａ）」という用語は、本明細書において、たとえば携帯電話のような、カメラを備える電子ポータブルデバイスを使用する人物により作成されたビデオなど、ビデオ媒体を指定する。「ジェスチャー（Ｇｅｓｔｕｒｅ）という用語は、本明細書において、たとえば腕の動きまたは手の動きなど、身体の一部の動きを指定するために使用される。「スクリブル（ｓｃｒｉｂｂｌｅ）という用語は、たとえば腕上の線など、ユーザによって作成された線を指定するために使用される。背景を有する画像において前述のオブジェクトをつや消しするためのスクリブルの使用が知られている（ＹｓｓｕｍＲｅｓｅａｒｃｈＤｅｖｅｌｏｐｍｅｎｔの名義の米国特許出願公開第２００９／０２７８８５９号を参照）。画像のカラー化のためにスクリブルの伝播を使用すること使用が知られている（Ｙａｔｚｉｖの名義の米国特許出願公開第２００６／０２４５６４５号を参照）。画像分割システムのユーザにより提供される大まかなスクリブルの使用は、ＴａｏらによるＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎの３２０８〜３２１８頁に示される。

有利なことに、本発明によれば、前記スクリブルを伝播するステップは、前のフレームから抽出された以前の情報、色および空間情報から成る、前のフレームから抽出された情報に基づいて、次のフレーム上の前記スクリブルの将来の位置を推定するステップを含む。

有利なことに、色距離変換は、以下のように画像の各ポイントにおいて計算される：
ＣＤＴ（ｉ，ｊ）＝ｍｉｎ_{（ｋ，ｉ）∈Ｍ}（ＣＤＴ（ｉ＋ｋ，ｊ＋ｉ）＋ｗｅｉｇｈｔ（ｋ，ｉ）＋ＤｉｆＣｏｌｏｒ（ｐ（ｉ，ｊ）・ｐ（ｋ，ｉ））
初期化

である場合ＣＤＴ（ｉ，ｊ）＝０、および（ｉ，ｊ）∈Ｓｃｒｉｂｂｌｅである場合ＣＤＴ（ｉ，ｊ）＝＋∞

有利なことに、色距離変換は、画像の２つの次元および時間に由来する第３の次元を備え、スケルトンは色距離変換から抽出される。

フレームは、有利なことに、ガウスマスク（Ｇａｕｓｓｉａｎｍａｓｋ）によって最初に畳込みが行われ、最大値は後に水平および垂直方向により抽出される。スクリブルの追跡により決定された関連するスクリブルは集約され、意味タグは前記集約された関連するスクリブルにアタッチされてジェスチャー・モデルを形成する。現在のスクリブルと格納されているジェスチャー・モデルとの比較が行われる。

有利なことに、ルール・データベースのクエリが行われ、ジェスチャー・タグに関連付けられている少なくとも１つのアクションをトリガーする。

第２の態様によれば、本発明は、媒体内のジェスチャー認識を実行するためのシステムに関し、システムは、前記第１の未処理フレーム内の１つの要素を指し示す少なくとも１つのスクリブルを描くための少なくとも１つのスクリブル・ドロワーと、関連するスクリブルを決定するために媒体の残りの少なくとも一部で前記スクリブルを伝播することにより、前記スクリブルを媒体にわたって追跡するためのスクリブル・プロパゲータとを備える。

有利なことに、システムは、関連するスクリブルを集約してジェスチャー・モデルを形成するためのジェスチャー・モデル・メーカーと、前記ジェスチャー・モデルを少なくとも１つの意味タグと共に格納するジェスチャー・モデル・リポジトリとを備える。

有利なことに、システムは、前記スクリブル・ドロワー、前記スクリブル・プロパゲータ、および前記ジェスチャー・モデル・メーカーを含むジェスチャー・クリエータを備える。

有利なことに、システムは、前記ジェスチャー・クリエータ、およびアクションとジェスチャー・タグとの間のリンクを含むルール・データベースを含むジェスチャー・マネージャを備える。

有利なことに、システムは、現在のフレーム・スクリブルをジェスチャー・モデル・リポジトリに含まれる格納済みのモデルと比較するためのモデル・マッチャーを含む認識モジュールを備える。モデル・マッチャーは、ジェスチャー・タグに関連付けられているアクションをトリガーするためにルール・データベースにクエリを送信する。

第３の態様によれば、本発明は、コンピュータおよび／または専用システムのメモリに格納されている命令を含むコンピュータ・プログラムに関し、前記コンピュータ・プログラムは上記で提示される方法を実行するように構成されているか、または上記で提示されるシステムに接続される。

以下の説明において、「ジェスチャー認識」は、
− ジェスチャー・モデルの定義であって、アプリケーションによって処理されるすべてのジェスチャーはこの定義中に作成されてハードコーディングされる定義と、
− ジェスチャーの認識と
を指定する。

新しいジェスチャーを認識するために、モデルが生成され、その意味定義に関連付けられる。

容易なジェスチャー・モデリングを可能にするため、本発明は、特定のジェスチャー許可ツールを提供する。このジェスチャー許可ツールは、スクリブル伝播技術に基づく。これはユーザフレンドリーな対話ツールであり、ユーザは、何らかのスクリブルを描くことによってビデオの一部の要素を大まかに指し示すことができる。次いで、選択された要素は、その動きの情報を取得するために初期スクリブルを伝播することによってビデオにわたって追跡される。

本発明は、ユーザが、認識すべき新しいジェスチャーを容易な方法で、動的に、しかもオンザフライで定義することができるようにする。

提案されるアーキテクチャは、２つの部分に分割される。第１の部分は、半自動であり、ユーザの対話を必要とする。これは、ジェスチャー許可コンポーネントである。第２の部分は、格納されているジェスチャー・モデルおよびルールに基づいて認識プロセスを達成する。

許可コンポーネントは、ジェスチャー・クリエータ（ＧｅｓｔｕｒｅＣｒｅａｔｏｒ）、および作成されたモデルを格納するためのジェスチャー・モデル・リポジトリ（ＧｅｓｔｕｒｅＭｏｄｅｌＲｅｐｏｓｉｔｏｒｙ）の２つの部分から成る。

ジェスチャー・クリエータ・モジュールは、以下の３つの部分にさらに分割される：
第１は、スクリブル・ドロワー（ＳｃｒｉｂｂｌｅＤｒａｗｅｒ）である。スクリブル・ドロワーは、ユーザが、ビデオから要素を指定するためにＧＵＩをスローすることができるようにする（図３を参照）。例として、ユーザが、プレゼンターの腕が曲げられたかまたは伸びたときが分かるようにトリガーを定義するものとする。これを行うために、ユーザは、プレゼンターの腕でスクリブルを描く。
次いで、スクリブル・プロパゲータ（ＳｃｒｉｂｂｌｅＰｒｏｐａｇａｔｏｒ）は、腕を指定するためにビデオの残りの部分でこのスクリブルを伝播する。

スクリブルの伝播は、画像から抽出された以前の情報に基づいて次のフレームでスクリブルの将来の位置を推定することによって達成される。

第１のステップは、色および空間情報を結合することから成る。色距離変換（ＣＤＴと示される）は、現在の画像およびスクリブルに基づいて計算される。距離変換のような特殊な情報を取得することに加えて、この新しい変換では、「遠い」領域の値を、スクリブルによって指定された領域とのそれらの色の類似性が高い場合に、増大させることによって距離マップを強調する。面取りマスク（Ｃｈａｍｆｅｒｍａｓｋ）Ｍのようなユークリッド距離の近似を所与として、ＤｉｆＣｏｌｏｒは、２つの色の間のユークリッド距離を示す。画像の各々のポイントにおいて、ＣＤＴは以下のように計算される：
ＣＤＴ（ｉ，ｊ）＝ｍｉｎ_{（ｋ，ｉ）∈Ｍ}（ＣＤＴ（ｉ＋ｋ，ｊ＋ｉ）＋ｗｅｉｇｈｔ（ｋ，ｉ）＋ＤｉｆＣｏｌｏｒ（ｐ（ｉ，ｊ）・ｐ（ｋ，ｉ））
初期化

マスクは、２つの部分に分解され、すべての最小距離を更新するために画像の二重スキャンが達成される。

次のスクリブル位置の推定を取得するために、ＣＤＴは３Ｄ（画像の２つの次元および時間軸に由来する第３の次元）、またはＣ３ＤＴと示されるボリューム・ベースの色距離変換に拡張される。

この変換は、画像ペアで引き続いて行われる。取得された結果は、レイヤに編成されてもよい。レイヤｔ＋１は、スクリブルが伝播されうる領域を表す。したがって、画像ｔに描かれたスクラブルは、Ｃ３ＤＴのレイヤｔ＋１からの取得されたマスクと共に伝播されてもよい。ドリフトを制限し、伝播エラーの可能性を避けるため、取得されたマスクは簡単なスクリブルとして縮減されてもよい。

スケルトンは、２つの操作によってＣ３ＤＴレイヤから抽出される。最初に、画像は、内部ホールおよび画像の不完全さに対処するために、ガウスマスクによって畳込みが実行される。次いで、最大値が、水平および垂直方向に抽出される。このステップの後に何らかの不完全性が出現することもあるので、きれいなスクリブルを得るために小さい成分の抑止が必要である。このスクリブルは、画像の次のペアのマーカーとして使用される。以前のプロセスは、繰り返され、以下同様に続く。

次いで、ユーザは、クリックしてアクションの終了を指示し、意味タグをつける。次いで、すべての関連するスクリブルは、ジェスチャー・モデル・メーカー（ＧｅｓｔｕｒｅＭｏｄｅｌＭａｋｅｒ）によってジェスチャー・モデル内に集約され、次いでジェスチャー・モデル・リポジトリ（ＧｅｓｔｕｒｅＭｏｄｅｌＲｅｐｏｓｉｔｏｒｙ）に格納される。ジェスチャー・モデル・メーカーモジュールは、ジェスチャーを、ジェスチャー・モデル上のその意味タグと結合する。各スクリブルは、ジェスチャーの１つの状態の空間分布を記述するベクトルに変換される。すべてのスクリブルを変換した後、モデルは、ジェスチャーのすべての可能な状態およびそれらの時間的順序を含む。また、変曲点およびそれらの変位ベクトルも格納される。

認識モジュールにおいて、モデル・マッチャー（ＭｏｄｅｌＭａｔｃｈｅｒ）は、現在のビデオスクリブルと格納されているモデルとを比較する。このスクリブルが、２つ以上のモデルの始まりと一致する場合。比較は、最も近い要素を取得するために、選択されたモデルセットの次の要素で続行する。すべてのスクリブルのシーケンスが一致する場合、ジェスチャーは認識される。ルール・データベース（Ｒｕｌｅｓｄａｔａｂａｓｅ）へのクエリは、このジェスチャー・タグに関連付けられているアクションをトリガーすることができるようにする。ルールは、たとえば以下のような、基本命令の代数的組み合わせと見なされてもよい：
− Ｈａｎｄｒｏｓｅ＝ｓｈｏｗｓｌｉｄｅｓ＆ｓｔａｒｔｒｅｃｏｒｄｉｎｇ
− Ｇｅｓｔｕｒｅ１｜ｇｅｓｔｕｒｅ２＝ａｃｔｉｏｎＸ

例として、ユーザは、（講義、トレードショーのような）科学または業務用プレゼンテーションを撮影する人物であってもよい。ユーザは、ビデオ・ディレクターを自動化するために、特定のジェスチャーを検出して、それらをアクションに関連付けようとする。たとえば、プレゼンターが方向およびシーンの領域を指し示すときの自動カメラズームである。したがって、プレゼンターが何かを指し示すとき、ユーザは、プレゼンターの手および腕を示す大まかなスクリブルを作成する。スクリブルは、自動的に伝播される。最後に、ユーザは、認識すべきジェスチャーの終わりを指示して、意味タグをこのジェスチャーに関連付ける。

本発明は、ユーザが、認識しようとするジェスチャーを動的に定義することができるようにする。技術的な熟練は必要とされない。

本発明の主要な利点は、自動前景分割およびスケルトン抽出、動的ジェスチャー定義、ジェスチャー許可、ジェスチャーをアクション／対話とリンクする機能、ならびにユーザフレンドリーなジェスチャー・モデリングおよび認識である。

Claims

媒体内のジェスチャー認識を実行するための方法であって、
少なくとも１つのカメラから少なくとも第１の未処理フレームを受信するステップと、
前記第１の未処理フレーム内の１つの要素を指し示す少なくとも１つのスクリブルを描くステップと、
前記媒体の残りの少なくとも一部で前記スクリブルを伝播することにより、前記スクリブルを前記媒体にわたって追跡するステップと、
前記スクリブルの追跡により決定された関連するスクリブルを集約するステップであって、意味タグは前記集約された関連するスクリブルにアタッチされてジェスチャー・モデルを形成するステップと、
現在のスクリブルを格納されているジェスチャー・モデルと比較するステップと
を含む方法。
前記スクリブルを伝播するステップは、前のフレームから抽出された以前の情報に基づいて次のフレーム上の前記スクリブルの将来の位置を推定するステップを含む請求項１に記載の方法。
前記前のフレームから抽出された情報は、色および空間情報から成る請求項２に記載の方法。
色距離変換は、画像の各ポイントにおいて計算される請求項３に記載の方法。
前記色距離変換は、画像の２つの次元および時間に由来する第３の次元を参照して計算される請求項４に記載の方法。
スケルトンは前記色距離変換から抽出される請求項４に記載の方法。
前記スケルトンの抽出に先立ち、前記フレームは最初に２次元ガウスマスクにより水平および垂直方向に畳み込みされ、その後前記スケルトンは、２つの前記方向に前記畳み込みされた画像の最大値を抽出することによって抽出される請求項６に記載の方法。
ルール・データベースのクエリを行い、その後ジェスチャー・タグに関連付けられている少なくとも１つのアクションをトリガーするステップをさらに含む請求項１に記載の方法。
媒体内のジェスチャー認識を実行するためのシステムであって、
第１の未処理フレーム内の１つの要素を指し示す少なくとも１つのスクリブルを描くためのスクリブル・ドロワーと、
関連するスクリブルを決定するために前記媒体の残りの少なくとも一部で前記スクリブルを伝播することにより、前記スクリブルを前記媒体にわたって追跡するためのスクリブル・プロパゲータと、
関連するスクリブルを集約してジェスチャー・モデルを形成するためのジェスチャー・モデル・メーカーと、
前記ジェスチャー・モデルを少なくとも１つの意味タグと共に格納するジェスチャー・モデル・リポジトリと、
前記スクリブル・ドロワー、前記スクリブル・プロパゲータ、および前記ジェスチャー・モデル・メーカーを含むジェスチャー・クリエータと、
前記ジェスチャー・クリエータ、およびアクションとジェスチャー・タグとの間のリンクを含むルール・データベースを含むジェスチャー・マネージャと、
現在のフレーム・スクリブルを前記ジェスチャー・モデル・リポジトリに含まれる格納済みのモデルと比較するためのモデル・マッチャーを含む認識モジュールと
を少なくとも備えるシステム。
前記モデル・マッチャーは、ジェスチャー・タグに関連付けられているアクションをトリガーするために前記ルール・データベースにクエリを送信する請求項９に記載のシステム。
コンピュータのメモリおよび／または専用システムのメモリに格納されている命令を含むコンピュータ・プログラムであって、請求項１乃至８のいずれか１項に記載の方法を実行するように構成されているコンピュータ・プログラム。