JP2022519411A

JP2022519411A - ジェスチャー認識方法および装置、電子デバイス、並びに記録媒体

Info

Publication number: JP2022519411A
Application number: JP2021518866A
Authority: JP
Inventors: 海宇 ▲趙▼; ▲凱▼歌 ▲陳▼; ▲達▼明牛
Original assignee: Sensetime International Pte Ltd
Current assignee: Sensetime International Pte Ltd
Priority date: 2019-12-23
Filing date: 2020-03-13
Publication date: 2022-03-24
Also published as: WO2021130548A1; US20210191519A1; SG10201912990QA; AU2020294217B2; AU2020294217A1; KR20210084444A; US11307668B2

Abstract

本発明は、ジェスチャー認識方法および装置、電子デバイス、並びに記録媒体を開示する。前記方法は、処理待ち画像に対して検出を実行して手検出結果を得ることと、手検出結果に手検出フレームが含まれていることに応答して、前記手検出フレーム内の手姿勢が目標ジェスチャー中の手姿勢を満たすと確定することと、前記手が前記処理待ち画像における予め定義された領域内にいることを確定することと、前記手が目標ジェスチャーを取っていることを確定することと、を含む。【選択図】図１

Description

本発明は、コンピュータ視覚技術に関し、具体的には、ジェスチャー認識方法および装置、電子デバイス、並びに記録媒体に関する。
＜関連出願の相互引用＞
本願は、出願番号が１０２０１９１２９９０Ｑであり、出願日が２０１９年１２月２３日であり、出願名称が「データ処理方法、装置、及びエッジデバイス」であるシンガポール特許出願に基づいて提出されたものであり、当該特許出願の優先権を主張し、当該特許出願の全ての内容が参照のために本願に援用される。

近年、人工知能技術の継続的な発展により、人工知能技術は、コンピュータ視覚、音声認識などにおいて比較的良好な効果を達成している。人工知能技術を使用して、いくつかの相対的に特殊なシーン、たとえばデスクトップゲームシーンで、ジェスチャー認識を実行する。

本発明は、ジェスチャー認識の解決策を提供する。

本発明の第１態様によると、ジェスチャー認識方法を提供する。前記方法は、処理待ち画像に対して検出を実行して手検出結果を得ることと、手検出結果に手検出フレームが含まれていることに応答して、前記手検出フレーム内の手姿勢が目標ジェスチャー中の手姿勢を満たすと確定することと、前記手が前記処理待ち画像における予め定義された領域内にいることを確定することと、前記手が目標ジェスチャーを取っていることを確定することと、を含む。

本発明によって提供される任意の実施形態と結合して、前記手検出フレーム内の前記手姿勢が前記目標ジェスチャー中の前記手姿勢を満たすと確定することは手検出結果に前記手検出フレームが含まれていることに応答して、前記手検出フレーム内の前記手姿勢が前記目標ジェスチャー中の手姿勢を満たすと確定することは、手検出結果に前記手検出フレームが含まれていることに応答して、前記処理待ち画像における手検出フレーム内に位置する画像をカッティングすることと、前記カッティングされた画像に基づいて、前記カッティングされた画像における手姿勢が目標ジェスチャー中の手姿勢手姿勢を満たすと確定することと、を含む。

本発明によって提供される任意の実施形態と結合して、前記目標ジェスチャー中の手姿勢は、両手がいずれも正面であり、前記手検出フレーム内の前記手姿勢が前記目標ジェスチャー中の前記手姿勢を満たすと確定することは、前記手検出フレーム内の画像を手分類ニューラルネットワークに入力して、手が正面であることまたは手が他の姿勢であることを含む手分類結果を得ることと、２つの手検出フレームの手分類結果がいずれも正面である場合、前記手検出フレーム内の前記手姿勢が前記目標ジェスチャー中の手姿勢を満たすと確定することと、を含む。

本発明によって提供される任意の実施形態と結合して、前記手分類ニューラルネットワークは、手画像サンプルを使用して訓練して得られたものであり、前記手画像サンプルは、手が正面である画像サンプルを含み、ラベル情報前記手が正面である画像サンプルのラベル情報は、手のひらである。

本発明によって提供される任意の実施形態と結合して、前記手が前記処理待ち画像における前記予め定義された領域内にいることを確定することは、前記手検出フレームの中心点が前記予め定義された領域内にいることを確定することを含む。

本発明によって提供される任意の実施形態と結合して、前記処理待ち画像は、目標領域に対して収集を実行して得られた画像であり、前記予め定義された領域は、前記処理待ち画像における、前記目標領域における２つのサブ領域にそれぞれ対応する２つの所定のサブ領域を含み、それぞれ前記２つの所定のサブ領域内前記手検出フレームの前記中心点が前記予め定義された領域内にいることを確定することは、２つの手検出フレームの中心点がそれぞれ前記２つの所定のサブ領域内にあることを確定することを含む。

本発明によって提供される任意の実施形態と結合して、前記処理待ち画像は、上面からの視角で収集した前記目標領域の画像である。

本発明の第２態様によると、ジェスチャー認識装置を提供する。前記装置は、処理待ち画像に対して検出を実行して手検出結果を得るための取得ユニットと、手検出結果に手検出フレームが含まれていることに応答して、前記手検出フレーム内の手姿勢が目標ジェスチャー中の手姿勢を満たすと確定するための第１確定ユニットと、前記手が前記処理待ち画像における予め定義された領域内にいることを確定するための第２確定ユニットと、前記手が目標ジェスチャーを取っていることを確定するための第３確定ユニットと、を備える。

本発明によって提供される任意の実施形態と結合して、前記第１確定ユニットは、具体的に、手検出結果に前記手検出フレームが含まれていることに応答して、前記処理待ち画像における手検出フレーム内に位置する画像をカッティングし、前記カッティングされた画像に基づいて、前記カッティングされた画像における手姿勢が目標ジェスチャー中の手姿勢手姿勢を満たすと確定する。

本発明によって提供される任意の実施形態と結合して、前記目標ジェスチャー中の手姿勢は、両手がいずれも正面であり、前記第１確定ユニットは、さらに、前記手検出フレーム内の画像を手分類ニューラルネットワークに入力して、手が正面であることまたは手が他の姿勢であることを含む手分類結果を得、２つの手検出フレームの手分類結果がいずれも正面である場合、前記手検出フレーム内の前記手姿勢が前記目標ジェスチャー中の手姿勢を満たすと確定する。

本発明によって提供される任意の実施形態と結合して、前記第２確定ユニットは、さらに、前記手検出フレームの中心点が前記予め定義された領域内にいることを確定する。

本発明によって提供される任意の実施形態と結合して、前記処理待ち画像は、目標領域に対して収集を実行して得られた画像であり、前記予め定義された領域は、前記処理待ち画像における、前記目標領域における２つのサブ領域にそれぞれ対応する２つの所定のサブ領域を含み、前記第２確定ユニットは、さらに、２つの手検出フレームの中心点がそれぞれ前記２つの所定のサブ領域内にあることを確定する。

本発明の第３態様によると、電子デバイスを提供し、前記デバイスは、プロセッサと、プロセッサ上で実行できるコンピュータ命令を記憶するためのメモリと、を備え、前記プロセッサは、前記コンピュータ命令を実行するときに、本発明の任意の実施形態に記載のジェスチャー認識方法が実現される。

本発明の第４態様によると、コンピュータプログラムが記憶されているコンピュータ可読記録媒体を提供し、前記プログラムがプロセッサによって実行されるときに、本発明の任意の実施形態に記載のジェスチャー認識方法が実現される。

本発明の１つまたは複数の実施例のジェスチャー認識方法および装置、電子デバイス、並びに記録媒体によると、手検出結果における手検出フレーム内の手姿勢に対して検出を実行し、手姿勢が目標ジェスチャー中の手姿勢を満たすと確定した上で、さらに、検出位置情報の制約を利用して、目標ジェスチャー認識を実行することによって、１フレームの画像を利用して高速で高精度の目標ジェスチャーの認識を実現することができる。

以下、本明細書の１つまたは複数の実施例または従来技術での技術的解決策をより明確に説明するために、実施例または従来技術に対する叙述で使用する必要がある図面を簡単に紹介する。明らかに、以下で叙述する図面は、本明細書の１つまたは複数の実施例に記載されるいくつかの実施例に過ぎず、当業者にとって創造的な作業なしにこれら図面に基づいて他の図面を得ることができる。
本発明の少なくとも１つの実施例によって提供されるジェスチャー認識方法のフローチャートである。本発明の少なくとも１つの実施例によって提供されるジェスチャー認識方法の適用シーンの模式図である。本発明の少なくとも１つの実施例によって提供される手分類結果の模式図である。本発明の少なくとも１つの実施例によって提供されるジェスチャー認識方法の適用シーンの模式図である。本発明の少なくとも１つの実施例によって提供されるジェスチャー認識装置の構成の模式図である。本発明の少なくとも１つの実施例によって提供される電子デバイスの構成の模式図である。

以下、当業者が本明細書の１つまたは複数の実施例での技術的解決策をより良く理解するようにするために、本明細書の１つまたは複数の実施例での図面を参照して、本明細書の１つまたは複数の実施例での技術的解決策を明確かつ完全に叙述する。明らかに、叙述する実施例は、全部の実施例ではなく、本明細書の一部の実施例に過ぎない。本明細書の１つまたは複数の実施例に基づいて、創造的な作業なしに当業者によって得られるすべての他の実施例は、いずれも本発明の保護範囲に属すべきである。

本発明の少なくとも１つの実施例は、ジェスチャー認識方法を提供し、前記ジェスチャー認識方法は、端末デバイスまたはサーバなどの電子デバイスによって実行されることができ、端末デバイスは、ユーザデバイス（ＵｓｅｒＥｑｕｉｐｍｅｎｔ、ＵＥ）、モバイルデバイス、ユーザ端末、端末、セルラー電話、コードレス電話、パーソナルデジタルアシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、ＰＤＡ）、ハンドヘルドデバイス、計算デバイス、車載デバイス、ウェアラブルデバイスなどであり得、前記方法は、プロセッサによりメモリに記憶されているコンピュータ可読命令を呼び出す方式によって実現することができる。

図１は、当該ジェスチャー認識方法の流れを示し、図１に示すように、１０１～１０４を含み得る。

１０１において、処理待ち画像に対して検出を実行して手検出結果を得る。

本発明の実施例において、前記処理待ち画像は、画像収集デバイス（たとえばビデオカメラ）によって収集されたデスクトップ領域の画像であり得る。前記画像は、完全なデスクトップ画像を含んでもよいし、デスクトップの一部の画像を含んでもよい。

ビデオカメラによって収集された処理待ち画像は、ビデオストリーム中の１フレームのであってもよいし、リアルタイムで得た画像であってもよく、本発明はこれに対して限定しない。

本発明の実施例において、たとえばｆａｓｔｅｒＲＣＮＮなどの、深層学習ネットワークを利用して、処理待ち画像に対して検出を実行して手検出結果を得ることができる。手が検出された場合、手検出結果は、手検出フレーム、手検出フレームの位置などを含み得る。当業者は、ｆａｓｔｅｒＲＣＮＮネットワークは１例に過ぎず、その他のネットワークを使用して手検出を実行してもよく、本発明はこれに対して限定しないことを理解すべきである。

１０２において、手検出結果に手検出フレームが含まれていることに応答して、前記手検出フレーム内の手姿勢が目標ジェスチャー中の手姿勢を満たすと確定する。

いくつかの実施例において、上面からの視角で処理待ち画像を収集することができ、すなわち、バードビューカメラ（Ｂｉｒｄｖｉｅｗｃａｍｅｒａ）を使用して前記処理待ち画像を収集することができる。デスクトップのような適用シーンの場合、上面からの視角は、好ましい撮影視角であり、当該視角は、一般的に、他の物体によって検出目標が遮られることを回避することができる。しかしながら、当業者は、その他の視角のビデオカメラによって収集された画像も本発明の実施例によって提案されるジェスチャー認識方法に適用されることを理解すべきである。

本発明の実施例において、手検出フレーム内の画像に対して検出を実行して、検出された特徴と目標ジェスチャー中の手姿勢の特徴とを比較することによって、手検出フレーム内の手姿勢が目標ジェスチャーの手姿勢を満たすか否かを確定してもよい。前記手検出フレーム内の手姿勢に対して分類を実行して、分類結果に基づいて目標ジェスチャーの手姿勢を満たすか否かを判断してもよい。具体的な判断方法は、後述する。

１０３において、前記手が前記処理待ち画像における予め定義された領域内にいることを確定する。

本発明の実施例において、手検出結果に手検出フレームが含まれている場合、手検出結果に手検出フレームの位置情報も含まれており、すなわち、手の前記処理待ち画像における位置情報を確定した。

特定領域に出現する場合にのみ成立される目標ジェスチャーの場合、処理待ち画像において予め定義された領域を利用して手検出フレーム内の手に対して位置制約を提供することによって、検出された手が目標ジェスチャーに対する要求を満たすか否かをさらに確定することができる。ここで、処理待ち画像において予め定義された領域は、処理待ち画像を撮影するビデオカメラの位置、内部パラメータ、および、実際の空間における目標ジェスチャーに対応する特定領域に基づいて確定することができる。

１０４において、前記手が目標ジェスチャーを取っていることを確定する。

手検出フレーム内の手姿勢が目標ジェスチャー中の手姿勢と満たし、かつ、手が前記処理待ち画像における予め定義された領域内にいる場合、検出フレーム内の手が目標ジェスチャーを取っていると確定する。

本発明の実施例において、手検出結果における手検出フレーム内の手姿勢に対して検出を実行し、手姿勢が目標ジェスチャー中の手姿勢を満たすと確定した上で、さらに、検出位置情報の制約を利用して、目標ジェスチャー認識を実行する。したがって、１フレームの画像を利用して高速で高精度の目標ジェスチャーの認識を実現することができる。

いくつかの実施例において、手が検出された場合、すなわち手検出結果に手検出フレームが含まれている場合、前記処理待ち画像における手検出フレーム内に位置する画像をカッティングし、前記カッティングされた画像に基づいて、前記カッティングされた画像における手姿勢が目標ジェスチャー中の手姿勢手姿勢を満たすと確定することができる。

手検出フレーム内の画像をカッティングし、前記カッティングされた画像に基づいて手姿勢の検出を実行することによって、手姿勢検出の効率と正確度を向上させることができる。

いくつかの実施例において、手検出フレームの中心点を手の位置として確定することができる。当業者は、さらに、手検出フレームの他の位置点を手の位置として確定することができ、たとえば、認識待ち目標ジェスチャーとその中の１つの指との関係がもっと密接である場合、当該指の手検出フレームにおける位置を手の位置として確定することができることを理解すべきである。手の位置の具体的に確定方式は、認識待ち目標ジェスチャーと手検出フレームとの関係に基づいて確定することができる。

いくつかの実施例において、以下の方法によって手検出フレーム内の手姿勢が目標ジェスチャー中の手姿勢手姿勢を満たすと確定することができる。手検出フレーム内の画像を予め訓練された手分類ニューラルネットワークに入力して、手分類結果を得、前記分類結果に基づいて手検出フレーム内の手姿勢が目標ジェスチャー中の手姿勢を満たすか否かを判断する。

採用する手分類ニューラルネットワークは、畳み込み分類モデルであり得、たとえばＲｓｅｎｅｔ１８をバックボーンネットワークの畳み込み分類モデルとして使用することができる。当業者は、採用する手分類ニューラルネットワークは、得る必要がある分類タイプに従って確定することができ、得る必要がある分類タイプは、認識待ちの目標ジェスチャーに応じて確定することができ、本発明は、これに対して限定しないことを理解すべきである。

１例において、認識待ちの目標ジェスチャーが手の正面にのみ関わる場合、得る必要がある分類タイプは、手が正面であるかまたはその他の姿勢であることを含み得、ここで、その他の姿勢は、手が正面以外の手姿勢である状況、および、手が遮られた状況を含む。手が正面であるかおよび／または手がその他の姿勢である画像サンプルを利用して前記手分類ニューラルネットワークを訓練することができ、ラベル情報前記手が正面である画像サンプルのラベル情報は、手のひらである。

１例において、認識待ちの目標ジェスチャーが手の正面と反面に関する場合、得る必要がある分類タイプは、手が正面であること、手が反面であること、および、手がその他の姿勢であることを含み得、ここで、その他の姿勢は、手が正面または反面以外の手姿勢である状況、および、手が遮られた状況を含む。手が正面である画像サンプル、手が反面である画像サンプルおよび、手がその他の姿勢である画像サンプルを利用して前記手分類ニューラルネットワークを訓練することができ、ここで、ラベル情報前記手が正面である画像サンプルのラベル情報は、手のひらであり、前記手が反面である画像サンプルのラベル情報は、反面を表すラベルであり得る。

１例において、認識待ちの目標ジェスチャーが特定の姿勢に関する場合、分類タイプには当該特定姿勢が含まれている必要があり、そうすれば、当該特定姿勢及びその他の姿勢を含むサンプル手画像を利用して前記手分類ニューラルネットワークを訓練することによって、訓練された前記手分類ニューラルネットワークが手検出フレーム内の画像から当該特定姿勢を認識することができるようにする。

当業者は、さらに、その他の方法によって手検出フレーム内の手姿勢が目標ジェスチャー中の手姿勢手姿勢を満たすと確定し、前記手検出フレーム内の手姿勢を利用してジェスチャー検出を実行することができ、本発明の実施例は、これに対して限定しないことを理解すべきである。

以下、認識待ち目標ジェスチャー中で両手がいずれも正面であり、かつ、両手がそれぞれデスクトップの２つの特定サブ領域の上方に位置している例に対して、本発明の実施例によって提案されるジェスチャー認識方法を具体的に説明する。当業者は、当該ジェスチャー認識方法は、上述した目標ジェスチャーを認識することに限定されず、その他の目標ジェスチャーを認識することができることを理解すべきである。

図２は、本発明の少なくとも１つの実施例によって提供されるジェスチャー認識方法の適用シーンの模式図である。図２に示すように、認識待ちの目標ジェスチャーは、デスクトップ２０の２つの領域２２１および２２２の上方で取った両手の手のひらを上に向けたジェスチャーである。２つの領域２２１および２２２は、人２１の付近にある。

まず、上面からの視角で撮影したデスクトップ２０の一部または全部の領域を含む処理待ち画像に対して検出を実行して、手検出結果を得る。

人２１の手が検出された場合、すなわち、手検出結果に手検出フレームが含まれている場合、前記手検出フレーム内の画像を手分類ニューラルネットワークに入力して、手分類結果を得る。前記手分類ニューラルネットワークは、入力画像が手の正面であるかまたはその他の姿勢であるかに対して分類を実行し、得られた手分類結果は、手が正面であることまたは手が他の姿勢であることを含む。２つの手検出フレームの分類結果がいずれも手が正面であることであると、前記手検出フレーム内の手姿勢がいずれも手が正面であるとして確定し、この場合目標ジェスチャー中の手姿勢を満たす。

両手がいずれも正面であると確定した場合、２つの手検出フレームの位置が処理待ち画像の２つの所定のサブ領域内にいるか否かを確定する。ここで、処理待ち画像の２つの所定のサブ領域は、前記処理待ち画像を撮影するビデオカメラの位置、内部パラメータ、および、デスクトップ２０上２つの領域２２１と２２２の位置に基づいて、確定される。２つの手検出フレームの中心点がそれぞれ前記２つの所定のサブ領域内にいることに応答して、前記手が目標ジェスチャーを取ったと確定する。ここで、２つの所定のサブ領域は、処理待ち画像における、目標領域における２つのサブ領域にそれぞれ対応する領域である。目標領域がゲームテーブルであると、目標領域における２つのサブ領域は、ゲームテーブル上の２つのサブ領域であり得、２つの所定のサブ領域は、処理待ち画像における、ゲームテーブル上の２つのサブ領域にそれぞれ対応する領域であり得る。

１例において、前記手検出フレームに従ってカッティングし得た画像を、前記手分類ニューラルネットワークに入力して、手分類結果を得ることができる。前記処理待ち画像中に複数の手検出フレームが含まれていると、複数のカッティングし得た画像をそれぞれ前記手分類ニューラルネットワークに入力する。

上記の入力画像に対して手が正面であるかまたは手がその他の姿勢であるかの分類を実行するための手分類ニューラルネットワークは、以下の方法によって訓練することができる。

手が正面である画像サンプルおよび手がその他の姿勢である画像サンプルを得、手が正面である画像サンプルに対して、画像サンプルにおける手のひらに対してラベリングを実行する。

図３Ａと３Ｂは、例示的な手が正面である画像サンプルである。正面から手のひらが見える手画像を手が正面である画像サンプルとして使用でき、ラベル情報前記手が正面である画像サンプルのラベル情報は、手のひらである。ここで、図３Ａと図３Ｂで、手のひらにいる白い点は、手が正面である画像サンプルのラベルである。手が正面である画像サンプルは、手のひらでの、点、円、および正方形などの任意の形状であり得、これに対して限定しない。図３Ｃ～３Ｆは、例示的なその他の姿勢の手画像であり、手の反面の手画像または手のひらが遮られた手画像であり、その他の姿勢としてラベリングすることができる。

図３Ａ～図３Ｆに示した画像サンプルを利用して前記手分類ニューラルネットワークを訓練することができ、訓練が完成されたニューラルネットワークは、手検出フレーム内の画像に対して分類を実行して、手が正面であることまたは手がその他の姿勢であることを含む分類結果を得ることができる。

いくつかの実施例において、さらに、３分類の手分類ニューラルネットワークを利用して手検出フレーム内の画像に対して分類を実行して、手が正面であること、手が反面であること、または、手がその他の姿勢であることを含む分類結果を得ることができる。当該手分類ニューラルネットワークは、手が正面である画像サンプル、手が反面であり画像サンプル、手がその他の姿勢である画像サンプルを利用して訓練を実行することができる。依然として、図３Ａ～３Ｆを例とすると、ここで、図３Ａと３Ｂは、例示的な手が正面である画像サンプルであり、ラベル情報前記手が正面である画像サンプルのラベル情報は、手のひらである。図３Ｃと図３Ｄは、例示的な手が反面である画像サンプルである。手の甲全体と５本の指が見える手画像を手の反面画像として使用し、これに対して反面としてラベリングすることができ、図３Ｅと図３Ｆは、例示的な手がその他の姿勢である画像サンプルである。手のひらが見えないし、かつ、手の甲と５本の指が完全に見えない手画像を、手がその他の姿勢である画像サンプルとして使用し、これをその他の姿勢としてラベリングすることができる。図３Ｅと図３Ｆは、全体的な姿勢は上向きであるが、手のひらが見えないため、他の姿勢に属する。上記の画像サンプルを利用して前記手分類ニューラルネットワークを訓練することができ、訓練が完成されたニューラルネットワークは、手検出フレーム内の画像に対して分類を実行して、手が正面であること、手が反面であること、または、手がその他の姿勢であることを含む分類結果を得ることができる。

本発明の実施例において、手分類ニューラルネットワークを利用して手検出フレーム内の画像に対して分類を実行することによって、手が正面の姿勢であるか否かを認識し、すなわち手のひらが上向きである姿勢を認識する。このときに採用する手分類ニューラルネットワークは、ビデオ分類ニューラルネットワークと比較すると、訓練サンプルの取得およびとラベリングが容易になり、また、ニューラルネットワークの認識速度が速く、手姿勢に対するリアルタイムな認識を実現することができる。

手分類結果が目標ジェスチャー中の手姿勢を満たす場合、処理待ち画像における予め定義された領域を利用して位置制約を実行することによって、検出された手が目標ジェスチャーを取っていることをさらに確定することができる。

以下、目標ジェスチャーがクルーピアのハンドクリーンジェスチャーである例を挙げて、本発明の実施例によって提案されるジェスチャー認識方法を説明する。

図４は、本発明の少なくとも１つの実施例によって提供されるジェスチャー認識方法の適用シーンの模式図である。図４に示すように、ゲームシーンにおいて、ゲームテーブル４０を通じてゲームすることができ、プレーヤー４２１、４２２、４２３は、クルーピア４３に対してゲームテーブルの反対の側に位置している。ゲームテーブルの領域は、主に、クルーピアの被交換物品領域４７（クルーピアの前方の領域）、プレーヤーの被交換物品領域４４１、４４２（プレーヤーの前方の領域）、ゲーム実行領域４６、および、予め定義された領域４１（ホットゾーンとも呼ばれる）を含む。

クルーピアのハンドクリーンジェスチャーとは、クルーピアが特定の操作を完了した後、または、特徴の操作を実行する前に、両手の手のひらを上に向けて、クルーピアの被交換物品領域（たとえば図４中の被交換物品領域４７）の両側に平らに置くことによって、手にいかなる物品も持っていないことを他人に展示し、次のゲームステージに入ることができたことを表すためのジェスチャーを指す。

本発明の実施例において、ゲームテーブル上のクルーピアの前方の被交換物品領域４７の両側の２つのサブ領域（たとえば図４中のサブ領域４１１とサブ領域４１２）を実際の空間の特定領域（すなわち目標領域の２つのサブ領域）として使用することができる。前記処理待ち画像を撮影するビデオカメラ４５の位置、内部パラメータ、および、特定領域（たとえば、サブ領域４１１とサブ領域４１２）の位置に基づいて、処理待ち画像における対応する２つの所定のサブ領域を確定して、前記手分類結果に対して位置制約を実行することができる。

ゲームテーブル４０の一部または全部の領域を含む処理待ち画像に対して検出を実行して得られた手検出結果に手検出フレームが含まれている場合、前記手検出フレーム内の画像を予め訓練された手分類ニューラルネットワークに入力し、前記手分類ニューラルネットワークは、入力画像に対して手が正面であることまたは手がその他の姿勢であることとの分類を実行することができる。２つの手検出フレームの画像の分類結果がいずれも手が正面であることに応答して、２つの手検出の位置が前記処理待ち画像の２つの所定のサブ領域内にいるか否かをさらに確定することができる。２つの手がそれぞれ前記２つの所定のサブ領域内にいることは、２つの手がそれぞれゲームテーブル４０上のホットゾーンに入ったことを表し、そうすれば、検出された手がハンドクリーンジェスチャーを取ったことを確定することができる。

クルーピアのハンドクリーンジェスチャーが確定された後、トリガー信号を発生することによって次の処理の流れに直接入ることができ、たとえば、ユーザによって別途にボタン（ハードウェアトリガー）を利用して監視制御を起動させる必要なしに、ゲーム過程の監視制御を起動することによって、ユーザのエクスペリエンスを改善することができる。また、クルーピアのハンドクリーンジェスチャーを認識することによって、さらに、クルーピアの手にいかなる禁止された物品を持たれているか否かを監視制御することができる。

図５は、本発明の少なくとも１つの実施例によって提供されるジェスチャー認識装置の構成の模式図である。図５に示すように、前記装置は、処理待ち画像に対して検出を実行して手検出結果を得るための取得ユニット５０１と、手検出結果に手検出フレームが含まれていることに応答して、前記手検出フレーム内の手姿勢が目標ジェスチャー中の手姿勢を満たすと確定するための第１確定ユニット５０２と、前記手が前記処理待ち画像における予め定義された領域内にいることを確定するための第２確定ユニット５０３と、前記手が目標ジェスチャーを取っていることを確定するための第３確定ユニット５０４と、を備える。

いくつかの実施例において、第１確定ユニット５０２は、具体的に、手検出結果に前記手検出フレームが含まれていることに応答して、前記処理待ち画像における手検出フレーム内に位置する画像をカッティングし、前記カッティングされた画像に基づいて、前記カッティングされた画像における手姿勢が目標ジェスチャー中の手姿勢手姿勢を満たすと確定する。

いくつかの実施例において、前記目標ジェスチャー中の手姿勢は、両手がいずれも正面であり、前記第１確定ユニットは、さらに、前記手検出フレーム内の画像を手分類ニューラルネットワークに入力して、手が正面であることまたは手が他の姿勢であることを含む手分類結果を得、２つの手検出フレームの手分類結果がいずれも正面である場合、前記手検出フレーム内の前記手姿勢が前記目標ジェスチャー中の手姿勢を満たすと確定する。

いくつかの実施例において、前記手分類ニューラルネットワークは、手画像サンプルを使用して訓練して得られたものであり、前記手画像サンプルは、手が正面である画像サンプルを含み、ラベル情報前記手が正面である画像サンプルのラベル情報は、手のひらである。

いくつかの実施例において、第２確定ユニットは、さらに、前記手検出フレームの中心点が前記予め定義された領域内にいることを確定する。

いくつかの実施例において、前記処理待ち画像は、目標領域に対して収集を実行して得られた画像であり、前記予め定義された領域は、前記処理待ち画像における、前記目標領域における２つのサブ領域にそれぞれ対応する２つの所定のサブ領域を含み、第２確定ユニット５０４は、具体的に、２つの手検出フレームの中心点がそれぞれ前記２つの所定のサブ領域内にあることを確定する。

いくつかの実施例において、前記処理待ち画像は、上面からの視角で収集した前記ゲームテーブル上の画像である。

図６は、本発明の少なくとも１つの実施例によって提供される電子デバイスの構成の模式図である。前記デバイスは、プロセッサ６０１と、プロセッサによって実行できる命令を記憶するためのメモリ６０２と、を備え、ここで、前記プロセッサ６０１は、前記メモリ６０２に記憶されている命令を呼び出して、少なくとも１つの実施例に記載のジェスチャー認識方法を実行する。前記電子デバイスは、ビデオカメラなどの他のデバイスと通信するためのネットワークインターフェース６０３と、バス６０４と、をさらに備え得、プロセッサ６０１、メモリ６０２、および、ネットワークインターフェース６０３は、バス６０４を介して互いに通信する。

本発明は、コンピュータプログラムが記憶されている、不揮発性のコンピュータ可読記録媒体をさらに提供し、前記コンピュータプログラムがプロセッサによって実行されるときに、プロセッサが少なくとも１つの実施例に記載のジェスチャー認識方法を実現するようにする。

当業者は、本発明の１つまたは複数の実施例は、方法、システム、または、コンピュータプログラム製品として提供することができることを了解すべきである。したがって、本発明の１つまたは複数の実施例は、完全なハードウェアの実施例、完全なソフトウェアの実施例、または、ソフトウェアとハードウェアを組み合わせる実施例の形態を使用することができる。また、本発明の１つまたは複数の実施例は、コンピュータ利用可能なプログラムコードを含む１つまたは複数のコンピュータ利用可能な記録媒体（ディスクメモリ、ＣＤ－ＲＯＭ、光学メモリなどを含むが、これらに限定されない）上で実施されるコンピュータプログラム製品の形態を使用することができる。

本明細書中の「および/または」は、両者の中の１つを少なくとも有することを意味し、たとえば、「Ａおよび/またはＢ」は、Ａ、Ｂ、および、「ＡとＢ」のような３種類のケースを含む。

本発明の各実施例は、いずれも、漸進的な方式を使用して叙述され、各実施例同士の間の同一または類似な部分は互いに参照することができ、各々の実施例では他の実施例との異なるところに焦点を合わせて説明した。特に、ジェスチャー認識デバイスの実施例の場合、基本的に方法の実施例と類似であるため、相対的に簡単に叙述したが、関連するところは方法の実施例の部分の説明を参照すればよい。

上記で本発明の特定の実施例を叙述した。他の実施例は、添付する「特許請求の範囲」の範囲内にいる。いくつかの場合、特許請求の範囲に記載の行為またはステップは、実施例と異なる順序に従って実行されることができ、このときにも依然として期待する結果が実現されることができる。また、図面で描かれた過程は、期待する結果するために、必ずとしても、示された特定の順序または連続的な順序を必要としない。いくつかの実施形態において、マルチタスク処理および並列処理も可能であるか、または、有利であり得る。

本発明の主題および機能操作の実施例は、デジタル電子回路、有形コンピュータソフトウェアまたはファームウェア、本発明に開示される構成およびその構造的同等物を含むコンピュータハードウェア、または、それらの１つまたは複数の組み合わせで、実現されることができる。本発明の主題の実施例は、１つまたは複数のコンピュータプログラムとして実現されることができ、すなわち、有形の非一時的プログラムキャリア上に符号化されて、データ処理装置によって実行されるか、または、データ処理装置の操作を制御するための、コンピュータプログラム命令中の１つまたは複数のモジュールとして実現されることができる。代替的または追加的に、プログラム命令は、手動で生成される伝播信号上に符号化されることができ、例えば、機械によって生成される電気的、光学的、または電磁的信号に符号化されることができる。当該信号は、情報を符号化して適切な受信機装置に伝送して、データ処理装置によって実行されるようにするために、生成される。コンピュータ記録媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダムにまたはシリアルアクセスメモリデバイス、または、それらの１つまたは複数の組み合わせであり得る。

本発明の処理と論理フローは、１つまたは複数のコンピュータプログラムを実行する１つまたは複数のプログラム可能なコンピュータによって実行されることができ、入力データに基づいて操作を実行して出力を生成することによって該当する機能を実行する。前記処理と論理フローは、さらに、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（専用集積回路）などの専用論理回路によって実行されることができ、また、装置も専用論理回路として実現されることができる。

コンピュータプログラムの実行に適したコンピュータは、例えば、汎用、および／または、専用マイクロプロセッサ、または、いかなる他の種類の中央処理ユニットを含む。一般的に、中央処理ユニットは、読み取り専用メモリ、および／または、ランダムアクセスメモリから、命令とデータを受信することになる。コンピュータの基本コンポーネントは、命令を実施または実行するための中央処理ユニット、および、命令とデータを記憶するための１つまたは複数のメモリデバイスを含む。一般的に、コンピュータは、磁気ディスク、磁気光学ディスク、または、光ディスクなどの、データを記憶するための１つまたは複数の大容量記憶デバイスをさらに含むか、または、操作可能に当該大容量記憶デバイスと結合されてデータを受信するかまたはデータを伝送するか、または、その両方を兼有する。しかしながら、コンピュータは、必ずとして、このようなデバイスを有するわけではない。なお、コンピュータは、もう１デバイスに埋め込まれることができ、例えば、携帯電話、パーソナルデジタルアシスタント（ＰＤＡ）、モバイルオーディオまたはビデオおプレーヤー、ゲームコンソール、グローバルポジショニングシステム（ＧＰＳ）レジーバー、または、汎用シリアルバス（ＵＳＢ）フラッシュドライブなどのポータブル記憶デバイスに埋め込まれることができ、これらデバイスはいくつかの例に過ぎない。

コンピュータプログラム命令とデータの記憶に適したコンピュータ可読媒体は、すべての形態の不揮発性メモリ、媒介、および、メモリデバイスを含み、例えば、半導体メモリデバイス（例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、および、フラッシュデバイス）、磁気ディスク（例えば、内部ハードディスクまたは移動可能ディスク）、磁気光学ディスク、および、ＣＤＲＯＭ、および、ＤＶＤ－ＲＯＭディスクを含む。プロセッサとメモリは、専用論理回路によって補完されるかまたは専用論理回路に組み込まれることができる。

本発明は、多くの具体的な実施の細部を含むが、これらを本発明の範囲または保護しようとする範囲を限定するものとして解釈すべきではなく、主に本発明のいくつかの実施例の特徴を叙述するために使用される。本発明の複数の実施例中の特定の特徴は、単一の実施例に組み合わせて実施されることもできる。他方、単一の実施例中の各種の特徴は、複数の実施例で別々に実施されるかまたはいかなる適切なサブ組み合わせで実施されることもできる。なお、特徴が上記のように特定の組み合わせで役割を果たし、また最初からこのように保護すると主張したが、保護すると主張した組み合わせからの１つまたは複数の特徴は、場合によって当該組み合わせから除外されることができ、また保護すると主張した組み合わせはサブ組み合わせまたはサブ組み合わせの変形に向けることができる。

類似的に、図面で特定の順序に従って操作を描いたが、これはこれら操作を示した特定の順序にしたがって実行するように要求するかまたは順次に実行するように要求するか、または、例示したすべての操作が実行されることによって期待する結果が実現されると要求することであると理解すべきではない。場合によっては、マルチタスクおよび並列処理が有利である可能性がある。なお、上記の実施例中の各種のシステムモジュールとコンポーネントの分離は、すべての実施例でいずれもこのように分離されなければならないと理解すべきではないし、また、叙述したプログラムコンポーネントとシステムは、一般的に、一緒に単一のソフトウェア製品に統合されるか、または、複数のソフトウェア製品にパッケージされることができることを理解すべきである。

上記は、本明細書の１つまたは複数の実施例のより好ましい実施例に過ぎず、本明細書の１つまたは複数の実施例を限定するために使用されるものではない。本明細書の１つまたは複数の実施例の精神と原則の範囲内で行われたいかなる修正、同等の置換、改良などは、いずれも、本明細書の１つまたは複数の実施例が保護する範囲に含まれるべきである。

Claims

ジェスチャー認識方法であって、
処理待ち画像に対して検出を実行して手検出結果を得ることと、
手検出結果に手検出フレームが含まれていることに応答して、前記手検出フレーム内の手姿勢が目標ジェスチャー中の手姿勢を満たすと確定することと、
前記手が前記処理待ち画像における予め定義された領域内にいることを確定することと、
前記手が目標ジェスチャーを取っていることを確定することと、を含む
ことを特徴とするジェスチャー認識方法。
前記手検出フレーム内の前記手姿勢が前記目標ジェスチャー中の前記手姿勢を満たすと確定することは手検出結果に前記手検出フレームが含まれていることに応答して、前記手検出フレーム内の前記手姿勢が前記目標ジェスチャー中の手姿勢を満たすと確定することは、
手検出結果に前記手検出フレームが含まれていることに応答して、前記処理待ち画像における手検出フレーム内に位置する画像をカッティングすることと、
前記カッティングされた画像に基づいて、前記カッティングされた画像における手姿勢が目標ジェスチャー中の手姿勢手姿勢を満たすと確定することと、を含む
ことを特徴とする請求項１に記載のジェスチャー認識方法。
前記目標ジェスチャー中の手姿勢は、両手がいずれも正面であり、
前記手検出フレーム内の前記手姿勢が前記目標ジェスチャー中の前記手姿勢を満たすと確定することは、
前記手検出フレーム内の画像を手分類ニューラルネットワークに入力して、手が正面であることまたは手が他の姿勢であることを含む手分類結果を得ることと、
２つの手検出フレームの手分類結果がいずれも正面である場合、前記手検出フレーム内の前記手姿勢が前記目標ジェスチャー中の手姿勢を満たすと確定することと、を含む
ことを特徴とする請求項１または２に記載のジェスチャー認識方法。
前記手分類ニューラルネットワークは、手画像サンプルを使用して訓練して得られたものであり、前記手画像サンプルは、手が正面である画像サンプルを含み、ラベル情報前記手が正面である画像サンプルのラベル情報は、手のひらである
ことを特徴とする請求項３に記載のジェスチャー認識方法。
前記手が前記処理待ち画像における前記予め定義された領域内にいることを確定することは、
前記手検出フレームの中心点が前記予め定義された領域内にいることを確定することを含む
ことを特徴とする請求項１乃至４の中のいずれか１項に記載のジェスチャー認識方法。
前記処理待ち画像は、目標領域に対して収集を実行して得られた画像であり、前記予め定義された領域は、前記処理待ち画像における、前記目標領域における２つのサブ領域にそれぞれ対応する２つの所定のサブ領域を含み、
それぞれ前記２つの所定のサブ領域内前記手検出フレームの前記中心点が前記予め定義された領域内にいることを確定することは、２つの手検出フレームの中心点がそれぞれ前記２つの所定のサブ領域内にあることを確定することを含む
ことを特徴とする請求項５に記載のジェスチャー認識方法。
前記処理待ち画像は、上面からの視角で収集した前記目標領域の画像である
ことを特徴とする請求項６に記載のジェスチャー認識方法。
ジェスチャー認識装置であって、
処理待ち画像に対して検出を実行して手検出結果を得るための取得ユニットと、
手検出結果に手検出フレームが含まれていることに応答して、前記手検出フレーム内の手姿勢が目標ジェスチャー中の手姿勢を満たすと確定するための第１確定ユニットと、
前記手が前記処理待ち画像における予め定義された領域内にいることを確定するための第２確定ユニットと、
前記手が目標ジェスチャーを取っていることを確定するための第３確定ユニットと、を備える
ことを特徴とするジェスチャー認識装置。
前記第１確定ユニットは、具体的に、手検出結果に前記手検出フレームが含まれていることに応答して、前記処理待ち画像における手検出フレーム内に位置する画像をカッティングし、
前記カッティングされた画像に基づいて、前記カッティングされた画像における手姿勢が目標ジェスチャー中の手姿勢手姿勢を満たすと確定する
ことを特徴とする請求項８に記載のジェスチャー認識装置。
前記目標ジェスチャー中の手姿勢は、両手がいずれも正面であり、
前記第１確定ユニットは、さらに、
前記手検出フレーム内の画像を手分類ニューラルネットワークに入力して、手が正面であることまたは手が他の姿勢であることを含む手分類結果を得、
２つの手検出フレームの手分類結果がいずれも正面である場合、前記手検出フレーム内の前記手姿勢が前記目標ジェスチャー中の手姿勢を満たすと確定する
ことを特徴とする請求項８または９に記載のジェスチャー認識装置。
前記手分類ニューラルネットワークは、手画像サンプルを使用して訓練して得られたものであり、前記手画像サンプルは、手が正面である画像サンプルを含み、ラベル情報前記手が正面である画像サンプルのラベル情報は、手のひらである
ことを特徴とする請求項１０に記載のジェスチャー認識装置。
前記第２確定ユニットは、さらに、
前記手検出フレームの中心点が前記予め定義された領域内にいることを確定する
ことを特徴とする請求項８乃至１１の中のいずれか１項に記載のジェスチャー認識装置。
前記処理待ち画像は、目標領域に対して収集を実行して得られた画像であり、前記予め定義された領域は、前記処理待ち画像における、前記目標領域における２つのサブ領域にそれぞれ対応する２つの所定のサブ領域を含み、
前記第２確定ユニットは、さらに、
２つの手検出フレームの中心点がそれぞれ前記２つの所定のサブ領域内にあることを確定する
ことを特徴とする請求項１２に記載のジェスチャー認識装置。
前記処理待ち画像は、上面からの視角で収集した前記目標領域の画像である
ことを特徴とする請求項１３に記載のジェスチャー認識装置。
電子デバイスであって、
前記デバイスは、プロセッサと、プロセッサ上で実行できるコンピュータ命令を記憶するためのメモリと、を備え、前記プロセッサは、前記コンピュータ命令を実行するときに、請求項１乃至７の中のいずれか１項に記載の方法を実行する
ことを特徴とする電子デバイス。
コンピュータプログラムが記憶されている不揮発性コンピュータ可読記録媒体であって、
前記プログラムがプロセッサによって実行されるときに、前期プロセッサが請求項１乃至７の中のいずれか１項に記載の方法を実行するようにする
ことを特徴とする不揮発性コンピュータ可読記録媒体。