JP6941198B2

JP6941198B2 - ジェスチャー認識方法、ジェスチャー認識装置、電子機器、及び記憶媒体

Info

Publication number: JP6941198B2
Application number: JP2020047334A
Authority: JP
Inventors: チェンツァオ，; シャオションヤン，; ユァンガオ，
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-03-19
Filing date: 2020-03-18
Publication date: 2021-09-29
Anticipated expiration: 2040-03-18
Also published as: KR102292028B1; KR20200111617A; US10983596B2; CN109948542B; EP3712805B1; US20200301514A1; CN109948542A; JP2020155129A; EP3712805A1

Description

本出願は、ヒューマンマシンインタラクション技術の分野に関し、特にジェスチャー認識方法、ジェスチャー認識装置、電子機器、及び記憶媒体に関する。

コンピュータ技術の急速な発展に伴い、コンピュータは、あらゆる面で人々に便利をもたらし、人々は、コンピュータから切り離せない存在になっている。その中で、情報に関する人間とコンピュータとのインタラクションは、必要で不可欠な一環である。その中で、ビジョンに基づくヒューマンマシンインタラクションは、既にヒューマンマシンインタラクション分野の主流の技術となっている。

関連技術において、主にジェスチャー認識によってヒューマンマシンインタラクションを行っている。現在のジェスチャー認識方式の多くは、画像内のジェスチャーのキーポイントの３Ｄ位置を検測することによりジェスチャーを決定する。しかし、手の自己遮蔽、複数の自由度、異なる人異なる環境によっては、同一のジェスチャーの違いが大きいなどの要因により、このようなジェスチャー認識方式は、アルゴリズムが複雑で、認識速度が遅くなる。

本出願は、関連技術においてジェスチャーキーポイントの３Ｄ位置を検測することによりジェスチャーを決定する方法におけるアルゴリズムが複雑で認識速度が遅いなどの問題を解決するジェスチャー認識方法、ジェスチャー認識装置、電子機器、及び記憶媒体を提供する。

本出願の第一態様の実施例は、予め設定された手のひらの向き認識モデルを用いて、目標ビデオフレームの各画像を順次に認識処理し、各フレーム画像に手のひらの画像が含まれる確率及び各フレーム画像に対応する手のひらの法線ベクトルを決定するステップと、各フレーム画像に手のひらの画像が含まれる確率に基づいて、前記目標ビデオフレームに含まれる目標画像グループを決定するステップと、前記目標画像グループにおける各フレーム目標画像に対応する手のひらの法線ベクトルに基づいて、前記目標ビデオフレームに対応する目標ジェスチャーを決定するステップと、を含むジェスチャー認識方法を提供する。

本出願の実施例のジェスチャー認識方法は、予め設定された手のひらの向き認識モデルを用いて、目標ビデオフレームの各画像を順次に認識処理し、各フレーム画像に手のひらの画像が含まれる確率及び各フレーム画像に対応する手のひらの法線ベクトルを決定し、各フレーム画像に手のひらの画像が含まれる確率に基づいて、目標ビデオフレームに含まれる目標画像グループを決定し、目標画像グループにおける各フレーム目標画像に対応する手のひらの法線ベクトルに基づいて、目標ビデオフレームに対応する目標ジェスチャーを決定する。これにより、予め設定された手のひらの向き認識モデルを用いて手のひらの法線ベクトルを直接出力することができ、そしてジェスチャーを決定することができ、アルゴリズムが簡単で、認識速度が速い。

本出願の第２態様の実施例は、予め設定された手のひらの向き認識モデルを用いて、目標ビデオフレームの各画像を順次に認識処理し、各フレーム画像に手のひらの画像が含まれる確率及び各フレーム画像に対応する手のひらの法線ベクトルを決定するように構成される第１決定モジュールと、各フレーム画像に手のひらの画像が含まれる確率に基づいて、前記目標ビデオフレームに含まれる目標画像グループを決定するように構成される第２決定モジュールと、前記目標画像グループにおける各フレーム目標画像に対応する手のひらの法線ベクトルに基づいて、前記目標ビデオフレームに対応する目標ジェスチャーを決定するように構成される第３決定モジュールと、を備えるジェスチャー認識装置を提供する。

本出願の実施例のジェスチャー認識装置は、予め設定された手のひらの向き認識モデルを用いて、目標ビデオフレームの各画像を順次に認識処理し、各フレーム画像に手のひらの画像が含まれる確率及び各フレーム画像に対応する手のひらの法線ベクトルを決定し、各フレーム画像に手のひらの画像が含まれる確率に基づいて、目標ビデオフレームに含まれる目標画像グループを決定し、目標画像グループにおける各フレーム目標画像に対応する手のひらの法線ベクトルに基づいて、目標ビデオフレームに対応する目標ジェスチャーを決定する。これにより、予め設定された手のひらの向き認識モデルを用いて手のひらの法線ベクトルを直接出力することができ、そしてジェスチャーを決定することができ、アルゴリズムが簡単で、認識速度を速くすることができる。

本出願の第３態様の実施例は、プロセッサとメモリとを含む電子機器であって、前記プロセッサが、前記メモリに記憶されている実行可能なプログラムコードを読み出して、前記実行可能なプログラムコードに対応するプログラムを実行することにより、上記第１態様の実施例に記載のジェスチャー認識方法を実現する電子機器を提供する。

本出願の第４態様の実施例は、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、当該プログラムがプロセッサによって実行される場合、上記第１態様の実施例に記載のジェスチャー認識方法が実現されるコンピュータ読み取り可能な記憶媒体を提供する。

本出願の付加的な特徴及び利点は、一部が以下の説明において示され、一部が以下の説明により明らかになり、又は本出願の実践により理解される。

本出願の上記及び/又は付加的な特徴及び利点は、実施例について図面を参照して以下に説明することにより、明らかになり、理解されやすくなる。
本出願の実施例によって提供されるジェスチャー認識方法の概略フローチャートである。本出願の実施例によって提供される目標ビデオフレームに対応する目標ジェスチャーを決定する方法の概略フローチャートである。本出願の実施例によって提供される予め設定された手のひらの向き認識モデルを訓練する方法の概略フローチャートである。本出願の実施例によって提供されるジェスチャー認識装置の概略構成図である。本発明の実施形態の実施に適する例示的な電子機器のブロック図である。

以下、本出願の実施例を詳細に説明する。前記実施例の例が図面に示され、同一又は類似の符号は、常に同一又は類似の素子、或いは、同一又は類似の機能を有する構成要素を示す。以下に、図面を参照しながら説明される実施例は例示的なものであり、本出願を解釈するためだけに用いられ、本出願を限定するものと理解してはならない。

本出願の実施例のジェスチャー認識方法、ジェスチャー認識装置、電子機器、及び記憶媒体について、図面を参照して以下に説明する。

図１は、本出願の実施例によって提供されるジェスチャー認識方法の概略フローチャートである。

本出願の実施例のジェスチャー認識方法は、本出願の実施例によって提供されるジェスチャー認識装置によって実行することができ、当該装置は、携帯電話、スマートテレビなどの電子機器に配置することができ、予め設定された手のひらの向き認識モデルを用いて手のひらの法線ベクトルを直接出力することができ、そしてジェスチャーを決定することができ、アルゴリズムが簡単で、認識速度が速い。

図１に示すように、当該ジェスチャー認識方法は、以下のステップ１０１〜ステップ１０３を含む。
ステップ１０１において、予め設定された手のひらの向き認識モデルを用いて、目標ビデオフレームの各画像を順次に認識処理し、各フレーム画像に手のひらの画像が含まれる確率及び各フレーム画像に対応する手のひらの画像を決定する。

実際の応用において、撮像デバイスによって複数フレーム画像を収集し、収集した複数フレーム画像を目標ビデオフレームとすることができる。すなわち、目標ビデオフレームは、取得された連続的な複数フレーム画像であっていい。

本実施例において、予め設定された手のひら向き認識モデルの出力は、２通りを有し、１つは手のひらのジェスチャーの確率を出力する２項分類器であり、もう１つは、空間直交座標系におけるＸ軸、Ｙ軸、Ｚ軸の値ｘ、ｙ、ｚという３つの値を出力して、手のひらの法線ベクトル（ｘ，ｙ，ｚ）を取得するものである。

具体的には、予め設定された手のひらの向き認識モデルに、目標ビデオフレームにおける各フレーム画像を順次に入力し、予め設定された手のひらの向き認識モデルが各フレーム画像を認識し、各フレーム画像に手のひらの画像が含まれる確率及び各フレーム画像に対応する手のひらの法線ベクトルを出力する。

ここで、手のひらの法線ベクトルは、手のひらの平面に垂直なベクトルであって、手のひらの法線ベクトルの方向に基づいて手のひらの向きを決定することができる。例えば、手のひらの法線ベクトルの方向が垂直で上向きである場合、手のひらが上向きであると決定することができる。

認識効率を向上させるために、予め設定された手のひらの向き認識モデルを用いて目標ビデオフレーム画像の認識処理を行う前に、まず目標ビデオフレームの初期フィルタリングを行い、無効な画像を削除し、例えば、人体を含まない画像を削除することができる。

関連技術において、手のひらの３Ｄキーポイントによってジェスチャーを認識する方法は、画像内の手のひらの３Ｄキーポイントを検測し、検出された３Ｄキーポイントに基づいて、手のひらの法線ベクトルを決定する方法である。一方、本実施例において、予め設定された手のひらの向き認識モデルを用いて、手のひらの法線ベクトルを直接決定するため、方法は簡単である。

ステップ１０２において、各フレーム画像に手のひらの画像が含まれる確率に基づいて、目標ビデオフレームに含まれる目標画像グループを決定する。

実際の応用において、人の姿勢変化によって、収集された画像に人の手が含まれない可能性があり、すなわち、ジェスチャーを決定するための目標ビデオフレームに、いくつかの画像には手のひらが含まれない可能性があるため、本実施例は、目標ビデオフレームにおける各フレーム画像に手のひらの画像が含まれる確率に基づいて、目標ビデオフレームの各フレーム画像を判断し、目標ビデオフレームに含まれる目標画像グループを決定することができる。

具体的には、目標ビデオフレームにおける各フレーム画像に手のひらの画像が含まれる確率と予め設定された閾値とを比較し、第１フレーム画像に手のひらの画像が含まれる確率が閾値以上である場合に、第１フレーム画像を目標画像グループ内の画像として決定することができる。よって、目標画像グループ内の画像は、手のひらの画像が含まれる確率が高い画像である。

区別しやすくするため、本実施例では、手のひらの画像が含まれる確率が閾値以上である画像を第１フレーム画像と呼ぶ。つまり、第１フレーム画像は、目標ビデオフレームにおける手のひらの画像が含まれる確率が閾値以上であるフレーム画像を指す。

本実施例において、目標ビデオフレームにおける各フレーム画像に手のひらの画像が含まれる確率に基づいて、手のひらの画像が含まれる確率の低い画像をフィルタリングして、目標画像グループを形成することにより、ジェスチャー認識の精度が向上する。

ステップ１０３において、目標画像グループにおける各フレーム画像に対応する手のひらの法線ベクトルに基づいて、目標ビデオフレームに対応する目標ジェスチャーを決定する。

各フレーム画像に対応する手のひらの法線ベクトルに基づいて、各フレーム画像内の手のひらの向きを決定することができるため、目標画像グループにおける各フレーム画像内の手のひらの向きに基づいて、手のひらの向きの変化を決定することができ、そして、手のひらの向きの変化に基づいて、目標ビデオフレームに対応するジェスチャーを決定することができ、ここでは、目標ビデオフレームに対応するジェスチャーを目標ジェスチャーと呼ぶ。

本実施例において、各フレーム画像に手のひらの画像が含まれる確率に基づいて決定された目標画像グループを利用してジェスチャーを決定することは、目標ビデオフレームを利用してジェスチャーを決定することより、ジェスチャー認識の正確率を向上させることができる。

本出願実施例のジェスチャー認識方法は、予め設定された手のひらの向き認識モデルを用いて、目標ビデオフレームの各画像を順次に認識処理することにより、各フレーム画像に手のひらの画像が含まれる確率及び各フレーム画像に対応する手のひらの法線ベクトルを決定し、次に、各フレーム画像に手のひらの画像が含まれる確率を用いて、目標画像グループを決定し、目標画像グループにおける各フレーム画像に対応する手のひらの法線ベクトルに基づいて、目標画像フレームに対応する目標ジェスチャーを決定する。よって、予め設定された手のひらの向き認識モデルを用いて、画像に対応する手のひらの法線ベクトルを直接出力することができ、アルゴリズムが簡単で、認識速度を速くすることができる。

本出願の一実施例において、図２に示す方法によって、目標ジェスチャーを決定することができる。図２は、本出願の実施例によって提供される目標ビデオフレームに対応する目標ジェスチャーを決定する方法の概略フローチャートである。

図２に示すように、目標画像グループにおける各フレーム目標画像に対応する手のひらの法線ベクトルに基づいて、目標ビデオフレームに対応する目標ジェスチャーを決定するステップは、以下のステップ２０１及びステップ２０２を含む。
ステップ２０１において、目標画像グループにおける各フレーム画像に対応する手のひらの法線ベクトルに基づいて、各フレーム目標画像内の手のひらの向きを決定する。

手のひらの法線ベクトルが手のひらの現在の向きを示すことができるので、目標画像グループにおける各フレーム目標画像に対応する手のひらの法線ベクトルに基づいて、各フレーム画像内の手のひらの向きを決定することができる。

例えば、手のひらの法線ベクトルが垂直で下向きである場合に、手のひらの向きが下向きであると決定することができる。

ステップＳ２０２において、各フレーム目標画像内の手のひらの向き及び各フレーム目標画像の収集順番に基づいて、目標ビデオフレームに対応する目標ジェスチャーを決定する。

人間の動作が連続的であるため、目標画像グループにおける各フレーム目標画像の収集順番、及び各フレーム目標画像内の手のひらの向きに基づいて、目標ビデオフレームを収集する時間帯における手のひらの向きの変化を決定することにより、目標ビデオフレームに対応する目標ジェスチャーを決定することができる。

本出願の実施例において、目標画像グループにおける各フレーム目標画像に対応する手のひらの法線ベクトルに基づいて、各フレーム目標画像内の手のひらの向きを決定し、次に各フレーム目標画像内の手のひらの向き、及び各フレーム目標画像の収集順番に基づいて、目標ビデオフレームに対応する目標ジェスチャーを決定する。

実際の応用において、予め設定された手のひらの向き認識モデルを用いて、目標ビデオフレームの各画像の認識を行う前に、訓練によって、予め設定された手のひらの向き認識モデルを得ることができる。以下、図３を合わせて説明する。図３は、本出願の実施例によって提供される予め設定された手のひらの向き認識モデル訓練方法の概略フローチャートである。

図３に示すように、当該訓練方法は、以下のステップ３０１及びステップ３０２を含む。
ステップ３０１において、手のひらの画像、非手のひらの画像、及び各手のひらの画像に対応する手のひらの法線ベクトルを含む訓練データセットを取得する。

本実施例において、まず、大量の手のひらの画像、複数の非手のひらの画像（すなわち手のひらが含まれない画像）を取得し、次に、取得された手のひらの画像と非手のひらの画像とにラベル付けすることができる。

ここで、ラベル付けは、２つに分かれ、１つは、ジェスチャーカテゴリのラベル付けであり、もう１つは手のひらの法線ベクトルのラベル付けである。

ジェスチャーカテゴリのラベルは、手のひらジェスチャーと非手のひらジェスチャーとの２種類のジェスチャーに分かれる。各手のひらの画像のジェスチャーカテゴリは、手のひらジェスチャーとしてラベル付けされ、各非手のひらの画像のジェスチャーカテゴリは、非手のひらジェスチャーとしてラベル付けされる。

手のひらの法線ベクトルのラベル付けについて、ジェスチャー向きに基づいて手のひらの法線ベクトルを推定することができ、又は１つのオープンソースの拡張ＡＲＳＤＫによってラベル付けすることもできる。ここでは、ＡＲＴｏｏｌＫｉｔによってラベル付けすることができる。

ＡＲＴｏｏｌＫｉｔは、１つのオープンソースの拡張ＡＲＳＤＫであって、カメラの内部および外部パラメータをリアルタイムで求めることができる。具体的には、まず、１つのマークを作成する。そして、マークを手のひらに貼り付け、ＡＲＴｏｏｌＫｉｔを利用してストーキングを行う。ＡＲＴｏｏｌＫｉｔは、特徴点のマッチングに基づいて２グループの特徴点の回転平行移動マトリックス（ＲＴマトリックス）、すなわちＰｏｓｅマトリックスを取得し、これにより、手のひらのジェスチャーの３Ｄ向き角度、すなわち手のひらの法線ベクトルを取得することができる。

関連技術において、画像内の手のひらの３Ｄキーポイントを検測することにより認識ジェスチャーを認識する方法について、大量の手のひらの３Ｄキーポイントにラベル付けする必要があり、しかも３Ｄキーポイントのラベル付けの困難さが、ラベル付けの誤差も高い。一方、本実施例において、取得された手のひらの画像と非手のひらの画像とにジェスチャーカテゴリと手のひらの法線ベクトルとのみをラベル付けする必要があり、手のひらの３Ｄキーポイントのラベル付けに比べ、ラベル付けの困難さが低く、ラベル付け作業が簡単である。

ステップ３０２について、予め設定された手のひらの向き認識モデルを生成するように、訓練データセットを用いて、初期インターネットモデルを訓練する。

本実施例において、初期インターネットモデルは、畳み込みニューラルネットワークであってよく、ここで、初期インターネットモデルの出力は、画像に手のひらの画像が含まれる確率を出力するものと、３つの値、すなわち手のひらの法線ベクトルを出力するものと、の２通りを有する。

具体的には、訓練データセット内の画像を用いて、初期インターネットモデルを訓練し、初期インターネットモデルの損失関数が低下しなくなってあらかじめ設定された手のひらの向き認識モデルを取得するまで、初期インターネットモデル中のパラメータを反復訓練により調整し続ける。

予め設定された手のひらの向き認識モデルを取得した後、予め設定された手のひらの向き認識モデルを用いて、目標ビデオフレームに対応する目標ジェスチャーを決定することができる。

本出願の実施例において、手のひらの画像、非手のひらの画像、及び各手のひらの画像に対応する手のひらの法線ベクトルを含む訓練データセットを用いて、初期インターネットモデルを訓練して、予め設定された手のひらの向き認識モデルを取得する。訓練データセット内の画像にラベル付けする際に、画像内のジェスチャーカテゴリと手のひらの法線ベクトルとのみをラベル付けする必要があるため、手のひらの３Ｄキーポイントのラベル付けに比べ、ラベル付けの困難さが低く、しかも予め設定された手のひらの向き認識モデルを用いてジェスチャーを決定するほうが、精度が高い。

いずれかの平面法線ベクトルは、無数に存在するので、データのラベル付け及びモデル処理を簡略化するために、手のひらの単位法線ベクトルのみをラベルづけしてもよい。

具体的には、訓練データセットを取得した後、各手のひらの画像に対応する手のひらの法線ベクトルを正規化処理して、各手のひらの画像に対応する単位法線ベクトルを取得する。手のひらの法線ベクトル（ｘ，ｙ，ｚ）の正規化処理は、以下の式（１）に示され、

ここで、（ｘ_０，ｙ_０，ｚ_０）は、手のひらの法線ベクトル（ｘ，ｙ，ｚ）の単位法線ベクトルである。

本出願の実施例において、訓練データセットを取得した後、各手のひらの画像の手のひらの法線ベクトルを正規化して単位法線ベクトルを取得し、手のひらの画像に単位法線ベクトルのみをラベルづけすることにより、ラベルづけを簡略化することができるだけでなく、モデル処理を減らすこともできる。

ヒューマンマシンインタラクションの分野において、ジェスチャーを用いて機器を相応に制御することができる。本出願の一実施例において、目標ビデオフレームに対応する目標ジェスチャーを決定した後、さらに、目標ジェスチャーと予め設定されたジェスチャーとを比較することができる。ここで、予め設定されたジェスチャーは１つ又は複数あってもよく、かつ、各ジェスチャーは、異なる制御命令に対応する。

マッチングを行う時、目標ジェスチャーの変化過程と予め設定されたジェスチャーの変化過程とが一致しているか否かに基づいて、目標ジェスチャーが予め設定されたジェスチャーとマッチングするか否かを判断することができる。目標ジェスチャーがいずれかの予め設定されたジェスチャーとマッチングされる場合に、いずれかの予め設定されたジェスチャーに対応する制御命令に基づいて電子機器を制御する。

例えば、「手のひらが上向きから下向きに反転する」という予め設定されたジェスチャーは、スマートテレビをオフにする制御命令に対応するものであり、目標ジェスチャーが当該予め設定されたジェスチャーとマッチングされる場合、スマートテレビがオフにされる。

本出願の実施例において、目標ビデオフレームのジェスチャーを決定した後、目標ジェスチャーがいずれかの予め設定されたジェスチャーとマッチングされる場合、いずれかの予め設定されたジェスチャーに対応する制御命令に基づいて電子機器を制御することができ、ジェスチャーによってヒューマンマシンインタラクションを行う目的を実現することができる。

上記実施例を実現するために、本出願の実施例は、ジェスチャー認識装置をさらに提供する。図４は、本出願の実施例によって提供されるジェスチャー認識装置の概略構成図である。

図４に示すように、当該ジェスチャー認識装置は、第１決定モジュール４１０、第２決定モジュール４２０、及び第３決定モジュール４３０を備える。

第１決定モジュール４１０は、予め設定された手のひらの向き認識モデルを用いて、目標ビデオフレームの各画像を順次に認識処理し、各フレーム画像に手のひらの画像が含まれる確率及び各フレーム画像に対応する手のひらの法線ベクトルを決定するように構成される。
第２決定モジュール４２０は、各フレーム画像に手のひらの画像が含まれる確率に基づいて、目標ビデオフレームに含まれる目標画像グループを決定するように構成される。
第３決定モジュール４３０は、目標画像グループにおける各フレーム目標画像に対応する手のひらの法線ベクトルに基づいて、目標ビデオフレームに対応する目標ジェスチャーを決定するように構成される。

本出願の実施例の一可能な実現形態において、上記第２決定モジュール４２０は、具体的には、第１フレーム画像に手のひらの画像が含まれる確率が閾値以上である場合に、第１フレーム画像を目標画像グループ内の画像として決定するように構成される。

本出願の実施例の一可能な実現形態において、上記第３決定モジュール４３０は、具体的には、目標画像グループにおける各フレーム画像に対応する手のひらの法線ベクトルに基づいて、各フレーム目標画像内の手のひらの向きを決定するように構成される、各フレーム目標画像内の手のひらの向き及び各フレーム目標画像の収集順番に基づいて、目標ビデオフレームに対応する目標ジェスチャーを決定するように構成される。

本出願の実施例の一可能な実現形態において、上記予め設定された手のひらの向き認識モデルは、手のひらの画像、非手のひらの画像、及び各手のひらの画像に対応する手のひらの法線ベクトルを含む訓練データセットを取得するように構成される取得モジュールと、予め設定された手のひらの向き認識モデルを生成するように、訓練データセットを用いて、初期インターネットモデルを訓練する構成される訓練モジュールと、によって訓練される。

本出願の実施例の一つの可能な実現形態において、予め設定された手のひらの向き認識モデルを訓練するモジュールは、各手のひらの画像に対応する手のひらの法線ベクトルを正規化処理して、各手のひらの画像に対応する単位法線ベクトルを決定するように構成される第４決定モジュールをさらに備える。

本出願の実施例の一つの可能な実現形態において、当該装置は、目標ジェスチャーがいずれかの予め設定されたジェスチャーとマッチングされる場合に、いずれかの予め設定されたジェスチャーに対応する制御命令に基づいて電子機器を制御するように構成される制御モジュールをさらに備える。

なお、ジェスチャー認識方法の実施例の上記説明は、当該実施例のジェスチャー認識装置にも適用するので、ここでは説明を省略する。

本出願の実施例のジェスチャー認識装置は、予め設定された手のひらの向き認識モデルを用いて、目標ビデオフレームの各画像を順次に認識処理し、各フレーム画像に手のひらの画像が含まれる確率及び各フレーム画像に対応する手のひらの法線ベクトルを決定し、各フレーム画像に手のひらの画像が含まれる確率に基づいて、目標ビデオフレームに含まれる目標画像グループを決定し、目標画像グループにおける各フレーム目標画像に対応する手のひらの法線ベクトルに基づいて、目標ビデオフレームに対応する目標ジェスチャーを決定する。これにより、予め設定された手のひら向き認識モデルを用いて手のひらの法線ベクトルを直接出力することができ、そしてジェスチャーを決定することができ、アルゴリズムが簡単で、認識速度を速くすることができる。

上記実施例を実現するために、本出願の実施例は、プロセッサとメモリとを備える電子機器をさらに提供し、プロセッサが、メモリに記憶されている実行可能なプログラムコードを読み出して、前記実行可能なプログラムコードに対応するプログラムを実行することにより、上記実施例に記載なジェスチャー認識方法を実現する。

図５は、本発明の実施形態の実施に適する例示的な電子機器のブロック図である。図５に示す電子機器１２は、単に例示するものであり、本出願の実施例の機能及び使用範囲について一切限定しない。

図５に示すように、電子機器１２は、汎用コンピューティング機器の形態で示されている。電子機器１２の構成要素は、一つ又は複数のプロセッサ又は処理ユニット１６と、システムメモリ２８と、異なるシステム構成要素（システムメモリ２８と処理ユニット１６とを備える）を接続するバス１８と、を備えることができるが、これらに限定されない。

バス１８は、メモリバス又はメモリコントローラ、周辺バス、アクセラレーテッドグラフィックスポート、プロセッサ又は多様なバス構造のうちのいずれかのバス構造を使用するローカルバスを含む、複数種類のバス構造のうち一つ又は複数を表す。例を挙げると、これらのアーキテクチャは、インダストリスタンダードアーキテクチャ（ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ、以下ではＩＳＡと略する）バス、マイクロチャネルアーキテクチャＭｉｃｒｏＣｈａｎｎｅｌＡｒｃｈｉｔｅｃｔｕｒｅ、以下ではＭＡＣと略する）バス、拡張ＩＳＡバス、ビデオエレクトロニクススタンダーズアソシエーション（ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ、以下ではＶＥＳＡと略する）ローカルバス、及びペリフェラルコンポーネントインターコネクト（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔｉｏｎ、以下ではＰＣＩと略する）バスを含むが、これらに限定されない。

電子機器１２は、典型的には、複数種類のコンピュータシステム読み取り可能な媒体を備える。これらの媒体は、電子機器１２がアクセスすることができる任意の使用可能な媒体であってもよく、揮発性媒体及び不揮発性媒体、リムーバブル媒体及びノンリムーバブル媒体を含む。

システムメモリ２８は、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、以下ではＲＡＭと略する）３０及び／又はキャッシュメモリ３２などの揮発性メモリの形態のコンピュータシステム読み取り可能な媒体を備えてもよい。電子機器１２は、他のリムーバブル／ノンリムーバブル、揮発性／不揮発性コンピュータシステム記憶媒体をさらに備えてもよい。単なる一例として、ストレージシステム３４は、ノンリムーバブル、不揮発性磁気媒体（図５に示されていないが、通常「ハードドライブ」という）に対して読み出し及び書き込みをするために用いることができる。図５に示されていないが、リムーバブル不揮発性磁気ディスク（例えば、「フロッピーディスク」）に対して読み出し及び書き込みをするための磁気ディスクドライブ、及びリムーバブル不揮発性光ディスク（例えば、ＣＤリードオンリーメモリ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ、以下ではＣＤ−ＲＯＭと略する）、ＤＶＤリードオンリーメモリ（ＤｉｇｉｔａｌＶｉｄｅｏＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ、以下ではＤＶＤ−ＲＯＭと略する）、又は他の光媒体）に対して読み出し及び書き込みをするための光ディスクドライブを提供することができる。これらの場合、各ドライブは、一つ又は複数のデータメディアインターフェイスを介してバス１８に接続することができる。システムメモリ２８は、本発明の各実施例に記載の機能を実行するように構成される１セット（例えば、少なくとも一つ）のプログラムモジュールを有する少なくとも一つのプログラム製品を含んでもよい。

１セット（少なくとも一つ）のプログラムモジュール４２を有するプログラム／ユーティリティ４０は、例えば、システムメモリ２８に記憶されてもよく、このようなプログラムモジュール４２は、オペレーティングシステム、一つ又は複数のアプリケーションプログラム、他のプログラムモジュール、及びプログラムデータを含むがこれらに限定されない。これらの例のそれぞれ又は何らかの組み合わせには、ネットワーク環境の実装が含まれる可能性がある。プログラムモジュール４２は、通常本発明に記載の実施例における機能及び／又は方法を実行する。

電子機器１２は、一つ又は複数の外部デバイス１４（例えば、キーボード、ポインティングデバイス、ディスプレイ２４など）と通信することができるし、ユーザが電子機器１２とインタラクションすることを可能にする一つ又は複数のデバイスと通信することもでき、及び／又は電子機器１２が一つ又は複数の他のコンピューティング機器と通信することを可能にする任意のデバイス（例えば、ネットワークカード、モデムなど）と通信することができる。そのような通信は、入力／出力（Ｉ／Ｏ）インターフェイス２２を介して行うことができる。また、電子機器１２は、ネットワークアダプタ２０を介して、一つ又は複数のネットワーク（例えば、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、及び／又はパブリックネットワーク、例えば、インターネット）と通信することができる。図に示すように、ネットワークアダプタ２０は、バス１８を介して、電子機器１２の他のモジュールと通信する。なお、図に示されていないが、マイクロコードやデバイスドライバ、冗長処理ユニット、外部ディスクドライブアレイ、ＲＡＩＤシステム、テープドライバ、及びデータバックアップトレージシステムなどを含むがこれらに限定されない他のハードウェア及び／又はソフトウェアモジュールを、電子機器１２と組み合わせて使用することができる。

処理ユニット１６は、システムメモリ２８に記憶されたプログラムを実行することにより、様々な機能アプリケーション及びデータ処理を実行し、例えば上記の実施例に係る方法を実現する。

上記の実施例を実現するために、本発明の実施例は、コンピュータプログラムが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行される場合に、上記の実施例に記載のジェスチャー認識方法が実現される非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供する。

本発明の説明において、「第１の」、「第２の」の用語は、単に説明するためのものであり、比較的な重要性を指示又は暗示するか、或いは示された技術的特徴の数を黙示的に指示すると理解してはならない。よって、「第１の」、「第２の」が限定されている特徴は少なくとも一つの前記特徴を含むことを明示又は暗示するものである。本開示の説明において、明確且つ具体的な限定がない限り、「複数」とは、少なくとも二つ、例えば、二つ、三つなどを意味する。

フローチャート、又はここで他の方式で記載されるあらゆるプロセス又は方法の説明は、特定のロジック機能又はプロセスのステップを実現するための一つ又はそれ以上の実行可能な命令のコードを含むモジュール、セグメント又は部分と理解されてもよい。また、本発明の好ましい実施形態の範囲は、他の実現形態を含んでおり、示され又は議論された順序に従わなくてもよく、言及された機能が実質的に同時に、又は逆の順序に従って機能を実行することを含む。これは、本発明の実施例の当業者によって理解されるべきである。

フローチャートで示された、又は、ここで他の形態で説明されたロジック及び/又はステップは、例えば、ロジック機能を実現するための実行可能な命令の順番付けられたリストと見なすことができ、任意のコンピュータ読み取り可能な媒体に具体的に実装されて、命令実行システム、装置又はデバイス（例えばコンピュータに基づいたシステム、プロセッサを含むシステム、又は他の命令実行システム、装置又はデバイスから命令を取得して命令を実行するシステム）に利用されるか、又は、これらの命令実行システム、装置又はデバイスと組み合わせて利用される。本願明細書において、「コンピュータ読み取り可能な媒体」は、命令実行システム、装置又はデバイスによって、又は、命令実行システム、装置又はデバイスと組み合わせて使用するためのプログラムを含む、格納する、通信する、伝播する、又は伝送することができる任意のデバイスであってもよい。コンピュータ読み取り可能な媒体のより具体的な例（非限定的なリスト）として、１つ又は複数の配線を備える電気接続部（電子デバイス）、ポータブルコンピュータディスクカートリッジ（磁気デバイス）、ランダムアクセスメモリ（ＲＡＭ）読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバデバイス、及びポータブルコンパクトディスク読み出し専用リメモリ（ＣＤＲＯＭ）を含む。また、コンピュータ読み取り可能な媒体は、前記プログラムが印刷され得る紙又は他の適切な媒体であってもよく、これは、例えば、紙や他の媒体を光学的スキャンし、次に編集し、解釈し、又は必要な場合に他の適切な形態で処理して前記プログラムを電子的に取得して、そしてコンピュータメモリに格納するからである。

なお、本発明の各部分は、ハードウェア、ソフトウェア、ファームウェア又はこれらの組み合わせで実現することができる。上記の実施形態では、複数のステップ又は方法は、メモリに記憶され適切な命令実行システムによって実行されるソフトウェア又はファームウェアで実現することができる。例えば、ハードウェアにより実現される場合は、他の実施形態と同じく、データ信号のロジック機能を実現するための論理ゲート回路を備えたディスクリート論理回路、適切な組み合わせ論理ゲート回路を備えた専用集積回路、プログラマブルゲートアレイ（ＰＧＡ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）など、本分野の周知技術の何れか一つ又はこれらの組み合わせで実現することができる。

当業者は、上記の実施例に係る方法に含まれている全部又は一部のステップが、プログラムにより関連するハードウェアを命令することにより完成できることを理解されたい。前記プログラムは、コンピュータ読み取り可能な記憶媒体に記憶されてもよく、当該プログラムが実行される場合、方法の実施例における一つのステップ又はその組み合わせを含む。

また、本発明の各実施形態に係る各機能ユニットは、一つの処理モジュールに集積されてもよいし、各ユニットが物理的に独立して存在してもよいし、二つ又は二つ以上のユニットが一つのモジュールに集積されてもよい。上記集積されたモジュールは、ハードウェアの形式により実現されてもよいし、ソフトウェア機能モジュールの形態で実現されてもよい。前記集積されたモジュールがソフトウェア機能モジュールの形態で実現されて、独立した製品として販売又は使用される場合、一つのコンピュータ読み取り可能な記憶媒体に記憶されてもよい。

上記の記憶媒体は、読み出し専用メモリや磁気ディスク、光ディスクなどであってもよい。以上に本発明の実施例を示して説明したが、上記の実施例は、例示的なものであり、本発明を限定するものと理解してはならない。当業者は、本発明の範囲内に上記の実施例に対して変更、修正、置換及び変形を行うことができる。

Claims

予め設定された手のひらの向き認識モデルを用いて、目標ビデオフレームの各画像を順次に認識処理し、各フレーム画像に手のひらの画像が含まれる確率及び各フレーム画像に対応する手のひらの法線ベクトルを決定するステップと、
各フレーム画像に手のひらの画像が含まれる確率に基づいて、前記目標ビデオフレームに含まれる目標画像グループを決定するステップと、
前記目標画像グループにおける各フレーム目標画像に対応する手のひらの法線ベクトルに基づいて、前記目標ビデオフレームに対応する目標ジェスチャーを決定するステップと、を含むジェスチャー認識方法。
各フレーム画像に手のひらの画像が含まれる確率に基づいて、前記目標ビデオフレームに含まれる目標画像グループを決定するステップが、
第１フレーム画像に手のひらの画像が含まれる確率が閾値以上である場合に、前記第１フレーム画像を目標画像グループ内の画像として決定するステップを含む請求項１に記載の方法。
前記目標画像グループにおける各フレーム目標画像に対応する手のひらの法線ベクトルに基づいて、前記目標ビデオフレームに対応する目標ジェスチャーを決定するステップが、
前記目標画像グループにおける各フレーム画像に対応する手のひらの法線ベクトルに基づいて、各フレーム目標画像内の手のひらの向きを決定するステップと、
各フレーム目標画像内の手のひらの向き及び各フレーム目標画像の収集順番に基づいて、前記目標ビデオフレームに対応する目標ジェスチャーを決定するステップと、
を含む請求項１に記載の方法。
前記予め設定された手のひらの向き認識モデルが、
手のひらの画像、非手のひらの画像、及び各手のひらの画像に対応する手のひらの法線ベクトルを含む訓練データセットを取得するステップと、
前記予め設定された手のひらの向き認識モデルを生成するように、前記訓練データセットを用いて、初期ネットワークモデルを訓練するステップと、
によって訓練される請求項１に記載の方法。
訓練データセットを取得するステップの後に、
各手のひらの画像に対応する手のひらの法線ベクトルを正規化処理して、各手のひらの画像に対応する単位法線ベクトルを決定するステップを含む請求項４に記載の方法。
前記目標ビデオフレームに対応する目標ジェスチャーを決定するステップの後、
前記目標ジェスチャーがいずれかの予め設定されたジェスチャーとマッチングされる場合に、前記いずれかの予め設定されたジェスチャーに対応する制御命令に基づいて電子機器を制御するステップを含む請求項１から５のいずれか一項に記載の方法。
予め設定された手のひらの向き認識モデルを用いて、目標ビデオフレームの各画像を順次に認識処理し、各フレーム画像に手のひらの画像が含まれる確率及び各フレーム画像に対応する手のひらの法線ベクトルを決定するように構成される第１決定モジュールと、
各フレーム画像に手のひらの画像が含まれる確率に基づいて、前記目標ビデオフレームに含まれる目標画像グループを決定するように構成される第２決定モジュールと、
前記目標画像グループにおける各フレーム目標画像に対応する手のひらの法線ベクトルに基づいて、前記目標ビデオフレームに対応する目標ジェスチャーを決定するように構成される第３決定モジュールと、
を備えるジェスチャー認識装置。
前記第２決定モジュールが、具体的には、
第１フレーム画像に手のひらの画像が含まれる確率が閾値以上である場合に、前記第１フレーム画像を目標画像グループ内の画像として決定するように構成される請求項７に記載の装置。
前記第３決定モジュールが、具体的には、
前記目標画像グループにおける各フレーム画像に対応する手のひらの法線ベクトルに基づいて、各フレーム目標画像内の手のひらの向きを決定し、
各フレーム目標画像内の手のひらの向き及び各フレーム目標画像の収集順番に基づいて、前記目標ビデオフレームに対応する目標ジェスチャーを決定するように構成される請求項７に記載の装置。
前記予め設定された手のひらの向き認識モデルが、
手のひらの画像、非手のひらの画像、及び各手のひらの画像に対応する手のひらの法線ベクトルを含む訓練データセットを取得するように構成される取得モジュールと、
前記予め設定された手のひらの向き認識モデルを生成するように、前記訓練データセットを用いて、初期ネットワークモデルを訓練するように構成される訓練モジュールと、によって訓練される請求項７に記載の装置。
前記予め設定された手のひらの向き認識モデルを訓練するモジュールが、
各手のひらの画像に対応する手のひらの法線ベクトルを正規化処理して、各手のひらの画像に対応する単位法線ベクトルを決定するように構成される第４決定モジュールを備える請求項１０に記載の装置。
前記装置が、
前記目標ジェスチャーがいずれかの予め設定されたジェスチャーとマッチングされる場合に、前記いずれかの予め設定されたジェスチャーに対応する制御命令に基づいて電子機器を制御するように構成される制御モジュールを含む請求項７から１１のいずれか一項に記載の装置。
プロセッサとメモリとを備える電子機器であって、
前記プロセッサが、前記メモリに記憶されている実行可能なプログラムコードを読み出して、前記実行可能なプログラムコードに対応するプログラムを実行することにより、請求項１から６のいずれか一項に記載のジェスチャー認識方法を実現する電子機器。
コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
当該プログラムがプロセッサによって実行される場合に、請求項１から６のいずれか一項に記載のジェスチャー認識方法が実現されるコンピュータ読み取り可能な記憶媒体。