JP6608465B2

JP6608465B2 - ジェスチャーの検知識別の方法及びシステム

Info

Publication number: JP6608465B2
Application number: JP2017567753A
Authority: JP
Inventors: ジャン、ホンシン
Original assignee: ユウトウ・テクノロジー（ハンジョウ）・カンパニー・リミテッド
Priority date: 2015-06-30
Filing date: 2016-06-13
Publication date: 2019-11-20
Anticipated expiration: 2036-06-13
Also published as: CN106325485A; TW201701187A; HK1231590A1; US20180293433A1; WO2017000764A1; JP2018524726A; US10318800B2; EP3318955A1; EP3318955A4; CN106325485B

Description

本発明は、人間とロボットのインタラクションの分野に関し、特にロボットのシステムに基づいたジェスチャーの検知識別の方法及びシステムに関する。

コンピュータ技術の発展に従って、コンピュータの処理技術はますます強くなり、従来の人間とロボットのインタラクション技術では、ますます人々の需要を満足させることができず、人々はいっそう自然で知能的でインタラクティブな方式を求めるようになった。ジェスチャーの検知及び状態の識別技術において、通常は２Ｄや３Ｄ技術が多く採用される。手は弾性物体であるため、同じジェスチャーでも大きな違いが生じる。また、異なったジェスチャーでも似ている場合が有り、異なった人のそれぞれのジェスチャーでも相違が生じる。なお且つ、ジェスチャーは大きい冗長情報を有し、無意識状況で人は数多くのジェスチャーをしてしまうため、識別技術の演算能力と識別の正確度が厳しく求められる。しかし、既存の識別技術では、ジェスチャーの多くの変化を迅速に識別できず、識別の正確率が低く、リアルタイム性が弱く、且つ、光線に対し比較的敏感であり、強度や方向の異なる光（例えば偏光や補償のない光源の場合）によって変わった影響が生じ、識別の正確性に直接的な影響を及ぼす。複雑な背景条件で関心のあるハンドエリアターゲットを抽出することができない。

既存の識別技術の上記の問題点に対して、この発明は、偏光又は補償のない光源の場合に、迅速にジェスチャーの変化を識別できるジェスチャーの検知識別の方法及びシステムを提供する。

本発明の具体的な技術案は以下の通りであり、すなわち、
ジェスチャーの検知識別方法は、以下のステップを含み、すなわち、
Ａ１．画像を収集して、記憶するステップ、
Ａ２．予め設定された異なるジェスチャーを検知できる複数の分類器を採用して、予め設定した順序に従い、フレームおきに交替する方法に基づき、各フレーム毎に対して画像検知を行い、ジェスチャーターゲットを取得するステップ、
Ａ３．前記ジェスチャーターゲットのエリアの画素分布に基づき、肌色のモデルを作るステップ、
Ａ４．肌色のモデルに基づき、前記ジェスチャーターゲットの前後の２つの状態のジェスチャー頻度を取得し、前記ジェスチャー頻度を予め設定したジェスチャー状態をマッチングさせることにより、ジェスチャー転換の状態を取得して出力するステップ。

好ましくは、前記Ａ２ステップを実行する前に、前記画像に対し、事前処理を行う。

好ましくは、各前記分類器は、予め設定したスライディングウインドウを通して、前記画像に対し、マルチスケールの目標の検知を行うことによって、前記ジェスチャーターゲットを取得する。

好ましくは、前記ジェスチャーターゲットを取得してから、前記ウインドウを４倍拡大し、前記ジェスチャーターゲットに対して検知を行う。

好ましくは、前記分類器はカスケード分類器を使用する。

本発明のジェスチャーの検知識別システムは、以下部材を含み、すなわち、
画像採集に用いられる採集ユニットと、
前記採集ユニットに連接し、前記画像を記憶する記憶ユニットと、
それぞれ前記記憶ユニットに連接して、予め設定した順序に基づき、フレームごとの交替する方法を採用し、各フレームの前記画像に対し検知することにより、ジェスチャーターゲットを取得する異なるジェスチャーの検知に用いる複数の分類器と、
前記記憶ユニットに連接し、前記ジェスチャーターゲットのエリアの画素分布に基づき、肌色のモデルを作るのに用いられる肌色モデリングユニットと、
それぞれ複数の前記分類器と前記肌色モデリングユニットとに連接し、肌色モデルに基づき、前記ジェスチャーターゲットの前後の２つの状態のジェスチャー頻度を取得し、前記ジェスチャー頻度を予め設定したジェスチャー状態とマッチングさせることにより、ジェスチャー転換の状態を取得して出力する意思決定ユニットと
を含む。

前記採集ユニットはビデオカメラを採用する。

前記分類器はカスケード分類器を採用する。

前記分類器は、予め設定したスライディングウインドウを通して、前記画像に対し、マルチスケールの目標の検知を行い、前記ジェスチャーターゲットを取得する。

前記分類器は、ジェスチャーターゲットを取得した後、前記ウインドウを４倍拡大し、前記ジェスチャーターゲットを検知する。

本技術案の有益効果
本技術案では、ジェスチャーの検知識別の方法は検出されたジェスチャーターゲットのエリアで、画素分布に基づき、リアルタイムに肌色モデリングを行い、特定シーンでの肌色の抽出を実現し、又、光が激変した後発生じた影響を徐々に除去することができ、したがって、ジェスチャー転換状態を抽出する目的が実現できる。ジェスチャー検知識別システムは、光、撮影角度、サイズ、肌色の違いのジェスチャーを検知することができ、かつ識別の正確率が９０％以上に達することができ、精度が高い。

図１は、本発明のジェスチャー検知識別システムの実施例のブロック図である。図２は、拳-掌と掌-拳のジェスチャー頻度変化についての曲線図である。図３は、ジェスチャー音楽制御システムの原理図である。

以下、本発明の実施例の図面を参照して、本発明の実施例の技術案を明確に、具体的に説明する。明らかに、以下の説明された実施例は、本発明の一実施例であり、全ての実施例ではない。本発明の実施例に基づき、当業者が創造性を持つ労働をしないで獲得した他のすべての実施例は、本発明の保護範囲に含まれる。

説明において、衝突のない場合、本発明の実施例及び実施例の特徴は、お互いに組み合わせることができる。

以下、図面と具体的な実施例により本発明を詳しく説明するが、以下の説明は本発明に対しての限定ではない。

ジェスチャーの検知識別方法は、以下のステップを含み、すなわち、
Ａ１．画像を収集して、記憶するステップ、
Ａ２．予め設定された異なるジェスチャーを検知できる複数の分類器を採用して、予め設定した順序に従い、フレームおきに交替する方法に基づき、各フレームの画像を検知することにより、ジェスチャーターゲットを取得するステップ、
Ａ３．前記ジェスチャーターゲットのエリアの画素分布に基づき、肌色のモデルを作るステップ、
Ａ４．肌の色のモデルに基づき、前記ジェスチャーターゲットの前後の二つの状態のジェスチャー頻度を取得し、ジェスチャー頻度を予め設定したジェスチャー状態とマッチングさせることにより、ジェスチャー転換の状態を取得して出力するステップ。

本実施例では、ジェスチャーの検知識別の方法は、検出されたジェスチャーターゲットのエリアで、画素分布に基づき、リアルタイムに肌の色のモデリングを行うことにより、特定シーンでの肌色の抽出を実現でき、又、光が激変した後生じたその影響を徐々に除去することができ、したがって、ジェスチャー転換状態を抽出する目的が実現できる。ジェスチャーの検知識別の方法は、ロボットシステムに適用できる。ロボットは、偏光又は無補償光源を含む様々な照明状況で、視野内における任意の位置に出た様々なジェスチャーを採集し、リアルタイムにジェスチャー転換状態を獲得できる。

肌色モデルを作る過程では、検知されたジェスチャーターゲットのエリアの画像の色彩スペースをＹＵＶ（ＹＵＶとは、ヨーロッパテレビシステムで採用された１つの色の編集コード（ＰＡＬに属する）であり、ＰＡＬ（パル制）とＳＥＣＡＭ（セコム制）アナログカラーテレビ方式で使われる色のスペースである）スペースに転換することができ、Ｙ分量を取り除くことにより光の照射による影響を除去する。このエリアでの肌色画素はガウス分布であるため、このエリアのＵＶ値の平均値と分散値により、全体肌色の平均分散値を更新することで、リアルタイムに肌色モデルを作り、背景を取り除き、正確率を高める。

好ましい実施例では、Ａ２ステップを実行する前に、画像に対し前処理を行う。

本実施例の前処理は、ヒストグラムの均等化の方法を使用できる。累積関数を使うことによりグレースケール値を「調整」して、コントラストを上げることにより、光の照射の影響を除去し、画素のグレースケール値のダイナミックレンジが増えることにより、画像全体のコントラストを向上させる。

好ましい実施例では、各分類器は、予め設定したスライディングウインドウを通して、画像に対してマルチスケールのターゲットの検知を行い、ジェスチャーターゲットを取得する。

分類器は、Adaboost演算方式を採用し訓練を行う。Adaboostは反復アルゴリズムである。主に、１つの訓練グループに対し、複数の違う弱分類器（Weak Classifier）に訓練させる。又、これらの弱分類器を組み合わせて強分類器に組み立てる。分類器は、毎回の訓練グループでの各見本の分類が正しいかどうか及び前回の全体分類の正確率により、各見本の重みを確定し、下の分類器はこれらの新しい重みのデータセットに基づき訓練を行う。最後に得たカスケード分類器は毎回訓練で得られた分類器の加重組み合わせである。

更に、分類器はＬＢＰ特徴（Local Binary Pattern、本地二進制模式）を採用して訓練を行う。ＬＢＰ特徴は、画像の局所テクスチャ特徴を説明する演算子で、回転不変量とグレースケール不変量などとしてのメリットがある。

本実施例では、サイズが訓練画像と同じスライディングウインドウを使用して、画像に対してマルチスケールターゲット検知を実行する。

好ましい実施例では、ジェスチャーターゲットを獲得した後、ウインドウを４倍拡大して、ジェスチャーターゲットを検知する。

各フレーム画像の間で、手の動きによる距離の変化が大きくないため、スピードを向上させるため、ジェスチャーターゲットが検知されるたびに、検知ウインドウを拡大することにより、次のフレームのジェスチャーターゲットの存在位置を事前に判断でき、次のフレームの入力画像は、このウインドウ画像部分のみ取り出すことにより、検知速度を向上させる。

更に、元ウインドウの長さと幅をそれぞれ２倍拡大できる。

好ましい実施例では、分類器はカスケード分類器を採用する。

本実施例では、カスケード分類器を採用することにより、光、撮影角度、サイズ、肌色の違うジェスチャー等を検出でき、識別の正確率は９０％以上に達し、その精度は高い。

図１に示したように、ジェスチャー検知識別システムは、以下の部品を含み、すなわち、
画像の採集に用いられる採集ユニット１と、
採集ユニット１に連接し、画像の記憶に用いられる記憶ユニット２と、
それぞれ記憶ユニット２に連接し、予め設定した順序に基づき、フレームごとに交替する方法を採用し、各フレームの上記画像に対し検知し、ジェスチャーターゲットの取得する、異なるジェスチャーの検知に用いる複数の分類器３と、
記憶ユニット２に連接し、ジェスチャーターゲットのエリアの画素分布に基づき、肌色のモデルを作る肌色モデリングユニット４と、
それぞれ複数の分類器３と肌色モデリングユニット４とに連接し、肌色モデルに基づき、ジェスチャーターゲットの前後の２つの状態のジェスチャー頻度を取得し、ジェスチャー頻度を予め設定したジェスチャー状態とマッチングさせ、ジェスチャー転換の状態を取得して出力する意思決定ユニット５と、を含む。

本実施例では、ジェスチャー検知識別システムの分類器３は、光、撮影角度、サイズ、肌色が違うジェスチャー等を検知識別でき、識別正確率は９０％以上に達し、その正確度は高い。

肌色モデリングユニット４は、検知されたジェスチャーターゲットのエリアにより、画素分布に基づき、リアルタイムに肌色のモデリングを行うことができ、特定シーンでの肌色の抽出を実現し、又、光が激変した後生じたその影響を徐々に除去することができる。肌色モデリングユニット４は、検出されたジェスチャーターゲットのエリアの画像の色彩スペースをＹＵＶスペースに転換させることができ、Ｙ分量を取り除くことにより光の影響を除去する。このエリアでの肌色画素がガウス分布になるため、算出したこのエリアのＵＶ値の平均値と分散値により、全体肌色の平均分散値を更新することで、リアルタイムに肌色モデルを作り、背景を取り除き、正確率を高める。

好ましい実施例では、採集ユニット１はビデオカメラを採用する。

更に、ビデオカメラは採集速度が３０フレーム／秒のＨＤカメラを採用できる。

好ましい実施例では、分類器３はカスケード分類器を採用する。

本実施例では、カスケード分類器３を採用することにより、光、撮影角度、サイズ、肌色が違うジェスチャー等を検知でき、識別の正確率は９０％以上に達し、その精度は高い。

好ましい実施例の中で、分類器３はみんな予め設定したスライディングウインドウを通して、画像に対してマルチスケールのターゲットの検知を行うことにより、ジェスチャーターゲットを取得する。

分類器３は、Adaboost演算方法を採用し訓練を行った。Adaboostは反復アルゴリズムであり、主に、１つの訓練グループを複数の違う弱分類器（Weak Classifier）に訓練する。又、これらの弱分類器を組み合わせて強分類器に組み立てる。分類器は、毎回の訓練グループでの各見本の分類が正しいかどうか及び前回の全体分類の正確率により、各見本の重みを確定し、下の分類器はこれらの新しい重みのデータセットに基づき訓練を行う。最後に獲得したカスケード分類器は、毎回訓練で得られた分類器の加重組み合わせである。

更に、分類機３はＬＢＰ特徴（Local Binary Pattern、本地二進制模式）を採用して訓練を行う。ＬＢＰ特徴は画像の局所テクスチャ特徴の演算子の説明に用いられ、回転不変量とグレースケール不変量などのメリットがある。

好ましい実施例では、分類器３は、ジェスチャーターゲットを獲得した後、ウインドウを４倍拡大し、ジェスチャーターゲットを検知する。

各フレーム画像の間で手の動きの変化の距離が大きくないため、スピードを向上させるには、ジェスチャーターゲットが検知される度に、検知ウインドウを拡大することで、次のフレームのジェスチャーターゲットの位置を事前に判断でき、次のフレーム入力画像はこのウインドウ画像部分のみ取り出すことにより、検知速度を向上させる。

異なるジェスチャーに対し、それに対応する分類器を訓練できる。特定の拳-掌により、対応する拳の分類器と掌の分類器を訓練したことを例にして、ジェスチャー検知識別を実施する。計算速度を高めるため、フレームおきに交替する方法を採用して、異なる分類器を使う方法でジェスチャー検知を実行する。実際の生活では、ジェスチャーは一定の時間内には不変であるため、あるフレームがその中の１つの分類器を使用してジェスチャーを検知し、もし次のフレームの他の１つの分類器が検出しなかったら、前のジェスチャーの状態が依然として存在することを仮定できる。状態の変化を識別するため、ジェスチャーの頻度Ｆ（gesture）＝ジェスチャー存在時間／検知時間、を仮定することにより、誤検をスムースにさせることができ、状態識別への妨害を低減することができる。理想の条件では、拳-掌と掌-拳のジェスチャーの頻度の変化は図２に示したようになるべきで、両者の交点はジェスチャー状態の変化点になる。実際応用では、あるジェスチャーの存在が検知された後、その近くのエリアを選択して次のフレームの検出ウインドウとすることにより、検知速度を上げる一方で誤検出率を下げる。ジェスチャーの変化に迅速に対応させるため、計算の頻度がＦの時、比較的短いスライドウインドウを使い、その長さはジェスチャーの変化時間と関連する。２つの頻度ｆ１とｆ２との交点の横座標は必ずしも整数ではないため、閾値Ｔを設立し、ｆ１とｆ２の差の絶対値が閾値Ｔの範囲内にある時、１回の状態変化が起きたと認識する。この閾値Ｔは応答速度及び正確率に大きな影響を及ぼす。頻度曲線を観察することにより、状態Ｂから状態Ｃへ変更する時、ｆ１は低下し、ｆ２は上昇する。ゆえに、計算により得られた２つのジェスチャー頻度により、その変化は拳-掌なのか、又は掌-拳なのか判断できる。

ジェスチャー検知認識過程において、拳-掌、掌-拳の変化は通常０．５秒以内で発生するので、長さが１５フレームのスライドウインドウを選択できる。フレームごとに交替することにより分類器を使用して、検出範囲を縮小する方法で、検知識別速度を上げるとともに、誤検査率も下げる。定義による頻度関数を採用し誤検雑音を平滑化させる。頻度の変化により、対応する状態の変化を識別し、且つ、識別が速く、正確率が高く、応答速度は1１００ｍｓ以内に維持できる。

上記の技術案に基づき、さらに、図３に示すように、ジェスチャー検知識別技術をジェスチャー音楽制御に適用できる。ＨＤカメラを採用し、ＭＩＰＩやＵＳＢインタフェースをロボットの組み込みシステムに連接する。前記ロボットの組み込み式の計算システムには、ハードウエアとソフトウェアの動作環境が含まれ、システムには、映像採集ユニットと、ジェスチャー検知識別ユニットと、音楽放送ユニットとが含まれる。

ジェスチャー音楽制御システムによる具体的な制御フローでは、ロボットは音楽を放送すると同時に映像採集ユニットに要求し、駆動ソフトウェアが要求を受け、ビデオカメラが採集した映像がジェスチャー検知識別ユニットに転送られ、検知して具体的なジェスチャーを確定することに使われ、計算した後、結果を音楽放送ユニットに転送し、音楽放送ユニットが結果を受け取った後、事前に指定した対応する命令を実行する。例えば、ユーザーが拳を握る（掌-拳）の操作をした時、音楽は停止し、ユーザーが五指を伸ばした（拳-掌）時、音楽は続ける。

本発明の利点は、既存の識別技術において事前に肌色モデルを作ることは、ある特定のシーンには適用されないが、本発明に使われたリアルタイムに肌色モデルを作るのは当時のシーンに適用できる。なお且つ、光の照射の激しい変化による影響を除去することができる。本技術案は、ロボットシステムに組み込むことができ、そのため、ＬＢＰ特徴を取入れたものであり、それは整数演算であり、方向勾配ヒストグラム（Histogram of Oriented Gradient、ＨＯＧ）と比べると、演算量を大きく下げ、システムの計算をより速く加速化させる。本発明は、前フレームに基づき、ジェスチャーターゲットのエリアの位置を事前に判断し、画像エリアの大きさを減少し、運行速度を大きくアップさせ、一部分の背景の影響を除去することにより、誤検査率を低下させる。フレームおきに異なるジェスチャー分類器を使用することによって検知速度を上げることができ、ジェスチャー頻度により、誤検雑音を平滑させ、短いスライドウインドウを使って、ジェスチャーの状態変化に対しリアルタイムに応答ができる。

以上は本発明の実施例だけであり、本発明の実施方法及び請求範囲を制限するものではない。当業者にとって本発明の明細書及び図面の内容を使って分かりやすい交換をした技術案は、本発明の請求範囲内とも言える。

Claims

ジェスチャーの検知識別方法において、
Ａ１．画像を収集して、記憶するステップと、
Ａ２．予め設定された異なるジェスチャーを検知できる複数の分類器を採用して、予め設定した順序に従い、フレームごとに交替する方法で、各フレーム毎に画像検知を行うことにより、ジェスチャーターゲットを取得するステップと、
Ａ３．前記ジェスチャーターゲットのエリアの画素分布に基づき、肌色のモデルを作るステップと、
Ａ４．前記肌色のモデルに基づいて肌色が抽出されたジェスチャーターゲットの前後の２つの状態のジェスチャー頻度の時間変化を取得し、前記ジェスチャー頻度の時間変化と予め設定した閾値とにより、ジェスチャー転換の状態を取得して出力するステップと、
を具備する方法。
請求項１のジェスチャーの検知識別方法において、
前記Ａ２ステップを実行する前に、前記画像に対して事前処理を行う、方法。
請求項１のジェスチャーの検知識別方法において、
各前記分類器ごとは、予め設定したスライディングウインドウを通して、前記画像に対し、マルチスケールの目標の検知を行うことによって、前記ジェスチャーターゲットを取得する、方法。
請求項３のジェスチャーの検知識別方法において、
前記ジェスチャーターゲットを取得した後、前記スライディングウインドウを４倍拡大し、前記ジェスチャーターゲットを検知する、方法。
請求項１のジェスチャーの検知識別方法において、
前記分類器はカスケード分類器を使用する、方法。
ジェスチャーの検知識別システムにおいて、
画像の採集に用いられる採集ユニットと、
前記採集ユニットに接続され、前記画像を記憶する記憶ユニットと、
それぞれ前記記憶ユニットに接続され、予め設定した順序に基づき、フレームごとに交替する方法を採用し、各フレームごとの前記画像を検知し、ジェスチャーターゲットを取得する、異なるジェスチャーの検知に用いる複数の分類器と、
前記記憶ユニットに接続され、前記ジェスチャーターゲットのエリアの画素分布に基づき、肌色のモデルを作る肌色モデリングユニットと、
それぞれ複数の前記分類器と前記肌色モデリングユニットとに接続され、前記肌色のモデルに基づいて前記ジェスチャーターゲットの前後の２つの状態のジェスチャー頻度の時間変化を取得し、前記ジェスチャー頻度の時間変化と予め設定した閾値とにより、ジェスチャー転換の状態を取得して出力する意思決定ユニットと、
を含む、システム。
請求項６のジェスチャーの検知識別システムにおいて、
前記採集ユニットはビデオカメラを採用する、システム。
請求項６のジェスチャーの検知識別システムにおいて、
前記分類器はカスケード分類器を採用する、システム。
請求項６のジェスチャーの検知識別システムにおいて、
前記分類器は、みんな予め設定したスライディングウインドウを通して、前記画像に対し、マルチスケールのターゲットの検知を行うことにより、前記ジェスチャーターゲットを取得する、システム。
請求項９のジェスチャーの検知識別システムにおいて、
前記分類器は、前記ジェスチャーターゲットを獲得した後、前記スライディングウインドウを４倍拡大し、前記ジェスチャーターゲットを検知する、システム。