JP2013533561A - ジェスチャーに基づく人間と機械のインタラクション方法およびシステム、コンピュータ記録媒体 - Google Patents

ジェスチャーに基づく人間と機械のインタラクション方法およびシステム、コンピュータ記録媒体 Download PDF

Info

Publication number
JP2013533561A
JP2013533561A JP2013520959A JP2013520959A JP2013533561A JP 2013533561 A JP2013533561 A JP 2013533561A JP 2013520959 A JP2013520959 A JP 2013520959A JP 2013520959 A JP2013520959 A JP 2013520959A JP 2013533561 A JP2013533561 A JP 2013533561A
Authority
JP
Japan
Prior art keywords
color block
color
coordinates
probability distribution
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013520959A
Other languages
English (en)
Other versions
JP5698355B2 (ja
Inventor
童 程
帥 岳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2013533561A publication Critical patent/JP2013533561A/ja
Application granted granted Critical
Publication of JP5698355B2 publication Critical patent/JP5698355B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/014Hand-worn input/output arrangements, e.g. data gloves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0346Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0354Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of 2D relative movements between the device, or an operating part thereof, and a plane or surface, e.g. 2D mice, trackballs, pens or pucks
    • G06F3/03543Mice or pucks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】ジェスチャーに基づく人間と機械のインタラクション方法およびシステム、コンピュータ記録媒体を提供する。
【解決手段】当該システムは取得モジュール、位置決めモジュールおよび変換モジュールを含む。当該方法は、ユーザのビデオストリームの中から画像を取得するステップ101と、前景の中から三つ以上の予め設けられた色ブロックの座標を取得するステップ102と、第一色ブロックの座標によりマウスの移動をシミュレートし、その他の色ブロックの座標によりマウスのクリック操作をシミュレートするステップ103と、を含む。
【選択図】図1

Description

本発明は、コンピュータ技術に関し、特にジェスチャーに基づく人間と機械のインタラクション方法およびシステム、コンピュータ記録媒体に関する。
既存のコンピュータなどの処理装置における人間と機械のインタラクション手法として、マウス、キーボード、モニタを使用することが一般的である。しかし、技術の発展につれ、人間と機械のインタラクションをより便利で迅速にできる手法が望まれている。そこで、音声および手書きペンなどによる人間と機械のインタラクション手法が次第に生まれてきた。
しかしながら、本発明を実現する過程において、発明者は、既存技術には少なくとも次のような問題点が存在していることに気付いた。
音声入力の手法は、文字入力時の入力難易度を下げることはできるが、グラフィックインターフェースにおける応用には、さまざまな制限を受けてしまう。同様に、手書きペンの手法も、漢字の入力には優れているが、グラフィックインターフェースにおける使用の便利さは、マウスよりも劣っている。
本発明は、既存技術におけるコンピュータなどの処理装置の音声、手書きペンなどによる人間と機械のインタラクション手法がグラフィックインターフェースに適用できない問題点を解決するためになされたものである。本発明は、ジェスチャーに基づく人間と機械のインタラクション方法およびシステム、コンピュータ記録媒体を提供することを目的とする。
上記の目的を達成するための本発明に係るジェスチャーに基づく人間と機械のインタラクション方法は、ユーザのビデオストリームの中から画像を取得するステップと、前景の中から三つ以上の予め設けられた色ブロックの座標を取得するステップと、第一色ブロックの座標によりマウスの移動をシミュレートし、その他の色ブロックの座標によりマウスのクリック操作をシミュレートするステップと、を含む。
上記の目的を達成するための本発明に係るジェスチャーに基づく人間と機械のインタラクションシステムは、ユーザのビデオストリームの中から画像を取得する取得モジュールと、前景の中から三つ以上の予め設けられた色ブロックの座標を取得する位置決めモジュールと、第一色ブロックの座標によりマウスの移動をシミュレートし、その他の色ブロックの座標によりマウスのクリック操作をシミュレートする変換モジュールと、を含む。
上記の目的を達成するための本発明に係るコンピュータ記録媒体は、一つまたは複数のコンピュータ実行可能命令を含むコンピュータ記録媒体であって、前記コンピュータ実行可能命令は、ジェスチャーに基づく人間と機械のインタラクション方法を実現するために使用される。前記方法は、ユーザのビデオストリームの中から画像を取得するステップと、前景の中から三つ以上の予め設けられた色ブロックの座標を取得するステップと、第一色ブロックの座標によりマウスの移動をシミュレートし、その他の色ブロックの座標によりマウスのクリック操作をシミュレートするステップと、含む。
本発明に係るジェスチャーに基づく人間と機械のインタラクション方法およびシステム、コンピュータ記録媒体によれば、取得したユーザのビデオストリームを処理することにより、複数の予め設けられた色ブロックの座標を取得でき、複数の色ブロックの座標によりマウスの操作をシミュレートできる。したがって、既存のコンピュータなどの処理装置においても、非常に簡単な手法でジェスチャーに基づく人間と機械のインタラクションを実現でき、タッチパネルが無くてもタッチによりコントロールしたような効果を実現できる。
本発明に係る実施形態の技術的思想をさらに明確に説明するため、以下、実施形態において使用される図面について簡単に説明する。下記の図面は、本発明の一部の実施形態を説明するためのものだけであって、本技術分野における通常の技術者であれば、これらの図面によりその他の図面を想到できることは言うまでもない。
本発明に係る第一実施形態のフローチャートである。 本発明に係る第二実施形態のフローチャートである。 本発明に係る第三実施形態の構成を示すブロック図である。 本発明に係る第四実施形態の構成を示すブロック図である。
本発明の目的、技術的思想および効果をさらに明確にするため、以下、添付した図面を参照しながら、本発明の実施形態を詳細に説明する。
本発明に係る実施形態の設計思想は、ユーザのビデオ映像を取得することにより、ユーザの手の部分の移動情報を取得してマウスの操作をシミュレートすることである。三本の指に対応する色ブロックのテンプレートを予め取得し、かつ、取得したビデオ映像について処理することにより三本の指の位置を取得できる。そのうち、一本の指によりマウスの移動操作をシミュレートでき、その他の二本の指によりマウスのクリック操作をシミュレートできる。Intel社のOpenCVが画像処理するためのオープンソースコードを含むソースコードライブラリーを提供しているため、OpenCVコードについてプログラミングできる。以下、具体的な実施形態により本発明を詳細に説明する。
<実施形態1>
図1は、本実施形態に係るジェスチャーに基づく人間と機械のインタラクション方法のフローチャートである。
<ステップ101>
ユーザのビデオストリームを取得し、ビデオストリームの中から画像を取得する。
<ステップ102>
前景の中から三つ以上の予め設けられた色ブロックの座標を取得する。
<ステップ103>
第一色ブロックの座標によりマウスの移動をシミュレートし、その他の色ブロックの座標によりマウスのクリック操作をシミュレートする。
本実施形態に係るジェスチャーに基づく人間と機械のインタラクション方法によれば、取得したユーザのビデオストリームを処理することにより、複数の予め設けられた色ブロックの座標を取得でき、複数の色ブロックの座標によりマウスの操作をシミュレートできる。したがって、既存のコンピュータなどの処理装置においても、非常に簡単な手法でジェスチャーに基づく人間と機械のインタラクションを実現でき、タッチパネルが無くてもタッチによりコントロールしたような効果を実現できる。
<実施形態2>
本発明に係る第二実施形態は、第一実施形態を改善したものであって、そのフローチャートは図2に示すとおりである。
<ステップ201>
カメラによりユーザのビデオストリームを取得し、ビデオストリームの中から画像を抽出する。
抽出する画像は、連続した画像であってもよいし、断続した画像であってもよい。ユーザの手の部分の移動速度はそれほど速くないため、ビデオストリーム中のすべての画像に対して処理する必要はない。したがって、システムの処理負荷を軽減できる。なお、より精確さを必要とする場合、ビデオストリーム中のすべての画像に対して処理してもよく、本実施形態はこれに限らない。
<ステップ202>
それぞれの画像について処理を行い、画像中の背景を除去して、前景を取得する。既存のオフィス、家庭内で使用する際、ビデオ映像における背景の変化は比較的小さいため、ビデオストリームの中から背景をとても簡単に確定できる。ステップ202は具体的には、次のステップを含む。
<ステップ2021>
CodeBookアルゴリズムにより背景モデルを作成し、マスク画像を生成する。当該マスク画像は、当該処理された画像と同じサイズにすることができ、また、白色で前景を示し、黒色で背景を示すことができる。
<ステップ2022>
当該マスク画像と当該処理された画像をマッチングし、対応する画像部分を除去する。当該マスク画像は、一つあるだけでよく、当該背景モデルによりそれぞれの画像の背景を除去して、前景を取得する。
なお、CodeBookアルゴリズムにより前景を取得することは、本実施形態の一つの手法だけであって、本実施形態はこれに限らない。
<ステップ203>
予め設けられた色ブロック・テンプレートにより、それぞれの予め設けられた色ブロックに対応するヒストグラムを取得する。
本実施形態においては、片手の一本の指の移動によりマウスの移動をシミュレートする。また、他方の手の二本の指によりマウスの左ボタンのクリックをシミュレートする。そのため、少なくとも三つの予め設けられた色ブロックを同時に追跡する必要がある。
さらに、当該三つの色ブロックをより区別しやすくするために、ユーザの指に三つの色の異なる区別しやすいカラーカバーをつけることができる。そして、これら三つのカラーカバーの色を色ブロック・テンプレートとして記録する。こうすると、システムの算出処理を簡略化できる。
本発明の一つの実施形態において、画像処理のコーディングは、Intel社のOpenCVを使用できる。OpenCVは、Intel社がサポートするオープンソースのコンピュータビジョン向けライブラリであって、商業的および非商業的に応用することはすべて無料である。OpenCV中のヒストグラム関数を使用すると、前景のヒストグラムを非常に簡単に算出できる。ここで、OpenCVの一連のヒストグラム関数は、DenseHistogramクラスに格納され、Calculate方法により画像のヒストグラムを簡単に計算できる。
色ヒストグラムは、多くの画像検索システムで広く採用される色特徴であって、異なる色彩が全画像に占める比率を表している。色ヒストグラムは、自動分割の難しい画像を表すのに最も適している。
上述の三つの色ブロックに対し、それぞれ次の操作を実行することにより、三つの色ブロックが対応する指の位置およびマウスのクリック操作を確定する。すなわち、上述のステップ203は、具体的に次のとおりである。
<ステップ204>
ステップ201により取得した画像、およびステップ203により取得した三つの色ブロックのヒストグラムを取得する。BackProjection(逆投影)アルゴリズムにより、それぞれの色ブロックの確率分布図を算出する。
ヒストグラムから確率分布図を取得することは熟知された既存技術であるため、ここでは詳細な説明を省略する。
<ステップ205>
取得した確率分布図について処理を行い、上述の確率分布図をさらに最適化する。
ステップ204において取得した確率分布図には、ノイズや鋸歯などが存在する可能性がある。そのため、ステップ205において画像に対してノイズ除去、平滑化処理などを行って、取得した色ブロックをより精確にすることが必要となる。ステップ205は、具体的には次のステップを含む。
<ステップ2051>
上述の確率分布図に対して収縮処理を行い、ノイズを除去する。
<ステップ2052>
上述の確率分布図に対してガウス平滑化処理を行い、さらに、ガウス平滑化処理された確率分布図に対して閾値分割を行う。画像の閾値分割とは、予め設けられた閾値に対し、画像のピクセルが閾値未満である場合、当該ピクセルを前景とみなし、画像のピクセルが閾値以上である場合、当該ピクセルを背景とみなす。
<ステップ206>
CAMShift(Continuously Apative Mean−Shift)アルゴリズムにより確率分布図の質量中心を追跡して、上述した三つの色ブロックの中心点座標を取得する。
ここで、CAMShiftアルゴリズムは、熟知されている物体追跡アルゴリズムであって、おもにビデオ映像中の運動物体の色情報により追跡の目的を実現する。BackProjectionアルゴリズムにより原画像を色彩確率分布画像に変換した後、CAMShiftアルゴリズムにより三つの色ブロックの中心点座標、すなわち、三つの色ブロックの座標を算出できる。
<ステップ207>
取得した三つの色ブロックの中心点座標をマウスの操作情報に変換する。
すなわち、三つの色ブロックの中心点座標を取得した後、まず、第一色ブロックの座標をマウスの座標に変換する。次に、第二色ブロックと第三色ブロックの間の位置からマウスの左ボタンの操作を確定する。たとえば、第二色ブロックと第三色ブロックの距離によりマウスの左ボタンの操作をシミュレートできる。第二色ブロックと第三色ブロックの距離が予め設定された値より小さい場合、左ボタンが押下されたと確定し、第二色ブロックと第三色ブロックの距離が予め設定された値以上である場合、左ボタンの押下が解放されたと確定する。
本実施形態の方法は、OpenCVのオープンソースコードのコードライブラリーにより、ジェスチャーにおける第一色ブロックをマウスの座標に変換でき、第二色ブロックと第三色ブロックをマウスのボタン操作に変換できる。したがって、簡単な手法によりジェスチャーに基づく人間と機械のインタラクションを実現できる。
なお、三つの色ブロックを採用することは本実施形態の単なる一つの手法であって、本実施形態はこれに限らない。
本発明はさらに、一つまたは複数のコンピュータ実行可能命令を含むコンピュータ記録媒体を提供する。前記コンピュータ実行可能命令は、ジェスチャーに基づく人間と機械のインタラクション方法を実現するために使用される。コンピュータ記録媒体中のコンピュータ実行可能命令によりジェスチャーに基づく人間と機械のインタラクションを実現する方法の詳細は、上述したとおりで、ここでは重複する説明を省略する。
<実施形態3>
図3は、本実施形態に係るジェスチャーに基づく人間と機械のインタラクションシステムの構成を示すブロック図である。当該システムは、取得モジュール1、位置決めモジュール2および変換モジュール3を含む。
取得モジュール1は、ユーザのビデオストリームを取得し、ビデオストリームの中から画像を取得する。
位置決めモジュール2は、前景の中から三つ以上の予め設けられた色ブロックの座標を取得する。
変換モジュール3は、第一色ブロックの座標によりマウスの移動をシミュレートし、その他の色ブロックの座標によりマウスのクリック操作をシミュレートする。
本実施形態に係るジェスチャーに基づく人間と機械のインタラクションシステムによれば、取得したユーザのビデオストリームを処理することにより、複数の予め設けられた色ブロックの座標を取得でき、複数の色ブロックの座標によりマウスの操作をシミュレートできる。したがって、既存のコンピュータなどの処理装置においても、非常に簡単な手法でジェスチャーに基づく人間と機械のインタラクションを実現でき、タッチパネルが無くてもタッチによりコントロールしたような効果を実現できる。
<実施形態4>
本発明に係る第四実施形態は、第三実施形態を改善したものであって、その構成は図4に示すとおりである。当該システムは、取得モジュール1、位置決めモジュール2および変換モジュール3を含む。
取得モジュール1は、カメラによりユーザのビデオストリームを取得し、ビデオストリームの中から画像を抽出する。
抽出する画像は、連続した画像であってもよいし、断続した画像であってもよい。ユーザの手の部分の移動速度はそれほど速くないため、ビデオストリーム中のすべての画像に対して処理する必要はない。したがって、システムの処理負荷を軽減できる。なお、より精確さを必要とする場合、ビデオストリーム中のすべての画像に対して処理してもよく、本実施形態はこれに限らない。
位置決めモジュール2は、画像中の背景を除去し、前景の中から三つの予め設けられた色ブロックの座標を取得する。
位置決めモジュール2は、具体的には、背景分割ユニット21、ヒストグラムユニット22、確率分布図ユニット23、修正ユニット24および色ブロック位置決めユニット25を含むことができる。
背景分割ユニット21は、それぞれの画像について処理を行い、画像中の背景を除去して、前景を取得する。既存のオフィス、家庭内で使用する際、ビデオ映像における背景の変化は比較的小さいため、ビデオストリームの中から背景をとても簡単に確定できる。
背景分割ユニット21は、マスク画像サブユニット211および除去サブユニット212を含むことができる。
マスク画像サブユニット211は、CodeBookアルゴリズムにより背景モデルを作成し、マスク画像を生成する。当該マスク画像は、当該処理された画像と同じサイズにすることができ、また、白色で前景を示し、黒色で背景を示すことができる。
除去サブユニット212は、当該マスク画像と当該処理された画像をマッチングし、対応する画像部分を除去する。当該マスク画像は、一つあるだけでよく、当該背景モデルによりそれぞれの画像の背景を除去して、前景を取得する。
なお、CodeBookアルゴリズムにより前景を取得することは、本実施形態の一つの手法だけであって、本実施形態はこれに限らない。
ヒストグラムユニット22は、予め設けられた色ブロック・テンプレートにより、それぞれの予め設けられた色ブロックに対応するヒストグラムを取得する。
本実施形態においては、片手の一本の指の移動によりマウスの移動をシミュレートする。また、他方の手の二本の指によりマウスの左ボタンのクリックをシミュレートする。そのため、少なくとも三つの予め設けられた色ブロックを同時に追跡する必要がある。
さらに、当該三つの色ブロックをより区別しやすくするために、ユーザの指に三つの色の異なる区別しやすいカラーカバーをつけることができる。そして、これら三つのカラーカバーの色を色ブロック・テンプレートとして記録する。こうすると、システムの算出処理を簡略化できる。
本発明の一つの実施形態において、画像処理のコーディングは、Intel社のOpenCVを使用できる。OpenCVは、Intel社がサポートするオープンソースのコンピュータビジョン向けライブラリであって、商業的および非商業的に応用することはすべて無料である。OpenCV中のヒストグラム関数を使用すると、前景のヒストグラムを非常に簡単に算出できる。ここで、OpenCVの一連のヒストグラム関数は、DenseHistogramクラスに格納され、Calculate方法により画像のヒストグラムを簡単に計算できる。
色ヒストグラムは、多くの画像検索システムで広く採用される色特徴であって、異なる色彩が全画像に占める比率を表している。色ヒストグラムは、自動分割の難しい画像を表すのに最も適している。
上述の三つの色ブロックに対し、それぞれ次の操作を実行することにより、三つの色ブロックが対応する指の位置およびマウスのクリック操作を確定する。
確率分布図ユニット23は、取得モジュール1により取得した画像、およびヒストグラムユニット22により取得した三つの色ブロックのヒストグラムを取得する。BackProjection(逆投影)アルゴリズムにより、それぞれの色ブロックの確率分布図を算出する。
ヒストグラムから確率分布図を取得することは熟知された既存技術であるため、ここでは詳細な説明を省略する。
修正ユニット24は、取得した確率分布図について処理を行い、上述の確率分布図をさらに最適化する。
確率分布図ユニット23により取得した確率分布図には、ノイズや鋸歯などが存在する可能性がある。そのため、修正ユニット24により画像に対してノイズ除去、平滑化処理などを行って、取得した色ブロックをより精確にすることが必要となる。
修正ユニット24は、具体的に、ノイズ除去サブユニット、平滑化サブユニットを含む。
ノイズ除去サブユニットは、上述の確率分布図に対して収縮処理を行い、ノイズを除去する。
平滑化サブユニットは、上述の確率分布図に対してガウス平滑化処理を行い、さらに、ガウス平滑化処理された確率分布図に対して閾値分割を行う。画像の閾値分割とは、予め設けられた閾値に対し、画像のピクセルが閾値未満である場合、当該ピクセルを前景とみなし、画像のピクセルが閾値以上である場合、当該ピクセルを背景とみなす。
色ブロック位置決めユニット25は、CAMShift(Continuously Apative Mean−Shift)アルゴリズムにより確率分布図の質量中心を追跡して、上述した三つの色ブロックの中心点座標、すなわち、三つの色ブロックの座標を取得する。
ここで、CAMShiftアルゴリズムは、熟知されている物体追跡アルゴリズムであって、おもにビデオ映像中の運動物体の色情報により追跡の目的を実現する。BackProjectionアルゴリズムにより原画像を色彩確率分布画像に変換した後、CAMShiftアルゴリズムにより三つの色ブロックの中心点座標を算出できる。
変換モジュール3は、取得した三つの色ブロックの中心点座標をマウスの操作情報に変換する。
すなわち、三つの色ブロックの中心点座標を取得した後、まず、第一色ブロックの座標をマウスの座標に変換する。次に、第二色ブロックと第三色ブロックの間の位置からマウスの左ボタンの操作を確定する。たとえば、第二色ブロックと第三色ブロックの距離によりマウスの左ボタンの操作をシミュレートできる。第二色ブロックと第三色ブロックの距離が予め設定された値より小さい場合、左ボタンが押下されたと確定し、第二色ブロックと第三色ブロックの距離が予め設定された値以上である場合、左ボタンの押下が解放されたと確定する。
本実施形態の方法は、OpenCVのオープンソースコードのコードライブラリーにより、ジェスチャーにおける第一色ブロックをマウスの座標に変換でき、第二色ブロックと第三色ブロックをマウスのボタン操作に変換できる。したがって、簡単な手法によりジェスチャーに基づく人間と機械のインタラクションを実現できる。
なお、三つの色ブロックを採用することは本実施形態の一つの手法だけであって、本実施形態はこれに限らない。
本発明に係る第三および第四実施形態のシステムは、上述した第一および第二実施形態の方法と技術的思想および原理が同じである。そのため、第三および第四実施形態において、第一および第二実施形態と重複する部分に関する説明を省略する。
本発明の実施形態における上述のユニットは、ソフトウェアによる機能ユニットの形式で実現され、さらに独立した商品として販売、使用される場合、コンピュータがランダムにアクセスできる記録媒体に記録されることもできる。このような理解に基づき、本発明に係る技術的思想の本質、または既存技術に対して貢献する部分は、ソフトウェア製品の形式で表すことができる。当該コンピュータソフトウェア製品は、一つの記録媒体に記録され、複数の命令を含む。複数の命令は、一台のコンピュータ装置(たとえば、パソコン、サーバー、ネットワーク装置など)を上述した本発明に係る各実施形態の方法の全部または一部を実行させる。上述の記録媒体は、プログラムコードを記録できるUSBフラッシュメモリ、ポータブルハードディスク、読出専用メモリ(ROM、Read−Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、磁気ディスクまたは光ディスクなど各種タイプの媒体を含む。
以上、本発明の好適な実施形態を説明したが、これらは本発明の説明のための例示であり、本発明の範囲をこれらの実施形態にのみ限定する趣旨ではない。本発明は、その要旨を逸脱しない範囲で、上記実施形態とは異なる種々の態様で実施することができる。
1 取得モジュール、
2 位置決めモジュール、
21 背景分割ユニット、
211 マスク画像サブユニット、
212 除去サブユニット、
22 ヒストグラムユニット、
23 確率分布ユニット、
24 修正ユニット、
25 色ブロック位置決めユニット、
3 変換モジュール。

Claims (18)

  1. ユーザのビデオストリームの中から画像を取得するステップと、
    前景の中から三つ以上の予め設けられた色ブロックの座標を取得するステップと、
    第一色ブロックの座標によりマウスの移動をシミュレートし、その他の色ブロックの座標によりマウスのクリック操作をシミュレートするステップと、
    を含むことを特徴とするジェスチャーに基づく人間と機械のインタラクション方法。
  2. 前記ユーザのビデオストリームを取得し、ビデオストリームの中から画像を取得するステップは、
    カメラによりユーザのビデオストリームを取得して、ビデオストリームの中から連続する画像または所定値の間隔で断続する画像を取得する、
    ことを特徴とする請求項1に記載のジェスチャーに基づく人間と機械のインタラクション方法。
  3. 前記前景の中から三つ以上の予め設けられた色ブロックの座標を取得するステップは、
    背景モデルを作成して、マスク画像を生成し、当該マスク画像により前記画像の背景を除去するステップと、
    予め設けられた第一色ブロック、第二色ブロック、第三色ブロックのテンプレートを取得し、前記画像により前記それぞれの色ブロックのヒストグラムを生成するステップと、
    前記それぞれの色ブロックのヒストグラムからそれぞれの色ブロックの確率分布図を算出するステップと、
    前記確率分布図の前記それぞれの色ブロックの質量中心を取得することにより前記三つの色ブロックの座標を取得するステップと、
    を含むことを特徴とする請求項2に記載のジェスチャーに基づく人間と機械のインタラクション方法。
  4. 前記その他の色ブロックの座標によりマウスのクリック操作をシミュレートするステップは、
    前記第二色ブロックと第三色ブロックの座標間の直線距離を取得し、前記直線距離が予め設定された閾値より小さい場合、前記マウスの左ボタンが押下されたとシミュレートし、前記直線距離が前記閾値以上である場合、左ボタンの押下が解放されたとシミュレートする、
    ことを特徴とする請求項3に記載のジェスチャーに基づく人間と機械のインタラクション方法。
  5. 前記予め設けられた色ブロックのテンプレートを取得することは、指に三つの色の異なる指カバーをつけ、前記指カバーの色を色ブロックのテンプレートとして記録する、
    ことを特徴とする請求項4に記載のジェスチャーに基づく人間と機械のインタラクション方法。
  6. 前記それぞれの色ブロックのヒストグラムからそれぞれの色ブロックの確率分布図を算出するステップの後に、さらに、
    前記確率分布図に対して収縮処理を行い、ノイズを除去するステップと、
    前記確率分布図に対してガウス平滑化処理を行い、さらに、ガウス平滑化処理された確率分布図に対して閾値分割を行うステップと、
    を含むことを特徴とする請求項3に記載のジェスチャーに基づく人間と機械のインタラクション方法。
  7. ユーザのビデオストリームの中から画像を取得する取得モジュールと、
    前景の中から三つ以上の予め設けられた色ブロックの座標を取得する位置決めモジュールと、
    第一色ブロックの座標によりマウスの移動をシミュレートし、その他の色ブロックの座標によりマウスのクリック操作をシミュレートする変換モジュールと、
    を含むことを特徴とするジェスチャーに基づく人間と機械のインタラクションシステム。
  8. 前記取得モジュールは、
    カメラによりユーザのビデオストリームを取得して、ビデオストリームの中から連続する画像または所定値の間隔で断続する画像を取得する、
    ことを特徴とする請求項7に記載のジェスチャーに基づく人間と機械のインタラクションシステム。
  9. 前記位置決めモジュールは、
    背景モデルを作成して、マスク画像を生成し、当該マスク画像により前記画像の背景を除去する背景分割ユニットと、
    予め設けられた第一色ブロック、第二色ブロック、第三色ブロックのテンプレートを取得し、前記画像により前記それぞれの色ブロックのヒストグラムを生成するヒストグラムユニットと、
    前記それぞれの色ブロックのヒストグラムからそれぞれの色ブロックの確率分布図を算出する確率分布図ユニットと、
    前記確率分布図の前記それぞれの色ブロックの質量中心を取得することにより前記三つの色ブロックの座標を取得する色ブロック位置決めユニットと、
    を含むことを特徴とする請求項8に記載のジェスチャーに基づく人間と機械のインタラクションシステム。
  10. 前記変換ユニットは、
    前記第二色ブロックと第三色ブロックの座標間の直線距離を取得し、前記直線距離が予め設定された閾値より小さい場合、前記マウスの左ボタンが押下されたとシミュレートし、前記直線距離が前記閾値以上である場合、左ボタンの押下が解放されたとシミュレートする、
    ことを特徴とする請求項9に記載のジェスチャーに基づく人間と機械のインタラクションシステム。
  11. 指につけられた三つの色の異なる指カバーをさらに含み、前記指カバーの色を色ブロックのテンプレートとして記録する、
    ことを特徴とする請求項10に記載のジェスチャーに基づく人間と機械のインタラクションシステム。
  12. 前記位置決めモジュールは、修正ユニットをさらに含み、
    前記修正ユニットは、ノイズ除去サブユニットおよび平滑化サブユニットを含み、
    前記ノイズ除去サブユニットは、前記確率分布図に対して収縮処理を行うことによりノイズを除去し、
    前記平滑化サブユニットは、前記確率分布図に対してガウス平滑化処理を行い、さらに、ガウス平滑化処理された確率分布図に対して閾値分割を行う、
    ことを特徴とする請求項9に記載のジェスチャーに基づく人間と機械のインタラクションシステム。
  13. 一つまたは複数のコンピュータ実行可能命令を含むコンピュータ記録媒体であって、
    前記コンピュータ実行可能命令は、ジェスチャーに基づく人間と機械のインタラクション方法を実現するために使用され、
    前記方法は、
    ユーザのビデオストリームの中から画像を取得するステップと、
    前景の中から三つ以上の予め設けられた色ブロックの座標を取得するステップと、
    第一色ブロックの座標によりマウスの移動をシミュレートし、その他の色ブロックの座標によりマウスのクリック操作をシミュレートするステップと、
    を含むことを特徴とするコンピュータ記録媒体。
  14. 前記ユーザのビデオストリームを取得し、ビデオストリームの中から画像を取得するステップは、
    カメラによりユーザのビデオストリームを取得して、ビデオストリームの中から連続する画像または所定値の間隔で断続する画像を取得する、
    ことを特徴とする請求項13に記載のコンピュータ記録媒体。
  15. 前記前景の中から三つ以上の予め設けられた色ブロックの座標を取得するステップは、
    背景モデルを作成して、マスク画像を生成し、当該マスク画像により前記画像の背景を除去するステップと、
    予め設けられた第一色ブロック、第二色ブロック、第三色ブロックのテンプレートを取得し、前記画像により前記それぞれの色ブロックのヒストグラムを生成するステップと、
    前記それぞれの色ブロックのヒストグラムからそれぞれの色ブロックの確率分布図を算出するステップと、
    前記確率分布図の前記それぞれの色ブロックの質量中心を取得することにより前記三つの色ブロックの座標を取得するステップと、
    を含むことを特徴とする請求項14に記載のコンピュータ記録媒体。
  16. 前記その他の色ブロックの座標によりマウスのクリック操作をシミュレートするステップは、
    前記第二色ブロックと第三色ブロックの座標間の直線距離を取得し、前記直線距離が予め設定された閾値より小さい場合、前記マウスの左ボタンが押下されたとシミュレートし、前記直線距離が前記閾値以上である場合、左ボタンの押下が解放されたとシミュレートする、
    ことを特徴とする請求項15に記載のコンピュータ記録媒体。
  17. 前記予め設けられた色ブロックのテンプレートを取得することは、指に三つの色の異なる指カバーをつけ、前記指カバーの色を色ブロックのテンプレートとして記録する、
    ことを特徴とする請求項16に記載のコンピュータ記録媒体。
  18. 前記それぞれの色ブロックのヒストグラムからそれぞれの色ブロックの確率分布図を算出するステップの後に、さらに、
    前記確率分布図に対して収縮処理を行い、ノイズを除去するステップと、
    前記確率分布図に対してガウス平滑化処理を行い、さらに、ガウス平滑化処理された確率分布図に対して閾値分割を行うステップと、
    を含むことを特徴とする請求項15に記載のコンピュータ記録媒体。
JP2013520959A 2010-09-17 2011-08-16 ジェスチャーに基づく人間と機械のインタラクション方法およびシステム、コンピュータ記録媒体 Active JP5698355B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201010287015.2 2010-09-17
CN201010287015.2A CN102402279B (zh) 2010-09-17 2010-09-17 基于手势的人机交互方法及系统
PCT/CN2011/078483 WO2012034469A1 (zh) 2010-09-17 2011-08-16 基于手势的人机交互方法及系统、计算机存储介质

Publications (2)

Publication Number Publication Date
JP2013533561A true JP2013533561A (ja) 2013-08-22
JP5698355B2 JP5698355B2 (ja) 2015-04-08

Family

ID=45830997

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013520959A Active JP5698355B2 (ja) 2010-09-17 2011-08-16 ジェスチャーに基づく人間と機械のインタラクション方法およびシステム、コンピュータ記録媒体

Country Status (8)

Country Link
EP (1) EP2618237B1 (ja)
JP (1) JP5698355B2 (ja)
KR (1) KR101433543B1 (ja)
CN (1) CN102402279B (ja)
BR (1) BR112013006871A2 (ja)
CA (1) CA2806149C (ja)
RU (1) RU2552192C2 (ja)
WO (1) WO2012034469A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103576848B (zh) * 2012-08-09 2016-07-13 腾讯科技(深圳)有限公司 手势操作方法和手势操作装置
CN106611402B (zh) * 2015-10-23 2019-06-14 腾讯科技(深圳)有限公司 图像处理方法及装置
CN108897421A (zh) * 2018-06-19 2018-11-27 芜湖美智空调设备有限公司 电子设备及其控制方法、装置和计算机可读存储介质
KR102274781B1 (ko) * 2019-08-13 2021-07-07 박종태 발과 다리의 6축 움직임 해석에 따른 명령어 생성방법
CN114967927B (zh) * 2022-05-30 2024-04-16 桂林电子科技大学 一种基于图像处理的智能手势交互方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003527708A (ja) * 2000-03-13 2003-09-16 アーベー イン クレデブル ジェスチャ認識システム
JP2010500645A (ja) * 2006-08-08 2010-01-07 マイクロソフト コーポレーション 視覚ディスプレイのためのバーチャルコントローラ

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6747632B2 (en) * 1997-03-06 2004-06-08 Harmonic Research, Inc. Wireless control device
US6072494A (en) * 1997-10-15 2000-06-06 Electric Planet, Inc. Method and apparatus for real-time gesture recognition
US6088018A (en) * 1998-06-11 2000-07-11 Intel Corporation Method of using video reflection in providing input data to a computer system
RU2175143C1 (ru) * 2000-04-04 2001-10-20 Свириденко Андрей Владимирович Способ дистанционного управления
CN101609362B (zh) * 2008-06-19 2011-07-20 大同股份有限公司 以视讯为基础的游标控制装置及其控制方法
CN101344816B (zh) * 2008-08-15 2010-08-11 华南理工大学 基于视线跟踪和手势识别的人机交互方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003527708A (ja) * 2000-03-13 2003-09-16 アーベー イン クレデブル ジェスチャ認識システム
JP2010500645A (ja) * 2006-08-08 2010-01-07 マイクロソフト コーポレーション 視覚ディスプレイのためのバーチャルコントローラ

Also Published As

Publication number Publication date
EP2618237A4 (en) 2015-11-11
WO2012034469A1 (zh) 2012-03-22
CN102402279A (zh) 2012-04-04
KR101433543B1 (ko) 2014-08-22
EP2618237A1 (en) 2013-07-24
BR112013006871A2 (pt) 2017-09-19
KR20130073934A (ko) 2013-07-03
RU2012150393A (ru) 2014-10-27
RU2552192C2 (ru) 2015-06-10
CA2806149A1 (en) 2012-03-22
CA2806149C (en) 2015-11-03
EP2618237B1 (en) 2018-11-28
CN102402279B (zh) 2016-05-25
JP5698355B2 (ja) 2015-04-08

Similar Documents

Publication Publication Date Title
US8963836B2 (en) Method and system for gesture-based human-machine interaction and computer-readable medium thereof
JP5887775B2 (ja) ヒューマンコンピュータインタラクションシステム、手と手指示点位置決め方法、及び手指のジェスチャ決定方法
US8286102B1 (en) System and method for image processing using multi-touch gestures
JP5698355B2 (ja) ジェスチャーに基づく人間と機械のインタラクション方法およびシステム、コンピュータ記録媒体
Rautaray et al. A novel human computer interface based on hand gesture recognition using computer vision techniques
Yin et al. Toward natural interaction in the real world: Real-time gesture recognition
CN113961067B (zh) 基于深度学习的非接触式涂鸦绘制方法与识别交互系统
CN107450717B (zh) 一种信息处理方法及穿戴式设备
CN108628455B (zh) 一种基于触摸屏手势识别的虚拟沙画绘制方法
CN103649967A (zh) 动态手势识别方法和编辑系统
Vivek Veeriah et al. Robust hand gesture recognition algorithm for simple mouse control
Choi et al. Bare-hand-based augmented reality interface on mobile phone
CN107682595B (zh) 一种交互投影方法、系统及计算机可读存储介质
US10339372B2 (en) Analog strokes to digital ink strokes
Ye et al. Gestimator: Shape and stroke similarity based gesture recognition
KR102052449B1 (ko) 가상 마우스 시스템 및 그 제어 방법
CN104951083A (zh) 一种远距离手势输入法及输入系统
CN111860086A (zh) 基于深度神经网络的手势识别方法、装置及系统
Song et al. Real-time single camera natural user interface engine development
Li et al. Kinect-based gesture recognition and its application in moocs recording system
Shukla et al. Enhancing Human-Computer Interaction: Hand Detection for Air Writing Utilizing NumPy and OpenCV
WO2020170851A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
Narain et al. Learning has never been more fun: A Markerless AR-based Character Learning Application for Children
Babu et al. Touchless User Interface for Sketching Using Hand Gesture Recognition
Del Rosario et al. Processing RGB-D Data from a 3D Camera using Object Detection and Written Character Recognition in Convolutional Neural Networks for Virtual Finger Writing

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130311

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130123

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140812

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140909

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150212

R150 Certificate of patent or registration of utility model

Ref document number: 5698355

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250