JP2013533561A

JP2013533561A - ジェスチャーに基づく人間と機械のインタラクション方法およびシステム、コンピュータ記録媒体

Info

Publication number: JP2013533561A
Application number: JP2013520959A
Authority: JP
Inventors: 童程; 帥岳
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2010-09-17
Filing date: 2011-08-16
Publication date: 2013-08-22
Anticipated expiration: 2031-08-16
Also published as: EP2618237A4; WO2012034469A1; CN102402279A; KR101433543B1; EP2618237A1; BR112013006871A2; KR20130073934A; RU2012150393A; RU2552192C2; CA2806149A1; CA2806149C; EP2618237B1; CN102402279B; JP5698355B2

Abstract

【課題】ジェスチャーに基づく人間と機械のインタラクション方法およびシステム、コンピュータ記録媒体を提供する。
【解決手段】当該システムは取得モジュール、位置決めモジュールおよび変換モジュールを含む。当該方法は、ユーザのビデオストリームの中から画像を取得するステップ１０１と、前景の中から三つ以上の予め設けられた色ブロックの座標を取得するステップ１０２と、第一色ブロックの座標によりマウスの移動をシミュレートし、その他の色ブロックの座標によりマウスのクリック操作をシミュレートするステップ１０３と、を含む。
【選択図】図１

Description

本発明は、コンピュータ技術に関し、特にジェスチャーに基づく人間と機械のインタラクション方法およびシステム、コンピュータ記録媒体に関する。

既存のコンピュータなどの処理装置における人間と機械のインタラクション手法として、マウス、キーボード、モニタを使用することが一般的である。しかし、技術の発展につれ、人間と機械のインタラクションをより便利で迅速にできる手法が望まれている。そこで、音声および手書きペンなどによる人間と機械のインタラクション手法が次第に生まれてきた。

しかしながら、本発明を実現する過程において、発明者は、既存技術には少なくとも次のような問題点が存在していることに気付いた。

音声入力の手法は、文字入力時の入力難易度を下げることはできるが、グラフィックインターフェースにおける応用には、さまざまな制限を受けてしまう。同様に、手書きペンの手法も、漢字の入力には優れているが、グラフィックインターフェースにおける使用の便利さは、マウスよりも劣っている。

本発明は、既存技術におけるコンピュータなどの処理装置の音声、手書きペンなどによる人間と機械のインタラクション手法がグラフィックインターフェースに適用できない問題点を解決するためになされたものである。本発明は、ジェスチャーに基づく人間と機械のインタラクション方法およびシステム、コンピュータ記録媒体を提供することを目的とする。

上記の目的を達成するための本発明に係るジェスチャーに基づく人間と機械のインタラクション方法は、ユーザのビデオストリームの中から画像を取得するステップと、前景の中から三つ以上の予め設けられた色ブロックの座標を取得するステップと、第一色ブロックの座標によりマウスの移動をシミュレートし、その他の色ブロックの座標によりマウスのクリック操作をシミュレートするステップと、を含む。

上記の目的を達成するための本発明に係るジェスチャーに基づく人間と機械のインタラクションシステムは、ユーザのビデオストリームの中から画像を取得する取得モジュールと、前景の中から三つ以上の予め設けられた色ブロックの座標を取得する位置決めモジュールと、第一色ブロックの座標によりマウスの移動をシミュレートし、その他の色ブロックの座標によりマウスのクリック操作をシミュレートする変換モジュールと、を含む。

上記の目的を達成するための本発明に係るコンピュータ記録媒体は、一つまたは複数のコンピュータ実行可能命令を含むコンピュータ記録媒体であって、前記コンピュータ実行可能命令は、ジェスチャーに基づく人間と機械のインタラクション方法を実現するために使用される。前記方法は、ユーザのビデオストリームの中から画像を取得するステップと、前景の中から三つ以上の予め設けられた色ブロックの座標を取得するステップと、第一色ブロックの座標によりマウスの移動をシミュレートし、その他の色ブロックの座標によりマウスのクリック操作をシミュレートするステップと、含む。

本発明に係るジェスチャーに基づく人間と機械のインタラクション方法およびシステム、コンピュータ記録媒体によれば、取得したユーザのビデオストリームを処理することにより、複数の予め設けられた色ブロックの座標を取得でき、複数の色ブロックの座標によりマウスの操作をシミュレートできる。したがって、既存のコンピュータなどの処理装置においても、非常に簡単な手法でジェスチャーに基づく人間と機械のインタラクションを実現でき、タッチパネルが無くてもタッチによりコントロールしたような効果を実現できる。

本発明に係る実施形態の技術的思想をさらに明確に説明するため、以下、実施形態において使用される図面について簡単に説明する。下記の図面は、本発明の一部の実施形態を説明するためのものだけであって、本技術分野における通常の技術者であれば、これらの図面によりその他の図面を想到できることは言うまでもない。
本発明に係る第一実施形態のフローチャートである。本発明に係る第二実施形態のフローチャートである。本発明に係る第三実施形態の構成を示すブロック図である。本発明に係る第四実施形態の構成を示すブロック図である。

本発明の目的、技術的思想および効果をさらに明確にするため、以下、添付した図面を参照しながら、本発明の実施形態を詳細に説明する。

本発明に係る実施形態の設計思想は、ユーザのビデオ映像を取得することにより、ユーザの手の部分の移動情報を取得してマウスの操作をシミュレートすることである。三本の指に対応する色ブロックのテンプレートを予め取得し、かつ、取得したビデオ映像について処理することにより三本の指の位置を取得できる。そのうち、一本の指によりマウスの移動操作をシミュレートでき、その他の二本の指によりマウスのクリック操作をシミュレートできる。Ｉｎｔｅｌ社のＯｐｅｎＣＶが画像処理するためのオープンソースコードを含むソースコードライブラリーを提供しているため、ＯｐｅｎＣＶコードについてプログラミングできる。以下、具体的な実施形態により本発明を詳細に説明する。

＜実施形態１＞
図１は、本実施形態に係るジェスチャーに基づく人間と機械のインタラクション方法のフローチャートである。

＜ステップ１０１＞
ユーザのビデオストリームを取得し、ビデオストリームの中から画像を取得する。

＜ステップ１０２＞
前景の中から三つ以上の予め設けられた色ブロックの座標を取得する。

＜ステップ１０３＞
第一色ブロックの座標によりマウスの移動をシミュレートし、その他の色ブロックの座標によりマウスのクリック操作をシミュレートする。

本実施形態に係るジェスチャーに基づく人間と機械のインタラクション方法によれば、取得したユーザのビデオストリームを処理することにより、複数の予め設けられた色ブロックの座標を取得でき、複数の色ブロックの座標によりマウスの操作をシミュレートできる。したがって、既存のコンピュータなどの処理装置においても、非常に簡単な手法でジェスチャーに基づく人間と機械のインタラクションを実現でき、タッチパネルが無くてもタッチによりコントロールしたような効果を実現できる。

＜実施形態２＞
本発明に係る第二実施形態は、第一実施形態を改善したものであって、そのフローチャートは図２に示すとおりである。

＜ステップ２０１＞
カメラによりユーザのビデオストリームを取得し、ビデオストリームの中から画像を抽出する。

抽出する画像は、連続した画像であってもよいし、断続した画像であってもよい。ユーザの手の部分の移動速度はそれほど速くないため、ビデオストリーム中のすべての画像に対して処理する必要はない。したがって、システムの処理負荷を軽減できる。なお、より精確さを必要とする場合、ビデオストリーム中のすべての画像に対して処理してもよく、本実施形態はこれに限らない。

＜ステップ２０２＞
それぞれの画像について処理を行い、画像中の背景を除去して、前景を取得する。既存のオフィス、家庭内で使用する際、ビデオ映像における背景の変化は比較的小さいため、ビデオストリームの中から背景をとても簡単に確定できる。ステップ２０２は具体的には、次のステップを含む。

＜ステップ２０２１＞
ＣｏｄｅＢｏｏｋアルゴリズムにより背景モデルを作成し、マスク画像を生成する。当該マスク画像は、当該処理された画像と同じサイズにすることができ、また、白色で前景を示し、黒色で背景を示すことができる。

＜ステップ２０２２＞
当該マスク画像と当該処理された画像をマッチングし、対応する画像部分を除去する。当該マスク画像は、一つあるだけでよく、当該背景モデルによりそれぞれの画像の背景を除去して、前景を取得する。

なお、ＣｏｄｅＢｏｏｋアルゴリズムにより前景を取得することは、本実施形態の一つの手法だけであって、本実施形態はこれに限らない。

＜ステップ２０３＞
予め設けられた色ブロック・テンプレートにより、それぞれの予め設けられた色ブロックに対応するヒストグラムを取得する。

本実施形態においては、片手の一本の指の移動によりマウスの移動をシミュレートする。また、他方の手の二本の指によりマウスの左ボタンのクリックをシミュレートする。そのため、少なくとも三つの予め設けられた色ブロックを同時に追跡する必要がある。

さらに、当該三つの色ブロックをより区別しやすくするために、ユーザの指に三つの色の異なる区別しやすいカラーカバーをつけることができる。そして、これら三つのカラーカバーの色を色ブロック・テンプレートとして記録する。こうすると、システムの算出処理を簡略化できる。

本発明の一つの実施形態において、画像処理のコーディングは、Ｉｎｔｅｌ社のＯｐｅｎＣＶを使用できる。ＯｐｅｎＣＶは、Ｉｎｔｅｌ社がサポートするオープンソースのコンピュータビジョン向けライブラリであって、商業的および非商業的に応用することはすべて無料である。ＯｐｅｎＣＶ中のヒストグラム関数を使用すると、前景のヒストグラムを非常に簡単に算出できる。ここで、ＯｐｅｎＣＶの一連のヒストグラム関数は、ＤｅｎｓｅＨｉｓｔｏｇｒａｍクラスに格納され、Ｃａｌｃｕｌａｔｅ方法により画像のヒストグラムを簡単に計算できる。

色ヒストグラムは、多くの画像検索システムで広く採用される色特徴であって、異なる色彩が全画像に占める比率を表している。色ヒストグラムは、自動分割の難しい画像を表すのに最も適している。

上述の三つの色ブロックに対し、それぞれ次の操作を実行することにより、三つの色ブロックが対応する指の位置およびマウスのクリック操作を確定する。すなわち、上述のステップ２０３は、具体的に次のとおりである。

＜ステップ２０４＞
ステップ２０１により取得した画像、およびステップ２０３により取得した三つの色ブロックのヒストグラムを取得する。ＢａｃｋＰｒｏｊｅｃｔｉｏｎ（逆投影）アルゴリズムにより、それぞれの色ブロックの確率分布図を算出する。

ヒストグラムから確率分布図を取得することは熟知された既存技術であるため、ここでは詳細な説明を省略する。

＜ステップ２０５＞
取得した確率分布図について処理を行い、上述の確率分布図をさらに最適化する。

ステップ２０４において取得した確率分布図には、ノイズや鋸歯などが存在する可能性がある。そのため、ステップ２０５において画像に対してノイズ除去、平滑化処理などを行って、取得した色ブロックをより精確にすることが必要となる。ステップ２０５は、具体的には次のステップを含む。

＜ステップ２０５１＞
上述の確率分布図に対して収縮処理を行い、ノイズを除去する。

＜ステップ２０５２＞
上述の確率分布図に対してガウス平滑化処理を行い、さらに、ガウス平滑化処理された確率分布図に対して閾値分割を行う。画像の閾値分割とは、予め設けられた閾値に対し、画像のピクセルが閾値未満である場合、当該ピクセルを前景とみなし、画像のピクセルが閾値以上である場合、当該ピクセルを背景とみなす。

＜ステップ２０６＞
ＣＡＭＳｈｉｆｔ（ＣｏｎｔｉｎｕｏｕｓｌｙＡｐａｔｉｖｅＭｅａｎ−Ｓｈｉｆｔ）アルゴリズムにより確率分布図の質量中心を追跡して、上述した三つの色ブロックの中心点座標を取得する。

ここで、ＣＡＭＳｈｉｆｔアルゴリズムは、熟知されている物体追跡アルゴリズムであって、おもにビデオ映像中の運動物体の色情報により追跡の目的を実現する。ＢａｃｋＰｒｏｊｅｃｔｉｏｎアルゴリズムにより原画像を色彩確率分布画像に変換した後、ＣＡＭＳｈｉｆｔアルゴリズムにより三つの色ブロックの中心点座標、すなわち、三つの色ブロックの座標を算出できる。

＜ステップ２０７＞
取得した三つの色ブロックの中心点座標をマウスの操作情報に変換する。

すなわち、三つの色ブロックの中心点座標を取得した後、まず、第一色ブロックの座標をマウスの座標に変換する。次に、第二色ブロックと第三色ブロックの間の位置からマウスの左ボタンの操作を確定する。たとえば、第二色ブロックと第三色ブロックの距離によりマウスの左ボタンの操作をシミュレートできる。第二色ブロックと第三色ブロックの距離が予め設定された値より小さい場合、左ボタンが押下されたと確定し、第二色ブロックと第三色ブロックの距離が予め設定された値以上である場合、左ボタンの押下が解放されたと確定する。

本実施形態の方法は、ＯｐｅｎＣＶのオープンソースコードのコードライブラリーにより、ジェスチャーにおける第一色ブロックをマウスの座標に変換でき、第二色ブロックと第三色ブロックをマウスのボタン操作に変換できる。したがって、簡単な手法によりジェスチャーに基づく人間と機械のインタラクションを実現できる。

なお、三つの色ブロックを採用することは本実施形態の単なる一つの手法であって、本実施形態はこれに限らない。

本発明はさらに、一つまたは複数のコンピュータ実行可能命令を含むコンピュータ記録媒体を提供する。前記コンピュータ実行可能命令は、ジェスチャーに基づく人間と機械のインタラクション方法を実現するために使用される。コンピュータ記録媒体中のコンピュータ実行可能命令によりジェスチャーに基づく人間と機械のインタラクションを実現する方法の詳細は、上述したとおりで、ここでは重複する説明を省略する。

＜実施形態３＞
図３は、本実施形態に係るジェスチャーに基づく人間と機械のインタラクションシステムの構成を示すブロック図である。当該システムは、取得モジュール１、位置決めモジュール２および変換モジュール３を含む。

取得モジュール１は、ユーザのビデオストリームを取得し、ビデオストリームの中から画像を取得する。

位置決めモジュール２は、前景の中から三つ以上の予め設けられた色ブロックの座標を取得する。

変換モジュール３は、第一色ブロックの座標によりマウスの移動をシミュレートし、その他の色ブロックの座標によりマウスのクリック操作をシミュレートする。

本実施形態に係るジェスチャーに基づく人間と機械のインタラクションシステムによれば、取得したユーザのビデオストリームを処理することにより、複数の予め設けられた色ブロックの座標を取得でき、複数の色ブロックの座標によりマウスの操作をシミュレートできる。したがって、既存のコンピュータなどの処理装置においても、非常に簡単な手法でジェスチャーに基づく人間と機械のインタラクションを実現でき、タッチパネルが無くてもタッチによりコントロールしたような効果を実現できる。

＜実施形態４＞
本発明に係る第四実施形態は、第三実施形態を改善したものであって、その構成は図４に示すとおりである。当該システムは、取得モジュール１、位置決めモジュール２および変換モジュール３を含む。

取得モジュール１は、カメラによりユーザのビデオストリームを取得し、ビデオストリームの中から画像を抽出する。

位置決めモジュール２は、画像中の背景を除去し、前景の中から三つの予め設けられた色ブロックの座標を取得する。

位置決めモジュール２は、具体的には、背景分割ユニット２１、ヒストグラムユニット２２、確率分布図ユニット２３、修正ユニット２４および色ブロック位置決めユニット２５を含むことができる。

背景分割ユニット２１は、それぞれの画像について処理を行い、画像中の背景を除去して、前景を取得する。既存のオフィス、家庭内で使用する際、ビデオ映像における背景の変化は比較的小さいため、ビデオストリームの中から背景をとても簡単に確定できる。

背景分割ユニット２１は、マスク画像サブユニット２１１および除去サブユニット２１２を含むことができる。

マスク画像サブユニット２１１は、ＣｏｄｅＢｏｏｋアルゴリズムにより背景モデルを作成し、マスク画像を生成する。当該マスク画像は、当該処理された画像と同じサイズにすることができ、また、白色で前景を示し、黒色で背景を示すことができる。

除去サブユニット２１２は、当該マスク画像と当該処理された画像をマッチングし、対応する画像部分を除去する。当該マスク画像は、一つあるだけでよく、当該背景モデルによりそれぞれの画像の背景を除去して、前景を取得する。

ヒストグラムユニット２２は、予め設けられた色ブロック・テンプレートにより、それぞれの予め設けられた色ブロックに対応するヒストグラムを取得する。

上述の三つの色ブロックに対し、それぞれ次の操作を実行することにより、三つの色ブロックが対応する指の位置およびマウスのクリック操作を確定する。

確率分布図ユニット２３は、取得モジュール１により取得した画像、およびヒストグラムユニット２２により取得した三つの色ブロックのヒストグラムを取得する。ＢａｃｋＰｒｏｊｅｃｔｉｏｎ（逆投影）アルゴリズムにより、それぞれの色ブロックの確率分布図を算出する。

修正ユニット２４は、取得した確率分布図について処理を行い、上述の確率分布図をさらに最適化する。

確率分布図ユニット２３により取得した確率分布図には、ノイズや鋸歯などが存在する可能性がある。そのため、修正ユニット２４により画像に対してノイズ除去、平滑化処理などを行って、取得した色ブロックをより精確にすることが必要となる。

修正ユニット２４は、具体的に、ノイズ除去サブユニット、平滑化サブユニットを含む。

ノイズ除去サブユニットは、上述の確率分布図に対して収縮処理を行い、ノイズを除去する。

平滑化サブユニットは、上述の確率分布図に対してガウス平滑化処理を行い、さらに、ガウス平滑化処理された確率分布図に対して閾値分割を行う。画像の閾値分割とは、予め設けられた閾値に対し、画像のピクセルが閾値未満である場合、当該ピクセルを前景とみなし、画像のピクセルが閾値以上である場合、当該ピクセルを背景とみなす。

色ブロック位置決めユニット２５は、ＣＡＭＳｈｉｆｔ（ＣｏｎｔｉｎｕｏｕｓｌｙＡｐａｔｉｖｅＭｅａｎ−Ｓｈｉｆｔ）アルゴリズムにより確率分布図の質量中心を追跡して、上述した三つの色ブロックの中心点座標、すなわち、三つの色ブロックの座標を取得する。

ここで、ＣＡＭＳｈｉｆｔアルゴリズムは、熟知されている物体追跡アルゴリズムであって、おもにビデオ映像中の運動物体の色情報により追跡の目的を実現する。ＢａｃｋＰｒｏｊｅｃｔｉｏｎアルゴリズムにより原画像を色彩確率分布画像に変換した後、ＣＡＭＳｈｉｆｔアルゴリズムにより三つの色ブロックの中心点座標を算出できる。

変換モジュール３は、取得した三つの色ブロックの中心点座標をマウスの操作情報に変換する。

なお、三つの色ブロックを採用することは本実施形態の一つの手法だけであって、本実施形態はこれに限らない。

本発明に係る第三および第四実施形態のシステムは、上述した第一および第二実施形態の方法と技術的思想および原理が同じである。そのため、第三および第四実施形態において、第一および第二実施形態と重複する部分に関する説明を省略する。

本発明の実施形態における上述のユニットは、ソフトウェアによる機能ユニットの形式で実現され、さらに独立した商品として販売、使用される場合、コンピュータがランダムにアクセスできる記録媒体に記録されることもできる。このような理解に基づき、本発明に係る技術的思想の本質、または既存技術に対して貢献する部分は、ソフトウェア製品の形式で表すことができる。当該コンピュータソフトウェア製品は、一つの記録媒体に記録され、複数の命令を含む。複数の命令は、一台のコンピュータ装置（たとえば、パソコン、サーバー、ネットワーク装置など）を上述した本発明に係る各実施形態の方法の全部または一部を実行させる。上述の記録媒体は、プログラムコードを記録できるＵＳＢフラッシュメモリ、ポータブルハードディスク、読出専用メモリ（ＲＯＭ、Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスクまたは光ディスクなど各種タイプの媒体を含む。

以上、本発明の好適な実施形態を説明したが、これらは本発明の説明のための例示であり、本発明の範囲をこれらの実施形態にのみ限定する趣旨ではない。本発明は、その要旨を逸脱しない範囲で、上記実施形態とは異なる種々の態様で実施することができる。

１取得モジュール、
２位置決めモジュール、
２１背景分割ユニット、
２１１マスク画像サブユニット、
２１２除去サブユニット、
２２ヒストグラムユニット、
２３確率分布ユニット、
２４修正ユニット、
２５色ブロック位置決めユニット、
３変換モジュール。

Claims

ユーザのビデオストリームの中から画像を取得するステップと、
前景の中から三つ以上の予め設けられた色ブロックの座標を取得するステップと、
第一色ブロックの座標によりマウスの移動をシミュレートし、その他の色ブロックの座標によりマウスのクリック操作をシミュレートするステップと、
を含むことを特徴とするジェスチャーに基づく人間と機械のインタラクション方法。
前記ユーザのビデオストリームを取得し、ビデオストリームの中から画像を取得するステップは、
カメラによりユーザのビデオストリームを取得して、ビデオストリームの中から連続する画像または所定値の間隔で断続する画像を取得する、
ことを特徴とする請求項１に記載のジェスチャーに基づく人間と機械のインタラクション方法。
前記前景の中から三つ以上の予め設けられた色ブロックの座標を取得するステップは、
背景モデルを作成して、マスク画像を生成し、当該マスク画像により前記画像の背景を除去するステップと、
予め設けられた第一色ブロック、第二色ブロック、第三色ブロックのテンプレートを取得し、前記画像により前記それぞれの色ブロックのヒストグラムを生成するステップと、
前記それぞれの色ブロックのヒストグラムからそれぞれの色ブロックの確率分布図を算出するステップと、
前記確率分布図の前記それぞれの色ブロックの質量中心を取得することにより前記三つの色ブロックの座標を取得するステップと、
を含むことを特徴とする請求項２に記載のジェスチャーに基づく人間と機械のインタラクション方法。
前記その他の色ブロックの座標によりマウスのクリック操作をシミュレートするステップは、
前記第二色ブロックと第三色ブロックの座標間の直線距離を取得し、前記直線距離が予め設定された閾値より小さい場合、前記マウスの左ボタンが押下されたとシミュレートし、前記直線距離が前記閾値以上である場合、左ボタンの押下が解放されたとシミュレートする、
ことを特徴とする請求項３に記載のジェスチャーに基づく人間と機械のインタラクション方法。
前記予め設けられた色ブロックのテンプレートを取得することは、指に三つの色の異なる指カバーをつけ、前記指カバーの色を色ブロックのテンプレートとして記録する、
ことを特徴とする請求項４に記載のジェスチャーに基づく人間と機械のインタラクション方法。
前記それぞれの色ブロックのヒストグラムからそれぞれの色ブロックの確率分布図を算出するステップの後に、さらに、
前記確率分布図に対して収縮処理を行い、ノイズを除去するステップと、
前記確率分布図に対してガウス平滑化処理を行い、さらに、ガウス平滑化処理された確率分布図に対して閾値分割を行うステップと、
を含むことを特徴とする請求項３に記載のジェスチャーに基づく人間と機械のインタラクション方法。
ユーザのビデオストリームの中から画像を取得する取得モジュールと、
前景の中から三つ以上の予め設けられた色ブロックの座標を取得する位置決めモジュールと、
第一色ブロックの座標によりマウスの移動をシミュレートし、その他の色ブロックの座標によりマウスのクリック操作をシミュレートする変換モジュールと、
を含むことを特徴とするジェスチャーに基づく人間と機械のインタラクションシステム。
前記取得モジュールは、
カメラによりユーザのビデオストリームを取得して、ビデオストリームの中から連続する画像または所定値の間隔で断続する画像を取得する、
ことを特徴とする請求項７に記載のジェスチャーに基づく人間と機械のインタラクションシステム。
前記位置決めモジュールは、
背景モデルを作成して、マスク画像を生成し、当該マスク画像により前記画像の背景を除去する背景分割ユニットと、
予め設けられた第一色ブロック、第二色ブロック、第三色ブロックのテンプレートを取得し、前記画像により前記それぞれの色ブロックのヒストグラムを生成するヒストグラムユニットと、
前記それぞれの色ブロックのヒストグラムからそれぞれの色ブロックの確率分布図を算出する確率分布図ユニットと、
前記確率分布図の前記それぞれの色ブロックの質量中心を取得することにより前記三つの色ブロックの座標を取得する色ブロック位置決めユニットと、
を含むことを特徴とする請求項８に記載のジェスチャーに基づく人間と機械のインタラクションシステム。
前記変換ユニットは、
前記第二色ブロックと第三色ブロックの座標間の直線距離を取得し、前記直線距離が予め設定された閾値より小さい場合、前記マウスの左ボタンが押下されたとシミュレートし、前記直線距離が前記閾値以上である場合、左ボタンの押下が解放されたとシミュレートする、
ことを特徴とする請求項９に記載のジェスチャーに基づく人間と機械のインタラクションシステム。
指につけられた三つの色の異なる指カバーをさらに含み、前記指カバーの色を色ブロックのテンプレートとして記録する、
ことを特徴とする請求項１０に記載のジェスチャーに基づく人間と機械のインタラクションシステム。
前記位置決めモジュールは、修正ユニットをさらに含み、
前記修正ユニットは、ノイズ除去サブユニットおよび平滑化サブユニットを含み、
前記ノイズ除去サブユニットは、前記確率分布図に対して収縮処理を行うことによりノイズを除去し、
前記平滑化サブユニットは、前記確率分布図に対してガウス平滑化処理を行い、さらに、ガウス平滑化処理された確率分布図に対して閾値分割を行う、
ことを特徴とする請求項９に記載のジェスチャーに基づく人間と機械のインタラクションシステム。
一つまたは複数のコンピュータ実行可能命令を含むコンピュータ記録媒体であって、
前記コンピュータ実行可能命令は、ジェスチャーに基づく人間と機械のインタラクション方法を実現するために使用され、
前記方法は、
ユーザのビデオストリームの中から画像を取得するステップと、
前景の中から三つ以上の予め設けられた色ブロックの座標を取得するステップと、
第一色ブロックの座標によりマウスの移動をシミュレートし、その他の色ブロックの座標によりマウスのクリック操作をシミュレートするステップと、
を含むことを特徴とするコンピュータ記録媒体。
前記ユーザのビデオストリームを取得し、ビデオストリームの中から画像を取得するステップは、
カメラによりユーザのビデオストリームを取得して、ビデオストリームの中から連続する画像または所定値の間隔で断続する画像を取得する、
ことを特徴とする請求項１３に記載のコンピュータ記録媒体。
前記前景の中から三つ以上の予め設けられた色ブロックの座標を取得するステップは、
背景モデルを作成して、マスク画像を生成し、当該マスク画像により前記画像の背景を除去するステップと、
予め設けられた第一色ブロック、第二色ブロック、第三色ブロックのテンプレートを取得し、前記画像により前記それぞれの色ブロックのヒストグラムを生成するステップと、
前記それぞれの色ブロックのヒストグラムからそれぞれの色ブロックの確率分布図を算出するステップと、
前記確率分布図の前記それぞれの色ブロックの質量中心を取得することにより前記三つの色ブロックの座標を取得するステップと、
を含むことを特徴とする請求項１４に記載のコンピュータ記録媒体。
前記その他の色ブロックの座標によりマウスのクリック操作をシミュレートするステップは、
前記第二色ブロックと第三色ブロックの座標間の直線距離を取得し、前記直線距離が予め設定された閾値より小さい場合、前記マウスの左ボタンが押下されたとシミュレートし、前記直線距離が前記閾値以上である場合、左ボタンの押下が解放されたとシミュレートする、
ことを特徴とする請求項１５に記載のコンピュータ記録媒体。
前記予め設けられた色ブロックのテンプレートを取得することは、指に三つの色の異なる指カバーをつけ、前記指カバーの色を色ブロックのテンプレートとして記録する、
ことを特徴とする請求項１６に記載のコンピュータ記録媒体。
前記それぞれの色ブロックのヒストグラムからそれぞれの色ブロックの確率分布図を算出するステップの後に、さらに、
前記確率分布図に対して収縮処理を行い、ノイズを除去するステップと、
前記確率分布図に対してガウス平滑化処理を行い、さらに、ガウス平滑化処理された確率分布図に対して閾値分割を行うステップと、
を含むことを特徴とする請求項１５に記載のコンピュータ記録媒体。