JP2013178631A

JP2013178631A - 機器の制御装置、制御方法、プログラム及び記憶媒体

Info

Publication number: JP2013178631A
Application number: JP2012041485A
Authority: JP
Inventors: Hidetane Asano; 秀胤浅野; Mutsumi Ota; 睦太田; Tatsuya Orimo; 達也織茂; Kazunori Umeda; 和昇梅田; Kenji Terabayashi; 賢司寺林
Original assignee: Chuo University; Pioneer Electronic Corp
Current assignee: Pioneer Corp; Chuo University
Priority date: 2012-02-28
Filing date: 2012-02-28
Publication date: 2013-09-09

Abstract

【課題】ユーザにとって分かり易く且つ簡便なジェスチャによって、種々の機器に対する操作を行うことが可能な機器の制御装置を提供する。
【解決手段】機器の制御装置は、対象物を利用して機器（電気機器など）の操作を行うために好適に使用される。対象物認識手段は、操作すべき機器に予め関連付けられた対象物を認識し、ジェスチャ認識手段は、対象物を利用して機器を操作するために、ユーザによって行われた所定のジェスチャを認識する。そして、操作手段は、対象物認識手段及びジェスチャ認識手段の認識結果に基づいて、所定のジェスチャが行われた対象物に関連付けられた機器の操作を行う。
【選択図】図２

Description

本発明は、ユーザのジェスチャに基づいて機器の操作を行う技術分野に関する。

この種の技術が、例えば特許文献１乃至３に提案されている。特許文献１には、ステレオカメラを用いて、ハンドサインなどによるユーザのジェスチャを認識し、テレビ等の操作を行う技術が記載されている。特許文献２には、テレビなどの表示装置の近辺に設置したカメラを用いてユーザのジェスチャ（手を近づける、手を挙げる、手のひらを回転させるといったジェスチャ）を認識し、そのジェスチャに基づいて、表示装置に表示している画像を移動させたり、ズームしたり、回転させたりする技術が記載されている。特許文献３には、カメラを用いて、名刺に記載された電話番号やファックス番号やメールアドレスなどを認識し、名刺を特定の方向に動かすといったジェスチャが行われた際に、電話やファックスなどを行う技術が記載されている。

ＷＯ２００３／０２５８５９号公報特表２０１１−５１７３５７号公報特開２０１０−２１８００９号公報

特許文献１に記載された技術では、ユーザの行動ログによる操作の最適化を行っているが、ジェスチャ自体は空間内で目標なく行う必要があったため、意図した操作を適切に行わせることができない場合があった。また、特許文献２に記載された技術では、ディスプレイの前の特定の位置でジェスチャを行う必要があったため、ジェスチャを行う位置が限定されていた。また、特許文献３に記載された技術では、名刺に関する操作に限定されていた。以上のことから、ユーザにとって分かり易く且つ簡便なジェスチャによって、種々の機器に対する操作を行うことができれば便宜である。

本発明が解決しようとする課題としては、上記のものが一例として挙げられる。本発明は、ユーザにとって分かり易く且つ簡便なジェスチャによって、種々の機器に対する操作を行うことが可能な機器の制御装置、制御方法、プログラム及び記憶媒体を提供することを目的とする。

請求項１に記載の発明では、機器の制御装置は、操作すべき機器に関連付けられた対象物を認識する対象物認識手段と、前記対象物を利用して前記機器を操作するための所定のジェスチャを認識するジェスチャ認識手段と、前記対象物認識手段及び前記ジェスチャ認識手段の認識結果に基づいて、前記所定のジェスチャが行われた前記対象物に関連付けられた前記機器の操作を行う操作手段と、を備える。

請求項１１に記載の発明では、機器の制御装置によって実行される制御方法は、操作すべき機器に関連付けられた対象物を認識する対象物認識工程と、前記対象物を利用して前記機器を操作するための所定のジェスチャを認識するジェスチャ認識工程と、前記対象物認識工程及び前記ジェスチャ認識工程の認識結果に基づいて、前記所定のジェスチャが行われた前記対象物に関連付けられた前記機器の操作を行う操作工程と、を備える。

請求項１２に記載の発明では、コンピュータを有する機器の制御装置によって実行されるプログラムは、前記コンピュータを、操作すべき機器に関連付けられた対象物を認識する対象物認識手段、前記対象物を利用して前記機器を操作するための所定のジェスチャを認識するジェスチャ認識手段、前記対象物認識手段及び前記ジェスチャ認識手段の認識結果に基づいて、前記所定のジェスチャが行われた前記対象物に関連付けられた前記機器の操作を行う操作手段、として機能させる。

請求項１３に記載の発明では、記憶媒体は、請求項１２に記載のプログラムを記憶したことを特徴とする。

本実施例に係る機器の制御装置の基本動作を説明するための図を示す。本実施例に係る機器の制御装置が適用されたシステムの概略構成を示す。本実施例に係る処理フローを示す。変形例２に係る絵の具体例を示す。変形例３に係る処理フローを示す。

本発明の１つの観点では、機器の制御装置は、操作すべき機器に関連付けられた対象物を認識する対象物認識手段と、前記対象物を利用して前記機器を操作するための所定のジェスチャを認識するジェスチャ認識手段と、前記対象物認識手段及び前記ジェスチャ認識手段の認識結果に基づいて、前記所定のジェスチャが行われた前記対象物に関連付けられた前記機器の操作を行う操作手段と、を備える。

上記の機器の制御装置は、対象物を利用して機器（電気機器など）の操作を行うために好適に使用される。対象物認識手段は、操作すべき機器に予め関連付けられた対象物を認識し、ジェスチャ認識手段は、対象物を利用して機器を操作するために、ユーザによって行われた所定のジェスチャを認識する。そして、操作手段は、対象物認識手段及びジェスチャ認識手段の認識結果に基づいて、所定のジェスチャが行われた対象物に関連付けられた機器の操作を行う。

上記の機器の制御装置によれば、ユーザは、対象物に対してジェスチャを行うことで、当該対象物に関連付けられた機器の操作を行うことができる。このように対象物とジェスチャとを組み合わせることで、ユーザは複雑なジェスチャを覚えることなく、簡易なジェスチャにより種々の操作を実現させることができる。また、上記の機器の制御装置によれば、操作のためのジェスチャを行う位置は特定の場所に限定されず、対象物がある場所であれば種々の場所でジェスチャを行うことができる。また、ユーザは、対象物を目標にしてジェスチャを行うことができるため、ジェスチャを行うべき位置を容易に把握することができる。以上より、上記の機器の制御装置によれば、ユーザにとって分かり易く且つ簡便なジェスチャによって、機器に対する種々の操作や、種々の機器に対する操作を適切に行うことが可能となる。

上記の機器の制御装置の一態様では、前記対象物認識手段は、前記対象物が存在する位置を検出し、前記ジェスチャ認識手段は、前記所定のジェスチャが行われた位置を検出し、前記操作手段は、前記対象物認識手段及び前記ジェスチャ認識手段が検出した位置に基づいて、前記所定のジェスチャが行われた位置に存在する前記対象物に関連付けられた前記機器の操作を行う。この態様によれば、ユーザによって所定のジェスチャが行われた対象物を適切に特定することが可能となる。

上記の機器の制御装置の好適な例では、前記対象物及び前記所定のジェスチャが少なくとも含まれる空間をカメラで撮影した画像を取得する手段を更に備え、前記対象物認識手段は、前記画像を解析することで、前記空間に存在する前記対象物を認識して、当該対象物の位置を検出し、前記ジェスチャ認識手段は、前記画像を解析することで、前記空間で行われた前記所定のジェスチャを認識して、当該ジェスチャが行われた位置を検出する。この場合、好ましくは、前記対象物は、再帰性反射材が塗布され、前記カメラは、その近傍に光源が設けられており、前記対象物認識手段は、前記再帰性反射材で反射された光に対応する画像に基づいて、前記対象物を認識する。これにより、対象物の認識を容易に行うことが可能となる。

上記の機器の制御装置の他の好適な例では、前記対象物認識手段及び／又は前記ジェスチャ認識手段は、センサを用いて、前記対象物が存在する位置及び／又は前記所定のジェスチャが行われた位置を検出する。これにより、カメラによって適切な画像が撮影できないよう場所（例えば暗所など）でも、位置を適切に検出することができる。また、センサを用いることで、位置の検出についての精度及び安定性を向上させることができる。

上記の機器の制御装置の他の一態様では、前記対象物認識手段及び前記ジェスチャ認識手段は、前記対象物の認識及び前記所定のジェスチャの認識を並列して行う。これにより、対象物の認識及び所定のジェスチャの認識に要する処理時間を短縮することができる。

上記の機器の制御装置の他の一態様では、前記対象物認識手段は、前記ジェスチャ認識手段によって前記所定のジェスチャが認識された後に、前記対象物を認識する。好適には、前記対象物認識手段は、前記ジェスチャ認識手段によって認識された前記所定のジェスチャが行われた位置に存在する前記対象物を認識することができる。これにより、対象物の認識は処理量が多くなる傾向にあるため、ジェスチャの認識の後に対象物の認識を行うことで、対象物の認識の処理量を削減することが可能となる。

好適な例では、前記対象物は、絵又は写真で構成されている。例えば、機器の操作に関連した絵や写真を用いることで、ユーザにとって分かり易いジェスチャ操作が可能となる。

また好適な例では、前記所定のジェスチャは、前記対象物を選択するための手によるジェスチャである。

本発明の他の観点では、機器の制御装置によって実行される制御方法は、操作すべき機器に関連付けられた対象物を認識する対象物認識工程と、前記対象物を利用して前記機器を操作するための所定のジェスチャを認識するジェスチャ認識工程と、前記対象物認識工程及び前記ジェスチャ認識工程の認識結果に基づいて、前記所定のジェスチャが行われた前記対象物に関連付けられた前記機器の操作を行う操作工程と、を備える。

本発明の更に他の観点では、コンピュータを有する機器の制御装置によって実行されるプログラムは、前記コンピュータを、操作すべき機器に関連付けられた対象物を認識する対象物認識手段、前記対象物を利用して前記機器を操作するための所定のジェスチャを認識するジェスチャ認識手段、前記対象物認識手段及び前記ジェスチャ認識手段の認識結果に基づいて、前記所定のジェスチャが行われた前記対象物に関連付けられた前記機器の操作を行う操作手段、として機能させる。

上記のプログラムは、記憶媒体に記録した状態で好適に取り扱うことができる。

以下、図面を参照して本発明の好適な実施例について説明する。

［基本動作］
まず、本実施例に係る機器の制御装置の基本動作について簡単に説明する。本実施例では、操作すべき機器（電気機器など）に予め関連付けられた絵を利用して、そのような絵に対するユーザのジェスチャに応じて機器の操作を行う。例えば、操作対象となる種々の機器ごとや機器の種々の操作ごとに、予め関連付けられた複数の絵を用意して、ユーザが所定のジェスチャを行うことで複数の絵の中から絵を選択した場合に、その絵に関連付けられた機器の操作を行う。

具体的には、機器の制御装置は、絵やユーザのジェスチャが含まれるような空間をカメラで撮影した画像を取得し、そのような画像に基づいて、絵を認識すると共にユーザのジェスチャを認識することで、ユーザによって所定のジェスチャが行われた絵に関連付けられた機器の操作を行う。この場合、機器の制御装置は、画像を解析することで、機器の操作に予め関連付けられた絵が存在する位置を検出すると共に、所定のジェスチャが行われた位置を検出し、こうして検出された位置に基づいて、所定のジェスチャが行われた位置に存在する絵に関連付けられた機器の操作を行う。

ここで、図１を参照して、具体例を挙げながら本実施例に係る機器の制御装置の基本動作について説明する。

図１（ａ）は、上記した位置の検出に用いるカメラの設置例を示している。図１（ａ）に示すように、動画像を撮影可能な４つのカメラ２ａ〜２ｄ（以下では、これらを区別しない場合には「カメラ２」と表記する。）が部屋の四隅に設置されている。本実施例の１つの例では、このような４つのカメラ２を用いて、絵やユーザのジェスチャが含まれるような空間を撮影し、撮影画像に基づいて、３次元空間上での絵が存在する位置及びジェスチャが行われた位置を検出する。

図１（ｂ）は、操作すべき機器に予め関連付けられた絵（以下では適宜「登録された絵」と呼ぶ。）の具体例を示している。図１（ｂ）では、テレビの操作に関連付けられた絵１０ａ、照明の操作に関連付けられた絵１０ｂ、及びエアコンの操作に関連付けられた絵１０ｃを例示している。図示のように、絵１０ａ、１０ｂ、１０ｃ（以下では、これらを区別しない場合には「絵１０」と表記する。）の内容として、テレビ、照明及びエアコンを示すもの（シンボルやマーク）が描かれている。絵１０は、紙やプラスチックなどの媒体に印刷されたカード等として構成され、机などの上に載置されて利用される。例えば、絵１０ａ、１０ｂ、１０ｃをそれぞれ用いることで、テレビ、照明、エアコンについての電源のオン／オフを切り替える操作を行えるようになっている。

図１（ｃ）は、絵１０に対する所定のジェスチャの具体例を示している。ユーザは、絵１０を利用して機器を操作すべく、所定のジェスチャとして、操作したい機器に関連付けられた絵１０を選択するようなジェスチャを行う（以下では、このようなジェスチャを適宜「選択ジェスチャ」と呼ぶ）。図１（ｃ）では、ユーザが、選択ジェスチャとして、絵１０ａの上で指差しのジェスチャ（例えば人差し指で絵１０ａをタッチするようなジェスチャ）を行っている場合を例示している。このような選択ジェスチャが行われた場合、機器の制御装置は、後述する処理を行うことで、ユーザが絵１０ａに対する選択ジェスチャを行ったものと判断して、絵１０ａに関連付けられたテレビの操作（例えばテレビの電源をオンにする操作）を行う。

なお、図１（ａ）では、４つのカメラ２を用いる例を示したが、４つのカメラ２を用いることに限定はされない。５つ以上のカメラ２を用いても良いし、３つ以下のカメラ２を用いても良い。１つのカメラ２のみを用いる場合には、ステレオカメラを用いることが好ましい。

また、図１（ｂ）では、テレビ、照明、エアコンを操作対象の機器として例示したが、これら以外にも種々の機器を操作対象とすることができる。つまり、事前に絵１０と関連付けておけば、種々の機器を操作対象とすることができる。ここで、１つの例では、ユーザによって絵１０が作成され（例えばユーザの手書きにより絵１０が作成されたり、所定の画像をプリンターなどで印刷することで絵１０が作成されたりする）、ユーザによって、作成した絵１０と機器とを関連付ける処理が行われる。他の例では、絵１０は操作対象の機器や機器の制御装置と共に作成され、この段階で絵１０と機器とを関連付ける処理が行われる。基本的には、絵１０を用いた機器の操作の利便性の観点から、操作対象となる機器が想起されるような内容が描かれた絵１０と当該機器とを関連付けることが好適であるが、操作対象となる機器が想起されないような無関係な内容が描かれた絵１０と当該機器とを関連付けても構わない。また、絵１０は、操作対象の機器だけでなく、その機器の操作内容（電源のオン／オフなど）についても関連付ける処理が行われる。

更に、図１（ｃ）では、選択ジェスチャとして指差しを例示したが、これに限定はされない。指差しの代わりに若しくは指差しに加えて、手で絵１０を１回若しくは数回たたくようなジェスチャを選択ジェスチャとして用いても良い。

［装置構成］
次に、図２を参照して、本実施例に係る機器の制御装置１の構成について説明する。図２は、本実施例に係る機器の制御装置１が適用されたシステムの概略構成を示す。

本実施例では、機器の制御装置１は、前述したようなカメラ２の撮影画像（以下、適宜「入力画像」と呼ぶ。）が入力され、入力画像に基づいて機器３を操作するように機能する。１つの例では、機器の制御装置１は、機器３とは別個のもの（例えば専用のボックスなどに収納された電子機器など）として構成される。この例は、好適には、操作対象の機器３が複数存在する場合に適用される。他の例では、機器の制御装置１は、操作対象となっている機器３と一体に構成される、つまり当該機器３に組み込まれる。この例は、好適には、操作対象の機器３が１つのみである場合に適用される。

図２に示すように、機器の制御装置１は、主に、絵認識部１１、ジェスチャ認識部１２及び操作部１３を有する。機器の制御装置１は、例えばマイクロコンピュータなどによって実現される。なお、絵認識部１１は本発明における「対象物認識手段」の一例であり、ジェスチャ認識部１２は本発明における「ジェスチャ認識手段」の一例であり、操作部１３は本発明における「操作手段」の一例である。

絵認識部１１は、入力画像を解析することで、カメラ２によって撮影された空間（以下、「撮影空間」と呼ぶ。）に存在する、登録された絵１０（つまり操作対象となっている機器３に予め関連付けられた絵１０）を認識する。具体的には、絵認識部１１は、画像解析により、撮影空間に存在する１以上の絵１０を認識して、認識された１以上の絵１０が存在する位置を検出する。この場合、絵認識部１１は、絵１０を認識するための画像解析に必要な、複数の絵１０に関する情報（例えば複数の絵１０ごとのテンプレートなど）を予め記憶しており、記憶された情報を用いて処理を行う。

１つの例では、絵認識部１１は、入力画像としての動画像から、ＳＩＦＴやエッジやコーナーなどの画像特徴量を抽出し、抽出された画像特徴量を用いてマッチングを行うことで、撮影空間に存在する絵１０を認識する。他の例では、絵認識部１１は、入力画像としての動画像に対してテンプレートマッチングを行うことで、つまり登録された絵１０に対応するテンプレートによるマッチングを行うことで、撮影空間に存在する絵１０を認識する。更に他の例では、絵認識部１１は、絵１０をコード化しておき、入力画像としての動画像に対してＡＲＴｏｏｌｋｉｔ（Augmented Reality Toolkit）や２次元バーコード等の手法を適用することで、撮影空間に存在するコード化された絵１０を認識する。

絵認識部１１は、以上のようにして認識された絵１０について、当該絵１０が存在する位置（３次元空間上の位置）に関する情報を、操作部１３に供給する。絵認識部１１は、撮影空間において２以上の絵１０が認識された場合には、２以上の絵１０についての位置に関する情報を操作部１３に供給する。

ジェスチャ認識部１２は、入力画像を解析することで、撮影空間で行われたユーザの選択ジェスチャ（つまり、操作したい機器に関連付けられた絵１０を選択するようなジェスチャ）を認識する。具体的には、ジェスチャ認識部１２は、画像解析により、撮影空間で行われた１以上の選択ジェスチャを認識して、認識された１以上の選択ジェスチャが行われた位置を検出する。この場合、ジェスチャ認識部１２は、選択ジェスチャを認識するための画像解析に必要な、選択ジェスチャに関する情報を予め記憶しており、記憶された情報を用いて処理を行う。

１つの例では、ジェスチャ認識部１２は、入力画像としての動画像から、周期的に動作する箇所を検出し、その箇所を選択ジェスチャが行われた位置として検出する。他の例では、ジェスチャ認識部１２は、入力画像としての動画像から、機械学習により選択ジェスチャを認識し、認識された選択ジェスチャが行われた位置を検出する。この２つの例は、好適には、手でたたくような選択ジェスチャに適用され、ジェスチャ認識部１２は、手でタッチされた場所の位置を検出する。更に他の例では、ジェスチャ認識部１２は、入力画像としての動画像から、指差しが行われている箇所を検出し、その箇所を選択ジェスチャが行われた位置として検出する。この例では、ジェスチャ認識部１２は、指差しが一定時間行われているか否かを判定し、指差しが一定時間行われている場合に、指差しが行われている指先の位置を検出する。

ジェスチャ認識部１２は、以上のようにして検出された、選択ジェスチャが行われた位置（３次元空間上の位置）に関する情報を、操作部１３に供給する。ジェスチャ認識部１２は、撮影空間において２以上の選択ジェスチャが認識された場合には、２以上の選択ジェスチャについての位置に関する情報を操作部１３に供給する。

操作部１３は、絵認識部１１によって検出された絵１０の位置に関する情報、及び、ジェスチャ認識部１２によって検出された選択ジェスチャの位置に関する情報を取得して、これらの検出位置を比較する。具体的には、操作部１３は、絵認識部１１によって検出された絵１０の位置と、ジェスチャ認識部１２によって検出された選択ジェスチャの位置とが概ね一致するか否かを判定する（例えば位置座標の差分が所定値以下であるか否かを判定する）。こうすることで、操作部１３は、ユーザによる選択ジェスチャが、登録された絵１０に対して行われたものであるか否かを判定している。操作部１３は、ジェスチャ認識部１２によって検出された選択ジェスチャの位置が、絵認識部１１によって検出された絵１０の位置に概ね一致する場合には、選択ジェスチャが絵１０に対して行われたものであると判定する。この場合には、操作部１３は、その絵１０に関連付けられた機器３を操作すべく、機器３に対して操作信号を供給する。

なお、絵認識部１１によって２以上の絵１０の位置が検出された場合、又はジェスチャ認識部１２によって２以上の選択ジェスチャの位置が検出された場合には、操作部１３は、２以上の絵１０の位置と１つの選択ジェスチャの位置とを比較したり、１つの絵１０の位置と２以上の選択ジェスチャの位置とを比較したりする。また、絵認識部１１によって２以上の絵１０の位置が検出され、且つ、ジェスチャ認識部１２によって２以上の選択ジェスチャの位置が検出された場合には、操作部１３は、２以上の絵１０の位置と２以上の選択ジェスチャの位置とをそれぞれ比較する。その結果、２以上の選択ジェスチャの位置が２以上の絵１０の位置に概ね一致する場合には、操作部１３は、当該２以上の絵１０に関連付けられた複数の操作を行わせる。

［処理フロー］
次に、図３を参照して、本実施例に係る処理フローについて説明する。当該処理フローは、機器の制御装置１によって繰り返し実行される。

まず、ステップＳ１０１では、機器の制御装置１内の絵認識部１１及びジェスチャ認識部１２が、カメラ２によって撮影された画像（入力画像）を取得する。この後、絵認識部１１及びジェスチャ認識部１２によって入力画像に対する処理が並列して行われる。具体的には、ジェスチャ認識部１２によるステップＳ１０２、Ｓ１０３の処理と、絵認識部１１によるステップＳ１０４及びＳ１０５の処理とが並列して行われる。

最初に、ジェスチャ認識部１２によるステップＳ１０２、Ｓ１０３の処理について説明する。ステップＳ１０２では、ジェスチャ認識部１２は、［装置構成］のセクションで述べたような方法によって入力画像を解析することで、撮影空間で行われている選択ジェスチャを認識する。そして、ステップＳ１０３では、ジェスチャ認識部１２は、ステップＳ１０２の認識結果に基づいて、撮影空間で選択ジェスチャが行われているか否かを判定する。選択ジェスチャが行われている場合（ステップＳ１０３：Ｙｅｓ）、処理はステップＳ１０６に進む。この場合には、ジェスチャ認識部１２は、認識された選択ジェスチャの位置に関する情報を操作部１３に供給する。他方で、選択ジェスチャが行われていない場合（ステップＳ１０３：Ｎｏ）、処理はステップＳ１０１に戻る。

次に、絵認識部１１によるステップＳ１０４及びＳ１０５の処理について説明する。ステップＳ１０４では、絵認識部１１は、［装置構成］のセクションで述べたような方法によって入力画像を解析することで、撮影空間に存在する、登録された絵１０を認識する。そして、ステップＳ１０５では、絵認識部１１は、ステップＳ１０４の認識結果に基づいて、登録された絵１０が撮影空間に存在するか否かを判定する。登録された絵１０が撮影空間に存在する場合（ステップＳ１０５：Ｙｅｓ）、処理はステップＳ１０６に進む。この場合には、絵認識部１１は、認識された絵１０の位置に関する情報を操作部１３に供給する。これに対して、登録された絵１０が撮影空間に存在しない場合（ステップＳ１０５：Ｎｏ）、処理はステップＳ１０１に戻る。

次に、ステップ１０６では、操作部１３は、ユーザによる選択ジェスチャが、登録された絵１０に対して行われたものであるか否かを判定する。具体的には、操作部１３は、絵認識部１１によって検出された絵１０の位置と、ジェスチャ認識部１２によって検出された選択ジェスチャの位置とを比較することで、当該判定を行う。操作部１３は、選択ジェスチャの位置が絵１０の位置に概ね一致する場合には、選択ジェスチャが絵１０に対して行われたものであると判定する（ステップＳ１０６：Ｙｅｓ）。この場合には、操作部１３は、その絵１０に関連付けられた機器３の操作を行う（ステップＳ１０７）。そして、処理は終了する。

これに対して、選択ジェスチャの位置が絵１０の位置に概ね一致しない場合には、操作部１３は、選択ジェスチャが絵１０に対して行われたものでないと判定する（ステップＳ１０６：Ｎｏ）。この場合には、処理はステップＳ１０１に戻る。

［本実施例の作用・効果］
以上説明したように、本実施例によれば、ユーザは、登録された絵１０に対してジェスチャを行うことで、その絵１０に関連付けられた機器３の操作を行うことができる。このように絵１０とジェスチャとを組み合わせることで、複雑な操作を簡易なジェスチャで実現することができる。加えて、操作に関連した絵１０を用いることで、ユーザにとって分かり易いジェスチャ操作が可能となる。

また、本実施例によれば、ユーザは、絵１０を目標にしてジェスチャを行うことができるため、ジェスチャを行うべき位置を容易に把握することができる。また、本実施例によれば、使用する絵１０を入れ替えることで（例えば絵１０をファイリングし、使用する絵１０を手前に持ってくることで）、ユーザは、複雑なジェスチャを覚えることなく、簡易なジェスチャにより種々の操作を実現させることができる。更に、本実施例によれば、操作のためのジェスチャを行う位置は特定の場所に限定されず、絵１０がある場所であれば種々の場所でジェスチャを行うことができる。

以上より、本実施例によれば、ユーザにとって分かり易く且つ簡便なジェスチャによって、機器３に対する種々の操作や、種々の機器３に対する操作を適切に行うことが可能となる。

［変形例］
以下では、上記の実施例に好適な変形例について説明する。なお、下記の変形例は、任意に組み合わせて上述の実施例に適用することができる。

（変形例１）
変形例１は、絵１０に再帰性反射材を塗布し、カメラ２の近傍に光源を配置するものである。こうすることで、光源からの光が絵１０に塗布された再帰性反射材で反射し、反射された光がカメラ２で撮影されることとなる。これにより、カメラ２の撮影画像において比較的強い光の部分が絵１０の箇所であると特定できるため、絵１０の認識を容易に行うことが可能となる。

上記のように再帰性反射材を塗布した絵１０を用いる場合には、赤外光と赤外カメラとを用いることが好適である。こうした場合には、撮影される側からは光が見えないため、照らされていることに気付かせないことができる。

更に好適には、再帰性反射材を含む顔料などで絵１０の内容を描くと良い。これにより、絵１０の認識を更に容易に行うことが可能となる。

（変形例２）
上記では、絵１０を利用した機器３の操作として、機器３の電源のオン・オフを切り替えるものを例示したが、機器３の操作はこれに限定されない。変形例２は、絵１０を利用して、機器３の具体的な動作に関する操作を行うものである。例えば、機器３の動作に関する操作としては、テレビのチャンネルの切り替えや音量調整、エアコンの温度調整や風量調整や風向調整などが挙げられる。

図４は、変形例２に係る絵１０（絵１０ｄ、１０ｅ、１０ｆ）の具体例を示している。図４（ａ）は、テレビなどの音量調整といった操作に関連付けられた絵１０ｄ、１０ｅを例示している。具体的には、絵１０ｄは、音量を上げるといった操作に関連付けられたものであり、絵１０ｅは、音量を下げるといった操作に関連付けられたものである。

図４（ｂ）も、テレビなどの音量調整といった操作に関連付けられた絵１０ｆを例示している。絵１０ｆは、１枚で、種々の音量に調整できるようになっている。具体的には、絵１０ｆは、選択ジェスチャにて絵１０ｆがタッチされた位置（詳しくは絵１０ｆにおいて音量を示す箇所に対してタッチされた位置）に応じた音量に調整できるようになっている。このような絵１０ｆを用いた場合には、機器の制御装置１は、上記したような方法により、選択ジェスチャが絵１０ｆに対して行われたものであると判定した際に、選択ジェスチャにて絵１０ｆがタッチされた位置を特定して、当該位置に応じた音量に機器３を操作する。

（変形例３）
上記した実施例では、絵１０の認識及び選択ジェスチャの認識を並列して行っていたが（図２及び図３参照）、これに限定はされない。変形例３は、絵１０の認識及び選択ジェスチャの認識を並列して行う代わりに、選択ジェスチャの認識及び絵１０の認識を順番に行うものである。なお、以下では、上記した実施例と区別するために、説明の便宜上、変形例３において絵１０の認識を行う処理部を「絵認識部１１ａ」と表記し、変形例３において選択ジェスチャの認識を行う処理部を「ジェスチャ認識部１２ａ」と表記する。

具体的には、変形例３では、絵認識部１１ａは、ジェスチャ認識部１２ａによって選択ジェスチャが認識された後に、絵１０を認識する。より詳しくは、絵認識部１１ａは、ジェスチャ認識部１２ａによって認識された選択ジェスチャが行われた位置についてのみ、絵１０を認識する処理を行う。

図５は、変形例３に係る処理フローを示している。まず、ステップＳ２０１では、ジェスチャ認識部１２ａが、カメラ２によって撮影された画像（入力画像）を取得する。そして、ジェスチャ認識部１２ａは、［装置構成］のセクションで述べたような方法によって入力画像を解析することで、撮影空間で行われている選択ジェスチャを認識する（ステップＳ２０２）。次に、ジェスチャ認識部１２ａは、ステップＳ２０２の認識結果に基づいて、撮影空間で選択ジェスチャが行われているか否かを判定する（ステップＳ２０３）。選択ジェスチャが行われている場合（ステップＳ２０３：Ｙｅｓ）、処理はステップＳ２０４に進む。この場合には、ジェスチャ認識部１２ａは、認識された選択ジェスチャの位置に関する情報を絵認識部１１ａに供給する。他方で、選択ジェスチャが行われていない場合（ステップＳ２０３：Ｎｏ）、処理はステップＳ２０１に戻る。

次に、ステップＳ２０３では、絵認識部１１ａは、ジェスチャ認識部１２ａによって認識された選択ジェスチャが行われた位置に存在する絵１０を認識する。この場合、絵認識部１１ａは、［装置構成］のセクションで述べたような方法によって入力画像を解析することで、登録された絵１０を認識する。そして、絵認識部１１ａは、ステップＳ２０４の認識結果に基づいて、登録された絵１０が選択ジェスチャの位置に存在するか否かを判定する（ステップＳ２０５）。登録された絵１０が存在する場合（ステップＳ２０５：Ｙｅｓ）、処理はステップＳ２０６に進む。この場合には、操作部１３は、認識された絵１０に関連付けられた機器３の操作を行う（ステップＳ２０６）。そして、処理は終了する。これに対して、登録された絵１０が選択ジェスチャの位置に存在しない場合（ステップＳ２０５：Ｎｏ）、処理はステップＳ２０１に戻る。

なお、上記では、ジェスチャ認識部１２ａの処理の後に絵認識部１１ａが処理を行う例を示したが、この代わりに、絵認識部１１ａの処理の後にジェスチャ認識部１２ａが処理を行うこととしても良い。この場合には、ジェスチャ認識部１２ａは、絵認識部１１ａによって認識された絵１０が存在する位置についてのみ、選択ジェスチャを認識する処理を行えば良い。

以上説明した変形例３は、絵認識部１１ａ及びジェスチャ認識部１２ａのどちらかの処理量が多い場合に、処理量の削減に有効となる。特に、絵１０の認識は処理量が多くなる傾向にあるため、ジェスチャ認識部１２ａの処理の後に絵認識部１１ａが処理を行うことは有効であると言える。

（変形例４）
上記では、カメラ２によって撮影された画像に基づいて、絵１０の位置や選択ジェスチャの位置を検出する実施例を示したが、これに限定はされない。変形例４は、センサを用いて、絵１０の位置や選択ジェスチャの位置を検出するものである。

絵１０の位置の検出としては、１つの例では、絵１０にＲＦ（Radio Frequency）タグを付しておくことで、ＲＦＩＤ（Radio Frequency Identification）の手法を用いて、絵１０を認識せずに、絵１０の位置を検出することができる。この例では、複数の絵１０ごとに固有のＩＤ情報を埋め込んだＲＦタグを付しておけば、各絵１０の位置と、各絵１０の内容（つまり各絵１０に関連付けられた操作内容）とを同時に把握することができる。他の例では、絵１０に磁場（磁界）を生じさせる物体を付しておくことで、磁気センサなどによって、絵１０を認識せずに、絵１０の位置を検出することができる。

他方で、選択ジェスチャの位置の検出については、距離画像センサや位置センサなどを用いることができる。距離画像センサを用いた場合には、１つのカメラ２のみで、選択ジェスチャが行われた３次元位置を検出することができる。また、位置センサとしては、例えば、自身の位置に関する情報を機器の制御装置１に送信すると共に、ユーザの指などに装着可能に構成されたセンサを用いることができる。これにより、ユーザが当該センサを装着した状態で指差しを行った場合に、その指差しの位置を適切に検出することができる。

以上説明した変形例４によれば、カメラ２によって撮影された画像を用いずに、位置を適切に検出することができる。よって、カメラ２によって適切な画像が撮影できないよう場所（例えば暗所など）でも、位置を適切に検出することができる。また、センサを用いることで、位置の検出についての精度及び安定性を向上させることができる。

（変形例５）
上記では、本発明を絵１０に適用する例を示したが、本発明は、絵１０以外にも、写真や３次元物体などにも適用することができる。つまり、機器３を操作するために利用する「対象物」として、写真や３次元物体などの現実世界に存在する種々のものを用いることができる。

［適用例］
本発明は、テレビやホームＡＶなどの家電や、車載用のナビゲーション装置などに、ジェスチャ操作インタフェースとして好適に適用することができる。

１機器の制御装置
２カメラ
３機器
１０絵
１１絵認識部
１２ジェスチャ認識部
１３操作部

Claims

操作すべき機器に関連付けられた対象物を認識する対象物認識手段と、
前記対象物を利用して前記機器を操作するための所定のジェスチャを認識するジェスチャ認識手段と、
前記対象物認識手段及び前記ジェスチャ認識手段の認識結果に基づいて、前記所定のジェスチャが行われた前記対象物に関連付けられた前記機器の操作を行う操作手段と、を備えることを特徴とする機器の制御装置。
前記対象物認識手段は、前記対象物が存在する位置を検出し、
前記ジェスチャ認識手段は、前記所定のジェスチャが行われた位置を検出し、
前記操作手段は、前記対象物認識手段及び前記ジェスチャ認識手段が検出した位置に基づいて、前記所定のジェスチャが行われた位置に存在する前記対象物に関連付けられた前記機器の操作を行うことを特徴とする請求項１に記載の機器の制御装置。
前記対象物及び前記所定のジェスチャが少なくとも含まれる空間をカメラで撮影した画像を取得する手段を更に備え、
前記対象物認識手段は、前記画像を解析することで、前記空間に存在する前記対象物を認識して、当該対象物の位置を検出し、
前記ジェスチャ認識手段は、前記画像を解析することで、前記空間で行われた前記所定のジェスチャを認識して、当該ジェスチャが行われた位置を検出することを特徴とする請求項２に記載の機器の制御装置。
前記対象物は、再帰性反射材が塗布され、
前記カメラは、その近傍に光源が設けられており、
前記対象物認識手段は、前記再帰性反射材で反射された光に対応する画像に基づいて、前記対象物を認識することを特徴とする請求項３に記載の機器の制御装置。
前記対象物認識手段及び／又は前記ジェスチャ認識手段は、センサを用いて、前記対象物が存在する位置及び／又は前記所定のジェスチャが行われた位置を検出することを特徴とする請求項２に記載の機器の制御装置。
前記対象物認識手段及び前記ジェスチャ認識手段は、前記対象物の認識及び前記所定のジェスチャの認識を並列して行うことを特徴とする請求項１乃至５のいずれか一項に記載の機器の制御装置。
前記対象物認識手段は、前記ジェスチャ認識手段によって前記所定のジェスチャが認識された後に、前記対象物を認識することを特徴とする請求項１乃至５のいずれか一項に記載の機器の制御装置。
前記対象物認識手段は、前記ジェスチャ認識手段によって認識された前記所定のジェスチャが行われた位置に存在する前記対象物を認識することを特徴とする請求項７に記載の機器の制御装置。
前記対象物は、絵又は写真で構成されていることを特徴とする請求項１乃至８のいずれか一項に記載の機器の制御装置。
前記所定のジェスチャは、前記対象物を選択するための手によるジェスチャであることを特徴とする請求項１乃至９のいずれか一項に記載の機器の制御装置。
機器の制御装置によって実行される制御方法であって、
操作すべき機器に関連付けられた対象物を認識する対象物認識工程と、
前記対象物を利用して前記機器を操作するための所定のジェスチャを認識するジェスチャ認識工程と、
前記対象物認識工程及び前記ジェスチャ認識工程の認識結果に基づいて、前記所定のジェスチャが行われた前記対象物に関連付けられた前記機器の操作を行う操作工程と、を備えることを特徴とする制御方法。
コンピュータを有する機器の制御装置によって実行されるプログラムであって、
前記コンピュータを、
操作すべき機器に関連付けられた対象物を認識する対象物認識手段、
前記対象物を利用して前記機器を操作するための所定のジェスチャを認識するジェスチャ認識手段、
前記対象物認識手段及び前記ジェスチャ認識手段の認識結果に基づいて、前記所定のジェスチャが行われた前記対象物に関連付けられた前記機器の操作を行う操作手段、として機能させることを特徴とするプログラム。
請求項１２に記載のプログラムを記憶したことを特徴とする記憶媒体。