JP5924407B2

JP5924407B2 - 画像処理装置、画像処理方法、及びプログラム

Info

Publication number: JP5924407B2
Application number: JP2014516698A
Authority: JP
Inventors: 誠司鈴木; 麗子宮崎; 康之古賀; 池田　卓郎; 卓郎池田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-05-22
Filing date: 2013-03-22
Publication date: 2016-05-25
Anticipated expiration: 2033-03-22
Also published as: US20150123994A1; US20190259191A1; WO2013175847A1; EP2853986A1; EP2853986B1; CN104303131B; US10360706B2; EP2853986A4; JPWO2013175847A1; CN104303131A

Description

本開示は、画像処理装置、画像処理方法、及びプログラムに関する。

特許文献１に、ユーザの掌が描かれた掌画像と背景画像とが重畳された重畳画像を表示し、掌画像をユーザのジェスチャ操作（掌の動き）に連動して移動させる技術が開示されている。ユーザは、掌画像を用いて入力操作を行う。

特許第４６７０８６０号公報

しかし、特許文献１に開示された技術は、重畳画像の表示状態（例えば掌画像の表示倍率等）を何ら調整するものではなかった。このため、操作性が良好でなかった。そこで、人体画像（例えば掌画像）の操作性を向上することができる技術が求められていた。

本開示によれば、人体の少なくとも一部が描かれ、かつ、ユーザのジェスチャ操作に連動して動作する人体画像を背景画像に重畳することで、重畳画像を生成し、重畳画像を表示する制御を行う一方、重畳画像の表示状態を調整する制御部を備える、画像処理装置が提供される。

本開示によれば、人体の少なくとも一部が描かれ、かつ、ユーザのジェスチャ操作に連動して動作する人体画像を背景画像に重畳することで、重畳画像を生成し、重畳画像を表示する制御を行う一方、重畳画像を調整することを含む、画像処理方法が提供される。

本開示によれば、コンピュータに、人体の少なくとも一部が描かれ、かつ、ユーザのジェスチャ操作に連動して動作する人体画像を背景画像に重畳することで、重畳画像を生成し、重畳画像を表示する制御を行う一方、重畳画像を調整する制御機能を実現させる、プログラムが提供される。

本開示によれば、画像処理装置等は、重畳画像の表示状態を調整することができる。

以上説明したように本開示によれば、画像処理装置等は、重畳画像の表示状態を調整することができるので、人体画像の操作性を向上させることができる。

本開示の実施形態に係る画像処理システムの構成を示すブロック図である。同実施形態に係る表示装置の構成を示すブロック図である。サーバの構成を示すブロック図である。画像処理システムによる処理の手順を示すフローチャートである。画像処理システムによる処理の手順を示すフローチャートである。表示装置が表示する表示画面の一例を示す説明図である。表示装置が表示する表示画面の一例を示す説明図である。表示装置が表示する表示画面の一例を示す説明図である。表示装置が表示する表示画面の一例を示す説明図である。表示装置が表示する表示画面の一例を示す説明図である。表示装置が表示する表示画面の一例を示す説明図である。表示装置が表示する表示画面の一例を示す説明図である。表示装置が表示する表示画面の一例を示す説明図である。表示装置が表示する表示画面の一例を示す説明図である。表示装置が表示する表示画面の一例を示す説明図である。表示装置が表示する表示画面の一例を示す説明図である。表示装置が表示する表示画面の一例を示す説明図である。表示装置が表示する表示画面の一例を示す説明図である。表示装置が表示する表示画面の一例を示す説明図である。表示装置が表示する表示画面の一例を示す説明図である。表示装置が表示する表示画面の一例を示す説明図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
１．大画面ディスプレイに関する検討
２．情報処理システムの構成
２−１．全体構成
２−２．大画面ディスプレイの構成
２−３．サーバ（画像処理装置）の構成
３．情報処理システムによる処理の手順

＜１．大画面ディスプレイに関する検討＞
本発明者は、大画面ディスプレイに関する検討を行うことで、本実施形態に係る画像処理システムに想到するに至った。そこで、まず、本発明者が行った検討について説明する。

図６は大画面ディスプレイ２０の一例を示す。図６では、部屋２００の壁一面が大画面ディスプレイ２０となっている。もちろん、大画面ディスプレイ２０はこの例に限られず、例えば壁の一部がディスプレイとなっているものであってもよい。また、壁とは別体のディスプレイであってもよい。

このように、大画面ディスプレイ２０は、部屋２００のインテリアとなりうるものである。大画面ディスプレイ２０に何らかの画像を表示することで、ユーザ１００は、あたかもその画像のなかに自分が存在するかのような感覚を持つことが期待される。例えば、上空から高層ビル群を撮像した画像が大画面ディスプレイ２０に表示された場合、ユーザ１００は、あたかも上空から高層ビル群を眺めているような感覚を持つ。また、地面が部屋２００の床と同一平面上に描かれた画像が大画面ディスプレイ２０に表示された場合、ユーザ１００は、部屋２００の床がその地面に地続きでつながっているような感覚を持つ。

また、店舗内を撮像した画像が大画面ディスプレイ２０に表示された場合、ユーザ１００は、その店舗内で買い物をしているような感覚を持つ。また、ディスプレイ等が設置されたリビングが大画面ディスプレイ２０に表示された場合、ユーザ１００は、部屋２００の奥にさらに別のリビングが存在するという感覚を持つ。また、大画面ディスプレイ２０に絵画等を表示させることで、ユーザ１００は、壁に絵画が掛けられているような感覚を持つ。このように、大画面ディスプレイ２０は、例えばバーチャルリアリティを実現する装置としての用途が期待される。

一方、ディスプレイに表示されたオブジェクトをユーザ１００が選択するためのデバイスとして、カーソル型ポインティングデバイス、タッチセンシング型ポインティングデバイス、レイキャスティング型ポインティングデバイスが提案されている。

カーソル型ポインティングデバイスは例えばマウス等のデバイスである。カーソル型ポインティングデバイスを大画面ディスプレイ２０に適用した場合、ユーザ１００は、カーソルを所望の位置まで移動させるためにマウスを何度も操作する必要がある。マウスの１回の操作によってカーソルが移動する量は、大画面ディスプレイ２０の大きさに対して非常に小さいからである。このため、ユーザ１００は、必然的に操作に手間と時間を要する。

操作に掛かる手間及び時間を低減する技術として、デバイスの移動速度に対して大画面ディスプレイ２０内のカーソルの移動速度を大きくすることも考えられる。しかし、この技術では、ユーザ１００は、デバイスの実際の移動速度に対してカーソルがどの程度移動するのかを容易に予測できない。このため、このような技術を大画面ディスプレイ２０に適用した場合であっても、ユーザ１００は、所望の位置にカーソルを合わせるのに手間及び時間がかかる。また、カーソル型ポインティングデバイスを用いた入力操作は、ユーザ１００にとって直感的でない。

タッチセンシング型ポインティングデバイスは、例えばタッチパネル等のデバイスである。タッチセンシング型ポインティングデバイスを大画面ディスプレイ２０に適用した場合、ユーザ１００は、所望の位置にタッチするために、歩いて左右に移動する必要が生じる。さらに、大画面ディスプレイ２０がユーザ１００の背丈に対して上下に大きいとき、手が届かない領域が存在する。さらに、ユーザ１００は、所望の位置にタッチするために、画面近くにいなければならないため、遠方から大画面を俯瞰することができない。

レイキャスティング型ポインティングデバイスは、例えばゲーム機のリモコン型コントローラ等のデバイスである。レイキャスティング型ポインティングデバイスは、大画面ディスプレイ２０においては十分な精度を発揮できない。また、ユーザ１００は、デバイスを手に持っていなければならない。また、ユーザ１００は、大画面ディスプレイ２０に近寄れない。

したがって、上記の各デバイスでは、操作性が良好でなく、また、操作が直感的でなかった。これに対し、特許文献１に開示された技術は、ユーザ１００の掌が描かれた掌画像と背景画像とが重畳された重畳画像を表示し、掌画像をユーザ１００のジェスチャ操作（掌の動き）に連動して移動させる技術が開示されている。ユーザ１００は、掌画像を用いて入力操作を行う。特許文献１では、ユーザ１００は、直感的な操作を行うことができる。

しかし、特許文献１に開示された技術は、ＰＤＡやデジタルカメラといった携帯機器に適用されるものであるので、大画面ディスプレイ２０を何ら想定していない。さらに、特許文献１に開示された技術は、重畳画像の表示状態（例えば掌画像の表示倍率等）を何ら調整するものではなかった。このため、掌画像の操作性が良好でなかった。

具体的には、特許文献１に開示された技術を大画面ディスプレイ２０に適用した場合、掌画像が大画面ディスプレイ２０に表示されることになるが、大画面ディスプレイ２０は掌画像に対して非常に大きい。また、ユーザ１００が掌を動かせる範囲は限られている。これに対し、特許文献１に開示された技術は、掌画像をユーザ１００の掌に連動して動かすだけなので、掌画像が届かない領域が生じる。すなわち、特許文献１は、ＰＤＡやデジタルカメラといった携帯機器、すなわち掌画像が表示画面の各領域に届くことを前提としているので、掌画像が届かない領域を何ら想定していない。したがって、特許文献１に開示された技術を大画面ディスプレイ２０に適用した場合、掌画像の操作性は良好でなかった。

これに対し、本実施形態に係る画像処理システム１０は、人体画像及び背景画像のうち、少なくとも一方の表示状態を調整することによって、人体画像の操作性の改善を図っている。

＜２．画像処理システムの構成＞
［２−１．全体構成］
次に、図１に基づいて、画像処理システム１０の全体構成について説明する。画像処理システム１０は、大画面ディスプレイ２０と、通信ネットワーク３０と、サーバ４０と、撮像装置５０と、音声取得装置６０とを備える。なお、音声取得装置６０はなくてもよい。

大画面ディスプレイ２０は、図６に示すように、例えば部屋２００の壁一面を構成する。通信ネットワーク３０は、大画面ディスプレイ２０とサーバ４０とを接続する。サーバ４０は、大画面ディスプレイ２０に表示させる重畳画像（人体画像が背景画像に重畳された画像）を生成する。したがって、本実施形態は、いわゆるクラウドコンピューティングサービスを想定している。もちろん、表示装置が重畳画像を生成し、表示するようにしてもよい。

撮像装置５０は、例えばビデオカメラであり、図６に示すように、部屋２００の天井に設けられる。撮像装置５０は、ユーザ１００を撮影し、その結果に関する撮像画像を大画面ディスプレイ２０に出力する。音声取得装置６０は、例えばヘッドセットマイクであり、ユーザ１００の頭部に装着される。音声取得装置６０は、ユーザ１００の音声を取得し、その結果に関する音声情報を大画面ディスプレイ２０に出力する。

［２−２．大画面ディスプレイの構成］
次に、図２に基づいて、大画面ディスプレイ２０の構成について説明する。大画面ディスプレイ２０は、記憶部２１と、表示部２２と、通信部２３と、制御部２４とを備える。大画面ディスプレイ２０は、ＣＰＵ、ＲＯＭ、ＲＡＭ、ハードディスク、表示パネル、及び通信装置等のハードウェア構成を有する。ＲＯＭには、大画面ディスプレイ２０に、記憶部２１と、表示部２２と、通信部２３と、制御部２４とを実現させるためのプログラムが記録されている。ＣＰＵは、ＲＯＭに記録されたプログラムを読みだして実行する。したがって、これらのハードウェア構成により、記憶部２１と、表示部２２と、通信部２３と、制御部２４とが実現される。

記憶部２１は、上述したプログラム等を記憶する。表示部２２は、各種の画面を表示する。通信部２３は、通信ネットワーク３０を介してサーバ４０と通信を行う。制御部２４は、大画面ディスプレイ２０の各構成要素を制御する他、以下の処理を行う。すなわち、制御部２４は、撮像装置５０から与えられた撮像画像と、音声取得装置６０から与えられた音声情報とを通信部２３に出力する。通信部２３は、撮像画像及び音声情報をサーバ４０に送信する。一方、通信部２３は、サーバ４０から送信された重畳画像を受信し、制御部２４に出力する。制御部２４は、表示部２２に重畳画像を表示する。

［２−３．サーバの構成］
次に、図３に基づいて、サーバ４０の構成について説明する。サーバ４０は、記憶部４１と、通信部４２と、制御部４３とを備える。サーバ４０は、ＣＰＵ、ＲＯＭ、ＲＡＭ、ハードディスク、及び通信装置等のハードウェア構成を有する。ＲＯＭには、サーバ４０に、記憶部４１と、通信部４２と、制御部４３とを実現させるためのプログラムが記録されている。ＣＰＵは、ＲＯＭに記録されたプログラムを読みだして実行する。したがって、これらのハードウェア構成により、記憶部４１と、通信部４２と、制御部４３とが実現される。

記憶部４１は、上述したプログラムのほか、背景画像等を記憶する。この背景画像は、例えば、高層ビル群を上空から撮像した画像、地面が描かれた画像、店舗内の画像、リビングが描かれた画像、絵画が描かれた画像等となる。通信部４２は、通信ネットワーク３０を介して大画面ディスプレイ２０と通信を行う。制御部４３は、サーバ４０の各構成要素を制御する他、以下の処理を行う。すなわち、制御部４３は、撮像画像からユーザ１００が描かれた画像、すなわち人体画像を抽出する。そして、制御部４３は、人体画像を半透明（半透過）にすることで、ミラー画像を生成する。したがって、ミラー画像は、人体の少なくとも一部が描かれ、かつ、ユーザ１００のジェスチャ操作に連動して動作する画像（すなわち人体画像）の一例である。

ここで、ミラー画像の変形例を幾つか示す。例えば、制御部４３は、人体画像を黒く塗りつぶし、これを半透明にすることで、ミラー画像を生成してもよい。また、制御部４３は、人体画像の輪郭のみを抽出し、これをミラー画像としてもよい。また、制御部４１は、これらの処理により生成されたミラー画像に拡大縮小、平行移動、歪ませる、ぼかす等の処理を施した後に、後述する背景画像に重畳してもよい。また、ミラー画像は、人体の全体が描かれていてもよいが、人体の一部（例えば上半身のみ、掌のみ等）であってもよい。

さらに、制御部４３は、記憶部４１から背景画像を取得する。制御部４３は、人体画像及び音声情報に基づいてユーザ１００のジェスチャ操作を検出し、背景画像をユーザ１００のジェスチャ操作に基づいてスクロールさせてもよい。例えば、制御部４３は、ユーザ１００が足踏みをした場合、背景画像を画面奥方向にスクロールさせる。なお、本実施形態では、ユーザ１００が発声することもジェスチャ操作とされる。

そして、制御部４３は、背景画像にミラー画像を重畳させることで、重畳画像を生成する。また、制御部４３は、人体画像及び音声情報に基づいてユーザ１００のジェスチャ操作を検出し、重畳画像をジェスチャ操作に基づいて調整する。例えば、制御部４３は、ユーザ１００のジェスチャ操作に基づいて、背景画像の一部を選択領域として選択し、選択領域を拡大する等の処理を行う。制御部４３は、重畳画像を通信部４２に出力し、通信部４２は、重畳画像を大画面ディスプレイ２０に送信する。

＜３．画像処理システムによる処理の手順＞
次に、画像処理システム１０による処理の手順を、画像処理システム１０が店舗（ここでは本屋）内の画像を表示する場合を一例として説明する。この例では、ユーザ１００は、実際に店舗で買い物をした場合と同様の体験をすることができる。すなわち、ユーザ１００は、バーチャルショッピングを楽しむことができる。なお、以下の処理では、大画面ディスプレイ２０は、撮像画像及び音声情報を常時サーバ４０に送信しているものとする。

まず、サーバ４０の制御部４３は、図６に示すように、店舗の玄関４１１及び地面４１２が描かれた背景画像４１０を大画面ディスプレイ２０に表示する。ここで、地面４１２は部屋２００の床と同一平面上に描かれており、玄関４１１は地面４１２上に配置されている。したがって、ユーザ１００は、玄関４１１及び地面４１２が部屋２００と地続きでつながっているかのような感覚を持つ。

ついで、ユーザ１００は、例えば足踏みのジェスチャを行う。一方、制御部４３は、足踏みのジェスチャを検出し、背景画像４１０を画面奥方向にスクロールさせる。そして、制御部４３は、玄関４１１が大画面ディスプレイ２０の表示面に達した際に、玄関４１１が開く背景画像を表示する。

ついで、制御部４３は、店舗内が描かれた背景画像を生成する。さらに、制御部４３は、人体画像を黒く塗りつぶすことでシルエット画像を生成し、背景画像の地面部分に投影する。そして、制御部４３は、生成された背景画像を大画面ディスプレイ２０に表示する。図７に一例を示す。以下、図７に示すような店舗内の画像を、通常店舗画像とも称する。この例では、制御部４３は、背景画像４２０を大画面ディスプレイ２０に表示している。背景画像４２０には、シルエット画像１１０、本棚４３０、及び地面４２１が描かれている。地面４２１は、部屋２００の床と同一平面上に配置される。したがって、ユーザ１００は、実際に店舗内を散策しているかのような感覚を持つ。

その後、制御部４３は、ユーザ１００のジェスチャ操作に基づいて背景画像をスクロールさせる。例えば、制御部４３は、ユーザ１００が足踏みのジェスチャを行った場合、背景画像を画面奥方向にスクロールさせる。また、制御部４３は、ユーザ１００が水平方向に回転した場合には、その回転方向に背景画像を回転させる（すなわち、背景画像内でのユーザ１００の進行方向を変更する）。

そして、制御部４３は、ユーザ１００が本棚４３０に相対した場合には、図４に示すフローチャートに沿った処理を行う。ステップＳ１０において、制御部４３は、撮像画像を取得する。ステップＳ２０において、制御部４３は、撮像画像から人体画像を検出し、人体画像に基づいて、上述したミラー画像を生成する。ステップＳ３０において、制御部４３は、ミラー画像を背景画像に重畳させることで重畳画像を生成する。さらに、制御部４３は、ミラー画像のうち掌画像にカーソルを重畳する。ステップＳ４０において、制御部４３は、重畳画像を大画面ディスプレイ２０に表示する。なお、ミラー画像は、ユーザ１００から見て背景画像よりも手前側に配置されるが、ミラー画像は半透明なので、ユーザ１００は、ミラー画像の後方の背景画像も視認することができる。

図８に重畳画像の一例を示す。この例では、ユーザ１００は、本棚４３０に相対している。すなわち、背景画像のほぼ全面に本棚４３０が描かれている。本棚４３０には、複数の本４４０が配置されている。また、背景画像の水平方向中央部分にミラー画像１２０が重畳されている。ミラー画像１２０のうち、掌画像にはカーソル１３０が重畳されている。制御部４３は、ミラー画像１２０をユーザ１００のジェスチャ操作に連動して動作させる。すなわち、ミラー画像１２０は、ユーザ１００と同じ動きをする。また、制御部４３は、カーソル１３０を掌画像の動きに追従させる。したがって、ユーザ１００は、自己の掌を動かすことで、カーソル１３０を所望の位置（例えば、所望の本４４０が配置されている位置）まで動かすことができる。

なお、制御部４３は、上述したシルエット画像が本棚４３０に沿ってせり上がるアニメーションを表示し、その後、シルエット画像をミラー画像に変更してもよい。これにより、ユーザ１００は、シルエット画像がミラー画像遷移したことを容易に把握することができる。また、制御部４３は、本棚４３０内のオブジェクト（すなわち本４４０）がユーザ１００によって選択できないもの（例えば非売品）である場合には、ミラー画像１２０を表示しないようにしてもよい。これにより、ユーザ１００は、本棚４３０内の本４４０を選択できないことを容易に把握することができる。また、図８の例では、カーソル１３０は両方の掌画像に重畳されているが、一方の掌画像にのみ重畳されていてもよい。また、掌画像以外の部分、例えば足の指先の画像にカーソル１３０を重畳させてもよい。

このように、大画面ディスプレイ２０は、ユーザ１００のジェスチャ操作に連動して動作するミラー画像を表示し、ミラー画像の掌画像にカーソル１３０を重畳する。このため、ユーザ１００は、ミラー画像の動きに基づいて、カーソル１３０の移動速度を容易に予測することができる。したがって、画像処理システム１０は、カーソル１３０の操作性を向上させることができる。また、ユーザ１００は、自己の体（特に掌画像）を動かすことで、カーソル１３０を動かすことができるので、カーソル１３０を直感的に操作することができる。

ステップＳ５０において、制御部４３は、撮像画像から抽出した人体画像に基づいて、ユーザ１００がいずれかのオブジェクト（ここでは本４４０）を選択したか否かを判定する。なお、制御部４３は、例えば、ユーザ１００が物をつかむジェスチャをした場合、ユーザ１００がオブジェクトを選択したと判定する。制御部４３は、ユーザ１００がいずれかのオブジェクトを選択したと判定した場合には、ステップＳ６０に進み、ユーザ１００がオブジェクトを選択していないと判定した場合には、本処理を終了する。ステップＳ６０において、制御部６４は、詳細選択処理を行う。詳細選択処理については後述する。

なお、制御部４３は、ユーザ１００の掌の移動速度と、ミラー画像１２０の掌画像の移動速度（すなわち、カーソル１３０の移動速度）とを一致させる。ユーザ１００にカーソル１３０の移動速度を容易に予測させるためである。ただし、この処理では、カーソル１３０の移動範囲がミラー画像１２０の掌画像の移動範囲に一致するので、カーソル１３０が届かない領域が生じうる。すなわち、ユーザ１００は、大画面ディスプレイ２０に表示されたオブジェクトのうち、ミラー画像１２０の掌画像の移動範囲外のオブジェクトを選択することができない。ユーザ１００は、このようなオブジェクトを選択するためには、左右に移動する等のジェスチャ操作を行う必要があるので、これらのオブジェクトを選択するのに手間がかかる。

カーソル１３０を大画面ディスプレイ２０のすべての領域に移動させるための方法としては、例えば、カーソル１３０をミラー画像１２０から分離し、かつ、カーソル１３０をユーザ１００の掌よりも早く（大きく）移動させることが考えられる。この方法では、例えば、ユーザ１００が掌を５ｃｍ動かした場合、カーソル１３０は例えば２０ｃｍ移動する。しかし、この処理では、ユーザ１００は、細かなオブジェクトを選択することが難しくなる。また、ユーザ１００は、カーソル１３０の移動速度を容易に予測することができない。

一方、ユーザ１００が細かなオブジェクトを選択しやすくする方法として、例えば、カーソル１３０をミラー画像１２０から分離し、かつ、カーソル１３０をユーザ１００の掌よりも遅く（小さく）移動させることが考えられる。この方法では、例えば、ユーザ１００が掌を５ｃｍ動かした場合、カーソル１３０は例えば１ｃｍ移動する。しかし、この処理では、大画面ディスプレイ２０にカーソル１３０が届かない領域が生じうる。

このように、上記の方法では、「画面全体を選択できること」と「細かなオブジェクトを選択できること」とがトレードオフの関係にある。そこで、画像処理システム１０は、背景画像の一部を選択領域として選択し、選択領域及びミラー画像のうち、少なくとも一方の表示状態を調整する。これにより、ユーザ１００は、画面全体を選択することができ、かつ、細かなオブジェクトも選択することができるようになる。具体的には、画像処理システム１０は、図５に示すフローチャートに沿った処理を行う。

ステップＳ１００において、制御部４３は、音声情報及び撮像画像を取得する。ステップＳ１１０において、制御部４３は、音声情報及び撮像画像に基づいて、ユーザ１００のジェスチャ操作を認識し、ユーザ１００のジェスチャ操作に基づいて、選択領域を選択する。

具体的には、制御部４３は、ユーザ１００のジェスチャ操作として、ユーザ１００の視線を検出する。そして、制御部４３は、ユーザ１００の視線と大画面ディスプレイ２０との交点を含む領域を選択領域として選択する。そして、制御部４３は、選択領域を重畳画像に重畳して表示する。図９に表示例を示す。この例では、制御部４３は、背景画像の左上の領域を選択領域５００としている。選択領域５００は、ユーザ１００にとってわかりやすいように、ハイライト表示されるようにしてもよい。例えば、選択領域５００は、背景画像とは異なる色で表示されてもよい。

ここで、選択領域を選択する処理の変形例としては、以下の処理が挙げられる。すなわち、制御部４３は、ユーザ１００のジェスチャ操作として、ユーザ１００の顔の向きを検出する。具体的には、制御部４３は、顔領域の中心を通り、かつ、顔領域に垂直な顔向きベクトルを検出する。そして、制御部４３は、顔向きベクトルと大画面ディスプレイ２０との交点を含む領域を選択領域として選択してもよい。

また、制御部４３は、大画面ディスプレイ２０中の任意の初期位置に選択領域を表示する一方、ユーザ１００のジェスチャ操作として、ユーザ１００の右手（掌）の動きを認識する。そして、制御部４３は、選択領域をユーザ１００の右手の動きに連動して動かすことで、選択領域を選択してもよい。なお、ユーザ１００は、選択領域内でのオブジェクトの選択を左手で行なってもよい。

また、制御部４３は、ユーザ１００のジェスチャ操作として、ユーザ１００の音声を認識し、音声情報に基づいて、選択領域を選択してもよい。具体的には、例えば、制御部４３は、ユーザ１００が「右上」と言った場合には、大画面ディスプレイ２０のうち、右上の領域を選択領域として選択してもよい。

その他、制御部４３は、あらゆるジェスチャ操作に基づいて選択領域を選択することができる。例えば、制御部４３は、ユーザ１００のジェスチャ操作として、ユーザ１００が背伸びしたことを認識する。そして、制御部４３は、大画面ディスプレイ２０の上側の領域を選択領域として選択する。ユーザ１００は、大画面ディスプレイ２０の上側の領域に表示されたオブジェクトを選択したいと考えていると推定されるからである。

また、制御部４３は、ユーザ１００のジェスチャ操作として、ユーザ１００がしゃがんだことを認識する。そして、制御部４３は、大画面ディスプレイ２０の下側の領域を選択領域として選択する。ユーザ１００は、大画面ディスプレイ２０の下側の領域に表示されたオブジェクトを選択したいと考えていると推定されるからである。また、制御部４３は、カーソル１３０が届かない領域を検出し、この領域を自動的に選択領域としてもよい。

また、制御部４３は、ユーザ１００のジェスチャ操作に基づいて、選択領域５００の大きさを変更してもよい。例えば、制御部４３は、ユーザ１００が両掌を上下方向に配置し、その後、両掌を離した場合に、選択領域５００を上下方向に拡大してもよい。また、制御部４３は、ユーザ１００が両掌を近づけた場合には、選択領域５００を上下方向に縮小してもよい。さらに、制御部４３は、ユーザ１００が両掌を左右方向に配置し、その後、両掌を離した場合に、選択領域５００を左右方向に拡大してもよい。また、制御部４３は、ユーザ１００が両掌を近づけた場合には、選択領域５００を左右方向に縮小してもよい。

ステップＳ１２０において、制御部４３は、選択領域内でユーザ１００がオブジェクトを選択しやすくする処理を行う。以下、この処理の具体例を幾つか説明する。

すなわち、制御部４３は、選択領域を拡大することで拡大選択領域を生成し、拡大選択領域にミラー画像を重畳する。表示例を図１０に示す。この例では、制御部４３は、図９の選択領域５００を拡大することで、拡大選択領域５１０を生成し、拡大選択領域５１０にミラー画像１２０（ミラー画像１２０のサイズは変わらない）を重畳する。そして、制御部４３は、重畳画像を大画面ディスプレイ２０に表示する。この例では、大画面ディスプレイ２０の全面に拡大選択領域５１０が表示されているが、大画面ディスプレイ２０の一部に拡大選択領域５１０が表示されてもよい。

この例によれば、選択領域５００が拡大された拡大選択領域５１０が表示されるので、拡大選択領域５１０のオブジェクトも拡大されている。したがって、ユーザ１００は、拡大選択領域５１０内のオブジェクトを容易に選択することができる。

一方、制御部４３は、ミラー画像１２０を拡大してもよい。図１１に表示例を示す。この例によれば、ミラー画像１２０の掌画像が選択領域５００内に届くようになるので、ユーザ１００は、選択領域５００内のオブジェクトを容易に選択することができる。

一方、制御部４３は、ミラー画像１２０の腕部分を伸ばしてもよい。例えば、制御部４３は、撮像画像から人体画像を抽出し、この人体画像に基づいて、ユーザ１００のジェスチャ操作を認識する。そして、制御部４３は、ユーザ１００が腕を伸ばしきった状態を維持している場合、ユーザ１００が腕を伸ばしている方向にミラー画像１２０の腕部分を伸ばす。なお、制御部４３は、ユーザ１００が腕を伸ばすジェスチャ操作をしている場合、腕の移動量にゲインを付けることで、ミラー画像１２０の腕部分を伸ばしてもよい。すなわち、この例では、制御部４３は、ユーザ１００のジェスチャ操作に基づいて、ミラー画像１２０を調整している。

図１２に表示例を示す。この例では、ミラー画像１２０の腕部分が選択領域５００まで伸びている。この例によれば、ユーザ１００は、選択領域５００内のオブジェクトを容易に選択することができる。

一方、制御部４３は、ミラー画像１２０を選択領域５００内に配置してもよい。制御部４３は、選択領域５００よりもミラー画像１２０が大きい場合、ミラー画像１２０を縮小した後に、ミラー画像１２０を選択領域５００内に配置する。図１３に表示例を示す。この例によれば、選択領域５００内にミラー画像１２０が配置されているので、ユーザ１００は、選択領域５００内のオブジェクトを容易に選択することができる。

一方、制御部４３は、ユーザ１００のジェスチャ操作として、ユーザ１００が背伸びしたことを認識する。そして、制御部４３は、大画面ディスプレイ２０の上側の領域を選択領域として選択する。そして、制御部４３は、選択領域を下方に移動させる。表示例を図１４、図１５に示す。図１４に示すように、制御部４３は、ユーザ１００が背伸びした場合には、大画面ディスプレイ２０の上側の領域を選択領域５００として選択する。なお、図１４に示すように、この例では、ユーザ１００は比較的背丈が低い。すなわち、ユーザ１００は、例えば子供である。したがって、ミラー画像１２０も小さい。したがって、ユーザ１００が背伸びをすることは多くなると想定されるので、本例が好適な処理となる。そして、制御部４３は、図１５に示すように、選択領域５００を下方に移動させる。好ましくは、制御部４３は、ミラー画像１２０と選択領域５００とが重なるまで選択領域５００を移動させる。これにより、ユーザ１００は、選択領域５００内のオブジェクトを容易に選択することができる。すなわち、この例では、制御部４３は、ユーザ１００のジェスチャ操作に基づいて、ミラー画像１２０を調整している。

一方、制御部４３は、ユーザ１００のジェスチャ操作として、ユーザ１００がしゃがんだことを認識する。そして、制御部４３は、大画面ディスプレイ２０の下側の領域を選択領域として選択する。そして、制御部４３は、選択領域を上方に移動させる。この例は、ユーザ１００が比較的背が高い場合に特に好適である。この場合、ユーザ１００がしゃがむことは多くなると想定されるからである。この例でも、ユーザ１００は、選択領域５００内のオブジェクトを容易に選択することができる。すなわち、この例では、制御部４３は、ユーザ１００のジェスチャ操作に基づいて、ミラー画像１２０を調整している。

なお、上記の各例では、制御部４３は、選択領域５００内でのミラー画像の掌画像の移動速度をユーザ１００の掌の移動速度よりも小さくしてもよい。これにより、ユーザ１００は、選択領域５００内のオブジェクトをより正確に選択することができる。また、制御部４３は、選択領域５００内のオブジェクトの数等に応じて、掌画像の移動速度を調整してもよい。例えば、制御部４３は、選択領域５００内のオブジェクトの数が多いほど、掌画像の移動速度を小さくしてもよい。これにより、ユーザ１００は、細かなオブジェクトをより正確に選択することができる。

また、制御部４３は、例えばユーザ１００が左足を上げるジェスチャ操作をした場合には、画面全体を左側にスクロールさせてもよい。同様に、制御部４３は、例えばユーザ１００が右足を上げるジェスチャ操作をした場合には、画面全体を右側にスクロールさせてもよい。これにより、ユーザ１００は、本棚４３０に所望のオブジェクトを発見することができない場合に、別の本棚から所望のオブジェクトを発見することができる。

一方、制御部４３は、選択領域内のオブジェクトをユーザ１００の音声情報に基づいて特定してもよい。例えば、制御部４３は、ユーザ１００が本４４０のタイトルを発声した場合には、そのタイトルを有する本４４０を選択領域５００から選択する。また、制御部４３は、オブジェクトがＣＤとなり、かつ、ユーザ１００が「これを再生」と発声した場合には、そのＣＤを再生する処理を行ってもよい。

なお、ユーザ１００は、予め設定されたキャンセル用のジェスチャ操作を行うことで、上述した各調整処理（ミラー画像１２０及び選択領域５００の少なくとも一方を調整する処理）をキャンセルすることができる。キャンセル用のジェスチャ操作としては、例えば、「キャンセル」という音声を発する、視線（または顔の向き）を選択領域から外す、手を叩く等が考えられる。

したがって、制御部４３は、背景画像の一部を選択領域５００として選択し、選択領域５００内でユーザ１００がオブジェクトを選択しやすくする処理を行う。これにより、ユーザ１００は、大画面ディスプレイ２０内の全領域からオブジェクトを選択することができ、かつ、細かなオブジェクトを選択することができる。すなわち、ユーザ１００は、大画面ディスプレイ２０においても、手間なく（左右に歩かなくてよい、常に手が届く、むやみに画面に近づかなくてよい）所望のオブジェクトを選択することができる。また、ユーザ１００は、精度よく（手をこまごま動かさなくてもよい）、直感的に（見ただけでその辺りのものを選択できる等）所望のオブジェクトを選択することができる。

ステップＳ１３０において、制御部４３は、ミラー画像によるポインティング処理、具体的には図４に示す処理を行う。

次に、詳細選択処理について、図１６〜図１８に基づいて説明する。制御部４３は、ユーザ１００がなんらかのオブジェクトを選択した（カーソル１３０をオブジェクトに重ねた状態で物をつかむジェスチャをした）場合、詳細選択処理を行う。まず図１６に示すように、制御部４３は、ユーザ１００が選択したオブジェクト及びそれに隣接した本４４０を並べて表示する。制御部４３は、ユーザ１００が選択した本４４０を大画面ディスプレイ２０の中央に配置する。この例では、「Ｂｏｏｋ１」が中央に配置されている。さらに、制御部４３は、ミラー画像１２０から掌画像１４０を切り出し、掌画像１４０を拡大して表示する。さらに、制御部４３は、カートアイコン６００も表示する。

そして、制御部４３は、ユーザ１００の掌が「パー」の状態となっており、かつ、右方向に動かされた場合には、掌画像１４０を矢印Ａ１方向（右方向）に移動させるとともに、本４４０の列を矢印Ａ１方向（右方向）にスクロールさせる。スクロール量は、本４４０の１冊分とする。これにより、「Ｂｏｏｋ３」が新たに中央に配置される。

一方、制御部４３は、ユーザ１００の掌が「パー」の状態となっており、かつ、左方向に動かされた場合には、掌画像１４０を矢印Ａ２方向（左方向）に移動させるとともに、本４４０の列を矢印Ａ２方向（左方向）にスクロールさせる。スクロール量は本４４０の一冊分とする。これにより、制御部４３は、図１７に示すように、「Ｂｏｏｋ１」の右側に配置された「Ｂｏｏｋ２」を大画面ディスプレイ２０の中央に表示する。制御部４３は、このような処理を行うことで、ユーザ１００により詳細なオブジェクト選択を行わせることができる。これにより、ユーザ１００は、誤って所望の本４４０と異なる本４４０を選択した場合でも、詳細選択処理において、所望の本４４０を選択することができる。

一方、制御部４３は、ユーザ１００の掌が人差し指だけ伸びた状態となっており、かつ、右方向に動かされた場合には、図１８に示すように、掌画像１４０を矢印Ｂ１方向（右方向）に移動させるとともに、本４４０を右方向に１ページめくる。一方、制御部４３は、ユーザ１００の掌が人差し指だけ伸びた状態となっており、かつ、左方向に動かされた場合には、掌画像１４０を矢印Ｂ２方向（左方向）に移動させるとともに、本４４０を左方向に１ページめくる。制御部４３は、このような処理を行うことで、ユーザ１００に本４４０の試し読みをさせることができる。これにより、ユーザ１００は、本４４０の内容を確認した上で、本４４０を購入することができる。

制御部４３は、ユーザ１００の掌が「パー」の状態となっており、かつ、掌画像１４０がカートアイコン６００に重なった場合には、中央に配置された本４４０をカートに入れる。

その後、制御部４３は、ユーザ１００が「キャンセル」という音声を発する、または、予め設定されたキャンセル用のジェスチャ操作を行った場合、図７に示すような通常店舗画像を大画面ディスプレイ２０に表示する。そして、制御部４３は、ユーザ１００のジェスチャ操作に基づいて通常店舗画像をスクロールさせる。具体的な処理内容は上述したとおりである。

そして、制御部４３は、図１９に示すレジ７００を表示した場合（すなわち、ユーザ１００がレジ７００まで到達した場合）には、会計処理（例えばクレジットカードからの引き落とし）を行う。また、制御部４３は、レジ７００の会計表示窓７１０に、購入金額を表示する。以上により、制御部４３は、バーチャルショッピングに関する処理を終了する。

なお、店舗は本屋以外であっても良いのはもちろんである。例えば、店舗はレコードショップ、スーパー、デパート等であってもよい。また、背景画像は店舗以外のものであってもよい。店舗以外の例を図２０〜図２１に示す。

この例では、制御部４３は、大画面ディスプレイ２０に背景画像としてリビング画像を表示する。このリビング画像には、ディスプレイ８００、リモコン８１０、及び地面８３０が描かれている。すなわち、この例では、いわゆるディスプレイオンディスプレイ（大画面ディスプレイ２０の中に架空のディスプレイ８００が表示されている）が実現されている。地面８３０は、部屋２００の床と同一平面上に配置される。したがって、ユーザ１００は、部屋２００の奥に別のリビングがあるという感覚をもつ。また、制御部４３は、上述したミラー画像１２０及びカーソル１３０を背景画像に重畳する。

この例においても、制御部４３は、背景画像及びミラー画像１２０に対して上述した処理を行うことができる。また、制御部４３は、ユーザ１００の掌が「パー」となり、かつ、カーソル１３０がリモコン８１０に重なった場合、リモコン８１０をカーソル１３０に追従させる。さらに、制御部４３は、ユーザ１００の掌が人差し指だけ伸びた状態となった場合、図２１に示すように、リモコン８１０を拡大する。そして、制御部４３は、ユーザ１００が選択したボタン（すなわち、ミラー画像１２０の人差し指部分が重なったボタン）を検出する。そして、制御部４３は、ユーザ１００が選択したボタンに応じた画面８２０をディスプレイ８００に表示する。

以上により、本実施形態では、画像処理システム１０は、ミラー画像１２０を背景画像に重畳することで、重畳画像を生成し、重畳画像を大画面ディスプレイ２０に表示する一方、重畳画像の表示状態を調整する。これにより、画像処理システム１０は、ミラー画像１２０の操作性を向上させることができる。具体的には、画像処理システム１０は、ユーザ１００に大画面ディスプレイ２０の全領域を選択させることができ、かつ、細かなオブジェクトを選択させることができる。

また、画像処理システム１０は、ミラー画像１２０及び背景画像のうち、少なくとも一方の表示状態を調整する。したがって、画像処理システム１０は、ミラー画像１２０の操作性を向上させることができる。

さらに、画像処理システム１０は、背景画像の一部を選択領域５００として選択し、選択領域５００及びミラー画像１２０のうち、少なくとも一方の表示状態を調整する。したがって、画像処理システム１０は、ミラー画像１２０の操作性を向上させることができる。

さらに、画像処理システム１０は、選択領域５００をユーザ１００のジェスチャ操作に基づいて選択するので、ユーザ１００は、所望の領域を容易に選択することができる。

さらに、画像処理システム１０は、選択領域５００及びミラー画像１２０のうち、少なくとも一方の表示状態を、ユーザ１００のジェスチャ操作に基づいて調整するので、ミラー画像１２０の操作性をより向上させることができる。

さらに、画像処理システム１０は、選択領域５００を拡大することで拡大選択領域５１０を生成し、拡大選択領域５１０にミラー画像１２０を重畳する。したがって、ユーザ１００は、選択領域内のオブジェクトを容易に選択することができる。

さらに、画像処理システム１０は、ミラー画像１２０を拡大するので、ユーザ１００は、選択領域５００内のオブジェクトを容易に選択することができる。

さらに、画像処理システム１０は、ミラー画像１２０を構成する腕画像を選択領域５００まで伸ばすので、ユーザ１００は、選択領域５００内のオブジェクトを容易に選択することができる。

さらに、画像処理システム１０は、ミラー画像１２０を選択領域５００内に配置するので、ユーザ１００は、選択領域５００内のオブジェクトを容易に選択することができる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

例えば、上記実施形態では、大画面ディスプレイ２０に店舗内の画像またはリビング画像を表示する例を示したが、他の画像を大画面ディスプレイ２０に表示しても良いことはもちろんである。また、本実施形態は、大画面ディスプレイ２０よりも小型のディスプレイ、例えば数十インチ程度のディスプレイにも適用可能である。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
人体の少なくとも一部が描かれ、かつ、ユーザのジェスチャ操作に連動して動作する人体画像を背景画像に重畳することで、重畳画像を生成し、前記重畳画像を表示する制御を行う一方、前記重畳画像の表示状態を調整する制御部を備える、画像処理装置。
（２）
前記制御部は、人体画像及び前記背景画像のうち、少なくとも一方の表示状態を調整する、前記（１）記載の画像処理装置。
（３）
前記制御部は、前記背景画像の一部を選択領域として選択し、前記選択領域及び前記人体画像のうち、少なくとも一方の表示状態を調整する、前記（２）記載の画像処理装置。
（４）
前記制御部は、前記選択領域をユーザのジェスチャ操作に基づいて選択する、前記（３）記載の画像処理装置。
（５）
前記制御部は、前記選択領域及び前記人体画像のうち、少なくとも一方の表示状態を、ユーザのジェスチャ操作に基づいて調整する、前記（３）または（４）記載の画像処理装置。
（６）
前記制御部は、前記選択領域を拡大することで拡大選択領域を生成し、前記拡大選択領域に前記人体画像を重畳する、前記（３）〜（５）のいずれか１項に記載の画像処理装置。
（７）
前記制御部は、前記人体画像を拡大することを特徴とする、前記（３）〜（５）のいずれか１項に記載の画像処理装置。
（８）
前記制御部は、前記人体画像を構成する腕画像を前記選択領域まで伸ばす、前記（３）〜（５）のいずれか１項に記載の画像処理装置。
（９）
前記制御部は、前記人体画像を前記選択領域内に配置する、前記（３）〜（５）のいずれか１項に記載の画像処理装置。
（１０）
人体の少なくとも一部が描かれ、かつ、ユーザのジェスチャ操作に連動して動作する人体画像を背景画像に重畳することで、重畳画像を生成し、前記重畳画像を表示する制御を行う一方、前記重畳画像を調整することを含む、画像処理方法。
（１１）
コンピュータに、
人体の少なくとも一部が描かれ、かつ、ユーザのジェスチャ操作に連動して動作する人体画像を背景画像に重畳することで、重畳画像を生成し、前記重畳画像を表示する制御を行う一方、前記重畳画像を調整する制御機能を実現させる、プログラム。

１０画像処理システム
２０大画面ディスプレイ
３０通信ネットワーク
４０サーバ
１２０ミラー画像
４１０、４２０背景画像
４３０本棚
５００選択領域

Claims

人体の少なくとも一部が描かれ、かつ、ユーザのジェスチャ操作に連動して動作する人体画像を背景画像に重畳することで、重畳画像を生成し、前記重畳画像を表示する制御を行う一方、前記重畳画像の表示状態を調整する制御部を備え、
前記制御部は、前記ユーザが背伸びしたことが認識された場合、前記背景画像のうち前記ユーザの掌が届かない上側領域を選択領域として選択し、前記選択領域を前記上側領域から前記ユーザの掌が届く下方の領域に移動させることによって、前記選択領域の表示状態を調整する、
画像処理装置。
人体の少なくとも一部が描かれ、かつ、ユーザのジェスチャ操作に連動して動作する人体画像を背景画像に重畳することで、重畳画像を生成し、前記重畳画像を表示する制御を行う一方、前記重畳画像を調整することを含み、
前記ユーザが背伸びしたことが認識された場合、前記背景画像のうち前記ユーザの掌が届かない上側領域を選択領域として選択し、前記選択領域を前記上側領域から前記ユーザの掌が届く下方の領域に移動させることによって、前記選択領域の表示状態を調整する、
画像処理方法。
コンピュータに、
人体の少なくとも一部が描かれ、かつ、ユーザのジェスチャ操作に連動して動作する人体画像を背景画像に重畳することで、重畳画像を生成し、前記重畳画像を表示する制御を行う一方、前記重畳画像を調整する制御機能を実現させ、
前記ユーザが背伸びしたことが認識された場合、前記背景画像のうち前記ユーザの掌が届かない上側領域を選択領域として選択し、前記選択領域を前記上側領域から前記ユーザの掌が届く下方の領域に移動させることによって、前記選択領域の表示状態を調整する制御機能を実現させる、
プログラム。