JP2019087136A

JP2019087136A - 画面表示制御方法および画面表示制御システム

Info

Publication number: JP2019087136A
Application number: JP2017216380A
Authority: JP
Inventors: 村上　義則; Yoshinori Murakami; 義則村上
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2017-11-09
Filing date: 2017-11-09
Publication date: 2019-06-06
Anticipated expiration: 2037-11-09
Also published as: US10824237B2; US20190138106A1; JP6971788B2; CN109765990A; CN109765990B

Abstract

【課題】ディスプレイから離れた場所にいる操作者がその場所でポインタを操作できる手法を提供する。【解決手段】操作者の頭部に装着され画像を撮影するウェアラブル端末を用いて、矩形状の枠および表示域を有するディスプレイと共にそのディスプレイを操作者が指し示す手の部分を撮影し、コンピュータを用いて、ウェアラブル端末の撮影画像における矩形枠の頂点の位置および手の部分で指し示された位置を抽出し、抽出された頂点の位置および指し示された位置の位置関係に基づいて前記手の部分に対応する表示域内の位置があるか否かを決定し、あればその位置にポインタを表示させる、画面表示制御方法。【選択図】図１１

Description

この発明は、画面表示制御方法および画面表示制御システムに関し、より詳細には操作者がウェアラブル端末を装着し、ディスプレイに触れることなく遠隔でポインタを操作する技術に関する。

頭部に取り付けたセンサとカメラ画像を用いて、カメラ画像から指やマーカなどのカメラ内での座標位置を算出させ、算出された座標位置に基づいて、形状や動作を認識させる技術が知られている。
例えば、非特許文献１では、頭部に取り付けたセンサとカメラ画像を用いて指先の位置を追跡し、得られた指先の軌跡をヘッドマウントディスプレイ（ＨＭＤ）に重畳表示することで指先軌跡の空中描画を実現するシステムを目指している。
この中で、頭部の姿勢の変化が補正された指先の軌跡を求めるために、カメラ画像を用いて空間位置合わせの処理を行っている。カメラ画像に対して局所特徴点（具体的にはＳＵＲＦとして知られる特徴点）を抽出し、カメラ画像のフレーム間で局所特徴点の対応付けを行い、センサ情報から明らかな誤対応を除去した対応点から射影変換行列を算出している。

また、ウェアラブル端末ではないが、組み込まれたカメラから得られる入力画像からユーザの手を検出し、検出した手が縮小された画像を生成してタッチパネルの操作画面に重ねて表示し、タッチパネル内の手画像の位置におけるタッチ操作に応じた命令を実行する電子機器が知られている（例えば、特許文献１参照）。

特開２０１５−２３０４９６号公報

田中雄規他、「カメラ画像とセンサからの頭部位置・姿勢追跡による指先軌跡の空中描画システム」、情報処理学会研究報告、2015年3月31日、Vol.2015-HCI-162 No.7

しかし、非特許文献１の手法では、カメラ以外にセンサを用いており、かつ、多数の局所特徴量を扱うので計算量が大きく、処理時間がかかる。
また、特許文献１のものは、オブジェクトが密集して表示されている場合に、手指で直接タッチパネルを操作するよりも小さいサイズの手画像を用いて操作することで誤操作を軽減しようとする点で、ディスプレイから離れた場所でポインタを操作するこの発明と目的および構成が異なる。

この発明は、以上のような事情を考慮してなされたものであって、ディスプレイから離れた場所にいる操作者がその場所でポインタを操作できる手法を提供するものである。さらに、操作者の視点と操作者の頭部に装着されたウェアラブル端末による撮影の視点との間のずれが、例えば操作者の胸部や腕にウェアラブル端末が装着される場合やウェアラブ端末に代わるカメラがディスプレイや部屋の壁などに設置されている場合に比べて少なく、操作者が指し示した位置に対応してディスプレイに表示すべきポインタの位置を、少ない計算量で操作者にとって違和感がないように決定できる手法を提供するものである。

（１）この発明は、操作者の頭部に装着され画像を撮影するウェアラブル端末を用いて、矩形状の枠および表示域を有するディスプレイと共にそのディスプレイを前記操作者が指し示す手の部分を撮影し、コンピュータを用いて、前記ウェアラブル端末の撮影画像における前記矩形枠の頂点の位置および前記手の部分で指し示された位置を抽出し、抽出された頂点の位置および指し示された位置の位置関係に基づいて前記手の部分に対応する前記表示域内の位置があるか否かを決定し、前記位置があればその位置にポインタを表示させる画面表示制御方法を提供する。

（２）また異なる観点からこの発明は、操作者の頭部に装着されるウェアラブル端末から、矩形状の枠および表示域を有するディスプレイと共にそのディスプレイを前記操作者が指し示す手の部分が撮影された画像を取得する処理と、前記ウェアラブル端末の撮影画像における前記矩形枠の頂点の位置および前記手の部分で指示された位置を抽出する処理と、抽出された頂点の位置および指し示された位置の位置関係に基づいて前記手の部分に対応する前記表示域内の位置があるか否かを決定する処理と、前記位置があればその位置にポインタを表示させる処理と、をコンピュータに実行させる画面表示制御プログラムを提供する。

（３）さらに異なる観点からこの発明は、矩形状の枠および表示域を有するディスプレイと、操作者の頭部に装着されかつ前記ディスプレイと共にそのディスプレイを前記操作者が指し示す手の部分を撮影するウェアラブル端末と、前記ウェアラブル端末の撮影画像における前記矩形枠の頂点の位置および前記手の部分で指し示された位置を抽出し、抽出された頂点の位置および指し示された位置の位置関係に基づいて前記手の部分に対応する前記表示域内の位置があるか否かを決定するポインタ処理部と、前記位置があればその位置にポインタを表示させる表示処理回路と、を備える画面表示制御システムを提供する。

この発明による上記（１）の画面表示制御方法は、操作者の頭部に装着されるウェアラブル端末を用いて、前記操作者が指し示す手の部分をディスプレイと共に撮影し、コンピュータを用いて、ディスプレイの矩形枠の頂点の位置および指し示された位置の撮影画像における位置関係から前記手の部分に対応する前記表示域内の位置があるか否かを決定するので、ディスプレイから離れた場所にいる操作者がその場所でポインタを操作できる。さらに、操作者の視点とウェアラブル端末による撮影の視点との間にずれがあっても、操作者が指し示した位置に対応してディスプレイに表示すべきポインタの位置を、少ない計算量で操作者にとって違和感のないように決定できる。

即ち、操作者の視点と前記操作者の頭部に装着されたウェアラブル端末の撮影の視点とが近くにあり、しかも、操作者の眼の方向と頭部に装着したウェアラブル端末の撮影方向とが姿勢によらず一定の関係にある。そして、操作者が手の部分で指示した位置に対応する表示域内の位置があれば、矩形枠の頂点の位置に基づいて精度よく決定できる。
上記（２）および（３）も同様の作用効果を奏する。

この実施形態における画面表示制御システムの構成を示すブロック図である。この実施形態におけるウェアラブル端末の一例を示す説明図である。この実施形態における画面表示制御の処理の流れを示すフローチャートである。図３で、表示域の四頂点の座標値を算出する処理の詳細を示すフローチャートである。この実施形態において、表示域を規定する四つの線分の検出例を示す説明図である。この実施形態において二辺の交点座標の算出手順を説明するためのグラフである。図６Ａと異なる態様の二辺を示すグラフである。この実施形態における撮影画像上の位置とディスプレイの表示域上の位置との対応を示す説明図である。この実施形態において、手の部分を抽出する処理を示すフローチャートである。この実施形態において、抽出された肌色領域の一例を示す説明図である。この実施形態において、指先の位置を抽出する様子を示す説明図である。この実施形態において、表示域を規定する四つの辺のすべてが検出できなかった場合の処理を含むフローチャートである。この実施形態において、表示域の頂点の位置を算出する処理を示すフローチャートである。

以下、図面を用いてこの発明をさらに詳述する。なお、以下の説明は、すべての点で例示であって、この発明を限定するものと解されるべきではない。

（実施の形態１）
≪システムの構成≫
図１は、この発明の実施の一形態である画面表示制御システムの構成を示すブロック図である。図１に示す画面表示制御システムは、ディスプレイ１１、コンピュータ１３、ウェアラブル端末１５、キーボード１７およびマウス１９を含んで構成されている。ウェアラブル端末１５はカメラ１５ｃを有する。
ディスプレイ１１は、矩形状の表示域、即ち画面の領域を有している。そして、コンピュータ１３から画像表示信号を受け取って、受け取った画像表示信号に基づいて画像の表示を行う。
キーボード１７およびマウス１９は、操作者の操作に応じた信号をコンピュータ１３へ送る。

会議などでは、複数の人で大型ディスプレイを見て、発言するときにディスプレイの説明したい部分をポインタで指し示したいことがある。この実施形態において、会議に参加する発言者は、図２のように、操作者頭部２１の目に近い位置にウェアラブル端末１５を装着する。そして、発言者がウェアラブル端末１５を用いてポインタを操作する操作者になる。ウェアラブル端末１５はカメラ１５ｃを有しており、カメラ１５ｃは映像を撮像して撮影された画像（映像データ）をコンピュータ１３へ送る。この実施形態において、映像データは時間の経過に伴って逐次撮影された動画像、即ち、複数の時点に対応する一連のフレーム画像を含む映像データである。この明細書において、各フレーム画像を撮影画像ともよぶ。
ウェアラブル端末１５からコンピュータ１３へ映像データを送るのは、有線による通信でも構わないが、赤外線通信やＢｌｕｅｔｏｏｔｈ(登録商標)などの無線によるもの方が望ましい。ウェアラブル端末１５は、メガネに一体化されているものでも構わないし、図２に示されるような、耳に掛けるイヤーフック型でも構わないが、操作者の目に近く、撮像方向が操作者の視線に近いのが望ましい。

コンピュータ１３は、ＣＰＵを中心として、メモリーや入出力回路、通信インターフェイス回路をハードウェア資源として備え、メモリーに格納されたプログラム（ソフトウェア）を実行することで、ハードウェアとソフトウェアが協働して処理を実行する。
コンピュータ１３は、キーボード１７およびマウス１９から入力信号を受信し、受信した入力信号に基づいて予め定められた処理を行う。また、コンピュータ１３は、キーボード１７およびマウス１９から受信した入力信号に応じて、あるいはその入力信号に基づいて実行された処理の結果に応じて、ディスプレイ１１へ画像表示信号を送る。
さらに、コンピュータ１３は、ウェアラブル端末１５からの映像データを受信し、受信した映像データの各フレーム画像に対応するデータ、即ち各撮影画像に基づいて、ポインタ入力信号を生成する。ここで、ポインタ入力信号は、各撮影画像に映った発言者の手の部分をコンピュータ１３が抽出する。そして、抽出された手の部分がマウス１９による操作に対応した何らかの操作を指示していると判断した場合、コンピュータ１３は、マウス１９からの入力信号に対応する信号を生成する。これがポインタ入力信号である。
なお、ウェアラブル端末１５がカメラ１５ｃで撮影された映像データをコンピュータ１３へ送信し、コンピュータ１３が映像データの処理を行ってポインタ入力信号を生成すると述べたが、その処理の一部または全部をウェアラブル端末１５の側で行ってもよい。即ち、ウェアラブル端末１５がコンピュータを備え、コンピュータ１３と協働して処理を行ってもよい。そのような態様もこの発明の範囲に含まれる。
コンピュータ１３は、生成されたポインタ入力信号に基づいて、予め定められた処理を行う。また、コンピュータ１３は、マウス１９から入力信号を受信した場合と同様、ポインタ入力信号に応じて、あるいはそのポインタ入力信号に基づいて実行された処理の結果に応じて、ディスプレイ１１へ画像表示信号を送信する。

≪撮影画像に基づいてポインタの表示を更新する処理の概要≫
続いて、映像データの各撮影画像からポインタ入力信号を算出する処理について詳述する。
図３は、この実施形態において、各フレームに対応する撮影画像に基づいてポインタ入力信号を算出する処理の流れを示すフローチャートである。図３に示すように、コンピュータ１３は、ウェアラブル端末１５から送信された映像データの１フレームに対応する撮影画像を受信してメモリーに格納する（ステップＳ１１）。撮影画像が読み込めたら（ステップＳ１３のＹｅｓ）コンピュータ１３は、前に処理したフレーム画像に基づいて算出されたポインタ位置があるかどうかを調べ、算出されたポインタがあればそれをメモリーに保持しておく（ステップＳ１５）。前のフレーム画像に基づくポインタ位置を保持しておくのは、前記ステップＳ１１でメモリーに格納したフレーム画像に後述する処理を適用してもディスプレイ領域の四辺が抽出できなかったり撮影画像における指先位置を抽出できなかったりした場合のためである。また、単にポインタを移動させるだけでなく、ポインタの軌跡に対応した描画を行う操作に対応できるようにするためでもある。詳細は後述する。
続いてコンピュータ１３は、前記ステップＳ１１でメモリーに格納された撮影画像に対してノイズ除去処理を行う（ステップＳ１７）。
なお、コンピュータ１３は、ウェアラブル端末１５から送信された映像データの１フレーム毎に図３に示す１ループの処理を行ってポインタの表示を更新してもよいが、処理負荷が大きく１フレーム毎にループ処理を行うことが難しいこともある。その場合は、画像データの複数フレーム毎に図３に示す１ループの処理を行ってもよい。処理負荷の大きさは、映像データのフレームレート（時間間隔）、各フレーム画像の画素数、ウェアラブル端末１５とコンピュータ１３との間の通信速度、コンピュータ１３の処理能力などに依存する。

その後、コンピュータ１３は、撮影画像に映ったディスプレイ１１の表示域を規定する四頂点の座標を算出する（ステップＳ１９）。
撮影画像に映った四頂点の位置は、操作者がディスプレイ１１に対して正対の位置からずれていると矩形でなくなり、例えば台形状や、台形でもない四角形状になる。操作者が自分の眼で見た位置を手指などで指し示す場合、指し示しされた位置を正確に求めるには、操作者の視点で撮影された画像が必要である。この実施形態においてウェアラブル端末１５は操作者の頭部に装着されているので、カメラ１５ｃで撮影された画像は操作者の視点と完全には一致しないものの、操作者の視点に近いものである。
そこで、コンピュータ１３はカメラ１５ｃによる撮影画像が操作者の視点から見たものであるとして、撮影画像で操作者がディスプレイ１１の表示域を指し示す位置を算出する処理を行う。

しかし、前述のように撮影画像がディスプレイ１１に対して正対の位置でなければ、表示域の四頂点が矩形でないために直交座標を用いて指し示された位置を正確に表現すことができない。
そこで、四頂点が矩形であることを前提に射影変換を行って、指し示された位置の矩形状の表示域に対応する座標を求める。
そのためにまずコンピュータ１３は、射影変換を受けて歪んだ撮影画像上の四頂点の位置を矩形に変換するための射影変換行列を算出する（ステップＳ２１）。

続いて、撮影画像上で、指し示された位置を抽出する（ステップＳ２３）。この実施形態では、手の部分のうちの指先の位置（指先位置）が指し示された位置であるとしている。
そして、前記ステップＳ２３で求められた撮影画像上で指し示された位置に、前記ステップＳ２１で算出した射影変換行列を適用して射影変換を用い、矩形状の表示域に対応する指先位置を算出する（ステップＳ２５）。即ち、直交座標系で表示域の座標を表現した場合の指先位置の座標を算出する。
算出された指先位置が表示域内にあれば、表示域に表示するポインタの位置を算出された位置に更新する（ステップＳ２７）。

続いて、コンピュータ１３は、ウェアラブル端末１５から次に処理すべきフレーム画像が送信されてくるか否かを調べる（ステップＳ２９）。
次に処理すべきフレーム画像が送られてこなければ（ステップＳ２９のＹｅｓ）処理を終了する。一方、次に処理すべきフレーム画像が送られてくれば（ステップＳ２９のＮｏ）、ルーチンは前述のステップＳ１１へ戻り、次のフレーム画像を読み込んで同様の処理を繰り返す。
以上が図３に示す処理の流れである。

≪撮影画像からディスプレイの四頂点を抽出する処理≫
この実施形態で、各撮影画像は、ＲＧＢ（ここで、Ｒ：赤、Ｇ：緑、Ｂ：青を意味する）の各色成分からなる画像データである。この実施形態に係るカメラ１５ｃはイメージセンサを備える。一般にイメージセンサは、撮影した画像をＲＧＢの各色成分の信号として出力するので、コンピュータ１３がウェアラブル端末１５から受け取る各撮影画像はＲＧＢの各色成分からなる。
電源がオンされてウェアラブル端末１５が動作を開始すると、カメラ１５ｃが動画撮影を開始する。そして、ウェアラブル端末１５は、撮影された映像データをコンピュータ１３へ順次送信する。コンピュータ１３はウェアラブル端末１５から送られてくるフレーム画像を受信する。

後述するように、コンピュータ１３は、受信した撮影画像からそのフレームに対応して表示させるべきポインタの位置があるか否か、ある場合はその位置を決定する。次のフレームの撮影画像を受取ると、そのフレームに対応して表示させるべきポインタの位置があるか否か、ある場合はその位置を決定する。その際、前のフレーム画像に基づいて決定されたポインタの位置を保持しておく。
なお、カメラ画像にノイズ成分が多い場合、撮影されたフレーム画像に対してメディアンフィルタや平均フィルタなどを適用してノイズを除去する処理を行ってもよい。
この実施形態において、ウェアラブル端末１５を頭部に装着した操作者がディスプレイ１１の方を見ると、カメラ１５ｃにはディスプレイ１１が映る。すなわち、操作者の頭部に装着された状態でその操作者が前方を見る場合、カメラ１５ｃは操作者の眼に映る前方の一定の範囲を撮影するようになっている。

コンピュータ１３は、カメラ１５ｃに映ったディスプレイ１１の四頂点の撮影画像上の座標を算出する。図３のステップＳ１９に対応する処理である。
図４は、その処理の詳細な流れを示すフローチャートである。図４に示すように、コンピュータ１３は、ＲＧＢの各色成分からなる撮影画像をグレー画像に変換する（ステップＳ３１）。
この実施形態においては、以下の式（１）によって、ＲＧＢの３色の信号（明るさの信号）がグレーの明るさ信号Ｇｒａｙに変換される。
Ｇｒａｙ＝０．２９９×Ｒ＋０．５８７×Ｇ＋０．１１４×Ｂ（１）
（１）式は、ＲＧＢ信号の輝度を算出する式として知られている。
なお、撮影画像が多くのノイズを含む場合は、ＲＧＢ画像あるいは変換後のグレー画像に対してノイズ除去処理を行ってもよい。

コンピュータ１３は、変換されたグレー画像に対してエッジ検出を行う（ステップＳ３３）。例えば、Ｃａｎｎｙ法と呼ばれる方法でグレー画像のエッジを検出する（ステップＳ３３）。これにより、ディスプレイ１１の枠（ディスプレイ枠）に相当する部分もエッジとして検出される。枠の内周部分が表示域の境界に相当する。なお、使用するディスプレイ１１の種類が予め決まっていてそのディスプレイ枠の色が黒色あるいは白色であれば、２値化処理により枠の色に相当する部分を抽出した後。ラプラシアンフィルタによりエッジを検出してもよい。
エッジ検出画像用に変換された画像に対して、確率的Ｈｏｕｇｈ変換を行うことにより線分検出をする（ステップＳ３５）。線分検出は、撮影画像の中から単点を持つ線分として線を検出する処理である。検出された線分は、始点と終点で表され、それぞれの座標を取得することができる。

図５は、この実施形態においてディスプレイ１１と操作者の手の部分が映った撮影画像から上述した手順で線分を検出した例を示す説明図である。
図５で、ディスプレイ１１の表示域１１ｄを規定する四辺、言い換えると、ディスプレイ枠１１ｆの内周に対応する四辺をそれぞれ白い線で示している。即ち、表示域下辺１１Ｂ、表示域左辺１１Ｌ、表示域右辺１１Ｒおよび表示域上辺１１Ｔを白い線で示している。撮影画像から抽出される線分はそれだけではない。上述の四辺以外に抽出された線分をグレーで示している。ディスプレイ枠１１ｆの外周やディスプレイ１１が置かれたデスクの縁、また、撮影画像の縁が線分として抽出されている。
コンピュータ１３は、抽出された線分のうちで、ディスプレイ１１の表示域１１ｄを規定する四辺を決定する（ステップＳ３７）。

この実施形態において四辺を決定する手順は以下のとおりである。
コンピュータ１３は、検出された線分のうち傾きが略水平（例えば、（縦成分の長さ／横成分の長さ）の絶対値が０．５より小さいと規定される）、かつ予め定められた長さより長い線分のうちで、撮影画像の画像中心よりも上側にあって画像中心に最も近い線分を表示域上辺１１Ｔとする。一方、画像中心より下側で画像中心に最も近い線分を表示域下辺１１Ｂとする。
ここで、画像中心より上側で画像中心に最も近い線分というのは、画像中心を通り鉛直方向（Ｙ方向）に伸びる鉛直線（Ｙ座標軸に平行な線）と交わる線分あるいは線分の延長線の位置が、前記鉛直線上における画像中心から最も近い上方にある線分である。
一方、画像中心より下側で画像中心に最も近い線分というのは、画像中心を通り鉛直方向（Ｙ方向）に伸びる鉛直線（Ｙ座標軸に平行な線）と交わる線分あるいは線分の延長線の位置が、前記鉛直線上における画像中心から最も近い下方にある線分である。

さらに、コンピュータ１３は、検出された線分のうち傾きが略鉛直（例えば、（縦成分の長さ／横成分の長さ）の絶対値が５より大きいと規定される）かつ予め定められた長さ（上述の表示域上辺１１Ｔおよび表示域下辺１１Ｂに係る長と異なる長さでもよい）より長い線分のうちで、撮影画像の画像中心よりも左側にあって画像中心に最も近い線分を表示域左辺１１Ｌとする。一方、画像中心より右側で画像中心に最も近い線分を表示域右辺１１Ｒとする。
ここで、画像中心より左側で画像中心に最も近い線分というのは、画像中心を通り水平方向（Ｘ方向）に伸びる水平線（Ｘ座標軸に平行な線）と交わる線分あるいは線分の延長線の位置が、前記水平線上における画像中心から最も近い左方にある線分である。
画像中心より右側で画像中心に最も近い線分というのは、画像中心を通り水平方向（Ｘ方向）に伸びる水平線（Ｘ座標軸に平行な線）と交わる線分あるいは線分の延長線の位置が、前記水平線上における画像中心から最も近い右方にある線分である。

図５に示す線分のうち白色で示す線分が表示域１１ｄを規定する四辺に相当する線分である。
この実施形態では、ディスプレイ１１の四頂点は、ディスプレイ１１の表示域１１ｄに基づいて算出することを想定している。表示域１１ｄは液晶や有機ＥＬ等の表示パネルとそれを囲むフレーム部材（枠１１ｆ）との境界で規定され、安定して精度よくその境界が抽出できると考えられるからである。
ただしそれに限らず、例えば前記表示域１１ｄを囲むディスプレイ枠１１ｆの外周、あるいはディスプレイの外縁（即ちディスプレイの装置全体の輪郭）に基づいて四頂点を算出してもよい。近年は、ディスプレイ枠１１ｆの外周がディスプレイの外縁であるものが多いが、例えばディスプレイ枠１１ｆの下側や左右両側にスピーカーが配置されているものもある。一般に、フレーム部材の外周やディスプレイの外縁も矩形状であるものが多い。

コンピュータ１３は、表示域１１ｄを規定する四辺に相当する四本の線分から、隣り合う二辺に相当する線分あるいはその延長線の交点を四頂点として算出する（ステップＳ３９）。即ち、表示域上辺１１Ｔと表示域左辺１１Ｌに相当する線分あるいはその延長線の交点を算出する。同様に、表示域左辺１１Ｌと表示域下辺１１Ｂに相当する線分あるいはその延長線の交点を算出する。また、表示域下辺１１Ｂと表示域右辺１１Ｒに相当する線分あるいはその延長線の交点を算出する。さらに、表示域右辺１１Ｒと表示域上辺１１Ｔに相当する線分あるいはその延長線の交点を算出する。これにより、撮影画像におけるディスプレイ１１の四頂点の座標が求まる。

ここで、撮影画像上で隣り合う二辺の交点を求める手順について述べる。
図６Ａは、この実施形態において２本の直線の交点座標の算出手順を説明するためのグラフである。図６Ａに示すように、二辺のうちの１本の直線は、直線の傾きが略水平であって、両端の点の座標値をそれぞれ（ｐ_１ｘ，ｐ_１ｙ）および（ｐ_２ｘ，ｐ_２ｙ）とする。直線は、以下の式、
ｙ＝ｍ_１・ｘ＋ｎ_１（２）
で表される。

二辺のうち他の１本の直線はｙ軸と平行に鉛直方向に伸びている。両端の点の座標をそれぞれ（ｐ_３ｘ，ｐ_３ｙ）および（ｐ_４ｘ，ｐ_４ｙ）とする。
そして、２本の直線が交わる交点の座標値を（ｐ_５ｘ，ｐ_５ｙ）とする。
２本の直線短点の座標（ｐ_１ｘ，ｐ_１ｙ）、（ｐ_２ｘ，ｐ_２ｙ）、（ｐ_３ｘ，ｐ_３ｙ）および（ｐ_４ｘ，ｐ_４ｙ）がわかっている場合に、交点の座標値（ｐ_５ｘ，ｐ_５ｙ）は以下のようにして算出できる。

２本の直線の端点の座標値が定まっているので、（２）式に端点の値を代入して、
ｐ_１ｙ＝ｍ_１・ｐ_１ｘ＋ｎ_１（２−１）
ｐ_２ｙ＝ｍ_１・ｐ_２ｘ＋ｎ_１（２−２）
（２−２）式と（２−１）式の差分をとってｎ_１を消去し、ｍ_１について整理すると、
ｍ_１＝（ｐ_２ｙ−ｐ_１ｙ）／（ｐ_２ｘ−ｐ_１ｘ）
一方、両式からｍ１を消去するために（２−１）式にｐ_２ｘを乗じたものから（２−２）式にｐ_１ｘを乗じたものの差分をとってｎ_１について整理すると、
ｎ_１＝（ｐ_２ｘ×ｐ_１ｙ−ｐ_１ｘ×ｐ_２ｙ）／（ｐ_２ｘ−ｐ_１ｘ）

以上で係数、ｍ_１およびｎ_１が求められた。求まったｍ_１およびｎ_１を（２）式に代入して略水平な直線が表現できる。
一方、ｙ軸に平行な直線については、ｐ_３ｘ＝ｐ_４ｘであるから、交点のｘ座標値は、
ｐ_５ｘ＝ｐ_３ｘ
で求められる。
そして、交点のｙ座標値は、
ｐ_５ｙ＝ｍ_１×ｐ_３ｘ＋ｎ_１
で求められる。

図６Ｂは、図６Ａと異なる態様の二辺を示すグラフである。略水平な直線は図６Ａと同様である。一方、図６Ａの鉛直方向に伸びた直線に代えて、図６Ｂでは略鉛直方向の直線である。略鉛直方向の直線は、以下の式、
ｙ＝ｍ_２・ｘ＋ｎ_２（３）
で表される。
（２）および（３）式で表される２本の直線の、それぞれの端点の座標値（ｐ_１ｘ，ｐ_１ｙ）、（ｐ_２ｘ，ｐ_２ｙ）、（ｐ_３ｘ，ｐ_３ｙ）および（ｐ_４ｘ，ｐ_４ｙ）がわかっている。
よって、図６Ａと同様に、（２−２）式と（２−１）式から係数、ｍ_１およびｎ_１が求められる。求まったｍ_１およびｎ_１を（２）式に代入して略水平な直線が表現できる。
（３）式で表される直線についても、（２）式の直線と同様の手順で係数、ｍ_２およびｎ_２が求められる。
ｍ_２＝（ｐ_４ｙ−ｐ_３ｙ）／（ｐ_４ｘ−ｐ_３ｘ）
ｎ_２＝（ｐ_４ｘ×ｐ_３ｙ−ｐ_３ｘ×ｐ_４ｙ）／（ｐ_４ｘ−ｐ_３ｘ）
求まったｍ_２およびｎ_２を（３）式に代入して略鉛直方向の直線が表現できる。

略水平方向の直線と略鉛直方向の直線が交わる交点では、
ｐ_５ｙ＝ｍ_１・ｐ_５ｘ＋ｎ_１（４）
ｐ_５ｙ＝ｍ_２・ｐ_５ｘ＋ｎ_２（５）
となる。（４）および（５）式から交点の座標値は、
ｐ_５ｘ＝（ｎ_１−ｎ_２）／（ｍ_２−ｍ_１）
ｐ_５ｙ＝（ｍ_２×ｎ_１−ｍ_１×ｎ_２）／（ｍ_２−ｍ_１）
で求められる。
上述の手順で、撮影画像上で隣り合う二辺の交点の座標値をそれぞれ計算し、撮影画像上でディスプレイ１１の四頂点の座標を求めることができる。

なお、カメラ１５ｃの方向と操作者の視線の方向が異なり撮影画像にディスプレイ１１が映っていない場合も考えられる。あるいは、ディスプレイ１１の手前に障害物があって、ディスプレイ１１が隠れてその一部しか映っていなかったりする場合も考えられる。そうすると、ディスプレイ枠１１ｆに相当する四本の線分が適切に抽出されず、ディスプレイ１１の四頂点の座標が算出されない場合がある。その場合の処理については実施の形態２で述べる。

≪四頂点の歪補正−射影変換行列Ｈを求める処理≫
撮影画像に映っているディスプレイ１１は、カメラ１５ｃがディスプレイ１１に対して正対の位置にない限り、歪んで映る。操作者が指し示す表示域１１ｄ内の位置についても、歪の影響を受ける。
そこで、ディスプレイ１１の四頂点の座標値を用いて、撮影画像における指先位置の座標値を補正して歪の影響を軽減する。歪は、幾何学的変換の一種である射影変換によって補正できる。そこで、撮影画像上の指先位置を矩形の表示域の直交座標値へ変換するための射影変換行列Ｈを算出する。

図７は、この実施形態における撮影画像上の位置と、ディスプレイ１１の表示域１１ｄ上の位置との対応を示す説明図である。図７に示すように、撮影画像上の位置は、撮影画像面の直交座標を用いて表される。撮影画像面の直交座標は、カメラ１５ｃの視点における直交座標（図７にＸ、Ｙ、Ｚの座標軸を示す）である。撮影画像はカメラ１５ｃの視点からディスプレイ１１を見た場合の表示域１１ｄの四頂点が映った画像だからである。
図６Ａ、図６Ｂを用いて、撮影画像に映ったディスプレイ１１の四頂点の座標値を算出する手順を既に述べたが、それらの座標値はＸ、Ｙ座標を基底とするものである。
図７に示すように、撮影画像上のディスプレイ１１の四頂点の座標値を（ｘ_１，ｙ_１）、（ｘ_２，ｙ_２）、（ｘ_３，ｙ_３）、（ｘ_４，ｙ_４）とする。図７に示すように、視点がディスプレイ１１に対して正対の位置になく、Ｘ、Ｙ座標軸を含む平面がディスプレイ１１の表示面と平行でないために、撮影画像上の四頂点は歪んで映っている。
一方、この実施形態で矩形の表示域１１ｄの四頂点は、表示域１１ｄ上の直交座標（図７にＵ、Ｖ、Ｗの座標軸を示す）を用い、画素を単位とした座標値で表現される。
表示域１１ｄが、例えば、水平方向（Ｕ軸方向あるいは横方向）に１９２０画素、鉛直方向（Ｖ軸方向あるいは縦方向）に１２００画素で構成されるものとする。その場合、表示域１１ｄの四頂点の座標値（ｕ_１，ｖ_１）、（ｕ_２，ｖ_２）、（ｕ_３，ｖ_３）、（ｕ_４，ｖ_４）は、（０，０）、（０，１１９９）、（１９１９，１１９９）、（１９１９，０）である。

以下、撮影画像上の四頂点の座標値を（ｘ_１，ｙ_１）、（ｘ_２，ｙ_２）、（ｘ_３，ｙ_３）、（ｘ_４，ｙ_４）を、それら四頂点に対応する矩形の表示域１１ｄの四頂点に対応付ける射影変換行列を求める手順について述べる。表示域１１ｄの四頂点の座標値を（ｕ_１，ｖ_１）、（ｕ_２，ｖ_２）、（ｕ_３，ｖ_３）、（ｕ_４，ｖ_４）とする。

撮影画像上の位置を表す直交座標系で四頂点の座標値（ｘ_１，ｙ_１）、（ｘ_２，ｙ_２）、（ｘ_３，ｙ_３）、（ｘ_４，ｙ_４）と、矩形の表示域１１ｄの四頂点の座標値（ｕ_１，ｖ_１）、（ｕ_２，ｖ_２）、（ｕ_３，ｖ_３）、（ｕ_４，ｖ_４）との各点の対応関係は、射影変換行列Ｈを用いて以下の４つの式で表されるものとする。

四頂点に限らず、撮影画像上の点（ｘ，ｙ）と、対応する表示域１１ｄ上の点（ｕ，ｖ）とは、
で表される。ただし、何れの式においても射影変換行列Ｈは、
で表され、係数、ｈ_１１〜ｈ_３２の値は何れの式においても同一である。なお、λは、（７）式の射影変換行列Ｈの第３行第３列目の定数の要素が「１」になるように定めた係数であって、その値は何れの式においても同一である。

射影変換行列Ｈの８個の係数、ｈ_１１〜ｈ_３２は、対応する四頂点の座標値であるｕ_１〜ｕ_４，ｘ_１〜ｘ_４，ｖ_１〜ｖ_４，ｙ_１〜ｙ_４がそれぞれ既知であることに基づいて算出できる。
射影変換行列Ｈの係数、ｈ_１１〜ｈ_３２が求められると、撮影画像上の任意の点（ｘ，ｙ）に対応する表示域１１ｄ上の点（ｕ，ｖ）が、（６）式を用いて決定できる。
従って、撮影画像上に映った指先位置についても、対応する表示域１１ｄ上の位置は（６）式を用いて決定できる。

≪撮影画像上の指先位置を抽出する処理≫
続いて、撮影画像に映った操作者の指先位置を検出して、指先位置の座標値（図７にＰ（ｘ，ｙ）で示す）を求める手順について述べる。
操作者がディスプレイ１１に向かって指を差すと、カメラ１５ｃの撮影画像には指が映る。その指が差している撮影画像上の位置（指先位置）を以下のような処理を行って抽出する。

図８は、この実施形態において、手の部分を抽出する処理を示すフローチャートである。図８に沿って処理の流れを説明する。
コンピュータ１３は、ウェアラブル端末１５から撮影画像を受信する。撮影画像は、ＲＧＢの各色成分からなる画像データである。コンピュータは、その画像データに下記の演算を適用して、ＨＳＶデータに変換する（ステップＳ４１）。各画素が肌色領域か否かを適切に判定するためである。ここで、ＨＳＶは、Ｈ：色相、Ｓ：彩度、Ｖ：明度をそれぞれ表しており、Ｒ，Ｇ，Ｂの各色成分の明るさから以下のように算出される。

まず、明度Ｖは、
Ｖ＝ｍａｘ（Ｒ，Ｇ，Ｂ）
ここで、Ｒ，Ｇ，Ｂは、撮影画像を構成する各画素のＲ，Ｇ，Ｂの各色成分の明るさであって、それらのうち最も明るい色成分の値が明度Ｖである。
彩度Ｓは、上の式で算出された明度を用いて、
Ｓ＝（Ｖ−ｍｉｎ（Ｒ，Ｇ，Ｂ））／Ｖ
として算出される。

そして、色相Ｈは、
Ｖ＝Ｒの場合（即ち、Ｒ，Ｇ，Ｂのうち最も明るいのがＲの場合）、
Ｈ＝６０×（Ｇ−Ｂ）／Ｓ
Ｖ＝Ｇの場合、
Ｈ＝１２０＋６０×（Ｂ−Ｒ）／Ｓ
Ｖ＝Ｂの場合、
Ｈ＝１８０＋６０×（Ｒ−Ｇ）／Ｓ
として算出される。ただし、上記Ｈの値を正の数値とするために、上式の算出結果が負の値の場合はその算出結果に３６０を加算する。また、８ビットの値で処理する場合は、さらに２で割った値とする。

このようにして算出されるＨＳＶデータの値に基づいて、コンピュータ１３は各画素が肌色か否かの判定に基づいて２値化を行う（ステップＳ４３）。
２値化の判定条件の例として、Ｈ≧２かつＨ≦２８かつＳ≧４６かつＶ≧２６ならば肌色画素と判定するものとしてＨ，Ｓ，Ｖの閾値を設定する。撮影画像の各画素について判定を行い、肌色画素は１（白）に変換し、そうでなければ肌色以外画素として０（黒）に変換する。
肌色か否かの判定に用いる閾値は、操作者の肌の色に応じて補正できるようにしてもよい。補正は、肌色キャリブレーション用のモードで、カメラ１５ｃを用いて操作者の手の部分を撮影し、その撮影画像に基づいて補正値を決定してもよい。
また、操作者の指先に代えて、例えば特定のペンを用いて位置を指し示す場合は、肌色キャリブレーション用のモードで操作者がそのペンを持った画像をカメラ１５ｃで撮影し、その撮影画像に基づいてペンの先が抽出されるようにしてもよい。その場合は、実施形態に記載の「指先」を「ペン先」に読み替えた処理の流れになる。

図９は、上述の判定に基づいて２値化された撮影画像の一例を示す説明図である。図９に示されるように手の部分２３が肌色領域として抽出されている。
さらに、コンピュータ１３は２値化によって得られた肌色画素領域のうち、ノイズや手でない部分を除去する（ステップＳ４５）。例えば、次に述べる処理を行う。２値化された画像に対して、着目画素を中心とした７×７画素の合計値が所定値以上なら１（白）、所定値未満なら０（黒）に変換する。その後さらに画像を白黒反転し、着目画素を中心とした７×７画素の合計値が所定値以上なら１（白）、所定値未満なら０（黒）に変換する。そして、再度白黒反転する。

この一連の処理によって、ノイズや手以外の小さい肌色画素が肌色以外画素に補正される。逆に、ノイズや光の当たり具合で肌色領域に囲まれている肌色以外画素が肌色画素に補正される。勿論７×７画素は一例に過ぎないし、上述の処理を行わない態様も、あるいは一部のみ行う態様もあり得る。
さらに、ラベリング処理を行う。ラベリング処理し、所定画素数より小さい肌色領域の画素は０に変換する。これにより、手に相当する部分を含む所定画素以上の肌色領域のみが１、それ以外の部分が０となる。
それ以外に、指の太さや形状などを予め指形状として登録しておき、抽出された肌色領域のうち登録された指形状に類似しないものを除外してもよい。

そして、コンピュータ１３は得られた肌色画素領域から手の指先位置を抽出する（ステップＳ４７）。この実施形態で、指先位置の抽出は、以下のように行う。
撮影画像上の表示域１１ｄ内で、画像の上側から順に肌色画素（１）か否かを調べていき、最初の肌色画素を手の指先位置とする。
図１０は、上述の処理の結果抽出された指先位置を示す説明図である。肌色領域の最も上の画素が指先位置２３Ｔとして抽出されている。あるいは、色画素の中で最も明るい画素を指先位置としてもよい。指の爪の一部は、手全体の中でも最も明るい画素が存在することが多いからである。

≪撮影画像上の指先位置に対応する表示域上の位置を決定する処理≫
上述のようにして撮影画像上の指先位置（図７に示すＰ（ｘ，ｙ））が求められたら、コンピュータ１３は、撮影画像上の指先位置に、射影変換行列Ｈを適用して、表示域１１ｄ上の対応する位置（図７にＱ（ｕ，ｖ）で示す）に変換する。
図７に示すように、Ｑ（ｕ，ｖ）の座標値は、撮影画像上の指先位置の座標値（ｘ，ｙ）を用いて以下の式で求められる。
コンピュータ１３は、このようにして算出されたＱ（ｕ，ｖ）の表示域面上の座標値が表示域１１ｄの内部にあれば、算出された位置にポインタを表示させる。

≪位置ずれの補正≫
上述の処理で抽出される指先位置は、人がカーソルを合わせたい位置とは数画素のずれが生じることがありうる。さらに、操作者の視点とカメラ１５ｃの視点とに若干のずれがある。よって、操作者がディスプレイ１１を指し示した位置と、撮影画像を用いて求められる表示域上の対応位置とに若干のずれがある。その場合、より適切な指先位置の座標を導き出すために、抽出された指先位置の座標に対して予め定められた補正値を加算してもよい。

補正値は、操作者が数値を直接入力してもよいが、例えば次のようにして補正値を決定できる。
位置ずれ補正用のキャリブレーションモードで、操作者がディスプレイ１１の所定の位置、例えば画像中心を指し示し、それをカメラ１５ｃで撮影する。このとき、操作者が指し示すべき位置を表示域１１ｄに表示させるとよい。
撮影画像に図３のステップＳ１７〜Ｓ２７と同様の処理を行って、操作者が指し示した位置に対応するポインタ位置を求める。
求めたポインタ位置と、操作者が指し示すべき位置（例えば画像中心）との位置ずれの量を補正値として格納する。

（実施の形態２）
実施の形態１では、ウェアラブル端末１５のカメラ１５ｃで撮影された画像からディスプレイの四頂点を決定する処理について述べた。そして、四頂点の歪を補正する射影変換行列Ｈを求める処理について述べた。さらに、撮影画像上の指先位置を抽出する処理について述べた。そして、射影変換行列Ｈを適用して指先位置に対応する表示域１１ｄ上の位置を求める処理について述べた。それらの処理の概要は、図３のフローチャートに示されている。

しかし、表示域を規定する四辺を検出できず、従って四頂点の座標値の一部または全部が求まらない場合がある。また、指先位置が検出できない場合がある。
この実施形態は、そのような場合を含んだ処理の流れを述べる。
操作者がディスプレイ１１を横目で見る場合や、表示域１１ｄに表示される内容（色）がディスプレイ枠１１ｆ（の色）に近い場合、表示域を規定する四辺（４本の線分）の一部または全部が検出できない。
例えば、表示域を規定する４本の線分がまったく検出できない場合、あるいは、４本の線分のうち１本しか検出できない場合、コンピュータ１３は、操作者の視線がカメラ１５ｃの撮影画像外に向いていると想定し、指先位置の検出を行わず、表示域のポインタの移動を行わないようにする。

また、表示域を規定すると判断される４本の線分のうち２本あるいは３本の線分が検出された場合、カメラ１５ｃはディスプレイ１１の方向を向いているが、ディスプレイ１１に表示されている内容がディスプレイ枠１１ｆの色に似ているために表示域１１ｄの境界を示す線分が検出できなかったものと判断する。その場合、コンピュータ１３は、カメラ１５ｃからの映像データのうち前のフレームに対応する撮影画像とディスプレイ１１の位置が変わっていないと想定する。その想定に基づいて、前のフレームの撮影画像で算出された射影変換行列を用いて処理を続けるようにしてもよい。

また、操作者が指先をディスプレイ１１の方に向けなかった場合、撮影画像から指先位置を検出できないことがある。コンピュータ１３はその場合、前のフレームの撮影画像に基づいて表示域１１ｄ上の位置が算出されその位置に表示されているポインタの移動を行わないように表示を制御する。
あるいはその場合、コンピュータ１３は前のフレームの撮影画像に基づいて表示域１１ｄ上の位置が算出されて表示されているポインタを消すように表示を制御してもよい。

図１１および図１２は、この実施形態に係るフローチャートである。図１１は、実施の形態１における図３に対応し、図１２は、実施の形態１における図４に対応する。
図１１で、図３と同様の処理については図３と同様の符号を付している。図３と異なる部分を中心に図１１に示す処理の流れを述べる。

図１１で、コンピュータ１３は、ウェアラブル端末１５から送信された映像データの１フレームに対応する撮影画像を受信し（ステップＳ１１）、ノイズを除去して（ステップＳ１７）、表示域を規定する四頂点を算出するために四辺を抽出する処理を行う（ステップＳ１９）。
その結果、四辺をすべて抽出できたか否かを調べる（ステップＳ５３）。四辺をすべて抽出できた場合（ステップＳ５３のＹｅｓ）、コンピュータ１３は図３と同様に先の処理へ進み、射影変換行列の算出（ステップＳ２１）、指先位置の抽出（ステップＳ２３）の処理を行う。

一方、四辺の一部のみしか抽出できなかった場合、もしくは全く抽出できなかった場合（ステップＳ５３のＮｏ）、続いてコンピュータ１３は四辺のうち二辺または三辺を抽出できたか否かを調べる（ステップＳ５５）。
二辺または三辺を抽出できたと判断した場合（ステップＳ５５のＹｅｓ）、撮影画像にディスプレイ１１が映っており、何れかの辺が検出できなかっただけであると想定する。そして、カメラ１５ｃからの映像データのうち前のフレームの撮影画像とディスプレイ１１の位置が変わっていないと想定し、前のフレーム画像で採用した射影変換行列Ｈを今回のフレームについても採用する。即ち、前のフレームと同じ歪の状態であるとして前のフレームと同じ射影変換行列Ｈを適用する（ステップＳ５７）。その後、ルーチンはステップＳ２３へ進み、指先位置の抽出処理を行う。

一方、前記ステップＳ５５で、一辺しか抽出できなかった場合や全く線分を抽出できなかった場合、ルーチンはステップＳ５９へ進んでコンピュータ１３は、表示域に表示されているポインタの位置を移動させないようにする（ステップＳ５９）。ポインタが表示されていない場合は、表示されていない状態を継続する。そして、ルーチンはステップＳ２９へ進む。

上述のステップＳ２３の処理に続く流れを説明する。
ステップＳ２３でコンピュータ１３は、撮影画像における指先位置を抽出する。その処理の結果、指先位置が抽出できたか否かを調べる（ステップＳ６１）。指先位置が抽出できた場合（ステップＳ６１のＹｅｓ）は、図３と同様に射影変換行列Ｈを適用して対応する表示域上の位置を算出し（ステップＳ２５）、表示されているポインタの位置を算出された位置に更新する（ステップＳ２７）。なお、表示域１１ｄにポインタが表示されていない場合は、算出された位置にポインタを表示する。
そして、次のフレーム画像があるか否かを調べて（ステップＳ２９）、次のフレーム画像があれば（ステップＳ２９のＮｏ）先頭のステップＳ１１へ戻り、次のフレーム画像がなければ（ステップＳ２９のＹｅｓ）処理を終了する。

前述のステップＳ６１で、指先位置が抽出できない場合（ステップＳ６１のＮｏ）、ルーチンはステップＳ５９へ進み、表示域に表示されているポインタの位置を移動させないようにする（ステップＳ５９）。ポインタが表示されていない場合は、表示されていない状態を継続する。そして、ルーチンはステップＳ２９へ進み、終了判定を行う。

図１２は、図１１に示すステップＳ１９の処理の詳細を示すフローチャートである。図１２で、図４と同様の処理については図４と同様の符号を付している。図４と異なる部分を中心に図１１に示す処理の流れを述べる。
コンピュータ１３は、ＲＧＢの各色成分からなる撮影画像をグレー画像に変換し（ステップＳ３１）、エッジ検出処理を行い（ステップＳ３３）、線分を検出する（ステップＳ３５）。検出された線分のうちから表示域を規定する４本の線分を抽出する処理を行う（ステップＳ３７）。即ち、略水平または略鉛直方向に伸びて予め定めた長さよりも長く、かつ、撮影画像の画像中心に対して上下左右のそれぞれの方向にあって画像中心に近い線分を四辺として決定する。

そして、上述の条件に適合する線分が上下左右のそれぞれの方向について抽出できたか否かを調べる（ステップＳ７１）。
条件に適合する合計４本の線分が抽出できた場合は（ステップＳ７１のＹｅｓ）、図４と同様に、四頂点のそれぞれについて隣り合う二辺の交点の座標値を算出して、各頂点の位置を決定する（ステップＳ３９）。
一方、条件に適合する線分が抽出できなかった場合は（ステップＳ７１のＮｏ）、交点の座標値を算出せずに処理を終了する。

この実施形態によれば、コンピュータ１３が指先位置を抽出できなかった場合、ポインタがそれまで表示されている位置で静止するか、あるいはポインタの表示が消える。
従って、操作者が表示域１１ｄを指差すのをやめて手をおろすと、ポインタがそれまで表示されている位置で静止するか、あるいはポインタの表示が消える。操作者が再び表示域１１ｄの何れかの位置を指し示すと、ポインタが静止して表示されている位置から指し示された位置へ移動する。あるいは、消えていたポインタが指し示された位置に表示される。
また、ディスプレイ１１の方向を向いていた操作者が別の方向を向いて撮影画像にディスプレイ１１が映らなくなった場合も、ポインタがそれまで表示されていた位置で静止するか、あるいはポインタの表示が消える。操作者が再びディスプレイ１１の方向を向き、表示域１１ｄ何れかの位置を指し示すと、ポインタが静止して表示されている位置から指し示された位置へ移動する。あるいは、消えていたポインタが指し示された位置に表示される。

（実施の形態３）
実施の形態１、２では、ウェアラブル端末１５を装着した操作者が一人の場合を想定して処理の流れを述べた。しかし、複数の操作者がそれぞれウェアラブル端末１５を装着して共通のディスプレイ１１を用いて会議を行い、ディスプレイ１１に表示される資料の特定の位置を各操作者がポインタを用いて示す態様が考えられる。各操作者がレーザーポインタを持つ代わりに、ウェアラブル端末を装着してより安全にポインタを操作する態様である。
この実施形態では、上述の会議のように、ウェアラブル端末１５をそれぞれ装着した複数の操作者がいる場合について述べる。
コンピュータ１３は、各操作者のウェアラブル端末１５について実施の形態１や２で述べた処理をそれぞれ実行し、各操作者に対応する個別のポインタの表示を制御するようにしてもよい。

その場合、コンピュータ１３は、各操作者が装着したウェアラブル端末に対応して複数のポインタを一つの表示域１１ｄに表示させる。複数のポインタのうちどのポインタがその操作者（ウェアラブル端末）に対応するものかを識別できるように、それぞれのポインタを他のポインタと識別可能な態様で表示してもよい。
例えば、操作者Ａに対応するポインタは赤色、操作者Ｂに対するポインタは緑色、操作者Ｃに対するポインタは青色といったように、各ポインタが色で識別できるように表示させてもよい。
あるいは、各ポインタに対して個別の形状を割り当て、各ポインタが形状で識別できるように表示させてもよい。例えば、丸型、四角形、星型といったようなバリエーションの形状である。

それと異なり、複数の操作者が唯一つのポインタを操作する態様も考えられる。
その場合は、何れかの操作者が表示域１１ｄを指し示すと、ポインタがその位置へ移動する。複数の操作者が同時に表示域１１ｄを指し示した場合は、先に操作をした者が優先し、その操作者が手を下ろして撮影画像から手の部分が消えると、後のものが指し示している位置へポインタが移動するようにしてもよい。

複数の操作者がいる場合の一例として、会議で複数の操作者に対応する複数のポインタを表示する態様について述べたが、ポインタの機能は表示位置を示す機能に限定されるものでない。この点は、実施の形態１、２についても同様である。
通常のコンピュータの画面に表示されるマウスポインタのように、クリック、ドラッグ開始／ドラッグ終了などの操作と関連付けて表示されたオブジェクトに対する操作が可能であってもよい。

マウスの場合は、マウスのボタンやダイヤルを操作することでクリック、ドラッグ、その他の操作とポインタを関連付けることができる。ウェアラブル端末を用いたポインタ操作の場合は、手の部分の動作（静止状態を含む）や指の形状、指先の方向などでクリック、ドラッグ、その他の操作に対応するジェスチャーを予め定めておけばよい。
あるいは、この実施形態に係るポインタ操作は、通常のタッチディスプレイに対するタッチ操作に対応させてもよい。タップ、ドラッグ開始／ドラッグ終了などの操作に対応する手の部分の動作や指の形状、指先の方向などを予めジェスチャーとして定めておけば、タッチ操作と同様の操作が可能である。

あるいはまた、電子ペンを用いた操作に対応させてもよい。電子ペンの操作に対応するジェスチャーを予め定めておけば、電子ペンの代わりにディスプレイ１１に描画することが可能になる。例えば、ディスプレイ１１に表示されたプレゼンテーション資料に簡易な追記を重畳することが可能になる。

以上に述べたように、
（i）この発明による画面表示制御方法は、操作者の頭部に装着され画像を撮影するウェアラブル端末を用いて、矩形状の枠および表示域を有するディスプレイと共にそのディスプレイを前記操作者が指し示す手の部分を撮影し、コンピュータを用いて、前記ウェアラブル端末の撮影画像における前記矩形枠の頂点の位置および前記手の部分で指し示された位置を抽出し、抽出された頂点の位置および指し示された位置の位置関係に基づいて前記手の部分に対応する前記表示域内の位置があるか否かを決定し、前記位置があればその位置にポインタを表示させることを特徴とする。

この明細書において、頭部は、操作者が首を振ると方向が変わる部位であって、操作者の首よりも上の部分である。
また、ウェアラブル端末は、頭部の何れかの位置に装着できるものである。その具体的な態様として、例えば、耳に掛けることで装着されるものや、いわゆるスマートグラスのような眼鏡型の端末などが挙げられるがそれらに限定されるものでない。この明細書において、ウェアラブル端末は画像を撮影するイメージセンサを有する。
さらにまた、ディスプレイは、矩形の画面、即ち表示域を有する表示装置である。その具体的な態様としては、例えば、液晶や有機ＥＬを用いた表示装置が挙げられるがそれらに限定されるものでない。

矩形は、対向する２辺が平行で隣り合う２辺が直角な四角形であって、正方形を含む。
また、表示域は、ディスプレイのうち表示可能な領域である。一般に周囲をフレームで囲まれた領域である。
さらにまた、手の部分は、少なくとも操作者の一つの指を含む部分であって、典型的には手首から先の部分である。

ディスプレイと共に撮影するとは、ディスプレイの全部または一部を背景に、操作者の手の部分を画像としてとらえることである。
また、コンピュータは、ＣＰＵあるいはＭＰＵを中心に構成されプログラムを実行可能なハードウェアである。その具体的な態様は限定されず、例えば、機器に組み込まれるものであってもよく、携帯型、可搬型あるいは据え置き型の情報処理機器であってもよい。
さらにまた、撮影画像は、ウェアラブル端末が有するイメージセンサによって取り込まれた画像である。

表示域の頂点の位置とは、矩形の表示域の４つの頂点の位置である。
また、ポインタは、ディスプレイの表示域内に表示されて特定の位置あるいは表示域内に表示された特定の対象を指すものである。その具体的な態様としては、例えば、一般的なパーソナルコンピュータの画面に表示されてマウスやタッチパッドの操作対象や操作位置を示すものに該当するが、それに限定されるものでない。

さらに、この発明の好ましい態様について説明する。
（ii）前記コンピュータを用いて、前記撮影画像に映った前記操作者のジェスチャーを認識し、認識されたジェスチャーに応じた操作を前記ポインタの位置に対してさらに行ってもよい。
このようにすれば、ディスプレイと離れた位置にいる操作者がジェスチャーを行うことによって、一般的なコンピュータへのマウス操作やタッチパッド操作あるいはスマートフォンへのタッチ操作と同様に、ポインタの位置に対する操作が可能になる。

（iii）前記頂点の位置は、前記撮影画像に映った前記ディスプレイの表示域を示す四辺を検出し、各辺あるいは各辺を延長した直線の交点の位置から求めてもよい。
このようにすれば、撮影画像に表示域を示す四辺の一部しか映っていない場合であっても表示域の頂点の位置を正確に求めることができる。

（iv）前記指し示された位置は、前記撮影画像における肌色領域の画素の内で最上部に位置する画素の位置であってもよい。
このようにすれば、撮影画像データに映っている肌色領域の最上部の画素が指先の位置であると想定して指し示された位置を検出することができる。

（v）あるいは、前記指し示された位置は、前記撮影画像における肌色領域の画素の内で最も明るい画素の位置であってもよい。
通常は指先の爪の部分が手の部分のうちで最も明るい色をしているので、このようにすれば、撮影画像に映っている指の爪の位置に相当する画素が指先の位置であると想定して指し示された位置を検出することができる。

（vi）前記表示域における肌色領域は、各画素が肌色に属するか否かの判定に基づいて抽出し、肌色に属するか否かの判定に用いる閾値は、前記表示域に表示された内容に含まれる色成分の構成に応じて変更してもよい。
このようにすれば、表示された部分を操作者の手の部分と誤検出するのを防ぐことができる。例えば、前記撮影画像に映った前記表示域の表示内容に肌色に近い色が多く含まれる場合は肌色に属すると判定する範囲が狭くなるように、肌色に近い色があまり含まれない場合は肌色の属すると判定する範囲が広くなるように判定に係る閾値を変更すればよい。

（vii）前記表示域における肌色領域は、各画素が肌色に属するか否かの判定に基づいて抽出し、隣り合う画素が肌色に属する領域のうちで最も大きい領域を前記肌色領域としてもよい。
このようにすれば、前記表示域内において複数の肌色領域が抽出されたとしても、最も大きい領域が手の部分であると想定することで誤検出を防ぐことができる。

（viii）前記指し示された位置に対応して決定された位置が前記表示域の外にある場合、表示されているポインタを移動させないかまたは表示されているポインタを消去してもよい。
このようにすれば、手の部分で指し示された位置に対応して決定されたポインタの位置が表示域外の場合は、その場合の手の部分が前記表示域内の位置を指し示すものでないと判断することで不要なポインタの移動あるいは表示を防ぐことができる。

（ix）前記指し示された位置に対応するポインタの位置は、前記頂点の位置が矩形になるように前記撮影画像における前記頂点の位置および指し示された位置に射影変換を適用し、前記表示域に指先が投影される位置として決定してもよい。
このようにすれば、操作者がディスプレイに正対する位置になくても操作者が意図した位置にポインタを表示させることができる。

（x）前記コンピュータは、複数の操作者の頭部にそれぞれ装着された複数のウェアラブル端末から、前記ディスプレイと共にそれぞれの操作者の手の部分が撮影された撮影画像を取得し、各ウェアラブル端末からの撮影画像における前記ディスプレイの矩形枠の頂点の位置および各操作者の手の部分で指し示された位置をそれぞれ抽出し、抽出された頂点の位置および指し示された位置の位置関係に基づいて各操作者の前記手の部分に対応する前記表示域内の位置があるか否かを決定し、前記位置があればその位置に前記ポインタを表示させることにより、一つのポインタを各操作者が操作可能にしてもよい。
このようにすれば、例えば会議で複数の参加者が個別にウェアラブル端末を装着することで、参加者間でウェアラブル端末を交換しなくてもポインタを操作できる。

（xi）前記コンピュータは、複数の操作者の頭部にそれぞれ装着された複数のウェアラブル端末から、前記ディスプレイと共にそれぞれの操作者の手の部分が撮影された撮影画像を取得し、各ウェアラブル端末からの撮影画像における前記ディスプレイの矩形枠の頂点の位置および各操作者の手の部分で指し示された位置をそれぞれ抽出し、抽出された頂点の位置および指し示された位置の位置関係に基づいて各操作者の前記手の部分に対応する前記表示域内の位置があるか否かを決定し、前記位置があればその位置に各操作者に対応するポインタを、各操作者との対応を識別可能に表示させてもよい。
このようにすれば、例えば会議で複数の参加者が個別にウェアラブル端末を装着することで、各参加者に対応したポインタを操作できる。

（xii）また、この発明による画面表示制御プログラムは、操作者の頭部に装着されるウェアラブル端末から、矩形状の枠および表示域を有するディスプレイと共にそのディスプレイを前記操作者が指し示す手の部分が撮影された画像を取得する処理と、前記ウェアラブル端末の撮影画像における前記矩形枠の頂点の位置および前記手の部分で指示された位置を抽出する処理と、抽出された頂点の位置および指し示された位置の位置関係に基づいて前記手の部分に対応する前記表示域内の位置があるか否かを決定する処理と、前記位置があればその位置にポインタを表示させる処理と、をコンピュータに実行させることを特徴とする。
この発明によれば、ディスプレイから離れた場所にいる操作者がその場所でポインタを操作できる。さらに、操作者の視点と操作者の頭部に装着されたウェアラブル端末による撮影の視点との間にずれがあっても、操作者が指し示した位置に対応してディスプレイに表示すべきポインタの位置を、少ない計算量で操作者にとって違和感がないように決定できる。

（xiii）前記撮影画像に映った前記操作者のジェスチャーを認識する処理と、認識されたジェスチャーに応じた操作を前記ポインタの位置に対して行う処理と、をさらに実行させてもよい。
このようにすれば、ディスプレイと離れた位置にいる操作者がジェスチャーを行うことによって、一般的なコンピュータへのマウス操作やタッチパッド操作あるいはスマートフォンへのタッチ操作と同様に、ポインタの位置に対する操作が可能になる。

（xiv）また、この発明による画面表示制御システムは、矩形状の枠および表示域を有するディスプレイと、操作者の頭部に装着されかつ前記ディスプレイと共にそのディスプレイを前記操作者が指し示す手の部分を撮影するウェアラブル端末と、前記ウェアラブル端末の撮影画像における前記矩形枠の頂点の位置および前記手の部分で指し示された位置を抽出し、抽出された頂点の位置および指し示された位置の位置関係に基づいて前記手の部分に対応する前記表示域内の位置があるか否かを決定するポインタ処理部と、前記位置があればその位置にポインタを表示させる表示処理回路と、を備えることを特徴とする。
この発明によれば、ディスプレイから離れた場所にいる操作者がその場所でポインタを操作できる。さらに、操作者の視点と操作者の頭部に装着されたウェアラブル端末による撮影の視点との間にずれがあっても、操作者が指し示した位置に対応してディスプレイに表示すべきポインタの位置を、少ない計算量で操作者にとって違和感がないように決定できる。

（xv）前記撮影画像に映った前記操作者のジェスチャーを認識するジェスチャー認識部と、認識されたジェスチャーに応じた操作を前記ポインタの位置に対して行う表示処理部をさらに備えてもよい。
このようにすれば、ディスプレイと離れた位置にいる操作者がジェスチャーを行うことによって、一般的なコンピュータへのマウス操作やタッチパッド操作あるいはスマートフォンへのタッチ操作と同様に、ポインタの位置に対する操作が可能になる。

この発明の好ましい態様には、上述した複数の好ましい態様の何れかを組み合わせたものも含まれる。
前述した実施の形態の他にも、この発明について種々の変形例があり得る。それらの変形例は、この発明の範囲に属さないと解されるべきものではない。この発明には、請求の範囲と均等の意味および前記範囲内でのすべての変形とが含まれるべきである。

１１：ディスプレイ、１１ｄ：表示域、１１ｆ：ディスプレイ枠、１１Ｂ：表示域下辺、１１Ｌ：表示域左辺、１１Ｒ：表示域右辺、１１Ｔ：表示域上辺、１３：コンピュータ、１５：ウェアラブル端末、１５ｃ：カメラ、１７：キーボード、１９：マウス、２１：操作者頭部、２３：手の部分２３Ｔ：指先位置

Claims

操作者の頭部に装着され画像を撮影するウェアラブル端末を用いて、矩形状の枠および表示域を有するディスプレイと共にそのディスプレイを前記操作者が指し示す手の部分を撮影し、
コンピュータを用いて、前記ウェアラブル端末の撮影画像における前記矩形枠の頂点の位置および前記手の部分で指し示された位置を抽出し、
抽出された頂点の位置および指し示された位置の位置関係に基づいて前記手の部分に対応する前記表示域内の位置があるか否かを決定し、
前記位置があればその位置にポインタを表示させる、
画面表示制御方法。
前記コンピュータを用いて、前記撮影画像に映った前記操作者のジェスチャーを認識し、
認識されたジェスチャーに応じた操作を前記ポインタの位置に対してさらに行う請求項１に記載の画面表示制御方法。
前記頂点の位置は、前記撮影画像に映った前記ディスプレイの表示域を示す四辺を検出し、各辺あるいは各辺を延長した直線の交点の位置から求める請求項１または２に記載の画面表示制御方法。
前記指し示された位置は、前記撮影画像における肌色領域の画素の内で最上部に位置する画素の位置とする請求項１または２に記載の画面表示制御方法。
前記指し示された位置は、前記撮影画像における肌色領域の画素の内で最も明るい画素の位置とする請求項１または２に記載の画像処理装置。
前記表示域における肌色領域は、各画素が肌色に属するか否かの判定に基づいて抽出し、肌色に属するか否かの判定に用いる閾値は、前記表示域に表示された内容に含まれる色成分の構成に応じて変更する請求項４または５に記載の画面表示制御方法。
前記表示域における肌色領域は、各画素が肌色に属するか否かの判定に基づいて抽出し、隣り合う画素が肌色に属する領域のうちで最も大きい領域を前記肌色領域とする請求項４または５に記載の画面表示制御方法。
前記指し示された位置に対応して決定された位置が前記表示域の外にある場合、表示されているポインタを移動させないかまたは表示されているポインタを消去する請求項１または２に記載の画面表示制御方法。
前記指し示された位置に対応するポインタの位置は、前記頂点の位置が矩形になるように前記撮影画像における前記頂点の位置および指し示された位置に射影変換を適用し、前記表示域に指先が投影される位置として決定する請求項１または２に記載の画面表示制御方法。
前記コンピュータは、複数の操作者の頭部にそれぞれ装着された複数のウェアラブル端末から、前記ディスプレイと共にそれぞれの操作者の手の部分が撮影された撮影画像を取得し、
各ウェアラブル端末からの撮影画像における前記ディスプレイの矩形枠の頂点の位置および各操作者の手の部分で指し示された位置をそれぞれ抽出し、
抽出された頂点の位置および指し示された位置の位置関係に基づいて各操作者の前記手の部分に対応する前記表示域内の位置があるか否かを決定し、
前記位置があればその位置に前記ポインタを表示させることにより、一つのポインタを各操作者が操作可能にする請求項１または２に記載の画面表示制御方法。
前記コンピュータは、複数の操作者の頭部にそれぞれ装着された複数のウェアラブル端末から、前記ディスプレイと共にそれぞれの操作者の手の部分が撮影された撮影画像を取得し、
各ウェアラブル端末からの撮影画像における前記ディスプレイの矩形枠の頂点の位置および各操作者の手の部分で指し示された位置をそれぞれ抽出し、
抽出された頂点の位置および指し示された位置の位置関係に基づいて各操作者の前記手の部分に対応する前記表示域内の位置があるか否かを決定し、
前記位置があればその位置に各操作者に対応するポインタを、各操作者との対応を識別可能に表示させる請求項１または２に記載の画面表示制御方法。
操作者の頭部に装着されるウェアラブル端末から、矩形状の枠および表示域を有するディスプレイと共にそのディスプレイを前記操作者が指し示す手の部分が撮影された画像を取得する処理と、
前記ウェアラブル端末の撮影画像における前記矩形枠の頂点の位置および前記手の部分で指示された位置を抽出する処理と、
抽出された頂点の位置および指し示された位置の位置関係に基づいて前記手の部分に対応する前記表示域内の位置があるか否かを決定する処理と、
前記位置があればその位置にポインタを表示させる処理と、をコンピュータに実行させる画面表示制御プログラム。
前記撮影画像に映った前記操作者のジェスチャーを認識する処理と、
認識されたジェスチャーに応じた操作を前記ポインタの位置に対して行う処理と、をさらに実行させる請求項１２に記載の画面表示制御プログラム。
矩形状の枠および表示域を有するディスプレイと、
操作者の頭部に装着されかつ前記ディスプレイと共にそのディスプレイを前記操作者が指し示す手の部分を撮影するウェアラブル端末と、
前記ウェアラブル端末の撮影画像における前記矩形枠の頂点の位置および前記手の部分で指し示された位置を抽出し、抽出された頂点の位置および指し示された位置の位置関係に基づいて前記手の部分に対応する前記表示域内の位置があるか否かを決定するポインタ処理部と、
前記位置があればその位置にポインタを表示させる表示処理回路と、
を備える画面表示制御システム。
前記撮影画像に映った前記操作者のジェスチャーを認識するジェスチャー認識部と、
認識されたジェスチャーに応じた操作を前記ポインタの位置に対して行う表示処理部をさらに備える請求項１４に記載の画面表示制御システム。