JP2018185563A

JP2018185563A - 情報処理装置、情報処理方法、コンピュータプログラム、及び記憶媒体

Info

Publication number: JP2018185563A
Application number: JP2017085263A
Authority: JP
Inventors: 勇樹釜森; Yuki Kamamori
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-04-24
Filing date: 2017-04-24
Publication date: 2018-11-22

Abstract

【課題】ＵＩ操作を正確に認識する情報処理装置を提供する。【解決手段】情報処理装置１００は、距離画像センサ１０４から距離画像を取得する。情報処理装置１００は、距離画像から背景に対して前景となる前景画素を抽出する前景抽出部２１１と、距離画像から背景ではない非背景画素を抽出する非背景抽出部２１２と、隣り合う非背景画素の集まりである非背景領域に内包される、前景画素の集まりである前景領域を、同一の物体を表す物体領域とする対応付け部２１５と、物体領域に含まれる所定の画素の位置により、物体の動きを認識する認識部２１７と、を備える。【選択図】図２

Description

本発明は、ジェスチャ操作を用いたユーザインタフェースに関する。

机や壁等を対象面として投影された画像へのタッチ操作や、机上に載置された物体へのタッチ操作等のジェスチャ操作を用いたユーザインタフェース（以下、「ＵＩ」という。）が実現されている。このようなＵＩでは、ＴＯＦ（Time Of Flight）方式の距離画像センサ等により撮像された距離画像が用いられる。距離画像は、撮影した範囲内の距離画像センサからの距離を表す距離情報を含む。距離画像に基づいて、距離画像センサと対象面との間に存在する手やスタイラス等の操作体が検出される。検出された操作体の動きによりＵＩ操作が認識される。具体的には、距離画像から対象面よりも距離の近い前景領域として抽出される操作体の座標と、該座標の距離情報とから、操作体の３次元空間内の位置が導出され、その位置や軌跡に基づいて操作が認識される。

ＴＯＦ方式の距離画像センサは、センサから発したレーザ光が撮影範囲内の撮像対象物に反射されて戻ってくるまでの時間差（位相差）により距離計測を行う。距離画像センサによって撮像された距離画像には、有効な距離情報を含まない画素（以下、「欠損画素」という。）が含まれることがある。欠損画素は、距離画像センサから照射されたレーザ光が物体の影になって届かない対象、黒色の物体、鏡面反射性が強く反射光を十分に受光できない面、或いは動きの速い物体の表面等により生じやすい。欠損画素が生じる場合、本来、一体にまとまった領域として抽出される操作体を表す前景領域が、欠損画素からなる領域（以下、「欠損領域」という。）により複数の領域に分断されることがある。一つの操作体を表す前景領域が複数に分断されて抽出されるために、操作体の検出や操作の認識が困難になる。これに対して特許文献１は、画像において、領域の重心と重心から最遠点とを結ぶ直線の距離及び傾き角度に基づいて、別領域と組であるか否かを判定する技術を開示する。

特開平８−２０２８７８号公報

ＵＩ操作時には複数の操作体が近傍に存在することがある。複数の操作体は、それぞれ別の前景領域として抽出される必要がある。また、一つの操作体であっても、欠損領域により分断された前景領域が、大きく離れた位置で抽出されることもある。特許文献１の技術は、このような複雑な状況において正確に操作体を表す前景領域を抽出することが困難である。この場合、正確なＵＩ操作の認識が困難になる。

本発明は、上記課題に鑑みてなされたものであり、欠損領域を含む距離画像からＵＩ操作を正確に認識する情報処理装置を提供することを主たる目的とする。

本発明の情報処理装置は、物体を含む空間の画像であり各画素までの距離情報を含む距離画像を取得する取得手段と、取得した前記距離画像から背景に対して前景となる前景画素を抽出する第１抽出手段と、取得した前記距離画像から前記背景ではない非背景画素を抽出する第２抽出手段と、隣り合う前記非背景画素の集まりに内包される前記前景画素の集まりを、同一の前記物体を表す物体領域として導出する導出手段と、を備えることを特徴とする。

本発明によれば、物体領域を非背景画素の集まりに内包される前景画素の集まりにより導出することで、欠損領域を含む距離画像からＵＩ操作を正確に認識することが可能となる。

テーブルトップＩＦシステムの外観図。（ａ）、（ｂ）は情報処理装置の説明図。タッチ操作時の認識処理を表すフローチャート。手領域の導出処理の説明図。タッチ操作時の認識処理を表すフローチャート。手領域の導出処理の説明図。情報処理装置の説明図。タッチ操作時の認識処理を表すフローチャート。手領域の導出処理の説明図。

以下、実施の形態を図面を参照しつつ詳細に説明する。

机や壁等の所定の物体上の面を対象面にして投影されたＵＩ部品を含む画像に対して、指等の操作体をタッチ及びリリースすることにより、ＵＩ操作が行われる。「タッチ」とは、ＵＩ部品の表示領域に操作体を接触又は近接させることにより、当該ＵＩ部品に対するタッチ操作（ＵＩ操作）を開始する動作である。「リリース」とは、タッチ後のＵＩ部品から接触又は近接させた操作体を離すことにより、当該ＵＩ部品に対するタッチ操作を終了する動作である。操作体のタッチによるＵＩ操作を採用する情報処理装置は、タッチからリリースに至る間の操作体の位置、動き、速度等に基づいて「タップ」、「ムーブ」、「フリック」等の様々なタッチ操作を認識する。例えば、操作体が対象面にタッチした後、対象面に沿った方向にはほぼ動かずにすぐリリースされるという一連の操作は、「タップ操作」と呼ばれ、例えばタッチした対象（ＵＩ部品）を選択するための操作である。本実施形態では、タップ操作をＵＩ部品の選択のための入力操作として認識し、認識する度に操作者に対してフィードバックを行う情報処理装置を例に説明する。

情報処理装置は、距離画像センサにより撮像する距離画像を用いて操作体を検出する。情報処理装置は、操作体の先端と対象面との距離が、所定の距離より大きい状態から小さい状態に遷移することを「タッチ」、所定の距離よりも小さい状態から大きい状態に遷移することを「リリース」として検出する。距離画像は、各画素の値に、距離画像センサのレンズ中心のような基準位置から当該画素として撮像された被撮像面までの、画像の奥行き方向に沿った距離に対応する距離情報を含む。距離画像センサには、例えばＴＯＦ方式のものが用いられる。

情報処理装置は、距離画像から、対象面より距離の近い画素の集まりである前景領域を導出し、前景領域から操作体の物体領域を抽出する。距離画像に欠損領域が生じる場合、情報処理装置は、欠損領域により複数に分断された前景領域から操作体の領域を正確に抽出する。この場合、情報処理装置は、前景画素と欠損画素とを合わせて抽出してラベリングした領域（以下、「非背景領域」という。）と、前景画素のみを抽出してラベリングした前景領域と、をそれぞれ導出する。情報処理装置は、１つの非背景領域に含まれる１以上の前景領域に共通のラベルを付与することで、該１以上の前景領域を操作体の物体領域として抽出する。「ラベリング」とは隣接する被抽出画素同士を同一の物体に相当すると対応付けて、共通の識別情報であるラベルを付与する処理である。

本実施形態では、テーブルトップインタフェース（以下、「ＩＦ」という。）システムによる処理について説明する。操作者は、対象面となるテーブルに投影表示されたＵＩ部品を含む画像を操作者が指先によるタッチ操作によって選択する。情報処理装置は、操作者が選択したＵＩ部品を特定し、該ＵＩ部品に応じて、投影表示される画像の内容を変更する。なお、選択されたＵＩ部品に処理が関連付けられる場合、情報処理装置は、該処理を実行する。操作者が行うタッチ操作はタップ操作である。タップ操作は、テーブルトップＩＦシステムに含まれる距離画像センサで撮像される距離画像によって認識される。本実施形態では、操作体として操作者の手、指先を例に説明するが、操作体は、この他に、スタイラスやロボットアーム等であってもよい。対象面は、テーブル上の面の他に、直立したスクリーンやホワイトボード等であってもよい。

（テーブルトップＩＦシステムの外観）
図１は、テーブルトップＩＦシステムの外観図である。図１には、テーブルトップＩＦシステムの３次元空間内の位置情報を定義するための世界座標系（ｘ軸、ｙ軸、ｚ軸）も示される。テーブルトップＩＦシステムは、テーブル上の対象面１０１に対して操作者が操作体である手１０２、１０３の指先で行うタップ操作に応じたＵＩ操作を検出する。テーブルトップＩＦシステムは、情報処理装置１００、距離画像センサ１０４、及びプロジェクタ１０５を備える。

距離画像センサ１０４は、対象面１０１の上方に、対象面１０１を見下ろすように、対象面１０１の全面を撮像範囲に含むように配置される。距離画像センサ１０４が撮像する距離画像は、奥行き方向が対象面１０１に交差する。すなわち距離画像の奥行き方向が対象面１０１からの距離に関連する。この距離を表す距離情報がタップ操作の認識に利用される。本実施形態の距離画像センサ１０４は、ＴＯＦ方式であるが、距離画像を得られるセンサであれば、必ずしもＴＯＦ方式である必要はない。例えば、パターン光投影方式の赤外光センサやステレオカメラが距離画像センサ１０４として使用可能である。

情報処理装置１００は、距離画像センサ１０４及びプロジェクタ１０５に接続される。情報処理装置１００は、距離画像センサ１０４の動作を制御して、距離画像センサ１０４から距離画像を取得する。情報処理装置１００は、プロジェクタ１０５の動作を制御して、プロジェクタ１０５により対象面１０１にＵＩ部品等を含む表示画像１０６を表示させる。情報処理装置１００は、距離画像センサ１０４から取得した距離画像に基づいて、対象面１０１よりも前景となる領域を抽出することにより、対象面１０１上の空間に存在する操作者の手１０２、１０３を検出する。さらに情報処理装置１００は、手１０２、１０３に相当する領域を解析することにより、距離画像中の指先に相当する座標及び距離を取得し、それらに基づいて世界座標系における指先の位置を導出する。

プロジェクタ１０５は、対象面１０１を斜め上方から見下ろすように配置され、情報処理装置１００の制御により対象面１０１に表示画像１０６の投影表示を行う。表示画像１０６は、例えばＧＵＩ(Graphical User Interface)を表現するＵＩ画像であり、ＵＩ部品である１以上のアイテム１０７を含む。操作者は、投影された表示画像１０６に含まれるアイテム１０７に対してタップ操作を行う。プロジェクタ１０５は、タップ操作に対する視覚的フィードバックとして、情報処理装置１００の制御により、内容が変更された表示画像１０６や色が変更されたアイテム１０７を投影することが可能である。

なお、距離画像センサ１０４は、対象面１０１を上方からみた距離画像が得られる位置であれば、必ずしも対象面１０１の上方に配置される必要はない。例えば、対象面１０１の上方に設置されたミラーを下方から撮像する位置に距離画像センサ１０４を配置した場合であっても、対象面１０１を上方から見た画角の距離画像が得られる。プロジェクタ１０５も同様に、図１とは異なる方向に向けて投影された投影光を、ミラー等を利用して対象面１０１に反射させて投影表示してもよい。

（情報処理装置の構成）
図２は、情報処理装置１００の説明図である。図２（ａ）は、情報処理装置１００を含むテーブルトップＩＦシステムのハードウェア構成図である。図２（ｂ）は、情報処理装置１００の機能ブロック図である。

情報処理装置１００は、ＣＰＵ（Central Processing Unit）２００、ＲＯＭ（Read Only Memory）２０１、ＲＡＭ（Random Access Memory）２０２、及びストレージ２０３を備える。ＣＰＵ２００、ＲＯＭ、２０１、ＲＡＭ２０２、及びストレージ２０３は、システムバス２０４に接続され、相互にデータの送受信が可能である。システムバス２０４には、例えば不図示の入出力用のインタフェースを介して距離画像センサ１０４及びプロジェクタ１０５も接続される。

ＣＰＵ２００は、ＲＯＭ２０１或いはストレージ２０３からコンピュータプログラムを読み出し、ＲＡＭ２０２を作業領域に用いて実行することで、テーブルトップＩＦシステムの動作を制御する。ＣＰＵ２００が実行する処理には、後述する距離画像の補正処理やタッチ操作の認識処理が含まれる。ストレージ２０３は、ハードディスクドライブや各種インタフェースによって接続された外部記憶装置等であり、テーブルトップＩＦシステムの動作を制御するためのコンピュータプログラムや各種データを格納する。

ＣＰＵ２００は、システムバス２０４を介して距離画像センサ１０４及びプロジェクタ１０５の動作を制御する。距離画像センサ１０４は、ＣＰＵ２００の制御により、対象面１０１及び操作者の手１０２、１０３等の物体を含む空間の距離画像を撮像し、撮像した距離画像をＣＰＵ２００に送信する。プロジェクタ１０５は、ＣＰＵ２００の制御により、対象面１０１に、操作対象となるアイテム１０７を含む表示画像１０６を投影表示する。

本実施形態では、距離画像センサ１０４及びプロジェクタ１０５は、それぞれ情報処理装置１００に接続される外部装置であり、情報処理装置１００と協働して動作する。ただし、距離画像センサ１０４及びプロジェクタ１０５は、情報処理装置１００に一体化されていてもよい。

情報処理装置１００は、ＣＰＵ２００がコンピュータプログラムを実行することで、図２（ｂ）に示す各機能を実現する。情報処理装置１００は、取得部２１０、前景抽出部２１１、非背景抽出部２１２、ラベリング部２１３、検索部２１４、対応付け部２１５、位置導出部２１６、認識部２１７、及び表示制御部２１８として機能する。なお、各機能は、プログラムを実行してソフトウェアにより実現される他に、少なくとも一部をハードウェアとして実現されてもよい。

取得部２１０は、距離画像センサ１０４によって撮像された距離画像を所定時間間隔で取得し、ＲＡＭ２０２に随時格納する。取得される距離画像は、リアルタイム映像の各フレーム画像に相当する。なお取得部２１０が取得し、各機能部とやり取りする対象は、実際には画像データに対応する信号であるが、本明細書では単に距離画像のやり取りとして説明する。

前景抽出部２１１は、距離画像の各画素に画素値として含まれる距離情報に基づいて、距離画像から前景画素を抽出する。前景画素とは、背景となる対象面１０１よりも距離画像センサ１０４に近い面が撮像された画素である。具体的には、前景抽出部２１１は、有効な距離情報を持つ画素の内、距離画像センサ１０４から背景（対象面１０１）までの所定距離よりも、距離情報が表す距離が小さい画素を前景画素として抽出する。

非背景抽出部２１２は、距離画像の各画素に画素値として含まれる距離情報に基づいて、距離画像から非背景画素を抽出する。非背景画素とは、前景画素及び欠損画素である。具体的には、非背景抽出部２１２は、有効な距離情報を持たない欠損画素及び前景抽出部２１１と同様の処理により抽出される前景画素を合わせて、非背景画素として抽出する。

ラベリング部２１３は、抽出された前景画素及び非背景画素のそれぞれについて、隣接し合う画素同士を同一の物体を表す領域とみなして対応付けし、対応付けた画素群毎に固有の識別情報であるラベルを付与する。この結果、前景画素の集合となる前景領域及び非背景画素の集合となる非背景領域が導出される。

検索部２１４は、ラベリング部２１３で導出された各前景領域について、該前景領域を内包する位置にある非背景領域を検索する。

対応付け部２１５は、検索部２１４による検索結果に応じて、非背景領域のラベルを、内包する位置にある前景領域のラベルとして再付与する。これにより、共通の非背景領域に内包される１以上の前景領域に共通のラベルが付与され、該１以上の前景領域が同一の物体領域として対応付けられる。

位置導出部２１６は、同一の物体領域として対応付けられた前景領域を１つの手領域とみなし、手領域の内、所定の条件を満たす位置の画像座標を入力位置として導出する。本実施形態では、操作者の手１０２、１０３の指先部分を特定するため、位置導出部２１６は、距離画像の端部と手領域との交点からの距離が最長となる手領域中の画素の位置を、手領域のうち最も指先らしい位置として検出して入力位置とする。位置導出部２１６は、入力位置の画像座標、及び、入力位置に相当する画素又は画素群が保持する距離情報に応じた距離値を座標系変換し、入力位置の世界座標を導出する。
本実施形態では、距離画像センサ１０４のレンズ特性及び世界座標系との並進、回転移動パラメータを用いることにより、位置導出部２１６は、距離画像中の座標と距離値とで定義される入力位置を世界座標に変換する。なお、操作に利用される操作体が手１０２、１０３ではなく、例えばスタイラス等の場合も同様に、位置導出部２１６は、操作体の物体領域の端部等の所定の一部を入力位置として検出し、その位置を世界座標に変換する。

入力位置の世界座標における軌跡に基づいて、指先による対象面１０１へのタップ操作を認識する。本実施形態では、少なくとも指先と対象面１０１との距離が所定距離以下に近づいてから離れるまでの間の経過時間と、対象面１０１に水平な方向への移動量とがそれぞれ所定値以下であることでタップ操作を認識する。

表示制御部２１８は、ＲＯＭ２０１やストレージ２０３に格納された情報を用いて対象面１０１に投影表示する表示画像１０６を生成し、プロジェクタ１０５に投影表示させる。所定の位置（例えば、アイテム１０７の表示領域内）においてタップ操作が認識された場合、表示制御部２１８は、タップ操作に応じて表示画像１０６の内容を変更し、プロジェクタ１０５に投影表示させる。

（タッチ操作の認識処理）
図３は、タッチ操作時の認識処理を表すフローチャートである。図４は、この処理による手領域の導出処理の説明図である。ここでは、情報処理装置１００がプロジェクタ１０５より対象面１０１に投影表示された表示画像１０６内のアイテム１０７が操作者のタップ操作によって選択されたことを検出して、タップ操作に応じて表示画像１０６の内容を変更する処理を説明する。この処理は、距離画像センサ１０４によって撮像された距離画像が情報処理装置１００に入力されたことに応じて開始される。情報処理装置１００は、距離画像センサ１０４から距離画像を取得するたびに繰り返しこの処理を実行する。従ってこの処理が繰り返される周期は、距離画像センサ１０４の撮像画像のフレームレートに一致する。

取得部２１０は、距離画像センサ１０４から、表示画像１０６が投影された対象面１０１の少なくとも一部を含む空間を撮像した距離画像を取得する（Ｓ３００）。操作者によるタッチ操作が行われる状況では、距離画像は、図４に示すように、距離画像４００に対象面１０１と距離画像センサ１０４との間に存在する操作者の手１０２、手１０３の画像を含む。距離画像４００には、手１０２、１０３の内側や周辺に有効な距離情報を持たない欠損領域４０１（図中で黒く塗りつぶされた領域）が含まれる。

前景抽出部２１１は、取得部２１０によって取得された距離画像の各画素の距離情報に基づいて、距離画像から前景画素を抽出する（Ｓ３０１）。前景抽出部２１１は、対象面１０１に相当する背景画像の距離と距離画像に含まれる距離情報に応じた距離との差分を画素毎に算出し、差分が閾値以上となる画素を前景画素として抽出する。これは、対象面１０１よりも距離画像センサ１０４に近い側にある領域の画素を抽出することに相当する。前景抽出部２１１は、距離画像の距離誤差より大きく、操作者の手や指の厚みより小さい値を閾値に用いることで、手１０２、１０３に相当する領域をノイズと欠けの少ない前景画素として抽出することが可能である。情報処理装置１００は、例えば手等の操作体が対象面１０１と距離画像センサ１０４との間に存在しない時点で取得した距離画像を背景画像として予めＲＡＭ２０２やストレージ２０３に保管し、適宜読み出して利用する。

ラベリング部２１３は、前景抽出部２１１によって抽出された１以上の前景画素をラベリングして、前景領域を導出する（Ｓ３０２）。ラベリング部２１３は、隣接し合う前景画素の集まりを同一の物体画像の画素に相当するとみなして対応付けし、対応付けた画素群毎に固有の識別情報であるラベルを付与する。ラベリング部２１３は、同一ラベルを付与した前景画素群を一つの前景領域として導出する。図４の集合４０２は、隣り合う前景画素同士を連結した各連結領域に［ａ］〜［ｆ］のラベルが付与された複数の前景領域を示す。この例では、本来単一の連結領域となる前景領域群［ａ］、［ｂ］、［ｄ］、［ｆ］及び前景領域群［ｃ］、［ｅ］が、欠損領域４０１によって複数に分断される。なお、ラベリング部２１３は、導出した前景領域について、その大きさや画素数等の前景領域の特徴に基づいて手の一部であるか否かを判定し、手の一部では無い領域をノイズ領域として該前景領域から除去する処理を行ってもよい。

非背景抽出部２１２は、取得部２１０によって取得された距離画像の各画素の距離情報に基づいて、距離画像から非背景画素を抽出する（Ｓ３０３）。非背景抽出部２１２は、前景画素及び有効な距離情報を持たない欠損画素を合わせて、非背景画素として抽出する。

ラベリング部２１３は、非背景抽出部２１２によって抽出された１以上の非背景画素をラベリングすることで、非背景領域を導出する（Ｓ３０４）。ラベリング部２１３は、Ｓ３０２の処理と同様に、隣接し合う非背景画素の集まりを同一の物体画像の画素に相当するとみなして対応付けし、対応付けた画素群毎に固有の識別情報であるラベルを付与する。ラベリング部２１３は、同一ラベルを付与した非背景画素群を一つの非背景領域として導出する。図４の集合４０３は、隣り合う非背景画素同士を連結した各連結領域に［１］、［２］のラベルを付与された複数の非背景領域を示す。この例では、本来操作者の手１０２、１０３に相当しない欠損領域４０１も非背景領域の一部に含まれる。なお、ラベリング部２１３は、導出した非背景領域について、その大きさや画素数等の非背景領域の特徴に基づいて手であるか否かを判定し、手の一部では無い領域をノイズ領域として該非背景領域から除去する処理を行ってもよい。非背景画素を領域として連結させるときは、厳密に画素同士が隣り合っていなくても、画素間距離が所定値以内であり１つにまとめられる領域と見做されるぐらい画素間距離が近ければ連結させて連結領域とする。

検索部２１４は、ラベリング部２１３によって導出された各前景領域がどの非背景領域に内包されるかを検索する（Ｓ３０５）。前景領域が非背景領域の部分集合であり、非背景領域が隣接画素でラベリングされていることから、前景領域を内包する非背景領域は一意に定まる。図４の例では、前景領域群［ａ］、［ｂ］、［ｄ］、［ｆ］が非背景領域［１］に内包され、前景領域群［ｃ］、［ｅ］が非背景領域［２］に内包される。

対応付け部２１５は、前景領域に、該前景領域が内包される非背景領域のラベルを再付与することで、共通の非背景領域に含まれる前景領域群を同一の物体領域として対応付ける（Ｓ３０６）。図４の集合４０４は、同一の物体領域として対応付けられた前景領域を示す。この例では、操作者の手１０２に相当する前景領域群［ａ］、［ｂ］、［ｄ］、［ｆ］がラベル［１］の物体領域として対応付けられ、手１０３に相当する前景領域群［ｃ］、［ｅ］がラベル［２］の物体領域として対応付けられる。検索部２１４及び対応付け部２１５によるＳ３０５、Ｓ０６の処理は、ラベリング部２１３によって導出されたすべての前景領域に対して行われる。これにより、欠損領域により複数に分断された元は一つであった前景領域が、同一の物体領域として導出される。

位置導出部２１６は、対応付け部２１５によって同一の物体領域として対応付けられた前景領域を手領域とみなし、手領域内の所定の条件を満たす位置の画像座標を指先に相当する入力位置として導出する（Ｓ３０７）。位置導出部２１６は、操作者の手１０２、１０３の指先部分を特定するために、距離画像の端部と手領域との交点からの距離が最長となる手領域中の画素の位置を手領域のうち最も指先らしい位置として検出し、この位置の座標を入力位置の画像座標として導出する。位置導出部２１６は、画像座標として導出された入力位置、及び、入力位置に相当する画素又は画素群が保持する距離情報が表す距離値を座標系変換し、世界座標における入力位置を導出する。位置導出部２１６は、導出した入力位置の世界座標を、所定のフレーム分だけＲＡＭ２０２に蓄積する。図４の集合４０４におけるラベル［２］の領域のように、距離画像の端部と手領域の交点が得られない場合、これに相当する非背景領域との交点を代用して入力位置を導出してもよい。

認識部２１７は、ＲＡＭ２０２に蓄積された入力位置の世界座標に基づいて入力位置の軌跡を導出し、この軌跡に基づいて、情報処理装置１００に入力されたタッチ操作を認識する（Ｓ３０８）。これにより認識部２１７は、少なくとも入力位置と対象面１０１の間の距離の変化に基づいて、操作者の指先による対象面１０１へのタッチ操作（本実施形態ではタップ操作）を認識する。タップ操作は、指先と対象面との距離が所定距離以下に近づいてから離れるまでの間の経過時間と対象面に水平な方向への移動量とがそれぞれ所定値以下であることに基づき認識される。

認識部２１７は、タップ操作を所定領域、例えば表示画像１０６のアイテム１０７が表示される領域において認識したか否かを判定する（Ｓ３０９）。所定領域内でタップ操作が認識された場合（Ｓ３０９：Y）、表示制御部２１８は、タップ操作が所定領域内で認識されたことに応じて、ＵＩ画像である表示画像１０６の内容を変更する（Ｓ３１０）。例えば表示制御部２１８は、表示画像１０６に含まれる画像の色を変更する。表示制御部２１８は、プロジェクタ１０５により対象面１０１へ表示画像１０６を投影表示する（Ｓ３１１）。タップ操作が所定領域内で認識された場合には、例えば画像の色が変更された表示画像１０６が投影表示される。タップ操作が所定領域内で認識されていない場合には（Ｓ３０９：N）、表示制御部２１８は、表示画像１０６の内容を変更せずに、そのままプロジェクタ１０５により投影表示する。

タップ操作はタッチ操作の一例であり、情報処理装置１００は、事前の設定に応じて多種のジェスチャ操作（タッチ操作）を認識することができる。タップ操作を含む多くのジェスチャ操作は、単一の距離画像ではなく複数の連続した距離画像において蓄積された入力位置の軌跡、或いは手領域の状態の遷移に基づいて認識される。

以上説明したように、本実施形態の情報処理装置１００は、距離画像中の欠損領域によって複数に分断された前景領域を、非背景領域に基づいて同一の物体領域として対応付けて導出する。これにより情報処理装置１００は、距離画像中の操作体の画像が複数に分断される場合であっても、操作体によるタッチ操作を正確に認識することが可能となる。

（変形例１）
Ｓ３０５、Ｓ３０６の処理では、すべての前景領域についていずれの非背景領域に内包されるかを検索し、該前景領域へラベルを再付与することで、同一の物体領域としての対応付けが行われる。これは、抽出された前景画素及び導出された前景領域のすべてが、導出対象である操作体、すなわち手１０２、１０３の一部に相当することを前提とした処理である。しかしながら、距離画像センサ１０４の設置環境や対象面１０１の表面の特性等により、欠損領域４０１の内側（特に本来の手１０２、１０３の外側）に、距離計測の誤差に伴う小ノイズ成分が誤って抽出されることがある。このとき、誤抽出された小ノイズ成分が、本来の前景領域群とともに同一の物体領域、すなわち手領域として誤って対応付けられることになる。これは、Ｓ３０７の入力位置の導出処理の妨げとなり得る。

そのために情報処理装置１００は、前景領域群のうち小ノイズ成分ではないと推測される領域のみを同一の物体領域として対応付けることで、物体領域から小ノイズ成分を除去する。具体的には、情報処理装置１００は、共通の非背景領域に内包される前景領域群の内、サイズの大きな前景領域から順に同一の物体領域として対応付ける。情報処理装置１００は、対応付けられた前景領域のサイズの累積値が、前景領域群のサイズの総和に対して所定の割合を超えた時点で対応付けを停止する。これは、「小ノイズが距離画像中の手領域（小ノイズを除く前景領域群）のサイズに比例して増えること」、及び「各小ノイズのサイズが各前景領域のサイズよりも小さいこと」という小ノイズに関する２つの特徴に基づく処理である。このようにして、前景領域群に混入した小ノイズ成分が誤って対応付けられることを抑制することが可能になる。

以下に情報処理装置１００の処理の具体例を説明する。図５は、前景領域群に小ノイズ成分が含まれる場合のタッチ操作時の認識処理を表すフローチャートである。図３のフローチャートの処理と同じ処理には同じステップ番号が付してある。同じ処理の説明は省略する。図６は、この処理による手領域の導出処理の説明図である。

Ｓ３０１〜Ｓ３０４の処理により導出された前景領域及び非背景領域により、検索部２１４は、各非背景領域に内包される前景領域を検索する（Ｓ５００）。図６の例では、非背景領域［１］に前景領域［ａ］、［ｂ］、［ｄ］、［ｆ］、［ｇ］、［ｈ］が内包され、非背景領域［２］に前景領域［ｃ］、［ｅ］が内包される。前景領域［ｇ］、［ｈ］は、距離画像４００の欠損領域４０１の内側に生じた、小ノイズ成分６００に相当する領域である。

対応付け部２１５は、検索部２１４によって検索されたラベルが再付与されていない前景領域群の内、サイズが最大である前景領域に当該非背景領域のラベルを再付与し、共通の非背景領域に含まれる領域として対応付ける（Ｓ５０１）。対応付け部２１５は、ラベルが再付与された前景領域のサイズの累積値が、前景領域群のサイズの総和に対して所定の割合に達したか否かを判定する（Ｓ５０２）。所定の割合に達した場合（Ｓ５０２：Y）、Ｓ３０７以降の処理が実行される。所定の割合に達していない場合（Ｓ５０２：N）、対応付け部２１５は、Ｓ５０１の処理に戻り、ラベルが再付与されていない前景領域の内、サイズが最大である前景領域に当該非背景領域のラベルを再付与する。対応付け部２１５は、Ｓ５００〜Ｓ５０２の処理をラベリング部２１３によって導出されたすべての非背景領域に対して行う。

なお、前景領域のサイズの累積値の比較対象となる閾値は、例えば、距離画像内に生じる小ノイズ成分の数やサイズの傾向から実験的に決定される。図６の例では、手１０２に相当する前景領域は、サイズが大きい前景領域から［ｄ］、［ｆ］、［ｂ］、［ａ］の順に非背景領域［１］に対応付けられる。前景領域［ａ］が対応付けられた時点で、前景領域群のサイズの総和に対する、対応付けられた前景領域のサイズの累積値の割合が閾値を上回る。そのために前景領域［ａ］よりサイズが小さい前景領域［ｇ］、［ｈ］は、非背景領域［１］に対応付けられない未対応付け領域６０１となる。手１０３に相当する前景領域は、サイズが大きい前景領域から［ｃ］、［ｅ］の順に非背景領域［２］に対応付けられる。非背景領域［２］に内包されるすべての前景領域が対応付けられた時点で、前景領域群のサイズの総和に対する、対応付けられた前景領域のサイズの累積値の割合が閾値を上回る。そのために手１０３の場合は、すべての前景領域［ｃ］、［ｅ］が漏れなく非背景領域［２］対応付けされる。

なお、対応付け部２１５は、前景領域のサイズの他に、前景領域の形状、動き、履歴情報等の他の特徴をパラメータとして、小ノイズ成分が除去されるように前景領域の対応付けを行ってもよい。対応付け部２１５は、パラメータが所定の条件を満たした時点で前景領域の対応付けを終了する。

このように情報処理装置１００は、距離画像中の欠損領域によって複数に分断された前景領域を、前景領域のサイズと非背景領域とに基づいて、同一の物体領域として対応付けて導出する。これにより情報処理装置１００は、小ノイズ成分が含まれる距離画像において、操作体（操作者の手領域）が欠損領域で複数に分断される場合であっても、タッチ操作を正確に認識することが可能となる。

（変形例２）
距離画像から前景領域を抽出せずに操作体の物体領域を導出する例について説明する。ここでは、非背景領域から前景領域が抽出される。図７は、この場合の情報処理装置１１０の説明図である。情報処理装置１１０の機能ブロックは、図２（ｂ）の情報処理装置１００の機能ブロックから、前景抽出部２１１がラベリング部２１３と位置導出部２１６との間に移動し、検索部２１４及び対応付け部２１５を除いた構成である。

図８は、タッチ操作時の認識処理を表すフローチャートである。図３のフローチャートの処理と同じ処理には同じステップ番号が付してある。同じ処理の説明は省略する。図９は、この処理による手領域の導出処理の説明図である。

非背景抽出部２１２は、取得部２１０により取得した距離画像に基づいて、非背景画素を抽出する（Ｓ３００、Ｓ３０３）。ラベリング部２１３は、非背景抽出部２１２によって抽出された非背景画素をラベリングして、非背景領域を導出する（Ｓ３０４）。

前景抽出部２１１は、ラベリング部２１３によって導出された非背景領域の各画素の距離情報に基づいて、非背景領域から前景画素のみを抽出し、前景領域を導出する（Ｓ８００）。ここで、前景画素の抽出によって非背景領域が複数に分断される場合であっても、ラベリング部２１３によって付与されてたラベルは変更されない。そのために、同一の物体領域であることの対応関係は維持される。前景領域の導出後に情報処理装置１１０は、Ｓ３０７以降の処理を行うことでタッチ操作を認識する。

図９の例では、集合４０３に示される非背景領域［１］、［２］から、前景領域を構成する前景画素のみが抽出されることで、対応付けられた前景領域［１］、［２］を表す集合４０４が導出される。前景画素の抽出の前後において既に付与されているラベルを変更しないために、導出された前景領域にも非背景領域と同様に手１０２、１０３に相当するラベルが付与される。

以上説明したように、情報処理装置１１０は、距離画像中で欠損領域によって複数に分断された前景領域を、非背景領域に基づいて同一の物体領域として対応付けて導出することができる。これにより、距離画像中の操作者の手領域のような操作体の領域が複数に分断される場合であっても、タッチ操作を正確に認識することが可能となる。

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読み出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

Claims

物体を含む空間の画像であり各画素までの距離情報を含む距離画像を取得する取得手段と、
取得した前記距離画像から背景に対して前景となる前景画素を抽出する第１抽出手段と、
取得した前記距離画像から前記背景ではない非背景画素を抽出する第２抽出手段と、
隣り合う前記非背景画素の集まりに内包される前記前景画素の集まりを、同一の前記物体を表す物体領域として導出する導出手段と、を備えることを特徴とする、
情報処理装置。
前記第２抽出手段は、前記距離画像から、前記前景画素及び有効な前記距離情報を持たない画素を前記非背景画素として抽出することを特徴とする、
請求項１記載の情報処理装置。
前記物体の無い前記空間の距離画像を背景画像として予め保管する保管手段をさらに備えており、
前記第１抽出手段は、前記背景画像の画素毎の前記距離情報と、前記取得手段で取得した前記距離画像の画素毎の前記距離情報との差分に基づいて、前記前景画素を抽出することを特徴とする、
請求項１又は２記載の情報処理装置。
隣接し合う前記前景画素の集まりに同一の識別情報を付与することで前景領域を導出するとともに、隣接し合う前記非背景画素の集まりに同一の識別情報を付与することで非背景領域を導出するラベリング手段をさらに備えており、
前記導出手段は、１つの前記非背景領域に含まれる１以上の前記前景領域に、該非背景領域に付与された前記識別情報を再付与し、同じ識別情報が再付与された１以上の前記前景領域を同一の前記物体を表す前記物体領域として導出することを特徴とする、
請求項１〜３のいずれか１項記載の情報処理装置。
前記ラベリング手段は、前記前景領域の特徴に基づいて、該前景領域が操作体の一部であるか否かを判定し、一部では無い領域を該前景領域から除去することを特徴とする、
請求項４記載の情報処理装置。
前記ラベリング手段は、前記非背景領域の特徴に基づいて、該非背景領域が操作体の一部であるか否かを判定し、一部では無い領域を該非背景領域から除去することを特徴とする、
請求項４又は５記載の情報処理装置。
前記導出手段は、１つの前記非背景領域に内包される１以上の前記前景領域の特徴をパラメータとして、１以上の前記前景領域に、該パラメータの順に該非背景領域に付与された識別情報を再付与し、識別情報が再付与された前景領域のパラメータが所定の条件を満たした時点で、同じ識別情報が再付与された当該前景領域を同一の前記物体を表す前記物体領域として導出することを特徴とする、
請求項４〜６のいずれか１項記載の情報処理装置。
前記導出手段は、前記前景領域のサイズを前記パラメータとして、１以上の前記前景領域に、サイズが大きい順に該非背景領域に付与された識別情報を再付与し、識別情報が再付与された前景領域のサイズの累積値が、１つの前記非背景領域に含まれる１以上の前記前景領域のサイズの総和に対して所定の割合を超えた時点で、同じ識別情報が再付与された当該前景領域を同一の前記物体を表す前記物体領域として導出することを特徴とする、
請求項７記載の情報処理装置。
前記第１抽出手段は、隣り合う前記非背景画素の集まりから前記物体領域となる前記前景画素を抽出することを特徴とする、
請求項１又は２記載の情報処理装置。
前記第１抽出手段は、隣り合う前記非背景画素の集まりから、該非背景画素の前記距離情報に基づいて前記前景画素を抽出することを特徴とする、
請求項９記載の情報処理装置。
前記物体領域に含まれる所定の画素の位置により、前記物体の動きを認識する認識手段をさらに備えることを特徴とする、
請求項１〜１０のいずれか１項記載の情報処理装置。
前記認識手段は、前記距離画像の端部と前記物体領域との交点からの距離が最長となる該物体領域の画素の位置により、前記物体の動きを認識することを特徴とする、
請求項１１記載の情報処理装置。
前記認識手段は、前記距離画像の端部と前記物体領域を含む非背景領域との交点からの距離が最長となる該物体領域の画素の位置により、前記物体の動きを認識することを特徴とする、
請求項１１又は１２記載の情報処理装置。
前記認識手段は、前記物体領域に含まれる所定の画素の位置及び該画素の距離情報に基づいて導出される世界座標の位置により、前記物体の動きを認識することを特徴とする、
請求項１１〜１３のいずれか１項記載の情報処理装置。
前記物体の動きに応じて、所定の表示手段により表示される画像を変更する表示制御手段をさらに備えることを特徴とする、
請求項１〜１４のいずれか１項記載の情報処理装置。
物体を含む空間の画像であり各画素までの距離情報を含む距離画像を撮像する撮像手段から、前記距離画像を取得する情報処理装置により実行される方法であって、
取得した前記距離画像から背景に対して前景となる前景画素及び前記背景ではない非背景画素を抽出し、
隣り合う前記非背景画素の集まりに内包される前記前景画素の集まりを、同一の前記物体を表す物体領域として導出することを特徴とする、
情報処理方法
コンピュータを、
物体を含む空間の画像であり各画素までの距離情報を含む距離画像を取得する取得手段、
取得した前記距離画像から背景に対して前景となる前景画素を抽出する第１抽出手段、
取得した前記距離画像から前記背景ではない非背景画素を抽出する第２抽出手段、
隣り合う前記非背景画素の集まりに内包される前記前景画素の集まりを、同一の前記物体を表す物体領域として導出する導出手段、
として機能させるためのコンピュータプログラム。
請求項１７記載のコンピュータプログラムを記憶する、コンピュータにより読み取り可能な記憶媒体。