JP2015184986A

JP2015184986A - 複合現実感共有装置

Info

Publication number: JP2015184986A
Application number: JP2014061735A
Authority: JP
Inventors: 弘樹今村; Hiroki Imamura
Original assignee: Soka University
Current assignee: Soka University
Priority date: 2014-03-25
Filing date: 2014-03-25
Publication date: 2015-10-22

Abstract

【課題】会議に参加している複数のユーザ（メンバー）が同一の空間を共有し、どのメンバーも、直観的に、かつ、３次元的にＣＧを操作することができ、かつ、お互いの操作を共有し理解しあえる、遠隔会議システムを提供する。
【解決手段】サーバ装置と複数のクライエント装置から構成され、クライエント装置は、ユーザが装着する、加速度センサおよびディスプレイ装置を有するヘッドセットと、赤外線センサと撮像手段と収音手段とを有する３次元形状取得センサと、を有する。サーバ装置は、クライエント装置から送信された深度信号を用いてユーザの動作解析を行い、動作解析に基づくＣＧを生成し、実物体データを表示し、拡張現実空間を合成し、合成した拡張現実空間の情報をクライエント装置に送信する。クライエント装置は、サーバ装置から受信した拡張現実空間情報に基づいて、ヘッドセットのディスプレイ装置に画像を表示し、スピーカに音声信号を出力する。
【選択図】図２

Description

本発明は、テレビジョン（ＴＶ）会議技術に関する。
より特定的には、本発明は、仮想現実（ＶＲ：Virtual Reality ）または、拡張現実（ＡＲ：Argumented Reality）、または、複合現実（ＭＲ）などを利用し、コンピュータグラフィック（ＣＧ）を適用し、遠隔にいる複数のユーザ（クライエントまたは作業者）が、あたかも同一の空間で共有し、直観的に、かつ、３次元的に操作可能とする技術に関する。

遠隔にいる複数のユーザ同士が会議を行う遠隔ＴＶ会議装置（システム）としては、たとえば、パーソナルコンピュータ（ＰＣ）に市販のウッブ（Ｗｅｂ）カメラ、ヘッドセットを接続して使用するＷｅｂ会議システムが知られている。
しかしながら、このようなシステムは、複数のユーザが、あたかも同一の空間で共有し、直観的に、かつ、３次元的に操作可能とすることができない。

また、複合現実遠隔操作支援システムが知られている（特許文献１、２）。
複合現実遠隔操作支援システムおいては、作業者がヘッドセット（ＨＭＤ）を装着し、作業者の視点から見える複合現実空間、すなわち、現実物体と仮想物体、スタライサ、ポインタが写っており、これらの映像を遠隔地にいる指示者に伝送し、指示者が伝送された映像を観察しながら作業者の空間をシームレスに知覚して、３次元的な作業を可能とする。

特開２００６−２９３６０４号公報特開２００６−２９３６０５号公報

上述した複合現実遠隔操作支援システムは、指導者しかＣＧを操作できない。また、ＣＧの操作はスタイラスペンで行うのでＣＧの回転操作などの操作が難しい。

本発明は、遠隔会議の効率を向上させることにある。
より特定的には、会議に参加している複数のユーザ（メンバー）が同一の空間を共有し、どのメンバーも、直観的に、かつ、３次元的にＣＧを操作することができ、かつ、お互いの操作を共有し理解しあえる、遠隔会議システムを提供し、遠隔会議の効率を向上させることにある。

さらに、本発明は、３次元形状取得手段、たとえば、ｋｉｎｅｔｉｃセンサのような汎用的で低価格のセンサと、ヘッドセット（ＨＭＤ）とを組み合わせことにより、低価格な遠隔会議システムを提供することにある。

本発明によれば、通信網が接続された、サーバ装置と、異なる場所に配置された複数のクライエント装置とを有し、
各クライエント装置は、その場所にいるユーザが装着する、加速度センサおよびディスプレイ装置を有するヘッドセットと、赤外線センサと、撮像手段と、収音手段とを有する３次元形状取得センサと、を有し、
前記各クライエント装置は、前記加速度センサの検出信号、前記赤外線センサの検出信号、前記撮像手段で撮像した撮像画像データおよび深度情報、前記収音手段で収音した信号を、前記通信網を介して前記サーバ装置に送信し、
前記サーバ装置は、（１））前記各クライエント装置から送信された前記深度信号を用いてユーザの動作解析を行い、（２）前記動作解析に基づくＣＧを生成し、（３）実物体データを表示し、（４）拡張現実空間を合成し、（５）前記合成した拡張現実空間の情報を、各クライエント装置に送信し、
前記各クライエント装置は、前記サーバ装置から受信した拡張現実空間情報に基づいて、ヘッドセットのディスプレイ装置に画像（映像）を表示し、前記スピーカに音声信号を出力する、
複合現実感共有装置が提供される。

本発明によれば、遠隔会議の効率を向上させることにある。より特定的には、本発明によれば、会議に参加している複数のユーザ（メンバー）が同一の空間を共有し、どのメンバーも、直観的に、かつ、３次元的にＣＧを操作することができ、かつ、お互いの操作を共有し理解しあえる、遠隔会議システムを提供することにより、遠隔会議の効率を向上させることができる。

また本発明によれば、３次元形状取得センサ、たとえば、ｋｉｎｅｔｉｃセンサ（ウキペディア参照）のような汎用的で低価格のセンサと、ヘッドセット（ＨＭＤ）とを組み合わせことにより、低価格な遠隔会議システムを提供することができる。

本発明の複合現実感共有装置の実施の形態の構成図である。図１に図解した構成の一部を拡大して図解した図である。クライエントＰＣの構成図である。サーバＰＣの構成図である。図５（Ａ）、（Ｂ）にヘッドセット（ＨＭＤ）の１例を示す。１実施の形態として、図１に図解したユーザの形状情報と、テクスチャと、ＣＧと、物体の実形状を表示する場合の処理の流れを示したフローチャートである。図１に図解した複合現実感共有装置の処理動作を示した図である。サーバＰＣの処理の流れを示すフローチャートである。スクリーン４の４隅に４個のランドマーク（基準マーク）を配置する例を示す図である。スクリーンの４隅に投影されたランドマークをＫｉｎｅｔｅｃｔセンサで撮像して、４隅の座標位置を検出する方法を示す図である。Ｋｉｎｅｔｅｃｔセンサから出力される深度情報の初期値の例を示す図である。スクリーンの投射面に手を置いた時に、それを撮像したＫｉｎｅｔｅｃｔセンサの手の深度情報の例を示す図である。図１３（Ａ）〜（Ｃ）は手移動抽出範囲を認識することを示す図である。プロジェクタからスクリーンに投影（投射）する画像領域を抽出することを示す図である。スクリーンにおける手の中心の座標を取得する方法を示す図である。スクリーンにおける腕の中心の座標を取得する方法を示す図である。スクリーンに腕が入る状況での手の中心位置の座標を示す図である。手の垂直成分を示す図である。図８に図解したステップ２４の分岐処理を詳細に図解したフローチャートである。両手の認識を行う方法を示す図である。手がグーパー（グー、または、パー）のいずれかであることを認識することを示す図である。手の３次元座標系から３次元画像（対象物）の３次元座標系への座標変換を示す図である。手の指の角度を検出することを示す図である。手の平面を推定する方法を示す図である。両手の中心座標を示す図である。

本発明の実施の形態の複合現実感共有装置について述べる。

複合現実感共有装置の構成
図１に図解した本発明の、ＡＲ、ＶＲ、ＭＲを利用した、１実施の形態の複合現実感共有装置１は、サーバＰＣ１０と、通信網２０と、この通信網２０を介してサーバＰＣ１０に接続された複数の遠隔地である空間、たとえば、空間Ａ、空間Ｂ、空間Ｃにそれぞれ配置されたクライエント装置３０、４０、５０とを有する。
通信網２０は、遠隔の空間Ａ、空間Ｂ、空間Ｃの相互、および、これら空間Ａ、空間Ｂ、空間Ｃと、サーバＰＣ１０とを通信可能とする遠隔通信手段、たとえば、インターネットを用いることが望ましい。

図２は、図１に図解したサーバＰＣ１０と、空間Ａに配置されたクライエント装置３０との関係を図解した図である。
空間Ｂ、Ｃに配置されたクライエント装置４０、５０も、クライエント装置３０と同様であり、以下、代表して、クライエント装置３０について述べる。

サーバＰＣ１０は下記の処理を行う。
（１）クライエントＰＣ３１から送信された上記各種信号を用いて動作解析を行う。
（２）上記動作解析に基づくＣＧを生成する。
すなわち、サーバＰＣ１０は、クライエント装置３０、４０、５０から得た遠隔地にいる各ユーザの位置、特に、手の３次元的な形状と姿勢が取得できるので、ユーザの手の操作により、ＡＲ（または、ＶＲ、ＭＲ）によるＣＧを生成する。特に、サーバＰＣ１０において、遠隔地にいる各ユーザの３次元的な形状と姿勢が取得できるので、ユーザの手の操作により、ＡＲ（または、ＶＲ、ＭＲ）によるＣＧを生成することができるため、各ユーザは恰も同一空間で協調作業を行っているように感じることができる。
（３）好適には、形状情報にテクスチャをはりつける。
形状情報にテクスチャをはりつけるのは、下記の理由による。ユーザが、ＨＭＤ３７を装着しているため、そのままの形状をディスプレイ装置に表示すると、違和感を感じることがある。そのため、ユーザがＨＭＤ３７を装着していないときの顔のテクスチャを予め取得しておき、形状を表示するときは、取得したテクスチャを貼りつけて，違和感を低減する。
（４）実物体データを、たとえば、液晶表示部に表示する。
（５）ＡＲなどによる拡張現実空間を合成する。
（６）合成した拡張現実空間の情報を、クライエントＰＣ３１に送信する。

クライエント装置３０は、空間Ａに配設された、クライエントＰＣ３１と、３次元形状取得センサ、たとえば、第１、第２のｋｉｎｅｔｉｃセンサ３３、３４と、スピーカ３５と、ヘッドセット（ＨＭＤ）３７とを有する。
クライエント装置３０は下記の処理を行う。
（１）第１、第２のｋｉｎｅｔｉｃセンサ３４、３５の赤外線センサの検出信号、Ｗｅｂカメラの撮像（画像）データおよび、マイクロフォンの収音信号、ＨＭＤ３７の加速度センサの検出信号を入力して、サーバＰＣ１０に送信する。
（２）サーバＰＣ１０において生成した拡張現実空間情報を受信し、それにに基づいて、ユーザが装着しているＨＭＤ３７のディスプレイ装置に画像（映像）を表示し、スピーカ３５に音声信号を出力する。

クライエントＰＣ３１は、図３に図解したように、内部バス３００で接続された、ＣＰＵ３０１、半導体メモリ３０２、ハードデスク（ＨＤＤ）メモリ３０３、送受信を行う通信モジュール３０４、操作キー３０５、液晶表示部３０６などを有する。
ＨＤＤメモリ３０３には、下記の処理に必要が種々の情報と、下記に述べる信号処理を行う複数のプログラムが記憶されており、動作すべきプログラムと情報とが半導体メモリ３０２に転送されてＣＰＵ３０１がそれらを用いて下記に述べる種々の処理を行う。その結果が、通信モジュール３０４によって、クライエントＰＣ１０に送信される。
クライエントＰＣ３１は、クライエント装置３０におけ信号処理手段の１例として機能する。

３次元形状取得センサとしての第１、第２のｋｉｎｅｔｉｃセンサ３３、３４には、それぞれ、赤外線センサ、Ｗｅｂカメラ、マイクロフォンを有する。
ｋｉｎｅｔｉｃセンサは市販されている。
Ｗｅｂカメラが、ユーザの視点で見た空間Ａにおける状況を実時間で撮像し、その映像（画像）データがクライエントＰＣ３１に入力されて、クライエントＰＣ３１からサーバＰＣ１０に送信される。ｋｉｎｅｔｉｃセンサは、Ｗｅｂカメラの映像結果を、ＲＢＧ信号および深度信号として提供するので、これらの信号から、本実施の形態では後述するサーバＰＣ１０において、物体の３次元形状を取得することができる。

ＨＭＤ３７を装着したユーザが発した音声および周囲の音がマイクロフォンで収音し、その音声信号がクライエントＰＣ３１に入力されて、クライエントＰＣ３１からサーバＰＣ１０に送信される。
赤外線センサは、第１の目的として、対向する２つの赤外線センサで、ＨＭＤ３７の位置を検出するための、ＨＭＤ３７位置検出機能を果たす。また、赤外線センサは、第２の目的として、たとえば、夜間あるいは照明が乏しくＷｅｂカメラでは十分に撮像できない状況において物体を識別する機能を果たす。赤外線センサの検出信号がクライエントＰＣ３１に入力されて、サーバＰＣ１０に送信される。

第１、第２のｋｉｎｅｔｉｃセンサ３３、３４は、たとえば、図６に図解のごとく、所定の間隔を隔てた対向した位置に配置し、これら第１、第２のｋｉｎｅｔｉｃセンサ３３、３４の間に位置するＨＭＤ３７を装着したユーザの位置を、たとえば、赤外線センサ、または、Ｗｅｂカメラで検出することを可能とするためである。したがって、ｋｉｎｅｔｉｃセンサの配設空間にＨＭＤ３７が位置するように、たとえば、３個、４個配設して、その間に位置するＨＭＤ３７の位置を正確に検出することも可能である。

第１、第２のｋｉｎｅｔｉｃセンサ３３、３４はまた、ユーザの動き、たとえば、手の動きを検出することができる。ユーザは、指示する動きを手で行い、ｋｉｎｅｔｉｃセンサでその動きを検出することができる。

このように、第１、第２のｋｉｎｅｔｉｃセンサ３３、３４は、空間Ａにおける物体、たとえば、ＨＭＤ３７を装着したユーザの検知を行う機能、ユーザとその周囲の音の収録機能など、物体の３次元形状取得（検出）センサおよび収音機能を果たす。

図４（Ａ）、（Ｂ）にヘッドセット（ＨＭＤ）の１例を示す。
ＨＭＤ３７は、ユーザの頭部に装着して使用する。
ＨＭＤ３７は、たとえば、加速度センサと、ディスプレイ装置とを有する。
加速度センサがそのＨＭＤ３７をしようしているユーザの動きの速さを検出し、クライエントＰＣ３１を経由してサーバＰＣ１０にその検出信号が送信される。
ＨＭＤ３７内のディスプレイ装置にサーバＰＣ１０からのＣＧ画像などの映像が表示（投影）される。
このように、ＨＭＤ３７は、ユーザの動き検出、映像表示手段として機能する。

スピーカ３５は、音声再生手段として機能する。

サーバＰＣ１０は、図５に図解したように、内部バス１００で接続された、ＣＰＵ１０１、半導体メモリ１０２、ハードデスク（ＨＤＤ）メモリ１０３、送受信を行う通信モジュール１０４、操作キー１０５、液晶表示部１０６などを有する。
ＨＤＤメモリ１０３には、下記に詳述する複合現実感共有装置１のＡＲ、または、ＡＲ、ＶＲ、ＭＲなどを利用した諸機能を遂行するための各種情報、および複数のプログラムが記憶されており、動作すべきプログラムおよび必要な情報が半導体メモリ１０２に転送されてＣＰＵ１０１において使用され、下記に述べる種々の処理を行う。その結果が、通信モジュール１０４によって、該当するクライエント装置、たとえば、クライエント装置３０に送信される。

クライエントＰＣ３１は、たとえば、第１、第２の第１のｋｉｎｅｔｉｃセンサ３３、３４からの情報を通信網２０を経由してサーバＰＣ１０に送信する。
このように、遠隔にあるクライエント装置３０とサーバＰＣ１０とは、たとえば、インターネットなどの通信網２０を介して、それぞれの、通信モジュール３０４と通信モジュール１０４とで、データの送信および受信（送受信）が可能である。

図６は、本発明の１実施の形態として、図１に図解したユーザの形状情報と、テクスチャと、ＣＧと、物体の実形状を表示する場合の処理の流れを示したフローチャートである。図７は、図１に図解した複合現実感共有装置の処理動作を示した図である。
図６、図７を参照して、サーバＰＣ１０と、クライエント装置３０との基本動作を述べる。

ステップ１１、クライエントＰＣ
クライエントＰＣ３１は、第１、第２のｋｉｎｅｔｉｃセンサ３４、３５の赤外線センサの検出信号、Ｗｅｂカメラの撮像（画像）データおよび、マイクロフォンの収音信号、ＨＭＤ３７の加速度センサの検出信号を入力して、通信網２０を経由したサーバＰＣ１０に送信する。

ステップ１、サーバＰＣ
サーバＰＣ１０のＣＰＵ１０１は、通信モジュール１０５で受信したクライエントＰＣ３１から送信された上記各種信号を用いて動作解析を行う。
動作解析の例としては、たとえば、ｋｉｎｅｔｉｃセンサが、深度情報を提供するので、たとえば、ユーザの手の動きを示す信号を提供しており、その信号を用いて、手の回転、移動などを検出することができる。これについては後述する。
ユーザの手は操作の指示する行為、報告する行為などに使用することができる。

ステップ２、サーバＰＣ
サーバＰＣ１０は、上記動作解析に基づくコンピュータグラフック（ＣＧ）画像を生成する。すなわち、サーバＰＣ１０は、クライエント装置３０、４０、５０から得た遠隔地にいる各ユーザの位置、特に、手の３次元的な形状と姿勢が取得できるので、ユーザの手の操作により、ＡＲ（または、ＶＲ、ＭＲ）によるＣＧ画像を生成する。
このように、サーバＰＣ１０において、遠隔地にいる各ユーザの３次元的な形状と姿勢が取得できるので、ユーザの手の操作により、ＡＲ（または、ＶＲ、ＭＲ）によるＣＧを生成することができるため、各ユーザは恰も同一空間で協調作業を行っているように感じることができる。

ステップ３、サーバＰＣ
サーバＰＣ１０は、好ましくは、形状情報にテクスチャをはりつける。
形状情報にテクスチャをはりつけるのは、下記の理由による。
ユーザが、ＨＭＤ３７を装着しているため、そのままの形状をディスプレイ装置に表示すると、違和感を感じることがある。そのため、ユーザがＨＭＤ３７を装着していないときの顔のテクスチャを予め取得しておき、形状を表示するときは、取得したテクスチャを貼りつけて，違和感を低減する。

ステップ４、サーバＰＣ
サーバＰＣ１０は、液晶表示部に実物体データを表示する。

ステップ５、サーバＰＣ
サーバＰＣ１０は、ＡＲなどによる拡張現実空間を合成して、たとえば、液晶表示部に表示する。
サーバＰＣ１０は、合成した拡張現実空間の情報を、通信モジュール１０５、通信網２０を経由して、クライエントＰＣ３１に送信する。

ステップ１１、クライエントＰＣ
クライエントＰＣ３１は、サーバＰＣ１０から受信した拡張現実空間情報に基づいて、ユーザが装着しているＨＭＤ３７のディスプレイ装置に画像（映像）を表示し、スピーカ３５に音声信号を出力する。

好ましくは、形状情報にテクスチャをはりつけている。その結果、ユーザは、違和感を感じることなく、ディスプレイ装置を見ることができる

ステップ６、サーバＰＣ
サーバＰＣ１０は、ステップ５の処理を終了したら、複合現実感共有装置１の動作が終了するまで上記処理を反復する。

ステップ１３、クライエントＰＣ
クライエントＰＣ３１は、ステップ２の処理を終了したら、複合現実感共有装置１の動作が終了するまで、上記処理を反復する。

図７は、上記処理を、空間Ａ，Ｂ，Ｃに配置されたクライエント装置３０、４０、５０と、サーバＰＣ１０とを用いて行う場合の動作形態を概略した図である。
図７（Ａ）は、各空間にいるユーザが装着したＨＭＤ３７のディスプレイ装置に表示された画像を表す。
図７（Ｂ）は、対向する位置に配設された第１のｋｉｎｅｔｉｃセンサ３３と第２のｋｉｎｅｔｉｃセンサ３４とで、ＨＭＤ３７を装着したユーザの位置と動き、たとえば、ユーザの手の動きを検出することを例示した図である。
図７（Ｃ）、（Ｄ）は、各クライエントＰＣと、サーバＰＣ１０との情報の交換を図解した図である。
図７（Ｅ）は、サーバＰＣ１０において、ＡＲ空間で、各空間の情報を合成することを例示した図である。

以下、動作分析の例について述べる。
たとえば、３次元画像（３次元オブジェクト、３Ｄオブジェクト）に対する、回転などの信号処理を指示する操作手段、たとえば、人間の手、の３次元位置、形状、動きを検出して、それに応じた３Ｄオブジェクトに対する画像処理を行う、画像処理について述べる３次元操作手段としての、たとえば、手は、フリックによるスクロール、ピンチイン、ピンチアウトなどを含む３次元画像の回転、移動などに対応する操作を指示する。
また、たとえば、ミーティングなどにおいて、一人または複数のユーザ（聴衆）が、直観的な操作で、たとえば、インタラクティブな３次元画像の画像処理を行なうことが望まれている。

３次元形状取得手段の１例としてのＫｉｎｅｔｅｃｔセンサは、３次元画像に対する３次元操作を指示する操作対象としてのユーザの手を、実時間で撮像し、手の色信号、たとえば、各ピクセル毎のＲＧＢ信号、および、たとえば、図６に例示した各ブロックごとの深度信号を出力する。

サーバＰＣ１０は、Ｋｉｎｅｔｅｃｔセンサから出力された色信号および深度信号を実時間で入力して半導体メモリに記憶し、入力した色信号および深度信号を解析してユーザの手で指示された画像処理のための操作内容を検出し、３次元画像に対して行なった映像信号を実時間で出力する。
Ｋｉｎｅｔｅｃｔセンサから出力されたＲＧＢ信号から輝度信号を得ることができる。特に、下記に述べるユーザの手の内容を分析するためには、ＲＧＢ信号そのものを用いず、たとえば、０〜２５５の階調を持つ白色または黒色の輝度信号として扱う。

なお、指を備えた手に相当する義手、または、それに相当する手段など、たとえば、フリックして画像をスクロールさせる手段、ピンチイン、ピンチアウトさせる手段、あるいは、後述する移動、回転などをさせるための他の手段を用いることができる。

Ｋｉｎｅｔｅｃｔセンサは、操作を指示する手を、たとえば、赤外線センサ窓を介して入射した赤外線を用いて実時間で撮像して、手の色信号および深度信号を実時間で、クライエントＰＣ３１を経由したサーバＰＣ１０に出力する。
色信号としては、各ビクセル毎の、たとえば、Ｒ（赤）Ｇ（緑）Ｂ（青）の３原色信号である。また、深度信号は、たとえば、各ブロックごとの深度信号である。

サーバＰＣ１０は、Ｋｉｎｅｔｅｃｔセンサから出力されたＲＧＢ画像信号と深度信号とを実時間で入力して、手の３次元座標および形状（姿勢）を示す情報を取得して、手の３次元画像に対する基本的な３次元操作、たとえば、移動、回転、拡大、縮小などの処理を解析して、その操作に応じた画像処理を行う。

Ｋｉｎｅｔｅｃｔセンサによる手の撮像、サーバＰＣ１０による信号処理結果をＨＭＤ３７のディスプレイ装置に、実時間で反復されることにより、ユーザは、自己の手の操作に応じた３次元画像をＨＭＤ３７のディスプレイ装置に、実時間で、連続的に、投射（投影）させることができる。

図８を参照してサーバＰＣ１０の処理内容を述べる。
ステップ２１、初期設定
サーバＰＣ１０は下記の初期設定を行う。
（１）ランド（基準）マークの投影
図９は、スクリーン４の４隅（角）を指向した４個のランドマーク（基準マーク）を配置する例を示す図である。
ユーザは、スクリーン４の投影面（投射面）の４隅（角）を指向したランドマークを配置する。この領域（手移動抽出範囲）において手５が操作される。

（２）ランドマーク画像の取得
図１０はスクリーン４の４隅に配置されたランドマークをＫｉｎｅｔｅｃｔセンサで撮像して、４隅の座標位置を検出する方法を示す図である。
Ｋｉｎｅｔｅｃｔセンサは、ランドマークが配置されたスクリーン４を撮像して、ＲＧＢ信号および、深度信号を生成して、ＰＣ３に出力する。
サーバＰＣ１０はＫｉｎｅｔｅｃｔセンサから出力されたＲＧＢ信号としてではなく、たとえば、０〜２５５の階調を持つ輝度信号として用いる。

サーバＰＣ１０は、Ｋｉｎｅｔｅｃｔセンサから出力された４隅に配置したランドマークのテンプレートマッチングを行い、ＲＧＢ画像上の４隅のランドマークの輝度からランドマークの座標を取得して、メモリ部に記憶する。この処理以降、半導体メモリに記憶したランドマークの座標の範囲内で、サーバＰＣ１０が画像処理を行う。

（３）深度情報の初期値の記憶
図１１はＫｉｎｅｔｅｃｔから出力されるランドマークの深度情報の初期値の例を示す図である。
スクリーン４の投射面にユーザの手５が存在しない状態で、Ｋｉｎｅｔｅｃｔセンサでスクリーン４を撮像して、Ｋｉｎｅｔｅｃｔセンサからのスクリーン４上のランドマークの深度状態を取得する。この深度情報は、Ｋｉｎｅｔｅｃｔセンサの先端からスクリーン４までの距離を意味する。
サーバＰＣ１０はその深度情報、すなわち、スクリーン４までの距離情報を半導体メモリに記憶する。

この処理は、後述するスクリーン４の投射面に手を置いた場合の深度情報と対比して、スクリーン４の投影面からＫｉｎｅｔｅｃｔセンサに向かう距離が、たとえば、２０ｍｍ以上の領域を手５の移動する領域（手移動可能領域）として認識するための処理である。なお、この例示では、Ｋｉｎｅｔｅｃｔセンサから、ピクセル毎ではなく、横８×縦８＝６４ブロック（区分）の各ブロックごとに深度情報が出力される。
この例示では、スクリーン４が下から上に向かって傾斜しており、上列の深度が大きく、下列の深度が小さい。

以上の初期値設定により、スクリーン４とＫｉｎｅｔｅｃｔセンサとの間の距離、および／または、手とスクリーン４またはＫｉｎｅｔｅｃｔセンサとの間の距離が任意であっても、画像処理が可能となる。

ステップ２、投影画像上の手領域の抽出
図１２〜図１８を参照して、ユーザの手の３次元座標を取得するために、サーバＰＣ１０は、Ｋｉｎｅｔｅｃｔセンサと協働して、スクリーン４の投影画像上の手５の領域（手移動可能領域）の抽出を行う。

（１）手移動可能領域の認識
図１２はスクリーンの投射面にユーザが手５を置いた時に、それを撮像したＫｉｎｅｔｅｃｔ（１）の手の深度情報の例を示す図である。
ユーザがスクリーン４の投影面に手５を置いた状態で、Ｋｉｎｅｔｅｃｔ（１）で手５を撮像し、Ｋｉｎｅｔｅｃｔセンサは撮像による深度情報をクライエントＰＣ３１を経由したサーバＰＣ１０に出力する。

サーバＰＣ１０は、スクリーン４の投射面に手５がないときの深度情報の初期値と、図１３に例示したスクリーン４の投射面に手５を置いたときのＫｉｎｅｔｅｃｔセンサで取得した現在の深度情報との差を、各ブロック（区分）ごとに求める。
なお、図１２に例示した深度情報と図１１に例示した深度情報とを対比すると、図１２の深度情報は手５があるブロック（区分）の深度情報の値が小さい。
手５の深度情報の差が、スクリーンとＫｉｎｅｔｅｃｔセンサとの間の手移動可能領域の下限値、たとえば、２０ｍｍより大きいとき、サーバＰＣ１０は、有効な手移動可能領域とする。

図１３（Ａ）〜（Ｃ）は手移動可能領域を認識することを示す図である。図１３（Ａ）はスクリーン４の投射面の前に手５がないときの深度情報の初期値を示し、図１３（Ｂ）はスクリーン４の投射面の前にユーザの手５を置いたときの深度情報を示す。図１３（Ｃ）は、上述したＰＣ３の処理により、ユーザの手５の部分の、図１３（Ｂ）の深度情報と図１３（Ａ）の深度情報との差が手移動可能領域の下限値である２０ｍｍ以上ある領域を明示した図である。

次に、サーバＰＣ１０は図１４に図解した投影画像領域を抽出する。
図１４はプロジェクタ２からスクリーン４に３次元画像を投影（投射）する画像領域を抽出することを示す図である。図１４において、左側の上部にプロジェクタ２側から肉眼で見た画面を示し、左側の下部にＫｉｎｅｔｅｃｔ（１）で撮像した画像を示す。また、図９において、右側の上部に左側の上部の肉眼で見た画面を４隅のランドマーク内に展開した図を示し、右側の下部にスクリーン４の投影画像上の手移動可能領域を示す。
サーバＰＣ１０は、図１４の左側の上部に図解した、初期設定で取得したスクリーン４へのランドマークの投影画像の４隅の座標を用いて、座標変換のための射影変換行列を算出し、手移動可能領域から、図１４の右側に図解した、手移動可能領域を抽出する。

座標変換のための射影変換について述べる。
ｎ＋１次元アフィン空間Ａⁿ⁺¹の一次変換Ｆを考える。
Ｆ：Ａⁿ⁺¹ −−＞Ａⁿ⁺¹（ｕ−−＞ＭＵ）
ただし、ｕは、縦ベクトル表示してあるものとし、
Ｍは、ｎ＋１次正方行列である。
原点を通る直線はＦによって再び原点を通る直線に移る。したがって、Ｆは射影空間の変換を引きおこしている。
Ｆ：Ｐⁿ −−＞Ｐⁿ （〔ｕ〕−−＞Ｍ〔ｕ〕＝〔Ｍｕ〕
これを射影変換という。
なお、ｎ＋１次元の縦ベクトルｕ（≠０）に対して、〔ｕ〕は対応するｎ次元射影空間の点とする。

以上の処理により、初期設定で取得したスクリーン４へのランドマークの投影画像内における手移動可能領域が抽出できる。

ステップ２３、手の３次元座標取得
サーバＰＣ１０は、手５の３次元座標（ｘ，ｙ，ｚ）の取得を行う。
（１）手の中心座標の取得
図１５は、スクリーン４における手５の中心の座標を取得する方法を示す図である。
サーバＰＣ１０は、図１５の左側に図解した手５の手移動可能領域を抽出した画像を、白画素から最も近い黒画素までの距離で正規化する。そして、サーバＰＣ１０は、輝度値が最大の輝度、本例では、２５５の画素を検出し、図１５の右側に図解したように、その座標を手５の中心座標とする。
なお、本例では、手５のある部分（ピクセル）は白画素または白画素に近い画素として表し、手５が存在しない部分、たとえば、３次元画像、手５が存在しないスクリーン４の白い色の部分を、黒画素として図解している場合について、述べている。

図１６はスクリーン４の手移動可能領域に、手５だけでなく、腕も入った時の、腕の中心の座標を取得する方法を示す図である。
図１６の左側に図解したように、手５の他に腕も手移動可能領域に入った場合には、その状態でスクリーン４の投影画像上の手移動可能領域を、白画素から元も近い黒画素まで距離で正規化して、最大輝度値、たとえば、２５５の画素を検出すると、図１１の右側に図解したように、腕の中心座標を検出してしまうという問題が起こる。
この問題を解決するため、図１７に図解したように、腕の画像を排除する処理を行う。図１２はスクリーン４の前の手移動抽出範囲に腕が入る状況での手の中心位置の座標を示す図である。

サーバＰＣ１０は、腕がスクリーン４の前の手移動可能領域に位置する状態で手の中心座標を検出する。
まず、サーバＰＣ１０は、腕の画像を削除するため、サーバＰＣ１０の半導体メモリに記憶してある画像データについて、取得した腕の中心座標から輪郭までの最短距離を計測する。
サーバＰＣ１０は、その距離を半径として、図１７の左側に図解したように、腕の中心座標を中心とする黒い円を描く。そして、黒い円の輝度は低いので、それら低い輝度を排除して、腕の画像を廃棄する。これにより、手移動可能領域に入り込んだ腕の情報を削除することができる。したがって、ユーザは、手５の操作に対して、特別注意をする必要がない。

次に、サーバＰＣ１０は、白画素から最も近い黒画素までの距離で正規化し、最大輝度値、たとえば、２５５の画素を検出する。
この最大輝度値の画素の部分が、図１７の右側に図解した、手５の中心座標（ｘ，ｙ）である。

サーバＰＣ１０は、さらに、図１８に図解したように、取得した手５の中心座標（ｘ，ｙ）の深度情報の初期値と現在の深度情報の差を算出して、垂直成分ｚとする。
この垂直成分は、手５までの距離を意味している。
以上の処理により、手の３次元座標を取得する処理が終了する。

ステップ２４、分岐処理
手５の操作に応じて、スクリーン４に表示されている３次元画像（すなわち、３Ｄオブジェクト）の移動、回転、拡大、縮小操作の切り替えを一意的に行うため、操作の分岐処理を行う。
図１９は、分岐処理を詳細に図解したフローチャートである。
上記例では、３Ｄオブジェクトの移動操作（ステップ４ａ）、３次元画像（３Ｄオブジェクト）の回転操作（ステップ４ｂ）、３Ｄオブジェクトの拡大、縮小操作（ステップ４ｃ）と、簡略して図解している。他方、図１９においては、片手または両手の操作（ステップＳ４１）、片手のグー操作またはパー操作（ステップＳ４２）、両手のグー操作またはパー操作（ステップＳ４３）、Ｋｉｎｅｔｅｃｔ（１）から見て、スクリーン４に表示されている３次元画像（３Ｄオブジェクト）の上に（または、前に）手５がある処理（ステップＳ４４）、移動操作（ステップＳ４５）、ｚ軸回転操作（ステップＳ４６）、ｘｙ軸回転操作（ステップＳ４７）、拡大・縮小操作（ステップＳ４８）、３Ｄオブジェクトの表示（ステップＳ４９）の操作に分類している。

３Ｄオブジェクトの移動操作
３次元画像（３Ｄオブジェクト）の移動操作は、手５が片手で（ステップＳ４１）、手５の形状が「グー（握りこぶし）」のとき（ステップＳ４２、ステップＳ４５）、その手５の移動方向、移動量、移動速度などに対応して行う（ステップＳ４５）。
ＰＣ３が行う３次元画像の移動操作としては、スクリーン４において３次元画像の上下左右への移動、スクリーン４から３次元画像がＫｉｎｅｔｅｃｔセンサに向かって近づく、または、Ｋｉｎｅｔｅｃｔセンサからスクリーン４に向かって遠ざかるなどの操作である。

なお、サーバＰＣ１０は、３次元画像がスクリーン４に向かって移動するとき、３次元画像をその距離に応じて縮小させることもできる。他方、サーバＰＣ１０は、３次元画像がスクリーン４から離れてＫｉｎｅｔｅｃｔセンサに向かって接近するとき、３次元画像をその距離に応じて拡大させることもできる。
そのため、サーバＰＣ１０は、手５の移動を、半導体メモリに記憶している、Ｋｉｎｅｔｅｃｔセンサで撮像した連続する複数の画像を示す、色信号（輝度信号）および深度情報を参照して、判断する。
以下、各画面におけるＫｉｎｅｔｅｃｔセンサの撮像データに基づく、サーバＰＣ１０の処理について述べる。

ステップＳ４１、片手または両手の認識
図２０は両手の認識を行う方法を示す図である。
サーバＰＣ１０は、Ｋｉｎｅｔｅｃｔセンサから出力されて、半導体メモリに記憶しているＲＧＢ信号に基づく輝度値のうち、スクリーン４の投影画像上の画像について、たとえば、上記例示した区分（領域）のピクセル（画素）ごとに、画像処理において、画像処理において通常行われている「ラベリング処理」を行い、輝度が第１の輝度値、たとえば、２５０、より大きな最大領域を抽出して、最大領域を認識する。

次いで、サーバＰＣ１０は、手移動可能領域に腕が入ったときの排除処理と同様、上記抽出した最大領域の画像データを黒くして、次の処理の対象から外す。
サーバＰＣ１０は、再度、「ラベリング処理」を行い、輝度が上記第１の輝度値より小さな第２の輝度値、たとえば、２４０、より大きな大きい領域が所定量のピクセル、たとえば、１００ピクセル以上存在すれば、両手であると認識する。
両手でなければ、サーバＰＣ１０は、片手であると判断する。

ステップＳ４２、Ｓ４３、手の形状認識（グー、または、パーの検出）
図２１は手がグーパー（グー、または、パー）のいずれかであることを認識することを示す図である。
サーバＰＣ１０が、上記処理で、手移動可能領域にあるものが、片手であると認識した場合を例示して述べる。

（１）輪郭検出
サーバＰＣ１０は、スクリーン４の投影画像上の輪郭を検出する。この輪郭の検出は、隣接する二次元方向の領域（ピクセル）の輝度の差が所定の値以上の部分として（あるいは、２次元方向の微分値が所定値以上の部分として）検出することができる。その結果を、図２１において、細い白線で示している。

（２）輪郭線の曲率の算出
サーバＰＣ１０は次いで、輪郭線の曲率を算出する。
輪郭線の曲率は、変曲点を意味しており、手５が開いている場合は、握りこぶしのときより、変曲点は多くなる。このような曲率の演算は、通常の数学モデルを用いて行なうことができる。

（３）グーまたはパーの検出
サーバＰＣ１０は、曲率の高い部分が所定量以下、たとえば、５個以下の場合は、手５が「グー」であると判断する。他方、サーバＰＣ１０は、曲率の高い部分が所定量以上、たとえば、６個以下の場合は、手５が「パー」であると（検出）認識する。

以上、サーバＰＣ１０が片手であると認識した場合について述べたが、サーバＰＣ１０が両手であると認識した場合についても、片手ごとに上述した処理を行う。
それにより、両手の場合についても、片手ごとに、「グー」または「パー」を検出することができる。

動き検出
サーバＰＣ１０は、ＫｉｎｅｔｅｃｔセンサのＷｅｂカメラで撮像した結果得られた、ある時刻におけるＲＧＢ信号および深度信号を用いて、上述した処理を行う。
サーバＰＣ１０は、Ｋｉｎｅｔｅｃｔセンサから時々刻々と連続して出力される、ＲＧＢ信号および深度信号についての上述した処理結果を追跡している。
それにより、サーバＰＣ１０は総合的に、（１）手５の動き、たとえば、手５全体の動き、手５の指の広がりの程度、（２）さらに、それらの動きの速度、（３）動きの方向などを検出することができる。
すなわち、時々刻々と連続して出力される、ＲＧＢ信号および深度信号についての上述した処理結果の変化を追跡していくことにより、（１）手５の動き、たとえば、手５全体の動き、手５の指の広がりの程度、（２）さらに、それらの動きの速度、（３）動きの方向などを検出することができる。

３次元画像の移動操作としては、たとえば、手５の動き（操作）に応じた、スクリーン４において上下左右への移動、スクリーン４からＫｉｎｅｔｅｃｔセンサに向かって遠ざかる、または、スクリーン４に向かって近づくなどの操作である。

ステップＳ４５、３Ｄオブジェクトの３次元移動操作
図２２は手の３次元座標系（ｘ，ｙ，ｚ）から３Ｄオブジェクト（３次元画像）の３次元座標系（Ｘ，Ｙ，Ｚ）への変換を示す図である。

（１）ｘｙ軸への変換
サーバＰＣ１０は、図２２に例示した手移動可能領域について、下記式（１）、（２）に基づいてｘｙ軸への変換を行う。

（２）ｚ軸への変換
サーバＰＣ１０は、次いで、図２２に例示した範囲について、下記式（３）に基づいて、ｚ軸への変換を行う。

以上の処理により、３次元画像（３Ｄオブジェクト）について、手５の３次元座標系（ｘ，ｙ，ｚ）から、３次元座標系（Ｘ，Ｙ，Ｚへの変換を行うことができる。

サーバＰＣ１０は、このようにして、座標変換を行い、手５が片手で（ステップＳ４１）、手５の形状が「グー（握りこぶし）のとき（ステップＳ４２、ステップＳ４５）、その手５の移動に応じて量、および、その手５の移動方向に対応して、スクリーン４に投影されている３次元画像（３Ｄオブジェクト）の移動操作を行う（ステップＳ４５）。

この処理は、実際は、サーバＰＣ１０は、現在、スクリーン４に投影されている３次元画像に対応する、サーバＰＣ１０の半導体メモリに記憶されている画像データに対して、移動操作に応じた処理を行うことを意味する。
移動操作以外の他の操作についても、サーバＰＣ１０は、スクリーン４に投影されている３次元画像に対応するメモリ部に記憶されている画像データについて、対応する信号処理を行う。

ステップＳ４９、表示
サーバＰＣ１０は、上記結果に基づく画像処理した画像データを、たとえば、液晶表示部にに出力する。

ステップＳ４４、４６、３Ｄオブジェクトの垂直軸（Ｚ軸）の回転操作
図２３は手の指の角度を検出することを示す図である。
スクリーン４に投影されている３次元画像（３Ｄオブジェクト）上に手５がある場合、サーバＰＣ１０は、手５の角度を用いて、垂直軸（Ｚ軸）の回転操作を行う。
サーバＰＣ１０は、図２３に例示したように、投影画像上の手移動可能領域の画像信号（ＲＧＢ画像）において中心座標を腕の中心座標として、その半径を手の中心座標（ｘ，ｙ）までの距離で黒い円を描く。
サーバＰＣ１０は次に、手の中心座標から最も遠い白画素を検出する。検出した座標を、中指の座標（Ｆｘ，Ｆｙ）とする。
サーバＰＣ１０は、中指の座標（Ｆｘ，Ｆｙ）と手の中心座標（ｘ，ｙ）の角度Ｆθを、下記式（４）により、算出する。

サーバＰＣ１０は、算出した手の角度Ｆθに応じて、３Ｄオブジェクトの垂直軸（ｚ軸）の回転操作を行う。
サーバＰＣ１０におけるこの回転操作は、たとえば、ＣＧなどで行う変換処理と同様に行うことができる。

ステップＳ４９、表示
サーバＰＣ１０は、回転操作の結果に基づく画像データを、たとえば、液晶表示部に出力する。

ステップＳ４４、４７、ｘｙ軸回転操作
図２４は手の平面を推定する方法を示す図である。
サーバＰＣ１０は、手５がスクリーン４に投影されている３Ｄオブジェクト（３次元画像）の上にない場合、手の法線ベクトルを用いて、３Ｄオブジェクトの平面（ｘｙ軸面）の回転操作を行う。

（１）手の３点の検出
サーバＰＣ１０は、まず、手の法線ベクトル（Ｈ）を算出するため、図２４に例示した手の３点を検出する。
サーバＰＣ１０は、まず、手の中心座標Ｏ（ｘ，ｙ，ｚ）の点を第１の点とする。サーバＰＣ１０はこの点を中心に手の幅を検出する。
サーバＰＣ１０は次に、中指の方向に、手の中心座標Ｏ（ｘ，ｙ，ｚ）から手の幅の分離れた点を検出する。
サーバＰＣ１０は次に、手の中心座標Ｏ（ｘ，ｙ，ｚ）を中心に、中指の方向の点を＋４５度の点を第２の点とし、その座標をＲ１（Ｒ₁ ｘ，Ｒ₁ ｙ，Ｒ₁ ｚ）とする。
また、サーバＰＣ１０は、手の中心座標Ｏ（ｘ，ｙ，ｚ）を中心に、中指の方向の点を−４５度の点を第３の点とし、その座標をＲ２（Ｒ₂ ｘ，Ｒ₂ ｙ，Ｒ₂ ｚ）とする。
以上の３点を用いて、下記式（５）、（６）、（７）を用いて、手５の法線ベクトル（Ｈ）を算出する。

次に、サーバＰＣ１０は、手の法線ベクトル（Ｈ）と、ｚ軸ベクトル（Ｚ）の法線ベクトル（Ｖ）を、下記式（８）に従って算出する。

サーバＰＣ１０は、算出した法線ベクトル（Ｖ）を、平面軸（ｘｙ軸）の回転操作の回転軸とする。
次に、サーバＰＣ１０は、手の法線ベクトル（Ｈ）とｚ軸ベクトルとの間の角度Ｒθを下記式（９）を用いて算出する。この角度Ｒθを平面軸（ｘｙ軸）回転操作の回転角度とする。

サーバＰＣ１０は、手の法線ベクトルよって算出した回転軸（Ｖ）、回転角度Ｒθとを下記式（１０）に代入して回転行列Ｍを算出する。

サーバＰＣ１０は、上記算出した回転行列Ｍを用いてスクリーン４の投射されている３Ｄオブジェクト（３次元画像）の平面軸（ｘｙ軸）の回転操作を行う。

ステップＳ４９、表示
サーバＰＣ１０は、上記回転操作の結果に基づく画像データを、たとえば、液晶表示部に出力する。

ステップＳ４８、３Ｄオブジェクトの任意軸方向の拡大・縮小
図２５は両手の中心座標を示す図である。
両手がグーの場合（ステップＳ４３）、ＰＣ３は、両手間のベクトルと距離に応じて、３Ｄオブジェクトの任意軸方向の拡大・縮小操作を行う。

（１）両手の座標の検出
サーバＰＣ１０は、図２５に例示した、両手の中心座標を検出する。右手の中心座標Ｓ１を（Ｓ₁ ｘ，Ｓ₁ ｙ，Ｓ₁ ｚ）とし、左手の中心座標Ｓ２を（Ｓ₂ ｘ，Ｓ₂ ｙ，Ｓ₂ ｚ）とする。

（２）両手間のベクトルと距離の算出
サーバＰＣ１０は、式（１１）、（１２）を用いて、両手間のベクトル（ｕ）と、距離λとを算出する。

（３）拡大・縮小行列の算出
サーバＰＣ１０は次に、式（１３）を用いて、任意軸方向の拡大・縮小行列Ｔを算出する。

サーバＰＣ１０は、上記算出した任意軸方向の拡大・縮小行列Ｔを用いて、スクリーン４に投影されている３Ｄオブジェクト（３次元画像）に対して、任意軸方向の拡大・縮小処理を行う。

ステップＳ４９、表示
サーバＰＣ１０は、上記任意軸方向の拡大・縮小操作の結果に基づく、３Ｄオブジェクトの画像データを、たとえば、液晶表示部に出力する。

ステップＳ５、終了判定
サーバＰＣ１０は、ユーザが終了指示をするまで、上述したステップＳ２〜ステップＳ４の処理を反復する。

ステップＳ６、終了
サーバＰＣ１０は、ユーザが終了指示をしたとき、上記処理を終了する。

上記実施の形態においては、スクリーン４に投影された３次元画像に対する３次元的な操作、たとえば、フリック、ピンチイン、ピンチアウトを含み、回転、移動などを指示する手５を用いる。これにより、ユーザが手５を用いて３次元画像に直接的に操作を行なうことが可能となる。

また上記実施の形態本発明によれば、手５操作指示内容を、たとえば、Ｋｉｎｅｔｅｃｔセンサなどの３次元撮像手段（３次元形状取得手段）を用いて撮像し、撮像結果に基づく３次元操作手段の色信号および深度信号から３次元操作手段（たとえば、手）の位置、姿勢などを分析して、その分析結果に基づいて３次元画像に対して信号処理して、実時間で表示するので、直接的かつインタラクティブな操作が可能となる。

さらに、本実施の形態によれば、たとえば、ミーティングなどにおいて、一人または複数のユーザ（聴衆）が、直観的な操作で、たとえば、インタラクティブな３次元画像の画像処理を行なうことができる。

３次元形状取得装置としてのＫｉｎｅｔｅｃｔセンサは、既に市販されており、実時間で、撮像結果をＲＧＢ信号および深度情報として提供するので、３次元形状取得装置として新規に設計することが不要である。
したがって、以上の実施の形態においては、上述した処理を行うサーバＰＣ１０のみを新規に開発すればよく、実施で容易であった。

以上の実施の形態においては、３次元形状取得装置、または、撮像手段として、Ｋｉｎｅｔｅｃｔセンサを用いた場合について述べたが、Ｋｉｎｅｔｅｃｔセンサと同等の機能、性能を有する撮像手段を用いることができる。

本発明によれば、遠隔会議の効率を向上させることができる。より特定的には、本発明によれば、会議に参加している複数のユーザ（メンバー）が同一の空間を共有し、どのメンバーも、直観的に、かつ、３次元的にＣＧを操作することができ、かつ、お互いの操作を共有し理解しあえる、遠隔会議システムを提供することにより、遠隔会議の効率を向上させることができる。

１…複合現実感共有装置、１０…サーバＰＣ、２０…通信網
３０、４０、５０…クライエント装置
３１…クライエントＰＣ、
３３、３４…第１、第２のｋｉｎｅｔｉｃセンサ３３
３５…スピーカ
３７…ヘッドセット（ＨＭＤ）

Claims

通信網で接続された、サーバ装置と、異なる場所に配置された複数のクライエント装置とを有し、
各クライエント装置は、
その場所にいるユーザが装着する、加速度センサおよびディスプレイ装置を有するヘッドセットと、
赤外線センサと、撮像手段と、収音手段とを有する３次元形状取得センサと、
を有し、
前記各クライエント装置は、
前記加速度センサの検出信号、前記赤外線センサの検出信号、前記撮像手段で撮像した撮像画像データおよび深度情報、前記収音手段で収音した信号を、前記通信網を介して前記サーバ装置に送信し、
前記サーバ装置は、
前記各クライエント装置から送信された前記深度信号を用いてユーザの動作解析を行い、
前記動作解析に基づくＣＧを生成し、
実物体データを表示し、
拡張現実空間を合成し、
前記合成した拡張現実空間の情報を、各クライエント装置に送信し、
前記各クライエント装置は、
前記サーバ装置から受信した拡張現実空間情報に基づいて、ヘッドセットのディスプレイ装置に画像（映像）を表示し、前記スピーカに音声信号を出力する、
複合現実感共有装置。
前記サーバ装置は、前記各クライエント装置から送信された各ユーザの位置、特に、手の３次元的な形状と姿勢から、前記動作解析を行う、
請求項１に記載の複合現実感共有装置。
前記サーバ装置は、前記ユーザがヘッドセットを装着していないときの顔のテクスチャを予め取得しておき、前記形状情報にテクスチャをはりつける、
請求項１または２に記載の複合現実感共有装置。
前記３次元形状取得センサは、ｋｉｎｅｔｉｃセンサを有する、
請求項１〜２のいずれかに記載の複合現実感共有装置。
前記サーバ装置は、前記動作解析として、前記撮像データに含まれる３次元操作対象の色信号および深度信号を解析処理する、
請求項１〜４のいずれかに記載の複合現実感共有装置。