WO2022091832A1

WO2022091832A1 - 情報処理装置、情報処理システム、情報処理方法、および情報処理端末

Info

Publication number: WO2022091832A1
Application number: PCT/JP2021/038378
Authority: WO
Inventors: 孝悌清水; 和治田中; 正章松原
Original assignee: ソニーグループ株式会社; 株式会社ソニー・インタラクティブエンタテインメント
Priority date: 2020-10-30
Filing date: 2021-10-18
Publication date: 2022-05-05
Also published as: JPWO2022091832A1; CN116490249A; US20230385011A1

Abstract

仮想空間の表示を制御する制御部を備え、前記制御部は、他の仮想空間における１以上の他ユーザのコミュニケーション情報を取得し、前記取得したコミュニケーション情報を、前記仮想空間に配置した仮想オブジェクトにより提示する制御を行う、情報処理装置を提案する。

Description

情報処理装置、情報処理システム、情報処理方法、および情報処理端末

　本開示は、情報処理装置、情報処理システム、情報処理方法、および情報処理端末に関する。

　近年普及しているＶＲ（Virtual　Reality）アプリケーションでは、３Ｄモデルが配置された仮想空間内を、ユーザが任意の視点から視聴することができる。このようなＶＲの世界は、主にユーザの視界を表示部で覆う非透過型のＨＭＤ（Head　Mounted　Display）を用いて提供され得る。

　また、仮想空間を提供する技術に関し、例えば下記特許文献１では、仮想空間に配置されたカメラのオブジェクト（仮想物体）をユーザが操作して仮想空間内を撮影すると、撮影により生成された写真画像がモニタのオブジェクト（仮想物体）に描画される技術が開示されている。

特開２０１９－０２１１２２号公報

　ここで、先行技術文献では１つの仮想空間内における撮影体験について言及されているが、異なる仮想空間とコミュニケーションを取ることについては考慮されていない。

　そこで、本開示では、他の仮想空間におけるコミュニケーション情報をより簡便に提示し、仮想空間の利便性を高めることが可能な情報処理装置、情報処理システム、情報処理方法、および情報処理端末を提案する。

　本開示によれば、仮想空間の表示を制御する制御部を備え、前記制御部は、他の仮想空間における１以上の他ユーザのコミュニケーション情報を取得し、前記取得したコミュニケーション情報を、前記仮想空間に配置した仮想オブジェクトにより提示する制御を行う、情報処理装置を提案する。

　本開示によれば、表示部と通信部を有する情報処理端末と、前記表示部への仮想空間の表示を制御する制御部と通信部を有する情報処理装置と、を備え、前記制御部は、他の仮想空間における１以上の他ユーザのコミュニケーション情報を取得し、前記取得したコミュニケーション情報を、前記表示部に表示する前記仮想空間に配置した仮想オブジェクトにより提示する制御を行う、情報処理システムを提案する。

　本開示によれば、プロセッサが、仮想空間の表示を制御することと、他の仮想空間における１以上の他ユーザのコミュニケーション情報を取得し、前記取得したコミュニケーション情報を、前記仮想空間に配置した仮想オブジェクトにより提示する制御を行うことと、を含む、情報処理方法を提案する。

　本開示によれば、通信部と、表示部と、前記通信部により情報処理装置から受信した仮想空間の画像を前記表示部に表示する制御を行う制御部と、を備え、前記制御部は、他の仮想空間における１以上の他ユーザのコミュニケーション情報が、前記仮想空間に配置された仮想オブジェクトにより提示される画像を表示する、情報処理端末を提案する。

本開示の一実施形態による情報処理システムの構成例を示す図である。仮想空間が複数の仮想ルームにより構成される場合の一例を示す図である。本実施形態による情報処理システムに含まれるサーバおよびユーザ端末の構成の一例を示すブロック図である。本実施形態による仮想窓を利用した仮想空間同士のコミュニケーションについて説明する図である。本実施形態による仮想カメラの配置例を示す図である。本実施形態による仮想窓が配置された仮想空間の画像の表示例を示す図である。本実施形態による情報処理システムの動作処理の流れの一例を示すシーケンス図である。本開示の他の実施形態による情報処理システムの構成例を示す図である。他の実施形態による仮想窓を利用した単方向のコミュニケーション情報の提示について説明する図である。他の実施形態による情報処理システムの動作処理の流れの一例を示すフローチャートである。他の実施形態による仮想窓が配置された仮想空間におけるユーザ視点の画像の表示例を示す図である。他の実施形態による特別ルームのコミュニケーション情報の他の提示例について説明する図である。本実施形態の応用例による少なくとも一方の仮想空間に複数人居る場合の仮想空間同士における双方向対話について説明する図である。図１３に示すルームにおけるユーザ視点の画像の他の例を示す図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　また、説明は以下の順序で行うものとする。
　１．概要
　２．構成例
　３．動作処理
　４．他の実施形態
　５．応用例
　６．補足

　＜＜１．概要＞＞
　本開示の一実施形態として、他の仮想空間におけるコミュニケーション情報をより簡便に提示し、仮想空間（ＶＲ：Virtual　Reality）の利便性を高める仕組みについて説明する。

　図１は、本開示の一実施形態による情報処理システムの構成例を示す図である。図１に示すように、本実施形態による情報処理システムは、各ユーザが利用するユーザ端末１０（ユーザ端末１０Ａ、１０Ｂ・・・）、および、仮想空間の情報を各ユーザ端末１０に提供するサーバ２０を有する。ユーザ端末１０とサーバ２０は、ネットワーク３０を介して通信接続し、データの送受信を行う。

　仮想空間は、例えばユーザの視界を覆う非透過型のＨＭＤ（Head　Mounted　Display）を用いて呈示される。本実施形態では、一例として、ユーザ端末１０がＨＭＤにより実現される場合を想定する。

　ＨＭＤは、ユーザの頭部に装着される。また、ＨＭＤは、装着したユーザの左右の眼毎の画像表示部を有してもよい。ＨＭＤは、ユーザの外界を遮る構成とすることで、視聴時の仮想現実感（仮想空間への没入感）を増すことができる。ＨＭＤは、仮想空間におけるユーザ視点の画像を表示する。かかる画像は、サーバ２０により生成されリアルタイムでＨＭＤに表示されてもよいし、サーバ２０から取得した情報に基づいてＨＭＤが生成してもよい。また、ＨＭＤに設けられたモーションセンサにより検知されたユーザの動きに追随して、ユーザが見ている仮想空間の映像を変化させる（仮想空間におけるユーザ視点の変化）ことで、仮想世界のリアリティをより高めることができる。また、ＨＭＤは、左右の眼に違う映像を映し出すことも可能であり、左右の眼に対して視差のある画像を表示することで３Ｄ画像を提示し得る。また、ＨＭＤは、ヘッドフォンを併用し、ユーザの視覚のみならず、聴覚に対して仮想空間の情報（音声）も提示し得る。

　（課題の整理）
　ここで、仮想空間には、複数の部屋（以下、仮想ルームと称する）を用意することが可能である。本明細書では「部屋」と称しているが、各仮想ルームは、仮想空間の１つであって、空間の広さや利用者数、配置する３Ｄモデルの形体等は特に限定しない。

　図２は、仮想空間が複数の仮想ルームにより構成される場合の一例を示す図である。図２に示す例では、本仮想空間の玄関口または広場等に相当し、誰でも利用可能なラウンジ５－１と、ラウンジ５－１から移動可能なルーム５－２Ａ～５－２Ｃ・・・と、から成る場合を想定する。ユーザが仮想空間にログインした際は、まずラウンジ５－１に入り、そこから移動先のルームを選択するようにしてもよい。ルーム５－２は、各ユーザ個人の部屋として構築される仮想ルームであってもよいし、特定の催しが開催されるイベント会場として構築される仮想ルームであってもよい。

　ここで、例えばルーム５－２Ａに居るユーザ５０Ａが、ルーム５－２Ｂに居るユーザ５０Ｂと会話を行いたい場合、両者が同じ空間に居る必要があるため、どちらかが相手側のルーム（仮想空間）に移動するか、両者がラウンジなど他の仮想空間に移動する必要がある。

　しかしながら、空間移動は、シーン移動処理を伴うものであり、ユーザ端末１０およびサーバ２０において、大きな処理負荷、および処理時間が発生する。シーン移動処理とは、背景データなど、仮想空間の全てのデータを書き換える処理である。一般的に、仮想空間は、背景データや多数の仮想オブジェクト（参加者アバターを含む）から構成されている。個々の仮想オブジェクトには、ポリゴンメッシュ情報、頂点情報、マテリアル情報、光沢や影のレンダリング情報、衝突・摩擦・光などの物理計算情報、三次元空間座標位置、アニメーション、色情報、透明度、映像や音のエフェクト、制御スクリプトなど多数のパラメータが設定され、全てを合わせると膨大な量の設定データとなる。例えばユーザ５０Ａがルーム５－２Ａからルーム５－２Ｂに空間移動する際、ユーザ端末１０およびサーバ２０において、これらの膨大な量の設定データの入れ替え、および再構築を行う必要がある。このような空間移動における設定データの入れ替え、再構築、および最新シーンの読み込みの時間は、一例として、３０、４０秒～１分程掛かることが想定される。

　また、ユーザ５０Ａがルーム５－２Ｂでユーザ５０Ｂと会話した後、再び元のルーム５－２Ａに戻る場合、同様に、再度、空間移動における膨大な量の設定データの入れ替えおよび再構築等が行われて処理負荷や待ち時間が生じる。このような空間移動等による仮想空間の新たな構築に関する処理は、他ルーム等の他の仮想空間に居るユーザと多少会話を行うだけの場合、とても非効率な処理と言える。また、空間移動等による仮想空間の新たな構築における待ち時間の発生は、ユーザにとってストレスとなり、快適性が損なわれる。なお、このような空間移動等による仮想空間の新たな構築は、仮想空間をサーバ側およびユーザ端末側のいずれで構築する場合でも、多大な処理負荷や処理時間が生じ得る。

　そこで、本開示による一実施形態では、他の仮想空間におけるコミュニケーション情報をより簡便に提示し、仮想空間の利便性を高めることが可能な情報処理システムを提案する。

　具体的には、例えば、他の仮想空間における１以上の他ユーザのコミュニケーション情報を取得し、取得したコミュニケーション情報を、ユーザの居る仮想空間に配置した仮想オブジェクト（本実施形態では、「窓」を想定し、仮想窓と称する）にリアルタイムで表示（描画）する。コミュニケーション情報とは、相手とコミュニケーションを取るための情報であって、例えば画像（映像）、音声、テキスト等が想定される。

　以下、本実施形態による情報処理システムの各構成および動作処理について説明する。

　＜＜２．構成例＞＞
　図３は、本実施形態による情報処理システムに含まれるサーバ２０およびユーザ端末１０の構成の一例を示すブロック図である。以下、各装置について具体的に説明する。

　＜２－１．サーバ２０＞
　図３に示すように、サーバ２０は、制御部２００、通信部２１０、および記憶部２２０を有する。

　（通信部２１０）
　通信部２１０は、有線または無線により外部装置と通信接続し、データの送受信を行う。例えば、通信部２１０は、ネットワーク３０と接続して、ユーザ端末１０とデータの送受信を行う。通信部２１０は、仮想空間の構築に必要な情報や、仮想空間におけるユーザ視点の画像データ、また、仮想空間に参加する他のアバターの情報等を、ユーザ端末１０に送信する。アバターとは、各ユーザの分身として仮想空間に配置される仮想オブジェクトであって、ユーザの操作や動き（身体全体の動き、手指の動き、足の動き、頭部の動き、表情等）が、仮想空間内のユーザのアバターに反映される。ユーザの操作や動きは、ユーザ端末１０のセンサ部１２０や、ユーザが把持するコントローラ、ユーザに装着されるセンサデバイス、ユーザの周囲に設けられる多数のカメラ等により検出され得る。アバターは、２Ｄ実写であってもよいし、３ＤＣＧであってもよい。また、Volumetric　Capture技術により生成された、より実写に近い３ＤＣＧであってもよい。Volumetric　Capture技術とは、実空間においてユーザを多数のカメラにより撮影して得た撮像画像および３Ｄデータから、より実写に近い３ＤＣＧをリアルタイムで生成し得る技術である。また、仮想空間におけるユーザの視点は、アバター視点であってもよいし（この場合、自身のアバターは画面には映らない）、自身のアバターが画面に映るような、アバターから一定距離離れた場所からの視点（この場合、視点はアバターに追随する）であってもよい。ユーザ視点は、ユーザによって任意に切り替え可能である。

　また、通信部２１０は、例えば、有線／無線ＬＡＮ（Local　Area　Network）、またはＷｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、携帯通信網（ＬＴＥ（Long　Term　Evolution）、３Ｇ（第３世代の移動体通信方式）、４Ｇ（第４世代の移動体通信方式）、５Ｇ（第５世代の移動体通信方式））等により外部装置やネットワーク３０と通信接続する。

　（制御部２００）
　制御部２００は、演算処理装置および制御装置として機能し、各種プログラムに従ってサーバ２０内の動作全般を制御する。制御部２００は、例えばＣＰＵ（Central　Processing　Unit）、マイクロプロセッサ等の電子回路によって実現される。また、制御部２００は、使用するプログラムや演算パラメータ等を記憶するＲＯＭ（Read　Only　Memory）、及び適宜変化するパラメータ等を一時記憶するＲＡＭ（Random　Access　Memory）を含んでいてもよい。

　また、本実施形態による制御部２００は、仮想空間情報提供部２０１および仮想窓制御部２０２としても機能する。

　仮想空間情報提供部２０１は、仮想空間の情報をユーザ端末１０に提供し、仮想空間の画像をユーザ端末１０に表示させる機能を有する。仮想空間の画像とは、仮想空間におけるユーザ視点の画像（映像）である。

　仮想空間情報提供部２０１が提供する仮想空間の情報は、少なくともユーザ端末１０においてユーザ視点の仮想空間の画像をユーザの視覚に提示するために用いられる情報である。例えば、仮想空間の構築に必要な情報（背景データや、各仮想オブジェクトの各種パラメータ）や、仮想空間におけるユーザ視点の画像データ、仮想空間に参加する他のアバターの情報等が挙げられる。また、仮想空間情報提供部２０１は、ログインや空間移動によりユーザが新たな仮想空間に入った際には、その仮想空間を構築するための全てのデータ（背景データや、他のアバターのＣＧ、仮想空間の各種パラメータ等）をユーザ端末１０に提示するようにしてもよい。この場合、仮想空間の構築後は、仮想空間情報提供部２０１は、他のアバターのリアルタイムの位置情報やモーション情報等の差異情報をユーザ端末１０に継続的に送信するようにしてもよい。

　ユーザ端末１０で表示されるユーザ視点の仮想空間の画像は、仮想空間情報提供部２０１で生成してもよいし、ユーザ端末１０が仮想空間情報提供部２０１から取得した情報に基づいて生成してもよい。また、仮想空間情報提供部２０１がユーザ視点の仮想空間の画像を生成する場合、ユーザ端末１０から継続的に送信されるユーザの位置情報（例えば頭部の位置）や姿勢情報、モーション情報（例えば頭部の動きや手足の動き）に基づいて、実空間におけるユーザの動きにユーザ視点を追随させた上で、仮想空間の画像を生成してもよい。また、仮想空間情報提供部２０１により提供される仮想空間の情報には、音声情報や振動情報等も含まれ得る。

　なお、仮想空間（例えば図２に示すラウンジ５－１、ルーム５－２Ａ～５－２Ｃ・・・）の構築は、サーバ２０で行われてもよいし、各ユーザが利用するユーザ端末１０でそれぞれ行われてもよい。例えば多数のユーザにより共有される（すなわち多数のユーザが入ることが可能な）仮想空間（例えばラウンジ５－１）の場合はサーバ２０で構築し、ユーザ個人の部屋（すなわちユーザだけが入ることが可能な仮想空間）の場合は各ユーザ端末１０でそれぞれ構築するようにしてもよい。

　仮想窓制御部２０２は、他の仮想空間におけるコミュニケーション情報を提示する仮想窓の制御を行う機能を有する。コミュニケーション情報とは、相手とコミュニケーションを取るための情報であって、例えば画像（映像）、音声、テキスト等が想定される。本実施形態による仮想窓制御部２０２は、他の仮想空間から取得した１以上の他ユーザのコミュニケーション情報を、ユーザの居る仮想空間に配置した仮想窓にリアルタイムで表示（描画）することで、他の仮想空間におけるコミュニケーション情報をより簡便に提示し、仮想空間の利便性を高めることを可能とする。すなわち、空間移動を行うことなく、他の仮想空間に居る他ユーザと会話等を行うことが可能となり、空間移動の場合に生じていた処理負荷や処理時間（全ての仮想オブジェクトの膨大な設定データを読み込む処理負荷や処理時間等）が削減される。他の仮想空間におけるコミュニケーション情報の提示では、画像（映像）や、音声、テキストの提示で済むため、処理負荷および処理時間が比較的軽く、他の仮想空間の他ユーザと会話をすぐに始めることが可能となる。

　ここで、図４に、本実施形態による仮想窓を利用した仮想空間同士のコミュニケーションについて説明する図を示す。図４に示すように、例えばルーム５－２Ａに居るユーザ５０Ａと、ルーム５－２Ｂに居るユーザ５０Ｂとが会話したい場合、仮想窓制御部２０２は、各仮想空間に仮想窓５４（例えば３ＤＣＧにより生成する仮想オブジェクト）と仮想カメラ５２（仮想空間を撮影する撮影位置）をそれぞれ配置する。そして、仮想窓制御部２０２は、各仮想カメラ５２で撮影した映像を、それぞれ相手の仮想空間の仮想窓５４にリアルタイムに表示する制御を行う（例えば、所謂ライブストリーミング配信であってもよい）。すなわち、仮想窓制御部２０２は、ルーム５－２Ａに配置した仮想カメラ５２Ａによりユーザ５０Ａを撮影した映像を、ルーム５－２Ｂに配置した仮想窓５４Ｂに表示する。また同時に、仮想窓制御部２０２は、ルーム５－２Ｂに配置した仮想カメラ５２Ｂによりユーザ５０Ｂを撮影した映像を、ルーム５－２Ａに配置した仮想窓５４Ａに表示する。なお、この際、音声も収音され、相手側の仮想空間で出力される。これにより、各ユーザは、仮想窓５４を介して映像および音声を用いた会話（コミュニケーション）を行うことができる。

　なお、ここでは一例として映像および音声を用いた会話を実現しているが、本実施形態はこれに限定されず、テキストを用いた会話（チャット）を、仮想窓５４を介して行うようにしてもよい。また、映像、音声、およびテキストのうち少なくとも１以上を用いたコミュニケーションを、仮想窓５４を介して行うようにしてもよい。

　また、仮想窓５４の形状や大きさ、配置場所は特に限定しない。また、本明細書では「窓」を模した仮想オブジェクトである仮想窓５４を用いることを想定しているが、本開示はこれに限定されず、他の仮想空間から取得したコミュニケーション情報を提示する領域を有する仮想オブジェクトであればよい。例えば、スクリーン、テーブル、壁、天井、ドア、ディスプレイ等の仮想オブジェクトにより、他の仮想空間から取得したコミュニケーション情報を提示してもよい。

　また、仮想窓５４に仮想カメラ５２により撮影した映像を表示する場合、ユーザと映像内の相手ユーザとの目線が一致するよう、仮想窓５４を見ているユーザ（アバター）を正面から撮影する位置に仮想カメラ５２を配置するようにしてもよい。仮想カメラ５２の配置とは、仮想空間を撮影する撮影位置および撮影方向の設定である。図４では、撮影位置と方向を明示するために仮想カメラ５２を図示しているが、仮想空間内においては実際に描画されるオブジェクトではなく、仮想カメラ５２がユーザの眼前に配置されてもユーザの視界の邪魔にはならない。

　ここで、仮想カメラ５２の配置例を図５に示す。図５に示すように、例えば仮想カメラ５２は、仮想窓５４の後ろ側（若しくは仮想窓５４の位置）であって、ユーザの目の高さ（すなわち仮想空間内におけるユーザ視点位置であって、図５では視点Ｅと示す）に合わせた位置に配置されてもよい。なお、仮想窓制御部２０２は、仮想窓５４の裏側から仮想カメラ５２によりユーザを撮影する際、仮想空間に配置される仮想窓５４を撮影画像から除外することで、仮想窓５４に対向するユーザを正面から（仮想窓５４を透過して）撮影することが可能となる。また、ここでは一例としてユーザの視点の高さに仮想カメラ５２を合わせる旨を説明したが、他の例として、ユーザ（アバター）の頭部の位置（高さ）に合わせるようにしてもよい。また、仮想窓５４に映る相手ユーザの目（または頭部）の位置に仮想カメラ５２を配置して仮想窓５４に対向するユーザを撮影してもよい。このように、実空間では邪魔になったり設置できなかったりする位置であっても自由に仮想カメラ５２（撮影位置）を配置することができ、仮想窓５４を介して会話するユーザが互いに目線を合わせることが可能となる。

　（記憶部２２０）
　記憶部２２０は、制御部２００の処理に用いられるプログラムや演算パラメータ等を記憶するＲＯＭ（Read　Only　Memory）、および適宜変化するパラメータ等を一時記憶するＲＡＭ（Random　Access　Memory）により実現される。

　以上、サーバ２０の構成について具体的に説明したが、本開示によるサーバ２０の構成は図３に示す例に限定されない。例えば、サーバ２０は、複数の装置により実現されてもよい。また、仮想空間の情報を提供し、仮想空間の表示を制御する情報処理装置の一例としてサーバ２０を用いたが、情報処理装置はネットワーク上のサーバに限定されない。例えば情報処理装置は、中間サーバ（分散サーバ）、ローカルエッジサーバ、ユーザ端末１０と同一空間に配置された専用端末、スマートフォン、タブレット端末、またはＰＣ（パーソナルコンピュータ）等により実現してもよい。また、サーバ２０の機能の少なくとも一部または全部が、中間サーバ、ローカルエッジサーバ、ユーザ端末１０、ユーザ端末１０と同一空間に配置された専用端末、スマートフォン、タブレット端末、またはＰＣ（パーソナルコンピュータ）等により実現されてもよい。

　＜２－２．ユーザ端末１０＞
　図３に示すように、ユーザ端末１０は、制御部１００、通信部１１０、センサ部１２０、表示部１３０、スピーカ１４０、および記憶部１５０を有する。本実施形態によるユーザ端末１０は、一例として、仮想空間の画像を表示する非透過型ＨＭＤにより実現され得る。

　（通信部１１０）
　通信部１１０は、有線または無線により外部装置と通信接続し、データの送受信を行う。例えば、通信部１１０は、ネットワーク３０と接続して、ネットワーク上のサーバ２０とデータの送受信を行う。通信部１１０は、例えば、仮想空間の情報をサーバ２０から受信する。また、通信部１１０は、ユーザ端末１０に設けられたセンサ部１２０により検知したセンシングデータ（位置情報、姿勢情報、モーション情報、音声、操作情報等）をサーバ２０に送信する。

　また、通信部１１０は、例えば、有線／無線ＬＡＮ（Local　Area　Network）、またはＷｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、携帯通信網（ＬＴＥ（Long　Term　Evolution）、３Ｇ（第３世代の移動体通信方式）、４Ｇ（第４世代の移動体通信方式）、５Ｇ（第５世代の移動体通信方式））等により外部装置やネットワーク３０と通信接続する。

　（センサ部１２０）
　センサ部１２０は、ユーザに関する各種情報をセンシングする機能を有する。例えばセンサ部１２０は、カメラ１２２、マイクロホン（以下、マイクと称する）１２４、およびモーションセンサ１２６であってもよい。各センサは複数設けられていてもよい。

　カメラ１２２は、実空間を撮像する外向きカメラ、およびユーザの眼を撮像する内向きカメラであってもよい。外向きカメラは、例えばユーザ端末１０の位置（自己位置）を検出する際に用いられる。自己位置の認識は、一般的に、ユーザ端末１０の外部（環境側）に設置されたセンサを利用するアウトサイド・イン方式や、ユーザ端末１０に搭載したセンサを利用するインサイド・アウト方式、および、これらの組み合わせであるハイブリッド方式がある。また、外向きカメラは、周囲の障害物等を検出する際にも用いられる。内向きカメラは、例えばユーザの視線に関する情報（視線方向、眼球の動き等）を検出する際に用いられる。

　マイク１２４は、ユーザの発話音声を集音し、音声データを制御部１００に出力する。

　モーションセンサ１２６は、ユーザの姿勢や動きを検出する際に用いられる。例えばモーションセンサ１２６は、加速度センサ、ジャイロセンサ、および地磁気センサを含んでいてもよい。

　さらにセンサ部１２０は、赤外線センサや超音波センサにより実空間において周囲に存在する実物体との距離を測る測距センサを有していてもよい。また、センサ部１２０は、心拍や脈拍、発汗量、呼吸、血圧、脳波、筋電値、指紋、掌紋等を検出する生体センサを有していてもよい。また、センサ部１２０は、ユーザ端末１０の絶対的または相対的な位置を算出す位置測位部を有していてもよい。位置測位部は、例えば人工衛星からの電波を受信して、ユーザ端末１０が存在している現在位置を検知するＧＮＳＳ（Global　Navigation　Satellite　System）が用いられてもよい。また、ＧＮＳＳの他、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、携帯電話・ＰＨＳ・スマートフォン等との送受信、または近距離通信等により位置を検知する方法が用いられてもよい。また、位置測位部は、加速度センサや角速度センサ等の検出結果に基づいて、相対的な位置の変化を示す情報を推定してもよい。

　また、センサ部１２０は、タッチセンサ、スイッチ、ボタン等を有していてもよい。これらは、ユーザ操作を検出する操作入力部として機能する。

　（表示部１３０）
　表示部１３０は、例えばユーザ端末１０がＨＭＤとして構成される場合、ユーザの左右の眼にそれぞれ固定された左右の画面を備え、左眼用画像および右眼用画像を表示する機能を有する。表示部１３０の画面は、例えば液晶ディスプレイ（ＬＣＤ：Liquid　Crystal　Display）、有機ＥＬ（（Electro　Luminescence）ディスプレイなどの表示パネル、または、網膜直描ディスプレイなどのレーザー走査方式ディスプレイで構成される。また、表示部１３０は、表示画面を拡大投影して、ユーザの瞳に所定の画角からなる拡大虚像を結像する結像光学系を備えてもよい。

　（スピーカ１４０）
　スピーカ１４０は、音声を出力する機能を有する。例えばスピーカ１４０は、ヘッドフォン、イヤフォン、若しくは骨伝導スピーカとして構成されてもよい。

　（記憶部１５０）
　記憶部１５０は、制御部１００の処理に用いられるプログラムや演算パラメータ等を記憶するＲＯＭ（Read　Only　Memory）、および適宜変化するパラメータ等を一時記憶するＲＡＭ（Random　Access　Memory）により実現される。

　（制御部１００）
　制御部１００は、演算処理装置および制御装置として機能し、各種プログラムに従ってユーザ端末１０内の動作全般を制御する。制御部１００は、例えばＣＰＵ（Central　Processing　Unit）、マイクロプロセッサ等の電子回路によって実現される。また、制御部１００は、使用するプログラムや演算パラメータ等を記憶するＲＯＭ（Read　Only　Memory）、及び適宜変化するパラメータ等を一時記憶するＲＡＭ（Random　Access　Memory）を含んでいてもよい。

　また、本実施形態による制御部１００は、センサ部１２０で検出されたセンシングデータ（位置情報、モーション情報、音声、操作情報等）を通信部１１０からサーバ２０に送信する制御を行う。また、制御部１００は、センサ部１２０で検出されたセンシングデータに基づいて算出した情報（自己位置や姿勢の推定情報等）を、通信部１１０からサーバ２０に送信する制御を行ってもよい。

　また、制御部１００は、サーバ２０から受信した仮想空間の情報に基づいて、仮想空間におけるユーザ視点の画像を表示部１３０に表示する制御を行う。ここで、表示部１３０に表示する仮想空間におけるユーザ視点の画像は、サーバ２０から受信した仮想空間の情報に基づいて制御部１００が生成してもよい。制御部１００で生成する場合、制御部１００は、サーバ２０から受信した仮想空間の情報（背景データや仮想空間に存在する各種仮想オブジェクト（他ユーザのアバター含む）のパラメータ等）に基づいて仮想空間を構築する。他ユーザのアバターの動きに関する情報等は、サーバ２０からリアルタイムに送信され得る。

　また、制御部１００は、サーバ２０で生成された、仮想空間におけるユーザ視点の画像を通信部１１０で受信し、表示部１３０に表示する制御を行ってもよい。この場合、制御部１００は、センサ部１２０で検出されたセンシングデータを通信部１１０からサーバ２０に送信し、実空間におけるユーザの位置姿勢の変化が反映された仮想空間の画像を受信し得る。また、制御部１００は、通信による遅延補償のため、受信した仮想空間の画像を、さらに直近で取得したセンシングデータに基づいて補正した上で、表示部１３０に表示する制御を行ってもよい。

　また、制御部１００により表示制御される仮想空間の画像には、上述したように、他の仮想空間におけるコミュニケーション情報を提示する仮想窓５４が含まれ得る。ここで、図６に、本実施形態による仮想窓５４が配置された仮想空間の画像の表示例を示す。

　図６左に示す例は、ルーム５－２Ａに居るユーザ５０Ａのユーザ端末１０Ａに設けられる表示部１３０Ａに表示される、ルーム５－２Ａにおけるユーザ５０Ａ視点の画像の一例である。ルーム５－２Ａにおけるユーザ５０Ａ視点の画像には、ルーム５－２Ａに配置された仮想窓５４Ａの表示が含まれている。仮想窓５４Ａには、他の仮想空間（ここではルーム５－２Ｂ）で撮像された他ユーザ（ここではユーザ５０Ｂ（のアバター））の映像がリアルタイムで表示されている（ライブストリーミングの仕組みが用いられてもよい）。ルーム５－２Ａがユーザ端末１０Ａで構築されている場合、サーバ２０は、ルーム５－２Ｂで撮像されたユーザ５０Ｂ（のアバター）の映像および音声を、リアルタイムでユーザ端末１０Ａに送信する処理を行ってもよい。

　一方、図６右に示す例は、ルーム５－２Ｂに居るユーザ５０Ｂのユーザ端末１０Ｂに設けられる表示部１３０Ｂに表示される、ルーム５－２Ｂにおけるユーザ５０Ｂ視点の画像の一例である。ルーム５－２Ｂにおけるユーザ５０Ｂ視点の画像には、ルーム５－２Ｂに配置された仮想窓５４Ｂの表示が含まれている。仮想窓５４Ｂには、他の仮想空間（ここではルーム５－２Ａ）で撮像された他ユーザ（ここではユーザ５０Ａ（のアバター））の映像がリアルタイムで表示されている（ライブストリーミングの仕組みが用いられてもよい）。ルーム５－２Ｂがユーザ端末１０Ｂで構築されている場合、サーバ２０は、ルーム５－２Ａで撮像されたユーザ５０Ａ（のアバター）の映像および音声を、リアルタイムでユーザ端末１０Ｂに送信する処理を行ってもよい。

　以上、ユーザ端末１０の構成について具体的に説明したが、本実施形態によるユーザ端末１０の構成は図３に示す例に限定されない。例えば、ユーザ端末１０は、複数の装置により実現されてもよい。具体的には、ＨＭＤ等により実現される表示装置（少なくとも表示部１３０を有する）と、スマートフォンやタブレット端末、ＰＣ等により実現される情報処理端末（少なくとも制御部１００を有する）とを含むシステム構成により実現されてもよい。また、センサ部１２０の少なくとも一部が、ユーザ端末１０と通信接続する外部装置（ユーザに装着されるウェアラブルデバイス等）に設けられていてもよい。また、ユーザが手で把持するコントローラにより検出されたセンシングデータを、ユーザ端末１０に入力してもよい。

　また、上述した制御部１００による各処理が、ネットワーク上のサーバ２０や、中間サーバ、ローカルエッジサーバ、ユーザと同一空間に配置された専用端末、スマートフォン、タブレット端末、またはＰＣ等の外部装置により実現されてもよい。

　＜＜３．動作処理＞＞
　次に、本実施形態に係る情報処理システムの動作処理について図７を参照して具体的に説明する。図７は、本実施形態に係る情報処理システムの動作処理の流れの一例を示すシーケンス図である。

　図７に示すように、まず、ユーザ端末１０Ａは、仮想空間の情報を提供するサーバ２０にアクセスして仮想空間にログインする（ステップＳ１０３）。具体的には、予め登録されたユーザＩＤ等に基づいてユーザの認証等が行われ得る。

　次に、サーバ２０は、仮想空間の一つであるラウンジの画像（ラウンジにおけるユーザ視点の画像）を生成し、ユーザ端末１０Ａに送信する（ステップＳ１０６）。ここでは一例として、仮想空間にログインしたユーザはまずラウンジに入る仕様となっている場合について説明する。ラウンジは例えばサーバ２０で構築し、サーバ２０は、ラウンジ内の所定の入口（玄関）からユーザが入ったとみなして最初のユーザ視点を設定する。なお、ここでは一例として最初にラウンジに入る旨を説明したが、本実施形態はこれに限定されず、ログイン後に、いずれの仮想空間に入るかをユーザが任意に選択できるようにしてもよい。

　次いで、ユーザ端末１０Ａは、ラウンジの画像（ラウンジにおけるユーザ視点の画像）を表示部１３０に表示する（ステップＳ１０９）。ユーザ視点は、上述したように、ユーザの分身として仮想空間に描画するアバターの視点であってもよいし（この場合ユーザのアバターはユーザの視界に含まれない）、ユーザのアバターを視界に含む視点であってもよい。また、ユーザ視点は任意に切り替えられる。

　次に、ユーザがユーザ端末１０Ａにより自分の部屋であるルームＡを選択すると（ステップＳ１１２）、サーバ２０は、ルームＡ構築の情報をユーザ端末１０Ａに送信する（ステップＳ１１５）。なお、ここでは一例として各ユーザ個人の部屋（仮想空間）をユーザ端末１０で構築する場合について説明するが、本実施形態はこれに限定されない。例えばユーザ個人の部屋をサーバ２０で構築する場合、サーバ２０は、ルームＡを構築し、ルームＡにおけるユーザＡ視点の画像を生成してユーザ端末１０Ａに送信する。

　次いで、ユーザ端末１０Ａは、サーバ２０から受信した仮想空間の情報（例えば背景データ、各仮想オブジェクトのパラメータ等）に基づいてルームＡを構築し、ルームＡにおけるユーザＡ視点の画像を生成して表示部１３０にＡ表示する（ステップＳ１１８）。

　一方、ユーザ端末１０Ｂにおいても同様にユーザＢによるログインやルームＢの構築が行われ、ルームＢにおけるユーザＢ視点の画像がユーザ端末１０Ｂの表示部１３０Ｂに表示されている（ステップＳ１２１）。

　次に、ユーザＡが、他の仮想空間であるルームＢに居るユーザＢと対話したい場合、ユーザ端末１０Ａは、ユーザＡの操作に応じて、サーバ２０を介してユーザＢ（ユーザ端末１０Ｂ）に対して対話要求を行う（ステップＳ１２４、Ｓ１２７）。なお、ここでは一例としてユーザＡからユーザＢに対話要求を行う場合を示すが、当然、ユーザＢからユーザＡに対話要求を行ってもよい。

　続いて、サーバ２０は、ユーザＢから対話許可を受け取ると（ステップＳ１３０）、仮想カメラおよび仮想窓を、ルームＡおよびルームＢにそれぞれ設置する（ステップＳ１３３、Ｓ１３６）。

　そして、サーバ２０は、各ルームにおいて仮想カメラによりコミュニケーション情報を取得し（ステップＳ１３９、Ｓ１４２）、取得したコミュニケーション情報をそれぞれ相手側のルームに送信し（ステップＳ１４５、Ｓ１５１）、相手側のルームに設置された仮想窓により提示（表示出力や音声出力）する（ステップＳ１４８、Ｓ１５４）。コミュニケーション情報の送信は、ライブストリーミングにより行われてもよい。また、かかるライブストリーミングで用いる規格は特に限定しない。なお、コミュニケーション情報としてテキストまたは音声のみを取得する場合は、各ルームへの仮想カメラ（撮像位置）の設置は不要としてもよい。

　このように、本実施形態による情報処理システムでは、空間移動を伴わずに、複数の仮想空間における双方向対話を可能とする。

　対話終了後は、サーバ２０は仮想窓の設置を解除（仮想窓および仮想カメラの設定を削除）する。対話終了の指示は、ユーザＡまたはユーザＢにより行われてもよい。なお、サーバ２０は、各ルームに仮想窓を常に設置しておいてもよい。サーバ２０は、他のルームのユーザと対話を行う際は仮想窓をオープンし（映像の送受信を開始して対話機能を有効とする）、対話が終了すると仮想窓をクローズ（映像の送受信を終了して対話機能を無効とする）ようにしてもよい。

　以上、本実施形態による情報処理システムの動作処理について具体的に説明した。なお、図７のシーケンス図に示す各ステップの内容および順序は一例であって、本実施形態はこれに限定されない。

　例えば、各ルームは個人の部屋でなく、所定の権限を有するユーザが入れる仮想空間であって、サーバ２０により構築されてもよい。また、ラウンジから各ルームに移動する旨を説明したが、本実施形態はこれに限定されず、ラウンジが無い仮想空間であってもよいし、仮想空間にログインした最初から任意のルームを選択できるようにしてもよい。また、仮想窓を設置して複数の仮想空間で双方向対話を開始するトリガとして、図７に示す例では「対話要求」および「対話許可」を挙げたが、双方向対話を開始するトリガはこれに限定されず、他の何らかのイベントをトリガとしてもよい。

　＜＜４．他の実施形態＞＞
　続いて、本開示による他の実施形態について説明する。上述した実施形態では、複数の仮想空間における双方向対話を、仮想窓を介して実現したが、仮想窓の利用方法はこれに限定されず、例えば他の仮想空間の様子を仮想窓から眺めること（コミュニケーション情報の単方向通信）も可能である。具体的には、例えばサーバ２０は、他の仮想空間に配置された仮想カメラにより撮像された撮像画像を、他の仮想空間とは異なる仮想空間に設置された仮想窓にライブストリーミングにより表示する制御を行う。これにより、他の仮想空間におけるコミュニケーション情報をより簡便に提示し、仮想空間の利便性を高めることが可能となる。

　以下、このような本開示の他の実施形態による情報処理システムについて、図８～図１２を参照して具体的に説明する。ここでは一例として、仮想空間において、マスタークライアントとして配信者である演者が音楽コンサート等の何らかのイベントを行い、一般のクライアントとして視聴者であるユーザが参加する場合を想定する。マスタークライアントとは、一般のクライアントとは異なる特別な権限を有するユーザである。マスタークライアントは、例えば仮想空間の内装を任意に変更できたり（背景の選択や、各仮想オブジェクトの配置等）、一般ユーザの仮想空間への出入りを制限したり、仮想空間からの配信の開始および終了を制御したり、仮想空間内で流す音楽や仮想空間内の照明等、仮想空間全体の制御を行ったりすることができる。

　また、本開示の他の実施形態による情報処理の構成は、例えば図８に示すように、サーバ２０、各ユーザが利用するユーザ端末１０（ユーザ端末１０Ａ～１０Ｂ・・・）、およびマスタークライアントである演者（配信者）が利用する演者端末１２を含む構成が挙げられる。演者端末１２の基本構成は、図３に示す構成と同様である。演者の動きは、演者端末１２に設けられたカメラや、演者の周囲に配置された多数のカメラにより検出され、仮想空間における演者のアバターの動きに反映される。検出されるデータは、演者の３次元の動きを示すデータであってもよい。また、カメラにより演者の表情をトラッキングし、仮想空間における演者のアバターの表情に反映させてもよい。また、演者の音声をマイクにより収音し、演者のアバターの音声として出力してもよい。演者端末１２は、非透過型のＨＭＤにより実現されてもよい。また、演者が把持するコントローラに設けられる各種センサや、演者に装着されるデバイスに設けられる各種センサにより、演者の動きをセンシングしてもよい。また、仮想空間で描画される演者のアバターは、２Ｄ実写であってもよいし、架空のキャラクター等を表現する３ＤＣＧであってもよいし、Volumetric　Capture技術により生成された、より実写に近い３ＤＣＧであってもよい。

　図９は、他の実施形態による仮想窓を利用した単方向のコミュニケーション情報の提示について説明する図である。図９に示すように、例えばイベントルーム５－２Ｅで演者６０によるコンサートが行われている場合を想定する。イベントルーム５－２Ｅには、演者６０と、一般視聴者である一般のユーザ５０が多数参加している。次いで、イベントルーム５－２Ｅで行われているコンサートが終了すると、コンサート終了をトリガとして、演者６０により一般視聴者の中から選ばれたユーザ５０Ｃと演者６０のみが特別ルーム５－２Ｄに移動する。そして、イベントルーム５－２Ｅには、残った一般視聴者が滞在し、さらに、イベントルーム５－２Ｅに設置された仮想窓５４Ｅにより、特別ルーム５－２Ｄの様子がライブストリーミング配信される。仮想窓５４Ｅに表示される映像は、特別ルーム５－２Ｄに配置された仮想カメラ５２Ｄにより撮像された映像である。

　このように、他の実施形態による情報処理システムでは、コンサート終了等の所定のイベントの終了をトリガとして会場が分岐した際に、関連する他の仮想空間の様子を仮想窓からリアルタイムで提示する制御が行われ得る。

　なお、特別ルーム５－２Ｄに移動させるユーザの選択方法は特に限定しないが、例えば、課金報酬額に応じて選択してもよいし、盛り上がりを検出して最も盛り上がっているユーザ（声が大きい、動きが大きい等）を選択してもよいし、仮想空間内で演者６０が指差したユーザを選択してもよいし、演者６０が名前を呼んで返事をしたユーザを選択してもよい。仮想空間における演者６０（アバター）の指差し動作は、例えば実空間における演者６０（人間）のボーン情報から取得される演者６０の手指のモーション情報に基づいて制御される。サーバ２０は、演者６０の手指のモーション情報に基づいて、特別ルーム５－２Ｄ（仮想空間）の演者６０のアバターの手指を描画し、指差し方向に衝突するユーザを選択したものとする。

　このような他の実施形態の動作処理について、以下、図１０を参照して説明する。

　（動作処理）
　図１０は、本開示の他の実施形態による情報処理システムの動作処理の流れの一例を示すフローチャートである。図１０に示すように、まず、イベントルーム５－２Ｅにおいて演者６０によるライブイベント（例えば音楽コンサートの生配信等）が行われる（ステップＳ２０３）。例えばサーバ２０は、演者６０の演者端末１２からの入力情報に従って、イベントルーム５－２Ｅの制御を行う。より具体的には、サーバ２０は、演者６０に選択された背景および仮想オブジェクトでイベントルーム５－２Ｅを構築したり、イベントルーム５－２Ｅに演者６０のアバターを描画したり、演者６０の動きに応じて演者６０のアバターの動きを制御したり、演者６０の指示に従ってイベントルーム５－２Ｅ内で音楽を再生したり、照明を制御したりする。なお、演者６０以外にも所定の権限を有する配信者が存在し、配信者によりイベントルーム５－２Ｅ内の設定が適宜指示される場合も想定される。また、サーバ２０は、イベントルーム５－２Ｅに参加する各ユーザ（一般視聴者）のアバターを描画したり、各ユーザの動きに応じて各ユーザのアバターの動きを制御したりする。また、サーバ２０は、各ユーザ（一般視聴者）の視点（例えば各ユーザのアバターの視点）からの画像を生成し、各ユーザ端末１０にリアルタイムで送信する（ライブストリーミング配信でもよい）。また、サーバ２０は、演者６０の視点（例えば演者６０のアバターの視点）からの画像を生成し、演者端末１２にリアルタイムで送信する（ライブストリーミング配信でもよい）。

　次いで、サーバ２０は、演者６０によるユーザの選択を受け付ける（ステップＳ２０６）。演者６０は、イベントルーム５－２Ｅに参加する各ユーザ（一般視聴者）の中から、特別ルームに移動させるユーザを選択することが可能である。選択するユーザは一人であってもよいし、二人以上であってもよい。また、ここでは一例として演者６０が選択する旨を述べているが、演者６０とは別に存在する所定の権限を有する配信者が選択してもよいし、所定の条件に基づいてサーバ２０が自動的に選択してもよい。

　次に、ライブイベントが終了すると（ステップＳ２０９／Ｙｅｓ）、サーバ２０は、演者６０と、選択されたユーザを、特別ルーム５－２Ｄに移動させる（ステップＳ２１２）。かかる移動は空間移動である。サーバ２０は、特別ルーム５－２Ｄを構築し、特別ルーム５－２Ｄに、演者６０のアバターおよび選択されたユーザ（図９に示す例ではユーザ５０Ｃ）のアバターを描画する。また、サーバ２０は、演者端末１２および選択されたユーザのユーザ端末に、特別ルーム５－２Ｄにおける各視点（演者６０視点、ユーザ５０Ｃ視点）の画像をそれぞれ送信する。選択されたユーザ５０Ｃは、特別ルーム５－２Ｄに移動するため、同じく特別ルーム５－２Ｄに移動した演者６０と対話することが可能となる。

　次いで、サーバ２０は、特別ルーム５－２Ｄに設置した仮想カメラ５２Ｄにより、演者とユーザ５０Ｃとのコミュニケーション情報（音声や映像）を取得する（ステップＳ２１５）。すなわち、サーバ２０は、仮想カメラ５２Ｄにより、演者とユーザ５０Ｃとが対話している様子を撮像し、その撮像画像を取得する。仮想カメラ５２Ｄの配置場所は特に限定しないが、例えばサーバ２０は、演者６０とユーザ５０Ｃを俯瞰する位置から撮影するよう仮想カメラ５２Ｄを配置してもよい。若しくは、サーバ２０は、演者６０と対話するユーザ５０Ｃ視点で仮想カメラ５２Ｄを配置してもよいし、演者６０のみを近接して撮影する位置に仮想カメラ５２Ｄを配置してもよい。また、特別ルーム５－２Ｄに仮想カメラ５２Ｄを複数設置し、配信者側のスタッフが任意に切り替えてもよい。

　そして、サーバ２０は、特別ルーム５－２Ｄのコミュニケーション情報を、特別ルーム５－２Ｄに関連する仮想空間であるイベントルーム５－２Ｅに設置した仮想窓５４Ｅから提示する（ステップＳ２１８）。なお、イベントルーム５－２Ｅに設置される仮想窓５４Ｅは、イベントルーム５－２Ｅに残っている多数の一般視聴者ユーザから見えるように、大きなスクリーン（仮想オブジェクト）により実現し、空間の上方に配置してもよい。

　ここで、図１１に、他の実施形態による仮想窓５４Ｅが配置された仮想空間（イベントルーム５－２Ｅ）におけるユーザ５０Ａ視点の画像の表示例を示す。図１１上に示す図は、イベントルーム５－２Ｅにおいて演者６０により音楽コンサート等のライブイベントが行われている際のユーザ５０Ａ視点の画像である。かかる画像は、ユーザ端末１０Ａの表示部１３０Ａに表示され得る。

　次いで、ライブイベントが終了すると、演者６０および選ばれたユーザ５０Ｃが、イベントルーム５－２Ｅから分岐した他の仮想空間（特別ルーム５－２Ｄ）に移動する。このため、イベントルーム５－２Ｅでは演者６０および選ばれたユーザ５０Ｃが不在となる。そして、ユーザ端末１０Ａの表示部１３０Ａには、図１１下に示す画像が表示される。図１１下に示す画像は、特別ルーム５－２Ｄの映像をリアルタイムで表示する仮想窓５４Ｅが配置されたイベントルーム５－２Ｅ（仮想空間）におけるユーザ５０Ａ視点の画像である。

　以上説明したように、他の実施形態による情報処理システムによれば、ユーザが居る仮想空間から分岐した他の仮想空間で複数の他ユーザがコミュニケーションを取っている様子を、空間移動を伴うことなく、ユーザが居る仮想空間に配置された仮想窓５４を介して、リアルタイムに視聴することが可能となる。

　なお、上述した実施形態では、ライブイベントが終了した後、イベントルーム５－２Ｅに仮想窓５４Ｅを配置し、特別ルーム５－２Ｄのコミュニケーション情報を仮想窓５４Ｅで提示しているが、本実施形態はこれに限定されない。図１２は、他の実施形態による特別ルーム５－２Ｄのコミュニケーション情報の他の提示例について説明する図である。例えばサーバ２０は、ライブイベント終了をトリガとしてイベントルーム５－２Ｅをクローズし、イベントルーム５－２Ｅに居た一般視聴者ユーザを、図１２に示すような他のルームＦに移動させてもよい。他のルームＦは、イベント会場の外という位置付けであって、例えばイベントのグッズを販売するグッズ販売会場としてもよい。イベント会場にはチケット購入者だけが入れるが、グッズ販売会場には誰でも入れるようにしてもよい。また、他のルームＦは、特別ルーム５－２Ｄの様子が見える視聴ルーム（サブルーム）という位置付けであってもよい。若しくは、他のルームＦは、当該仮想空間の中心として位置付けされるラウンジ（図２参照）であってもよい。また、さらに、特別ルーム５－２Ｄで取得されるコミュニケーション情報は、仮想空間に配置される仮想窓５４Ｅでの提示に限定されず、図１２に示すように、スマートフォンやタブレット端末、透過性メガネ型ディスプレイ、ＰＣ、若しくはＴＶ装置、投影装置等の表示装置により実現されるユーザ端末１０Ｇで提示（ライブストリーミング配信）されてもよい。これにより、視聴者を増やすことが可能となる。

　また、上述した実施形態では、仮想空間から分岐した他の仮想空間のコミュニケーション情報を、仮想空間に配置した仮想窓から単方向配信する処理を開始するトリガとして、「ライブイベントの終了」を挙げたが、かかるトリガは一例であって、本実施形態はこれに限定されない。他の所定のイベントの終了をトリガとしてもよいし、所定のイベントの開始をトリガとしてもよいし、所定の時間が経過したことをトリガとしてもよいし、所定のイベントが生じたことをトリガとしてもよい。

　＜＜５．応用例＞＞
　以下、本実施形態の応用例について説明する。

　図４を参照して説明した上記実施形態では、各仮想空間に居る単一のユーザ同士の双方向対話を、空間移動を伴わずに簡便に行い得るシステムについて説明したが、本実施形態はこれに限定されず、第１の仮想空間に居るＮ人と、第２の仮想空間に居るＮ人との間で、仮想窓を介して双方向対話を行うことも可能である。

　図１３は、本実施形態の応用例による少なくとも一方の仮想空間に複数人居る場合の仮想空間同士における双方向対話について説明する図である。図１３に示すように、例えばルームＡに３人、ルームＢに１人居る場合にも、仮想窓５４を介してルームＡとルームＢ間で双方向対話を行うことが可能である。具体的には、サーバ２０は、ルームＡのユーザ５０Ａ、５０Ｃ、５０Ｄを撮像する仮想カメラ５２Ａ－１～５２Ａ－３をルームＡにそれぞれ配置し、かかる仮想カメラ５２Ａ－１～５２Ａ－３で得た撮像画像を、ルームＢの仮想窓５４Ｂにリアルタイムで表示する制御を行う。複数人を仮想窓５４Ｂに表示する際、サーバ２０は、背景はその中の１人のユーザの背景を利用し、他のユーザは背景を消して合成表示するようにしてもよいし、３人の画像を並べて表示してもよい。また、３人の画像を並べて表示する場合、サーバ２０は、喋っているユーザの画像を優先的に大きく表示するようにしてもよい。また、ルームＡの複数ユーザを撮影するカメラアングルは、図１３に示すように各ユーザの目線に合わせてもよいし（各ユーザをそれぞれ正面から撮影）、複数ユーザを俯瞰した視点から１つの仮想カメラにより撮影してもよい。カメラアングルは、ユーザによる操作（ジェスチャ操作や、ボタン操作、音声入力操作等）により任意に切り替えてもよい。

　また、ルームＡに配置される仮想窓５４Ａ－１～５４Ａ－３には、ルームＢに配置された仮想カメラ５２Ｂにより撮影されたユーザ５０Ｂの映像が表示される。ユーザ５０Ｂのカメラアングルは、図１３に示すように、ユーザ５０Ｂの目線に合わせてもよいし（ユーザ５０Ｂを正面から撮影）、ユーザ５０Ｂを俯瞰した視点から撮影してもよい。また、ルームＡに配置される仮想窓５４Ａ－１～５４Ａ－３には、ルームＢの映像のみならず、同じルームＡで当該対話に参加する全てのユーザの映像（すなわち同じ仮想空間の映像）も含めて表示されてもよい。図１４は、図１３に示すルームＡにおけるユーザ５０Ａ視点の画像の他の例を示す図である。図１４に示すように、ユーザ５０Ａのユーザ端末１０Ａの表示部１３０Ａには、ルームＡ（仮想空間）に配置された仮想窓５４Ａ－１に、ルームＢのユーザ５０Ｂ（アバター）を撮像した画像と、当該対話に参加している同じルームＡに居るユーザ５０Ｃ（アバター）の撮像画像およびユーザ５０Ｄ（アバター）の撮像画像がリアルタイムに表示される。

　（その他）
　なお、仮想窓５４に表示される画像は、仮想空間におけるリアルタイムの撮像画像に限定されず、ユーザ操作により任意の画像（静止画および動画）が表示されてもよい（画像の共有）。共有される画像は、対話に参加しているユーザに関係する画像（例えば全員で参加したイベントの映像等）であってもよい。

　また、仮想窓５４には、対話参加者の他、スタッフＡＩ（artificial　intelligence）が加わり、スタッフＡＩにより対話のファシリテートを行うようにしてもよい。スタッフＡＩとは、システム側が用意した自然言語処理等によりユーザとの自動対話が可能なキャラクターである。

　また、仮想窓５４に表示する画像を撮像する仮想カメラ５２のアングルは特に限定しない。また、１人のユーザに対して仮想カメラ５２を複数配置し、カメラアングルをユーザが任意に切り替えられるようにしてもよい。

　＜＜６．補足＞＞
　上述したように、本開示の実施形態による情報処理装置では、他の仮想空間におけるコミュニケーション情報をより簡便に提示し、仮想空間の利便性を高めることが可能となる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　例えば、本実施形態による情報処理システムは、エンターテインメント、教育、スポーツ、ビジネス、作業支援、建築、研究、医療、ボランティア活動、冠婚葬祭、公共機関、金融、災害、宇宙開発等の、幅広い領域に適用可能である。

　具体的には、塾や学校等の教育機関において、遠隔で授業が行われる場合に、仮想空間内の自分の部屋で、仮想空間内の教室からの授業を、仮想窓から視聴することが可能となる。また、質問ルーム（授業が終わった後に質問がある生徒だけが移動して先生に質問できる仮想空間）で先生に個別に質問を行っている生徒の会話（質問ルームにおける先生と生徒のコミュニケーション情報）を、授業が終わった後の教室（仮想空間）に設置された仮想窓にライブストリーミング配信してもよい。教室に残っている他の生徒は、質問ルームに移動することなく、質問の様子を即座に視聴することが可能となる。

　また、本実施形態による情報処理システムは、遠隔地に居る指導者が、作業者に作業のノンバーバルコミュニケーション（非言語コミュニケーション）による指示（例えばジェスチャ等による指示）を行う場合にも適用され得る。指導者のジェスチャは、例えばカメラや手に装着されたセンサにより手の細かい動きが検出され、細かく動く手の仮想オブジェクトが仮想空間に描画され得る。また、指示の対象となる作業は、仮想空間内での作業であってもよいし、現実空間内での作業であってもよい。仮想空間内での作業の場合、他の仮想空間において指導者がノンバーバルコミュニケーションによる指示を出している様子が、仮想空間に配置された仮想窓に表示されるため、作業者は、仮想窓に表示される指導者からの指示を受けつつ、仮想空間内での作業を行うことが可能となる。なお、現実空間での作業の場合、作業者は透過型のＨＭＤ（例えば透過性メガネ型ディスプレイ）を装着し、仮想窓をＡＲ表示してもよい。

　また、上述したように、本実施形態による仮想空間で描画されるアバターは、Volumetric　Capture技術により生成された、より実写に近い３ＤＣＧ（以下、ボリュメトリックアバターとも称する）であってもよい。ボリュメトリックアバターを用いる場合、ユーザの身体全体の動きや指先の動きを詳細に確認することができる。したがって、例えばトレーニングコーチやゴルフ教室の先生等が、生徒であるボリュメトリックアバターの全身動作を見て身体の動きの修正箇所の指導を行うことも可能である。また、個別指導ルームにおいて先生（必ずしもボリュメトリックアバターでなくともよいが、手本を見せる場合にはボリュメトリックアバターが好ましい）が生徒（ボリュメトリックアバター）に指導している様子を、他の生徒が待機する待機ルーム等の仮想空間に配置された仮想窓にライブストリーミング配信してもよい。

　また、診察の順番待ちをしている患者のカウンセリングや診療の対話に使用することも可能である。例えば、診察の順番待ちをしている患者が居る待合室ルームに設置された仮想窓を介して、他の部屋（他の仮想空間）に居る医者と双方向対話を行うことが可能である。

　また、上述した実施形態では、仮想空間の中心に位置付けられるラウンジから移動可能な各ルーム間における双方向対話や単方向配信を、仮想窓を介して行う場合について説明したが、本開示はこれに限定されない。例えば個別に存在して行き来の出来ない（若しくはラウンジのような共有できる場所のない）仮想空間同士での双方向対話や単方向配信を、仮想窓を介して行うことも可能である。

　また、同じ仮想空間内であっても、離れた場所や移動に時間のかかる場所等に居る他のユーザと仮想窓を介して双方向対話を行ったり単方向配信を行ったりするようにしてもよい。相手ユーザが居る場所までの移動時間が省かれ、仮想空間の利便性が高まる。

　また、ユーザ端末１０は、非透過型のＨＭＤに限定されず、透過型のＡＲグラスであってもよい。また、仮想窓（仮想オブジェクト）は、ＡＲ（Augmented　Reality）表示（現実空間に重畳表示）されてもよい。これにより、仮想空間に居る他のユーザと対話する際に、ユーザ端末１０やサーバ２０における仮想空間の構築の処理負担が省かれる。本実施形態による情報処理システムは、ＶＲ、ＡＲ、ＭＲ（Mixed　Reality）といったＸＲ体験に適用可能である。

　また、双方向対話や単方向配信は、２つの仮想空間の間に限定されず、３つ以上の仮想空間の間で仮想窓を介して行われ得る。

　また、仮想窓で提示されるコミュニケーション情報は、２次元映像に限らず、３Ｄ映像（立体視映像）であってもよい。ユーザ端末１０の表示部１３０が、ユーザの左右の眼にそれぞれ固定された左右の画面を備え、左眼用画像および右眼用画像を表示する機能を有する場合、立体視映像を提供することが可能である。他の仮想空間から取得する立体視映像は、３６０度の立体視映像であってもよいし、１８０度の立体視映像であってもよい。また、他の仮想空間から取得する立体視映像は、上下に配置するTop　and　Bottomの方式であってもよいし、左右に配置するSide　by　Sideの方式であってもよい。サーバ２０は、他の仮想空間の立体視映像を、仮想空間にステレオＶＲストリーミング配信する。この際、例えばサーバ２０は、他の空間の立体視映像をユーザ視点における視野の中心に描画し、ユーザが居る仮想空間の背景をその周辺に描画することで、空間移動することなく、ユーザが居る仮想空間において、他の仮想空間の映像を視聴することが可能となる。

　また、上述したユーザ端末１０またはサーバ２０に内蔵されるＣＰＵ、ＲＯＭ、およびＲＡＭ等のハードウェアに、ユーザ端末１０またはサーバ２０の機能を発揮させるための１以上のコンピュータプログラムも作成可能である。また、当該１以上のコンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、本技術は以下のような構成も取ることができる。
（１）
　仮想空間の表示を制御する制御部を備え、
　前記制御部は、
　　他の仮想空間における１以上の他ユーザのコミュニケーション情報を取得し、
　　前記取得したコミュニケーション情報を、前記仮想空間に配置した仮想オブジェクトにより提示する制御を行う、情報処理装置。
（２）
　前記制御部は、
　　前記仮想空間における１以上のユーザのコミュニケーション情報を取得し、前記他の仮想空間に出力する制御を行う、前記（１）に記載の情報処理装置。
（３）
　前記制御部は、
　　前記他の仮想空間において行われている複数の他ユーザのコミュニケーション情報を取得し、前記仮想空間に配置した前記仮想オブジェクトにより提示する制御を行う、前記（１）または（２）に記載の情報処理装置。
（４）
　前記コミュニケーション情報には、撮像画像、テキスト、音声の少なくともいずれかが含まれる、前記（１）～（３）のいずれか１つに記載の情報処理装置。
（５）
　前記制御部は、前記仮想オブジェクトに、前記コミュニケーション情報に含まれる前記他の仮想空間で撮像された１以上の撮像画像を表示する制御を行う、前記（１）～（４）のいずれか１つに記載の情報処理装置。
（６）
　前記制御部は、前記仮想空間におけるユーザの視点に対向する位置に仮想カメラを配置し、当該仮想カメラにより撮影した前記ユーザのアバターの撮像画像を、前記ユーザのコミュニケーション情報として前記他の仮想空間に出力する制御を行う、前記（１）～（５）のいずれか１つに記載の情報処理装置。
（７）
　前記制御部は、所定のイベントが終了したことをトリガとして前記仮想空間から分岐した前記他の仮想空間における１以上の他ユーザのコミュニケーション情報を取得し、前記仮想空間に配置した仮想オブジェクトにより提示する制御を行う、前記（１）～（６）のいずれか１つに記載の情報処理装置。
（８）
　前記制御部は、前記他の仮想空間が分岐した際、前記仮想空間に居た１以上のユーザのうち、１以上の特定のユーザを、前記他の仮想空間に移動させる制御を行う、前記（７）に記載の情報処理装置。
（９）
　前記情報処理装置は、さらに通信部を備え、
　前記制御部は、前記仮想空間におけるユーザ視点の画像を生成し、ユーザの情報処理端末に前記通信部から送信する制御を行う、前記（１）～（８）のいずれか１つに記載の情報処理装置。
（１０）
　前記情報処理装置は、さらに表示部を備え、
　前記制御部は、前記仮想空間におけるユーザ視点の画像を生成し、前記表示部に表示する制御を行う、前記（１）～（８）のいずれか１つに記載の情報処理装置。
（１１）
　表示部と通信部を有する情報処理端末と、
　前記表示部への仮想空間の表示を制御する制御部と通信部を有する情報処理装置と、
　を備え、
　前記制御部は、
　　他の仮想空間における１以上の他ユーザのコミュニケーション情報を取得し、
　　前記取得したコミュニケーション情報を、前記表示部に表示する前記仮想空間に配置した仮想オブジェクトにより提示する制御を行う、情報処理システム。
（１２）
　プロセッサが、
　仮想空間の表示を制御することと、
　他の仮想空間における１以上の他ユーザのコミュニケーション情報を取得し、前記取得したコミュニケーション情報を、前記仮想空間に配置した仮想オブジェクトにより提示する制御を行うことと、
　を含む、情報処理方法。
（１３）
　通信部と、
　表示部と、
　前記通信部により情報処理装置から受信した仮想空間の画像を前記表示部に表示する制御を行う制御部と、
　を備え、
　前記制御部は、他の仮想空間における１以上の他ユーザのコミュニケーション情報が、前記仮想空間に配置された仮想オブジェクトにより提示される画像を表示する、情報処理端末。

　１０　ユーザ端末
　１００　制御部
　１１０　通信部
　１２０　センサ部
　　１２２　カメラ
　　１２４　マイク
　　１２６　モーションセンサ
　１３０　表示部
　１４０　スピーカ
　１５０　記憶部
　２０　サーバ
　２００　制御部
　　２０１　仮想空間情報提供部
　　２０２　仮想窓制御部
　２１０　通信部
　２２０　記憶部

Claims

　仮想空間の表示を制御する制御部を備え、
　前記制御部は、
　　他の仮想空間における１以上の他ユーザのコミュニケーション情報を取得し、
　　前記取得したコミュニケーション情報を、前記仮想空間に配置した仮想オブジェクトにより提示する制御を行う、情報処理装置。
　前記制御部は、
　　前記仮想空間における１以上のユーザのコミュニケーション情報を取得し、前記他の仮想空間に出力する制御を行う、請求項１に記載の情報処理装置。
　前記制御部は、
　　前記他の仮想空間において行われている複数の他ユーザのコミュニケーション情報を取得し、前記仮想空間に配置した前記仮想オブジェクトにより提示する制御を行う、請求項１に記載の情報処理装置。
　前記コミュニケーション情報には、撮像画像、テキスト、音声の少なくともいずれかが含まれる、請求項１に記載の情報処理装置。
　前記制御部は、前記仮想オブジェクトに、前記コミュニケーション情報に含まれる前記他の仮想空間で撮像された１以上の撮像画像を表示する制御を行う、請求項１に記載の情報処理装置。
　前記制御部は、前記仮想空間におけるユーザの視点に対向する位置に仮想カメラを配置し、当該仮想カメラにより撮影した前記ユーザのアバターの撮像画像を、前記ユーザのコミュニケーション情報として前記他の仮想空間に出力する制御を行う、請求項１に記載の情報処理装置。
　前記制御部は、所定のイベントが終了したことをトリガとして前記仮想空間から分岐した前記他の仮想空間における１以上の他ユーザのコミュニケーション情報を取得し、前記仮想空間に配置した仮想オブジェクトにより提示する制御を行う、請求項１に記載の情報処理装置。
　前記制御部は、前記他の仮想空間が分岐した際、前記仮想空間に居た１以上のユーザのうち、１以上の特定のユーザを、前記他の仮想空間に移動させる制御を行う、請求項７に記載の情報処理装置。
　前記情報処理装置は、さらに通信部を備え、
　前記制御部は、前記仮想空間におけるユーザ視点の画像を生成し、ユーザの情報処理端末に前記通信部から送信する制御を行う、請求項１に記載の情報処理装置。
　前記情報処理装置は、さらに表示部を備え、
　前記制御部は、前記仮想空間におけるユーザ視点の画像を生成し、前記表示部に表示する制御を行う、請求項１に記載の情報処理装置。
　表示部と通信部を有する情報処理端末と、
　前記表示部への仮想空間の表示を制御する制御部と通信部を有する情報処理装置と、
　を備え、
　前記制御部は、
　　他の仮想空間における１以上の他ユーザのコミュニケーション情報を取得し、
　　前記取得したコミュニケーション情報を、前記表示部に表示する前記仮想空間に配置した仮想オブジェクトにより提示する制御を行う、情報処理システム。
　プロセッサが、
　仮想空間の表示を制御することと、
　他の仮想空間における１以上の他ユーザのコミュニケーション情報を取得し、前記取得したコミュニケーション情報を、前記仮想空間に配置した仮想オブジェクトにより提示する制御を行うことと、
　を含む、情報処理方法。
　通信部と、
　表示部と、
　前記通信部により情報処理装置から受信した仮想空間の画像を前記表示部に表示する制御を行う制御部と、
　を備え、
　前記制御部は、他の仮想空間における１以上の他ユーザのコミュニケーション情報が、前記仮想空間に配置された仮想オブジェクトにより提示される画像を表示する、情報処理端末。