JP6285941B2

JP6285941B2 - 制御された三次元通信エンドポイント

Info

Publication number: JP6285941B2
Application number: JP2015536848A
Authority: JP
Inventors: スミス，ヤンシー・クリストファー; ラング，エリック・ジー; ユイテマ，クリスチャン・エフ; ジャーン，ジュヨンヨウ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2012-10-10
Filing date: 2013-10-09
Publication date: 2018-02-28
Anticipated expiration: 2033-10-09
Also published as: WO2014058931A2; WO2014058931A3; US9332222B2; US8976224B2; EP3651454A1; CN104782122A; KR20150067194A; CN104782122B; US20140098183A1; US20150163454A1; KR102108596B1; JP2016500954A; EP2907302A2

Description

[0001]現在のビデオ会議技術は、一般的に、単一のカメラを使用して、ローカルシーンから（赤、青、および緑（ＲＧＢ）カラーモデルに由来する）ＲＧＢデータを取り込む。このローカルシーンは一般に、ミーティング参加者と呼ばれる、ビデオ会議に参加している人々を含んでいる。このデータは次に、リアルタイムでリモートの場所に送信され、次に、他のミーティング参加者とは異なる場所にいる別のミーティング参加者に表示される。

[0002]さらなる高精細取り込み、圧縮、および伝送を行う助けとなるビデオ会議技術が進歩したが、一般的に、直に会っての（ｉｎ−ｐｅｒｓｏｎ）会議の対面の体験を再現することが不十分である。この１つの理由は、一般的なビデオ会議体験には、視線および他の正確な会話のジオメトリ（ｃｏｎｖｅｒｓａｔｉｏｎａｌｇｅｏｍｅｔｒｙ）がないことである。例えば、一般的に、リモートで取り込まれている人は、対面の会話で体験するように相手の目を見つめていない。さらに、シーンおよびミーティング参加者を取り込んでいるのは単一の固定ビデオカメラしかないので、運動視差および画像奥行きのような三次元（３Ｄ）要素、ならびにシーンの眺め（ｐｅｒｓｐｅｃｔｉｖｅ）を変える自由がない。

[0003]この節により、以下の発明を実施するための形態でさらに説明する概念の抜粋を簡略化して紹介する。この節は、特許請求の範囲に記載する主題の主要な特徴または本質的特徴を特定することを目的とせず、さらに特許請求の範囲に記載する主題の範囲を限定するように使用されることを目的としない。

[0004]制御された三次元（３Ｄ）通信エンドポイントシステムおよび方法の諸実施形態は、オンラインミーティングまたは会議の参加者間の直に会ってのコミュニケーションをシミュレートする。その上、制御された３Ｄ通信エンドポイントシステムおよび方法の諸実施形態は、仮想環境に含まれる仮想テーブルのサイズを単に大きくすることによって、さらなる参加者を追加することができるように、参加者を含んだ仮想環境の容易なスケール変更を可能にする。さらに、制御されたエンドポイントにより、見る者（ｖｉｅｗｅｒ）は、あたかも他の参加者が見る者と同じ部屋にいるように感じることができるようになる。

[0005]詳細には、制御された３Ｄ通信エンドポイントシステムおよび方法の諸実施形態は、エンドポイントで複数のカメラポッドを使用して、参加者の３Ｄビデオ画像を取り込む。制御されたエンドポイントの複数のカメラポッドは、これらが参加者の周りの３６０度からの参加者の取り込みを可能にするように配列される。映像によって取り込まれたデータから、参加者の幾何（ジオメトリック）プロキシが作成される。取り込まれた映像からのＲＧＢデータおよび奥行き情報を使用して、各参加者に幾何プロキシが作成される。

[0006]このシステムおよび方法の諸実施形態によって、直に会ってのコミュニケーションに存在する視線および会話のジオメトリと一致する、シーンジオメトリが作成される。シーンジオメトリの一般的な考えは、参加者間に相対的ジオメトリを作成することである。シーンは、あたかも参加者が同じ物理的場所にいて、直に会ってのコミュニケーションに関わっているかのように事実上、現実のシーンをまねるように整合される。

[0007]シーンジオメトリは、参加者間の相対的な、矛盾のないジオメトリを有するように、仮想ボックスを使用する。２人の参加者のあるミーティング（すなわち、１対１（１：１）のシーンジオメトリ）は、２人の参加者のそれぞれのモニタ（図示せず）の前の空間を占有する２つのボックスからなる。３人の参加者が存在するとき、シーンジオメトリは、仮想の丸いテーブルを囲んで等距離に置かれた３つの仮想ボックスを含む。

[0008]シーンジオメトリはまた、仮想カメラを含む。仮想カメラは、いずれか１つのカメラポッドだけによって取り込まれないカメラビューを取得するために、複数のカメラポッドの２つ以上からの画像の合成である。これにより、自然な視線および人々の間のつながりを取得するためのシステムおよび方法の諸実施形態が可能になる。顔追跡技法を使用して、仮想カメラが見る者の視線と位置合わせされた状態を維持する助けとすることによってパフォーマンスを向上させることができる。これは、仮想カメラが、垂直方向と水平方向の両方において、水平および見る者の目と位置合わせされた状態を維持すること意味する。仮想カメラは、顔追跡と対話して、ユーザの目が見ている場所をユーザに見せる仮想視点を作成する。したがって、ユーザが目をそらす場合、仮想視点は、視線をそらしているユーザの眺めに由来する。ユーザが他の参加者を見ている場合、仮想視点は、他の参加者を見ているユーザの眺めに由来する。これは、ユーザが他の参加者を見ているように人工的に見せかけることによるのではなく、ユーザが見ている場所を正確に表す仮想ジオメトリ（ｖｉｒｔｕａｌｇｅｏｍｅｔｒｙ）を作成することによって行われる。

[0009]幾何プロキシは、互いに対してレンダリングされ、シーンジオメトリと共に仮想環境に配置される。レンダリングされた幾何プロキシおよびシーンジオメトリは、参加者のそれぞれに送信される。仮想環境は、エンドポイントの制御された環境で（やはり参加者の１人である）見る者に表示される。詳細には、各エンドポイントが、仮想視点を使用して見る者に仮想環境を表示する表示装置構成を含む。仮想視点は、見る者の目の位置および向きによって決まる。目の位置および向きによって見る者は、ミーティングの他の参加者の異なる眺め、ならびに仮想環境の他の態様を見る。

[0010]現実空間および仮想空間のレジストレーションにより、表示される画像は、見る者が仮想環境で他の参加者を見ているとしたら、見る者が見るものであることが確実になる。また、顔追跡技法を使用して見る者の目を追跡し、仮想視点が何を表示すべきかを知ることができる。効率的な方法で参加者のスケールで写実的なジオメトリを作成し、参加者が皆１つの物理的場所に共にいるという錯覚を維持する助けとするために、エンドポイントのサイズおよびレイアウトを制御することが、ソリューションの構築をより容易にする。

[0011]表示装置構成は、（モニタ、またはスクリーンなどの）複数の表示装置を含む。表示装置構成は、表示装置が見る者の周りの少なくとも１８０度に配列されるように、エンドポイント環境を制御する。これにより、見る者が確実に、没入体験を有し、あたかも他の参加者と同じ物理的空間に実際にいるように感じることができるようになる。

[0012]このシステムおよび方法の諸実施形態はまた、スケーラビリティの容易さをもたらす。詳細には、いくつかの実施形態の仮想テーブルは、第１の直径を有する丸い（または円形の）仮想テーブルである。参加者のそれぞれの幾何プロキシは、仮想テーブルの周りの仮想環境に配置される。これにより、見る者が仮想テーブルの周りの参加者のそれぞれを確実に見ることができるようになる。さらに多くの参加者がオンラインミーティングに追加される場合、仮想の丸テーブルは、第１の直径よりも大きい第２の直径にサイズを拡大される。第２の直径は、第１の直径よりも大きい任意の直径とすることができる。この拡大は、表示用のビューに参加者のそれぞれを依然として維持し、他の参加者とテーブルを囲んで同じ部屋にいるという錯覚を与える。

[0013]このシステムおよび方法の諸実施形態はまた、単一のエンドポイントにおける複数の参加者を容易にすることを含む。いくつかの実施形態では、顔追跡技法が、２つの異なる顔を追跡し、次に見る者ごとに異なるビューを提供する。他の実施形態では、エンドポイントで複数の参加者のそれぞれに眼鏡が着用され、いくつかの実施形態では、眼鏡にアクティブシャッターがあって、眼鏡ごとに調整された、モニタで表示される交互のフレームを各着用者に見せる。他の実施形態は、右側からモニタを見ている見る者があるシーンを見て、左からモニタを見ている別の見る者が異なるシーンを見るように、複数の視野角を有するモニタを使用する。

[0014]代替的実施形態が可能であり、本明細書に記載するステップおよび要素は、特定の実施形態に応じて、変更される、追加される、または削除されることが可能であることに留意されたい。これらの代替的実施形態は、本発明の範囲を逸脱することなく、使用することができる代替的ステップおよび代替的要素、ならびに行うことができる構造的変更を含む。

[0015]次に、同じ参照符号が全体を通して対応する部分を表す図面を参照する。

[0016]コンピューティング環境で実行される、制御された三次元（３Ｄ）通信エンドポイントシステムおよび方法の諸実施形態の全体的概要を示すブロック図である。 [0017]図１に示す３Ｄ通信処理システムのシステム詳細を示すブロック図である。 [0018]図１に示す制御された３Ｄ通信エンドポイントおよび方法の諸実施形態のカメラポッドの例示的実施形態の詳細を示すブロック図である。 [0019]４つのカメラポッドを使用する（図２に示すような）カメラポッドレイアウトの例示的実施形態を示す図である。 [0020]３つの表示装置を使用する（図１に示すような）表示装置構成の例示的実施形態を示す図である。 [0021]本明細書に記載し、図１〜５および７〜１５に示す３Ｄ通信ウィンドウシステムおよび方法の様々な実施形態および要素が実行されることが可能である汎用コンピュータシステムの簡略化した例を示す図である。 [0022]図１に示す制御された３Ｄ通信エンドポイントシステムの全体的動作を示す流れ図である。 [0023]図１に示す３Ｄ通信処理システムの全体的動作を示す流れ図である。 [0024]さらなるエンドポイントに対応するためにシステムおよび方法の実施形態をスケールアップする例示的エンドポイントを示す例示的実施形態を示す図である。 [0025]単一ミーティング参加者の幾何プロキシの作成の例示的概要を示す図である。 [0026]オンラインミーティングに（２つの異なるエンドポイントで）２人の参加者が存在するとき、参加者間のシーンジオメトリの例示的実施形態を示す図である。 [0027]３つの異なるエンドポイントでオンラインミーティングに３人の参加者が存在するとき、参加者間のシーンジオメトリの例示的実施形態を示す図である。 [0028]参加者が見ている場所に基づいた仮想カメラの例示的実施形態を示す図である。 [0029]見る者が向いている場所に基づいて運動視差による奥行きを提供する例示的実施形態を示す図である。 [0030]複数の視野角を有するモニタを使用した、単一エンドポイントにおける複数の参加者を処理する技法の例示的実施形態を示す図である。

[0031]制御された三次元（３Ｄ）通信エンドポイントシステムおよび方法の次の説明では、その一部を形成する添付の図面を参照する。図面には例として、それにより３Ｄ通信エンドポイントシステムおよび方法の諸実施形態を実践することが可能である特定の例が示される。他の実施形態が利用されることが可能であり、請求される主題の範囲を逸脱することなく構造上の変更が行われることが可能であることを理解されたい。

Ｉ．システム概要
[0032]制御された３Ｄ通信エンドポイントシステムおよび方法の諸実施形態が、没入型オンライン会議およびミーティングのための制御された取り込みおよび表示空間を作成する。このシステムおよび方法の諸実施形態は、参加者がオンライン会議またはミーティングに参加しているとき、エンドポイントにおいて一貫性を確保する。エンドポイントは、照明、部屋設計、および形状などを含んで、オンラインミーティング中に完全に制御される。さらに、エンドポイントは、見る者には、参加者と共に他の参加者が実際に部屋（または同じ物理的空間）にいるように見えるように、３Ｄ没入型会議の取り込みおよび表示のための機器を含む。

[0033]エンドポイントは、部屋または他のタイプの環境など、オンライン会議またはミーティングの参加者の少なくとも１人を含んだ物理的場所である。各オンライン会議は、少なくとも２つのエンドポイントを有し、各エンドポイントが、少なくとも１人の参加者を有する。各エンドポイントは、２人以上の参加者を有することもある。２人以上の参加者を有するエンドポイントを処理する方法について、以下に詳細に述べる。

[0034]図１は、コンピューティング環境で実行される、制御された三次元（３Ｄ）通信エンドポイントシステム１００および方法の諸実施形態の全体的概要を示すブロック図である。システム１００および方法の諸実施形態は、オンラインミーティングまたは会議の参加者に没入体験を作り出すために一体となって機能する様々な構成要素およびシステムを含む。

[0035]図１に示すように、システム１００および方法は、参加者に対して没入体験を容易にする３Ｄ通信処理システム１０５を含む。３Ｄ通信処理システム１０５は、コンピューティングデバイス１１０上で実行される。コンピューティングデバイスは、単一のコンピューティングデバイスであってもよく、または複数のデバイスにわたって展開されてもよい。さらに、コンピューティングデバイス１１０は、事実上、プロセッサを有するいかなるデバイスであってもよく、デスクトップコンピュータ、タブレットコンピューティングデバイス、および内蔵されたコンピューティングデバイスを含む。

[0036]システム１００および方法の諸実施形態は、少なくとも２つのエンドポイントを含む。教育上の目的でおよび説明を簡単にするために、図１は、単に２つのエンドポイントを示している。しかしながら、システム１００および方法の諸実施形態は、さらにいくつかのエンドポイントを含むこともあることに留意されたい。さらに、図１の各エンドポイントは、ただ１人の参加者しか示していないが、いかなるエンドポイントにいかなる数の参加者も含まれることがあることに留意されたい。

[0037]システム１００および方法の諸実施形態は、第１のエンドポイント１１５と、第２のエンドポイント１２０とを含む。図１では、第１のエンドポイント１１５および第２のエンドポイント１２０が、平面図に示される。言い換えれば、第１および第２のエンドポイント１１５、１２０が部屋である場合、図１は部屋の平面図である。

[0038]第１のエンドポイント１１５は、中に収容された第１の参加者１２５を含む。第１のエンドポイント１１５は、複数の取り込み装置および視聴装置もまた収容する。第１のエンドポイント１１５の視聴装置は、第１のモニタ１３０と、第２のモニタ１３５と、第３のモニタ１４０とを含む。視聴装置は、第１の参加者１２５が、他の参加者と共に部屋にいるように感じるように、第１の参加者１２５にオンラインミーティングにおける没入体験を提供する。

[0039]システム１００および方法の諸実施形態は、モニタまたはスクリーンが参加者の周りの少なくとも１８０度にあるようにこれらを配列したモニタ構成を含む。モニタの構成は、モニタが参加者の周りの少なくとも１８０度に位置付けられる限り、事実上、いかなる配置とすることもできる。以下に詳細に説明するように、これにより、参加者の体験が十分に没入できるものであって、オンラインミーティング参加者の数によって決まるスケール変更を可能にすることが確実になる。

[0040]図１のモニタ構成は、第１のモニタ１３０に対して直角の、第１のエンドポイント１１５の第２のモニタ１３５および第３のモニタ１４０を示す。さらに、第１のエンドポイント１１５のモニタ１３０、１３５、１４０は、第１の参加者１２５の周りの少なくとも１８０度にある。代替的実施形態では、モニタ構成は、半円形など、曲線状であることが可能である、または互いと直角に満たない角度とすることが可能である。

[0041]システム１００および方法の諸実施形態は、第１のエンドポイント１１５内の第１の参加者１２５の少なくとも一部を取り込むための取り込み装置もまた含む。システム１００および方法の諸実施形態は、取り込み装置として複数のカメラポッドを使用する。図１には６つのカメラポッドが示されているが、より少ないカメラポッドまたはより多いカメラポッドが使用される可能性があることに留意されたい。

[0042]図１に示すように、第１のエンドポイント１１５は、第１の参加者１２５の前に位置付けられた第１の複数のカメラポッド１４５と、第１の参加者１２５の後ろに位置付けられた第２の複数のカメラポッド１５０とを含む。各カメラポッドの詳細を、以下に詳細に説明する。図１は、第１の複数のカメラポッド１４５が、第１のモニタ１３０に装着され、第２の複数のカメラポッド１５０が第１のエンドポイント１１５の支持構造体（部屋の壁または部屋の床上など）に装着されることを示す。しかしながら、代替的実施形態では、第１および第２の複数のカメラポッド１４５、１５０は、その他の構造体に取り付けられることがある、または一部は第１のモニタ１３０に取り付けられ、一部は他の構造体に取り付けられることがあることに留意されたい。

[0043]第２のエンドポイント１２０は、中に収容された第２の参加者１５５を含む。第１のエンドポイント１１５と同様に、第２のエンドポイント１２０は、複数の取り込み装置および視聴装置もまた収容する。第２のエンドポイント１２０の視聴装置は、第４のモニタ１６０と、第５のモニタ１６５と、第６のモニタ１７０とを含む。これらのモニタ１６０、１６５、１７０は、第１の参加者１２５が他の参加者と共に部屋にいるように感じるように、第２の参加者１５５にオンラインミーティングにおける没入体験を提供する。

[0044]図１のモニタ構成は、第４のモニタ１６０に対して９０度未満の角度で、第２のエンドポイント１２０の第５のモニタ１６５および第６のモニタ１７０を示す。さらに、第２のエンドポイント１２０のモニタ１６０、１６５、１７０は、第２の参加者１５５の周りの少なくとも１８０度にある。代替的実施形態では、モニタ構成は、半円形など、曲線状であることも可能である。

[0045]システム１００および方法の諸実施形態は、第２のエンドポイント１２０内の第２の参加者１５５の少なくとも一部を取り込むための取り込み装置もまた含む。システム１００および方法の諸実施形態は、取り込み装置として複数のカメラポッドを使用する。図１の第２のエンドポイント１２０には１０個のカメラポッドが示されているが、より少ないカメラポッドまたはより多いカメラポッドが使用される可能性があることに留意されたい。

[0046]図１に示すように、第２のエンドポイント１２０は、第２の参加者１５５の前に位置付けられた第３の複数のカメラポッド１７５と、第２の参加者１５５の後ろに位置付けられた第４の複数のカメラポッド１８０とを含む。各カメラポッドの詳細を、以下に詳細に説明する。さらに、第５の複数のカメラポッド１８５が、第２の参加者１５５の左側に位置付けられ、第６の複数のカメラポッド１９０が、第２の参加者１５５の右側に位置付けられる。

[0047]図１は、第３の複数のカメラポッド１７５が、第４のモニタ１６０に装着され、第５の複数のカメラポッド１８５が、第５のモニタ１６５に装着され、第６の複数のカメラポッド１９０が、第６のモニタ１７０に装着されることを示す。第４の複数のカメラポット１８０は、第２のエンドポイント１２０の支持構造体（部屋の壁または部屋の床上など）に装着される。しかしながら、代替的実施形態では、第３、第４、第５、および第６の複数のカメラポッド１７５、１８０、１８５、１９０が、何らかの他の構造体に取り付けられることがある、または一部は第２のエンドポイント１２０内の他の構造体に取り付けられることがあることに留意されたい。

[0048]第１の参加者１２５は、第１のエンドポイント１１５でカメラポッドによって取り込まれ、第２の参加者は、第２のエンドポイント１２０でカメラポッドによって取り込まれる。この取り込まれた情報は次に、以下に詳細に説明するように、３Ｄ通信処理システム１０５の諸実施形態に送信される。第１のエンドポイント１１５の取り込み装置は、ネットワーク１９５を通じて３Ｄ通信処理システム１０５と通信する。ネットワーク１９５と第１のエンドポイント１１５との間の通信は、第１の通信リンクを使用して容易にされる。同様に、ネットワーク１９５と第２のエンドポイント１２０との間の通信は、第２の通信リンク１９８によって容易にされる。図１には、ネットワーク１９５にある３Ｄ通信処理システム１０５の諸実施形態が示される。しかしながらこれは、３Ｄ通信処理システム１０５がシステム１００および方法の諸実施形態に実装されることが可能である１つの方法にすぎないことに留意されたい。

[0049]取り込まれた情報は処理され、モニタに表示するために様々なエンドポイントに送信される。システム１００および方法の諸実施形態は、エンドポイントで各参加者に仮想視点を提供する。以下に詳細に説明するように、仮想視点により見る者は、見る者の顔の位置および向きによって決まる、変化する眺めからオンライン会議を見ることができる。いくつかの実施形態では、顔追跡が使用されて、見る者の視線を追跡し、処理された情報をどのように見る者に提示すべきかを決定する。

ＩＩ．システム詳細
[0050]システム１００および方法の諸実施形態は、参加者にオンラインミーティングにおける没入体験を提供するために共に使用される様々な構成要素および装置を含む。次に、構成要素および装置について説明する。他の実施形態が可能であること、および説明する構成要素および装置の目的および機能を実現するために、他の装置が使用される、または代用されることがあることに留意されたい。

[0051]システム１００および方法の諸実施形態は、その「直に会っての」コミュニケーション体験を作成するために共に機能する３つの主要な構成要素を含む。第１の構成要素は、会議に参加している人それぞれの３Ｄビデオ画像を取り込み、作成する。第２の構成要素は、会議の参加者の数に基づいて関連シーンジオメトリを作成する。そして第３の構成要素は、あたかも見る者が見ている場所の眺めからカメラが位置付けられたかのように、仮想ビューをレンダリングして提供し、それによって、参加者が直接話をするとき有することになるものと同じシーンジオメトリを再現する。

ＩＩ．Ａ．３Ｄ通信処理システム
[0052]図２は、図１に示す３Ｄ通信処理システム１０５のシステム詳細を示すブロック図である。図２に示すように、３Ｄ通信処理システム１０５は、取り込みおよび作成構成要素２００、シーンジオメトリ構成要素２１０、および仮想視点構成要素２２０を含む。取り込みおよび作成構成要素２００は、エンドポイントにおいて参加者の３Ｄビデオ画像を取り込み、作成するために使用される。

[0053]詳細には、取り込みおよび作成構成要素２００は、複数のカメラポッドを含んだカメラポッドレイアウト２３０を含む。カメラポッドレイアウト２３０は、複数の眺めから参加者を取り込むために使用される。コンピュータビジョン方法が使用されて、各会議参加者の高忠実度の幾何プロキシを作成する。以下に詳細に説明するように、これは、ＲＧＢデータ収集モジュール２３５から取得されるＲＢＧデータ、および奥行き情報計算モジュール２４０によって取得され、計算される奥行き情報を取り入れることによって実現される。この情報から、幾何プロキシ作成モジュール２４５が、各参加者に幾何プロキシ２５０を作成する。実写ベースの（ｉｍａｇｅ−ｂａｓｅｄ）レンダリング方法が使用されて、例えば視点依存テクスチャマッピングを使用して、幾何プロキシ２５０の写真のようなテクスチャを作成する。

[0054]シーンジオメトリ構成要素２１０は、正確なシーンジオメトリを作成して、共に現実に会話をしている参加者をシミュレートするために使用される。このシーンジオメトリは、会議の参加者の数によって決まる。３Ｄレジストレーションモジュール２６０が使用されて、カメラポッドを備えた表示装置またはモニタの精密なレジストレーションを取得する。さらに、空間アライメントモジュール２６５が、カメラポッドの向きを現実の世界に合わせる。１：１のミーティング（２つのエンドポイントを有する）については、これは単純に、仮想環境において互いの向かいに並べられた２つの物理空間である。各参加者に再現されている取り込みエリアは、モニタの前のエリアである。

[0055]テクスチャ付き（ｔｅｘｔｕｒｅｄ）幾何プロキシ２５０が各ミーティング参加者に作成され、参加者が、会議の他の参加者に関連する３Ｄ仮想空間に表現されると、幾何プロキシは、会話のジオメトリと一致するように互いにレンダリングされる。さらに、このレンダリングは、会議の参加者の数に基づいて行われる。

[0056]この幾何プロキシ、ならびに場合によってはレジストレーションおよびアライメント情報は、送信モジュール２７０によってリモートの参加者に送信される。仮想視点構成要素２２０は、リモートの参加者にレンダリングされる仮想視点を向上させるために使用される。「臨場（ｂｅｉｎｇｔｈｅｒｅ）」体験は、参加者の背後のシーンに運動視差および奥行きを追加する運動視差モジュール２８０の使用により強化される。水平および横方向の動きが、参加者のローカルディスプレイに示される視点を変え、参加者は、異なる眺めから、参加者が見ているシーン、およびその中の人を見る。これは、ミーティング参加者の体験を大幅に向上させる。

ＩＩ．Ｂ．カメラポッド
[0057]上記のように、システム１００および方法の取り込みおよび作成構成要素２００は、エンドポイントにおいて参加者およびシーンを取り込むために使用される複数のカメラポッドを含む。各カメラポッドは、複数のセンサを有する。図３は、図１に示す制御された３Ｄ通信エンドポイントシステム１００および方法の諸実施形態のカメラポッド３００の例示的実施形態の詳細を示すブロック図である。図１に示すように、システム１００および方法の諸実施形態は、一般的に２つ以上のカメラポッド３００を含む。しかしながら、教育上の目的で、単一のカメラポッドのみを説明する。さらに、複数のカメラポッドは、必ずしも同じセンサを含む必要がないことに留意されたい。システム１００および方法のいくつかの実施形態は、互いとは異なるセンサを含んだ複数のカメラポッドを含むことができる。

[0058]図３に示すように、カメラポッド３００は、複数のカメラセンサを含む。これらのセンサは、立体センサ赤外線（ＩＲ）カメラ３１０、ＲＧＢカメラ３２０、およびＩＲエミッタ３３０を含む。参加者およびエンドポイントの３Ｄ画像を取り込むために、カメラポッド３００は、奥行きマップを計算するためにＲＧＢデータおよび奥行き座標を取り込む。図３は、ＩＲ立体ＩＲカメラ３１０およびＩＲエミッタ３３０が、奥行き計算を取り込むために使用されることを示す。ＲＧＢカメラ３２０はテクスチャ取得に使用され、奥行きセグメント化を使用して奥行きキューを補強する。コンピュータビジョン分野でよく知られている奥行きセグメント化は、背景差分を使用して、背景からの画像のオブジェクトを分割しようとする。

[0059]代替的実施形態では、カメラポッド３００は、ＩＲ構造光手法（ＩＲｓｔｒｕｃｔｕｒｅｌｉｇｈｔａｐｐｒｏａｃｈ）の代わりに光飛行時間センサ（ｔｉｍｅｏｆｆｌｉｇｈｔｓｅｎｓｏｒ）または超音波を使用して、立体センシングを実現する。光飛行時間カメラは、光の速度に基づいて、および画像中の各ポイントについてカメラと物体との間の光信号の飛行時間を測定することによって距離を計算する、レンジ撮像カメラシステム（ｒａｎｇｅｉｍａｇｉｎｇｃａｍｅｒａｓｙｓｔｅｍ）である。超音波技法を使用して、ある方向に超音波パルスを生成することにより距離を計算することができる。パルスの経路に物体がある場合、パルスの一部または全部は、エコーとして反射されて送信機に戻ることになる。レンジは、送信されるパルスと、受信されるエコーとの差を測定することによって見いだすことができる。他の実施形態では、距離は、ＲＧＢカメラのステレオペア（ｓｔｅｒｅｏｐａｉｒｓ）を使用してＲＧＢ奥行き計算を行うことにより見いだすことができる。

ＩＩ．Ｃ．カメラポッドレイアウト
[0060]１つまたは複数のカメラポッドは、参加者の１人または複数を含むエンドポイントの３Ｄ画像を取り込むために特定のレイアウトで構成される。カメラポッドの数は、取り込まれる画像の質およびオクルージョンの数に直接影響を及ぼす。カメラポッドの数が増えるにつれて、利用できるＲＧＢデータが多くなり、これにより画質が向上する。さらに、オクルージョンの数は、カメラポッドの数が増えるにつれて減少する。

[0061]図１に示すように、第１のエンドポイント１１５は、６個のカメラポッドを含み、第２のエンドポイント１２０は、１０個のカメラポッドを含む。代替的実施形態では、いかなる数のカメラを使用することもできる。事実、単一カメラポッドを使用する、下限バージョンが存在する。例えば、単一カメラポッドは、モニタの上部に取り付けられ、画像歪み補正技法を使用して、撮像エラーを補正することができる。試金石は、カメラポッドレイアウトが、参加者を含んだエンドポイントの３Ｄビューを提供するのに十分なカメラポッドを有することである。

[0062]図４は、４つのカメラポッドを使用した（図２に示すカメラポッドレイアウトなどの）カメラポッドレイアウトの例示的実施形態を示す。図４に示すように、４つのカメラポッド３００は、モニタ４００のベゼルに内蔵されている。モニタ４００は、事実上いかなるサイズとすることもできるが、より大きいモニタは、より実物大の再投影を提供する。これは、一般的に、より現実感のある体験をユーザに提供する。オンライン会議またはミーティングに参加しているリモート参加者４１０が、モニタ４００上に表示される。

[0063]図４に示すように、４つのカメラポッド３００が、ダイヤモンド構成で配列される。これにより、システム１００および方法の諸実施形態は、上下から、および左右から、ユーザを取り込むことができる。さらに、中央の上下の２つのカメラポッドを使用して、継ぎ目なく、ユーザの顔面に現実感のあるテクスチャを得ることができる。角のカメラは、一般的に継ぎ目の問題を生じることに留意する。他の実施形態において、４つのカメラポッド３００のいかなる構成および配置も事実上使用されることが可能であり、モニタ４００上のいかなる場所に取り付けられることも可能である。さらに他の実施形態では、４つのカメラポッド３００の１つまたは複数は、モニタ４００以外の場所に取り付けられる。

[0064]代替的実施形態では、３つのカメラポッドが使用され、モニタ４００の上部または下部に置かれる。いくつかの実施形態は、２つのカメラポッドを使用し、モニタ４００の上部または下部の角に置かれる。さらに他の実施形態では、Ｎ個のカメラポッドが使用される。ただしＮは４より大きい（Ｎ＞４）。この実施形態では、Ｎ個のカメラポッドは、モニタ４００の外側エッジ周りに置かれる。さらに他の実施形態では、参加者を含んだエンドポイントの３Ｄシーンを取り込むために、モニタ４００の後ろに置かれた複数のカメラポッドがある。

ＩＩ．Ｄ．表示装置構成
[0065]モニタおよびスクリーンなど、いくつかの表示装置は、他の参加者の少なくとも一部の取り込まれた画像を表示し、各参加者に提示するために、特定のレイアウトで構成される。システム１００および方法の諸実施形態は、配列がエンドポイントで参加者の少なくとも１８０度を囲むように構成された表示装置を有する。これにより、システム１００および方法の諸実施形態が、スケール変更することができ、参加者に没入体験を提供することが確実になる。言い換えれば、少なくとも１８０度の表示装置をエンドポイントの参加者に提供することにより、参加者は、同時に仮想テーブルについたすべての人を見ることができるようになる。少なくとも１８０度の表示装置を用いると、見る者が丸い仮想テーブルの左右を見渡すとき、見る者は、テーブルについたすべての人を見ることができることになる。

[0066]図５は、３つの表示装置を使用する（図１に示すような）表示装置構成の例示的実施形態を示す。図５に示すように、表示装置構成５００は、エンドポイント環境５１０に配備される。表示装置構成５００は、モニタ＃１５２０を含み、これはエンドポイント環境５１０において参加者（図示せず）の前にあるように位置付けられる。表示装置構成はまた、モニタ＃１５２０の左右にモニタ＃２５３０およびモニタ＃３５４０を含む。図５に示すように、モニタ＃２５３０およびモニタ＃３５４０はそれぞれ、４５度の角度でモニタ＃１５２０に結合される、またはこれに接している。

[0067]システム１００および方法の諸実施形態は、取り込みおよび表示のためにエンドポイント環境５１０を使用する。いくつかの実施形態では、表示装置構成５００は、３６０度の構成であることもある。言い換えれば、エンドポイント環境５１０の参加者の周囲全体に表示装置があることがある。他の実施形態では、表示装置は、１８０度から３６０度の範囲に、エンドポイント環境５１０を囲むように配列された表示装置を含むことができる。さらに他の実施形態では、表示装置構成５００は、エンドポイント環境５１０の壁および天井すべてが表示装置である。このタイプの表示装置構成は、参加者を完全に仮想の環境に十分に没入させることができる。

ＩＩＩ．例示的な動作環境
[0068]制御された３Ｄ通信エンドポイントシステム１００および方法の諸実施形態の動作概要および詳細をさらに続ける前に、ここで、制御された３Ｄ通信エンドポイントシステム１００および方法の諸実施形態が動作することができる例示的動作環境について説明を提示する。本明細書に記載する制御された３Ｄ通信エンドポイントシステム１００および方法の諸実施形態は、非常に多くのタイプの汎用または特殊用途のコンピューティングシステム環境または構成の中で動作する。

[0069]図６は、本明細書で説明し、図１〜５および７〜１５に示すように、３Ｄ通信エンドポイントシステム１００および方法の様々な実施形態および要素が実行される汎用コンピュータシステムの簡略化した例を示す。図６に破線またはダッシュ線で表されるボックスは、簡略化したコンピューティングデバイスの代替的実施形態を表すこと、およびこれらの代替的実施形態のいずれかまたは全部は、以下に説明するように、この文書全体を通して説明する他の代替的実施形態と組み合わせて使用されることが可能であることに留意されたい。

[0070]例えば、図６は、簡略化したコンピューティングデバイス１０を示す全体的なシステム図を示す。簡略化したコンピューティングデバイス１０は、図１に示すコンピューティングデバイス１１０の簡略化版とすることができる。このようなコンピューティングデバイスは、一般的に、少なくとも何らかの最小限の計算能力を有する装置、例えば、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドコンピューティングデバイス、ラップトップまたはモバイルコンピュータ、携帯電話およびＰＤＡなどの通信デバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル家庭用電化製品、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、オーディオまたはビデオメディアプレーヤなどを含む、ただしこれらに限定されない装置に見つけることができる。

[0071]デバイスが本明細書に記載する制御された３Ｄ通信エンドポイントシステム１００および方法の諸実施形態を実行できるようにするために、デバイスは、基本的な計算操作を可能にするのに十分な計算能力およびシステムメモリを有するべきである。詳細には、図６によって示すように、計算能力は、一般的に、１つまたは複数の処理ユニット１２によって示され、１つまたは複数のＧＰＵ１４を含むこともあり、いずれかまたは両方がシステムメモリ１６と通信している。汎用コンピューティングデバイスの（１つまたは複数の）処理ユニット１２は、ＤＳＰ、ＶＬＩＷ、または他のマイクロコントローラなどの専用マイクロプロセッサであることが可能である、または、マルチコアＣＰＵ中の専用ＧＰＵベースコアを含む、１つまたは複数の処理コアを有する従来のＣＰＵであることも可能であることに留意されたい。

[0072]さらに、図６の簡略化したコンピューティングデバイス１０は、例えば、通信インタフェース１８など、他の構成要素もまた含むことができる。図６の簡略化したコンピューティングデバイス１０は、１つまたは複数の従来のコンピュータ入力装置２０（スタイラス、ポインティングデバイス、キーボード、音声入力装置、映像入力装置、触覚入力装置、有線または無線データ伝送を受信するための装置など）もまた含むことができる。図６の簡略化したコンピューティングデバイス１０は、例えば、１つまたは複数の従来のコンピュータ出力装置２２（例えば、（１つまたは複数の）表示装置２４、音声出力装置、映像出力装置、有線または無線データ伝送を送信するための装置）など、他のオプションの構成要素を含むこともできる。汎用コンピュータ用の、一般的な通信インタフェース１８、入力装置２０、出力装置２２、および記憶装置２６は、当業者にはよく知られており、本明細書では詳細に説明しないことに留意されたい。

[0073]図６の簡略化したコンピューティングデバイス１０は、様々なコンピュータ可読媒体を含むこともできる。コンピュータ可読媒体は、記憶装置２６を介して簡略化したコンピューティングデバイス１０によってアクセスされることが可能であるいかなる利用可能な媒体とすることもでき、コンピュータ可読またはコンピュータ実行可能命令、データ構造、プログラムモジュール、またはその他のデータなどの情報を格納するために、取り外しできる２８および／または取り外しできない３０揮発性と不揮発性の両方の媒体を含む。限定ではなく例として、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体は、ＤＶＤ、ＣＤ、フロッピー（登録商標）ディスク、テープドライブ、ハードドライブ、光学式ドライブ、ソリッド・ステート・メモリ・デバイス、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリもしくは他のメモリ技術、磁気カセット、磁気テープ、磁気ディスク記憶装置、もしくは他の磁気記憶装置、または所望の情報を格納するために使用することができ、１つまたは複数のコンピューティングデバイスによってアクセス可能である任意のその他のデバイスなどの、コンピュータまたは機械可読媒体または記憶装置を含むが、これらに限定されない。

[0074]コンピュータ可読またはコンピュータ実行可能命令、データ構造、プログラムモジュールなどの情報の保持は、１つまたは複数の変調されたデータ信号または搬送波を符号化するための様々な前述の通信媒体のいずれか、または他の転送メカニズムまたは通信プロトコルを使用することによって達成されることも可能であり、いかなる有線または無線情報配信メカニズムも含む。「変調されたデータ信号」または「搬送波」という用語は、一般的に、信号の中の情報を符号化するように、特性の１つまたは複数が設定されたまたは変更された信号を指すことに留意されたい。例えば、通信媒体は、１つまたは複数の変調されたデータ信号を搬送している有線ネットワークまたは直接有線接続などの有線媒体と、１つまたは複数の変調されたデータ信号または搬送波を送信するおよび／または受信するための、音響、ＲＦ、赤外線、レーザ、および他の無線媒体などの無線媒体とを含む。上記のいずれかの組合せもまた、通信媒体の範囲内に含まれるべきである。

[0075]さらに、本明細書に記載する制御された３Ｄ通信エンドポイントシステム１００および方法の様々な実施形態の一部または全部を具体化するソフトウェア、プログラム、および／またはコンピュータプログラム製品またはその部分は、コンピュータ実行可能命令または他のデータ構造の形式でコンピュータまたは機械可読媒体または記憶装置、および通信媒体の任意の所望の組合せから、格納される、受信される、送信される、または読み取られることが可能である。

[0076]最後に、本明細書に記載する制御された３Ｄ通信エンドポイントシステム１００および方法の諸実施形態について、プログラムモジュールなど、コンピューティングデバイスによって実行されるコンピュータ実行可能命令の一般的なコンテキストでさらに説明する。一般的に、プログラムモジュールは、特定のタスクを実行するまたは特定の抽象データ型を実現するルーチン、プログラム、オブジェクト、構成要素、データ構造などを含む。本明細書に記載する諸実施形態はまた、１つまたは複数のリモート処理デバイスによって、または１つまたは複数のデバイスのクラウド内で、タスクが行われる、１つまたは複数の通信ネットワークを通じてリンクされた分散コンピューティング環境で実践されることもある。分散コンピューティング環境では、プログラムモジュールは、媒体記憶装置を含むローカルとリモートの両方のコンピュータ記憶媒体に置くことができる。さらに、前述の命令は、一部または全部において、プロセッサを含むことがある、または含まないことがあるハードウェア論理回路として実現されることがある。

ＩＶ．動作概要
[0077]図７は、図１に示す制御された３Ｄ通信エンドポイントシステムの一般的動作を示す流れ図である。図７に示すように、システム１００の動作は、ローカルエンドポイントにおいてローカル参加者の３Ｄ映像を取り込むことによって始まる（ボックス７００）。例として、ローカルエンドポイントは、オフィスビルディングの部屋であることがある。取り込まれる映像は、ＲＧＢデータと奥行き情報の両方を取り込む複数のカメラポッドを使用して取得される（ボックス７０５）。複数のカメラポッドは、ローカル参加者の周りの３６０度に置かれる。言い換えれば、取り込まれる映像は、ローカル参加者の周りの全域にわたるビューを含む。

[0078]この方法の諸実施形態は、次に、取り込まれた３Ｄ映像を使用してローカル参加者にローカル幾何プロキシを作成する（ボックス７１０）。次に、この方法は、直に会ってのコミュニケーションと一致するシーンジオメトリを生成する（ボックス７１５）。一般的な考えは、直に会ってのコミュニケーションのダイナミクスをまねた仮想環境を作成することである。この方法は次に、シーンジオメトリにローカル幾何プロキシを配置して、仮想環境を作成する（ボックス７２０）。ローカル幾何プロキシおよびシーンジオメトリは、リモートエンドポイントのリモート参加者に送信される（ボックス７２５）。

[0079]同様に、オンライン会議またはミーティングに参加しているリモート参加者およびその他の参加者は、複数のカメラポッドを使用して取り込まれ、参加者のそれぞれに幾何プロキシが作成される。幾何プロキシのそれぞれは、仮想環境のシーンジオメトリにレンダリングされ、配置される。これらのレンダリングされた幾何プロキシおよびシーンジオメトリは、次に他の参加者に送信される。

[0080]受信された仮想環境は、（リモート参加者などの）見る者に、リモート参加者の周りの少なくとも１８０度である空間を占めるエンドポイントの表示装置上で表示される（ボックス７３０）。これは、リモート参加者に、仮想環境への仮想視点を提供する。以下に詳細に説明するように、見る者が仮想視点を見るとき見るものは、一部には、見る者の頭部の位置および向きによって決まる。

[0081]この方法の諸実施形態は、仮想環境内に仮想テーブルを定める。レンダリングされた参加者のそれぞれは、次に、仮想環境の仮想テーブルの周りに配置される。いくつかの実施形態では、仮想テーブルは、第１の直径を有する円形を有する（ボックス７３５）。これにより、スケール変更が容易に行われることが可能になる。詳細には、仮想環境は、参加者の数を増やして、現在の２人の参加者（ローカル参加者およびリモート参加者）よりも多くすることによってスケールアップすることができる（ボックス７４０）。参加者のこのような増加に対応するために、この方法は次に、仮想テーブルのサイズを第１の直径から第２の直径に大きくする。ただし第２の直径は、第１の直径よりも大きい（ボックス７４５）。参加者の幾何プロキシは、リモート参加者が仮想環境で仮想テーブルについた各参加者を見ることができるように、大きくされたサイズを有する仮想テーブルに配置される（ボックス７５０）。

[0082]システム１００および方法の諸実施形態は、３Ｄ通信処理システム１０５を含む。図８は、図１に示す３Ｄ通信処理システム１０５の一般的動作を示す流れ図である。図８に示すように、３Ｄ通信処理システム１０５の動作は、オンライン会議またはミーティングの参加者のそれぞれの画像を取り込むことによって始まる（ボックス８００）。参加者の少なくとも１人が、リモート参加者であり、これは、リモート参加者は他の参加者と同じ物理的場所またはエンドポイントにいないことを意味する。各参加者の取り込みは、カメラポッドを使用することによって実現される。

[0083]次に、この方法の諸実施形態は、取り込まれた画像からのデータを使用して、参加者のそれぞれに幾何プロキシを作成する（ボックス８１０）。その後参加者の数が、決定される（ボックス８２０）。これの決定は、参加者の数があらかじめ決定される、またはわかるように、アウトオブオーダー（ｏｕｔｏｆｏｒｄｅｒ）で行われることが可能である。方法の諸実施形態は、その後、オンラインミーティングの参加者の数に基づいてシーンジオメトリを生成する（ボックス８３０）。このシーンジオメトリの生成は、リモート参加者との直に会っての会話またはミーティングの体験をシミュレートする助けとなる。

[0084]特定の参加者の各幾何プロキシは、その後、シーンジオメトリ内の他の参加者の他の幾何プロキシにレンダリングされる（ボックス８４０）。このレンダリングは、幾何プロキシが直に会っての会話と一致するように配列されるように行われる。これらのレンダリングされた幾何プロキシおよびシーンジオメトリは、その後、参加者に送信される（ボックス８５０）。仮想視点が、見る者の顔の位置および向きによって決まるように、参加者のそれぞれに変化する仮想視点が表示される（ボックス８６０）。さらなる現実感を求めて、参加者の視聴体験を向上させるために、運動視差および奥行きが加えられる（ボックス８７０）。以下に詳細に説明するように、運動視差および奥行きは、見る者が会議またはミーティングを見ている表示装置またはモニタに対する見る者の視線によって決まる。

Ｖ．動作詳細
[0085]制御された３Ｄ通信エンドポイントシステム１００および方法の諸実施形態の動作詳細について、次に説明する。これは、システム１００のスケーラビリティ、幾何プロキシ作成、およびシーンジオメトリの作成の詳細を含む。さらに、仮想カメラの概念、幾何プロキシおよびシーンジオメトリへの運動視差および奥行きの追加、および同じ環境にいて、同じ表示装置またはモニタを見ている２人以上の参加者の扱いについても説明する。

Ｖ．Ａ．スケーラビリティ
[0086]制御された３Ｄ通信エンドポイントシステム１００および方法の諸実施形態は、スケーラブルである。これは、さらなるエンドポイントがオンラインミーティングに追加されるときはいつでも、システム１００および方法の諸実施形態は、さらなるエンドポイントに対応するために容易にスケールアップできることを意味する。図９は、さらなるエンドポイントに対応するために、システム１００および方法の諸実施形態をスケールアップする例示的実施形態を示す。

[0087]少なくとも１８０度の表示装置構成により、スケーラビリティが向上する。例えば、単一のフラット画面が壁にあって、それぞれが参加者を有する２つのエンドポイントがある場合、これらの２人の参加者は仮想環境で円形テーブルに配置されることが可能である。各参加者は、相手を見ることができる。これがスケールアップされる場合、および１０個のエンドポイントの１０人の参加者が、オンラインミーティングに加わろうとする場合、見る者は、見る者からテーブルを挟んだ人々を見ることはできるが、他は皆、人に紛れて見えなくなる。しかしながら、仮想環境で円になっている限り、少なくとも１８０度の表示装置構成を使用すると、その円は、所望の大きさで作成されることが可能であり、見る者は、依然として参加者のそれぞれを見ることができる。

[0088]当然ながらこれは、追加される参加者が多くなるほど、必要とされる仮想テーブルが大きくなることを意味する。ある時点で、参加者の数は非常に大きくなるので、テーブルの最も遠くの端にいる参加者は、見る者がこの参加者を認識することができないほど小さくなる。さらに、仮想テーブルは丸い必要はないが、他の形状では、オクルージョンが存在し、人々が互いを遮り始める。

[0089]図９に示すように、仮想環境９００は、システム１００および方法の諸実施形態が、参加者の幾何プロキシを互いに対してどのように配置するかを示す。図９の左側には、３人の参加者９０５、９０６、９０７が、丸い第１の仮想テーブル９１０の周りに配列されている。この仮想環境の参加者９０５、９０６、９０７のそれぞれは、仮想ウィンドウを通してオンラインミーティングを見る。詳細には、仮想ウィンドウ９２０、９２５、９３０は、それぞれ３人の参加者９０５、９０６、９０７のそれぞれの前に置かれる。３つの仮想ウィンドウ９２０、９２５、９３０は、３人の参加者９０５、９０６、９０７に、丸い第１の仮想テーブル９１０の周りの仮想視点を与える。これにより各参加者は、あたかも実際に他の参加者と共に部屋にいるように感じることが可能になる。

[0090]矢印９３５は、仮想環境９００にさらなるエンドポイントが追加されたことを示す。さらなる参加者を追加して、丸い第１の仮想テーブル９１０は、丸い第２の仮想テーブル９４０に拡大された。８つのエンドポイント９５０、９５１、９５２、９５３、９５４、９５５、９５６、９５７が、丸い第２の仮想テーブル９４０の周りに配列される。さらに、複数の仮想ウィンドウ９６０が、８人の参加者９５０、９５１、９５２、９５３、９５４、９５５、９５６、９５７のそれぞれの前に配列される。複数の仮想ウィンドウ９６０のそれぞれが、参加者９５０、９５１、９５２、９５３、９５４、９５５、９５６、９５７に、丸い第２の仮想テーブル９４０の周りの仮想視点を与える。これは、各参加者に、参加者のそれぞれが１つの大きい仮想の部屋にいるという錯覚を与える。

Ｖ．Ｂ．幾何プロキシ作成
[0091]取り込みおよび作成構成要素２００の別の部分は、幾何プロキシ作成モジュール２４５である。モジュール２４５は、会議またはミーティングの参加者のそれぞれに幾何プロキシを作成する。奥行き情報は、カメラポッド３００によって取り込まれるレンジデータから計算される。奥行き情報が取得されると、取り込まれた奥行き情報に含まれる奥行きポイントから、希薄なポイントクラウドが作成される。高密度の奥行きポイントクラウドが、次に、知られている方法および取り込まれた奥行き情報を使用して生成される。いくつかの実施形態では、高密度のポイントクラウドと幾何プロキシから、メッシュが構築され、メッシュから幾何プロキシが生成される。代替的実施形態では、高密度のポイントクラウドは、幾何プロキシを生成するためにテクスチャ加工される。

[0092]図１０は、単一会議参加者に対する幾何プロキシの作成の例示的概要を示す。図１０に示すように、カメラポッド３００のＲＧＢカメラから、ＲＧＢデータ１０００が取り込まれる。さらに、カメラポッド３００によって取得される奥行きデータから、奥行き情報１０１０が計算される。ＲＧＢデータ１０００および奥行き情報１０１０は、単一会議参加者に対する幾何プロキシ２５０を作成するために、共に加えられる。この幾何プロキシ作成は、各参加者が対応する幾何プロキシを有するように、参加者のそれぞれに行われる。

Ｖ．Ｃ．３Ｄボリュームのレジストレーションおよび３Ｄ空間のアライメント
[0093]制御された３Ｄ通信エンドポイントシステム１００および方法の諸実施形態の第２の構成要素は、シーンジオメトリ構成要素２１０である。これは、３Ｄボリュームのレジストレーションと、カメラポッド３００が取り込む３Ｄ空間のアライメントの両方を含む。シーンジオメトリ構成要素２１０の一般的な考えは、会議参加者間に相対的ジオメトリを作成することである。シーンは、あたかも参加者が同じ物理的場所にいて、直に会っての会話に関わっているかのように正確にシーンを整合させることが望まれる。

[0094]システム１００および方法の諸実施形態は、エンドポイントに固定された（または環境を取り込んでいる）３Ｄシーンであるシーンジオメトリを作成する。これを実現するために、参加者のそれぞれを含む環境の精密な推定を有することが望ましい。これが取得されると、システム１００および方法の諸実施形態は、表示装置（またはモニタ）の精密なレジストレーションを計算する。これは、現実世界と整合された仮想空間における向きをもたらす。言い換えれば、仮想空間は、現実空間と整合される。このレジストレーションおよびアライメントは、知られている方法を使用して実現される。システム１００および方法のいくつかの実施形態では、製造時に較正が行われる。他の実施形態では、較正は、環境において参照物体を使用して行われる。

[0095]シーンジオメトリは、ローカル参加者とリモート参加者との間の相対的ジオメトリを作成しようとする。これは、あたかも参加者が直に会ってのミーティングにいるかのように、視線および会話のジオメトリを作成することを含む。視線および会話のジオメトリを正確にする１つの方法は、参加者間で相対的な、矛盾のないジオメトリを有することである。いくつかの実施形態では、これは、仮想ボックスを使用することによって実現される。詳細には、参加者がある部屋に共にいるとき、現実世界で参加者を囲んでボックスが描かれたとすると、これらの仮想ボックスが、仮想レイアウトで再現されて、シーンジオメトリを作成する。ジオメトリの形状は、参加者間のその一貫性ほど重要ではない。

[0096]単一のモニタまたは複数のモニタのような因子からのある入力が、最適なレイアウトおよびソリューションのスケーラビリティに影響を及ぼすことになる。シーンジオメトリはまた、参加者の数によって決まる。２人の参加者（ローカル参加者およびリモート参加者）を有するミーティングは、３人以上の参加者が存在するシーンジオメトリとは異なる１対１（１：１）のシーンジオメトリである。さらに、以下の例からわかるように、シーンジオメトリは、参加者間の視線を含む。

[0097]図１１は、オンラインミーティングに（２つの異なるエンドポイントで）２人の参加者が存在するとき、参加者間のシーンジオメトリの例示的実施形態を示す。図１１に示すように、この１：１会議のシーンジオメトリ１１００は、第３の参加者１１１０と、第４の参加者１１２０とを含む。これらの参加者は、同じ物理的場所にいない。言い換えれば、これらの参加者は異なるエンドポイントにいる。

[0098]この１：１会議のシーンジオメトリ１１００では、ジオメトリは、参加者１１１０、１１２０のそれぞれの表示装置またはモニタ（図示せず）の前の空間を占有する２つのボックスからなる。第１の仮想ボックス１１３０は、第３の参加者１１１０を囲んで描かれ、第２の仮想ボックス１１４０は、第４の参加者１１２０を囲んで描かれる。同じサイズのモニタおよび矛盾のない設定により、システム１００および方法の諸実施形態は、取り込まれたデータを操作することなく、シーンジオメトリが正しいことを知ることができる。

[0099]システム１００および方法の代替的実施形態では、複数のリモート参加者が存在し、ジオメトリは、１：１会議のシーンジオメトリ１１００とは異なる。図１２は、３つの異なるエンドポイントでオンラインミーディングに３人の参加者が存在するときの、参加者間のシーンジオメトリの例示的実施形態を示す。これは、３エンドポイントの会議のシーンジオメトリ１２００である。上記のように、エンドポイントは、会議またはミーティングの参加者を含む環境である。３エンドポイントの会議では、３つの異なる物理的場所に参加者が存在する。

[00100]図１２では、３エンドポイントの会議のシーンジオメトリ１２００が、仮想の丸テーブル１２３５を囲んで参加者＃１１２１０と、参加者＃２１２２０と、参加者＃３１２３０とを含んでいる。仮想ボックス＃１１２４０は、参加者＃１１２１０を囲んで描かれ、仮想ボックス＃２１２５０は、参加者＃２１２２０を囲んで描かれ、仮想ボックス＃３１２６０は、参加者＃３１２３０を囲んで描かれている。仮想ボックス１２４０、１２５０、１２６０のそれぞれが、仮想の丸テーブル１２３５を囲んで等距離に置かれる。これは、３エンドポイントの会議のシーンジオメトリ１２００を作成する。このシーンジオメトリは、スケーラビリティに関して上述したように、さらなるエンドポイントに対して拡張されることが可能であることに留意されたい。

Ｖ．Ｄ．仮想カメラ
[00101]シーンジオメトリ構成要素２１０はまた、仮想カメラを含む。仮想カメラは、透視投影を定義し、これに従って３Ｄ幾何プロキシの新規のビューがレンダリングされることになる。これにより、自然な視線および人々の間のつながりを取得するためのシステム１００および方法の諸実施形態が可能になる。現在のビデオ会議における１つのブレークダウンは、人々が、カメラの配置されている場所を見ておらず、したがって会議のリモート参加者は、あたかも相手がリモート参加者を見ていないかのように感じることから起こる。これは不自然であり、直に会っての会話では一般的に起こらない。

[00102]システム１００および方法の諸実施形態における仮想カメラは、各参加者のシーンジオメトリおよび（詳細なテクスチャ情報を有する）３Ｄ幾何プロキシから仮想空間を使用して作成される。この仮想カメラは、画像を取り込むために使用されている現実のカメラポッドの場所に結び付けられない。さらに、システム１００および方法のいくつかの実施形態は、（視線追跡を含んだ）顔追跡を使用して、参加者がいる場所および参加者が仮想空間で見ている場所を決定する。これにより、参加者がシーンで見ている場所に基づいて仮想カメラを作成することができる。これは、参加者の正確な視線を他の参加者に正しく伝えるのに役立ち、他の参加者に正確なビューを提供する。したがって、仮想カメラは、ミーティング参加者間の対話における自然な視線および会話のジオメトリを容易にする。

[00103]これらの仮想カメラは、シーンジオメトリを作成し、そのジオメトリにエキストラを置くことによって作成される。カメラポッドによって取得された複数の眺めから、仮想カメラは、シーンジオメトリを方々に移動することができる。例えば、頭部を風船と考える場合、風船の前面は、風船の前のカメラポッドによって取り込まれることになり、風船の一方の側面は、風船のその側面にあるカメラポッドによって取り込まれることになる。両方のカメラポッドからの画像を合成することにより、前面全体と側面との間のどこかに、仮想カメラを作成することができる。言い換えれば、仮想カメラビューは、特定の空間をカバーしている異なるカメラからの画像の合成として作成される。

[00104]図１３は、参加者が見ている場所に基づいた仮想カメラの例示的実施形態を示す。これは、仮想の視線を使用して自然な視線を取得することもできる。図１３に示すように、モニタ４００は、リモート参加者４１０をローカル参加者１３００に表示する。モニタ４００は、４つのカメラポッド３００を含んでいる。仮想視線ボックス１３１０は、リモート参加者の目１３２０およびローカル参加者の目１３３０を囲んで描かれる。仮想視線ボックス１３１０は、仮想空間において、リモート参加者の目１３２０およびローカル参加者１３３０の目が互いを見ているように、水平である。

[00105]仮想カメラのいくつかの実施形態は、顔追跡を使用して、パフォーマンスを向上させる。顔追跡は、参加者が互いに向き合っているように、システム１００および方法の諸実施形態が眺めを変更する助けとなる。顔追跡は、仮想カメラが見る者の視線と同じ高さであり続ける助けとなる。これは、人の目が直に会っての会話中に機能する方法をまねる。仮想カメラは、顔追跡と相互に作用して、ユーザが他の参加者をまっすぐに見ているようにする仮想視点を作成する。言い換えれば、顔追跡は、仮想カメラの仮想視点を変えるために使用される。

Ｖ．Ｅ．運動視差による奥行き
[00106]システム１００および方法の第３の構成要素は、仮想視点構成要素２２０である。レンダリングされた幾何プロキシおよびシーンジオメトリが参加者に送信されると、それは参加者のモニタ上にレンダリングされる。モニタ上に表示されるシーンに現実感を加えるために、運動視差を使用した奥行きが加えられて、何かを見ている誰かの位置が変わるときに発生するビュー中のニュアンスを含んだ変化をもたらす。

[00107]運動視差は、見る者の頭部が動くにつれてカメラビューを移動させる、高速の頭部追跡を使用して加えられる。これは、奥行きの錯覚を作り出す。図１４は、見る者が向いている場所に基づいた運動視差による奥行きを与える例示的実施形態を示す。図１４に示すように、４つのカメラポッド３００を有するモニタ４００は、リモート参加者４１０の画像を表示する。図１４では、リモート参加者４１０は、点線の図１４００および実線の図１４１０として示されていることに留意する。点線の図１４１０は、リモート参加者４１０が、リモート参加者の左を見ていることから、点線の参加者１４３０を含んだ第１の視野１４２０を有することを示す。実線の図１４１０は、リモート参加者４１０が、リモート参加者の右を見ていることから、実線の参加者１４５０を含んだ第２の視野１４４０を有することを示す。

[00108]リモート参加者４１０の視点が左右に動くにつれて、他方の空間へのリモート参加者の眺めが変化する。これは、他方の参加者および他方の参加者が位置している部屋（または環境）の異なるビューをリモート参加者４１０に与える。したがって、リモート参加者が左右、上下に動く場合、リモート参加者は、リモート参加者４１０が対話している参加者のわずかに異なるビューを見ることになり、その人物の背景も同様に変わる。これは、シーンに奥行きのシーンを与え、シーン中の人々に、この人々が誰かに直接話をするときに得られる立体感を与える。リモート参加者の視点は、頭部追跡または低遅延顔追跡技法を使用して追跡される。運動視差による奥行きは、見る者が１つのカメラの視点（ｏｎｅｃａｍｅｒａｐｅｒｓｐｅｃｔｉｖｅ）にロックされないので、十分に動きの自由を与えて、立体感を劇的に高める。

Ｖ．Ｆ．単一エンドポイントの複数の参加者
[00109]システム１００および方法の諸実施形態は、エンドポイントに２人以上の参加者が存在する状況もまた含む。運動視差による奥行きの上記の技法は、見る者を追跡する、および視聴角度および場所に基づいてモニタ上に適切なビューを提供する能力のために、単一見る者に対してうまく機能する。しかしながらこれは、同じエンドポイントに、同じモニタを見ている第２の人物が存在する場合、モニタが一度に１つのシーンしか提供できず、一方の人物にロックされることになるために、うまくいかない。このためにビューは、追跡されていない他方の見る者にとってずれたものになる。

[00110]システム１００および方法の諸実施形態がこの問題に対処するいくつかの方法がある。いくつかの実施形態では、見る者ごとに異なる画像を提供するモニタが使用される。これらの実施形態では、顔追跡技法が、２つの異なる顔を追跡し、その後見る者ごとに異なるビューを提供する。他の実施形態では、運動視差は削除され、固定の仮想カメラが、モニタの中心にロックされる。これは、２人以上の参加者がエンドポイントにいるとき、低水準の体験を作り出す。さらに他の実施形態では、エンドポイントの複数の参加者のそれぞれによって、眼鏡が着用される。各眼鏡は、異なるビューを提供するために使用される。さらに他の実施形態では、眼鏡には、各着用者にモニタとは異なるフレームを見せるアクティブシャッターが付いている。モニタによって表示される交互のフレームは、各眼鏡に調整され、各見る者に見る者の場所に基づいた正しい画像を提供する。

[00111]別の実施形態は、複数の視野角を有するモニタを使用する。図１５は、複数の視野角を有するモニタを使用した、単一エンドポイントにおける複数の参加者を処理する技法の例示的実施形態を示す。これは、モニタの前の見る者ごとに、リモート参加者４１０およびリモート参加者４１０の背後の部屋の異なるビューを提供する。

[00112]図１５に示すように、（複数の視野角を可能にする）レンチキュラーディスプレイを有し、４つのカメラポッド３００を有するモニタ１５００が、リモート参加者４１０を表示している。第１の見る者１５１０が、モニタ１５００の左側からモニタ１５００を見ている。第１の見る者の目１５２０は、左側からモニタ１５００を見ており、モニタ１５００の左の視野１５３０を有する。第２の見る者１５４０が、モニタ１５００の右側からモニタ１５００を見ている。第２の見る者の目１５５０は、右側からモニタ１５００を見ており、右の視野１５６０を有する。モニタ１５００上のレンチキュラーディスプレイのために、左の視野１５３０と右の視野１５６０とは異なる。言い換えれば、第１の見る者１５１０および第２の見る者１５４０は、リモート参加者４１０およびリモート参加者４１０の背後の部屋の異なるビューを提供される。したがって、第１の見る者１５１０および第２の見る者１５４０が並んでいたとしても、第１の見る者１５１０および第２の見る者１５４０は、その視点に基づいてモニタ１５００上に異なるものを見ることになる。

[00113]さらに、主題について、構造的特徴および／または方法論的動作に特有の言語で説明したが、添付の特許請求の範囲において定義される主題は、必ずしも上記の特定の特徴または行為に限定されないことを理解されたい。むしろ上記の特定の特徴および行為は、特許請求の範囲を実施する例示的な形態として開示される。

Claims

直に会ってのコミュニケーションをシミュレートするための方法であって、
ローカルエンドポイントでローカル参加者の三次元映像を取り込むステップであって、前記三次元映像の取り込みは、前記ローカルエンドポイントにて、前記ローカル参加者の周りの３６０度から前記ローカル参加者に関するＲＧＢデータと奥行き情報の両方を取り込む複数のカメラポッドを使用する制御された手法において行われる、ステップと、
取り込んだ前記三次元映像を使用して、前記ローカル参加者のためのローカル幾何プロキシを作成するステップと、
正確な視線を有するシーンジオメトリおよび直に会ってのコミュニケーションと一致する会話のジオメトリを生成するステップと、
前記シーンジオメトリに前記ローカル幾何プロキシを置いて、仮想環境を作成するステップと、
前記ローカル幾何プロキシおよび前記シーンジオメトリを、リモートエンドポイントのリモート参加者に送信するステップであって、前記ローカル参加者と前記リモート参加者との直に会ってのコミュニケーションをシミュレートするように、前記ローカルエンドポイントおよび前記リモートエンドポイントは異なる物理的場所にある、ステップと
を含む方法。
請求項１に記載の方法であって、前記ＲＧＢデータと前記奥行き情報を加えて前記ローカル幾何プロキシを作成するステップをさらに含む方法。
請求項１に記載の方法であって、
前記リモートエンドポイントで前記リモート参加者の三次元映像を取り込むステップと、
前記リモート参加者のリモート幾何プロキシを作成するステップと、
前記シーンジオメトリおよび仮想環境に前記リモート幾何プロキシを置くステップと、
前記シーンジオメトリおよび仮想環境において、前記ローカル幾何プロキシと前記リモート幾何プロキシの両方を互いにレンダリングするステップと
をさらに含む方法。
請求項３に記載の方法であって、レンダリングした前記ローカル幾何プロキシ、レンダリングした前記リモート幾何プロキシ、および前記シーンジオメトリを前記ローカルエンドポイントおよび前記リモートエンドポイントに送信するステップをさらに含む方法。
請求項１に記載の方法であって、前記リモートエンドポイントの前記リモート参加者に、前記リモート参加者の周りの少なくとも１８０度の空間を占める表示装置上で前記仮想環境を表示して、前記リモート参加者に前記仮想環境の仮想視点を提供するステップをさらに含む方法。
請求項５に記載の方法であって、前記表示装置は、前記リモート参加者の前に配置された第１の表示装置と、前記第１の表示装置のある側にある第２の表示装置と、前記第１の表示装置の別の側にある第３の表示装置とを含む、方法。
請求項６に記載の方法であって、
前記第１の表示装置に対して直角に前記第２の表示装置を配置するステップと、
前記第１の表示装置に対して直角に前記第３の表示装置を配置するステップと
をさらに含む方法。
請求項６に記載の方法であって、
前記第１の表示装置に対して９０度未満である第１の角度で前記第２の表示装置を配置するステップと、
前記第１の表示装置に対して９０度未満である第２の角度で前記第３の表示装置を配置するステップと
をさらに含む方法。
請求項８に記載の方法であって、前記第１の角度および前記第２の角度を互いに等しく設定するステップをさらに含む方法。
請求項３に記載の方法であって、
前記仮想環境において仮想テーブルを定めるステップと、
前記ローカル幾何プロキシおよび前記リモート幾何プロキシを前記仮想テーブルの周りに置いて、前記仮想環境において前記直に会ってのコミュニケーションをシミュレートするステップと
をさらに含む方法。
請求項１０に記載の方法であって、第１の直径の円形を有するものとして前記仮想テーブルを定めるステップをさらに含む方法。
請求項１１に記載の方法であって、
２人の参加者から２人より多くの参加者へ参加者の数を増やすことによって仮想環境をスケールアップするステップと、
第１の直径から第２の直径へ前記仮想テーブルのサイズを大きくするステップであって、前記第２の直径は前記第１の直径よりも大きい、ステップと、
前記仮想テーブルに前記参加者のそれぞれの幾何プロキシを置くステップと
をさらに含む方法。
請求項５に記載の方法であって、運動視差を使用して前記仮想視点に奥行きを加えるステップをさらに含む方法。
請求項１３に記載の方法であって、
前記リモート参加者の頭部を追跡するステップと、
前記リモート参加者の頭部の位置および向きに基づいて、前記仮想視点を通して前記リモート参加者に表示されるものを変更するステップと
をさらに含む方法。
第１のエンドポイントの周りに配置されて、参加者の周りの３６０度が複数のカメラポッドによって取り込まれるように、前記第１のエンドポイントで前記参加者の３Ｄ映像を取り込む前記複数のカメラポッドと、
前記３Ｄ映像からの取り込んだＲＧＢデータと取り込んだ奥行き情報を加えることによって取得される前記参加者の幾何プロキシと、
仮想環境を作成するための、正確な視線を有するシーンジオメトリおよび直に会ってのコミュニケーションと一致する会話のジオメトリと、
複数の表示装置を有する表示装置構成であって、前記複数の表示装置が第２のエンドポイントにて見る者の周りの少なくとも１８０度に置かれて、前記見る者が仮想視点を通して前記参加者を見ることができるように、前記複数の表示装置は前記第２のエンドポイントに位置し、前記見る者の、前記仮想環境における前記参加者の見え方は、前記見る者の頭部の位置および向きに基づいて変化する、表示装置構成と
を含む、制御された三次元（３Ｄ）エンドポイントシステム。
請求項１５に記載の制御された３Ｄエンドポイントシステムであって、
前記仮想環境に配置された丸い仮想テーブルと、
オンラインミーティングの他のエンドポイントの他の参加者と共に前記丸い仮想テーブルの周りに置かれた前記参加者のレンダリングされた幾何プロキシと
をさらに含む、制御された３Ｄエンドポイントシステム。
エンドポイントにおいて、前記エンドポイントのそれぞれの周りに配置された複数のカメラポッドを有する制御された取り込み環境を整えるステップと、
前記複数のカメラポッドを使用して、各前記エンドポイントの各参加者の三次元映像を取り込むステップと、
前記参加者のそれぞれの幾何プロキシを作成するステップと、
参加者の数に基づいてシーンジオメトリを生成するステップであって、前記シーンジオメトリは仮想テーブルを含む、ステップと、
直に会ってのコミュニケーションに一致する前記シーンジオメトリにおいて、前記幾何プロキシのそれぞれを互いにレンダリングするステップと、
前記シーンジオメトリにおいて前記仮想テーブルの周りに、レンダリングした前記幾何プロキシを置いて、仮想環境を作成するステップと、
前記エンドポイントにおいて、前記エンドポイントの前記参加者の周り少なくとも１８０度を覆う表示装置を有する制御された見る環境を整えるステップと、
前記表示装置を使用する前記制御された見る環境において前記参加者に前記仮想環境を表示するステップと、
各参加者の頭部の位置および向きに基づいて、前記表示装置を見ている参加者の仮想視点を変えるステップと、
さらなる参加者が追加されるように、参加者の数を増やすステップと、
前記さらなる参加者に対応するために前記仮想テーブルのサイズを大きくするステップと
を含む、オンラインミーティングにおいて参加者の数のスケール変更を行うための方法。
請求項１７に記載の方法であって、前記仮想テーブルを、ある直径を有する丸い仮想テーブルとして定めるステップをさらに含む方法。
請求項１８に記載の方法であって、前記仮想テーブルのサイズを大きくするステップは、前記さらなる参加者に対応するために前記丸い仮想テーブルの前記直径を大きくするステップをさらに含む、方法。
請求項１に記載の方法であって、
前記リモート参加者の視線を追跡するステップと、
前記リモート参加者に前記仮想環境の仮想視点を通じて表示されるものを、前記リモート参加者の視線の位置及び向きに基づいて変更するステップと
をさらに含む方法。