JP2024518888A

JP2024518888A - 仮想３ｄ通信のための方法及びシステム

Info

Publication number: JP2024518888A
Application number: JP2023564028A
Authority: JP
Inventors: オズ、ラン; グロナウ、ユヴァル; ストラスマン、ネリー
Original assignee: トゥルーミーティングインコーポレイテッド
Priority date: 2021-05-10
Filing date: 2022-05-10
Publication date: 2024-05-08
Also published as: WO2022238908A2; WO2022238908A3

Abstract

複数の参加者の間で三次元（３Ｄ）ビデオ会議を行う方法が提供され得、方法は、或る参加者に関連する視覚的検知ユニットによって、視覚的情報を獲得することと、視覚的情報に現れる複数の人物を識別することと、複数の人物から、少なくとも１人の関連する人物を発見することと、少なくとも１人の関連する人物の各々に対し、３Ｄエンティティ表現情報を判定することと、少なくとも１人の参加者に対し、少なくとも１人の関連する人物の各々についての３Ｄエンティティ表現情報に基づいて、仮想３Ｄビデオ会議環境の表現を生成することと、を含み得る。

Description

相互参照
本出願は、その全体での参照により本明細書に組み込まれる、２０２１年５月１０日に出願された米国仮特許出願第６３／２０１，７１３号からの優先権を主張する。

ビデオ電話会議が非常に普及している。それらは、各々の参加者が、ディスプレイの近くに通常は位置するカメラを有するそれら自身のコンピュータ化システムを有することを必要とする。

典型的には、ミーティングへの何人かの参加者は、別々の小さいタイル内で出席し、参加者のスクリーンの１つを共有するために、別のタイルが使用され得る。

各々の参加者は典型的には、それら自身のオフィスのバックグラウンドと共に、又はそれらの選択の仮想的なバックグラウンドと共に示される。

参加者は、異なる角度から、及び異なるサイズで表示される。

結果として、人物は、切断されたように感じ得、それらが全て同一の部屋に存在していたかのように感じ得ない。

ユーザが典型的には、対向する人物の顔が表示されるスクリーンを見ており、スクリーンの上又は下にあり得るカメラを見ていないので、例えば、現れる画像は、上方向又は下方向のそれぞれを見ており、他の人物を見ていない人物の画像である。よって、会話の参加者の間のアイ・コンタクトが失われる。これは、接続されていないというセンセーションを高める。

更に、各々の参加者のスクリーン上で、他のユーザの画像が異なるポジションに、及び可変の順序で位置し得るので、誰が誰を見ているかが明瞭でない。

全ての参加者からの全てのオーディオ・ストリームが１つの単一のモノ・トラックオーディオ・ストリームにマージされるので、音がどの方向から到達するかを知ることが不可能であり、これは、いずれかの所与の瞬間に誰が話しているかを判定することを困難にし得る。

ほとんどのウェブカメラが胸の中間から上方向の顔の画像を捕捉するので、参加者の手は、頻繁に示されず、したがって、標準の会話の重大な部分であるハンド・ジェスチャは、典型的なビデオ会議では伝わらない。

更に、トラフィックの品質（ビットレート、パケット損失、及び待ち時間）は、経時的に変化し得、ビデオ電話会議の品質は、それにしたがって変動し得る。

典型的には、ビデオ会議画像は、カメラの解像度が制限されること（共通のラップトップ・カメラにおいて１０８０×７２０画素）、モーション・ブラー、及びビデオ圧縮に起因して、ぼやける傾向がある。多くのケースでは、ビデオは、フリーズし、オーディオが金属音を発し又は失われる。

全てのそれらの制限は、Ｚｏｏｍの倦怠感として知られるエフェクトを生じさせ（ｈｔｔｐｓ：／／ｈｂｒ．ｏｒｇ／２０２０／０４／ｈｏｗ－ｔｏ－ｃｏｍｂａｔ－ｚｏｏｍ－ｆａｔｉｇｕｅ）、それは、同一の部屋内での標準ミーティングにおいてそれらが典型的には行う、ビデオ会議ミーティングの何時間も後に、参加者がより疲弊することを結果としてもたらす。

ｈｔｔｐｓ：／／ｈｂｒ．ｏｒｇ／２０２０／０４／ｈｏｗ－ｔｏ－ｃｏｍｂａｔ－ｚｏｏｍ－ｆａｔｉｇｕｅｈｔｔｐｓ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ｉｔｅｒａｔｉｖｅ＿ｃｌｏｓｅｓｔ＿ｐｏｉｎｔｈｔｔｐｓ：／／ｆｌａｍｅ．ｉｓ．ｔｕｅ．ｍｐｇ．ｄｅ／ｈｏｍｅ

参加者の間の仮想対話を高め、現在のビデオ電話会議サービスと関連付けられた様々な他の問題を克服する必要性が増大している。

方法の実例を例示する図である。コンピュータ化環境の実例を例示する図である。コンピュータ化環境の実例を例示する図である。データ構造の実例を例示する図である。参加者の凝視方向に従って参加者の部分の３Ｄモデルのビューの方向を修正する工程の実例を例示する図である。方法の実例を含む図である。画像及び工程の実例の図である。視差補正の実例の図である。２．５次元イリュージョンの実例を例示する図である。３Ｄスクリーン又は仮想現実ヘッドセットに対する３Ｄコンテンツの実例を例示する図である。５人の参加者によってポピュレートされる仮想３Ｄ環境のパノラミック・ビュー、仮想３Ｄ環境内の参加者の一部の部分的ビュー、及びハイブリッド・ビューの実例の図である。異なる露光の画像の実例及び異なるシェードの顔の画像の実例の図である。顔の画像及び画像のセグメント化の実例の図である。方法の実例を例示する図である。３Ｄモデル及びＵＶマップの実例の図である。上唇及び下唇に関する２Ｄ－２Ｄ対応関係計算の実例の図である。方法の実例の図である。方法の実例の図である。方法の実例の図である。顔のテキスチャ・マップを例示する図である。方法の実例を例示する図である。２人の人物をキャプチャする画像の実例、及び１人若しくは複数の人物又は更に多くの参加者を表すアバタの実例を例示する図である。参加者の凝視方向の実例を例示する図である。方法の実例を例示する図である。コンピュータ化環境、共有フォルダ、及びユーザ・デバイスの間で交換される様々な信号の実例を例示する図である。タイミング図の実例を例示する図である。方法の実例を例示する図である。画像とフォアグラウンド・セグメント化及びバックグラウンド・セグメント化との実例を例示する図である。方法の実例を例示する図である。リップスティックなしの参加者の実例を例示する図である。方法の実例を例示する図である。方法の実例を例示する図である。仮想３Ｄビデオ会議の異なる部分を例示する図である。リップスティックを有する参加者の実例を例示する。リップスティックなしの参加者のアバタの実例を例示する図である。参加者の唇のリップスティック自由表現の実例を例示する図である。リップスティックを有する参加者のアバタの実例を例示する図である。

以下の詳細な説明では、開示の実施例の完全な理解を提供するために、多数の特定の詳細が示される。

しかしながら、それらの特定の詳細なしに、開示の本実施例が実践され得ることが当業者によって理解されよう。他の例では、開示の本実施例を曖昧にしないように、公知の方法、手順、及び構成要素は、詳細には説明されていない。

開示の実施例として見なされる主題は特に、明細書の結論部分において指し示され、明確に特許請求される。しかしながら、機構及び動作の方法の両方について、開示の実施例は、それらの目的、特徴、及び利点と共に、添付図面を読むときに、以下の詳細な説明を参照することによって最良に理解され得る。

例示の簡易さ及び明瞭さのために、図面に示される要素は、必ずしも同一縮尺に描かれていないことを認識するであろう。例えば、要素の一部の寸法は、明瞭さのために他の要素に対して誇張され得る。更に、適切であると考えられる場合、対応する要素又は同様の要素を示すために、図面の間で参照符号が繰り返され得る。

開示の例示される実施例が、ほとんどの部分について、当業者に既知の電子構成要素及び回路を使用して実装され得ることを理由に、開示の本実施例の基本的な概念の理解及び評価のために、並びに開示の本実施例の教示を難読化せず、若しくは教示から逸らさないために、上記例示されるように、必要とであると考えられるよりもいずれかの大きい程度に詳細が説明されない。

明細書での方法へのいずれかの言及は、方法を実行する能力を有するシステムに必要な変更を加えて適用されるべきであり、非一時的であり、及び方法を実行するための命令を記憶したコンピュータ可読媒体に必要な変更を加えて適用されるべきである。

明細書でのシステムへのいずれかの言及は、システムによって実行され得る方法に必要な変更を加えて適用されるべきであり、非一時的であり、及びシステムによって実行可能な命令を記憶したコンピュータ可読媒体に必要な変更を加えて適用されるべきである。

明細書での非一時的であるコンピュータ可読媒体への言及は、コンピュータ可読媒体に記憶された命令を実行するときに適用され得る方法に必要な変更を加えて適用されるべきであり、コンピュータ可読媒体に記憶された命令を実行するように構成されたシステムに必要な変更を加えて適用されるべきである。

用語「及び／又は（ａｎｄ／ｏｒ）」は、加えて又は代わりに、を意味する。

「ユーザ」への言及は、用語「参加者」に必要な変更を加えて適用されるべきであり、逆もまたそうである。

ビデオに関連する方法、非一時的コンピュータ可読媒体、及びシステムが提供され、例えば、３Ｄビデオ電話会議に適用可能であり得る。本出願において例示される実例及び／又は実施例の少なくとも一部は、他の目的のために、及び／又は他の用途の間に必要な変更を加えて適用され得る。

例えば、複数の参加者を伴う３Ｄビデオ会議を参照する。第１の参加者が撮像され、第２の参加者は、仮想３Ｄビデオ会議環境内で第１の参加者の第１のアバタ（又は、いずれかの他の３Ｄ視覚的表現を見ることを望む。

第１のアバタ（又は、いずれかの他の３Ｄ視覚的表現）の生成は、様々な方式において、例えば、第２の参加者のデバイスによってのみ、第１の参加者のデバイスによってのみ、第２の参加者のデバイスによって部分的に、第１の参加者のデバイスによって部分的に、第１の参加者のデバイスと第２の参加者のデバイスとの間の協調によって、別のコンピュータ化システム（それらに限定されないが、クラウド・システム若しくはリモート・システムなど）によって、及び／又は１つ又は複数のデバイスのいずれかの組み合わせによって、実行され得る。

仮想３Ｄビデオ会議環境にアバタ（又は、いずれかの他の３Ｄ視覚的表現）を含めることは、様々な方式において、例えば、第２の参加者のデバイスによってのみ、第１の参加者のデバイスによってのみ、第２の参加者のデバイスによって部分的に、第１の参加者のデバイスによって部分的に、第１の参加者のデバイスと第２の参加者のデバイスとの間の協調によって、別のデバイス（クラウド・デバイス若しくはリモート・デバイスなど）によって、及び／又は１つ又は複数のデバイスのいずれかの組み合わせによって、実行され得る。

第１のアバタを生成するいずれかのステップの実行の１つの方式への言及、及び／又は仮想３Ｄビデオ会議環境にアバタを含めるいずれかのステップの実行の１つの方式への言及は、実行のいずれかの他の方式に必要な変更を加えて適用され得る。

第１のアバタを生成すること、及び／又は第１のアバタを含めることは、第１のユーザのデバイス又は第１のユーザのデバイスと関連付けられたカメラ若しくはセンサによって得られる情報に応答し得る。情報の非限定的な例は、第１の参加者に関する情報及び／又は第１の参加者の画像の獲得に関する情報（例えば、カメラ設定、照射条件及び／又は周囲条件）を含み得る。

システムは、複数のユーザ・デバイス及び／又はサーバ、クラウド・コンピュータなどの中間デバイス、並びに同様のものを含み得る。

図１は、方法２００の実例を例示する。

方法２００は、複数の参加者の間で三次元ビデオ会議を行うためのものである。

方法２００は、ステップ２１０、２２０、及び２３０を含み得る。

ステップ２１０は、参加者と関連付けられた仮想３Ｄビデオ会議環境の表現内の各々の参加者の凝視方向に関する凝視方向情報を受信することを含み得る。

参加者と関連付けられた仮想３Ｄビデオ会議環境の表現は、参加者に示される表現である。異なる参加者は、仮想３Ｄビデオ会議環境の異なる表現と関連付けられ得る。

凝視方向情報は、参加者の凝視の検出された方向を表し得る。

凝視方向情報は、参加者の凝視の推定された方向を表し得る。

ステップ２２０は、参加者ごとに、参加者の凝視方向を反映する、仮想３Ｄビデオ会議環境内の更新された３Ｄ参加者表現情報を判定することを含み得る。ステップ２２０は、仮想３Ｄビデオ会議環境が参加者の凝視方向からどのように見られるかを推定することを含み得る。

ステップ２３０は、少なくとも１人の参加者に対して、仮想３Ｄビデオ会議環境の更新された表現を生成することを含み得、仮想３Ｄビデオ会議環境の更新された表現は、複数の参加者の少なくとも一部についての更新された３Ｄ参加者表現情報を表す。ステップ２３０は、複数の参加者の少なくとも一部についての仮想３Ｄビデオ会議環境の画像をレンダリングすることを含み得る。代わりに、ステップ２３０は、レンダリング工程にフィードされることになる入力情報（３Ｄモデル及び／又は１つ若しくは複数のテキスチャ・マップ）を生成することを含み得る。

方法２００はまた、複数の参加者の参加者のデバイスによって、仮想３Ｄビデオ会議環境の更新された表現を表示するステップ２４０を含み得、更新された表現は、参加者と関連付けられ得る。

方法２００は、少なくとも１人の参加者の少なくとも１つのデバイスに、仮想３Ｄビデオ会議環境の更新された表現を伝送するステップ２５０を含み得る。

複数の参加者は、複数の参加者デバイスと関連付けられ得、受信すること及び判定することは、複数の参加者デバイスの少なくとも一部によって実行され得る。方法２００のいずれかのステップは、複数の参加者デバイスの少なくとも一部によって、又は別のコンピュータ化システムによって実行され得る。

複数の参加者は、複数の参加者デバイスと関連付けられ得、受信すること及び判定することは、複数の参加者デバイスのいずれかとは異なるコンピュータ化システムによって実行され得る。

方法２００は、集合的に２９０と表わされる、更なる追加のステップの１つを含み得る。

１つ又は複数の追加のステップは、以下のうちの少なくとも１つを含み得る：
ａ．仮想３Ｄビデオ会議環境内の第３の参加者の視野を判定すること。
ｂ．第３の参加者の視野を反映するように第３の参加者デバイスに送信され得る、仮想３Ｄビデオ会議環境の第３の更新された表現を設定すること。
ｃ．異なる状況下の参加者の３Ｄ表現を生成するための初期の３Ｄ参加者表現情報を受信すること。異なる状況は、（ａ）異なる画像獲得条件（異なる照射条件及び／又は収集条件）、（ｂ）凝視の異なる方向、及び（ｃ）異なる表情の少なくとも１つを含み得る。
ｄ．実行時間内に、状況メタデータを受信し、状況メタデータに基づいて、更新された３Ｄ参加者表現情報をリアルタイムで修正すること。
ｅ．参加者ごとに、参加者の複数の３Ｄモデルから選択された３Ｄモデルを繰り返して選択すること、
ｆ．参加者の１つの選択された３Ｄモデルから参加者の別の３Ｄモデルへの遷移を繰り返して円滑にすること。
ｇ．必要とされる解像度に基づいて、複数のニューラル・ネットワークの少なくとも１つのニューラル・ネットワークの出力を選択すること。
ｈ．参加者の頭部姿勢及び表情に関する参加者外見情報を受信又は生成すること。
ｉ．参加者外見情報を反映するように、更新された３Ｄ参加者表現情報を判定すること。
ｊ．参加者を表すアバタの各々の形状を判定すること。
ｋ．更新された３Ｄ参加者表現情報のセグメントの関連性を判定すること。
ｌ．関連性及び利用可能なリソースに基づいて、どのセグメントを送信するかを選択すること。
ｍ．参加者の３Ｄ参加者表現情報の３Ｄモデル及び１つ又は複数のテキスチャ・マップを生成すること。
ｎ．参加者の顔の１つ又は複数の隠蔽エリアの３Ｄ参加者表現情報を推定すること。
ｏ．３Ｄモデル隠蔽エリア及び１つ又は複数の隠蔽部分テキスチャ・マップを推定すること。
ｐ．アバタのサイズを判定すること。
ｑ．参加者からのオーディオに関するオーディオ情報及び外見情報を受信すること。
ｒ．オーディオ情報と３Ｄ参加者表現情報との間で同期すること。
ｓ．参加者からのオーディオに基づいて、参加者の顔の表情を推定すること。
ｔ．参加者の動きを推定すること。

３Ｄ参加者表現情報を受信することは、初期化ステップの間に行われ得る。

初期の３Ｄ参加者表現情報は、初期の３Ｄモデル及び１つ又は複数の初期のテキスチャ・マップを含み得る。

３Ｄ参加者表現情報は、３Ｄモデル及び１つ又は複数のテキスチャ・マップを含み得る。

３Ｄモデルは、形状、姿勢、及び表情についての別個のパラメータを有し得る。

１つ又は複数のテキスチャ・マップの各々は、形状、姿勢、及び表情の少なくとも１つに基づいて、選択及び／又は増補され得る。

１つ又は複数のテキスチャ・マップの各々は、形状、姿勢、表情、及び参加者の顔と参加者の顔の画像を捕捉するカメラの光学軸との間の角度関係の少なくとも１つに基づいて、選択及び／又は増補され得る。

参加者ごとに、更新された３Ｄ参加者表現情報を判定することは、以下のうちの少なくとも１つを含み得る：
ａ．更新された３Ｄ参加者表現情報を判定するための１つ又は複数のニューラル・ネットワークを使用すること。
ｂ．更新された３Ｄ参加者表現情報を判定するための複数のニューラル・ネットワークを使用すること、複数のニューラル・ネットワークの異なるニューラル・ネットワークは、異なる状況と関連付けられ得る。
ｃ．更新された３Ｄ参加者表現情報を判定するための複数のニューラル・ネットワークを使用すること、複数のニューラル・ネットワークの異なるニューラル・ネットワークは、異なる解像度と関連付けられ得る。

仮想３Ｄビデオ会議環境の更新された表現は、複数の参加者の少なくとも一部の参加者ごとのアバタを含み得る。

仮想３Ｄビデオ会議環境内のアバタの凝視方向は、（ａ）アバタによって表わされ得る参加者の凝視方向と、（ｂ）参加者に表示される仮想３Ｄビデオ会議環境の表現と、の間の空間的関係を表し得る。

仮想３Ｄビデオ会議環境内のアバタの凝視方向は、参加者の頭部を捕捉したカメラの光学軸に対して不可知であり得る。

仮想３Ｄビデオ会議環境の更新された表現内の参加者のアバタは、第１の参加者の目を横切る仮想平面上に位置する仮想カメラによって捕捉されるとして、仮想３Ｄビデオ会議環境の更新された表現に現れ得る。したがって、仮想カメラ及び目は、例えば、同一の高さに位置し得る。

更新された３Ｄ参加者表現情報は、圧縮され得る。

仮想３Ｄビデオ会議環境の更新された表現は、圧縮され得る。

３Ｄモデル及び１つ又は複数のテキスチャ・マップの生成は、異なる状況下で獲得された参加者の画像に基づき得る。

異なる状況は、画像を獲得したカメラの異なる視認方向、参加者の異なる姿勢、及び参加者の異なる表情を含み得る。

１つ又は複数の隠蔽エリアの３Ｄ参加者表現情報の推定は、１つ又は複数の敵対的生成ネットワークを使用して実行され得る。

参加者ごとに、更新された３Ｄ参加者表現情報を判定することは、以下のうちの少なくとも１つを含み得る：
ａ．超解像技術を適用すること。
ｂ．ノイズ除去を適用すること。
ｃ．照射条件を変更すること。
ｄ．ウェアラブル・アイテム情報を追加又は変更すること。
ｅ．メイクアップ情報を追加又は変更すること。

更新された３Ｄ参加者表現情報は、暗号化され得る。

仮想３Ｄビデオ会議環境の更新された表現は、暗号化され得る。

外見情報は、参加者の頭部姿勢に関するものであり得、及び表情並びに／又は参加者の唇の動きに関するものであり得る。

参加者からのオーディオに基づいて参加者の顔の表情を推定することは、オーディオ・パラメータを顔の表情パラメータにマッピングするように訓練されたニューラル・ネットワークによって実行され得る。

図２は、ユーザ４０１０（１）～４０１０（Ｒ）のユーザ・デバイス４０００（１）～４０００（Ｒ）を含むコンピュータ環境の実例を例示する。インデックスｒは、１～Ｒの範囲にあり、Ｒは、正の整数である。ｒ番目のユーザ・デバイス４０００（ｒ）は、１つ又は複数のプロセシング回路４００１（ｒ）、メモリ４００２（ｒ）、ディスプレイ４００３（ｒ）などのマン・マシン・インタフェース、及びカメラ４００４（ｒ）などの１つ又は複数のセンサを含み得る、いずれかのコンピュータ化デバイスであり得る。ｒ番目のユーザ４０１０（ｒ）は、ｒ番目のユーザ・デバイス４０００（ｒ）と関連付けられる（を使用する）。カメラは、マン・マシン・インタフェースに属し得る。

ユーザ・デバイス４０００（１）～４０００（Ｒ）及びリモート・コンピュータ化システム４１００は、ネットワーク４０５０などの１つ又は複数のネットワークを通じて通信し得る。１つ又は複数のネットワークは、いずれかのタイプのネットワーク、インターネット、有線ネットワーク、無線ネットワーク、ローカル・エリア・ネットワーク、及びグローバル・ネットワークなどであり得る。

リモート・コンピュータ化システムは、１つ又は複数のプロセシング回路４１０１（１）、メモリ４１０１（２）を含み得、いずれかの他の構成要素を含み得る。

ユーザ・デバイス４０００（１）～４０００（Ｒ）及びリモート・コンピュータ化システム４１００のいずれかの１つは、本明細書において例示されるいずれかの方法の実行に参加し得る。参加することは、先述の方法のいずれかの少なくとも１つのステップを実行することを意味する。

いずれかのプロセシング回路、１つ又は複数のネットワーク・プロセッサ、非ニューラル・ネットワーク・プロセッサ、レンダリング・エンジン、及び画像プロセッサなどが使用され得る。

１つ又は複数のニューラル・ネットワークは、ユーザ・デバイスに、複数のユーザ・デバイスに、及びユーザ・デバイスのいずれかの外のコンピュータ化システムに位置し得る。

図３は、ユーザ４０１０（１）～４０１０（Ｒ）のユーザ・デバイス４０００（１）～４０００（Ｒ）を含むコンピュータ環境の実例を例示する。インデックスｒは、１～Ｒの範囲にあり、Ｒは、正の整数である。ｒ番目のユーザ・デバイス４０００（ｒ）は、１つ又は複数のプロセシング回路４００１（ｒ）、メモリ４００２（ｒ）、ディスプレイ４００３（ｒ）などのマン・マシン・インタフェース、及びカメラ４００４（ｒ）などの１つ又は複数のセンサを含み得る、いずれかのコンピュータ化デバイスであり得る。ｒ番目のユーザ４０１０（ｒ）は、ｒ番目のユーザ・デバイス４０００（ｒ）と関連付けられる（を使用する）。

ユーザ・デバイス４０００（１）～４０００（Ｒ）は、ネットワーク４０５０などの１つ又は複数のネットワークを通じて通信し得る。

ユーザ・デバイス４０００（１）～４０００（Ｒ）のいずれかの１つは、本明細書において例示されるいずれかの方法の実行に参加し得る。参加することは、先述の方法のいずれかの少なくとも１つのステップを実行することを意味する。

図４は、様々なデータ構造の実例を例示する。データ構造は、ユーザ・アバタ４１０１（１）～４１０１（ｊ）、テキスチャ・マップ４１０２（１）～４１０２（ｋ）、３Ｄモデル４１０３（１）～４１０３（ｍ）、オブジェクトの３Ｄ表現４１０４（１）～４１０４（ｎ）、及び本出願において言及されるいずれかのマッピング又は他のデータ構造を含み得る。

いずれかのユーザは、いずれかのタイプの１つ又は複数のデータ構造、アバタ、３Ｄモデル、及びテキスチャ・マップなどと関連付けられ得る。

実例の一部は、ユーザが設定されるミーティング・ルーム、レストラン、カフェ、コンサート、パーティ、外部環境、又は想像上の環境などの仮想３Ｄビデオ会議環境を指す。各々の参加者は、仮想バックグラウンド若しくは実際のバックグラウンドを選び得、若しくはそうでなければ、それらと関連付けられ得、及び／又は、参加者の少なくとも一部に関連するアバタが表示されるいずれかの仮想バックグラウンド若しくは実際のバックグラウンドを選択し得、若しくはそうでなければ、それらを受信し得る。仮想３Ｄビデオ会議環境は、参加者の１人又は複数を表す１つ又は複数のアバタを含み得る。１つ又は複数のアバタは、仮想３Ｄビデオ会議環境内に仮想的に位置し得る。仮想３Ｄビデオ会議環境（アバタに関連し得、又は関連し得ない）１つ又は複数の特徴は、１人の参加者から別の参加者へと異なり得る。

ユーザの全身、ユーザの身体の一部、又はユーザの顔のみのいずれかは、この環境内で見られ、よって、アバタは、参加者の全身、参加者の身体の身体の上位部分、又は参加者の顔のみを含み得る。

仮想３Ｄビデオ会議環境内で、相互に近くに実際に位置付けられる実際のユーザの間に存在する視覚対話をエミュレートし得るユーザの間の改善された視覚対話が提供され得る。これは、アイ・コンタクト、及び特定のユーザに向けられる表情を生じさせる、又は止めることを含み得る。

異なるユーザの間でのビデオ電話会議では、各々のユーザは、１人又は複数の他のユーザのビューが設けられ得、システムは、ユーザが見ているポジション（例えば、他のユーザの１人を見ている、ユーザの誰も見ていない、プレゼンテーションを示すスクリーンを見ている、ホワイトボードを見ているなど）を判定し得（凝視方向及び仮想環境に基づいて）、これは、仮想環境内のユーザの仮想表現（３Ｄモデル）によって反映され、その結果、他のユーザは、ユーザが見ているポジションを判定し得る。

図５は、参加者の凝視方向に従って、参加者の一部のアバタのビューの方向を修正する工程の実例を例示する。図５の上部は、テーブル６０の近くに座っている５人の参加者５１、５２、５３、５４、及び５５のパノラミック・ビュー４１によって表わされる仮想３Ｄビデオ会議環境である。全ての参加者は、同一の方向、スクリーンに対向する。

下の画像では、第５の参加者が第５の参加者に提示されるような環境内の第１の参加者の３Ｄモデルを見ていることが検出されたように、第５の参加者のアバタは、第１の参加者のアバタに対向する。

ユーザの目及び凝視方向を追跡することは、ユーザが見ている方向、及びユーザが見ている人物又はオブジェクトを判定するためにも使用され得る。この情報は、アバタの頭部及び目を回転させるために使用され得、その結果、仮想空間内で、それは、ユーザが現実世界にあるのと同一の人物又はオブジェクトを見ているように現れる。

ユーザの頭部姿勢及び目の凝視を追跡することは、ユーザのスクリーン上の仮想世界の外観を制御するためにも使用され得る。例えば、ユーザがスクリーンの右側を見ている場合、仮想カメラの視点は、右に移動し得、その結果、ユーザが見ている人物又はオブジェクトは、ユーザのスクリーンの中心に位置する。

カメラの元の視点とは異なる或る視点からのユーザの頭部、身体、及び手をレンダリングすることは、以下で説明されるように、異なる方法において行われ得る。

一実施例では、３Ｄモデル及びテキスチャ・マップは、ミーティングの開始の前に作成され、このモデルは次いで、ビデオ画像から推定されるユーザの姿勢及び表情に従った実行時間においてアニメ化及びレンダリングされる。

テキスチャ・マップは、各々のカラー画素が３Ｄモデル内の或るエリアの赤、緑、及び青の反射係数を表す２Ｄ画像である。テキスチャ・マップの実例が図２０に示される。テキスチャ・マップ内の各々のカラー画素は、３Ｄモデルの表面上の特定のポリゴン（例えば、三角形）内の或る座標に対応する。

三角形から構成される３Ｄモデル及びそれらの三角形へのテキスチャ・マップのマッピングの実例が図１５に示される。

概して、テキスチャ・マップ内の各々の画素は、それがマッピングされる三角形のインデックス及び三角形内のその厳密な位置を定義する３つの座標を有する。

固定した数の三角形及び頂点から構成される３Ｄモデルは、３Ｄモデル変化として変形され得る。例えば、顔の３Ｄモデルは、顔がその表情を変形させるにつれて変形され得る。それにも関わらず、顔の表情が変化するにつれて三角形の３Ｄ位置が変化するときでさえ、テキスチャ・マップ内の画素は、同一の三角形内の同一の位置に対応する。

テキスチャ・マップは、一定であり得、又は時間、表情、又は視認角度に応じて可変であり得る。いずれかのケースでは、テキスチャ・マップ内の所与の画素と或る３Ｄモデル内の三角形内の或る座標との対応関係は、変化しない。

更なる別の実施例では、新たなビューは、ビデオ・カメラから取得されるリアルタイム画像及び新たな視点（仮想カメラ）のポジションに基づいて作成される。

オーディオ及び唇の動き及び顔表情の間で最良に整合させるために、姿勢及び表情パラメータに基づいて３Ｄモデルをレンダリングすることから作成されるオーディオ及びビデオが同期される。同期は、同一の時間フレームに対応する１つのパケットに３Ｄモデル・パラメータ及びオーディオをパッケージ化することによって、又はタイムスタンプをデータ・ソースの各々に追加することによって行われ得る。

レンダリングされたモデルの自然な外観を更に改善するために、オーディオ・ニューラル・ネットワークは、オーディオに基づいて顔表情係数を推定するように訓練され得る。これは、話している人物のビデオ及びこの発話の対応するオーディオのデータベースを使用して、ニューラル・ネットワークを訓練することによって行われ得る。ビデオは、アバタによって表わされるはずの参加者のビデオ、又は他の人物のビデオであり得る。十分な実例を仮定して、ネットワークは、オーディオ（すなわち、音素）と対応する顔の動き、殊に、唇の動きとの間の対応関係を学習する。ビデオ品質が低いときでさえ、又は顔の一部が元のビデオ・カメラに対して妨害されるときでさえ、そのような訓練されたネットワークは、顔表情、特に、唇の動きを継続してレンダリングすることを有効にする。

更なる別の実施例では、ニューラル・ネットワークは、専門唇リーダによって行われるように、唇及び喉の動きから、又はいずれかの他の顔のキューからオーディオ音を推定するように訓練されることができる。これは、オーディオが中断されるとき、又はその品質を低減させるバックグラウンド・ノイズが存在するとき、オーディオの品質を作成又は改善することを有効にする。

更なる別の実施例では、ニューラル・ネットワークは、高品質でオーディオを再構築することができるパラメータの潜在的なベクトルを発見することによって、オーディオを圧縮するように訓練される。そのようなネットワークは、所与のオーディオ品質のための標準的なオーディオ圧縮方法により可能であるよりも低いビットレートにおいて、オーディオを圧縮し、又は所与のビットレートに対してより高いオーディオ品質を取得する役割を果たす。

そのようなネットワークは、或るコスト関数の下で元の発話にできるだけ類似する発話の影響を受ける、固定した数の係数にオーディオ信号を圧縮するように訓練され得る。

パラメータの集合への発話の変換は、単に、標準的な発話圧縮アルゴリズムにおいて一般的であるような線形変換ではなく、非線形関数であり得る。１つの実例は、ネットワークが、話されたオーディオの張る集合を形成する基本ベクトルの集合を学習及び定義する必要があることである。

パラメータは次いで、この集合によって張られるようなオーディオのベクトル係数である。

図６は、方法２００１を例示する。

方法２００１は、複数の参加者の間で３Ｄビデオ会議を行うためのものであり、方法は、ステップ２０１１及び２０２１を含み得る。

ステップ２０１１は、参加者ごとに、参加者を表す、仮想３Ｄビデオ会議環境内の更新された３Ｄ参加者表現情報を判定することを含み得る。判定することは、参加者によって生成されるオーディオと、参加者の外観に関する外見情報とによって生成されるオーディオに基づき得る。

ステップ２０２１は、少なくとも１人の参加者に対し、仮想３Ｄビデオ会議環境の更新された表現を生成することを含み得、仮想３Ｄビデオ会議環境の更新された表現は、複数の参加者の少なくとも一部についての更新された３Ｄ参加者表現情報を表す。例えば、参加者によるいずれかの動きは、環境の一部を公開し得又はひとまとめにし得る。加えて、参加者による動きは、動きが環境の異なる部分を照らすように露光を修正し得るように、部屋内の照明に影響し得る。

方法は、或る参加者からのオーディオと或る参加者の外見情報との間で整合させることを含み得る。

外見情報は、参加者の頭部姿勢及び表情に関するものであり得る。

外見情報は、参加者の唇の動きに関するものであり得る。

３Ｄモデルの作成
ユーザの３Ｄモデル及びテキスチャ・マップは、２Ｄ又は３Ｄビデオ・カメラからオン・ザ・フライで作成されることができ、又は３Ｄビデオ電話会議の開始の前に準備されることができる。それらはまた、ミーティングの前に準備される高品質モデルと、ミーティングの間に作成されるリアルタイム・モデルとの組み合わせであることができる。例えば、新たに成長した髭など、高品質モデルに対する参加者の外観における変化は、オン・ザ・フライ・カメラからの情報を使用して調節され得る。別の実例として、新たなテキスチャ・マップは、人物の現在見ているものに基づいて、ミーティングの間にビデオから作成されることができる。しかしながら、このテキスチャ・マップは、カメラによって現在は見られ得ないエリアの妨害に起因したデッド・ゾーン（隠蔽エリア）を含み得る。そのようなデッド・ゾーンは、前に作成されたテキスチャ・マップを使用することによって埋められることができる。

それらのゾーンを埋めることは、レジストレーションとして既知の方法を使用して、２つのテキスチャ・マップ内のランドマークを整合させることによって実行される。整合が実行されると、隠蔽エリアについてのデータは、前に準備されたテキスチャ・マップから取られる。

現在のテキスチャ・マップと前のテキスチャ・マップとの間の照射補正は、両方のマップ内で示され得るエリアに基づいて計算され得る。それらの補正は、現在のテキスチャ・マップに適用され得、その結果、異なる時間に捕捉されたテキスチャの間の明確なボーダ・ラインがない。加えて、異なる時間からのテキスチャの間の鮮明な遷移を回避するために、例えば、２つのテキスチャ・マップの加重平均を使用することによって、テキスチャの継続したブレンディングが適用されることができ、重みは、テキスチャの間の遷移ゾーンに沿って変化する。上記言及された方法は、テキスチャ・マップ、材料マップ、及び３Ｄモデルをもマージするために使用され得る。

ビデオ・カメラが２Ｄカメラである場合、畳み込みニューラル・ネットワークなどのコンピュータ化モデルは、２Ｄ画像から３Ｄモデルを作成するために使用され得る。それらのモデルは、パラメータが顔の形状、表情、及び姿勢、身体、並びに手を判定する、パラメトリック・モデルであり得る。そのようなモデルは、２Ｄ画像及び対応する３Ｄモデルの集合を使用して訓練されることができる。対応する３Ｄモデルは、いくつかの方法において作成されることができる。レンダリング工程では、可変の照射に対してモデルをロバストにするために、異なる照射が使用されることができる。

別の方法では、真の人物の多くの２Ｄ画像が取得されることができ、次いで、フォトグラメトリ・ソフトウェアを使用することによってそれらの複数の２Ｄ画像から３Ｄモデルが作成されることができる。更なる別の方法では、Ｋｉｎｎｅｃｔカメラ又はＩｎｔｅｌＲｅａｌＳｅｎｓｅカメラなどのＲＧＢカメラをも含む深度カメラは、３Ｄ深度モデル及び対応する２Ｄ画像の両方を取得するために使用されることができる。実行時間において、上記説明された方法を使用してネットワークを訓練した後、それは、入力として２Ｄ画像が供給され得、ネットワークは、３Ｄモデルを出力する。３Ｄモデルは、ポイントクラウド、メッシュ、又は所与のパラメトリック空間内の３Ｄモデルを記述するパラメータの集合として出力されることができる。

カメラが３Ｄ深度カメラである場合、モデルをより正確にし、曖昧さを解決するために、深度データが使用されることができる。例えば、１つが人物の頭部の前向き画像のみを取得する場合、画像内の各々のポイントの厳密な深度、すなわち、鼻の長さを知ることは不可能であり得る。異なる角度からの顔の１つよりも多い画像が存在するとき、そのような曖昧さが解決され得る。それにも関わらず、１つの画像のみにおいて見られる閉塞したエリア又は不正確さが残り得る。深度カメラからの深度データは、上記説明された曖昧さの問題を解決するポイントごとに、深度情報により３Ｄモデルを生成することを支援し得る。

オフライン３Ｄモデル作成工程が使用され得る場合、これは、単一の画像、複数の画像、ビデオ、又はいくつかのビデオを使用して行われることができる。ユーザは、頭部、手、及び身体を回転させるように依頼され得、その結果、全てのビューを網羅し、モデル内の欠落するエリアを回避するために、多くの角度からそれが見られ得る。

そのようなエリアがなおも存在する場合、それらは、モデル化されたエリアから、又は多くの例を使用して訓練されたニューラル・ネットワークによって、外挿又は推論され得る。

特に、敵対的生成ネットワーク（ＧＡＮ：ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）は、カメラが人物を現在見ていることがある角度とは異なり得る角度から人物の画像を生成するように、或る人物の多くの画像に基づいて、又は複数の人物の多くの画像に基づいて訓練され得る。

実行時間において、そのようなネットワークは、入力及びカメラ・ポジションとして人物の画像を受信し、カメラ・ポジションから人物がレンダリングされるべきである。ネットワークは、カメラの見通し線にほぼ並列であることに起因して、入力画像内で不明瞭にされ得、又は入力画像内で低解像度にあり得る部分（すなわち、正面画像の頬）を含む、異なるカメラ・ポジションからその人物の画像をレンダリングする。

図７は、元の画像内で見られ得ないエリア内でテキスチャを完成させるために、敵対的生成ネットワーク１０９を使用する工程１００の実例を示す。ＧＡＮにより、全テキスチャ・マップにより完全且つ正確な３Ｄモデルを構築し、それをレンダリングする必要があり得ない。

画像１０１は、ニューラル・ネットワーク１０３に入力され、ニューラル・ネットワーク１０３は、画像の特性１０５（テキスチャ・パラメータ、表情パラメータ、及び／又は形状パラメータ含み得る）を出力し、例えば、ニューラル・ネットワークは、テキスチャ・パラメータをテキスチャ・マップに拡張し得る。ニューラル・ネットワークはまた、追加の情報１０２を受信し得、追加の情報に基づいても特性１０５を生成し得る。

差分的レンダラ１０７は、テキスチャ・マップ、表情、及び形状パラメータから画像をレンダリングし得る。この画像は、元の入力画像内で見られなかった頭部の部分の閉鎖に起因した欠落する部分を有し得る。敵対的生成ネットワーク１０９（ＧＡＮ）は、いずれの欠落する部分もなしに、レンダリングされた画像を全画像１１０に完成させ得る。

例えば、ユーザの顔が均一に照射され得ない、例えば、顔の側面において窓から、又はユーザの頭部の上に或るスポット・プロジェクタからの強い照射があるケースでは、モデルのテキスチャ・マップ内の照射を補正するために、敵対的生成ネットワーク（ＧＡＮ）も使用され得る。

３Ｄモデルを補正し、例えば、頬による又は髪の毛による妨害に起因して、例えば、画像内で適切に見られ得ない耳を作成するためにも、ＧＡＮネットワークが使用され得る。

ユーザも、姿勢及び表情の包括的モデルを作成することができるように、ポーズをとり、異なる顔表情を行うように依頼され得る。そのような姿勢及び表情の実例は、笑うこと、しかめっ面すること、口及び目を開き及び閉じることであり得る。

３Ｄモデルは、形状、姿勢、及び表情についての別個のパラメータを有し得る。形状パラメータは、特定の人物のみに依存し得、姿勢及び表情とは独立し得る。したがって、人物が頭部を動かせ、話し又は様々な顔表情を成すときでさえ、それらは一定のままである。したがって、或る人物のモデル化工程の間、モデル化される人物の表情及び姿勢は、３Ｄモデルを作成するために使用され得るビデオ又は画像を捕捉する間に静的である必要がなく、又は凍結される必要がない。３Ｄモデルの形状が静的であると考えられるので、他に、３Ｄモデルを作成するために必要である、３Ｄカメラ又は２Ｄカメラの集合を使用する必要がない。これは、一時的に同期され得るいくつかのマルチ・ビュー・カメラを使用する要件を緩和する。複数の画像から作成される全てのモデルは、１つの３Ｄモデル、又は表情若しくは照射条件により可変であるいくつかの異なるモデルにマージされ得るが、その全てが共通形状パラメータを有し得る。

リアルタイム・レンダリング工程の間、視認角度又は照射に関して最も近いモデル又はモデル（複数可）は、モデル変換及びレンダリング工程のための開始ポイントとして選ばれ得る。

例えば、０、１０、２０、３０、及び４０度の視認角度を指す異なるモデルが利用可能であり、所与の瞬間に、ユーザが３２度の角度においてモデルを見ることを望む場合、３０度の角度に対応するモデルは、モデル変換のための開始ポイントとして選ばれ得る。

更に、いくつかのそのようなモデルは、事前に記録された状態の一部ではあり得ない状態にあるモデルを取得するように補間又は外挿され得る。

３Ｄアバタ、３Ｄモデル、及び２Ｄテキスチャ・マップを作成する工程の間、作成され得る３Ｄモデルの品質は、光学的歪みを含むカメラの単純な線形幾何学的投影モデル又はより複雑なモデルを使用して、異なる角度からそれを二次元画像に投影することによって評価され得る。２Ｄ画像への３Ｄモデルの投影は、カメラ又はカメラ（複数可）によって捕らえられた画像と比較され得る。そのように行う際に、カメラの幾何学的歪みが投影工程においてモデル化され得るように、画像を捕らえるために使用され得るカメラをモデル化することが有益であり得る。モデル化することは、それらに限定されないが、カメラの焦点長、画素サイズ、総視野、樽形歪み若しくは糸巻形歪みなどの非線形幾何学的歪み、又は光学系の歪み、殊に、魚眼カメラなどの広視野を有するカメラに対するいずれかの他の歪みをモデル化することを含み得る。

モデル化することはまた、光学及び色の歪みに起因したぼやけをモデル化することを含み得る。３Ｄ幾何学的構造が正確であり得ること、また、反映マップが正確であり得ることを検証するために、３Ｄモデルの投影が捕らえられた２Ｄ画像と比較され得る。

投影及び捕らえられた画像を比較するために、いくつかの方法が使用され得る、例えば：
ａ．画像ペア内で発見され得る、目及び唇の隅、鼻の先端及びエッジ、頬及び顎のエッジなど、顔のランドマークの位置を比較すること。
ｂ．シルエットの位置を比較すること。
ｃ．両方の画像内で検出された隅及び線の位置を比較すること。
ｄ．２つの画像のグレー・レベルを比較すること。

発見され得るいずれかの差分は、投影された画像と捕らえられた画像との間の差分を削減する方式において、３Ｄモデル及び反映マップを更新するために使用され得る。例えば、捕らえられた２Ｄ画像内のその位置と比較して、３Ｄモデルの投影における左にはるかに遠くに目の隅が位置し得ることが発見され得る場合、投影内のランドマークの位置と捕らえられた画像との間の誤差を低減させるために、目の隅の位置が右に移るように、モデルが改正されることができる。

３Ｄメッシュ内の３Ｄポイントの位置を変更することによって、又はそのランドマークの位置に影響を及ぼすパラメトリック・モデルにおけるパラメータを変更することによって、これが行われることができる。

この工程は、レンダリングされた画像及び捕らえられた画像における誤差を低減させるために使用され得、よって、作成され得るモデルの品質を改善し得る。

特に、モデルと捕らえられた画像との間のいずれかの幾何学的差分又はグレー・レベル差分を捕捉するために、０、４５、及び９０度などの異なる角度において画像を投影することが有益であり得る。

３Ｄモデルの品質及びテキスチャ・マップは、アバタの作成の工程の間又は後に分析され得、以下のケースの全て又は一部が網羅され得ることを検証するように特に検査され得る：
ａ．顔モデル、身体モデル、又は手モデルに不明瞭なエリアがあり得ないこと。
ｂ．全ての関連する表情が網羅され得ること。
ｃ．開いた目及び閉じた目の両方がモデル化され得ること。
ｄ．歯を見せる、閉じた口及び開いた口が網羅され得ること。
ｅ．見通し線にほぼ並列し得る顔構造の撮像、例えば、正面からの頬の撮像に起因した低解像度によるエリアがあり得ないこと。
ｆ．照射が適切であり得、暗すぎ得又は明るすぎ得且つ飽和され得るエリアが存在し得ないこと。
ｇ．ノイズが非常に多くあり得るエリアが存在し得ないこと。

モデルは、例えば、髭を剃り若しくは髭を加えること、又は髪型を変えることに起因して、ビデオ画像内のユーザの現在の外観とは著しく異なり得ない。

欠落する情報が存在し得ることを検査工程が発見するケースでは、ユーザは、欠落する情報を完成させるために、追加のフォト又はビデオ・シーケンスを追加することを依頼され得る。

ユーザの間の呼び出しの開始の前であるが、ユーザのカメラがユーザの画像を捕らえることを開始した後、３Ｄモデル及びテキスチャ・マップは、その瞬間に見られるように、ユーザの新たな外観を反映するように高められ得る。

前に作成されたモデル及びテキスチャ・マップからの情報は、ミーティングの開始の前、又はミーティングの間に取得される更新された情報とマージされ得る。例えば、３Ｄモデル及びテキスチャ・マップを更新するために、人物の身体及び顔、ユーザの髪の毛、髭を剃ること、メイクアップ、衣服などの照射に関する新たな情報が使用され得る。セッションの前又は間に見られ得る頭部の上部又は顎の底部又は身体の他の部分など、前に見られなかったエリアも、３Ｄモデル又はテキスチャ・マップを更新するために使用され得る。

新たな情報は、前の情報を置き換えるために使用され得、前の情報と平均化され得、又はそうでなければ、前の情報とマージされ得る。

３Ｄモデルをスケーリングするために、すなわち、カメラ・パラメータが未知であり得、モデル化されたオブジェクトへの範囲が未知であり得る２Ｄカメラからのその厳密な寸法を知るために、いくつかの方法が使用され得る。例えば：
ａ．例えば、ユーザの額上のクレジットカードを置くために、オブジェクトの隣に置かれ得る既知のサイズのオブジェクトを使用すること。そのようなオブジェクトは、それらに限定されないが、クレジットカード、運転免許証、請求書、コイン、ルーラなどを含むことができる。そのようなケースでは、分類方法は、使用されるオブジェクトを分類し得、データベースからそのサイズを判定し得る。例えば、方法は、複数の国及び／又は単位の１つから生じるとして請求書を検出し得、それを認識し得、データベースからそのサイズを取得し得る。同様に、方法は、ルーラを検出し得、ルーラに対する読み込みからそのサイズを判定し得る。
ｂ．ユーザの高さを規定するようにユーザに依頼すること。顔の高さは、成人の高さのおおよそ１３％であり得る。これは、多くの用途の要件のために十分に正確な近似であり得る。加えて、子供及び赤子は、異なる身体比率を有するとして知られ得る。赤子について、顔の高さは、その高さのおおよそ２５％であるとして知られ得る。顔のサイズは、高さの非線形関数であり得、例えば、６０センチメートルの高さであり得る人物についての高さの２５％、１００センチメートルの高さであり得る人物についての高さの２０％、及び１５０センチメートル以上であり得る人物についての高さの１３％であり得る。

ユーザの３Ｄモデルは、それらに限定されないが、以下を含み得る：
ａ．顔及び身体、すなわち、形状、表情、及び姿勢のパラメトリック・モデル。
ｂ．しわ、皮膚のほくろなどとしてそのような精緻な詳細を詳述する高頻度深度マップ。
ｃ．顔又は身体の各々の部分の色を詳述する反映マップ。異なる角度からの外観の変化をモデル化するために、複数の反映マップが使用され得る。
ｄ．各々のポリゴンが作られ得る材料、例えば、皮膚、髪の毛、衣服、プラスチック、金属などを詳述する任意選択のマテリアル・マップ。
ｅ．３Ｄモデル又は反映マップ内の身体の各々の部分がどの部分を表すかをリスト化する任意選択のセマンティック・マップ。
ｆ．それらのモデル及びマップは、ミーティングの前、ミーティングの間に作成され得、又はミーティングの前及び間に作成される組み合わせ若しくはモデルであり得る。

ユーザのモデルは、ユーザのコンピュータ、電話、又は他のデバイスに記憶され得る。それはまた、場合によってはユーザのプライバシを保護するために暗号化された方式において、クラウド又は他のユーザに伝送され得る。

図６はまた、パラメトリック・モデルを生成及び使用する方法９０を例示する。

方法９０は、ステップ９２、９４、９６、及び９８を含み得る。

ステップ９２は、ユーザ・デバイスによって、ユーザに関連する３Ｄモデルを生成することを含み得、３Ｄモデルは、パラメトリック・モデルであり得る。

ステップ９４は、コンピュータ化システムに、３Ｄモデルのパラメータを送信することを含み得る。

ステップ９６は、参加者のユーザ・デバイスによって、電話会議の間に各々の参加者を監視し、それに従って、各々の参加者の３Ｄモデルのパラメータを更新し、更新されたパラメータを送信することを含み得る（送信することは、通信パラメータの影響を受け得る）。

ステップ９８は、各々の参加者のユーザ・デバイスによって、他の参加者に関連する３Ｄモデルの更新されたパラメータを受信し、それに従って、モデルへの変更を反映するように、表示を更新することを含み得る。

図６はまた、三次元であり得る検知されたオブジェクトの３Ｄ視覚的表現を生成する方法１８００を例示する。

方法１８００は、ステップ１８１０、１８２０、及び１８３０を含み得る。

ステップ１８１０は、少なくとも１つの３Ｄ視覚的表現パラメータを取得することを含み得、視覚的表現パラメータは、サイズパラメータ、解像度パラメータ、及びリソース消費パラメータから選択され得る。

ステップ１８２０は、検知されたオブジェクトを表すオブジェクト情報を取得し、少なくとも１つのパラメータに基づいて、検知されたオブジェクトの視覚的表現を生成するためのニューラル・ネットワークを選択することを含み得る。例えば、検知されたオブジェクトを表す情報は、オブジェクトの視認角度であり得る。

ステップ１８１０及び１８２０の後に、選択されたニューラル・ネットワークによって３Ｄオブジェクトの３Ｄ視覚的表現を生成するステップ１８３０が続き得る。

ステップ１８３０は、以下のうちの少なくとも１つを含み得る：
ａ．３Ｄオブジェクトの３Ｄモデル及び３Ｄオブジェクトの少なくとも１つの２Ｄテキスチャ・マップを生成すること。
ｂ．少なくとも１つのレンダリングされた画像のレンダリング工程の間に３Ｄモデル及び２Ｄテキスチャ・マップを更に処理すること。

生成することは、第１のコンピュータ化ユニットによって実行され得、生成することの後に、第２のコンピュータ化ユニットに、３Ｄモデル及び少なくとも１つの２Ｄテキスチャ・マップを送信することが続き得、第２のコンピュータ化ユニットは、３Ｄモデル及び少なくとも１つの２Ｄテキスチャ・マップに基づいて、少なくとも１つのレンダリングされた画像をレンダリングするように構成される。

３Ｄオブジェクトは、３Ｄビデオ会議の参加者であり得る。

方法は、選択されたニューラル・ネットワーク出力の集合から３Ｄ視覚的表現を出力することを含み得る。

超解像度及び３Ｄモデルに対する手直しの実行
３Ｄモデルの解像度を高めるために、超解像技術が使用され得る。３Ｄモデルの解像度又は３Ｄモデルの変形可能なテキスチャ・マップを高めるために、超解像技術が使用される。例えば、単一の画像から作成されることができるグリッドよりも高い解像度においてグリッドを作成するために、何らかの転移又はそれらの間の回転を伴うモデルのいくつかの画像が次いで使用され得る。モデルの色値は、３Ｄメッシュ内のポリゴン又は２Ｄテキスチャ・マップ内の画素に関連し得ることに留意されよう。

この工程は、再帰的工程を使用して行われ得る。第１のステージにおいて、低解像度モデル及びテキスチャ・マップのアップ・サンプリングされた補間である３Ｄモデル及びテキスチャ・マップは、初期の推論として使用される。それらの３Ｄモデル及びテキスチャ・マップは、元の３Ｄモデル及びテキスチャ・マップにあるよりも多くの頂点及び画素を有するが、更なる詳細を含まない。アップ・サンプリングされたモデル及びテキスチャ・マップは次いで、カメラのものと同様である観点から、テキスチャ加工されたモデルの画像をレンダリングするために使用される。

レンダリングされた画像は、カメラにより撮られた２Ｄ画像と比較される。

比較は、それらに限定されないが、２つの画像の差し引きによって、又は画像の全体的な位置合わせの後の差し引きによって、又は画像内の局所的な位置合わせエリアの後の差し引きによって実行され得る。この工程によって取得される差分画像である、比較の結果は、レンダリングされた画像に存在しない元のカメラ画像からの詳細を含む。差分は、初期３Ｄモデル及びテキスチャ・マップの解像度を高めるために、フィードバックとして使用され得る。

高めることは、それらに限定されないが、更なる詳細と共に新たな推論を得るために、初期の推論に差分画像を追加することによって行われ得る。新たな３Ｄモデル及びテキスチャ・マップは、第２のレンダリングされた画像を取得するように再度レンダリングされ得、第２のレンダリングされた画像は、３Ｄモデル及びテキスチャ・マップの解像度を高めるためのフィードバックとして使用され得る、第２の差分画像を作成するために元のカメラ画像と比較される。

この工程は、所与の回数で、又は或る基準が満たされるまで、例えば、実際のカメラ画像とレンダリングされた画像との間の差分が或る閾値を下回るまで繰り返され得る。ビデオ・シーケンスからなど、画像の集合からのいくつかのカメラ画像とのレンダリング済みのテキスチャ加工された３Ｄモデルの比較が実行される場合に、工程は繰り返される。各々の画像において、画像集合又はビデオ内に多くの画像が存在し得るので、３Ｄモデル及びテキスチャ・マップは、異なるポジションにおいてカメラによってサンプリングされ得る。

よって、工程は、単一の画像から利用可能であるよりも効果的に高いサンプリング・レートに基づいている３Ｄモデル及びテキスチャ・マップを作成することができる。この工程の結果として、更なる頂点を有する３Ｄモデル及び更なる画素を有するテキスチャ・マップが作成され、それらの３Ｄモデル及びテキスチャ・マップは、元の低解像度３Ｄモデル及びテキスチャ・マップにおいて現れない高解像度の詳細を示す。

顔及び身体の複数の画像も、それらの画像を平均化するために、信号対雑音比を改善する、すなわち、より低いレベルの画素ノイズによりモデルを作成する手段によって、同一の又は異なる角度から獲得され得る。画像が低照射条件において獲得され得、結果として生じる画像のノイズが多くなり得る場合、これは殊に有益であり得る。

学習方法に基づいた超解像技術も適用され得る。そのようなスキームでは、畳み込みニューラル・ネットワークなどの機械学習方法は、高解像度画像又は３Ｄモデル及び低解像度画像又は３Ｄモデルのペアに基づいて訓練され得、その結果、低解像度画像又はモデルと高解像度画像又はモデルとの間の対応関係が学習され得る。レンダリング工程の間、方法は、入力として低解像度画像又はモデルを受信し、対応する高解像度画像又はモデルを出力する。それらのタイプの方法は、目又は眉に沿った鮮明なエッジなど、異なる顔の組織の間の遷移において鮮明なエッジを生成するために殊に有益であり得る。

低解像度から高解像度への遷移は、単一の画像又は複数の画像に基づいて実行され得、それは、３Ｄモデル、テキスチャ・マップを作成する工程において、又はユーザに提示され得る最終画像をレンダリングするときに実行され得る。

３Ｄモデル及び２Ｄテキスチャ・マップ内のランダム・ノイズを低減させることも、ノイズ除去方法を使用して実行され得る。そのような方法は、線形フィルタリング技術を含み得るが、好ましくは、ランダム・ノイズを低減させると共に、３Ｄモデルの画像内のエッジ及び微細な詳細を保存する、バイラテラル・フィルタ、異方性拡散、又は畳み込みニューラル・ネットワークなど、非線形のエッジ保存技術を含み得る。

ユーザの外観は、結果として生じる３Ｄモデル又は反映マップを操作することによって改変及び改善され得る。例えば、皮膚のしわを除去すること、メイクアップを適用すること、顔を伸ばすこと、唇フィリング、又は目の色を変えることなど、異なる種類の手直しが適用され得る。

ユーザの身体の形状も改編され得、ユーザの衣服は、ユーザの要望に従って、真の衣服から他の衣服に変更され得る。イアリング、メガネ、ハットなどのアクセサリも、ユーザのモデルに追加され得る。

代わりに、メガネ又はヘッドフォンなどのオブジェクトは、ユーザのモデルから除去され得る。

３Ｄモデルに基づく通信システム
通信セッション、すなわち、数人のユーザの間の３Ｄビデオ会議の間、２Ｄ又は３Ｄカメラ（又は、いくつかのカメラ）は、ユーザのビデオを捕らえる。それらのビデオから、ユーザの３Ｄモデル（例えば、最良に適合する３Ｄモデル）は、高頻度で、例えば、１５～１２０フレーム／秒において作成され得る。

ニューラル・ネットワーク内の一時的フィルタ又は一時的制約は、円滑な一時的再構築を生じさせ、結果の不自然さを回避するために、ビデオ・フレームに対応するモデルのパラメータの間の円滑な遷移を保証するために使用され得る。

反映マップ及び他のマップと共にリアルタイムなパラメトリック・モデルは、ビデオ内の顔及び身体の元の画像に非常に近くなり得る顔及び身体の視覚的表現をレンダリングするために使用され得る。

これがパラメトリック・モデルであり得るので、それは、少数のパラメータによって表わされ得る。典型的には、各々の人物の形状、表情、及び姿勢を含む顔の高品質モデルを作成するために、３００未満のパラメータが使用され得る。

それらのパラメータは、Ｈｕｆｆｍａｎ又は算術コーダなどの量子化及びエントロピ・コーディングを使用して更に圧縮され得る。

パラメータは、それらの重要度に従って順序付けられ得、伝送され得るパラメータの数及びパラメータごとのビットの数は、利用可能な帯域幅に従って可変であり得る。

加えて、パラメータの値をコーディングする代わりに、連続したビデオ・フレームの間のそれらの値の差分がコーディングされ得る。

モデルのパラメータは全ての他のユーザ・デバイスに直接、又は中央サーバに伝送され得る。これは、全体的な電話会議の間に実際の高品質画像の全体的なモデルを送信する代わりとして多数の帯域幅を保存し得、パラメータを表すはるかに少ないビットが伝送され得る。現在の利用可能な帯域幅が低いときでさえ、これは、高品質のビデオ電話会議をも保証し得る。

中央サーバを介する代わりに他のユーザに直接モデル・パラメータを伝送することは、約５０％だけ待ち時間を低減させ得る。

他のユーザ・デバイスは、３Ｄモデル・パラメータ及び対応する反映マップから他のユーザの外観を再構築し得る。人物の皮膚の色としてそのような事項を表す反映マップが非常に低速に変化するので、それらは、それらの反映マップにおいて発生する変化に従って、セッションの開始時に又は低い更新頻度において１回のみ伝送され得る。

加えて、反映マップ及び他のマップは、例えば、変化したエリアに従って、又は身体の部分を表すセマンティック・マップに従って、部分的にのみ更新され得る。例えば、顔が更新され得るが、感情を再構築するために重要度が低くあり得る髪の毛又は身体は、更新され得ず、又は低い頻度において更新され得る。

いくつかのケースでは、伝送のために利用可能な帯域幅は、制限され得る。そのような条件の下で、何らかの優先度に従って伝送するようにパラメータを順序付け、次いで、利用可能な帯域幅が許容するようにこの順序においてパラメータを伝送することが有益であり得る。この順序付けは、現実的なビデオの視覚的感知への貢献に従って行われ得る。例えば、目及び唇に関連するパラメータは、頬又は髪の毛に関連するものよりも高い感知重要度を有し得る。このアプローチは、再構築されたビデオの高度の劣化を可能にする。

モデル・パラメータ、モデル化され得ないビデオ画素、及びオーディオは全て同期され得る。

結果として、３Ｄモデル・パラメータの伝送によって消費される総帯域幅は、ビデオ圧縮のために典型的には使用される得る１００キロビット毎秒～３メガビット毎秒よりもはるかに小さい、毎秒数百ビットであり得る。

汎用的な発話圧縮方法により可能であり得るものを超えてユーザの発話を圧縮するために、ユーザの発話のパラメトリック・モデルも使用され得る。これは、ビデオ及びオーディオ会議のために必要とされる必要な帯域幅を更に低減させる。例えば、ニューラル・ネットワークは、制限されたパラメータの集合に発話を圧縮するために使用され得、制限されたパラメータの集合から、発話が再構築されることができる。ニューラル・ネットワークは、結果として生じる圧縮解除された発話が特定のコスト関数下で元の発話に最も近いように訓練される。ニューラル・ネットワークは、一般的な発話圧縮アルゴリズムにおいて使用される線形変換とは異なり、非線形関数であり得る。

受信側においてビデオ及びオーディオを再構築するためのビットの伝送が優先され得、その結果、最も重要なビットは、より高いサービス品質において伝送又は受信され得る。これは、それらに限定され得ないが、オーディオをビデオよりも優先付けることと、モデル・パラメータをテキスチャ・マップよりも優先付けることと、ユーザの唇及び目に関連する情報を優先付けることなど、身体又は顔の或るエリアをその他よりも優先付けることと、を含み得る。

最適な方法は、全体的な最適な経験を保証するために、モデルの一部であり得ない、オーディオ、３Ｄモデル・パラメータ、テキスチャ・マップ、又は画素、又は係数へのビットレート又はサービス品質の割り当てを判定し得る。例えば、ビットレートが低減するにつれて、最適化アルゴリズムは、３Ｄモデルの解像度を低減させ、又は３Ｄモデルの頻度を更新し、オーディオ信号の最小の品質を保証すると決定し得る。

３Ｄモデルの暗号化及びセキュリティ
ユーザの３Ｄモデル及び対応するテキスチャ・マップは、ユーザのデバイス、クラウド上のサーバ、又は他のユーザのデバイスに保存され得る。それらのモデル及びテキスチャ・マップは、ユーザの個人データを安全にするために暗号化され得る。いくつかのユーザの間の呼び出しの前に、ユーザのデバイスは、他のユーザの３Ｄモデル及びテキスチャ・マップへのアクセスを要求し得、その結果、デバイスは、３Ｄジオメトリに基づいて、他のユーザのモデルをレンダリングすることが可能である。

この工程は、高頻度での、例えば、毎秒での暗号化鍵の交換を含み得、その結果、呼び出しが終了した後、ユーザは、他のユーザの３Ｄモデル及びテキスチャ・マップ又はいずれかの他の個人データにアクセスすることが可能でない。

ユーザは、どの他のユーザがユーザの３Ｄモデル及びテキスチャ・マップ又はいずれかの他の個人データにアクセスし得たかを判定することが可能である。

更に、ユーザは、ユーザのデバイス、リモート・コンピュータ、又は他のユーザのデバイスに保存され得る個人データを削除することが可能であり得る。

ユーザのデバイスに、又は中央コンピュータに保存され得るユーザの３Ｄモデル及びテキスチャ・マップは、２Ｄカメラ又は３Ｄカメラの前方にいる人物が実際にユーザであり得ることを認証するために使用され得、これは、パスワードによりシステム又はサービスにログインする必要性を省き得る。

別のセキュリティ測定は、１人又は複数の参加者の１つ又は複数のアバタへのアクセス及び使用（例えば、３Ｄビデオ会議の間のアバタの表示）を保護することを伴い得、これは、アバタ（若しくは、アバタ（複数可）へのアクセス及び使用を有効にするデジタル著作権管理方法を適用することによって、又はアバタへのアクセス及び／若しくは使用に対するいずれかの他の認証方式アクセス制御を使用することによって行われることができる。認証は、３Ｄビデオ会議の間に複数回行われ得る。認証は、生体認証に基づき得、パスワードを必要とし得、２Ｄ画像、２Ｄビデオ（動きを有する）のいずれかに基づいた、又は３Ｄ特徴に基づいた顔識別方法を含み得る。

３Ｄモデルに基づいた視差補正、アイ・コンタクト発生、及び３Ｄエフェクト
以下で言及される補正は、カメラの実際の光学軸と仮想カメラの所望の光学軸との間のいずれかの逸脱を補正し得る。実例の一部は、仮想カメラの高さを指すと共に、以下のいずれかも、カメラの横位置、例えば、ディスプレイの中心での仮想カメラの位置付けを指し得る（高さ及び横位置の両方、参加者の目に向けられた仮想光学軸を有するような仮想カメラの位置付け（例えば、ディスプレイに垂直であり得、ディスプレイとのいずれかの他の空間的関係を有し得る仮想光学軸を介した）。

或るユーザがユーザのカメラによって撮像され得ることを想定して、他のユーザ・デバイスは、元のビデオ（ユーザの）がカメラによって捕らえられた角度とは異なる角度からそのユーザの３Ｄモデルを再構築し得る。

例えば、多くのビデオ会議の状況では、ビデオ・カメラは、ユーザの目のレベルの上又は下に配置され得る。第１のユーザが、それらが第１のユーザのスクリーン上で提示されるように第２のユーザの目を見るとき、第１のユーザは、カメラの中を直接見ていない。したがって、カメラによって捕捉され、他のユーザに提示されるような画像は、下方向又は上方向を凝視しているように第１のユーザの目を示す（カメラの位置及び光学軸に応じて）。

ユーザの凝視の直前のポイントから３Ｄモデルをレンダリングすることによって、ユーザの結果として生じる画像は、他のユーザの目を直接見ているように見られ得る。

図８は、視差補正の実例を例示する。画像２１’は、カメラ１６２によって獲得される画像であり得ると共に、カメラ１６２は、ディスプレイ１６１の上部に位置し、第５の参加者５５に向けられ得る実際の光学軸１６３（下方向に向けられる）及び実際の視野１６３を有する。

補正された画像２２’は、仮想光学軸１６３’及び仮想視野１６３’を有する仮想カメラ１６２’によって仮想的に獲得され得、仮想カメラは、目の高さにあるスクリーンのポイントに、及び第５の参加者１５５の前方に直接位置し得る。

顔位置トラッカは、ビューワの顔の位置を追跡し得、それに従って、レンダリングの視点を変更し得る。例えば、ビューワが右に移動する場合、ビューワは、反対の人物の左側のより多くを見得、ビューワが左に移動する場合、ビューワは、反対の人物の右側のより多くを見得る。

これは、２Ｄスクリーンを使用する間でさえ、３次元の人物又はオブジェクトを視認する３Ｄ感覚を生じさせる。

図９は、２Ｄデバイスによって生じた３Ｄイリュージョンの実例を例示する。カメラ（及び、トラッカのＦＯＶ）によって獲得される画像は、３５と表わされ、様々な仮想画像は、３１、３２、及び３３と表わされる。

これは、ビューワの動き及びビューワの目に従ってレンダリングされた画像を修正することによって取得され得、よって、３Ｄエフェクトを生じさせる。これを行うために、ビューワの画像は、ウェブカメラなどのカメラによって獲得される。

顔検出アルゴリズムは、画像の顔を検出及び追跡する。加えて、ビューワの目は、顔内で検出及び追跡される。ビューワの顔が動くにつれて、アルゴリズムは、目の位置を検出し、３Ｄ世界内のそれらのポジションを計算する。３Ｄ環境は、ビューワの目の位置に従って仮想カメラからレンダリングされる。

レンダリングされた画像が２Ｄスクリーン上で提示される場合、１つの画像のみがレンダリングされる。３Ｄ環境のこの画像は、ビューワの目の間に位置付けられるカメラの視点からレンダリングされ得る。

ビューワが３Ｄディスプレイ又は仮想現実（ＶＲ：ｖｉｒｔｕａｌｒｅａｌｉｔｙ）ヘッドセット若しくはメガネなどの３Ｄディスプレイを使用する場合、右目及び左目の観点に対応する２つの画像は、立体視画像を生じさせるように生成される。

図１０は、３Ｄスクリーン又はＶＲヘッドセット上に提示される２つの立体視画像（３８及び３９と表わされる）の実例を例示する。

自動立体視ディスプレイなどの一部のディスプレイは、３Ｄ画像を提示するためにメガネを必要としない。そのような３Ｄディスプレイでは、異なる画像は、例えば、レンチキュラ・アレイを使用して、異なる角度で投影され得、その結果、各々の目は、異なる画像を見る。ＡｌｉｏｓｃｏｐｙＧｌａｓｓｅｓ－Ｆｒｅｅ３ＤＤｉｓｐｌａｙなどの一部の自動立体視ディスプレイは、一部のＡｌｉｏｓｃｏｐｙディスプレイのケースでは、異なる角度で２つよりも多い画像、最大で８個の異なる画像を投影する。そのようなディスプレイを使用する場合、２つよりも多い画像は、スクリーン上で３Ｄエフェクトを生じさせるようにレンダリングされ得る。これは、更に現実的且つ密接なセンセーションを生じさせる際に、慣習的な２Ｄビデオ会議システムに対して著しい改善をもたらす。

３Ｄセンセーションを高めるために、３Ｄオーディオも使用されることができる。ユーザごとに、全ての他のユーザに対する仮想３Ｄ設定におけるユーザの位置が既知であり得る。各々のユーザの発話のステレオ信号は、オーディオソースの相対的ポジションに従って右耳及び左耳に対するオーディオ信号の間の遅延を生じさせることによって、モノラル・オーディオ信号から生成されることができる。そのような方式では、各々のユーザは、音が生じる方向のセンセーション、したがって、話していることがある者のセンセーションを得る。

更に、ユーザの顔、特に、それらの唇の画像は、読唇術を実行するために使用され得る。

唇の連続した画像の分析は、唇の動きを検出することができる。そのような動きは、例えば、唇の動きが話すことを関連付けられるときを検出するように訓練されたニューラル・ネットワークによって分析されることができる。訓練フェーズに対する入力として、人間の音を有するとして、サウンド・アナライザ又は人間をタグ入力ビデオ・シーケンスとさせることが可能である。人物が話していない場合、システムは、そのユーザを自動でミュートし得、よって、ユーザの環境から生じ得るバックグラウンド・ノイズを低減させ得る。

読唇術も、どの音がユーザによって生み出されると予測され得ることを知るために使用され得る。これは、それらの予測される音と相関付けない、すなわち、予測される周波数範囲にない、外部ノイズをフィルタするために使用され得、ユーザが話していることがあるときに、バックグラウンド・ノイズをフィルタするためにこれを使用し得る。

読唇術はまた、オーディオのみに基づき得る発話認識方法に加えて、システム上で遂行され得る会話のトランスクリプションを支援するために使用され得る。

これは、例えば、ニューラル・ネットワークによって実行され得る。ネットワークは、発話している人物及びシーケンスの間に発話していた関連するテキストを使用して訓練される。ニューラル・ネットワークは、ＬＳＴＭ又はいずれかの他のタイプのニューラル・ネットワークによる又はそれらなしの回帰型ニューラル・ネットワークであることができる。オーディオ及びビデオの両方に基づき得る方法は、改善された発話認識性能を結果としてもたらし得る。

顔、身体、及び手は、上記説明されたような、制限された数のパラメータを使用してモデル化され得る。

しかしながら、現実世界のビデオ会議では、画像内の全ての画素が、顔、身体、及び手のモデルに対応しない。身体に一部ではあり得ないオブジェクトは、画像内に現れ得る。

実例として、会議において発話している人物は、特定の電話会議に対して重大であり、又は重大では全くあり得ないオブジェクトを保持していることがある。スピーカは、ミーティングに対して有意性を有さないペン又はミーティングに対して非常に有意であるダイアグラムを保持していることがある。他のビューワにそれらのオブジェクトを伝送するために、それらは、３Ｄオブジェクトとして認識及びモデル化され得る。モデルは、再構築のために他のユーザに伝送され得る。

ビデオ画像の一部の部分は、３Ｄオブジェクトとしてモデル化され得ず、画素値、ＤＣＴ係数、ウェーブレット係数、ウェーブレット・ゼロ・ツリー、又はそれらの値を伝送するためのいずれかの他の効率的な方法として、他のユーザに伝送され得る。実例は、ホワイトボード又は壁上のピクチャなど、バックグラウンド内に配置される平坦なオブジェクトを含む。

ユーザのビデオ画像及びモデルが比較され得、例えば、それらに限定されないが、モデルのレンダリングされた画像及びビデオ画像を差し引く。これは、実際のカメラの厳密な位置から撮られたようにモデルをレンダリングすることによって行われる。完全なモデル及びレンダリングにより、レンダリングされた画像及びビデオ画像は、一致するはずである。差分画像は、モデルがビデオ画像を十分に正確に推定するエリアと、モデルが十分に正確ではあり得ず、又は存在しないエリアとにセグメント化され得る。十分に正確にモデル化され得ない全てのエリアは、上記説明されたように別々に伝送され得る。

一部の状況下で、システムは、視認される一部のオブジェクトは、上記言及されたようにモデル化され得ないと決定し得る。それらのケースでは、システムは、ビューワに、モデル化されていない部分の少なくとも一部を含むビデオ・ストリームを伝送することを決定し得、次いで、存在する３Ｄモデルは、それらのそれぞれの位置において伝送されたビデオの上部でレンダリングされる。

ユーザは、仮想３Ｄビデオ会議環境の１つ又は複数のビューが提供され得、一方で、ユーザは、視野、例えば、他のユーザの全て若しくはユーザの１人若しくは一部のみを含む視野を選択し得若しくは選択し得ず、及び／又はＴＶスクリーン、ホワイトボードなど、仮想３Ｄビデオ会議環境の１つ若しくは一部のオブジェクトを選択し得、若しくは視認し得る。

ビデオ画素及びレンダリングされた３Ｄモデルを結合するとき、モデルに対応するエリア、ビデオ画素に対応するエリア、又はその両方は、組み合わせが自然に現れ得、異なるエリアの間の継ぎ目が見えないように処理され得る。これは、それらに限定され得ないが、再照明、ぼかし、鮮明化、ノイズ除去又は、全体画像が１つのソースから発して現れるように画像成分の１つ又は一部にノイズを追加することを含み得る。

各々のユーザは、ユーザが、仮想３Ｄビデオ会議環境の１８０度若しくは３６０度のビュー（若しくは、いずれかの他の角度範囲のビュー）を示すパノラマ画像、及び／又は数人の人物、１人の人物、人物の一部のみ、すなわち、人物の顔、スクリーン、若しくはホワイトボード若しくは仮想３Ｄビデオ会議環境の１つ又は複数の部分など、仮想３Ｄビデオ会議環境の一部に焦点を当てる狭視野画像を見ることができるという趣旨で、湾曲したスクリーン又は物理スクリーンの組み合わせを使用し得る。

ユーザは、マウス、キーボード、タッチパッド若しくはジョイスティック、又は画像内若しくは画像からパン及びズームを可能にするいずれかの他のデバイスを使用することによって、狭視野画像又は狭視野画像（複数可）の部分又は部分（複数可）を制御することが可能である。

ユーザは、パノラマ画像内の適切な部分上をクリックすることによって、仮想３Ｄビデオ会議環境の或るエリア（例えば、仮想３Ｄビデオ会議環境のパノラマ画像）に焦点を当てることが可能であり得る。

図１１は、５人の参加者によってポピュレートされる仮想３Ｄビデオ会議環境のパノラミック・ビュー４１と、仮想３Ｄビデオ会議環境内の参加者の一部の部分的ビュー４２との実例を例示する。図１１はまた、参加者の一部の顔のパノラミック・ビュー（又は、部分的ビュー）及び拡大画像を含むハイブリッド・ビュー４３を例示する。

ユーザは、ヘッド・ジェスチャ、アイ・ジェスチャ、ハンド・ジェスチャ、又はボディ・ジェスチャを使用して、パン又はズームすることが可能であり得る。例えば、スクリーンの右部分又は左部分を見ることによって、焦点エリアは、左又は右に移動し得、その結果、それは、スクリーンの中心に表れ、前方又は後方にもたれることによって、焦点エリアは、ズーム・イン又はズーム・アウトし得る。

人物の身体の３Ｄモデルも、身体及びバックグラウンドを正確にセグメント化することを支援し得る。身体のモデルに加えて、セグメント化方法は、どのオブジェクトが身体に接続され得るか、例えば、人物がカメラの前方で電話、ペン、又は紙を保持していることがあることを学習する。それらのオブジェクトは、オブジェクトのモデルを使用することによって、又は画素レベル表現に基づいてオブジェクトの画像を伝送することによって、のいずれかで、人物と共にセグメント化され、仮想環境内で画像に追加される。それらのオブジェクトが人物と共にセグメント化されないが、むしろ、仮想バックグラウンドによって置き換えられる必要があるバックグラウンドの一部としてセグメント化されるように、ユーザによって保持されるオブジェクトを示し得ない既存のビデオ会議ソリューションにおいて採用され得る既存の仮想バックグラウンド方法とは対照的である。

セグメント化方法は典型的には、画素が同一のセグメントに属するとして考えられるために、超えられる必要がある一部のメトリックを使用する。しかしながら、セグメント化方法はまた、Ｆｕｚｚｙ論理などの他のアプローチを使用し得、セグメント化方法は、画素が同一のセグメントに属する確率を出力するにすぎない。エリアがフォアグラウンド又はバックグラウンドの一部としてセグメント化されるべきであるかどうかを確実にするか否かを成す確率により画素のエリアを方法が検出する場合、ユーザは、このエリアをどのようにセグメント化するかを問い合わされ得る。

セグメント化工程の一部として、イヤフォン、イヤフォンに接続されたケーブル、マイクロフォン、３Ｄメガネ、又はＶＲヘッドセットなどのオブジェクトは、方法によって検出され得る。それらのオブジェクトは、モデル化工程及びレンダリング工程において除去され得、その結果、ビューワによって視認される画像は、それらのオブジェクトを含まない。そのようなオブジェクトを示し又は取り去るためのオプションは、ユーザによって選択され得、又はいずれかの他の方式において、例えば、ユーザによって、及び他のユーザによってなど、前に行われた選択に基づいて判定され得る。

方法が画像内で１人よりも多い人物を検出する場合、それは、フォアグラウンド内に及び仮想３Ｄビデオ会議環境内に人物若しくは人物（複数可）を含むかどうか、又は画像から及び仮想３Ｄビデオ会議環境の外でそれらをセグメント化するかどうかをユーザに問い合わせ得る。

それらがフォアグラウンド又はバックグラウンドの一部であり得るかどうかを決定するために、オブジェクトの形状又は幾何学的特徴を使用することに加えて、方法はまた、それらのオブジェクトの輝度及び色の一時的変化に関する知識によって支援され得る。動かない又は変化しないオブジェクトは、バックグラウンドの一部、例えば、ユーザが座っている部屋の一部であるより高い確率を有すると共に、動き又は一時的変化が検出され得るエリアは、フォアグラウンドに属するより高い確率を有すると考えられ得る。例えば、スタンディング・ランプは、動いているとは全く見られず、それは、バックグラウンドの一部であると考えられる。部屋の周りを歩いている犬は、動いており、フォアグラウンドの一部であると考えられる。いくつかのケースでは、例えば、ファンが回転する、周期的な繰り返す変化又は動きが検出され得、それらのエリアは、バックグラウンドに属するより高い確率を有すると考えられ得る。

システムは、ユーザの嗜好を学習し、どのオブジェクト、テキスチャ、又は画素がフォアグラウンドの一部であり得るか、どれがバックグラウンドの一部であり得るかに関するフィードバックを使用し、後のセグメント化工程を改善するためにこの知識を使用する。畳み込みニューラル・ネットワーク又は他の機械学習方法などの学習方法は、どのオブジェクトがフォアグラウンドの一部としてユーザによって典型的には選ばれ得るか、どのオブジェクトがバックグラウンドの一部としてユーザによって典型的には選ばれ得るかを学習し得、セグメント化方法を改善するためにこの知識を使用し得る。

デジタル静止カメラ及びビデオ・カメラに対する自動露光制御
バックグラウンドからのユーザの顔及び身体のセグメント化は、ユーザのカメラの露光時間を設定することを支援し得、その結果、露光は、ユーザの顔及び身体に対して最適であり得、バックグラウンド内の明るいエリア又は暗いエリアによって影響を及ぼされ得る。

特に、露光は、ユーザの顔の輝度に従って設定され得、その結果、顔は、非常に暗くもなり得ず、非常に明るくもなり得ず、飽和され得る。

検出され得る顔についての正確な露光を判定する際に、人物の皮膚の実際に輝度を知る課題が存在し得る。自然に暗い皮膚（図１２の画像１１１を参照されたい）を有する人物の皮膚を過剰に露光させず、それらを過剰に露光された画像内の色白の顔に変えることが好ましくなり得る、図１２の画像１１２を参照されたい。

暗い皮膚を有する人物の画像を過剰に露光させないために、自動露光方法は、ユーザの眼又は歯の白の輝度レベルに従って露光を設定し得る。カメラの露光は、何らかの一時的フィルタリングを使用して、低速に変わり得、フレームごとに急激に変化し得ない。そのような方法は、結果として生じるビデオがジッタを有し得ないことを保証する。更に、目又は歯が一部のフレームに現れ、いくつかの他のフレームに現れないときでさえ、そのような方法は、目又は歯の輝度レベルに基づいて露光を設定することを可能にし得る。

顔、目、又は歯の検出は、３Ｄモデル及びテキスチャ・マップに、身体のそれらの部分を検出する方法に、又は追跡方法に基づき得る。そのような方法は、ＶｉｏｌａＪｏｎｅｓアルゴリズム、又は顔及び特定の顔の部分を検出するように訓練されたニューラル・ネットワークなどのアルゴリズムを含み得る。代わりに、２Ｄ画像を顔の３Ｄモデルに適合させることが実行され得、３Ｄモデルにおける全ての顔の部分の位置が事前に知られる。

別の実施例では、皮膚の正確な暗さは、Ｈｕｅ、Ｓａｔｕｒａｔｉｏｎ、及びＢｒｉｇｈｔｎｅｓｓ色座標系において推定されることができる。そのような座標系では、Ｈｕｅ及びＳａｔｕｒａｔｉｏｎは、露光に応じて変化せず、Ｂｒｉｇｈｔｎｅｓｓ座標のみが変化する。それらの皮膚の適切な露光及びそれぞれの輝度値における人物のＨｕｅ値とＳａｔｕｒａｔｉｏｎ値との間の対応関係が発見されることができることが発見された。例えば、ピンクがかった皮膚の色合いは、色白の顔に対応し、茶色がかった色合いは、暗い皮膚に対応する、例えば、図１２の画像１２１～１２６を参照されたい。

更なる別の実施例では、畳み込みニューラル・ネットワーク又はいずれかの他のネットワークなどのニューラル・ネットワークは、顔及び他の属性の形状と皮膚の輝度との間の対応関係を識別するように訓練されることができる。次いで、実行時間に、様々な露光での顔は、選ばれた露光とは独立して分析されることができ、検出された属性は、そのような皮膚の輝度を結果としてもたらすカメラの露光を判定するために使用され得る、皮膚の正確な輝度を推定するために使用されることができる。

ニューラル・ネットワークは、適切に露光された画像内の皮膚のＨｕｅ及びＳａｔｕｒａｔｉｏｎとそれぞれのＢｒｉｇｈｔｎｅｓｓとの間のこの関係関数又は相関を発見するように訓練され得る。推論ステージにおいて、ニューラル・ネットワークは、必ずしも最適な露光にない、例えば、明るすぎ又は暗すぎる画像内の皮膚のＨｕｅ及びＳａｔｕｒａｔｉｏｎに基づいて、ピクチャについての適切な露光を提案する。この計算された露光は、暗すぎず明るすぎない適切に露光された画像を捕らえるために使用され得る。

更なる別の実施例では、携帯電話、専門カメラ、又はウェブカメラなどのフォトグラフィック・デバイスのユーザは、参照のためのホワイト・ペーパ又は他の較正オブジェクトによりそれら自身又は他の人物の写真を撮ることを１回依頼され得る。この較正工程は、それらの人物の皮膚の正確な色調、飽和度、及び輝度を判定するために使用され得る。次いで、実行時間に、計算デバイスは、所与の人物を認識し、初期の較正工程において発見されたように、人物の皮膚が正確な皮膚の色に対応するように、露光及びホワイト・バランスを調節する方法を稼働させることができる。

クラウド上での計算の実行
このシステムの処理は、コンピュータ、電話、若しくはタブレットなどのユーザのデバイス上で、又はクラウド上のサーバなどのリモート・コンピュータ上で実行され得る。計算も、ユーザのデバイスとリモート・コンピュータとの間で分割及び／若しくは共有され得、又は、それらは、適切なハードウェアを有するユーザに対するユーザのデバイス上で、及び他のユーザに対するクラウド上で（若しくは、いずれかの他の計算環境において）実行され得る。

身体及び頭部パラメータの推定は、圧縮された画像又は圧縮されていない画像に基づいて行われ得る。特に、それらは、クラウド上の中央コンピュータ又は別のユーザのデバイスなどのリモート・コンピュータ上で圧縮されたビデオに対して実行され得る。これは、標準のビデオ会議システムが、モデル化、レンダリング、及び処理が実行されるクラウド又は別のユーザのコンピュータに圧縮されたビデオを送信することを可能にする。

ミーティングの効率性を増大させるためのビデオ会議アプリケーション及び方法において情報を提示するための複数のスクリーン及びチャネルの使用
仮想ミーティングは、部屋などのいずれかの仮想環境内で、いずれかの他の閉じられた環境内で、又はいずれかの開かれた環境内で行われるように現れ得る。そのような環境は、情報を提示するための１つ又は複数のスクリーン、ホワイトボード、又はフリップチャートを含み得る。そのようなスクリーンは、ユーザの要望に従って、現れ得、及び無くなり得、移動され得、拡大され得、及びサイズにおいて低減され得る。

複数の参加者は、１つよりも多いスクリーンにそれらのスクリーン（又は、いずれかの他のコンテンツ）を共通し得る。これは、情報の複数のソースが同時に視認され得ることを意味する。

共有又は提示するためのマテリアルは、ミーティングの間の容易なアクセスのためにミーティングが始まる前に、そのようなスクリーン又はリポジトリに事前にロードされ得る。

異なるマテリアルを提示する１つの可能な方法は、専用ストリーム、提示されるマテリアルごとに１つを通じて、それらを伝送することによるものである。この設定では、ストリームは、多くの基準に基づいてビューワに割り振られ得る。例えば、ストリームは、１つ又は複数のビューワに特に割り振られ得る。代わりに、ストリームは、トピック又は他の考慮事項に従って割り振られ得る。そのようなケースでは、視認されるストリームは、各々のビューワによって選択され得る。これは、キーボード、マウス、又はいずれかの他のデバイスを使用することによって迅速に行われることができる。そのような選択は、ミーティングのマネージャからスクリーンを共有する許可を要求すること、そのような許可を受信すること、「スクリーン共有」ボタンをクリックすること、及び共有する関連するウインドウを選択することを現在必要とし得る、１つのコンテンツを共有する一般的な慣習よりもはるかに高速になり得る。

そのような「スクリーン共有」工程は、（例えば）最大で数分を要し得る。様々な用途では、「スクリーン共有」は、それらのマテリアルを提示する多くの異なる参加者によって何回も繰り返され得、多くの貴重な時間が失われ得る。提案されるソリューションは、持続時間を数秒まで低減させ得る。

一部の例では、ミーティング若しくはスクリーン内の参加者の全て、又は３Ｄ仮想環境内の他の関心のあるオブジェクトの全てが、ビューワのスクリーン上に同時に現れ得ない。例えば、スクリーンの視野が全ての参加者を視認するために必要な視野よりも小さい場合、これが起こり得る。そのようなケースでは、視点を変更し、異なる参加者又はオブジェクトを見るために、視認しているユーザの視野を、右に、左に、前方に、後方に、上に、又は下に移動させる必要があり得る。これは、それらに限定されないが、以下の異なる手段によって達成されることができる：
ａ．観点をパン及び傾斜し、又はズーム・イン及びズーム・アウトするために、キーボード矢印又は他のキーを使用すること。
ｂ．観点をパン及び傾斜し、又はズーム・イン及びズーム・アウトするために、マウス又は他のキーを使用すること。
ｃ．観点をパン及び傾斜し、又はズーム・イン及びズーム・アウトするために、ユーザの頭部のポジション若しくは目の凝視方向、又はその両方を追跡する方法を使用すること。方法への入力は、ウェブカメラ、又はいずれかの他の２Ｄカメラ若しくは３Ｄカメラ、又はアイ・ゲイズ・センサなどのいずれかの他のセンサからのユーザのビデオであることができる。
ｄ．観点をパン及び傾斜し、又はズーム・イン及びズーム・アウトするために、ユーザの手を追跡する方法を使用すること。方法への入力は、ウェブカメラ、又はいずれかの他の２Ｄカメラ若しくは３Ｄカメラ、又はアイ・ゲイズ・センサなどのいずれかの他のセンサからのビデオであることができる。
ｅ．誰がいずれかの瞬間にスピーカであり得るか、いずれかの所与の瞬間にそのスピーカ上でパン、傾斜、及びズーム・インし得るかを判定すること。数人の人物が同時に発話していることがある場合、方法は、誰が支配的なスピーカであり得るか、そのスピーカにパン及び傾斜し得るか、数人のスピーカが示され得る広視野にズーム・アウトし得るかを判定することができる。

仮想３Ｄビデオ会議環境内でアバタを作成するために必要とされる計算は、ユーザのコンピューティング・デバイス上で、クラウド内で、又は２つのいずれかの組み合わせにおいて実行され得る。特に、ユーザのコンピューティング・デバイス上で計算を実行することは、リモート・サーバとの通信に起因して、より高速の応答時間及び低遅延を保証することが好ましいことがあり得る。

２つ以上の２Ｄカメラ又は３Ｄカメラは、ユーザのスクリーンの周りで異なるポジションに配置され得、例えば、ユーザのスクリーンの境界又は隅に統合され得、その結果、リアルタイムでの異なる方向からのユーザの同時ビューが存在し得る。異なる方向からの２Ｄビュー又は３Ｄビューは、リアルタイムでのユーザの外観に対応する３Ｄテキスチャ加工されたモデルを作成するために使用されることができる。

カメラが３Ｄカメラである場合、カメラによって取得される３Ｄ深度は、３Ｄモデルにマージされることができ、３Ｄモデルは、１つのカメラのみによって捕捉されることができるものへの追加のエリアを２つ以上のカメラが捕捉するように、１つのカメラのみから取得されるモデルよりも完全である。

カメラが異なるポジションに位置するので、それらは、ユーザに関する僅かに異なる情報を取得し、各々のカメラは、他のカメラによって隠蔽され見られていないエリアを捕捉することが可能であり得る。カメラが２Ｄカメラである場合、ユーザの顔の３Ｄモデルを推定するために、異なる方法が使用され得る。例えば、フォトグラメトリック方法は、このタスクを達成するために使用され得る。代わりに、ニューラル・ネットワークは、カメラによって捕捉されるような画像を生み出す３Ｄモデルを推定するために使用され得る。

カメラによって捕捉されるようなカラー画像は、複雑なテキスチャ・マップを作成するために使用され得る。このマップは次いで、１つのカメラのみによって捕捉されることができるよりも多くのエリアをカバーする。各々のカメラから取得されるような複数のテキスチャ・マップは、共にスティッチされ得ると共に、１つのより多くの包括的なテキスチャ・マップを作成するように、重複するエリアを平均化する。これは、ニューラル・ネットワークによっても実行され得る。

このリアルタイムの３Ｄテキスチャ加工されたモデルは次いで、様々な角度及びカメラ・ポジションからユーザのビューをレンダリングするために使用されることができ、特に、ユーザのスクリーン内、例えば、高さ及び／又は横位置座標が参加者の目にある位置に位置付けられた仮想位置に仮想的に位置していたように、仮想カメラの視認ポジションを補正するために使用され得る。

仮想位置は、参加者の目を仮想的に横切る架空平面（ｉｍａｇｉｎａｒｙｐｌａｎｅ）、ディスプレイに垂直であり又は実質的に垂直である架空平面内に位置付けられ得る。このようにして、アイ・コンタクトのセンセーションは、ユーザのリアルタイムのビデオのために生じ得る。リアルタイムの３Ｄテキスチャ加工されたモデルも、より快適な照射、例えば、陰影が少ない照射を生じさせるために、実在する環境内の実在する人物の照明とは異なって再度照らされ得る。

発話方法、又は発話方法へのテキスト、又はニューラル・ネットワークは、仮想ミーティングにおいて行われる会話のコンテンツを要約するために、オーディオ・ストリームに適用され得る。例えば、ニューラル・ネットワークは、全身テキスト及びそれらのそれぞれの要約に対して訓練され得る。同様に、ニューラル・ネットワークは、アクション項目及び譲受人のリストを生み出すように訓練されることができる。

工程を促進し、決定に到達することにおいてニューラル・ネットワークを支援するために、人間は、タスク・リストの要約についてのテキストの関連する部分を表し得る。これは、関連するテキストが発話されるときに近接してリアルタイムで行われ得るアクション項目の要約及びリストは、全てのミーティングの出席者に、又は受信者のいずれかの他のリストに分散され得る。これは、ミーティングを強化し、その生産性を増大させるために使用されることができる。

デジタル・アシスタントも、例えば、招待する受信者を支援し、スクリーンに情報を提示し、又はアプリケーションの他の設定を制御するように、アプリケーションを制御することを支援し得る。

デジタル・アシスタントは、ミーティングをリアルタイムで書き写し、ユーザのスクリーン上でトランスクリプションを提示するために使用され得る。理解するのが難しくなり得るエコー若しくはアクセントに起因して、又は低帯域幅若しくはパケット損失などの通信ネットワークによる問題に起因して、リモート参加者の側において受信されるオーディオが劣化し得るときに、これが非常に有益であり得る。

デジタル・アシスタントは、発話を１つの言語から別の言語にリアルタイムで翻訳し、ユーザのスクリーン上で翻訳を提示するために使用され得る。参加者が異なる発話を話すときに、これが非常に有益であり得る。更に、ＴｅｘｔＴｏＳｐｅｅｃｈ（ＴＴＳ）エンジンは、翻訳された発話のオーディオ表現を生じさせるために使用され得る。敵対的生成ネットワーク又は回帰型ニューラル・ネットワークなどのニューラル・ネットワークは、ロボットの発話でなく自然に音を出す発話を生じさせるために使用されることができる。そのようなネットワークはまた、元の言語での元の発話に或るものと同一のイントネーションを有する翻訳された発話を生じさせるように訓練され得、次いで、使用され得る。

畳み込みニューラル・ネットワークなどの別のニューラル・ネットワークは、生成済みの翻訳された発話に従って動かすように、３Ｄモデルの顔及び唇をアニメ化するために使用され得る。代わりに、ＧＡＮ又は他のネットワークは、生成済みの翻訳された発話に従って動く顔及び唇の２Ｄ画像のシーケンスを生成するために使用され得る。このために、ニューラル・ネットワークは、それらが発話に関連するように、唇の動き及び顔の歪みを学習するように訓練されることができる。上記説明された全ての工程を組み合わせることで、１つの言語で話す人物の画像シーケンス及び対応するオーディオは、別の言語で話す人物の画像シーケンス及び対応するオーディオに翻訳され得、オーディオは、自然に音を発し、画像シーケンスは、新たなオーディオに対応し、すなわち、唇の動きは、発話の音素と同期し得る。

上記説明されたようなそのようなシステムが使用され得るが、ビデオ会議アプリケーション、テレビ・インタビュー、映画又はｅラーニングアプリケーションの自動ダビングに限定され得ない。

単眼ＲＧＢビデオを介した顔の正確な３Ｄ追跡のための方法
ユーザの顔の姿勢及び表情を追跡するために、単眼ＲＧＢビデオ入力を介した（深度なし）顔の正確な３Ｄ追跡のための方法が有益であり得る。方法は、カメラに関連してビデオ内の顔の３Ｄの動きと共に、様々な表情、例えば、笑顔、眉をひそめること、及び首の姿勢の変化を検出する必要がある。

典型的には、単眼ビデオ方式の顔の追跡は、ランドマークのまばらな集合を使用して行われ得る（ｄｌｉｂ方式ランドマーク、ＨＲ－ｎｅｔフェイシャル・ランドマーク、及びＧｏｏｇｌｅのメディア・パイプ・ランドマーク）。

それらのランドマークは典型的には、ユーザの注釈付けられる画像のまばらな集合を使用して、又はパラメトリック３Ｄモデルを合成的に使用して生じされ得る。

それらの慣習的な方法の限定は：
ａ．或るエリア（耳、首）内にランドマークがないこと。
ｂ．ランドマークの鮮明さ。
ｃ．ランドマークの精度及び安定度。
ｄ．時間的コヒーレンス。
ｅ．３Ｄモデルへのランドマークのマッピング。

提案される方法への入力は、２Ｄ単眼ビデオ、ビデオの最初のフレームの追跡されたパラメータの近似（特定のパラメータ）、ビデオ内の近似した変形パラメータ（人物の）及び近似したカメラ・モデルと共に、この３Ｄテンプレートについての変形モデル（人物ごとの又は全体的な）を有する顔（全体的な）のテンプレート化された３Ｄモデルであり得る。

３Ｄ顔テンプレート・メッシュ（テンプレート化された３Ｄモデル）は、一般的な人間の顔の粗い三角形メッシュを含み得る。粗いことにより、しわ、微細構造、又は他の微細な詳細ではないが、全体形状を表すのに十分であり得る、５Ｋ又は１０Ｋのポリゴンの次元で意味する。

テンプレートについての３Ｄ顔変形モデルは、テンプレートを変形させ、画像内で発見されるポジション及びキューに基づいて、３Ｄメッシュの全体形状（顎構造、鼻の長さなど）、顔の表情（笑顔、眉をひそめることなど）、又はその厳格なポジション及び方位を変化させる、標準的なパラメトリック方法を含み得る。方法のユーザは、ＢａｓｅｌＦａｃｅＭｏｄｅｌ／Ｆａｃｅｗａｒｅｈｏｕｓｅ／Ｆｌａｍｅモデルなどの変形モデルとして統計的３ＤＭＭを使用し、及び／又は、Ａｓ－Ｒｉｇｉｄ－Ａｓ－Ｐｏｓｓｉｂｌｅ、弾性又は等尺性目標などの前の変形を使用することを選ぶことができる。

ビデオ内の人物の近似した変形パラメータ及び近似したカメラ・モデルは、例えば、既知の顔部分パラメータを検出し、最小二乗センスでカメラ及び事前に注釈付けられたランドマークを最適化する顔ランドマーク検出方法を使用することによって、標準的な３ＤＭＭ適合技術によって発見されることができる。初期化は、正確である必要はないが、近似される必要があるだけであり、一般的に既知の技術を介して生成されることができる。

この方法の出力は、フレームごとのジオメトリ（変形パラメータ及びメッシュモデル）、並びに画像ごとの近似したカメラ・パラメータの集合であり得る。

各々のフレームにおいて、変形したメッシュは、現在の３Ｄ顔メッシュと称され、テンプレートの上部のその変形パラメータは、２Ｄ顔部分セグメント化及び事前に注釈付けられたセグメント化から演繹されるランドマークの集合に基づいて選ばれ得る。その目的のために、提案される方法は、入力ＲＧＢ単眼ビデオに基づいて３Ｄ顔のモデルを追跡及び変形させるＩＣＰ（ＩｔｅｒａｔｉｖｅＣｌｏｓｅｓｔＰｏｉｎｔ）方法を利用する古典的な２Ｄ厳格レジストレーション技術と共に、２Ｄ顔部分セグメント化方法を使用し得る。

提案される方法は、所与の顔部分により各々の画素を注釈付ける、共通顔部分顔部分セグメント化ネットワークを構築する。

図１３は、顔セグメント化を例示する。入力画像１３１は、カメラによって獲得される色画像である。画像１３２は、異なる色によって視覚化される、異なる顔部分のセグメント化を例示する。

加えて、三角形メッシュ・テンプレートは、顔部分（例えば、鼻、目、耳、首など）の予め定義された注釈付けにより事前に注釈付けられ得る。メッシュの注釈付けは、３Ｄモデル上の様々な顔部分と所与のターゲット画像上の顔部分との間の対応関係を発見することを支援し得る。顔部分の注釈付けは、３Ｄテンプレート上で１回のみ行われ得、その結果、同一の注釈付けが、複数の人物に対して自動で使用されることができる。注釈付けは、各々の顔部分に属する三角形をリスト化することによって、又は図１２にあるような異なる色で顔部分を色付けするための２Ｄテキスチャ・マップに沿ってメッシュについてのＵＶ座標を使用することによって規定されることができる。

図１４は、方法１７００を例示する。

方法は、ステップ１７１～１７５の１回以上の反復を含む、連続したビデオ・フレーム（第１の画像及び第２の画像と記される）のペアごとに以下の工程を実行し得る。

ステップ１７１は、現在の３Ｄ顔メッシュ及びカメラ・パラメータを考慮して、第１の画像内の様々な顔部分のランドマークの現在の２Ｄポジションを計算することを含み得る。

ステップ１７１は、変形した顔メッシュの前の反復のモデルと、カメラ・スクリーン空間投影パラメータとを使用することを含み得、方法は、３Ｄ顔メッシュ上の透視投影を実行して、各々の視認可能な注釈付けられた顔部分頂点の２Ｄスクリーン空間画素位置を得るために、カメラの外部的及び内部的パラメータを使用する。３Ｄ事前注釈付け（図１５、３Ｄモデル１４１及びＵＶマップ１４２を参照されたい）を使用して、方法は、注釈を整合させることによって、各々の顔部分内の頂点の２Ｄポジションを発見する。

ステップ１７２は、第２の画像内の様々な顔部分のランドマークの２Ｄ位置を計算することを含み得る。

ステップ１７２は、画像の各々の画素を注釈付けるように、顔部分セグメント化方法を実行することを含み得、画素がバックグラウンドに属さない場合、方法は、注釈としてそれが属する規定された顔部分（目鼻、耳、唇、眉など）を保存する。

ステップ１７３は、第１の画像の顔部分の２Ｄ位置と第２の画像の顔部分の２Ｄ位置との間の２Ｄ－＞２Ｄ密度の対応関係を計算することを含み得る。

ステップ１７３は、対称ＩＣＰ方法（ｈｔｔｐｓ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ｉｔｅｒａｔｉｖｅ＿ｃｌｏｓｅｓｔ＿ｐｏｉｎｔ）を稼働させることによって、顔部分ごとに、第１の画像の顔部分ポイントと第２の画像の１つとの間の対応関係を発見することを含み得る。ＩＣＰ方法は、２つのステップの間で反復して進み、第１のステップでは、切望して、第１の画像の形状内のポイントごとに、第２の画像の形状上の最も近いポイントを選ぶことによって、第１の画像の形状と第２の画像の形状との間の対応関係を発見する。第２のステップでは、最小二乗センスで第１の画像のポイントを第２の画像のポイントに最適に変換する回転及び転移を最適化及び発見する。最適なソリューションを発見するために、工程は、収束メトリックが満たされるときに収束が発生するまで、それらの２つのステップを繰り返す。

ここで、第１の画像の形状は、様々な顔部分の現在の２Ｄポジションであり得、第２の画像は、セグメント化マップ（上記説明を参照されたい）によって与えられる２Ｄ位置であり得る。ＩＣＰの厳格な適合は、顔部分ごとに別個に行われ得る。例えば、第１の画像内の視認可能な投影された鼻の画素ごとに、ターゲット画像に対する顔部分セグメント化によって与えられる、第２の画像の鼻上の対応する画素を発見する。

ステップ１７４は、第１の画像の３Ｄ位置と第２の画像の２Ｄ位置との間の３Ｄ－＞２Ｄ密度の対応関係を計算することを含み得る。

ステップ１７５は、対応関係を整合させるように、顔メッシュを変形させることを含み得る。

ステップ１７４は、重心座標によって規定された、３Ｄ顔メッシュからレンダリングされた２Ｄ画素、及びメッシュ上のそれらの３Ｄ位置に戻る第１の画像のカメラ・モデルを背面投影するために、ラスタライザ及び所与のカメラ・パラメータを使用することを含み得る。よって、方法は、メッシュ上の３Ｄ内の顔部分ポイントとカメラの透視投影下での２Ｄ内の第２の画像の位置との間の対応関係を生じさせる。

ステップ１７５は、典型的なまばらなランドマーク及びカメラ適合にあるように、第１の画像の３Ｄ特徴の投影が、第２の画像の２Ｄ位置の２Ｄ位置に整合するように、顔メッシュを変形させ、カメラ・パラメータを変更するために、変形モデル（例えば、上記説明されたような３ＤＭＭ）を使用することを含み得る。

ステップ１７１～１７５は、収束メトリックが満たされるまで繰り返され得る。

例えば、対応関係及び適合手順にあるように、上記ステップは、収束まで繰り返され得、各々のステップにおいて、異なる且つより良好な対応関係を発見し、それらを最適化する。収束は、収束メトリックが満たされるときに達成される。

この方法は、耳、首、及び額のように、慣習的なランドマーク方法によって網羅され得ないエリア及び顔部分内のランドマークの集合を生じさせ、これは、３Ｄメッシュの使用に起因する。方法は、ランドマークの密度集合を生じさせ、密度の対応関係は、３Ｄモデル・テンプレート内で顔部分の１回の注釈付けを除き、注釈付けをほとんど必要としない。方法は、実行される回帰に起因して、一時的にコヒーレントであり得る、高品質のランドマークの密度集合を生じさせる。このコンテキストにおけるコヒーレンスは、ランドマークがフレームの間でジッタを有さないことを意味する。

それはまた、一般的なセグメント化／分類方法を単純に採用することによって、様々な顔又は身体部分、例えば、耳及び首上のランドマークを得ることを可能にする。

図１６は、上唇に対する２Ｄ－２Ｄ密度の対応関係計算（両方の画像内で同一に色付けられた画素が相互に対応する）の例示であり得る。

図１７は、ステップ、７１、７２、７３、及び７４のシーケンスを含む方法を例示する。

ステップ７１は、仮想３Ｄ環境を取得することを含み得る。これは、仮想３Ｄ環境をユーザに表示させる、１回実行される命令を生成又は受信することを含み得る。仮想３Ｄ環境は、仮想３Ｄビデオ会議環境であることができ、又は仮想３Ｄビデオ会議環境とは異なり得る。

ステップ７２は、参加者に関連するアバタに関する情報を取得することを含み得、参加者のアバタは、電話会議における少なくとも参加者の顔を含む。参加者のアバタは、１回、期間ごとに１回以上、電話会議ごとに１回以上で受信され得る。

ステップ７３は、仮想３Ｄ環境内で参加者に関連するアバタを仮想的に位置付けることを含み得る。これは、参加者の前のセッションに基づいて、ジョブ・タイトル及び／又は優先度などのメタデータに基づいて、電話会議における役割、例えば、電話のイニシエータに基づいて、並びに参加者の嗜好に基づいてなど、いずれかの方式において行われることができる。ステップ７３は、参加者のアバタによってポピュレートされる仮想３Ｄ環境の仮想表現を生成することを含み得る。

ステップ７４は、参加者のアバタの位置と参加者の凝視方向との間の空間的関係に関する情報を受信することと、仮想３Ｄ環境内の参加者に関連するアバタの少なくとも方位を更新することとを含み得る。

図１８は、方法１６００を例示する。

方法１６００は、人物の現在のアバタを更新するためのものであり得、ステップ１６０１、１６０２、１６０３、１６０４、及び１６０５を含み得る。

ステップ１６０１は、人物の顔の現在の顔のランドマーク・ポイントの二次元（２Ｄ）空間内の、現在の位置を計算することを含み得る。計算することは、現在のアバタ、及び２Ｄカメラの１つ又は複数の現在の獲得パラメータに基づき得、人物の現在のアバタは、３Ｄ空間内に位置し得る。

ステップ１６０２は、２Ｄ空間内で、人物の顔の顔のランドマーク・ポイントのターゲット位置を計算することを含み得、ターゲット位置を計算することは、２Ｄカメラによって獲得される１つ又は複数の画像に基づき得る。

ステップ１６０３は、現在の位置とターゲット位置との間の対応関係を計算することを含み得る。

ステップ１６０４は、対応関係に基づいて、３Ｄ空間内の顔のランドマーク・ポイントの位置を計算することを含み得る。

ステップ１６０５は、３Ｄ空間内の顔のランドマーク・ポイントの位置に基づいて、現在のアバタを修正することを含み得る。

現在の顔のランドマーク・ポイントは、現在の顔のランドマークのエッジ・ポイントのみであり得る。

現在の顔のランドマーク・ポイントは、現在の顔のランドマークのエッジ・ポイント及び現在の顔のランドマークの非エッジ・ポイントを含み得る。

対応関係を計算することは、反復的最近ポイント（ＩＣＰ）工程を適用することを含み得、現在の位置は、ソース位置と見なされ得る。

３Ｄ空間内のターゲットの顔のランドマーク・ポイントの位置は、重心座標によって表わされ得る。

現在のアバタは、参照アバタ及び現在の３Ｄ変形モデルを含み得、現在のアバタを修正することは、参照アバタを実質的に修正することなく、現在の３Ｄ変形モデルを修正することを含み得る。

現在の３Ｄ変形モデルは、３Ｄモーフィング・モデル（３ＤＭＭ：３Ｄｍｏｒｐｈａｂｌｅｍｏｄｅｌ）であり得る。

方法は、現在の画像に対し、及び収束するまで、ステップ１６０１～１６０５を繰り返すことを含み得る。

ステップ１６０２は、セグメント化を含み得る。

図１８はまた、複数の参加者の間の３Ｄビデオ会議を行うための方法１６５０の実例を例示する。

方法１６５０は、ステップ１６５２、１６５４、及び１６５６を含み得る。

ステップ１６５２は、異なる状況下の参加者の３Ｄ表現を生成するための初期の３Ｄ参加者表現情報を受信することを含み得る。この受信することは、特にビデオ会議のため、又は他の目的のために獲得される参加者のビデオ又は画像に基づき得る。受信された情報も、ソーシャル・ネットワーク及び同様のものなどの追加のソースから取り出され得る。参加者情報は、電話会議の参加者、例えば、第１の参加者及び第２の参加者に関連し得る。

ステップ１６５４は、第１の参加者のユーザ・デバイスによって、３Ｄビデオ電話会議の間、第２の参加者に関する１つ又は複数の現在の状況を示す第２の参加者の状況メタデータを受信することを含み得る。

ステップ１６５６は、第１の参加者のユーザ・デバイスによって、仮想３Ｄビデオ会議環境の第１の表現内の３Ｄ参加者表現を更新することを含み得る。

異なる状況は、異なる画像獲得条件、異なる凝視方向、異なるビューワの観点、及び異なる表情などからの少なくとも１つを含み得る。

図１８はまた、複数の参加者の間の３Ｄビデオ会議を行うための方法１９００の実例を例示する。

方法１９００は、ステップ１９１０及び１９２０を含み得る。

ステップ１９１０は、参加者ごとに、３Ｄビデオ会議の間に複数回、仮想３Ｄビデオ会議環境内の更新された３Ｄ参加者表現情報を判定することを含み得る。

ステップ１９２０は、少なくとも１人の参加者に対し、３Ｄビデオ会議の間に複数回、仮想３Ｄビデオ会議環境の更新された表現を生成することを含み得、仮想３Ｄビデオ会議環境の更新された表現は、複数の参加者の少なくとも一部についての更新された３Ｄ参加者表現情報を表す。

各々のテキスチャ・マップは、形状、姿勢、及び表情からの少なくとも１つに基づいて、選択及び／又は増補され得る。増補することは、照明、顔のメイクアップ効果（リップスティック及びブラッシュなど）に起因して値を修正することと、顔の毛の特徴（髭、口髭など）及びアクセサリ（メガネ、イヤホンなど）などを除去することとを含み得る。

各々のテキスチャ・マップは、形状、姿勢、表情、及び、参加者の顔と参加者の顔の画像を捕捉するカメラの光学軸との間の角度関係からの少なくとも１つに基づいて選択及び／又は増補され得る。

方法は、参加者ごとに、参加者の複数の３Ｄモデルから選択された３Ｄモデルを繰り返して選択することと、参加者の１つの選択された３Ｄモデルから参加者の別の３Ｄモデルへの遷移を円滑にすることとを含み得る。

ステップ１９１０は、以下からの少なくとも１つを含み得る：
ａ．更新された３Ｄ参加者表現情報を判定するための１つ又は複数のニューラル・ネットワークを使用すること。
ｂ．更新された３Ｄ参加者表現情報を判定するための複数のニューラル・ネットワークを使用すること、複数のニューラル・ネットワークの異なるニューラル・ネットワークは、異なる状況と関連付けられ得る。
ｃ．更新された３Ｄ参加者表現情報を判定するための複数のニューラル・ネットワークを使用すること、複数のニューラル・ネットワークの異なるニューラル・ネットワークは、異なる解像度と関連付けられ得る。

方法は、必要とされる解像度に基づいて、複数のニューラル・ネットワークの少なくとも１つのニューラル・ネットワークの出力を選択することを含み得、複数のニューラル・ネットワークは、異なる出力解像度に対して動作し、必要とされる解像度に最も近い解像度を有する１つが選択される。

図１８は更に、複数の参加者の間で３Ｄビデオ会議を行うための方法２０００の実例を例示する。

方法２０は、ステップ２０１０及び２０２０を含み得る。

ステップ２０１０は、参加者ごとに、参加者を表す、仮想３Ｄビデオ会議環境内の更新された３Ｄ参加者表現情報を判定することを含み得る。判定することは、参加者の顔の少なくとも１つの視認可能なエリアを捕捉するカメラから隠蔽され得る、参加者の顔の１つ又は複数の隠蔽エリアの３Ｄ参加者表現情報を推定することを含み得る。

ステップ２０２０は、少なくとも１人の参加者に対して、仮想３Ｄビデオ会議環境の更新された表現を生成することを含み得、仮想３Ｄビデオ会議環境の更新された表現は、複数の参加者の少なくとも一部についての更新された３Ｄ参加者表現情報を表す。

方法は、３Ｄモデル隠蔽エリア及び１つの又は隠蔽部分のテキスチャ・マップを含み得る。

１つ又は複数の隠蔽エリアの３Ｄ参加者表現情報を推定することは、１つ又は複数の敵対的生成ネットワークを使用して実行され得る。

方法は、アバタのサイズを判定することを含み得る。

人物の３Ｄモデルをレンダリングするための多解像度ニューラル・ネットワーク
３Ｄ仮想ミーティング・アプリケーションでは、仮想３Ｄビデオ会議環境内で非常に高品質を３Ｄ仮想ビデオ会議の参加者に提示する必要性があり得る。高い現実性レベルを達成するために、各々の参加者の頭部及び身体の３Ｄモデルを作成するために、ニューラル・ネットワークが使用され得る。ニューラル・ネットワークはまた、参加者のテキスチャ・マップを作成するために使用され得、３Ｄモデル及びテキスチャ・マップは次いで、異なる角度から視認されることができる参加者の画像を作成するようにレンダリングされることができる。

ミーティングに２人よりも多い参加者が存在する場合、各々の参加者は、ミーティングにおける参加者の多く又は全てを見るためにズーム・プットではなく、クローズ・アップから他の参加者を見るために、ズーム・イン及びズーム・アウトすることを望み得る。

参加者の３Ｄモデル及びテキスチャ・マップを作成するためにニューラル・ネットワークを使用することは典型的には、計算的に集中的演算であり得る。多くの参加者の画像をレンダリングするために複数回ニューラル・ネットワークを稼働させることは、必要とされる計算の回数が高くなり得、リアルタイムなレンダリングを達成することなくコンピュータのリソースが浪費され得るので、スケーラブルであり得ず、標準的なコンピュータを使用して可能であり得ない。代わりに、クラウド上でコンピュータのネットワークを使用するのは非常にコストがかかり得る。

この実施例によれば、ネットワークの集合は、異なるレベルの詳細（３Ｄモデル内のポリゴンの数及びテキスチャ・マップ内の画素の数）において３Ｄモデル及びテキスチャ・マップを生み出すように訓練され得る。

例えば、非常に高い解像度のネットワークは、１０，０００個のポリゴンを有する３Ｄモデル及び２０００×２０００の画素を有する２Ｄテキスチャ・マップを作成し得る。高解像度ネットワークは、２５００個のポリゴンを有する３Ｄモデル及び１０００×１０００の画素を有する２Ｄテキスチャ・マップを作成し得る。

中解像度ネットワークは、１５００個のポリゴンを有する３Ｄモデル及び５００×５００の画素を有する２Ｄテキスチャ・マップを作成し得る。低解像度ネットワークは、６２５個のポリゴンを有する３Ｄモデル及び２５０×２５０の画素を有する２Ｄテキスチャ・マップを作成し得る。

実施例では、全てのそれらのネットワークは、可変数のレイヤの後に、いくつかの出力を有する１つのネットワークであることができる。例えば、最終的なネットワークの出力は、２０００×２０００の画素を有するテキスチャ・マップであり、前のレイヤの出力は、１０００×１０００の画素を有するテキスチャ・マップである。

実行時間の間、ソフトウェアは、ユーザが使用していることがあるズーム・レベルに従って、ミーティングにおける各々の参加者の画像のサイズがいくつであるかを判定する。

ズーム・レベルに続いて必要とされるサイズによって、方法は、関連するレベルの詳細により３Ｄモデル及び２Ｄテキスチャ・マップを作成するためにどのネットワークが使用されるべきであるかを判定する。このようにして、より小さい数字は、ネットワークごとに少ない回数の計算を結果としてもたらすより低い解像度のネットワークを必要とする。したがって、多くの人物の画像をレンダリングするために必要とされる計算の総数は、多くフル解像度ネットワークの稼働と比較して低減される。

実施例によれば、人物の顔のテキスチャ・マップは、顔の異なるエリアのテキスチャ・マップに基づいて生成されることができる。

顔のエリアの（例えば、顔のランドマークの目の、及び口の、など）テキスチャ・マップの１つは、顔の別のエリアのテキスチャ・マップよりも高い解像度の（より詳細な）ものであり得る（例えば、目と鼻との間のエリアが、頬又は額よりも高い解像度を有し得る）。例えば、ハイブリッド・テキスチャ・マップ２２２２を提供するように、目のより高い解像度テキスチャ・マップが顔の他のエリアのより低い解像度テキスチャ・マップに追加され得る、図２０を参照されたい。

異なるエリアのテキスチャ・マップは、２つ以上の異なる解像度レベルのものであり得る。テキスチャ・マップごとの解像度の選択は、固定され得、又は経時的に変更し得る。選択は、異なるエリアの優先度に基づき得る。優先度は、経時的に変更し得る。

別の実施例によれば、顔の異なるエリアのテキスチャ・マップは、それらのエリアの変更の頻度に従って、異なる頻度で更新及び／又は伝送され得る。例えば、目及び唇は、鼻の穴又は眉よりも頻繁に変更し得る。したがって、鼻の穴及び眉のテキスチャ・マップは、目及び唇に対してよりも少なく更新され得る。このようにして、鼻の穴及び眉のテキスチャ・マップが目及び唇のテキスチャ・マップのより多くの頻度の更新で更新される状況と比較して、計算の回数は更に低減される。

異なる顔エリアのテキスチャ・マップの解像度は、利用可能な計算リソース及びメモリ・リソース状態などの追加のパラメータに基づき得る。

顔の異なるエリアのテキスチャ・マップから顔のテキスチャ・マップを生成することは、いずれかの方式において実行され得、例えば、異なるエリアの異なるテキスチャ・マップの間の境界を平滑化することなどを含み得る。顔に行われるいずれかの言及は、人物全体に、又は人物のいずれかの他の身体組織に変更すべきところは変更して適用され得る。

図１８はまた、仮想３Ｄ会議などのビデオ会議の間に使用されるテキスチャ・マップを生成するための方法２１００の実例を例示する。

方法２１は、ステップ２１１０、２１２０、及び２１３０を含み得る。

ステップ２１１０は、３Ｄオブジェクトの少なくとも一部の複数のエリアの複数のテキスチャ・マップを取得すること（例えば、いずれかの方式において生成又は受信する）ことを含み得、複数のテキスチャ・マップは、第１のエリア及び第１の解像度の第１のテキスチャ・マップと、第２のエリア及び第２の解像度の第２のテキスチャ・マップとを含み得、第１のエリアは、第１のエリアとは異なり、第１の解像度は、第２の解像度とは異なる。

ステップ２１２０は、３Ｄオブジェクトの少なくとも一部のテキスチャ・マップを生成することを含み得、生成することは、複数のテキスチャ・マップに基づき得る。

ステップ２１３０は、ビデオ会議の間に３Ｄオブジェクトの少なくとも一部のテキスチャ・マップに基づいて、３Ｄオブジェクトの少なくとも一部の視覚的表現を利用することを含み得る。

マルチ・ビュー・テキスチャ・マップ
高度に現実的な顔を生成することがもたらされ得、それは、他のオブジェクトに適用可能であり得る。

高品質且つ非常に現実的な画像及びビデオ又は顔及び身体は、コンピュータ・グラフィックにおける一般的な問題であり得る。

これは、他の使用の中で、映画又はコンピュータ・ゲームの作成に適用されることができる。

ユーザが共通空間に座り得る３Ｄビデオ会議アプリケーションを作成するためにそれも適用されることができ、３Ｄアバタは、参加者を表し、標準的なウェブカメラによって捕捉されるようなユーザの実際の動きに従って動き及び話す。

顔、頭部、又は身体の現実的に見る３Ｄ表現を作成するために、３Ｄモデル及び２Ｄテキスチャ・マップは、オフラインで作成され得、次いで、操作され得る。操作することは、筋肉が実の身体で行うのとよく似て、動くモデルの異なる部分を有効にする３Ｄモデル内での操縦を生じさせることを意味する。

３Ｄモデル及びテキスチャ・マップは、身体及び顔の外部部分のビューを含むはずであるが、口、歯、及び舌などの内部部分をも含むはずである。それらは、まぶたなどの身体部分が動いて、開いた目及び閉じた目を提示することを有効にするはずである。

高度に現実的に見える画像又はビデオを作成するために、典型的には、頭部のモデル内で最大で１００，０００個を有する非常に高いレベルの３Ｄモデルが使用され得る。

加えて、テキスチャ・マップは、高解像度での全ての内部及び外部身体／頭部部分の記述を含むはずである。

テキスチャ・マップに加えて、レンダリング・エンジンが身体及び顔からの光の均一でない（Ｌａｍｂｅｒｔｉａｎでない）反射、例えば、しっとりした皮膚若しくは脂ぎった皮膚から、又はぎらぎらした目からの反射をシミュレートすることを有効にするために、マテリアル・マップ又は反映度マップが必要となり得る。

そのような３Ｄモデル及び２Ｄテキスチャ及びマテリアル・マップを作成することは典型的には、多くのカメラ及び制御された照明を有する良好に装備されたスタジオを必要とする。これは、それらのモデルの使用をオフライン且つ事後製造のユースケースに限定する。

これに全て起因して、高度に現実的な身体及び頭部をレンダリングすることは、多くの計算を必要とする複雑な工程であり得る。そのような計算の量は、リアルタイムでの、及び高フレーム・レート（少なくとも、毎秒３０フレーム）でのいずれかの標準的なコンピュータ上で処理されることが可能であり得ない。

多くの身体及び頭部が各々の画像内でレンダリングされる必要がある場合、例えば、３Ｄミーティングに多くの参加者が存在し得る場合、この問題がより一層深刻になる。

非常に多い数のポリゴンを有する３Ｄモデル、内部部分及び外部部分並びにマテリアル／反映マップについての多くのオプションを有するテキスチャ・マップを使用する代わりに、はるかに少ない計算を必要とする代替的なソリューションが提供され、また、多くの身体及び顔のリアルタイムなレンダリングを有効にする。

ソリューションは、様々な視点から、例えば、前方、側面、背面、上部、及び底部から、人物の画像又はビデオを捕捉することに基づき得る。

これは、ハンドヘルド携帯電話カメラにより頭部をスキャンすることによって、或いは、三脚に固定されたウェブカメラ若しくは携帯電話カメラなどの固定されたカメラ又はいずれかの他のデバイスの前方で頭部を振り向かせることによって行われることができる。人物の画像も、人物のスキャンされた写真などを使用して、ソーシャル・ネットワーク又はインターネット・リソースから抽出することを含む、他の方法及び他のソースによって獲得され得る。

スキャン工程の間、人物は、異なる顔表情を実行し、話すように依頼され得る。身体全体をスキャンするために、ユーザは、異なる身体姿勢でポーズし、動き、姿勢を継続して変更するように依頼され得る。

この工程において収集される画像は、必要とされる姿勢及び表情に応じて、並びに観点に応じて、頭部及び／又は身体の３Ｄモデルを作成するニューラル・ネットワーク又はいくつかのニューラル・ネットワークを訓練するために使用され得る。

加えて、テキスチャ・マップ依存の観点は、必要とされる姿勢及び表情に応じて、及び観点に応じて生み出され得る。

３Ｄモデル及びテキスチャ・マップは、頭部及び／若しくは身体又は人物の画像をレンダリングするために使用され得る。

ニューラル・ネットワークによって出力される２Ｄテキスチャ・マップが観点、姿勢、及び表情のうちの少なくとも１つに依存し得るので、それは、観点、姿勢、及び表情のうちの少なくとも１つから画像をレンダリングすることに関連し得る情報のみを含むはずである。それらの詳細が２Ｄテキスチャ画像に現れるという事実によって皮膚のしわなどの欠落する３Ｄ詳細が補償され得るように、これは、頭部又は身体の３Ｄモデルの精度が少なくなることを有効にする。同様に、開いたまぶた又は閉じたまぶたのテキスチャが２Ｄ画像内で発見され得、３Ｄモデルに投影され得るように、開いたまぶた又は閉じたまぶたの操作されたモデルを生じさせる必要性が存在し得ない。

実際に、それが多くの顔の詳細を省略し、小さい筋肉及びそれらの動きを考慮しないように、３Ｄモデルは高度に不正確である場合がある。それはまた、上記言及されたような動く顔の部分ではない内部を含まないと共に、２Ｄ画像は、複数の観点からではなく、或る観点からの外観を提示する。これは、３Ｄモデルにおける不正確さが、或る観点から３Ｄモデル及びテキスチャ・マップをレンダリングすることに反映しない。

結果として、画像をレンダリングするために使用される３Ｄモデルは、非常に詳細である必要なく、多くのポリゴンを含まない。典型的には、それは、従来のソリューションにおける数万又は数十万のポリゴンと比較して、数千又は数百のポリゴンを有することができる。

これは、高価でないプロセシング・ユニットにより計算デバイス上でのリアルタイムでの頭部及び／又は身体の高速な、リアルタイムなレンダリングを可能にする。

更に、３Ｄモデル及び２Ｄテキスチャ・マップは、所望の出力画像の解像度に応じて、異なるネットワークによって出力され得る。低解像度画像は、より少ない計算を必要とするより少ない係数によりニューラル・ネットワークによって出力され得る低解像度ポリゴン３Ｄモデル及び低解像度テキスチャ・マップに基づいてレンダリングされる。

これは更に、ＧＰＵ、携帯電話、又はタブレットを有さない、ラップトップなどの低コスト且つ低電力の計算デバイスを使用して、１つの画像内でいくつかの頭部及び／又は身体を一度にレンダリングすることを可能にする。

また、ソリューションは、スタジオを必要とせず、単一のカメラに基づき得ることに留意されよう。それは、多くのカメラ及び照射源を有する複雑なシステムを必要とせず、制御された照明を必要としない。

図１９は、３Ｄビデオ会議のための方法２２００の実例を例示する。

方法２２００は、ステップ２２１０及び２２２０を含み得る。

ステップ２２１０は、参加者ごとに、参加者を表す、仮想３Ｄビデオ会議環境内の更新された３Ｄ参加者表現情報を判定することを含み得る。判定することは、参加者の画像を獲得するカメラの実際の光学軸と仮想カメラの所望の光学軸との間の差分を補償することを含み得る。

ステップ２２２０は、少なくとも１人の参加者に対し、仮想３Ｄビデオ会議環境の更新された表現を生成することを含み得、仮想３Ｄビデオ会議環境の更新された表現が、複数の参加者の少なくとも一部についての更新された３Ｄ参加者表現情報を表す。

仮想３Ｄビデオ会議環境内の第１のアバタの凝視方向は、（ａ）第１のアバタによって表わされ得る第１の参加者の凝視方向と（ｂ）第１の参加者に表示される仮想３Ｄビデオ会議環境の表現との間の空間的関係を表し得る。

仮想３Ｄビデオ会議環境内の第１のアバタの凝視方向は、カメラの実際の光学軸に対して不可知であり得る。

仮想３Ｄビデオ会議環境の更新された表現内の第１の参加者の第１のアバタは、仮想カメラによって捕捉されるとして、仮想３Ｄビデオ会議環境の更新された表現内に現れる。

仮想カメラは、第１の参加者の第１の参加者の目を仮想的に横切る仮想平面に位置し得る。

方法は、参加者の頭部姿勢及び表情に関する参加者外見情報を受信又は生成することと、参加者外見情報を反映するように、更新された３Ｄ参加者表現情報を判定することとを含み得る。

方法は、アバタの各々の形状を判定することを含み得る。

図１９はまた、三次元であり得るオブジェクトの観点から画像を生成するための方法２３００の実例を例示する。

方法２３００は、オブジェクトのコンパクトな３Ｄモデル及び或る観点と関連付けられた少なくとも１つの二次元（２Ｄ）テキスチャ・マップに基づいて、オブジェクトの画像をレンダリングするステップ２３１０を含み得る。

レンダリングすることは、コンパクトな３Ｄモデルに対する少なくとも１つの２Ｄテキスチャ・マップから生成されるテキスチャを仮想的に配置することを含み得る。

方法は、異なるテキスチャ・マップ観点と関連付けられ得る複数の２Ｄテキスチャ・マップから、或る観点と関連付けられた少なくとも１つの２Ｄテキスチャ・マップを選択することを含み得る。

レンダリングすることはまた、オブジェクトの要求される外観に応答し得る。

オブジェクトは、センサによって獲得され得る獲得されたオブジェクトの表現であり得る。

レンダリングすることはまた、獲得されたオブジェクトの外観パラメータに応答し得る。

獲得されたオブジェクトは、三次元（３Ｄ）ビデオ会議の参加者であり得る。

方法は、１つ又は複数のニューラル・ネットワークから、少なくとも１つの２Ｄテキスチャ・マップを受信することを含み得る。

図１９は更に、複数の参加者の間で３Ｄビデオ会議を行うための方法２４００の実例を例示する。

方法２４００は、ステップ２４１０、２４２０、及び２４３０を含み得る。

ステップ２４１０は、第１の参加者と関連付けられ得る第１のユニットによって、第２の参加者メタデータ及び第１の観点メタデータを受信することとを含み得、第２の参加者メタデータは、第２の参加者の姿勢及び第２の参加者の表情を示し得、第１の観点メタデータは、第１の参加者が第２の参加者のアバタを見ることを要求する仮想ポジションを示し得る。

ステップ２４２０は、第１のユニットによって、第２の参加者メタデータ及び第１の観点メタデータに基づいて、第２の参加者表現情報を生成することを含み得、第２の参加者表現情報は、第２の参加者のコンパクトな３Ｄモデル及び第２の参加者テキスチャ・マップを含み得る。

ステップ２４３０は、第１の参加者に対し、３Ｄビデオ会議の間、仮想３Ｄビデオ会議環境の表現を判定することを含み得、判定することは、第２の参加者表現情報に基づき得る。

方法は、第２の参加者メタデータ及び第１の観点メタデータに応答して、コンパクトな３Ｄ及び第２の参加者テキスチャ・マップの各々の１つを生成することを含み得る。

コンパクトな３Ｄモデル及び第２の参加者テキスチャ・マップのうちの少なくとも１つを生成することは、第２の参加者メタデータ及び第１の観点メタデータに基づいて、コンパクトな３Ｄモデル及び第２の参加者テキスチャ・マップのうちの少なくとも１つを出力するように訓練された１つ又は複数のニューラル・ネットワークに、第２の参加者メタデータ及び第１の観点メタデータをフィードすることを含み得る。

コンパクトな３Ｄモデルは、１万個未満のポイントを含み得る。

コンパクトな３Ｄモデルは、ＦＬＡＭＥモデル（ｈｔｔｐｓ：／／ｆｌａｍｅ．ｉｓ．ｔｕｅ．ｍｐｇ．ｄｅ／ｈｏｍｅ）についてなど、必然的に５千個のポイントから構成され得る。

仮想３Ｄビデオ会議環境の表現を判定することは、第２の参加者テキスチャ・マップに基づいて、仮想３Ｄビデオ会議環境内の第２の参加者の外観の推定を判定することと、少なくとも第２の参加者のコンパクトな３Ｄモデルに基づいて、推定を訂正することとを含み得る。

訂正することは、３Ｄ会議ビデオの１人又は複数の参加者のコンパクトな３Ｄモデルに関連する秘匿効果及び照射効果に基づいて、推定を訂正することを含み得る。

ビデオからの記銘力及びムード推定
Ｃｏｖｉｄ９に起因して、人物のミーティングにおける多くがビデオ電話会議と置き換えられてきた。

そのような呼び出しは長くなり得、参加者は、それらの記銘力又は焦点を失い得、また、インターネットを閲覧し、電子メールを読み、又はそれらの電話によりプレイすることなど、ミーティングに並列して他の事項を行うことを唆され得る。

多くのケースでは、ミーティング参加者の一部が、他の参加者が注意深くなり得るかどうか（すなわち、ミーティングに注意を払っている）、及び、他の参加者がどのように感じるか、例えば、他の参加者が話していることにそれらが満足し得、悲しみ得、怒り得、ストレスを感じ得、同意し得、又は同意し得ない、ことを知ることが重要であり得る。

そのようなビデオ電話会議についての実例のケースは、例えば、学校の講義、大学の講義、セールス・ミーティング、及びチーム・マネージャによって管理されるチーム・ミーティングと関連付けられ得る。

ビデオを分析し、参加者の記銘力、殊に、積極的に参加し得ず、話し得ない参加者を推定するためのソリューションが提供され得る。

ビデオ会議ミーティングからのビデオのデータベースが収集され得る。

ビデオのうちの１つ又は複数内に現れる参加者ごとに（又は、参加者の少なくとも一部）、ビデオは、ユーザの記銘力及び感覚が一定であると推定され得る部分に分割され得る。各々のビデオの各々の部分では、記銘力レベル及び感情は、いくつかの可能な手段を使用することによって推定され得る。

参加者は、ミーティングのその部分の間に参加者がどのように興味があったか、及びその時間の間にそれらのムードが何であったかを問い合わされ得る。
ａ．外部アノテータは、頭部姿勢、目の動き、及び顔表情など、参加者の外観に基づいて、記銘力及びムードを推定するように依頼され得る。
ｂ．外部デバイスは、ポリグラフ・マシン又は他のあまり洗練されていない方法によって行われるように、参加者の心臓の鼓動及び他の生物学的信号を測定するために使用され得る。
ｃ．コンピュータ・ソフトウェア又はオブザーバは、参加者がミーティングに関連し得ない、すなわち、ミーティングに完全に焦点を当てていないコンピュータ・スクリーン上で別のウインドウを見ていたかどうかを検証し得る。

各々のビデオの部分ごとに、記銘力についての数値スコアが作成され得、又は代わりに、参加者の記銘力は、「高度に関心がある」、「関心がある」、「無関心である」、「退屈である」、「極端に退屈である」、及び「多くのタスクがある」など、いくつかのクラスに分類され得る。

同様の方式において、ユーザのムードが推定され得、例えば、「幸せである」、「満足である」、「悲しい」、「怒っている」、「ストレスを感じる」、である。

逆に、数値は、幸福度、リラクゼーション、関心などの或る感覚に与えられることができる。

ニューラル・ネットワーク・モデルは、ビデオ内の参加者の外観と記銘力及びムードのレベルとの間の相関関係を発見するように訓練され得る。

実行時間において、ビデオは、ネットワークに供給され得、それは、時間に応じて記銘力レベルの推定を出力する。

この出力は、それらの性能を改善し、又は記銘力を失ったことがある或る他の参加者を助けるために、ミーティングのホスト又はマネージャ（教師、セールスパーソン、マネージャ）などの一部の参加者に提示され得る。

実施例では、ビデオ内で検出される顔は、以前の特許において説明されたように、「頭部姿勢、目の凝視方向、及び顔表情に関するパラメータを含む、パラメトリック・モデルを生成するニューラル・ネットワークによってモデル化され得る。

パラメトリック・モデルが発見されると、パラメータのみがニューラル・ネットワークに入力され得、ニューラル・ネットワークは、未処理ビデオを入力する代わりに記銘力レベルを推定する。

パラメータは、時間的に一連のパラメータとして入力され得、その結果、表情、頭部、及び目の動きにおける時間的変化が考慮に入れられ得る。例えば、長期間の間に顔表情又は頭部及び目の方向をコーディングするパラメータに変更がない場合、ネットワークは、これが注意を払っていないことの兆候であり得ると学習し得る。

そのような方法は、記銘力のレベルを推定するネットワークに入力され得るデータの量を低減させるので有益であり得る。

別の実施例では、ビデオ分析ネットワークの出力は、コンピュータ・ソフトウェアによって収集されるデータと組み合わされ得る。

そのような追加のデータは、以下のものであることができる：
ａ．他のウインドウがスクリーン上で視認されるか？
ｂ．ビデオ会議ミーティングの間にユーザがタイプしているか、又はマウスをクリックし得るか？
ｃ．目の凝視追跡を使用して、人物が見得る方向が推定されることができる。

方法は、ユーザがビデオ会議アプリケーションにおいて話していることがある人物を若しくは他の人物を見ていることがあるか、又は周りを凝視していることがあるだけであるかどうかを推定し得る。

目の凝視検出を使用して、方法はまた、他の開いたウインドウなど、ビデオ会議ソフトウェアによって占有されていないスクリーンのエリアをユーザが見ているかどうかを推定することができる。

目の凝視検出を使用して、方法は、ミーティングの間にユーザがテキストを読んでいることがあるかどうかを推定することができる。

全てのデータ・ソースの組み合わせは、ミーティングの参加者が、ミーティングの間に多くのタスクがあり得るかどうか、及びビデオ・ミーティングの代わりに他のタスクに注意を払い得るかどうかを推定するために使用され得る。

上記言及された工程は、人物の画像をレンダリングすることに限定されず、動物又はいずれかの他のオブジェクトをレンダリングするためにも使用されることができることに留意されよう。

図１９は更に、ビデオ会議における参加者の精神的パラメータを判定するための方法２５００の実例を例示する。

方法２５００は、ビデオ会議の間に参加者の精神的状態を判定するために、ビデオ会議の間に獲得される参加者のビデオに対して機械学習工程を適用するステップ２５１０を含み得、精神的状態は、ムード及び記銘力から選択され得る。機械学習工程は、１人又は複数の人物のビデオ・セグメントを訓練し、訓練するビデオ・セグメントの各々の間に１人又は複数の人物の参加者の精神的状態を示す精神的状態メタデータを訓練すると、共にそれが供給された訓練工程によって訓練されてきた。

訓練する精神的状態メタデータは、例えば、以下からの少なくとも１つによって、いずれかの方式において生成され得る：
ａ．１人又は複数の人物をクエリすること。
ｂ．１人又は複数の人物とは異なるエンティティ（医療スタッフ及びエクスパートなど）によって生成されること。
ｃ．訓練するビデオ・セグメントの獲得の間に１人又は複数の人物の１つ又は複数の生理学的パラメータを測定すること。
ｄ．訓練するビデオ・セグメントの獲得の間、１人又は複数の人物と関連付けられたディスプレイ以外の構成要素により、１人又は複数の人物の対話に基づいて生成されること。
ｅ．訓練するビデオ・セグメントの獲得の間、１人又は複数の人物の凝視方向に基づいて生成されること。

１人又は複数の人物は、参加者であり得る。

ビデオ会議は、三次元（３Ｄ）ビデオ会議であり得る。

方法２５００は、訓練することを含み得る。

図１８は更に、ビデオ会議における参加者の精神的状態を判定するための方法２６００の実例を例示する。

方法２６００は、ステップ２６１０及び２６２０を含み得る。

ステップ２６１０は、３Ｄビデオ会議の間に参加者外観パラメータを取得することを含み得る。そのようなパラメータの実例は、Ｆｌａｍｅモデル（ｈｔｔｐｓ：／／ｆｌａｍｅ．ｉｓ．ｔｕｅ．ｍｐｇ．ｄｅ／ｈｏｍｅ）において与えられる。

ステップ２６２０は、参加者の精神的状態を判定することを含み得、判定することは、機械学習工程によって、パラメータを分析することを含み得る。

機械学習工程は、シン・ニューラル・ネットワークによって実装され得る。

分析することは、３Ｄビデオ会議の間に繰り返して行われる。

分析することは、外観パラメータの値の１つ又は複数のパターンの後に追跡することを含み得る。

方法は、機械学習工程によって、１つ又は複数のパターンに基づいて、参加者の精神的状態を判定することを含み得る。

方法は、少なくとも予め定められた期間の間、１つ又は複数の外観パラメータが実質的に変化し得ない、記銘力の不足を判定することを含み得る。

精神的状態は、参加者のムードであり得る。

精神的状態は、参加者の記銘力であり得る。

判定することは、ディスプレイ以外のデバイス内での参加者の対話に関する１つ又は複数の対話パラメータに更に応答し得る。

参加者外観パラメータは、参加者の凝視方向を含み得る。

図１９は、ビデオ会議における参加者の精神的パラメータを判定するための方法２７００の実例を例示する。

方法２７００は、ステップ２７１０及び２７２０を含み得る。

ステップ２７１０は、３Ｄビデオ会議の間の参加者対話パラメータを取得することを含み得る。

ステップ２７２０は、機械学習工程によって、参加者の精神的パラメータを判定するように、参加者対話パラメータを分析することを含み得る。

図１９はまた、ビデオ会議における参加者の精神的状態を判定するための方法２８００の実例を例示する。

方法２８００は、ステップ２８１０、２８２０、及び２８３０を含み得る。

ステップ２８１０は、３Ｄビデオ会議の間に参加者外観パラメータを取得することを含み得る。

ステップ２８２０は、参加者のコンピュータと交換されるコンピュータ・トラフィックを示す参加者コンピュータ・トラフィック・パラメータを取得することを含み得、参加者のコンピュータは、３Ｄビデオ会議に参加するために利用される。

ステップ２８３０は、参加者の精神的状態を判定することを含み得、判定することは、機械学習工程によって、参加者外観パラメータ、及び参加者コンピュータ・トラフィック・パラメータを分析することを含み得る。

図１９はまた、ビデオ会議における参加者の精神的状態を判定するための方法２９００の実例を例示する。

方法２９００は、ステップ２９１０、２９２０、及び２９３０を含み得る。

ステップ２９１０は、３Ｄビデオ会議の間に参加者外観パラメータを取得することを含み得る。

ステップ２９２０は、参加者のコンピュータと交換されるコンピュータ・トラフィックを示す参加者コンピュータ・トラフィック・パラメータを取得することを含み得、参加者のコンピュータは、３Ｄビデオ会議に参加するために利用される。

ステップ２９１０及び２９２０の後に、参加者の精神的状態を判定するステップ２９３０が続き得、判定することは、機械学習工程によって、参加者外観パラメータ、及び参加者コンピュータ・トラフィック・パラメータを分析することを含み得る。

実行される必要があり得る計算の総回数は、視野（ＦＯＶ：ＦｉｅｌｄＯｆＶｉｅｗ）内に現れる人物の数によっては縛られ得ないが、むしろ、ビューの解像度によって縛られ得ないことに留意されるべきである。スクリーン解像度が一定のままである場合、例えば、ＦＯＶを広げることは、捕捉及びレンダリングされる必要があるより小さいサイズを有するが、より多くの参加者が示されることを結果としてもたらし得る。

１つの視覚的検知ユニットにおける複数の参加者
既存の電話会議システムは、カメラごとに１人の参加者を想定する。したがって、１人よりも多い人物がそれを使用する場合でさえ、１つのタグ付けられた名前がカメラごとに現れる。これは、殊に、他の参加者がそれらを認識することができない場合、参加者が誰であるかについての理解不足につながる場合がある。

複数の参加者が単一のカメラによって、又は単一のカメラよりも多くを含み得る視覚的検知ユニットによって捕捉されるときでさえ、カメラによって捕捉される各々の参加者の正確な表現を提供することが有益であり得る。

参加者は、仮想３Ｄビデオ会議環境の１つ又は複数の表現内に現れ得、各々の参加者は、アバタによって提示され得る。

非参加者も、仮想３Ｄビデオ会議環境の１つ又は複数の表現に現れ得ることに留意されるべきである。したがって、仮想３Ｄビデオ会議環境の少なくとも１つの表現に現れるはずである人物は、関連する人物として見なされ得る。関連する人物は、参加者又は非参加者であり得る。

方法は、視覚的検知ユニットによって捕捉される人物の数を検出することと、人物を識別することを試みることとなど、視覚的情報分析によって開始し得る。いずれかの識別工程が使用され得る。例えば、顔検出及び認識である。

人物が検出されると、方法は、人物が関連するか又は関連しないかどうか、及び無視され得るかどうかを判定し得る。

人物が関連すると想定して、人物の画像（視覚的検知ユニットによって獲得される画像の部分）は、セグメント化され得る。セグメント化は、異なるセグメントを各々の参加者の衣服又は他の可能なアクセサリ（時計、メガネ、ジュエリなど）と関連付けることを含み得る。任意選択で、関連する人物は、異なるセグメントを識別することが可能にされ得る（ユーザから入力を受信することによって）。

各々の参加者がアバタによって表わされる仮想３Ｄビデオ会議環境では、視覚的検知ユニットによって捕捉される関連する人物の各々の１人は、異なるアバタによって表わされ得る。複数の関連する人物が存在することを識別することなく、そのようなシステムは機能しない。

このフレームワーク内で、関連する人物の１人がジェスチャをとり、又は場合によっては、同一のカメラの関連する人物の別を見る、ということが生じ得る。これは次いで、アバタの振る舞いによって反映される。実例として、関連する人物の１人が別の関連する人物にオブジェクトを手渡す場合、このアクションは、仮想３Ｄビデオ会議環境内で反映されることができ、第２の関連する人物に対応するアバタに同様のオブジェクトを手渡す、第１の関連する人物と対応するアバタが示される。

任意選択で、システムも、一部の一時的メモリを有する一時的追跡機構を有する。これは、参加者が、カメラのビューに及びビューから動くことを可能にすると共に、別々に識別されることを可能にする。この追跡は、顔認識、衣服の色の追跡、又は同様の方法に基づき得る。

別のオプションは、１人よりも多い人物がカメラ・ビュー内に現れるとき、システムは、ビデオ会議内のそれらの人物のサブセットのみを示すように指示され得る。例えば、ビデオ会議が家から行われる場合、他の家庭の人物及び動物－子供、ペット、配偶者（関連しないと見なされる）は、カメラのビュー内で時折現れることが非常に習慣的である。このケースでは、システムは、ビデオ会議内の関連しない人物又は動物を示さないように構成される。

図２１は、複数の方法、方法３０００、方法３００１、方法３００３、及び方法３２００の実例を例示する。

方法３０００は、複数の参加者の間の仮想３Ｄビデオ会議を行うためのものである。

仮想３Ｄビデオ会議の実行は、複数の参加者デバイスに仮想３Ｄビデオ会議環境の複数の表現を表示することを含み得る。仮想３Ｄビデオ会議のプロビジョンのために必要とされる計算は、複数の参加者デバイスのいずれか以外の１つ又は複数の計算システムによって実行され得、複数の参加者デバイスによって単独で（又は、ほぼ単独で）実行され得、１人又は複数の参加者デバイス及び１つ又は複数の他のシステムの組み合わせによって実行され得る。

参加者のいずれに関連する視覚的検知ユニットの視野内の関連する人物の存在に関連する情報は、１つ又は複数の他の参加者デバイスに送信され得、１つ又は複数の他のシステムに送信され得、フィルタリング・ルール、伝送遮断ルール、又は複数の人物に関連するいずれかのインジケーションの処理、及び／若しくは伝送、及び／若しくは表示に関連するいずれかの他のルールの対象になり得る。

参加者デバイスは、仮想３Ｄビデオ会議環境の複数の表現を表示し得、通常は、仮想３Ｄビデオ会議環境の表現は、１人の参加者デバイスから別の参加者デバイスへと異なる。関連する１人又は複数の人物の存在は、仮想３Ｄビデオ会議環境の複数の表現の少なくとも一部に反映され得る。

方法３０００は、或る参加者に関連する視覚的検知ユニットによって、視覚的情報を獲得するステップ３０１０によって開始され得る。

ステップ３０１０の後、視覚的情報に現れる１人又は複数の人物を識別するステップ３０２０が続き得る。いくつかのケースでは、複数の人物は、視覚的情報に現れ得る。一部の他のケースでは、１人の人物のみが視覚的情報に現れる。一部の更なるケースでは、人物が視覚的情報に現れない。

単一の人物が視覚的情報に現れ、又は人物が視覚的情報に現れない場合、ステップ３０２０の後、検出に応答し、又は１人の人物に応答し、又は人物がいないことに応答するステップ３０２９が続き得る。

複数の人物が視覚的情報に現れる場合、ステップ３０２０の後、複数の人物から、少なくとも１人の関連する人物を発見するステップ３０３０が続き得る。

関連する人物は、その存在が仮想３Ｄビデオ会議の少なくとも１人の参加者（又は、参加者デバイス）に示され得る人物である。少なくとも、関連する人物の存在に関するインジケーションは、或る参加者の参加者デバイスの外に送信され得る。

関連する人物の存在は、仮想３Ｄビデオ会議の１人又は複数の参加者に表示される仮想３Ｄビデオ会議環境内で表わされ得る（又は、少なくとも表わされるための候補である）。参加者は、その人物のインジケーションを受信しないと判定し得、並びに／又は先述の存在の表示は、フィルタリング及び／若しくは表示ルールの対象になり得る。関連する人物は、参加者であり得、又は参加者であり得ない。

ステップ３０３０は、以下のうちの少なくとも１つを含み得る：
ａ．複数の人物のどの人物が仮想３Ｄビデオ会議の参加者であるかを判定すること。
ｂ．参加者が関連する人物であるかどうかを判定すること。
ｃ．３Ｄビデオ会議の非参加者が関連する人物であるかどうかを判定すること。
ｄ．顔認識工程を適用すること。
ｅ．いずれかの生体識別工程、更には顔認識工程を適用すること。
ｆ．或る参加者及び人物の外観に続く少なくとも或る期間の間に少なくとも１人の関連する人物に関する識別情報を記憶すること。これは、別の関連性判定工程を開始する必要がないので、計算リソースの使用率を低減し得る。
ｇ．少なくとも１人の関連する人物が視覚的検知ユニットの視野をから出て、次いで、視覚的検知ユニットの視野に再度入った後、少なくとも１人の関連する人物のいずれかを識別すること、識別することは、識別情報に基づいている。これは、関連するとして識別される人物が、最大で予め定義された時間の間に視野を離れ得、なおも関連するとして見なされるので、或る「メモリ」を提供し得る。
ｈ．関連する人物が、計算リソースを低減させるために関連する人物が視野を出る予め定義された期間の間でさえ、視覚的検知ユニットの視野内にあり、仮想３Ｄビデオ会議環境を再生成及び／又は更新することが必要とされ、また、通信リソースの使用率を低減させ得る（仮想３Ｄビデオ会議環境の更新に関する情報を送信する必要がない）ことを示し続けること。これは、仮想３Ｄビデオ会議環境をより円滑にし得る。方法は、仮想３Ｄビデオ会議環境内の関連する人物の存在又は不存在に関連する情報を更新するかどうかを決定するときにヒステリシス機構又はいずれかの他の円滑化機構を使用し得る。

ステップ３０３０の後、複数の人物から、少なくとも１人の関連する人物を発見することに応答するステップ３０４０が続き得る。

ステップ３０４０は、少なくとも１人の関連する人物の各々に対し、３Ｄエンティティ表現情報を判定するステップ４０４１と、少なくとも１人の参加者に対し、少なくとも１人の関連する人物の各々についての３Ｄエンティティ表現情報に基づいて、仮想３Ｄビデオ会議環境の表現を生成するステップ３０４２とを含み得る。

ステップ３０１０、３０２０、３０３０、及び３０４０は、視覚的検知ユニット又は参加者のいずれかに関連して実行されることができる。

方法３００１は、複数の参加者の間で仮想３Ｄビデオ会議を行うためのものである。

方法３００１は、或る参加者に関連する視覚的検知ユニットによって、視覚的情報を獲得するステップ３０１０によって開始し得る。

ステップ３０１０の後、視覚的情報に現れる１人又は複数の人物を識別するステップ３０２０が続き得る。いくつかのケースでは、複数の人物は、視覚的情報に現れ得る。一部の他のケースでは、１人の人物のみが、視覚的情報に現れる。一部の更なるケースでは、人物は、視覚的情報に現れない。

単一の人物が視覚的情報に現れ、又は人物が視覚的情報に現れない場合。ステップ３０２０の後、検出に応答し、又は１人の人物に応答し、又は人物がいないことに応答するステップ３０２９が続き得る。

ステップ３０４０は、関連する人物の間の物理的対話を検索するステップ３０４３を含み得る。物理的対話を発見するとき、ステップ３０４０は、仮想３Ｄビデオ会議環境の表現（少なくとも１人の参加者についての）を生成するステップをも含み得、物理的対話に応答し得る。

方法３００２は、複数の参加者の間で仮想３Ｄビデオ会議を行うためのものである。

方法３００２は、或る参加者に関連する視覚的検知ユニットによって、視覚的情報を獲得するステップ３０１０によって開始し得る。

ステップ３０１０の後、視覚的情報に現れる１人又は複数の人物を識別するステップ３０２０が続き得る。いくつかのケースでは、複数の人物は、視覚的情報に現れ得る。一部の他のケースでは、１人の人物のみ、視覚的情報に現れる。一部の更なるケースでは、人物は、視覚的情報に現れない。

ステップ３０４０は、少なくとも１人の関連する人物の各々に対し、３Ｄエンティティ表現情報を判定するステップ３０４１と、少なくとも１人の参加者に対し、少なくとも１人の関連する人物の各々についての３Ｄエンティティ表現情報に基づいて、仮想３Ｄビデオ会議環境の表現を生成するステップ３０４２とを含み得る。

ステップ３０４０は、関連する人物が単一の視覚的検知ユニットによって捕捉されることを示す同一の視覚的検知ユニットのインジケーションを生成するステップ３０４５を含み得る。例えば、図２３の同一の視覚的検知ユニットのインジケーション３０９９を参照されたい。

同一の視覚的検知ユニット・インジケーション仮想３Ｄビデオ会議環境の表現に含まれ得る（少なくとも１人の参加者に対し）。視覚的検知ユニットは、第１のカメラ及び第２のカメラを含み得る。関連する人物の１人が第１のカメラ視野内にあり、関連する人物のもう一方が第２のカメラの視野内にある、同一の視覚的検知ユニット・インジケーションが生成され得、又は生成され得ない。

方法３００３は、複数の参加者の間で仮想３Ｄビデオ会議を行うためのものである。

方法３００３は、或る参加者に関連する視覚的検知ユニットによって、視覚的情報を獲得するステップ３０１０によって開始し得る。

ステップ３０１０の後、視覚的情報に現れる１人又は複数の人物を識別するステップ３０２０が続き得る。いくつかのケースでは、複数の人物は、視覚的情報に現れ得る。一部の他のケースでは、１人の人物は、視覚的情報に現れる。一部の更なるケースでは、人物は、視覚的情報に現れない。

ステップ３０４０は、同一の視覚的検知ユニットによって捕捉される関連する人物の各々の関連する人物に対して、関連する人物が発話しているか否かを判定するステップ３０４７を含み得る。

ステップ４０４７の後、関連する人物が、１人又は複数の参加者に表示される仮想３Ｄビデオ会議環境の表現内で話しているか否かの判定に応答することが続き得る。

応答することは、単一の発話している人物が、仮想３Ｄ環境内で表示されることを可能にすることを含み得る。

方法３２００は、複数の参加者の間で仮想３Ｄビデオ会議を行うためのものである。

方法３２００は、初期化ステップ３２０２を含み得る。初期化ステップ３２０２は、異なる状況下で参加者の３Ｄ表現を生成するための初期の３Ｄ参加者表現情報を受信することを含み得る。３Ｄ参加者表現情報は、３Ｄモデル及び１つ又は複数のテキスチャ・マップを含み得る。

方法３２００は、参加者の凝視方向に関する凝視方向情報を受信するステップ３２１０を含み得る。凝視方向情報は、参加者の検出された凝視方向又は推定された凝視方向を表し得る。

ステップ３２１０の後、（ａ）或る参加者の凝視が、参加者の少なくとも頭部をも捕捉する視覚的検知ユニットの視野内に位置する人物に向かって目指しているかどうか、又は（ｂ）人物の凝視が、仮想３Ｄビデオ会議環境内の人物の表現に向かって目指しているかどうかを推定するステップ３２２０が続き得る。

ステップ３２２０の後、（ｉ）人物の３Ｄ表現が仮想３Ｄビデオ会議環境内に現れるはずであるかどうか、及び／又は参加者が人物を見ていることを示すように、参加者の表現の凝視方向を更新するかどうかを判定するステップ３２３０が続き得る。

判定することは、異なるパラメータ、例えば、或る参加者の凝視が人物に向けられていたかどうか、人物の凝視が仮想３Ｄビデオ会議環境内の人物の表現に向けられているかどうか、人物が現在の仮想３Ｄ会議の参加者であるかどうか、参加者がいずれかの前の仮想３Ｄ会議に参加していたかどうか、などに応答し得る。

ステップ３２３０は、以下のうちの少なくとも１つを含み得る：
ａ．人物が参加者でないとき、人物の３Ｄ表現が仮想３Ｄビデオ会議環境内に現れるはずであると決定すること。
ｂ．非参加者が仮想３Ｄビデオ会議環境内に現れることを可能にすること。
ｃ．或る参加者によって提供されるルール又は定義に基づいて判定することを実行すること。それはまた、他の参加者によって提供されるルールに基づき得、ルールは、どの人物が仮想３Ｄビデオ会議環境のそれらの表現内に現れるはずであるかを定義し得る。
ｄ．（ａ）人物のサイズ及び（ｂ）人物の推定された年齢のうちの少なくとも１つに基づいて判定することを実行すること。例えば、子供は、表わされることから除外され得る。
ｅ．通信の帯域幅及び／又は計算リソース状態に基づいて判定することを実行すること。例えば、或る参加者デバイスから別のデバイス又はシステムへの通信リンク又はチャネルの利用可能な帯域幅が或る閾値を下回るとき、例えば、殊に、人物が参加者でない場合、別の実例では更に、人物が既存のアバタと関連付けられないとき、決定は、人物を無視する傾向があり得る。
ｆ．顔認識を使用して人物を識別すること。
ｇ．識別工程を使用して、或る参加者及び人物を識別すること。
ｈ．或る参加者及び人物の外観に続く少なくとも或る期間の間に記憶される、人物及び或る参加者に関する記憶された識別情報に基づいて判定することを実行すること。
ｉ．人物が視覚的検知ユニットの視野を出て、次いで、視覚的検知ユニットの視野に再度入った後に人物を識別すること。識別することは、識別情報に基づいている。

ステップ３２３０の後、ステップ３２３０の判定に応答するステップ３２４０が続き得る。

ステップ３２４０は、ステップ３２４０（ａ）～３２４０（ｎ）からの少なくとも１つを含み得る：
ａ．人物の３Ｄ表現が仮想３Ｄビデオ会議環境内に現れるはずであると判定されるとき、人物の外観に関する人物情報を生成すること。人物情報は、人物、の３Ｄ表現、又は仮想３Ｄビデオ会議環境の１つ又は複数の表現内の人物のアバタ又は他の３Ｄ表現を提供するように、レンダリング・エンジン又は他の画像プロセッサによって処理され得る情報を含み得る。人物は、アバタと関連付けられ得、又は関連付けられ得ない。既存のアバタと関連付けられるとき、人物情報は、アバタをどのように更新するか（例えば、状況情報を提供する）の命令であり得る。既存のアバタと関連付けられないとき、人物と最初に関連付けられない場合でさえ、新たなアバタを生成し、又は既存のアバタを使用する必要があり得る。
ｂ．凝視方向を更新すると判定するとき、参加者が人物を見ていることを示すように、参加者の表現の凝視方向を更新すること。これは、参加者及び同様のものに関する状況を更新することを含み得る。
ｃ．人物及び或る参加者が同一の視覚的検知ユニットによって捕捉されることを示す同一の視覚的検知ユニット・インジケーションを生成すること。視覚的検知ユニットは、第１のカメラ及び第２のカメラを含み得、或る参加者は、第１のカメラの視野内にあり、人物は、第２のカメラの視野内にある。
ｄ．人物と或る参加者との間の物理的対話を検索すること（人物が現れるはずであると判定するとき）。
ｅ．物理的対話が発見されるとき、それが仮想３Ｄビデオ会議環境の１つ又は複数の表現内に現れるはずであるかどうかを判定し、そうである場合、それがどのように現れるはずであるかを判定し、物理的対話が１つ又は複数の表現内に表わされる情報を生成すること。
ｆ．人物が参加者でないことを示す３Ｄ人物表現情報を生成すること。
ｇ．仮想３Ｄビデオ会議環境内で人物から人物の視覚的表現への或る参加者の凝視方向における変化の間に仮想３Ｄビデオ会議環境内の或る参加者の凝視方向を変化しないで維持すること。
ｈ．複数の参加者の少なくとも一部の参加者ごとのアバタを含む仮想３Ｄビデオ会議環境の更新された表現を生成すること。
ｉ．更新された３Ｄ参加者表現情報のセグメントの関連性を判定し、関連性及び利用可能なリソースに基づいて、どのセグメントを伝送するかを選択すること。
ｊ．仮想３Ｄビデオ会議環境情報の更新された表現のセグメントの関連性を判定し、関連性及び利用可能なリソースに基づいて、どのセグメントを伝送するかを選択すること。
ｋ．参加者の３Ｄ参加者表現情報の３Ｄモデル及び１つ又は複数のテキスチャ・マップを生成すること。
ｌ．参加者の顔の少なくとも１つの視覚的エリアを捕捉するカメラの視野外に位置する参加者の顔の１つ又は複数の隠蔽エリアの３Ｄ参加者表現情報を推定すること。
ｍ．参加者ごとに、照射条件を変更することによって、更新された３Ｄ参加者表現情報を判定すること。
ｎ．参加者ごとに、ウェアラブル・アイテム情報を追加又は変更することによって、更新された３Ｄ参加者表現情報を判定すること。

全てのステップ３２４０（ａ）～３２４０（ｎ）は、同一のデバイス又はシステムによって実行され得るが、ステップ３２４０（ａ）～３２４０（ｎ）の１つ又は複数のステップは、異なるデバイス及び／又はシステムによって実行され得る。例えば、ステップ（ｈ）は、コンピュータ化システムに位置するレンダリング・エンジン又はステップ３２４０（ａ）を実行する参加者デバイスとは異なる参加者デバイスによって生成され得る。

仮想３Ｄビデオ会議環境の複数の表現が存在し（例えば、参加者ごとに１つ）、ステップ３２３０及び／又は３２４０は、表現の各々の１つごとに行われ得る。更新自体（視覚的情報、例えば、人物の外観を含めること）は、１つの表現から他の表現へと異なり得る。

仮想３Ｄ会議の複数の参加者は、複数の参加者デバイスと関連付けられる。複数の参加者デバイスのいずれかとは異なるコンピュータ化システムも存在し得る。

方法３２００の様々なステップは、コンピュータ化システムのうちの少なくとも１つ、及び複数の参加者デバイスの１つ又は複数によって実行され得る。

図２２は、視覚的検知ユニットによって獲得されるビデオの一部である画像３００９を例示する。画像３００９は、第１の人物３００４及び第２の人物３００５を捕捉する。それらが相互に抱擁するように、人物の間の物理的対話が存在する。物理的対話は、仮想３Ｄビデオ会議環境内で表わされ得る。

１つの実例では、両方の人物は、関連する人物として見なされ、それらのアバタ３００４’及び３００５’は、仮想３Ｄビデオ会議環境の表現３００９’内に現れる（環境の一部のみが示される）。

別の実例では、第１の人物のみが関連する人物として見なされ、そのアバタ３００４’（及び、第２の人物のアバタではない）は、仮想３Ｄビデオ会議環境の表現３００９”内に現れる（環境の一部のみが示される）。

図２２はまた、視覚的検知ユニットによって獲得されるビデオの一部である画像３００８を例示する。画像３００８は、第４の人物３００８を見ている第３の人物３００７を捕捉する。

１つの実例では、両方の人物は、関連する人物として見なされ、それらのアバタ３００６’及び３００７’は、３Ｄビデオ会議環境の表現３００８”に現れる（環境の一部のみが示される）。他の関連する人物５１～５３の追加のアバタも示される。

図２３は、参加者の凝視方向の実例を例示する。図の上部は、仮想３Ｄビデオ会議環境内で（パノラミック・ビュー４１内で）第１の参加者８１の３Ｄ視覚的表現（５１）を見ているように第５の参加者８５を例示する。

第２の実例は、第１の参加者８１を見ているように、この実例では、両方の参加者が同一のデバイスを使用し得、同一の視覚的捕捉ユニットによって捕捉されるように、第５の参加者８５を例示する。

両方のケースでは、仮想３Ｄビデオ会議環境は、第５の参加者が第１の参加者（実際の参加者又は３Ｄ参加者表現）を見ていることを示すように更新され得る。第５の参加者が実際の第１の参加者又は参加者の表現を見ているかどうかに関するインジケーションが提供され得る。

コンテンツの共有
それらが通信の問題の影響を受けやすく、フェイスツーフェイス・ミーティングの利点を欠いているので、ビデオ会議ができるだけ効率的であることが重要である。ビデオ会議の効率性を制限し得る１つの問題は、ファイル及びスクリーンを共有することによって通常は達成される情報を共有することにより行われる必要がある。

Ｚｏｏｍ、Ｗｅｂｅｘ、及びＭｉｃｒｏｓｏｆｔＴｅａｍｓなどの既存のソリューションは、会議の間にアプリケーション又はそれらのスクリーン全体を共有することを可能にする。それらのアプリケーションの一部は、複数のユーザが同時にコンテンツを共有することさえも可能にする。他の参加者が会議の準備をし、会議への通知がされるためにミーティングの前にコンテンツを共有することを望む場合、それらは、一部の追加のアプリケーションを通じて行う必要がある。例えば、それらは、他の参加者へのメールを通じてマテリアルを送出する。他の参加者にミーティングの後にマテリアルに関心がある場合、それは、それらに送出する必要がある。

提案される方法はまた、３Ｄビデオ会議に向けられると共に、他のシステムに対して、特に、２Ｄビデオ会議環境に対しても有益であることができる。

提案される方法によれば、各々の参加者が電話会議の間にデータ１つよりも多い部分を共有することが可能である。その上、情報は、それらのミーティングの前に他の参加者と容易に共有されることができ、その終わりに続いて視認されることができる。

提案される方法によれば、ミーティングが計画され、招待が送出されるとき、ＧｏｏｇｌｅＤｒｉｖｅ又はＭｉｃｒｏｓｏｆｔＴｅａｍｓ内のフォルダのように、共有フォルダが作成される。ドライブへのリンクは、後の参加者に送信され、ミーティング自体のために後に使用される同一のリンクであることができる。

ミーティングのホストは、共有フォルダへのアクセスのためにパーミッション（アクセス制御ルール）を設定することが許可される。それらのパーミッションは、ドキュメントをアップロードすること、それらを編集すること、及びサブフォルダを作成することなどを可能にすることを含み得る。以下の段落は、それらが参加者に対して可能にされることを想定して、取り得るオプションを詳述する。

参加者は、ワード処理されたドキュメント、プレゼンテーション、及びスプレッドシートなど（総合的に「ドキュメント」と呼ばれる）をフォルダにアップロードすることができる。それらはまた、異なる基準に基づいて、フォルダ内でサブフォルダを作成することができる。参加者は、それらが同一のフォルダにアップロードしたドキュメントへの特定の設定を設定することが可能であり得る。

１つの取り得るオプションは、ドキュメントがアップロードされるとき、又はそれらが修正されるときに、参加者に通知を送信することである。

参加者は、ミーティング自体の間に、共有フォルダにドキュメントをアップロードし得る。

追加のオプションは、ミーティングの間に参加者の１人又は複数によって協調して１つ又は複数のドキュメントを作成することである（例えば、ＧｏｏｇｌｅＤｒｉｖｅが許可するように）。

ミーティングの間、参加者は、特定の時間に、それらがミーティングの間に共有フォルダ内でドキュメントの１つ又は複数を共有すると決定し得る。

共有フォルダを有することは、以下の新規の利点を可能にする：参加者がミーティングに参加することができず、又は通信問題を有する場合、それらのドキュメントが他の参加者によってなおも視認され得る。それは、単一の参加者がマテリアルの１つよりも多い部分を一度に共有することが単純である。上述したように、既存のソリューションは、１つのアプリケーション、１つのウインドウ、又は１つのスクリーンを一度に共有することを可能にするにすぎない。ミーティングの前に情報を共有することは、ドキュメントが利用可能であるときに参加者を更新するように注意するので、複数のアプリケーションを必要としない。

ミーティングの終了に続いて、いずれかの定義された期間の間に共有フォルダを除去又は削除することが可能である。１つの追加の可能性は、同一の共有フォルダにミーティングの記録を追加することである。これは次いで、ミーティングの全ての又は一部を逃し得た参加者が、１つの場所内で全ての関連する情報を発見することを可能にする。それはまた、ミーティングに参加する参加者が、ミーティングが終わった後に、それら自身のペースで情報を検討することを可能にする。

提案される方法はまた、ミーティングの後にマテリアルを送出する必要なしに、他の参加者とのマテリアルの即時的な共有を有効にする。要約及び／又はアクション項目がミーティングのために捕捉される場合、それらも共有フォルダに配置されることができる。

図２４は、仮想３Ｄビデオ会議の間にコンテンツを共有するための方法３４００を例示する。

方法３４００は、ステップ３４１０、３４２０、及び３４３０によって開始し得る。

ステップ３４１０は、仮想３Ｄビデオ会議に参加する複数の参加者を招待することを含み得る。

ステップ３４２０は、共有されるコンテンツ項目を記憶するために専用の共有フォルダを作成することを含み得、共有されるコンテンツは、少なくとも仮想３Ｄビデオ会議の間にアクセス可能である。共有されるコンテンツは、テキスト、ドキュメント、ビデオ・ユニット、及びオーディオ・ユニットのうちの少なくとも１つを含む。

ステップ３４３０は、複数の参加者に対して、共有フォルダへのアクセスを有効にすることを含み得、アクセスは、１つ又は複数のアクセス制御ルールによって統治される。これは、ステップ３４１０の招待へのリンクを追加すること、又は以下のステップ３４１０と共に、ステップ４３１０に続いて、若しくはステップ３４１０に関わらず、いずれかの有効にするステップを実行することを含み得る。

アクセス制御ルールは、共有されるコンテンツの取り出し及び共有フォルダへのコンテンツのアップロードなどを判定し得る。

１つ又は複数のアクセス制御ルールは、共有フォルダ内の記憶リソースの可用性に応答し得、例えば、アップロードされることになるコンテンツのサイズが第１のサイズ閾値（閾値は、参加者ごと、参加者のタイプごと、オーガナイザごと、及び参加者ごとなどで判定され得る）を超えるとき、参加者が参加者からのアップロードされるコンテンツの第２の集約サイズに到達するとき、アップロードを防止する。

１つ又は複数のアクセス制御ルールは、共有フォルダへの及び／又は共有フォルダからの通信リンクの帯域幅可用性に応答し得る。

アクセスは、電話会議の始まりの前に開始すること、及び電話会議時に開始することなどを有効され得る。

アクセスは、電話会議の終了時に、又は電話会議の終了の後に終結され得る。

ステップ３４１０、３４２０、及び３４３０の後、仮想３Ｄビデオ会議を行うステップ３４４０が続き得、行うことは、コンテンツ項目のうちの少なくとも１つを共有することを含む。

ステップ３４４０は、仮想３Ｄビデオ参照を記録することを含み得る。

共有することは、１つ又は複数の共有ルールに少なくとも部分的に基づいて実行され得る。例えば、全ての参加者は、共有フォルダ内のいずれかのコンテンツを共有し得る。更に別の実例について、共有ルールは、１人又は複数の参加者によって共有する方式に対して制限を課し得る。

１つ又は複数の共有ルールは、１つ又は複数のアクセス制御ルールに含まれ得る。

１つ又は複数の共有ルールは、１つ又は複数のアクセス制御ルールに含まれ得ない。

ステップ３４４０の後、仮想３Ｄ会議の終了時、又は仮想３Ｄ会議の終了に続いて実行される追加のステップ３４５０が続き得る。

ステップ３４５０は、以下のうちの少なくとも１つを含み得る：
ａ．仮想３Ｄビデオ会議の完了の後に専用とされる共有フォルダを削除すること。
ｂ．仮想３Ｄビデオ会議の完了の後に専用とされる共有フォルダを維持し、仮想３Ｄビデオ会議の完了の後に共有フォルダへのアクセスを有効にすること。
ｃ．仮想３Ｄビデオ会議の完了の後の予め定義された期間まで専用とされる共有フォルダを維持し、仮想３Ｄビデオ会議の完了の後の予め定義された期間まで共有フォルダへのアクセスを有効にすること。
ｄ．仮想３Ｄビデオ会議の完了の後に専用とされる共有フォルダを維持し、共有フォルダにアクセスするための完了アクセス制御ルールの後に適用する。
ｅ．仮想３Ｄビデオ会議の完了の後に専用とされる共有フォルダを維持し、共有フォルダへの仮想３Ｄビデオ会議の記録を追加すること。

ステップ３４１０、３４２０、３４３０、３４３０、及び３４５０の１つ、一部、又は全ては、仮想３Ｄビデオ会議アプリケーションによって管理され得る。

図２５は、ユーザ・デバイス４０００（１）～４０００（Ｒ）（及び、４０００（ｒ）、ｒは、１～Ｒの範囲に及ぶ）、ネットワーク４０５０、リモート・コンピュータ化システム４１００（仮想３Ｄビデオ会議ルータ４１１１を含み得る）、並びに複数のＭ個の共有されるコンテンツ項目４１０５（１）～４１０５（Ｍ）（及び、４１０５（ｍ）、ｍは、１～Ｍの範囲に及ぶ）を含む共有フォルダ４１０５を例示する。図２５はまた、共有フォルダにアクセスし、仮想３Ｄビデオ会議に参加する他の参加者を招待するユーザ・デバイス４０００（ｒ）によって送信される招待４１０６（１）～４１０６（Ｒ）を例示する。仮想３Ｄビデオ会議の間、様々な信号（ＶＣ関連信号）４１０８は、ユーザ・デバイスと交換される。

共有フォルダは、例えば、リモート・コンピュータ化システム４１００又はシステムのいずれかの他のユニットによって、いずれかの方式において実装され得る。仮想３Ｄビデオ会議の記録４１０９は、仮想フォルダに記憶されるとして例示される。

図２５はまた、共有ルール、アクセス制御ルール、及び同様のものを含み得る様々なルール４１０４（１）～４１０４（Ｎ）（集合的に４１０４と表わされる）を例示する。

ルールは、全ての参加者に、参加者の一部に、又は１人の参加者のみに適用され得る。

図２６は、第１のタイミング図３４８０及び第２のタイミング図３４８０’の２つの実例を例示する。

第１のタイミング図３４８０は、以下のイベントのシーケンス：共有フォルダを開封すること、並びに／又は、共有フォルダ３４８２、共有フォルダ３４８３へのアクセスの開始、電話会議３４８５の開始、電話会議３４８６の終了、及び共有フォルダ３４８７の終結に関して参加者に通知すること、を例示する。

それらのイベントの間の複数の他のタイミング関係が存在し得る。

仮想３Ｄ会議は、電話会議３４８５の開始と電話会議３４８６の終了との間で行われる。

第１のタイミング図では、電話会議が記録され、例えば、共有フォルダ３４８７の終結まで参加者に利用可能であり得る。記録は、共有フォルダ内で利用可能であり得、又はいずれかの他の方式において提供され得る。

第２のタイミング図３４８０は、以下のイベントのシーケンス：（ａ）共有フォルダを開封すること、並びに／又は、共有フォルダ３４８３へのアクセスの開始と同時に生じる共有フォルダ３４８２、（ａ）電話会議３４８５の開始、及び（ｂ）共有フォルダ３４８７の終結と同時に生じる電話会議３４８６の終了に関して参加者に通知すること、を例示する。

フォアグラウンド及びバックグラウンド
フォアグラウンドとバックグラウンドとの間で区別することがＶＣシステムにおいて重要であることが多い。このコンテキストでは、バックグラウンドは、シーンの他の部分よりも重要性が低い、参加者のカメラによって捕捉されるシーンの部分である。行われる会議又はミーティングにおいてその外観が役割を有しないので、重要性が低い部分は、共に修正又は除去され得る。実際に、既存のソリューションは、バックグラウンドの修正を可能にすることが多い。

これは、参加者の明瞭なバックグラウンドを、より満足するバックグラウンドと置き換えるため、又は特定の雰囲気を生じさせるために若しくは他の理由のために、商業的な理由などの多角的な理由のために選ばれる１つと置き換えるため、に行われることが多い。

ビデオ会議システムの重要性の増加により、フォアグラウンドとバックグラウンドとの間の区別ができるだけ正確であることが重要である。このタスクは特に、参加者のアバタのみ、場合によっては、それらが使用していることがある一部のアクセサリが他の参加者に提示される今後の３ＤＶＣ環境内で重要である。

一部のソリューションは、フォアグラウンドとバックグラウンドとの間でフレームごとをベースに区別し得る。この方法は、「緑のスクリーン」として知られる方法が使用されるときに良好に作用する。方法を使用するとき、バックグラウンドは、既知の色（緑）を有し、それは、参加者の背後にスクリーンを配置することによって達成される。カメラによって捕捉される各々の画素が検査される。その色が既知のスクリーンの色と合致する場合、画素は、バックグラウンドの一部であると想定される。この方法は、いくつかの方法において増補され得る。それにも関わらず、参加者をホストするほとんどの環境は、そのようなスクリーンを扱いやすくせず、他の方法が使用される。

このための既存の方法は典型的には、皮膚の色を最初に探索する。次いで、それらが捕捉されるピクチャ内の人物を識別することとそれらが判定する前に、一部の合理的な囲み形状又は皮膚の色の周りの色を発見することをそれらは試みる。提示されるピクチャから無計画な方法で身体部分が現れ及び消えることにこれがつながることが多く、それは、身体部分は、時にはバックグラウンドの一部であると認知され、置き換えられ、またある時には、身体部分は、フォアグラウンドの一部であると考えられ、置き換えられないからである。

このシステムの別の欠点は、イーゼル又はホワイトボードなどの何らかのアクセサリを参加者が追加することを望む場合、それらがバックグラウンドの一部であるように現れ、それら置き換えられるときにそれらが示されないことである。

現在の方法は、３Ｄビデオ会議に向けられると共に、他のシステムにも有益であることができる。

現在の方法によれば、バックグラウンド及びフォアグラウンドは、時間的な追跡に基づいて区別され、フレームごとのベースには実行されない。

この方法によれば、捕捉されたピクチャは、いわゆるブロブを識別するように最初にセグメント化される。今日の方法にあるように、それらの静的な特性（色又は周りの色など）に基づいてブロブがフォアグラウンド又はバックグラウンドの一部であると識別することに加えて、ブロブはまた、それらの時間的な特性又は動的な特性に基づいて分類される。動き得、それらの外観、色、又は他の特性を変え得るブロブは、フォアグラウンドに属するとして分類され得、又はフォアグラウンドに属するとする高い確率を有するとして少なくとも分類され得る。いくつかのケースでは、時間的な動きを有するブロブ（ファン、紙のパラパラする部分など）は、バックグラウンドに属するとして、又はバックグラウンドに属する高い確率を有するとしてカテゴリ化されることができる。

オプションは、ユーザに、時に、好ましくはユーザが会議に参加するが、これが進行するように、ブロブがフォアグラウンド又はバックグラウンドに属するかどうかを選ぶことを決定させることである。代替は、フォアグラウンド及びバックグラウンドに属するブロブの時間的及び空間的振る舞いを学習するように、適切な場所に機械学習システムを有することである。このシステムは、ユーザ選択から、フォアグラウンド又はバックグラウンド内のブロブを含むかどうかを学習する。これを実装する１つの方法は、ニューラル・ネットワークを通ることである。

バックグラウンドが既知であると、参加者は、アクセサリを追加することができ、それらは、会議内で他のビューワに現れる。加えて、ホワイトボード又は類似のデバイスが使用される場合、それに書き込むこと及びボード自体は、バックグラウンドの一部として分類されず、したがって、システムは、他の参加者にそれを継続して示す。

図２７は、仮想三次元（３Ｄ）ビデオ会議に関連するフォアグラウンド及びバックグラウンド・セグメント化のための方法３５００を例示する。

方法３５００は、ビデオ・ストリームの複数の画像の各々の画像をセグメントにセグメント化するステップ３５１０によって開始し得る。各々のセグメントは、実質的に一定である１つ又は複数の特質を有し得る。

セグメント化することは、ブロブ分析を適用することを含み得、セグメントは、ブロブである。セグメント化することは、ブロブ分析とは異なるセグメント化方法を適用し得る。

ステップ３５１０に続き、セグメントの時間的な特質を判定するステップ３５２０が続き得る。

ステップ３５２０に続き、セグメントの時間的な特質に少なくとも部分的に基づいて、バックグラウンド・セグメント又はフォアグラウンド・セグメントとして各々のセグメントを分類するステップ３５３０が続き得る。

ステップ３５３０は、以下からの少なくとも１つを含み得る：
ａ．バックグラウンド・セグメントとして静的セグメントを分類すること。
ｂ．バックグラウンド・セグメントとして周期的変化を示すセグメントを分類すること。
ｃ．１つ又は複数の顔のセグメントを探索すること。
ｄ．フォアグラウンド・セグメントとして各々の顔のセグメントを分類すること。
ｅ．バックグラウンド・セグメントとして、顔のセグメントではなく、周期的変化を示すセグメントを分類すること。
ｆ．バックグラウンド・セグメント又はフォアグラウンド・セグメントとして各々のセグメントを分類するために、機械学習工程を使用すること、機械学習工程は、ユーザから受信される分類入力に基づいて分類を実行するように訓練されている。
ｇ．ユーザからのフィードバックに少なくとも部分的に基づいて分類すること。
ｈ．画像のうちの少なくとも１つのユーザ・セグメントを表示し、セグメントの少なくとも一部に関連する分類入力をユーザから受信すること、分類することは、分類入力にも基づいている。
ｉ．フォアグラウンド・セグメントとして、仮想３Ｄ会議の少なくとも１人の参加者に表示される仮想３Ｄビデオ会議環境に追加される１つ又は複数の項目を分類すること。

図２７はまた、仮想三次元（３Ｄ）ビデオ会議に関連するフォアグラウンド及びバックグラウンド・セグメント化のための方法３５０１を例示する。

方法３５０１は、ビデオ・ストリームの複数の画像の各々の画像をセグメントにセグメント化するステップ３５１０によって開始し得る。各々のセグメントは、実質的に一定である１つ又は複数の特質を有し得る。

方法３５２０に続き、ユーザ情報を提供し、ユーザからフィードバックを受信するステップ３５２５が続き得る。

ステップ３５２５は、以下からの少なくとも１つを含み得る：
ａ．セグメントの時間的な特質に関する時間的な情報をユーザに提供すること。
ｂ．セグメントの少なくとも一部に関連する分類入力などのフィードバックをユーザから受信すること。
ｃ．セグメントをユーザに表示し、セグメントの時間的な特質に関する時間的情報をユーザに提供すること。
ｄ．セグメントの少なくとも一部に関連する分類入力などのフィードバックをユーザから受信すること。

ステップ３５２５に続き、フィードバックに少なくとも部分的に基づいて、バックグラウンド・セグメント又はフォアグラウンド・セグメントとして、各々のセグメントを分類するステップ３５３５が続き得る。フィードバックは、例えば、分類入力を含み得る。

ステップ３５３５は、フィードバックに、及びセグメントの時間的な特質に応答し得る。ステップ３５３５は、ステップ３５３０のいずれかのサブステップを含み得、各々のサブステップは、フィードバックに基づいて修正され得、又はその出力及び考えられるユーザからのフィードバックを有し得る。

図３８は、フォアグラウンド及びバックグラウンドへの画像セグメントの実例を示す。

画像３４９０は、人物３４９３、人工呼吸器３４９４、及びグレーの壁を捕捉する。動作するとき、人工呼吸器は、周期的に変化する動きを実行し得、バックグラウンド３４９２に属すると見なされることができる。人物自体は、フォアグラウンド３４９１を形成する。

手直し－ノイズ除去メイクアップ
Ｚｏｏｍ及びＭｉｃｒｏｓｏｆｔＴｅａｍｓなどの既存のビデオ会議システムは、参加者が、それらの外観を改善し又はそうでなければ修正する「フィルタ」を追加することを可能にする。例えば、リップスティック又はブラッシュなどのメイクアップを追加することが可能である。また、メガネなどのガジェットを追加することが可能であり、口髭及び髭を追加し、髪の毛の色及びスタイルを修正するなどのように現れることが可能である。

そのようなフィルタは、メイクアップ又はガジェットを追加しないためにのみ使用されることができる。それらはまた、参加者の外観を手直しし（フォトショッピングとして知られるそのような機能）及びノイズ除去する（カメラ、照明条件によって追加されるノイズを低減させるために）ために利用されることができる。

仮想３Ｄ環境内の参加者の外観を判定する正確且つ効率的な（メモリ・リソース使用率及び／又は計算リソース使用率の観点で）を提供する必要性が存在する。

それらを強化するために顔の部分を識別するようにフレームごとをベースにセグメント化を実行することは、非常に非効率であり、画像に導入されるノイズからの影響を受ける。例えば、各々のフレーム内で、唇が識別され、次いで、リップスティックの関連する色が適用される。同様に、顎が検出され、場合によっては、顔及び口髭の傾きも正確な角度でその上部に置かれる。これは、コストがかかる動作である。特に、人物がリップスティック、ブラッシュ、メガネ、口髭を追加し、また、髪の毛の色を修正することを選ぶ場合、これは、全ての関連する顔の部分を検出することを毎秒１０回（典型的には毎秒３０回以上であるフレーム・レートに応じて）行う必要があることを必要とする。部分が検出されると、手直し及びメイクアップがフレームごとに追加される。

このコストがかかるアクションも、参加者の外観をノイズ除去する可能性を制限する。このように実行されることになるこのための主な理由は、システムが特定の参加者の顔のモデルを維持しないことである。

参加者がアバタを通じてミーティング環境に現れる方法が提供される。そのような表現を生成する上述した方法のいずれかが使用され得る。

参加者又は少なくとも参加者の頭部及び顔及び／若しくは胴体の３Ｄモデルが取得され得る。このモデル（及び、１つ又は複数のテキスチャ・マップ）は、参加者のアバタを作成するためを根拠として操作又は使用され得る。

参加者の異なる顔の部分は、３Ｄモデルの不可欠な部分である。

手直し及びメイクアップを追加するために、３Ｄモデルが一度更新され得る。例えば、選ばれた色がリップスティックにおいて唇に追加される。３Ｄモデルの他の部分と同様に、唇に対応するボクセルは次いで、それと関連付けられた反射率を有し、アバタがレンダリングされるにつれて、反射率は、唇の現実的な外観を可能にする。同様に、いずれかの選ばれた色は、ルージュとして現れるように頬に適用される。これがより現実的に現れるようにするために、選ばれた色は、線形に又は他の方法において、強度で又は空間的に元の皮膚の色と組み合わされることができ、その結果、それは、モデルが実際にその頬上でルージュを有するように現れる。次いで、モデルがアバタを作成するように操作されると、全ての追加が適切な場所で準備される。

その上、この方法は、容易なノイズ除去及び「フォトショッピング」を可能にする。モデルがカメラ、照明、又は他の源によって導入されるノイズの影響を受けにくいはずであるので、ノイズ除去が可能である。モデルの存在が進行中であるので、カメラによる単一の画像の捕捉の間に導入されるノイズについて、経時的にモデル内の各々のポイント反射率の値を平均化することによって、それは容易にくっきりとされることができる。

顔の部分をそのように修正する（鼻を修正し、頬骨を持ち上げ、「二重顎」を除去するなど）「フォトショッピング」は、それらのアクションをフレームごとに何回も何回も実行する代わりに、３Ｄモデルに対して実行される。３Ｄモデルが作成されると、全てのエフェクトがモデルに対して実行される。言い換えると、モデルの頬骨が持ち上げられ、その二重顎が除去される。それらの調節は次いで、注目され、新たな画像がカメラによって捕捉されるときはいつでも、新たなアバタを作成するために必要である全ては、人物の新たな場所、方位、及び凝視を理解することである。それらは次いで、調節された３Ｄモデルに適用される。

図２９は、方法３６００を例示する。

方法３６００は、第１の参加者及び第２の参加者を参照する。これは、説明の簡易化のためである。上述した第１の参加者及び第２の参加者は、参加者のいずれかのペアであり得る。方法３６００のいずれかのステップは、参加者のいずれかの組み合わせに対して適用され得る。

方法３６００は、初期化ステップ３６０２を含み得る。

初期化ステップ３６０２は、仮想３Ｄビデオ会議の第１の参加者のユーザ・デバイスによって、異なる制約の下で第２の参加者の３Ｄ表現を生成するための、参照の第２の参加者の３Ｄ表現情報を受信することを含み得、異なる制約は、（ａ）手直し制約、（ｂ）メイクアップ制約、及び（ｃ）１つ又は複数の状況制約からの少なくとも１つを含み得る。

実際の参加者がメイクアップ制約において規定されるメイクアップを実際に装着していないときでさえ、制約、例えば、メイクアップ及び／又は手直しが提供され得る。

少なくとも１つの他の制約は、他の手段、例えば、画像分析、及び同様のものによって判定され得る。

状況制約の実例は、方法３２００において例示される。

例えば、異なる制約は、第２の参加者の異なる凝視方向、第２の参加者の異なる表情、異なる照明条件、及びカメラの異なる視野などを含み得る。

初期の第２の参加者の３Ｄ表現情報は、第２の参加者の修正された表現を表し得る。修正された表現が第２の参加者の実際の外観とは異なるという意味で、それは「修正される」。修正された表現は、顔要素のサイズ、形状、及び位置からの少なくとも１つによって、第２の参加者の実際の外観とは異なる。

方法３６００は、第１の参加者のユーザ・デバイスによって、３Ｄビデオ電話会議の間、第２の参加者に関する１つ又は複数の現在の制約を示す第２の参加者の制約メタデータを受信するステップ３６１０を含み得る。

ステップ３６１０の後、第２の参加者の制約メタデータに基づいて、第１の参加者のユーザ・デバイスによって、仮想３Ｄビデオ会議環境の第１の表現内の第２の参加者の３Ｄ参加者表現を更新するステップ３６２０が続き得る。

ステップ３６２０の後、第２の参加者の３Ｄ参加者表現情報に基づいて、第２の参加者のアバタを生成するステップ３６３０が続き得る。

ステップ３６３０は、顔要素のメイクアップ・フリーの外観及び選択されたメイクアップに基づいて、顔要素のメイクアップ・バージョンを生成するステップ３６３２を含み得る。よって、選択されたメイクアップは、顔要素のメイクアップ・フリーの顔の外観にわたって仮想的に追加若しくは配置され得、又はそうでなければ、顔要素のメイクアップ・フリーの顔の外観と統合され得る。

ステップ３６３２は、顔要素のメイクアップ・フリーの外観及び選択されたメイクアップのボクセルに対して線形関数を適用することによって、顔要素のメイクアップ・バージョンを生成することを含み得る。

メイクアップ・フリーバージョンは、１つ又は複数のメイクアップ制約に従って修正されることができる、第２の参加者のいずれかの参照表現によって置き換えられ得る。

方法３６００は、異なる制約下で更新された第２の参加者の３Ｄ表現を生成するための更新された参照の第２の参加者の３Ｄ表現情報を取得するステップ３６７０を含み得る。更新された参照の第２の参加者の３Ｄ表現情報は、異なる制約下で初期の参照の第２の参加者の３Ｄ表現を置き換え得る。

更新された参照の第２の参加者の表現情報は、ノイズ除去を実行することによって生成され得る。

仮想３Ｄビデオ会議環境の複数の表現が存在し（参加者ごとに１つ）、ステップ３６３０及び／又は３６４０は、表現の１つごとに行われ得る。更新自体は（視覚的情報、例えば、人物の外観の包含）は、１つの表現から他の表現へと異なり得る。

仮想３Ｄ会議の複数の参加者は、複数の参加者デバイスと関連付けられる。また、複数の参加者デバイスのいずれかとは異なるコンピュータ化システムが存在し得る。

方法３６００の様々なステップは、コンピュータ化システムのうちの少なくとも１つ、及び複数の参加者デバイスの１つ又は複数によって実行され得る。

図３０は、リップスティックなしの参加者の実例を例示し、図３４は、リップスティックを有する参加者の実例を例示し、図３５は、リップスティックなしの参加者のアバタの実例を例示し、図３６は、参加者の唇のリップスティックのない表現の実例を例示し、図３７は、リップスティックを有する参加者のアバタの実例を例示する。

リップスティックの不存在、又はリップスティックの必要とされる追加は、参加者の画像から学習され得、他の参加者のデバイスに制約として送信され得る。加えて又は代わりに、参加者は、その唇の実際の状態に関わらず、リップスティックを追加及び／又は除去することによって、参加者の３Ｄ表現を更新することを要求し得る。

参加者は、例えば、参加者が実際に装着していないいずれかのウェアラブル・アイテムをアバタに追加し、参加者が実際に装着しているウェアラブル・アイテムをアバタから除去し、及び／又は参加者及びその周囲（ウェアラブル・アイテム、ジュエリ、アクセサリの実際の外観並びに参加者のアバタにおけるいずれかの要求される変化を導入することを要求し得る（参加者のデバイスから、又はいずれかの他のデバイス若しくはシステムから、いずれかの方式において）。

ビデオ会議内でのオーディオ品質改善
それらの設定が自然ではなく、典型的には、フェイスツーフェイス・ミーティングよりも参加者の部分に対してより集中した注意を必要とするので、参加者が、ビデオ会議内で良好且つ明瞭に相互に聞くことが重要である。それにも関わらず、オンラインミーティングの間にバックグラウンド・ノイズが聞こえることが多い。他のケースでは、マイクロフォン又は他のシステム構成要素による問題は、何が発話されているかの品質及び明瞭さを低減させ、そのようなミーティングの効果を低減させる。

ノイズ・クリーニングの方法が今日では存在する。Ｋｒｉｓｐなどの一部のソリューションは、人間ではない声をくっきりとする。この特定のアプリケーションは、ビデオ会議のクライアント側にインストールされる。言い換えると、それをインストールしていない参加者は、その利点を得ない。一方、ノイズが多く又は不明瞭なサウンドトラックは、全ての参加者に伝送される。

提案される方法は、ビデオ会議内のオーディオを強化するために、画像及びビデオ処理を利用する。ビデオ会議環境内で、参加者は典型的には、それらを視認及び捕捉するカメラを有することを理由に、これが全体的に可能である。

一言で言えば、強化は、参加者の口、唇、及び舌の動き、又はスピーカを視認するカメラに現れ得るそれらのサブセットを視覚的に分析することによって実行される。

機械学習技術を使用して、システムは、それらの動きが異なる音にどのように対応するかを学習するように訓練される。この訓練は、ニューラル・ネットワーク又は他の方法により実行されることができる。

訓練は、単語全体及びセンテンス全体に対して実行されることができる。加えて、又は代わりに、それは、「音」のサブセットに対してのみ実行されることができる。例えば、英語の言語では、アクセント及びアーティキュレーションに基づいて、何らかの変形と共に、４４個の音素又は別個の音が存在することが全体的に合意されている。

そのようなシステムは、発話するビデオ会議の参加者を視認するとき、スピーカが作っている音に関する知識に基づいた仮定を行い得る。それらの仮定は次いで、以下の２つの方法において使用され得る：
ａ．スピーカから来たように現れない音を除去することによって、バックグラウンド・ノイズをくっきりとすること。
ｂ．例えば、参加者のマイクロフォンが機能しないとき、又はそれが誤りによってミュートされる場合でさえ（力によってミュート解除することは、ビデオ会議の任意選択の設定であり得、各々の参加者によって、及び／又はミーティングのホストによって別々に設定され得る）、システムから伝送されるオーディオの品質を改善すること。

それらのオーディオ補正は、利用可能なリソースに応じて、又は他の考慮事項に基づいて、スピーカのシステムにおいて、又は中心位置において実行され得る。

また、システムが特定の参加者に対してそれ自体を較正するために、参加者に何らかの単語又は何らかの音を言わせることが可能である。ミーティングの最初に、参加者がそれらに参加するとき、又はミーティングの回数ごとに一回、これが一回のみ実行され得る。

図３１は、仮想三次元（３Ｄ）ビデオ会議の参加者に関連するオーディオ品質改善のための方法３７００を例示する。

方法３７００は、機械学習工程によって、仮想３Ｄビデオ会議の間に取得される参加者のビデオの画像分析に基づいて、オーディオによって生成される参加者を判定するステップ３７１０によって開始し得る。

機械学習工程は、画像分析出力を参加者の生成されたオーディオに変換するように訓練され得る。機械学習工程は、ビデオを参加者の生成されたオーディオに変換するように訓練され得る。

方法は、機械学習工程を訓練し、又は訓練された機械学習工程を受信することを含み得る。

ステップ３７１０の後、参加者の生成されたオーディオに少なくとも基づいて、参加者の関連するオーディオ情報を生成するステップ３７２０が続き得る。参加者の関連するオーディオ情報は、別の参加者のコンピュータ化システムに提供されると、他の参加者のコンピュータ化システムに、参加者のオーディオが参加者と関連付けられたオーディオ・センサによって検知される検知されたオーディオに含まれるときに参加者のオーディオよりも高い品質の参加者の関連するオーディオを生成させる。

ステップ３７２０は、以下からの少なくとも１つを含み得る：
ａ．オーディオ処理アルゴリズムの１つ又は複数のオーディオ処理特徴を判定し、検知されたオーディオに対してオーディオ処理アルゴリズムを適用すること。１つ又は複数のオーディオ処理特徴は、参加者の関連するオーディオの所望のスペクトル範囲などのいずれかの時間ドメイン及び／又はスペクトル・ドメイン・オーディオ・パラメータであり得る。
ｂ．フィルタリング工程を含み得るオーディオ処理アルゴリズムを適用すること。オーディオ処理アルゴリズムを適用することは、検知されたオーディオをフィルタリングすることを含み得る。
ｃ．検知されたオーディオに対してノイズ低減アルゴリズムを適用すること。
ｄ．発話合成アルゴリズムを適用すること。

判定するステップ３７１０は、参加者のオーディオ・センサ（マイクロフォンなど）がミュートであるときでさえ適用され得る。

ステップ３７１０に、オーディオ・センサがミュートであるときと判定することが先行し得、又はステップ３７１０は、オーディオ・センサがミュートであるときと判定することを含み得る。オーディオ・センサのミュート状態に関する判定はオーディオ・センサの出力と参加者のビデオの画像分析に基づいてユーザによって出力される推定されたオーディオとの間の比較に基づき得る。

オーディオ・センサがミュートされると判定するとき、ステップ３７２０は、発話合成アルゴリズムを適用することを含み得る。

ステップ３７２０は、検知されたオーディオの存在及び品質のうちの少なくとも１つに基づいて、参加者の関連するオーディオ情報をどのように生成するかを判定するステップ３７２２を含み得る。

ステップ３７２２は、（ｉ）検知されたオーディオに対してオーディオ処理アルゴリズムを適用することと、（ｉｉ）発話合成アルゴリズムを適用することと、の間で選択することを含み得る。

予測
仮想３Ｄビデオ会議では、参加者は、アバタとして現れ得、又はいずれかの他の３Ｄ表現を有し得る。

これは、参加者の３Ｄモデルを作成することを伴い得る。ミーティングの間、参加者は、カメラの前方に座る。それらは、それらの動きを捕捉し、参加者の姿勢、方位、及び表情を発見するように、何らかの分析が実行される。次いで、ミーティングのビューワごとに、参加者のアバタが作成され、その結果、アバタの姿勢、方位、及び表情は、参加者がミーティングの環境内に物理的に位置する場合、それがあるようにビューワの視野に現れる。
このリアルタイム処理は、２つの構成要素を有するとして見られることができ：一方は、参加者の分析を行い、他方は、レンダリングを実行する。

それらの２つの構成要素は、同一位置にあり得、又は同一位置にあり得ない。例えば、分析は、参加者ごとに一回のみ実行される必要があるが、ビューワごとに一回、レンダリングが複数回実行される必要があり得る。したがって、１つのオプションは、参加者の位置において、又は中心位置において分析を実行させることであると共に、レンダリング又はその一部は、各々のビューワの位置において実行され得る。分析構成要素は、レンダリング構成要素に、姿勢、方位、及び表情における変化を通知する必要があり、その結果、レンダリング構成要素は、アバタを正確にレンダリングする。

効率性を増大させ、エラーの可能性を低減させ、リソースを節約するために、それらの２つの構成要素の間の通信の量を低減させると共に、高い程度の信頼性を維持することが重要である。

動き又は他の特性における何らかの変化は、短期間の間の場合でさえ予測され得る。

以下の簡易化された実例を考える。ビデオ会議の参加者がうなずくと想定し、また、ミーティングのビューワのシステム内の参加者のアバタのレンダリングの間の間隔でもある３３ミリ秒ごとに画像が捕捉されることを想定されたい。参加者の頭部が上方向に動いているとき、この動きは、少なくとも数百ミリ秒、いわゆる、２００ミリ秒の間に継続することが仮定される。

それらの仮定の下、この動きが発生していることをレンダリング構成要素が予測することが可能である場合、例えば、少なくとも短期間の間、予測が正確である限り、分析構成要素からいずれの追加の情報をも受信することなく、この動きを継続的にレンダリングすることが可能であり得る。実際の動きが予測された動きとは異なる場合、分析構成要素は、補正と共にレンダリング・ユニットのみを予測された動きに更新する必要があり得る。それらの補正は、実際の動き情報よりもはるかに少ない情報を含む。したがって、これは、通信における多くの節約を可能にする。

例えば、クライアントにおいて予測がないことを仮定する。サーバは、全ての値を送信する必要がある。例えば、フレームごとに、方位が１度だけ上方向に変化するはずである。クライアントが予測能力を有さない場合、サーバは、補正を送信する必要があるだけである。例えば、クライアントは１度だけ上方向に予測していたが、実際には、変化は、１．０００１度であり、よって、クライアントは、０．０００１の値を送信する必要があるだけである。

予測が「概して」良好である場合、補正が行われる場合、それは完全な予測よりも低い規模のものである。

例えば、１００の値を予測するが、実の値が１０１であったことが判明する場合、補正は単に１である。補正は典型的には、予測よりもはるかに小さい値を有するので、それらは、少ないビットによりコーディングされることができる。補正が大規模であるが、それらが稀に行われる場合、Ｈｕｆｆｍａｎコーディング又は算術コーディングを使用することは、より多くの通信ビットを可能にする。

これが当てはまらない場合、言い換えると、補正が予測と同一の規模である場合、これは、予測がないことを実際には意味する。

機械学習システムは、それらの最近の履歴に基づいて、姿勢、方位、及び表情をどのように予測するかを学習するように訓練され得る。それらの近未来を予測することは、それらの履歴ごとの別々に、又はそれらの履歴のいずれかの組み合わせに基づいて実行され得る。予測的モデルは、参加者ごとに別々に、又は「全体の」参加者に対して学習され得る。

例えば、ＲＮＮニューラル・ネットワーク又はＬＳＴＭニューラル・ネットワークは、いずれかの所与の時間に姿勢、方位、及び表情の値を受信し得、次の値を予測するように学習し得る。

これは、既存のテキストを学習することによって、又は音楽シーケンスを学習することにより音楽を作成することによって、テキストをどのように作成するかをＮＮが教えられることとよく似ている。

モデルが学習されると、それは分析構成要素及びレンダリング構成要素と共有される。

第３の構成要素は、決定器は、３つのオプションの中で決定を行い得る：
ａ．分析構成要素に全てのデータをレンダリング構成要素に伝送させること。
ｂ．予測的モデルのみに基づいてレンダリング構成要素にレンダリングさせること。
ｃ．分析モデルによって送信される補正と共に予測的モデルに基づいてレンダリング構成要素にレンダリングさせること。

説明を簡易化するために、分析構成要素及び意思決定器は、第１のコンピュータ化ユニット内であり、レンダリング構成要素は、第２のコンピュータ化ユニット内にあると仮定される。

決定は、送信される必要があるデータの量についての閾値を設定することによって、又は補正が送信される必要がある連続した回数に対して閾値を設定することによって、又はそれらの組み合わせで行われることができる。

分析構成要素は、レンダリング構成要素によって使用される予測的モデルを認識する。したがって、それは、レンダリング構成要素が予測的モデルに基づいてレンダリングしている場合、それが何を行っているかを評価することができる。

図３２は、仮想三次元（３Ｄ）ビデオ会議の参加者の振る舞いの変化を予測する方法３８００を例示する。

予測は、コンピュータ化ユニットの間のトラフィックのボリュームを低減させ得る。

方法３８００は、反復的方法であり得る。各々の反復は、或る振る舞い予測子を使用し得、１つが別の振る舞い予測子を使用する必要があり、次の反復が始まる。各々の反復は、仮想３Ｄビデオ会議の一部に対して適用される。

第１のコンピュータ化ユニットが方法３８００の様々なステップを実行し、アナライザ及び／又は送信機として見なされることができることが仮定される。

第２のコンピュータ化ユニットは、第１のコンピュータ化ユニットによって生成される情報を受信し得、仮想３Ｄビデオ会議環境内で参加者の表現を表示し得る（又は、ディスプレイに示させ得る）。

第２のコンピュータ化ユニットは、受信機として見なされ得る。

第１のコンピュータ化エンティティは、参加者のビデオにアクセスし得、ビデオは、仮想３Ｄビデオ会議の間に獲得される。第２のコンピュータ化エンティティは、ビデオへのアクセスを有し得ない。

第１のコンピュータ化エンティティは、画像アナライザであり得る。第２のコンピュータ化ユニットは、レンダリング・ユニットであり得る。

第１のコンピュータ化ユニット及び第２のコンピュータ化ユニットの各々の１つは、参加者デバイス及びいずれかの参加者デバイス以外のコンピュータ化システムなどであり得る。

方法３８００は、仮想３Ｄビデオ会議の複数の部分の部分ごとに、以下のステップを実行することを開始し得る：
ａ．第１のコンピュータ化ユニットによって、仮想３Ｄビデオ会議の部分の間に、第２のコンピュータ化ユニットによって適用されることになる参加者の振る舞い予測子を判定するステップ３８１０。最良の推定子及び良好の推定子などを発見するいずれかの方法が使用され得ることを含む、いずれかの判定方法又は選択方法が適用され得る。
ｂ．仮想３Ｄビデオ会議の部分の間に参加者の振る舞い予測子を適用することに関連する１つ又は複数の予測不正確度を判定するステップ３８２０。
ｃ．仮想３Ｄビデオ会議の部分の間に仮想３Ｄビデオ会議の別の参加者によって提示される仮想３Ｄビデオ会議環境内の参加者の表現に影響を及ぼす少なくとも１つの予測不正確度を示す不正確度メタデータを生成するかどうか、及び第２のコンピュータ化ユニット予測に伝送するかどうかを判定するステップ３８３０。

ステップ３８３０の後、予測不正確メタデータを生成し、及び第２のコンピュータ化ユニットに伝送すると判定するとき、予測不正確度メタデータを生成し、及び第２のコンピュータ化ユニットに伝送するステップ３８４０が続き得る。

参加者の振る舞い予測子は、部分の開始時又は部分が開始した後に判定及び伝送され得る。

１つ又は複数の予測不正確度は、参加者の表現へのリアルタイムな修正を可能にするように、リアルタイムで生成され得、及び第２のコンピュータ化ユニットに伝送され得る（そのように行うと判定される場合）。

ステップ３８４０は、部分インジケータの終わり及び／又は次の振る舞い予測子の識別子などを伝送することを含み得る。

ステップ３４８０は、第２のコンピュータ化エンティティに、第２のコンピュータ化ユニットによって適用されることになる参加者の振る舞い予測子に関する情報を送信することを含み得る。

ステップ３８１０は、仮想３Ｄビデオ会議の前の部分の間の参加者の振る舞いに基づき得る。

ステップ３８１０は、部分の間の参加者の振る舞い予測子を適用することに関連する１つ又は複数の予測不正確度に基づいて、部分が終わり、新たな部分が開始するときを判定することを含み得る。

例えば、判定は、予測不正確度に関連する伝送された情報のサイズ（Ｓｐｉ）が閾値を超えるとき、参加者の振る舞いを直接例示する（予測なしで）「直接の」振る舞い情報のサイズ（Ｓｄｂｉ）をＳｐｉが超えるとき、現在使用されている参加者の振る舞い予測子の精度が閾値を下回るときなどに行われ得る。

ステップ３８３０は、参加者の表現に対する少なくとも１つの予測不正確度の効果に基づき得る。

ステップ３８１０、３８２０、３８３０、及び３８４０のうちの少なくとも１つは、機械学習工程によって実行され得る。

ステップ３８１０、３８２０、３８３０、及び３８４０は、第１のコンピュータ化ユニットによって実行され得る。

方法３８００は、第２のコンピュータ化ユニットによって、各々の部分において、第２のコンピュータ化ユニットによって適用されることになる参加者の振る舞い予測子を判定するステップ３８５０を含み得る。

ステップ３８５０の後、第２のコンピュータ化ユニットによって、各々の部分において、参加者の振る舞い予測子を適用するステップ３８６０が続き得、適用することは、第１のコンピュータ化ユニットからリアルタイムで受信される予測不正確度情報によって影響を及ぼされる。

図３３は、仮想３Ｄビデオ会議４２０１、４２０２、及び４２０３内の３つの期間を例示する。第１の期間４２０１の間、２人の参加者４２１１及び４２１２は、或る場所にあり（画像４２１５に例示されるように）、両者は、コンピュータのディスプレイを見ている。参加者は、それらの凝視方向を動かし及び変化させ（第２の期間４２０２の間）、よって、画像４２１６に例示されるように相互に見るまで、それらは、第３の期間４２０３の間に後者の場所に留まり得る。

参加者が動くことを開始し、よって、第１の期間の終わりに、又はその僅かに後に（図３３に示されるように）、仮想３Ｄビデオ会議の第１の部分４２３１が終わり得（及び、第２の部分４２３２が開始し得る）、第２の振る舞い予測子４２４２が使用され得るとき、第１の期間４２０１の間に正確であった第１の振る舞い予測子４２４１は、正確でない。

参加者が動くことを停止し、よって、第２の期間の終わりに、又はその僅かに後に（図３３に示されるように）、第２の部分４２３２が終わり得（及び、第３の部分４２３３が開始し得る）、第３の振る舞い予測子４２４３が使用され得るとき、第２の期間４２０２の間に正確であった第２の振る舞い予測子４２４２は、正確でない。

上述した方法の少なくとも一部は、２Ｄビデオ会議に変更されるべきものは変更されて適用可能であり得る。

先述の明細書では、開示の実施例は、開示の実施例の特定の実例を参照して説明されてきた。しかしながら、添付の特許請求において示されるように、開示の実施例のより広い精神及び範囲から逸脱することなく、様々な修正及び変更が行われ得ることが明白である。

その上、説明及び特許請求の範囲における用語「前方（ｆｒｏｎｔ）」、「背面（ｂａｃｋ）」、「上部（ｔｏｐ）」、「底部（ｂｏｔｔｏｍ）」、「にわたって（ｏｖｅｒ）」、及び「下で（ｕｎｄｅｒ）」などは、存在する場合、説明の目的として使用され、永続的な相対的位置を説明するためのものでは必ずしもない。そのように使用される用語は、適切な状況の下で相互に変更可能であり、その結果、本明細書で説明される開示の実施例は、例えば、本明細書で例示され、又はそうでなければ、本明細書で説明されるもの以外の方位において動作する能力を有する。

本明細書で議論されるような接続は、例えば、中間デバイスを介して、それぞれのノード、ユニット、又はデバイスから又はそれぞれのノード、ユニット、又はデバイスに、信号を転送するのに適切ないずれかのタイプの接続であり得る。したがって、他に暗に示され又は他に述べられない限り、接続は、例えば、直接接続又は間接的接続であり得る。接続は、単一の接続、複数の接続、片方向接続、又は双方向接続であるとして参照において例示又は説明され得る。しかしながら、異なる実施例は、接続の実装態様を変え得る。例えば、双方向接続ではなく別々の片方向接続が使用され得、逆もまたそうである。また、複数の接続は、直列に、又は時間多重化方式において複数の信号を転送する単一の接続と置き換えられ得る。同様に、複数の信号を搬送する単一の接続は、それらの信号のサブセットを搬送する様々な異なる接続に分離され得る。したがって、信号を転送するための多くのオプションが存在する。

同一の機能性を達成するための構成要素のいずれかの配列は、所望の機能性が達成されるように効率的に関連付けられる。よって、アーキテクチャ又は中間的構成要素に関係なく、特定の機能性を達成するために本明細書で組み合わされるいずれかの２つの構成要素は、所望の機能性が達成されるように相互に「関連付けられる」と見られ得る。同様に、そのように関連付けられる２つの構成要素も、所望の機能性を達成するように、相互に「動作可能に接続され」又は「動作可能に結合される」として見なされることができる。

更に、当業者は、上記説明された動作の間の境界が例示であるにすぎないことを認識するであろう。複数の動作は、単一の動作に組み合わされ得、単一の動作は、追加の動作に分散され得、動作は、時間で部分的に重なって実行され得る。その上、代替的な実施例は、特定の動作の複数のインスタンスを含み得、動作の順序は、様々な他の実施例において改編され得る。

また、例えば、一実施例では、例示される実例は、単一の集積回路上で、又は同一のデバイス内で実装され得る。代わりに、実例は、適切な方式において互いに相互接続されたいずれかの数の別々の集積回路又は別々のデバイスとして実装され得る。

しかしながら、他の修正、変形、及び改編も可能である。したがって、明細書及び図面は、限定的な意味ではなく例示的な意味で見なされることになる。

特許請求の範囲では、括弧の間に置かれるいずれかの参照符号は、特許請求の範囲を限定するとして解釈されるべきではない。単語「含む（ｃｏｍｐｒｉｓｉｎｇ）」は、特許請求の範囲において記載されるもの以外の他の要素又はステップの存在を排除しない。更に、用語「ａ」又は「ａｎ」は、本明細書で使用されるように、１つ又は１つよりも多いとして定義される。また、同一の請求項が導入フレーズ「１つ又は複数の（ｏｎｅｏｒｍｏｒｅ）」又は「少なくとも１つの（ａｔｌｅａｓｔｏｎｅ）」を含み、「ａ」又は「ａｎ」などの不定冠詞を含むときでさえ、特許請求の範囲における「少なくとも１つの」及び「１つ又は複数の」などの導入フレーズの使用は、不定冠詞「ａ」又は「ａｎ」によって別の請求項の要素の導入が、１つのそのような要素のみを包含する開示の実施例に、そのように導入される請求項の要素を包含するいずれかの特定の請求項を限定することを暗に示すと解釈されるべきではない。定冠詞の使用にも同一のことが当てはまる。他に述べられない限り、「第１の（ｆｉｒｓｔ）」及び「第２の（ｓｅｃｏｎｄ）」などの用語は、そのような用語が説明する要素の間で任意に区別するために使用される。よって、それらの用語は、そのような要素の時間的優先度又は他の優先度を示すことを必ずしも意図していない。或る測定が相互に異なる請求項において記載される稀な事実は、それらの測定の組み合わせが利点をもたらすために使用されることができないことを示さない。

開示の実施例の或る特徴が本明細書で例示及び説明されてきたと共に、多くの修正、代替、変更、及び同等物がここでは当業者に対して行われる。したがって、添付の特許請求の範囲は、開示の実施例の精神内に収まるように、全てのそのような修正及び変更を網羅することを意図していることが理解されることになる。

Claims

複数の参加者のとの間で三次元（３Ｄ）ビデオ会議を行う方法であって、
或る参加者に関連する視覚的検知ユニットによって、視覚的情報を獲得することと、
前記視覚的情報に現れる複数の人物を識別することと、
前記複数の人物から、少なくとも１人の関連する人物を発見することと、
前記少なくとも１人の関連する人物の各々に対し、３Ｄエンティティ表現情報を判定することと、
少なくとも１人の参加者に対し、前記少なくとも１人の関連する人物の各々についての前記３Ｄエンティティ表現情報に基づいて、仮想３Ｄビデオ会議環境の表現を生成することと、
を含む、方法。
前記発見することは、前記複数の人物のどれが前記仮想３Ｄビデオ会議の参加者であるかを判定することを含む、請求項１に記載の方法。
前記発見することは、前記３Ｄビデオ会議の非参加者が関連する人物であると判定することを含む、請求項１に記載の方法。
前記識別することは、顔認識工程を適用することを含む、請求項１に記載の方法。
前記或る参加者及び前記人物の外観に従って、少なくとも或る期間の間に前記少なくとも１人の関連する人物に関する識別情報を記憶することを含む、請求項１に記載の方法。
前記少なくとも１人の関連する人物が前記視覚的検知ユニットの視野を出て、前記視覚的検知ユニットの前記視野に再度入った後、前記少なくとも１人の関連する人物のいずれかを識別することを含み、前記識別することは、前記識別情報に基づいている、請求項５に記載の方法。
少なくとも１人の関連する人物は、関連する人物である、請求項１に記載の方法。
前記関連する人物の間の物理的対話を探索することを含む、請求項７に記載の方法。
仮想３Ｄビデオ会議環境の前記更新された表現の前記生成は、前記物理的対話を反映する、請求項８に記載の方法。
前記関連する人物が単一の視覚的検知ユニットによって捕捉されることを示す同一の視覚的検知ユニット・インジケーションを生成することを含む、請求項７に記載の方法。
前記視覚的検知ユニットは、第１のカメラ及び第２のカメラを含み、前記関連する人物の一方は、前記第１のカメラの視野内にあり、前記関連する人物のもう一方は、前記第２のカメラの視野内にある、請求項７に記載の方法。
同一の視覚的検知ユニットによって捕捉される関連する人物の関連する人物ごとに、前記関連する人物が発話しているか否かを判定することを含む、請求項７に記載の方法。
複数の参加者は、前記仮想３Ｄ会議に参加し、前記複数の参加者は、複数の視覚的検知ユニットによって検知される、請求項１に記載の方法。
前記少なくとも１人の参加者に対し、前記仮想３Ｄビデオ会議環境の前記表現を前記生成することは、前記少なくとも１人の関連する人物に含まれない参加者についての３Ｄエンティティ表現情報にも基づいている、請求項１３に記載の方法。
前記受信すること及び前記判定することは、前記複数の参加者デバイスのいずれかとも異なるコンピュータ化システムによって実行される、請求項１３に記載の方法。
複数の参加者の間で三次元（３Ｄ）ビデオ会議を行う方法であって、
前記参加者と関連付けられた仮想３Ｄビデオ会議環境の表現内の各々の参加者の凝視方向に関する凝視方向情報を受信することと、
或る参加者の凝視が、前記参加者の少なくとも頭部をも捕捉する視覚的検知ユニットの視野内に位置する人物に向かって向いているかどうかを推定することと、
前記人物の３Ｄ表現が前記仮想３Ｄビデオ会議環境内で現れるはずであるかどうかを決定することと、
参加者ごとに、前記参加者の前記凝視方向を反映する、前記仮想３Ｄビデオ会議環境内の更新された３Ｄ参加者表現情報を判定することであって、前記或る参加者に対し、前記更新された３Ｄ参加者表現情報を前記判定することは、前記推定すること及び前記決定することの結果に応答する、前記判定することと、
少なくとも１人の参加者に対し、仮想３Ｄビデオ会議環境の更新された表現を生成することであって、仮想３Ｄビデオ会議環境の前記更新された表現は、前記複数の参加者の少なくとも一部についての前記更新された３Ｄ参加者表現情報を表す、前記生成することと、
を含む、方法。
前記決定することは、前記人物が前記参加者の１人であるかどうかをチェックすることを含む、請求項１６に記載の方法。
前記人物が前記参加者の１人であると決定するとき、前記人物と或る参加者との間の物理的対話を探索する、請求項１７に記載の方法。
（ａ）前記或る参加者に対し、前記更新された３Ｄ参加者表現情報を前記判定すること、及び（ｂ）前記人物に対し、前記更新された３Ｄ参加者表現情報を判定することは、前記物理的対話を反映する、請求項１８に記載の方法。
（ａ）前記人物の前記３Ｄ表現が前記仮想３Ｄビデオ会議環境に現れるはずであると決定すること、及び（ｂ）前記人物が前記参加者の１人でないと決定するとき、３Ｄ人物表現情報を生成し、仮想３Ｄビデオ会議環境の前記更新された表現は、前記３Ｄ人物表現情報を更に含む、請求項１７に記載の方法。
前記３Ｄ人物表現情報は、前記人物が参加者でないことを示す、請求項２０に記載の方法。
前記人物が参加者でないとき、前記人物の前記３Ｄ表現が前記仮想３Ｄビデオ会議環境内に現れないはずであると決定することを含む、請求項１８に記載の方法。
前記人物の前記３Ｄ表現が前記仮想３Ｄビデオ会議環境内に現れるはずであるかどうかを前記決定することは、前記或る参加者によって提供されるルール又は定義に基づいている、請求項１７に記載の方法。
前記人物の前記３Ｄ表現が前記仮想３Ｄビデオ会議環境内に現れるはずであるかどうかを前記決定することは、前記人物のサイズ又は推定される年齢のうちの少なくとも１つに基づいている、請求項１７に記載の方法。
前記人物から前記仮想３Ｄビデオ会議環境内の前記人物の視覚的表現への前記或る参加者の凝視方向における変化の間、前記仮想３Ｄビデオ会議環境内の前記或る参加者の凝視方向を変えないまま維持することを含む、請求項１７に記載の方法。
前記人物及び前記或る参加者が同一の視覚的検知ユニットによって捕捉されることを示す同一の視覚的検知ユニット・インジケーションを生成することを含む、請求項１７に記載の方法。
前記決定することは、顔認識を使用して前記人物を識別することを含む、請求項１７に記載の方法。
識別工程を使用して、前記或る参加者及び前記人物の各々の１人を識別することを含む、請求項１７に記載の方法。
前記或る参加者及び前記人物の外観に従って、少なくとも或る期間の間に前記人物及び前記或る参加者に関する識別情報を記憶することを含む、請求項２８に記載の方法。
前記人物が前記視覚的検知ユニットの前記視野を出て、前記視覚的検知ユニットの前記視野に再度入った後、前記人物を識別することを含み、前記識別することは、前記識別情報に基づいている、請求項２９に記載の方法。
前記視覚的検知ユニットは、第１のカメラ及び第２のカメラを含み、前記或る参加者は前記第１のカメラの視野内にあり、前記人物は、前記第２のカメラの視野内にある、請求項１７に記載の方法。
前記複数の参加者は、複数の参加者デバイスと関連付けられ、前記受信すること及び前記判定することは、前記複数の参加者デバイスの少なくとも一部によって実行される、請求項１７に記載の方法。
前記複数の参加者は、複数の参加者デバイスと関連付けられ、前記受信すること及び前記判定することは、前記複数の参加者デバイスのいずれかとも異なるコンピュータ化システムによって実行される、請求項１７に記載の方法。
凝視方向情報は、前記参加者の検出された凝視方向又は推定された凝視方向を表す、請求項１７に記載の方法。
異なる状況下で前記参加者の前記３Ｄ表現を生成するための初期の３Ｄ参加者表現情報を受信することを含む、請求項１７に記載の方法。
前記３Ｄ参加者表現情報は、３Ｄモデル及び１つ又は複数のテキスチャ・マップを含む、請求項１７に記載の方法。
仮想３Ｄビデオ会議環境の前記更新された表現は、前記複数の参加者の前記少なくとも一部の参加者ごとのアバタを含む、請求項１７に記載の方法。
更新された３Ｄ参加者表現情報のセグメントの関連性を判定することと、前記関連性及び利用可能なリソースに基づいて、どのセグメントを伝送するかを選択することと、を含む、請求項１７に記載の方法。
仮想３Ｄビデオ会議環境情報の更新された表現のセグメントの関連性を判定することと、前記関連性及び利用可能なリソースに基づいて、どのセグメントを伝送するかを選択することと、を含む、請求項１７に記載の方法。
方法は、参加者の３Ｄ参加者表現情報の３Ｄモデル及び１つ又は複数のテキスチャ・マップを生成することを含む、請求項１７に記載の方法。
参加者の顔の少なくとも１つの視覚的エリアを捕捉するカメラの視野外に位置する前記参加者の前記顔の１つ又は複数の隠蔽エリアの３Ｄ参加者表現情報を推定することを含む、請求項１７に記載の方法。
参加者ごとに、前記更新された３Ｄ参加者表現情報を前記判定することは、照明条件を変更することを含む、請求項１７に記載の方法。
参加者ごとに、前記更新された３Ｄ参加者表現情報を前記判定することは、ウェアラブル・アイテム情報を追加又は変更することを含む、請求項１７に記載の方法。
仮想３Ｄビデオ会議の間にコンテンツを共有する方法であって、
仮想３Ｄビデオ会議に参加する複数の参加者を招待することと、
共有されるコンテンツ項目を記憶するために専用の共有フォルダを作成することであって、前記共有されるコンテンツは、少なくとも前記仮想３Ｄビデオ会議の間にアクセス可能である、前記作成することと、
前記複数の参加者に対し、前記共有フォルダへのアクセスを有効にすることであって、前記アクセスは、１つ又は複数のアクセス制御ルールによって統治される、前記有効にすることと、
前記仮想３Ｄビデオ会議を行うことであって、前記行うことは、前記コンテンツ項目のうちの少なくとも１つを共有することを含む、前記行うことと、
を含む、方法。
前記共有することは、１つ又は複数の共有ルールに少なくとも部分的に基づいて実行される、請求項４４に記載の方法。
前記１つ又は複数の共有ルールは、前記１つ又は複数のアクセス制御ルールに含まれる、請求項４４に記載の方法。
前記１つ又は複数の共有ルールは、前記１つ又は複数のアクセス制御ルールに含まれない、請求項４４に記載の方法。
アクセスを前記有効にすることは、前記仮想３Ｄビデオ会議の開始の前でさえ、前記共有フォルダへのアクセスを有効にすることを含む、請求項４４に記載の方法。
前記招待すること、作成すること、有効にすること、及び行うことは、仮想３Ｄビデオ会議アプリケーションによって管理される、請求項４８に記載の方法。
前記仮想３Ｄビデオ会議の完了の後に、専用の前記共有フォルダを削除することを含む、請求項４４に記載の方法。
前記仮想３Ｄビデオ会議の完了の後に、専用の前記共有フォルダを維持することと、前記仮想３Ｄビデオ会議の前記完了の後に、前記共有フォルダへのアクセスを有効にすることと、を含む、請求項４４に記載の方法。
前記仮想３Ｄビデオ会議の完了の後の予め定義された期間まで、専用の前記共有フォルダを維持することと、前記仮想３Ｄビデオ会議の前記完了の後の予め定義された期間まで、前記共有フォルダへのアクセスを有効にすることと、を含む、請求項４４に記載の方法。
仮想３Ｄビデオ会議の完了の後に、専用の前記共有フォルダを維持することと、前記共有フォルダにアクセスするための完了の後のアクセス制御ルールを適用することと、を含む、請求項４４に記載の方法。
前記仮想３Ｄビデオ会議の完了の後に、専用の前記共有フォルダを維持することと、前記共有フォルダへの前記仮想３Ｄビデオ会議の記録を追加することと、を含む、請求項４４に記載の方法。
前記共有されるコンテンツ項目は、テキスト、ドキュメント、ビデオ・ユニット、及びオーディオ・ユニットのうちの少なくとも１つを含む、請求項４４に記載の方法。
仮想三次元（３Ｄ）ビデオ会議に関連するフォアグラウンド及びバックグラウンド・セグメント化のための方法であって、
ビデオ・ストリームの複数の画像の各々の画像をセグメントにセグメント化することであって、各々のセグメントは、一定である１つ又は複数の特質を有する、前記セグメント化することと、
前記セグメントの時間的な特質を判定することと、
前記セグメントの前記時間的な特質に少なくとも部分的に基づいて、各々のセグメントをバックグラウンド・セグメント又はフォアグラウンド・セグメントとして分類することと、
を含む、方法。
静的セグメントをバックグラウンド・セグメントとして分類することを含む、請求項５６に記載の方法。
周期的変化を示すセグメントをバックグラウンド・セグメントとして分類することを含む、請求項５６に記載の方法。
１つ又は複数の顔セグメントを探索することを更に含む、請求項５６に記載の方法。
各々の顔セグメントをフォアグラウンド・セグメントとして分類することを含む、請求項５９に記載の方法。
顔セグメントではなく、周期的変化を示すセグメントをバックグラウンド・セグメントとして分類することを含む、請求項５９に記載の方法。
前記画像のうちの少なくとも１つのユーザ・セグメントを表示することと、前記セグメントの少なくとも一部に関連する分類入力を前記ユーザから受信することと、を更に含み、前記分類することは、前記分類入力にも基づいている、請求項５６に記載の方法。
前記セグメントの時間的な特質に関する時間的な情報をユーザに提供することと、前記セグメントの少なくとも一部に関連する分類入力を前記ユーザから受信することと、を更に含み、前記分類することは、前記分類入力にも基づいている、請求項５６に記載の方法。
前記セグメントをユーザに表示することと、前記セグメントの時間的な特質に関する時間的な情報を前記ユーザに提供することと、前記セグメントの少なくとも一部に関連する分類入力を前記ユーザから受信することと、を更に含み、前記分類することは、前記分類入力にも基づいている、請求項５６に記載の方法。
各々のセグメントを前記バックグラウンド・セグメント又は前記フォアグラウンド・セグメントとして分類するために機械学習工程を使用することを更に含み、前記機械学習工程は、ユーザから受信される分類入力に基づいて分類することを実行するように訓練されている、請求項５６に記載の方法。
前記セグメント化することは、ブロブ分析を適用することを含み、前記セグメントは、ブロブである、請求項５６に記載の方法。
前記分類することの後、フォアグラウンド・セグメントとして、前記仮想３Ｄ会議の少なくとも１人の参加者に表示される仮想３Ｄビデオ会議環境に追加される１つ又は複数の項目を分類することが続く、請求項５６に記載の方法。
複数の参加者の間で仮想三次元（３Ｄ）ビデオ会議を行う方法であって、
前記仮想３Ｄビデオ会議の第１の参加者のユーザ・デバイスによって、異なる制約の下で、第２の参加者の３Ｄ表現を生成するための参照の第２の参加者の３Ｄ表現情報を受信することであって、前記異なる制約は、（ａ）手直し制約、（ｂ）メイクアップ制約、及び（ｃ）１つ又は複数の状況制約からの少なくとも１つを含む、前記受信することと、
前記第１の参加者の前記ユーザ・デバイスによって、前記３Ｄビデオ電話会議の間、第２の参加者に関する１つ又は複数の現在の制約を示す第２の参加者の制約メタデータを受信することと、
前記第２の参加者の制約メタデータに基づいて、前記第１の参加者の前記ユーザ・デバイスによって、仮想３Ｄビデオ会議環境の第１の表現内で、前記第２の参加者の３Ｄ参加者表現を更新することと、
前記第２の参加者の３Ｄ参加者表現情報に基づいて、前記第２の参加者のアバタを生成することと、
を含む、方法。
前記異なる制約は、前記手直し制約を含む、請求項６８に記載の方法。
前記異なる制約は、前記メイクアップ制約を含む、請求項６８に記載の方法。
前記第２の参加者の３Ｄ参加者表現情報に基づいて前記第２の参加者の前記アバタを前記生成することは、顔要素のメイクアップ・フリーの外観及び選択されたメイクアップに基づいて、前記顔要素のメイクアップ・バージョンを生成することを含む、請求項６９に記載の方法。
前記第２の参加者の３Ｄ参加者表現情報に基づいて前記第２の参加者の前記アバタを前記生成することは、顔要素のメイクアップ・フリーの外観及び選択されたメイクアップのボクセルに対して線形関数を適用することによって、前記顔要素のメイクアップ・バージョンを生成することを含む、請求項６９に記載の方法。
初期の第２の参加者の３Ｄ表現情報は、前記第２の参加者の修正された表現を表し、前記修正された表現は、前記第２の参加者の実際の外観とは異なる、請求項６８に記載の方法。
前記修正された表現は、顔要素のサイズ、形状、及び位置からの少なくとも１つによって、前記第２の参加者の実際の外観とは異なる、請求項６８に記載の方法。
前記異なる制約は、異なる凝視方向を含む、請求項６８に記載の方法。
前記異なる制約は、異なる表情を含む、請求項６８に記載の方法。
初期の３Ｄ参加者表現情報は、初期の３Ｄモデル及び１つ又は複数の初期のテキスチャ・マップを含む、請求項６８に記載の方法。
異なる制約下で更新された第２の参加者の３Ｄ表現を生成するための更新された参照の第２の参加者の３Ｄ表現情報を受信することを含む、請求項６８に記載の方法。
前記更新された参照の第２の参加者の表現情報は、ノイズ除去を実行することによって生成される、請求項６８に記載の方法。
仮想三次元（３Ｄ）ビデオ会議の参加者に関連するオーディオ品質改善のための方法であって、
機械学習工程によって、前記仮想３Ｄビデオ会議の間に取得される前記参加者のビデオの画像分析に基づいて、参加者の生成されたオーディオを判定することと、
前記参加者の生成されたオーディオに少なくとも基づいて、参加者の関連するオーディオ情報を生成することであって、前記参加者の関連するオーディオ情報は、別の参加者のコンピュータ化システムに提供されると、前記参加者と関連付けられたオーディオ・センサによって検知される検知されたオーディオに参加者のオーディオが含まれるとき、前記別の参加者のコンピュータ化システムに、前記参加者のオーディオよりも高い品質の参加者の関連するオーディオを生成させる、前記生成することと、
を含む、方法。
前記参加者の生成されたオーディオ情報を前記生成することは、オーディオ処理アルゴリズムの１つ又は複数のオーディオ処理特徴を判定することと、前記検知されたオーディオに対して前記オーディオ処理アルゴリズムを適用することと、を含む、請求項８０に記載の方法。
前記オーディオ処理アルゴリズムは、フィルタリング工程を含み、前記オーディオ処理アルゴリズムを前記適用することは、前記検知されたオーディオをフィルタリングすることを含む、請求項８１に記載の方法。
前記１つ又は複数のオーディオ処理特徴は、前記参加者の関連するオーディオの所望のスペクトル範囲を含む、請求項８１に記載の方法。
前記参加者の生成されたオーディオ情報を前記生成することは、前記検知されたオーディオに対してノイズ低減アルゴリズムを適用することを含む、請求項８０に記載の方法。
前記参加者の生成されたオーディオ情報を前記生成することは、発話合成アルゴリズムを適用することを含む、請求項８０に記載の方法。
画像分析出力を参加者の生成されたオーディオに変換するように前記機械学習工程を訓練することを含む、請求項８０に記載の方法。
ビデオを参加者の生成されたオーディオに変換するように前記機械学習工程を訓練することを含む、請求項８０に記載の方法。
前記オーディオ・センサがミュートであると判定するとき、前記参加者の関連するオーディオ情報を生成することを含む、請求項８０に記載の方法。
前記オーディオ・センサがミュートであると判定するとき、発話合成アルゴリズムを適用することによって、前記参加者の関連するオーディオ情報を生成することを含む、請求項８０に記載の方法。
前記検知されたオーディオの存在及び品質のうちの少なくとも１つに基づいて、前記参加者の関連するオーディオ情報をどのように生成するかを判定することを含む、請求項８０に記載の方法。
前記判定することは、（ｉ）前記検知されたオーディオに対してオーディオ処理アルゴリズムを適用することと、（ｉｉ）発話合成アルゴリズムを適用することと、の間で選択することを含む、請求項９０に記載の方法。
仮想三次元（３Ｄ）ビデオ会議の参加者の振る舞いの変化を予測する方法であって、
前記仮想３Ｄビデオ会議の複数の部分の部分ごとに、第１のコンピュータ化ユニットによって、前記仮想３Ｄビデオ会議の前記部分の間に第２のコンピュータ化ユニットによって適用されることになる参加者の振る舞い予測子、（ｂ）前記仮想３Ｄビデオ会議の前記部分の間に前記参加者の振る舞い予測子を適用することに関連する１つ又は複数の予測不正確度、及び（ｃ）前記仮想３Ｄビデオ会議の前記部分の間に前記仮想３Ｄビデオ会議の別の参加者に提示される仮想３Ｄビデオ会議環境内の前記参加者の表現に影響を及ぼす少なくとも１つの予測不正確度を示す予測不正確度メタデータを生成し、前記第２のコンピュータ化ユニットに伝送するかどうか、を判定することと、
予測不正確度メタデータを生成し、前記第２のコンピュータ化ユニットに伝送すると判定するとき、前記予測不正確度メタデータを生成し、前記第２のコンピュータ化ユニットに伝送することと、
を含む、方法。
前記第１のコンピュータ化エンティティは、前記参加者のビデオへのアクセスを有し、前記ビデオは、前記仮想３Ｄビデオ会議の間に獲得され、前記第２のコンピュータ化エンティティは、前記ビデオへのアクセスを有さない、請求項９２に記載の方法。
前記第１のコンピュータ化エンティティは、画像アナライザであり、前記第２のコンピュータ化エンティティは、レンダリング・ユニットである、請求項９２に記載の方法。
前記仮想３Ｄビデオ会議の前記部分の間に前記第２のコンピュータ化ユニットによって適用されることになる前記参加者の振る舞い予測子を前記判定することは、前記仮想３Ｄビデオ会議の前の部分の間の前記参加者の振る舞いに基づいている、請求項９２に記載の方法。
予測不正確度メタデータを生成し、前記第２のコンピュータ化ユニットに伝送するかどうかを前記判定することは、前記参加者の前記表現の前記少なくとも１つの予測不正確度の効果に基づいている、請求項９２に記載の方法。
前記判定することは、機械学習工程によって実行される、請求項９２に記載の方法。
前記部分の間に前記参加者の振る舞い予測子を適用することに関連する前記１つ又は複数の予測不正確度に基づいて、前記部分が終了し、新たな部分が開始するときを判定することを含む、請求項９２に記載の方法。
前記第２のコンピュータ化エンティティに、部分終了インジケータを送信することを含む、請求項９２に記載の方法。
前記第２のコンピュータ化エンティティに、前記第２のコンピュータ化ユニットによって適用されることになる前記参加者の振る舞い予測子に関する情報を送信することを含む、請求項９２に記載の方法。
前記第２のコンピュータ化ユニットによって、部分ごとに、前記第２のコンピュータ化ユニットによって適用されることになる前記参加者の振る舞い予測子を判定することを含む、請求項９２に記載の方法。
複数の参加者との間で三次元（３Ｄ）ビデオ会議を行うための非一時的コンピュータ可読媒体であって、
或る参加者に関連する視覚的検知ユニットによって、視覚的情報を獲得し、
前記視覚的情報に現れる複数の人物を識別し、
前記複数の人物から、少なくとも１人の関連する人物を発見し、
前記少なくとも１人の関連する人物の各々に対し、３Ｄエンティティ表現情報を判定し、
少なくとも１人の参加者に対し、前記少なくとも１人の関連する人物の各々についての前記３Ｄエンティティ表現情報に基づいて、仮想３Ｄビデオ会議環境の表現を生成する、
ための命令を記憶する、非一時的コンピュータ可読媒体。
複数の参加者の間で三次元（３Ｄ）ビデオ会議を行うための非一時的コンピュータ可読媒体であって、
前記参加者と関連付けられた仮想３Ｄビデオ会議環境の表現内の各々の参加者の凝視方向に関する凝視方向情報を受信し、
或る参加者の凝視が、前記参加者の少なくとも頭部をも捕捉する視覚的検知ユニットの視野内に位置する人物に向かって向いているかどうかを推定し、
前記人物の３Ｄ表現が前記仮想３Ｄビデオ会議環境内で現れるはずであるかどうかを決定し、
参加者ごとに、前記参加者の前記凝視方向を反映する、前記仮想３Ｄビデオ会議環境内の更新された３Ｄ参加者表現情報を判定し、前記或る参加者に対し、前記更新された３Ｄ参加者表現情報を前記判定することは、前記推定すること及び前記決定することの結果に応答し、
少なくとも１人の参加者に対し、仮想３Ｄビデオ会議環境の更新された表現を生成し、仮想３Ｄビデオ会議環境の前記更新された表現は、前記複数の参加者の少なくとも一部についての前記更新された３Ｄ参加者表現情報を表す、
ための命令を記憶する、非一時的コンピュータ可読媒体。
仮想３Ｄビデオ会議の間にコンテンツを共有するための非一時的コンピュータ可読媒体であって、
仮想３Ｄビデオ会議に参加する複数の参加者を招待し、
共有されるコンテンツ項目を記憶するために専用の共有フォルダを作成し、前記共有されるコンテンツは、少なくとも前記仮想３Ｄビデオ会議の間にアクセス可能であり、
前記複数の参加者に対し、前記共有フォルダへのアクセスを有効にし、前記アクセスは、１つ又は複数のアクセス制御ルールによって統治される、前記有効にし、
前記仮想３Ｄビデオ会議を行い、前記行うことは、前記コンテンツ項目のうちの少なくとも１つを共有することを含む、
ための命令を記憶する、非一時的コンピュータ可読媒体。
仮想三次元（３Ｄ）ビデオ会議に関連するフォアグラウンド及びバックグラウンド・セグメント化のための非一時的コンピュータ可読媒体であって、
ビデオ・ストリームの複数の画像の各々の画像をセグメントにセグメント化し、各々のセグメントは、一定である１つ又は複数の特質を有し、
前記セグメントの時間的な特質を判定し、
前記セグメントの前記時間的な特質に少なくとも部分的に基づいて、各々のセグメントをバックグラウンド・セグメント又はフォアグラウンド・セグメントとして分類する、
ための命令を記憶する、非一時的コンピュータ可読媒体。
複数の参加者の間で仮想三次元（３Ｄ）ビデオ会議を行うための非一時的コンピュータ可読媒体であって、
前記仮想３Ｄビデオ会議の第１の参加者のユーザ・デバイスによって、異なる制約の下で、第２の参加者の３Ｄ表現を生成するための参照の第２の参加者の３Ｄ表現情報を受信し、前記異なる制約は、（ａ）手直し制約、（ｂ）メイクアップ制約、及び（ｃ）１つ又は複数の状況制約からの少なくとも１つを含み、
前記第１の参加者の前記ユーザ・デバイスによって、前記３Ｄビデオ電話会議の間、第２の参加者に関する１つ又は複数の現在の制約を示す第２の参加者の制約メタデータを受信し、
前記第２の参加者の制約メタデータに基づいて、前記第１の参加者の前記ユーザ・デバイスによって、仮想３Ｄビデオ会議環境の第１の表現内で、前記第２の参加者の３Ｄ参加者表現を更新し、
前記第２の参加者の３Ｄ参加者表現情報に基づいて、前記第２の参加者のアバタを生成する、
ための命令を記憶する、非一時的コンピュータ可読媒体。
仮想三次元（３Ｄ）ビデオ会議の参加者に関連するオーディオ品質改善のための非一時的コンピュータ可読媒体であって、
機械学習工程によって、前記仮想３Ｄビデオ会議の間に取得される前記参加者のビデオの画像分析に基づいて、参加者の生成されたオーディオを判定し、
前記参加者の生成されたオーディオに少なくとも基づいて、参加者の関連するオーディオ情報を生成し、前記参加者の関連するオーディオ情報は、別の参加者のコンピュータ化システムに提供されると、前記参加者と関連付けられたオーディオ・センサによって検知される検知されたオーディオに参加者のオーディオが含まれるとき、他の参加者のコンピュータ化システムに、前記参加者のオーディオよりも高い品質の参加者の関連するオーディオを生成させる、
ための命令を記憶する、非一時的コンピュータ可読媒体。
仮想三次元（３Ｄ）ビデオ会議の参加者の振る舞いの変化を予測するための非一時的コンピュータ可読媒体であって、
前記仮想３Ｄビデオ会議の複数の部分の部分ごとに、第１のコンピュータ化ユニットによって、前記仮想３Ｄビデオ会議の前記部分の間に第２のコンピュータ化ユニットによって適用されることになる参加者の振る舞い予測子、（ｂ）前記仮想３Ｄビデオ会議の前記部分の間に前記参加者の振る舞い予測子を適用することに関連する１つ又は複数の予測不正確度、及び（ｃ）前記仮想３Ｄビデオ会議の前記部分の間に前記仮想３Ｄビデオ会議の別の参加者に提示される仮想３Ｄビデオ会議環境内の前記参加者の表現に影響を及ぼす少なくとも１つの予測不正確度を示す予測不正確度メタデータを生成し、前記第２のコンピュータ化ユニットに伝送するかどうか、を判定し、
予測不正確度メタデータを生成し、前記第２のコンピュータ化ユニットに伝送すると判定するとき、前記予測不正確度メタデータを生成し、前記第２のコンピュータ化ユニットに伝送する、
ための命令を記憶する、非一時的コンピュータ可読媒体。