JP2024518888A - 仮想3d通信のための方法及びシステム - Google Patents

仮想3d通信のための方法及びシステム Download PDF

Info

Publication number
JP2024518888A
JP2024518888A JP2023564028A JP2023564028A JP2024518888A JP 2024518888 A JP2024518888 A JP 2024518888A JP 2023564028 A JP2023564028 A JP 2023564028A JP 2023564028 A JP2023564028 A JP 2023564028A JP 2024518888 A JP2024518888 A JP 2024518888A
Authority
JP
Japan
Prior art keywords
participant
virtual
representation
person
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023564028A
Other languages
English (en)
Inventor
オズ、ラン
グロナウ、ユヴァル
ストラスマン、ネリー
Original Assignee
トゥルー ミーティング インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by トゥルー ミーティング インコーポレイテッド filed Critical トゥルー ミーティング インコーポレイテッド
Publication of JP2024518888A publication Critical patent/JP2024518888A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/567Multimedia conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/10Aspects of automatic or semi-automatic exchanges related to the purpose or context of the telephonic communication
    • H04M2203/1016Telecontrol
    • H04M2203/1025Telecontrol of avatars

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Processing Or Creating Images (AREA)

Abstract

複数の参加者の間で三次元(3D)ビデオ会議を行う方法が提供され得、方法は、或る参加者に関連する視覚的検知ユニットによって、視覚的情報を獲得することと、視覚的情報に現れる複数の人物を識別することと、複数の人物から、少なくとも1人の関連する人物を発見することと、少なくとも1人の関連する人物の各々に対し、3Dエンティティ表現情報を判定することと、少なくとも1人の参加者に対し、少なくとも1人の関連する人物の各々についての3Dエンティティ表現情報に基づいて、仮想3Dビデオ会議環境の表現を生成することと、を含み得る。

Description

相互参照
本出願は、その全体での参照により本明細書に組み込まれる、2021年5月10日に出願された米国仮特許出願第63/201,713号からの優先権を主張する。
ビデオ電話会議が非常に普及している。それらは、各々の参加者が、ディスプレイの近くに通常は位置するカメラを有するそれら自身のコンピュータ化システムを有することを必要とする。
典型的には、ミーティングへの何人かの参加者は、別々の小さいタイル内で出席し、参加者のスクリーンの1つを共有するために、別のタイルが使用され得る。
各々の参加者は典型的には、それら自身のオフィスのバックグラウンドと共に、又はそれらの選択の仮想的なバックグラウンドと共に示される。
参加者は、異なる角度から、及び異なるサイズで表示される。
結果として、人物は、切断されたように感じ得、それらが全て同一の部屋に存在していたかのように感じ得ない。
ユーザが典型的には、対向する人物の顔が表示されるスクリーンを見ており、スクリーンの上又は下にあり得るカメラを見ていないので、例えば、現れる画像は、上方向又は下方向のそれぞれを見ており、他の人物を見ていない人物の画像である。よって、会話の参加者の間のアイ・コンタクトが失われる。これは、接続されていないというセンセーションを高める。
更に、各々の参加者のスクリーン上で、他のユーザの画像が異なるポジションに、及び可変の順序で位置し得るので、誰が誰を見ているかが明瞭でない。
全ての参加者からの全てのオーディオ・ストリームが1つの単一のモノ・トラックオーディオ・ストリームにマージされるので、音がどの方向から到達するかを知ることが不可能であり、これは、いずれかの所与の瞬間に誰が話しているかを判定することを困難にし得る。
ほとんどのウェブカメラが胸の中間から上方向の顔の画像を捕捉するので、参加者の手は、頻繁に示されず、したがって、標準の会話の重大な部分であるハンド・ジェスチャは、典型的なビデオ会議では伝わらない。
更に、トラフィックの品質(ビットレート、パケット損失、及び待ち時間)は、経時的に変化し得、ビデオ電話会議の品質は、それにしたがって変動し得る。
典型的には、ビデオ会議画像は、カメラの解像度が制限されること(共通のラップトップ・カメラにおいて1080×720画素)、モーション・ブラー、及びビデオ圧縮に起因して、ぼやける傾向がある。多くのケースでは、ビデオは、フリーズし、オーディオが金属音を発し又は失われる。
全てのそれらの制限は、Zoomの倦怠感として知られるエフェクトを生じさせ(https://hbr.org/2020/04/how-to-combat-zoom-fatigue)、それは、同一の部屋内での標準ミーティングにおいてそれらが典型的には行う、ビデオ会議ミーティングの何時間も後に、参加者がより疲弊することを結果としてもたらす。
https://hbr.org/2020/04/how-to-combat-zoom-fatigue https://en.wikipedia.org/wiki/Iterative_closest_point https://flame.is.tue.mpg.de/home
参加者の間の仮想対話を高め、現在のビデオ電話会議サービスと関連付けられた様々な他の問題を克服する必要性が増大している。
方法の実例を例示する図である。 コンピュータ化環境の実例を例示する図である。 コンピュータ化環境の実例を例示する図である。 データ構造の実例を例示する図である。 参加者の凝視方向に従って参加者の部分の3Dモデルのビューの方向を修正する工程の実例を例示する図である。 方法の実例を含む図である。 画像及び工程の実例の図である。 視差補正の実例の図である。 2.5次元イリュージョンの実例を例示する図である。 3Dスクリーン又は仮想現実ヘッドセットに対する3Dコンテンツの実例を例示する図である。 5人の参加者によってポピュレートされる仮想3D環境のパノラミック・ビュー、仮想3D環境内の参加者の一部の部分的ビュー、及びハイブリッド・ビューの実例の図である。 異なる露光の画像の実例及び異なるシェードの顔の画像の実例の図である。 顔の画像及び画像のセグメント化の実例の図である。 方法の実例を例示する図である。 3Dモデル及びUVマップの実例の図である。 上唇及び下唇に関する2D-2D対応関係計算の実例の図である。 方法の実例の図である。 方法の実例の図である。 方法の実例の図である。 顔のテキスチャ・マップを例示する図である。 方法の実例を例示する図である。 2人の人物をキャプチャする画像の実例、及び1人若しくは複数の人物又は更に多くの参加者を表すアバタの実例を例示する図である。 参加者の凝視方向の実例を例示する図である。 方法の実例を例示する図である。 コンピュータ化環境、共有フォルダ、及びユーザ・デバイスの間で交換される様々な信号の実例を例示する図である。 タイミング図の実例を例示する図である。 方法の実例を例示する図である。 画像とフォアグラウンド・セグメント化及びバックグラウンド・セグメント化との実例を例示する図である。 方法の実例を例示する図である。 リップスティックなしの参加者の実例を例示する図である。 方法の実例を例示する図である。 方法の実例を例示する図である。 仮想3Dビデオ会議の異なる部分を例示する図である。 リップスティックを有する参加者の実例を例示する。 リップスティックなしの参加者のアバタの実例を例示する図である。 参加者の唇のリップスティック自由表現の実例を例示する図である。 リップスティックを有する参加者のアバタの実例を例示する図である。
以下の詳細な説明では、開示の実施例の完全な理解を提供するために、多数の特定の詳細が示される。
しかしながら、それらの特定の詳細なしに、開示の本実施例が実践され得ることが当業者によって理解されよう。他の例では、開示の本実施例を曖昧にしないように、公知の方法、手順、及び構成要素は、詳細には説明されていない。
開示の実施例として見なされる主題は特に、明細書の結論部分において指し示され、明確に特許請求される。しかしながら、機構及び動作の方法の両方について、開示の実施例は、それらの目的、特徴、及び利点と共に、添付図面を読むときに、以下の詳細な説明を参照することによって最良に理解され得る。
例示の簡易さ及び明瞭さのために、図面に示される要素は、必ずしも同一縮尺に描かれていないことを認識するであろう。例えば、要素の一部の寸法は、明瞭さのために他の要素に対して誇張され得る。更に、適切であると考えられる場合、対応する要素又は同様の要素を示すために、図面の間で参照符号が繰り返され得る。
開示の例示される実施例が、ほとんどの部分について、当業者に既知の電子構成要素及び回路を使用して実装され得ることを理由に、開示の本実施例の基本的な概念の理解及び評価のために、並びに開示の本実施例の教示を難読化せず、若しくは教示から逸らさないために、上記例示されるように、必要とであると考えられるよりもいずれかの大きい程度に詳細が説明されない。
明細書での方法へのいずれかの言及は、方法を実行する能力を有するシステムに必要な変更を加えて適用されるべきであり、非一時的であり、及び方法を実行するための命令を記憶したコンピュータ可読媒体に必要な変更を加えて適用されるべきである。
明細書でのシステムへのいずれかの言及は、システムによって実行され得る方法に必要な変更を加えて適用されるべきであり、非一時的であり、及びシステムによって実行可能な命令を記憶したコンピュータ可読媒体に必要な変更を加えて適用されるべきである。
明細書での非一時的であるコンピュータ可読媒体への言及は、コンピュータ可読媒体に記憶された命令を実行するときに適用され得る方法に必要な変更を加えて適用されるべきであり、コンピュータ可読媒体に記憶された命令を実行するように構成されたシステムに必要な変更を加えて適用されるべきである。
用語「及び/又は(and/or)」は、加えて又は代わりに、を意味する。
「ユーザ」への言及は、用語「参加者」に必要な変更を加えて適用されるべきであり、逆もまたそうである。
ビデオに関連する方法、非一時的コンピュータ可読媒体、及びシステムが提供され、例えば、3Dビデオ電話会議に適用可能であり得る。本出願において例示される実例及び/又は実施例の少なくとも一部は、他の目的のために、及び/又は他の用途の間に必要な変更を加えて適用され得る。
例えば、複数の参加者を伴う3Dビデオ会議を参照する。第1の参加者が撮像され、第2の参加者は、仮想3Dビデオ会議環境内で第1の参加者の第1のアバタ(又は、いずれかの他の3D視覚的表現を見ることを望む。
第1のアバタ(又は、いずれかの他の3D視覚的表現)の生成は、様々な方式において、例えば、第2の参加者のデバイスによってのみ、第1の参加者のデバイスによってのみ、第2の参加者のデバイスによって部分的に、第1の参加者のデバイスによって部分的に、第1の参加者のデバイスと第2の参加者のデバイスとの間の協調によって、別のコンピュータ化システム(それらに限定されないが、クラウド・システム若しくはリモート・システムなど)によって、及び/又は1つ又は複数のデバイスのいずれかの組み合わせによって、実行され得る。
仮想3Dビデオ会議環境にアバタ(又は、いずれかの他の3D視覚的表現)を含めることは、様々な方式において、例えば、第2の参加者のデバイスによってのみ、第1の参加者のデバイスによってのみ、第2の参加者のデバイスによって部分的に、第1の参加者のデバイスによって部分的に、第1の参加者のデバイスと第2の参加者のデバイスとの間の協調によって、別のデバイス(クラウド・デバイス若しくはリモート・デバイスなど)によって、及び/又は1つ又は複数のデバイスのいずれかの組み合わせによって、実行され得る。
第1のアバタを生成するいずれかのステップの実行の1つの方式への言及、及び/又は仮想3Dビデオ会議環境にアバタを含めるいずれかのステップの実行の1つの方式への言及は、実行のいずれかの他の方式に必要な変更を加えて適用され得る。
第1のアバタを生成すること、及び/又は第1のアバタを含めることは、第1のユーザのデバイス又は第1のユーザのデバイスと関連付けられたカメラ若しくはセンサによって得られる情報に応答し得る。情報の非限定的な例は、第1の参加者に関する情報及び/又は第1の参加者の画像の獲得に関する情報(例えば、カメラ設定、照射条件及び/又は周囲条件)を含み得る。
システムは、複数のユーザ・デバイス及び/又はサーバ、クラウド・コンピュータなどの中間デバイス、並びに同様のものを含み得る。
図1は、方法200の実例を例示する。
方法200は、複数の参加者の間で三次元ビデオ会議を行うためのものである。
方法200は、ステップ210、220、及び230を含み得る。
ステップ210は、参加者と関連付けられた仮想3Dビデオ会議環境の表現内の各々の参加者の凝視方向に関する凝視方向情報を受信することを含み得る。
参加者と関連付けられた仮想3Dビデオ会議環境の表現は、参加者に示される表現である。異なる参加者は、仮想3Dビデオ会議環境の異なる表現と関連付けられ得る。
凝視方向情報は、参加者の凝視の検出された方向を表し得る。
凝視方向情報は、参加者の凝視の推定された方向を表し得る。
ステップ220は、参加者ごとに、参加者の凝視方向を反映する、仮想3Dビデオ会議環境内の更新された3D参加者表現情報を判定することを含み得る。ステップ220は、仮想3Dビデオ会議環境が参加者の凝視方向からどのように見られるかを推定することを含み得る。
ステップ230は、少なくとも1人の参加者に対して、仮想3Dビデオ会議環境の更新された表現を生成することを含み得、仮想3Dビデオ会議環境の更新された表現は、複数の参加者の少なくとも一部についての更新された3D参加者表現情報を表す。ステップ230は、複数の参加者の少なくとも一部についての仮想3Dビデオ会議環境の画像をレンダリングすることを含み得る。代わりに、ステップ230は、レンダリング工程にフィードされることになる入力情報(3Dモデル及び/又は1つ若しくは複数のテキスチャ・マップ)を生成することを含み得る。
方法200はまた、複数の参加者の参加者のデバイスによって、仮想3Dビデオ会議環境の更新された表現を表示するステップ240を含み得、更新された表現は、参加者と関連付けられ得る。
方法200は、少なくとも1人の参加者の少なくとも1つのデバイスに、仮想3Dビデオ会議環境の更新された表現を伝送するステップ250を含み得る。
複数の参加者は、複数の参加者デバイスと関連付けられ得、受信すること及び判定することは、複数の参加者デバイスの少なくとも一部によって実行され得る。方法200のいずれかのステップは、複数の参加者デバイスの少なくとも一部によって、又は別のコンピュータ化システムによって実行され得る。
複数の参加者は、複数の参加者デバイスと関連付けられ得、受信すること及び判定することは、複数の参加者デバイスのいずれかとは異なるコンピュータ化システムによって実行され得る。
方法200は、集合的に290と表わされる、更なる追加のステップの1つを含み得る。
1つ又は複数の追加のステップは、以下のうちの少なくとも1つを含み得る:
a.仮想3Dビデオ会議環境内の第3の参加者の視野を判定すること。
b.第3の参加者の視野を反映するように第3の参加者デバイスに送信され得る、仮想3Dビデオ会議環境の第3の更新された表現を設定すること。
c.異なる状況下の参加者の3D表現を生成するための初期の3D参加者表現情報を受信すること。異なる状況は、(a)異なる画像獲得条件(異なる照射条件及び/又は収集条件)、(b)凝視の異なる方向、及び(c)異なる表情の少なくとも1つを含み得る。
d.実行時間内に、状況メタデータを受信し、状況メタデータに基づいて、更新された3D参加者表現情報をリアルタイムで修正すること。
e.参加者ごとに、参加者の複数の3Dモデルから選択された3Dモデルを繰り返して選択すること、
f.参加者の1つの選択された3Dモデルから参加者の別の3Dモデルへの遷移を繰り返して円滑にすること。
g.必要とされる解像度に基づいて、複数のニューラル・ネットワークの少なくとも1つのニューラル・ネットワークの出力を選択すること。
h.参加者の頭部姿勢及び表情に関する参加者外見情報を受信又は生成すること。
i.参加者外見情報を反映するように、更新された3D参加者表現情報を判定すること。
j.参加者を表すアバタの各々の形状を判定すること。
k.更新された3D参加者表現情報のセグメントの関連性を判定すること。
l.関連性及び利用可能なリソースに基づいて、どのセグメントを送信するかを選択すること。
m.参加者の3D参加者表現情報の3Dモデル及び1つ又は複数のテキスチャ・マップを生成すること。
n.参加者の顔の1つ又は複数の隠蔽エリアの3D参加者表現情報を推定すること。
o.3Dモデル隠蔽エリア及び1つ又は複数の隠蔽部分テキスチャ・マップを推定すること。
p.アバタのサイズを判定すること。
q.参加者からのオーディオに関するオーディオ情報及び外見情報を受信すること。
r.オーディオ情報と3D参加者表現情報との間で同期すること。
s.参加者からのオーディオに基づいて、参加者の顔の表情を推定すること。
t.参加者の動きを推定すること。
3D参加者表現情報を受信することは、初期化ステップの間に行われ得る。
初期の3D参加者表現情報は、初期の3Dモデル及び1つ又は複数の初期のテキスチャ・マップを含み得る。
3D参加者表現情報は、3Dモデル及び1つ又は複数のテキスチャ・マップを含み得る。
3Dモデルは、形状、姿勢、及び表情についての別個のパラメータを有し得る。
1つ又は複数のテキスチャ・マップの各々は、形状、姿勢、及び表情の少なくとも1つに基づいて、選択及び/又は増補され得る。
1つ又は複数のテキスチャ・マップの各々は、形状、姿勢、表情、及び参加者の顔と参加者の顔の画像を捕捉するカメラの光学軸との間の角度関係の少なくとも1つに基づいて、選択及び/又は増補され得る。
参加者ごとに、更新された3D参加者表現情報を判定することは、以下のうちの少なくとも1つを含み得る:
a.更新された3D参加者表現情報を判定するための1つ又は複数のニューラル・ネットワークを使用すること。
b.更新された3D参加者表現情報を判定するための複数のニューラル・ネットワークを使用すること、複数のニューラル・ネットワークの異なるニューラル・ネットワークは、異なる状況と関連付けられ得る。
c.更新された3D参加者表現情報を判定するための複数のニューラル・ネットワークを使用すること、複数のニューラル・ネットワークの異なるニューラル・ネットワークは、異なる解像度と関連付けられ得る。
仮想3Dビデオ会議環境の更新された表現は、複数の参加者の少なくとも一部の参加者ごとのアバタを含み得る。
仮想3Dビデオ会議環境内のアバタの凝視方向は、(a)アバタによって表わされ得る参加者の凝視方向と、(b)参加者に表示される仮想3Dビデオ会議環境の表現と、の間の空間的関係を表し得る。
仮想3Dビデオ会議環境内のアバタの凝視方向は、参加者の頭部を捕捉したカメラの光学軸に対して不可知であり得る。
仮想3Dビデオ会議環境の更新された表現内の参加者のアバタは、第1の参加者の目を横切る仮想平面上に位置する仮想カメラによって捕捉されるとして、仮想3Dビデオ会議環境の更新された表現に現れ得る。したがって、仮想カメラ及び目は、例えば、同一の高さに位置し得る。
更新された3D参加者表現情報は、圧縮され得る。
仮想3Dビデオ会議環境の更新された表現は、圧縮され得る。
3Dモデル及び1つ又は複数のテキスチャ・マップの生成は、異なる状況下で獲得された参加者の画像に基づき得る。
異なる状況は、画像を獲得したカメラの異なる視認方向、参加者の異なる姿勢、及び参加者の異なる表情を含み得る。
1つ又は複数の隠蔽エリアの3D参加者表現情報の推定は、1つ又は複数の敵対的生成ネットワークを使用して実行され得る。
参加者ごとに、更新された3D参加者表現情報を判定することは、以下のうちの少なくとも1つを含み得る:
a.超解像技術を適用すること。
b.ノイズ除去を適用すること。
c.照射条件を変更すること。
d.ウェアラブル・アイテム情報を追加又は変更すること。
e.メイクアップ情報を追加又は変更すること。
更新された3D参加者表現情報は、暗号化され得る。
仮想3Dビデオ会議環境の更新された表現は、暗号化され得る。
外見情報は、参加者の頭部姿勢に関するものであり得、及び表情並びに/又は参加者の唇の動きに関するものであり得る。
参加者からのオーディオに基づいて参加者の顔の表情を推定することは、オーディオ・パラメータを顔の表情パラメータにマッピングするように訓練されたニューラル・ネットワークによって実行され得る。
図2は、ユーザ4010(1)~4010(R)のユーザ・デバイス4000(1)~4000(R)を含むコンピュータ環境の実例を例示する。インデックスrは、1~Rの範囲にあり、Rは、正の整数である。r番目のユーザ・デバイス4000(r)は、1つ又は複数のプロセシング回路4001(r)、メモリ4002(r)、ディスプレイ4003(r)などのマン・マシン・インタフェース、及びカメラ4004(r)などの1つ又は複数のセンサを含み得る、いずれかのコンピュータ化デバイスであり得る。r番目のユーザ4010(r)は、r番目のユーザ・デバイス4000(r)と関連付けられる(を使用する)。カメラは、マン・マシン・インタフェースに属し得る。
ユーザ・デバイス4000(1)~4000(R)及びリモート・コンピュータ化システム4100は、ネットワーク4050などの1つ又は複数のネットワークを通じて通信し得る。1つ又は複数のネットワークは、いずれかのタイプのネットワーク、インターネット、有線ネットワーク、無線ネットワーク、ローカル・エリア・ネットワーク、及びグローバル・ネットワークなどであり得る。
リモート・コンピュータ化システムは、1つ又は複数のプロセシング回路4101(1)、メモリ4101(2)を含み得、いずれかの他の構成要素を含み得る。
ユーザ・デバイス4000(1)~4000(R)及びリモート・コンピュータ化システム4100のいずれかの1つは、本明細書において例示されるいずれかの方法の実行に参加し得る。参加することは、先述の方法のいずれかの少なくとも1つのステップを実行することを意味する。
いずれかのプロセシング回路、1つ又は複数のネットワーク・プロセッサ、非ニューラル・ネットワーク・プロセッサ、レンダリング・エンジン、及び画像プロセッサなどが使用され得る。
1つ又は複数のニューラル・ネットワークは、ユーザ・デバイスに、複数のユーザ・デバイスに、及びユーザ・デバイスのいずれかの外のコンピュータ化システムに位置し得る。
図3は、ユーザ4010(1)~4010(R)のユーザ・デバイス4000(1)~4000(R)を含むコンピュータ環境の実例を例示する。インデックスrは、1~Rの範囲にあり、Rは、正の整数である。r番目のユーザ・デバイス4000(r)は、1つ又は複数のプロセシング回路4001(r)、メモリ4002(r)、ディスプレイ4003(r)などのマン・マシン・インタフェース、及びカメラ4004(r)などの1つ又は複数のセンサを含み得る、いずれかのコンピュータ化デバイスであり得る。r番目のユーザ4010(r)は、r番目のユーザ・デバイス4000(r)と関連付けられる(を使用する)。
ユーザ・デバイス4000(1)~4000(R)は、ネットワーク4050などの1つ又は複数のネットワークを通じて通信し得る。
ユーザ・デバイス4000(1)~4000(R)のいずれかの1つは、本明細書において例示されるいずれかの方法の実行に参加し得る。参加することは、先述の方法のいずれかの少なくとも1つのステップを実行することを意味する。
図4は、様々なデータ構造の実例を例示する。データ構造は、ユーザ・アバタ4101(1)~4101(j)、テキスチャ・マップ4102(1)~4102(k)、3Dモデル4103(1)~4103(m)、オブジェクトの3D表現4104(1)~4104(n)、及び本出願において言及されるいずれかのマッピング又は他のデータ構造を含み得る。
いずれかのユーザは、いずれかのタイプの1つ又は複数のデータ構造、アバタ、3Dモデル、及びテキスチャ・マップなどと関連付けられ得る。
実例の一部は、ユーザが設定されるミーティング・ルーム、レストラン、カフェ、コンサート、パーティ、外部環境、又は想像上の環境などの仮想3Dビデオ会議環境を指す。各々の参加者は、仮想バックグラウンド若しくは実際のバックグラウンドを選び得、若しくはそうでなければ、それらと関連付けられ得、及び/又は、参加者の少なくとも一部に関連するアバタが表示されるいずれかの仮想バックグラウンド若しくは実際のバックグラウンドを選択し得、若しくはそうでなければ、それらを受信し得る。仮想3Dビデオ会議環境は、参加者の1人又は複数を表す1つ又は複数のアバタを含み得る。1つ又は複数のアバタは、仮想3Dビデオ会議環境内に仮想的に位置し得る。仮想3Dビデオ会議環境(アバタに関連し得、又は関連し得ない)1つ又は複数の特徴は、1人の参加者から別の参加者へと異なり得る。
ユーザの全身、ユーザの身体の一部、又はユーザの顔のみのいずれかは、この環境内で見られ、よって、アバタは、参加者の全身、参加者の身体の身体の上位部分、又は参加者の顔のみを含み得る。
仮想3Dビデオ会議環境内で、相互に近くに実際に位置付けられる実際のユーザの間に存在する視覚対話をエミュレートし得るユーザの間の改善された視覚対話が提供され得る。これは、アイ・コンタクト、及び特定のユーザに向けられる表情を生じさせる、又は止めることを含み得る。
異なるユーザの間でのビデオ電話会議では、各々のユーザは、1人又は複数の他のユーザのビューが設けられ得、システムは、ユーザが見ているポジション(例えば、他のユーザの1人を見ている、ユーザの誰も見ていない、プレゼンテーションを示すスクリーンを見ている、ホワイトボードを見ているなど)を判定し得(凝視方向及び仮想環境に基づいて)、これは、仮想環境内のユーザの仮想表現(3Dモデル)によって反映され、その結果、他のユーザは、ユーザが見ているポジションを判定し得る。
図5は、参加者の凝視方向に従って、参加者の一部のアバタのビューの方向を修正する工程の実例を例示する。図5の上部は、テーブル60の近くに座っている5人の参加者51、52、53、54、及び55のパノラミック・ビュー41によって表わされる仮想3Dビデオ会議環境である。全ての参加者は、同一の方向、スクリーンに対向する。
下の画像では、第5の参加者が第5の参加者に提示されるような環境内の第1の参加者の3Dモデルを見ていることが検出されたように、第5の参加者のアバタは、第1の参加者のアバタに対向する。
ユーザの目及び凝視方向を追跡することは、ユーザが見ている方向、及びユーザが見ている人物又はオブジェクトを判定するためにも使用され得る。この情報は、アバタの頭部及び目を回転させるために使用され得、その結果、仮想空間内で、それは、ユーザが現実世界にあるのと同一の人物又はオブジェクトを見ているように現れる。
ユーザの頭部姿勢及び目の凝視を追跡することは、ユーザのスクリーン上の仮想世界の外観を制御するためにも使用され得る。例えば、ユーザがスクリーンの右側を見ている場合、仮想カメラの視点は、右に移動し得、その結果、ユーザが見ている人物又はオブジェクトは、ユーザのスクリーンの中心に位置する。
カメラの元の視点とは異なる或る視点からのユーザの頭部、身体、及び手をレンダリングすることは、以下で説明されるように、異なる方法において行われ得る。
一実施例では、3Dモデル及びテキスチャ・マップは、ミーティングの開始の前に作成され、このモデルは次いで、ビデオ画像から推定されるユーザの姿勢及び表情に従った実行時間においてアニメ化及びレンダリングされる。
テキスチャ・マップは、各々のカラー画素が3Dモデル内の或るエリアの赤、緑、及び青の反射係数を表す2D画像である。テキスチャ・マップの実例が図20に示される。テキスチャ・マップ内の各々のカラー画素は、3Dモデルの表面上の特定のポリゴン(例えば、三角形)内の或る座標に対応する。
三角形から構成される3Dモデル及びそれらの三角形へのテキスチャ・マップのマッピングの実例が図15に示される。
概して、テキスチャ・マップ内の各々の画素は、それがマッピングされる三角形のインデックス及び三角形内のその厳密な位置を定義する3つの座標を有する。
固定した数の三角形及び頂点から構成される3Dモデルは、3Dモデル変化として変形され得る。例えば、顔の3Dモデルは、顔がその表情を変形させるにつれて変形され得る。それにも関わらず、顔の表情が変化するにつれて三角形の3D位置が変化するときでさえ、テキスチャ・マップ内の画素は、同一の三角形内の同一の位置に対応する。
テキスチャ・マップは、一定であり得、又は時間、表情、又は視認角度に応じて可変であり得る。いずれかのケースでは、テキスチャ・マップ内の所与の画素と或る3Dモデル内の三角形内の或る座標との対応関係は、変化しない。
更なる別の実施例では、新たなビューは、ビデオ・カメラから取得されるリアルタイム画像及び新たな視点(仮想カメラ)のポジションに基づいて作成される。
オーディオ及び唇の動き及び顔表情の間で最良に整合させるために、姿勢及び表情パラメータに基づいて3Dモデルをレンダリングすることから作成されるオーディオ及びビデオが同期される。同期は、同一の時間フレームに対応する1つのパケットに3Dモデル・パラメータ及びオーディオをパッケージ化することによって、又はタイムスタンプをデータ・ソースの各々に追加することによって行われ得る。
レンダリングされたモデルの自然な外観を更に改善するために、オーディオ・ニューラル・ネットワークは、オーディオに基づいて顔表情係数を推定するように訓練され得る。これは、話している人物のビデオ及びこの発話の対応するオーディオのデータベースを使用して、ニューラル・ネットワークを訓練することによって行われ得る。ビデオは、アバタによって表わされるはずの参加者のビデオ、又は他の人物のビデオであり得る。十分な実例を仮定して、ネットワークは、オーディオ(すなわち、音素)と対応する顔の動き、殊に、唇の動きとの間の対応関係を学習する。ビデオ品質が低いときでさえ、又は顔の一部が元のビデオ・カメラに対して妨害されるときでさえ、そのような訓練されたネットワークは、顔表情、特に、唇の動きを継続してレンダリングすることを有効にする。
更なる別の実施例では、ニューラル・ネットワークは、専門唇リーダによって行われるように、唇及び喉の動きから、又はいずれかの他の顔のキューからオーディオ音を推定するように訓練されることができる。これは、オーディオが中断されるとき、又はその品質を低減させるバックグラウンド・ノイズが存在するとき、オーディオの品質を作成又は改善することを有効にする。
更なる別の実施例では、ニューラル・ネットワークは、高品質でオーディオを再構築することができるパラメータの潜在的なベクトルを発見することによって、オーディオを圧縮するように訓練される。そのようなネットワークは、所与のオーディオ品質のための標準的なオーディオ圧縮方法により可能であるよりも低いビットレートにおいて、オーディオを圧縮し、又は所与のビットレートに対してより高いオーディオ品質を取得する役割を果たす。
そのようなネットワークは、或るコスト関数の下で元の発話にできるだけ類似する発話の影響を受ける、固定した数の係数にオーディオ信号を圧縮するように訓練され得る。
パラメータの集合への発話の変換は、単に、標準的な発話圧縮アルゴリズムにおいて一般的であるような線形変換ではなく、非線形関数であり得る。1つの実例は、ネットワークが、話されたオーディオの張る集合を形成する基本ベクトルの集合を学習及び定義する必要があることである。
パラメータは次いで、この集合によって張られるようなオーディオのベクトル係数である。
図6は、方法2001を例示する。
方法2001は、複数の参加者の間で3Dビデオ会議を行うためのものであり、方法は、ステップ2011及び2021を含み得る。
ステップ2011は、参加者ごとに、参加者を表す、仮想3Dビデオ会議環境内の更新された3D参加者表現情報を判定することを含み得る。判定することは、参加者によって生成されるオーディオと、参加者の外観に関する外見情報とによって生成されるオーディオに基づき得る。
ステップ2021は、少なくとも1人の参加者に対し、仮想3Dビデオ会議環境の更新された表現を生成することを含み得、仮想3Dビデオ会議環境の更新された表現は、複数の参加者の少なくとも一部についての更新された3D参加者表現情報を表す。例えば、参加者によるいずれかの動きは、環境の一部を公開し得又はひとまとめにし得る。加えて、参加者による動きは、動きが環境の異なる部分を照らすように露光を修正し得るように、部屋内の照明に影響し得る。
方法は、或る参加者からのオーディオと或る参加者の外見情報との間で整合させることを含み得る。
外見情報は、参加者の頭部姿勢及び表情に関するものであり得る。
外見情報は、参加者の唇の動きに関するものであり得る。
3Dモデルの作成
ユーザの3Dモデル及びテキスチャ・マップは、2D又は3Dビデオ・カメラからオン・ザ・フライで作成されることができ、又は3Dビデオ電話会議の開始の前に準備されることができる。それらはまた、ミーティングの前に準備される高品質モデルと、ミーティングの間に作成されるリアルタイム・モデルとの組み合わせであることができる。例えば、新たに成長した髭など、高品質モデルに対する参加者の外観における変化は、オン・ザ・フライ・カメラからの情報を使用して調節され得る。別の実例として、新たなテキスチャ・マップは、人物の現在見ているものに基づいて、ミーティングの間にビデオから作成されることができる。しかしながら、このテキスチャ・マップは、カメラによって現在は見られ得ないエリアの妨害に起因したデッド・ゾーン(隠蔽エリア)を含み得る。そのようなデッド・ゾーンは、前に作成されたテキスチャ・マップを使用することによって埋められることができる。
それらのゾーンを埋めることは、レジストレーションとして既知の方法を使用して、2つのテキスチャ・マップ内のランドマークを整合させることによって実行される。整合が実行されると、隠蔽エリアについてのデータは、前に準備されたテキスチャ・マップから取られる。
現在のテキスチャ・マップと前のテキスチャ・マップとの間の照射補正は、両方のマップ内で示され得るエリアに基づいて計算され得る。それらの補正は、現在のテキスチャ・マップに適用され得、その結果、異なる時間に捕捉されたテキスチャの間の明確なボーダ・ラインがない。加えて、異なる時間からのテキスチャの間の鮮明な遷移を回避するために、例えば、2つのテキスチャ・マップの加重平均を使用することによって、テキスチャの継続したブレンディングが適用されることができ、重みは、テキスチャの間の遷移ゾーンに沿って変化する。上記言及された方法は、テキスチャ・マップ、材料マップ、及び3Dモデルをもマージするために使用され得る。
ビデオ・カメラが2Dカメラである場合、畳み込みニューラル・ネットワークなどのコンピュータ化モデルは、2D画像から3Dモデルを作成するために使用され得る。それらのモデルは、パラメータが顔の形状、表情、及び姿勢、身体、並びに手を判定する、パラメトリック・モデルであり得る。そのようなモデルは、2D画像及び対応する3Dモデルの集合を使用して訓練されることができる。対応する3Dモデルは、いくつかの方法において作成されることができる。レンダリング工程では、可変の照射に対してモデルをロバストにするために、異なる照射が使用されることができる。
別の方法では、真の人物の多くの2D画像が取得されることができ、次いで、フォトグラメトリ・ソフトウェアを使用することによってそれらの複数の2D画像から3Dモデルが作成されることができる。更なる別の方法では、Kinnectカメラ又はIntelRealSenseカメラなどのRGBカメラをも含む深度カメラは、3D深度モデル及び対応する2D画像の両方を取得するために使用されることができる。実行時間において、上記説明された方法を使用してネットワークを訓練した後、それは、入力として2D画像が供給され得、ネットワークは、3Dモデルを出力する。3Dモデルは、ポイントクラウド、メッシュ、又は所与のパラメトリック空間内の3Dモデルを記述するパラメータの集合として出力されることができる。
カメラが3D深度カメラである場合、モデルをより正確にし、曖昧さを解決するために、深度データが使用されることができる。例えば、1つが人物の頭部の前向き画像のみを取得する場合、画像内の各々のポイントの厳密な深度、すなわち、鼻の長さを知ることは不可能であり得る。異なる角度からの顔の1つよりも多い画像が存在するとき、そのような曖昧さが解決され得る。それにも関わらず、1つの画像のみにおいて見られる閉塞したエリア又は不正確さが残り得る。深度カメラからの深度データは、上記説明された曖昧さの問題を解決するポイントごとに、深度情報により3Dモデルを生成することを支援し得る。
オフライン3Dモデル作成工程が使用され得る場合、これは、単一の画像、複数の画像、ビデオ、又はいくつかのビデオを使用して行われることができる。ユーザは、頭部、手、及び身体を回転させるように依頼され得、その結果、全てのビューを網羅し、モデル内の欠落するエリアを回避するために、多くの角度からそれが見られ得る。
そのようなエリアがなおも存在する場合、それらは、モデル化されたエリアから、又は多くの例を使用して訓練されたニューラル・ネットワークによって、外挿又は推論され得る。
特に、敵対的生成ネットワーク(GAN:Generative Adversarial Network)は、カメラが人物を現在見ていることがある角度とは異なり得る角度から人物の画像を生成するように、或る人物の多くの画像に基づいて、又は複数の人物の多くの画像に基づいて訓練され得る。
実行時間において、そのようなネットワークは、入力及びカメラ・ポジションとして人物の画像を受信し、カメラ・ポジションから人物がレンダリングされるべきである。ネットワークは、カメラの見通し線にほぼ並列であることに起因して、入力画像内で不明瞭にされ得、又は入力画像内で低解像度にあり得る部分(すなわち、正面画像の頬)を含む、異なるカメラ・ポジションからその人物の画像をレンダリングする。
図7は、元の画像内で見られ得ないエリア内でテキスチャを完成させるために、敵対的生成ネットワーク109を使用する工程100の実例を示す。GANにより、全テキスチャ・マップにより完全且つ正確な3Dモデルを構築し、それをレンダリングする必要があり得ない。
画像101は、ニューラル・ネットワーク103に入力され、ニューラル・ネットワーク103は、画像の特性105(テキスチャ・パラメータ、表情パラメータ、及び/又は形状パラメータ含み得る)を出力し、例えば、ニューラル・ネットワークは、テキスチャ・パラメータをテキスチャ・マップに拡張し得る。ニューラル・ネットワークはまた、追加の情報102を受信し得、追加の情報に基づいても特性105を生成し得る。
差分的レンダラ107は、テキスチャ・マップ、表情、及び形状パラメータから画像をレンダリングし得る。この画像は、元の入力画像内で見られなかった頭部の部分の閉鎖に起因した欠落する部分を有し得る。敵対的生成ネットワーク109(GAN)は、いずれの欠落する部分もなしに、レンダリングされた画像を全画像110に完成させ得る。
例えば、ユーザの顔が均一に照射され得ない、例えば、顔の側面において窓から、又はユーザの頭部の上に或るスポット・プロジェクタからの強い照射があるケースでは、モデルのテキスチャ・マップ内の照射を補正するために、敵対的生成ネットワーク(GAN)も使用され得る。
3Dモデルを補正し、例えば、頬による又は髪の毛による妨害に起因して、例えば、画像内で適切に見られ得ない耳を作成するためにも、GANネットワークが使用され得る。
ユーザも、姿勢及び表情の包括的モデルを作成することができるように、ポーズをとり、異なる顔表情を行うように依頼され得る。そのような姿勢及び表情の実例は、笑うこと、しかめっ面すること、口及び目を開き及び閉じることであり得る。
3Dモデルは、形状、姿勢、及び表情についての別個のパラメータを有し得る。形状パラメータは、特定の人物のみに依存し得、姿勢及び表情とは独立し得る。したがって、人物が頭部を動かせ、話し又は様々な顔表情を成すときでさえ、それらは一定のままである。したがって、或る人物のモデル化工程の間、モデル化される人物の表情及び姿勢は、3Dモデルを作成するために使用され得るビデオ又は画像を捕捉する間に静的である必要がなく、又は凍結される必要がない。3Dモデルの形状が静的であると考えられるので、他に、3Dモデルを作成するために必要である、3Dカメラ又は2Dカメラの集合を使用する必要がない。これは、一時的に同期され得るいくつかのマルチ・ビュー・カメラを使用する要件を緩和する。複数の画像から作成される全てのモデルは、1つの3Dモデル、又は表情若しくは照射条件により可変であるいくつかの異なるモデルにマージされ得るが、その全てが共通形状パラメータを有し得る。
リアルタイム・レンダリング工程の間、視認角度又は照射に関して最も近いモデル又はモデル(複数可)は、モデル変換及びレンダリング工程のための開始ポイントとして選ばれ得る。
例えば、0、10、20、30、及び40度の視認角度を指す異なるモデルが利用可能であり、所与の瞬間に、ユーザが32度の角度においてモデルを見ることを望む場合、30度の角度に対応するモデルは、モデル変換のための開始ポイントとして選ばれ得る。
更に、いくつかのそのようなモデルは、事前に記録された状態の一部ではあり得ない状態にあるモデルを取得するように補間又は外挿され得る。
3Dアバタ、3Dモデル、及び2Dテキスチャ・マップを作成する工程の間、作成され得る3Dモデルの品質は、光学的歪みを含むカメラの単純な線形幾何学的投影モデル又はより複雑なモデルを使用して、異なる角度からそれを二次元画像に投影することによって評価され得る。2D画像への3Dモデルの投影は、カメラ又はカメラ(複数可)によって捕らえられた画像と比較され得る。そのように行う際に、カメラの幾何学的歪みが投影工程においてモデル化され得るように、画像を捕らえるために使用され得るカメラをモデル化することが有益であり得る。モデル化することは、それらに限定されないが、カメラの焦点長、画素サイズ、総視野、樽形歪み若しくは糸巻形歪みなどの非線形幾何学的歪み、又は光学系の歪み、殊に、魚眼カメラなどの広視野を有するカメラに対するいずれかの他の歪みをモデル化することを含み得る。
モデル化することはまた、光学及び色の歪みに起因したぼやけをモデル化することを含み得る。3D幾何学的構造が正確であり得ること、また、反映マップが正確であり得ることを検証するために、3Dモデルの投影が捕らえられた2D画像と比較され得る。
投影及び捕らえられた画像を比較するために、いくつかの方法が使用され得る、例えば:
a.画像ペア内で発見され得る、目及び唇の隅、鼻の先端及びエッジ、頬及び顎のエッジなど、顔のランドマークの位置を比較すること。
b.シルエットの位置を比較すること。
c.両方の画像内で検出された隅及び線の位置を比較すること。
d.2つの画像のグレー・レベルを比較すること。
発見され得るいずれかの差分は、投影された画像と捕らえられた画像との間の差分を削減する方式において、3Dモデル及び反映マップを更新するために使用され得る。例えば、捕らえられた2D画像内のその位置と比較して、3Dモデルの投影における左にはるかに遠くに目の隅が位置し得ることが発見され得る場合、投影内のランドマークの位置と捕らえられた画像との間の誤差を低減させるために、目の隅の位置が右に移るように、モデルが改正されることができる。
3Dメッシュ内の3Dポイントの位置を変更することによって、又はそのランドマークの位置に影響を及ぼすパラメトリック・モデルにおけるパラメータを変更することによって、これが行われることができる。
この工程は、レンダリングされた画像及び捕らえられた画像における誤差を低減させるために使用され得、よって、作成され得るモデルの品質を改善し得る。
特に、モデルと捕らえられた画像との間のいずれかの幾何学的差分又はグレー・レベル差分を捕捉するために、0、45、及び90度などの異なる角度において画像を投影することが有益であり得る。
3Dモデルの品質及びテキスチャ・マップは、アバタの作成の工程の間又は後に分析され得、以下のケースの全て又は一部が網羅され得ることを検証するように特に検査され得る:
a.顔モデル、身体モデル、又は手モデルに不明瞭なエリアがあり得ないこと。
b.全ての関連する表情が網羅され得ること。
c.開いた目及び閉じた目の両方がモデル化され得ること。
d.歯を見せる、閉じた口及び開いた口が網羅され得ること。
e.見通し線にほぼ並列し得る顔構造の撮像、例えば、正面からの頬の撮像に起因した低解像度によるエリアがあり得ないこと。
f.照射が適切であり得、暗すぎ得又は明るすぎ得且つ飽和され得るエリアが存在し得ないこと。
g.ノイズが非常に多くあり得るエリアが存在し得ないこと。
モデルは、例えば、髭を剃り若しくは髭を加えること、又は髪型を変えることに起因して、ビデオ画像内のユーザの現在の外観とは著しく異なり得ない。
欠落する情報が存在し得ることを検査工程が発見するケースでは、ユーザは、欠落する情報を完成させるために、追加のフォト又はビデオ・シーケンスを追加することを依頼され得る。
ユーザの間の呼び出しの開始の前であるが、ユーザのカメラがユーザの画像を捕らえることを開始した後、3Dモデル及びテキスチャ・マップは、その瞬間に見られるように、ユーザの新たな外観を反映するように高められ得る。
前に作成されたモデル及びテキスチャ・マップからの情報は、ミーティングの開始の前、又はミーティングの間に取得される更新された情報とマージされ得る。例えば、3Dモデル及びテキスチャ・マップを更新するために、人物の身体及び顔、ユーザの髪の毛、髭を剃ること、メイクアップ、衣服などの照射に関する新たな情報が使用され得る。セッションの前又は間に見られ得る頭部の上部又は顎の底部又は身体の他の部分など、前に見られなかったエリアも、3Dモデル又はテキスチャ・マップを更新するために使用され得る。
新たな情報は、前の情報を置き換えるために使用され得、前の情報と平均化され得、又はそうでなければ、前の情報とマージされ得る。
3Dモデルをスケーリングするために、すなわち、カメラ・パラメータが未知であり得、モデル化されたオブジェクトへの範囲が未知であり得る2Dカメラからのその厳密な寸法を知るために、いくつかの方法が使用され得る。例えば:
a.例えば、ユーザの額上のクレジットカードを置くために、オブジェクトの隣に置かれ得る既知のサイズのオブジェクトを使用すること。そのようなオブジェクトは、それらに限定されないが、クレジットカード、運転免許証、請求書、コイン、ルーラなどを含むことができる。そのようなケースでは、分類方法は、使用されるオブジェクトを分類し得、データベースからそのサイズを判定し得る。例えば、方法は、複数の国及び/又は単位の1つから生じるとして請求書を検出し得、それを認識し得、データベースからそのサイズを取得し得る。同様に、方法は、ルーラを検出し得、ルーラに対する読み込みからそのサイズを判定し得る。
b.ユーザの高さを規定するようにユーザに依頼すること。顔の高さは、成人の高さのおおよそ13%であり得る。これは、多くの用途の要件のために十分に正確な近似であり得る。加えて、子供及び赤子は、異なる身体比率を有するとして知られ得る。赤子について、顔の高さは、その高さのおおよそ25%であるとして知られ得る。顔のサイズは、高さの非線形関数であり得、例えば、60センチメートルの高さであり得る人物についての高さの25%、100センチメートルの高さであり得る人物についての高さの20%、及び150センチメートル以上であり得る人物についての高さの13%であり得る。
ユーザの3Dモデルは、それらに限定されないが、以下を含み得る:
a.顔及び身体、すなわち、形状、表情、及び姿勢のパラメトリック・モデル。
b.しわ、皮膚のほくろなどとしてそのような精緻な詳細を詳述する高頻度深度マップ。
c.顔又は身体の各々の部分の色を詳述する反映マップ。異なる角度からの外観の変化をモデル化するために、複数の反映マップが使用され得る。
d.各々のポリゴンが作られ得る材料、例えば、皮膚、髪の毛、衣服、プラスチック、金属などを詳述する任意選択のマテリアル・マップ。
e.3Dモデル又は反映マップ内の身体の各々の部分がどの部分を表すかをリスト化する任意選択のセマンティック・マップ。
f.それらのモデル及びマップは、ミーティングの前、ミーティングの間に作成され得、又はミーティングの前及び間に作成される組み合わせ若しくはモデルであり得る。
ユーザのモデルは、ユーザのコンピュータ、電話、又は他のデバイスに記憶され得る。それはまた、場合によってはユーザのプライバシを保護するために暗号化された方式において、クラウド又は他のユーザに伝送され得る。
図6はまた、パラメトリック・モデルを生成及び使用する方法90を例示する。
方法90は、ステップ92、94、96、及び98を含み得る。
ステップ92は、ユーザ・デバイスによって、ユーザに関連する3Dモデルを生成することを含み得、3Dモデルは、パラメトリック・モデルであり得る。
ステップ94は、コンピュータ化システムに、3Dモデルのパラメータを送信することを含み得る。
ステップ96は、参加者のユーザ・デバイスによって、電話会議の間に各々の参加者を監視し、それに従って、各々の参加者の3Dモデルのパラメータを更新し、更新されたパラメータを送信することを含み得る(送信することは、通信パラメータの影響を受け得る)。
ステップ98は、各々の参加者のユーザ・デバイスによって、他の参加者に関連する3Dモデルの更新されたパラメータを受信し、それに従って、モデルへの変更を反映するように、表示を更新することを含み得る。
図6はまた、三次元であり得る検知されたオブジェクトの3D視覚的表現を生成する方法1800を例示する。
方法1800は、ステップ1810、1820、及び1830を含み得る。
ステップ1810は、少なくとも1つの3D視覚的表現パラメータを取得することを含み得、視覚的表現パラメータは、サイズパラメータ、解像度パラメータ、及びリソース消費パラメータから選択され得る。
ステップ1820は、検知されたオブジェクトを表すオブジェクト情報を取得し、少なくとも1つのパラメータに基づいて、検知されたオブジェクトの視覚的表現を生成するためのニューラル・ネットワークを選択することを含み得る。例えば、検知されたオブジェクトを表す情報は、オブジェクトの視認角度であり得る。
ステップ1810及び1820の後に、選択されたニューラル・ネットワークによって3Dオブジェクトの3D視覚的表現を生成するステップ1830が続き得る。
ステップ1830は、以下のうちの少なくとも1つを含み得る:
a.3Dオブジェクトの3Dモデル及び3Dオブジェクトの少なくとも1つの2Dテキスチャ・マップを生成すること。
b.少なくとも1つのレンダリングされた画像のレンダリング工程の間に3Dモデル及び2Dテキスチャ・マップを更に処理すること。
生成することは、第1のコンピュータ化ユニットによって実行され得、生成することの後に、第2のコンピュータ化ユニットに、3Dモデル及び少なくとも1つの2Dテキスチャ・マップを送信することが続き得、第2のコンピュータ化ユニットは、3Dモデル及び少なくとも1つの2Dテキスチャ・マップに基づいて、少なくとも1つのレンダリングされた画像をレンダリングするように構成される。
3Dオブジェクトは、3Dビデオ会議の参加者であり得る。
方法は、選択されたニューラル・ネットワーク出力の集合から3D視覚的表現を出力することを含み得る。
3Dオブジェクトは、3Dビデオ会議の参加者であり得る。
超解像度及び3Dモデルに対する手直しの実行
3Dモデルの解像度を高めるために、超解像技術が使用され得る。3Dモデルの解像度又は3Dモデルの変形可能なテキスチャ・マップを高めるために、超解像技術が使用される。例えば、単一の画像から作成されることができるグリッドよりも高い解像度においてグリッドを作成するために、何らかの転移又はそれらの間の回転を伴うモデルのいくつかの画像が次いで使用され得る。モデルの色値は、3Dメッシュ内のポリゴン又は2Dテキスチャ・マップ内の画素に関連し得ることに留意されよう。
この工程は、再帰的工程を使用して行われ得る。第1のステージにおいて、低解像度モデル及びテキスチャ・マップのアップ・サンプリングされた補間である3Dモデル及びテキスチャ・マップは、初期の推論として使用される。それらの3Dモデル及びテキスチャ・マップは、元の3Dモデル及びテキスチャ・マップにあるよりも多くの頂点及び画素を有するが、更なる詳細を含まない。アップ・サンプリングされたモデル及びテキスチャ・マップは次いで、カメラのものと同様である観点から、テキスチャ加工されたモデルの画像をレンダリングするために使用される。
レンダリングされた画像は、カメラにより撮られた2D画像と比較される。
比較は、それらに限定されないが、2つの画像の差し引きによって、又は画像の全体的な位置合わせの後の差し引きによって、又は画像内の局所的な位置合わせエリアの後の差し引きによって実行され得る。この工程によって取得される差分画像である、比較の結果は、レンダリングされた画像に存在しない元のカメラ画像からの詳細を含む。差分は、初期3Dモデル及びテキスチャ・マップの解像度を高めるために、フィードバックとして使用され得る。
高めることは、それらに限定されないが、更なる詳細と共に新たな推論を得るために、初期の推論に差分画像を追加することによって行われ得る。新たな3Dモデル及びテキスチャ・マップは、第2のレンダリングされた画像を取得するように再度レンダリングされ得、第2のレンダリングされた画像は、3Dモデル及びテキスチャ・マップの解像度を高めるためのフィードバックとして使用され得る、第2の差分画像を作成するために元のカメラ画像と比較される。
この工程は、所与の回数で、又は或る基準が満たされるまで、例えば、実際のカメラ画像とレンダリングされた画像との間の差分が或る閾値を下回るまで繰り返され得る。ビデオ・シーケンスからなど、画像の集合からのいくつかのカメラ画像とのレンダリング済みのテキスチャ加工された3Dモデルの比較が実行される場合に、工程は繰り返される。各々の画像において、画像集合又はビデオ内に多くの画像が存在し得るので、3Dモデル及びテキスチャ・マップは、異なるポジションにおいてカメラによってサンプリングされ得る。
よって、工程は、単一の画像から利用可能であるよりも効果的に高いサンプリング・レートに基づいている3Dモデル及びテキスチャ・マップを作成することができる。この工程の結果として、更なる頂点を有する3Dモデル及び更なる画素を有するテキスチャ・マップが作成され、それらの3Dモデル及びテキスチャ・マップは、元の低解像度3Dモデル及びテキスチャ・マップにおいて現れない高解像度の詳細を示す。
顔及び身体の複数の画像も、それらの画像を平均化するために、信号対雑音比を改善する、すなわち、より低いレベルの画素ノイズによりモデルを作成する手段によって、同一の又は異なる角度から獲得され得る。画像が低照射条件において獲得され得、結果として生じる画像のノイズが多くなり得る場合、これは殊に有益であり得る。
学習方法に基づいた超解像技術も適用され得る。そのようなスキームでは、畳み込みニューラル・ネットワークなどの機械学習方法は、高解像度画像又は3Dモデル及び低解像度画像又は3Dモデルのペアに基づいて訓練され得、その結果、低解像度画像又はモデルと高解像度画像又はモデルとの間の対応関係が学習され得る。レンダリング工程の間、方法は、入力として低解像度画像又はモデルを受信し、対応する高解像度画像又はモデルを出力する。それらのタイプの方法は、目又は眉に沿った鮮明なエッジなど、異なる顔の組織の間の遷移において鮮明なエッジを生成するために殊に有益であり得る。
低解像度から高解像度への遷移は、単一の画像又は複数の画像に基づいて実行され得、それは、3Dモデル、テキスチャ・マップを作成する工程において、又はユーザに提示され得る最終画像をレンダリングするときに実行され得る。
3Dモデル及び2Dテキスチャ・マップ内のランダム・ノイズを低減させることも、ノイズ除去方法を使用して実行され得る。そのような方法は、線形フィルタリング技術を含み得るが、好ましくは、ランダム・ノイズを低減させると共に、3Dモデルの画像内のエッジ及び微細な詳細を保存する、バイラテラル・フィルタ、異方性拡散、又は畳み込みニューラル・ネットワークなど、非線形のエッジ保存技術を含み得る。
ユーザの外観は、結果として生じる3Dモデル又は反映マップを操作することによって改変及び改善され得る。例えば、皮膚のしわを除去すること、メイクアップを適用すること、顔を伸ばすこと、唇フィリング、又は目の色を変えることなど、異なる種類の手直しが適用され得る。
ユーザの身体の形状も改編され得、ユーザの衣服は、ユーザの要望に従って、真の衣服から他の衣服に変更され得る。イアリング、メガネ、ハットなどのアクセサリも、ユーザのモデルに追加され得る。
代わりに、メガネ又はヘッドフォンなどのオブジェクトは、ユーザのモデルから除去され得る。
3Dモデルに基づく通信システム
通信セッション、すなわち、数人のユーザの間の3Dビデオ会議の間、2D又は3Dカメラ(又は、いくつかのカメラ)は、ユーザのビデオを捕らえる。それらのビデオから、ユーザの3Dモデル(例えば、最良に適合する3Dモデル)は、高頻度で、例えば、15~120フレーム/秒において作成され得る。
ニューラル・ネットワーク内の一時的フィルタ又は一時的制約は、円滑な一時的再構築を生じさせ、結果の不自然さを回避するために、ビデオ・フレームに対応するモデルのパラメータの間の円滑な遷移を保証するために使用され得る。
反映マップ及び他のマップと共にリアルタイムなパラメトリック・モデルは、ビデオ内の顔及び身体の元の画像に非常に近くなり得る顔及び身体の視覚的表現をレンダリングするために使用され得る。
これがパラメトリック・モデルであり得るので、それは、少数のパラメータによって表わされ得る。典型的には、各々の人物の形状、表情、及び姿勢を含む顔の高品質モデルを作成するために、300未満のパラメータが使用され得る。
それらのパラメータは、Huffman又は算術コーダなどの量子化及びエントロピ・コーディングを使用して更に圧縮され得る。
パラメータは、それらの重要度に従って順序付けられ得、伝送され得るパラメータの数及びパラメータごとのビットの数は、利用可能な帯域幅に従って可変であり得る。
加えて、パラメータの値をコーディングする代わりに、連続したビデオ・フレームの間のそれらの値の差分がコーディングされ得る。
モデルのパラメータは全ての他のユーザ・デバイスに直接、又は中央サーバに伝送され得る。これは、全体的な電話会議の間に実際の高品質画像の全体的なモデルを送信する代わりとして多数の帯域幅を保存し得、パラメータを表すはるかに少ないビットが伝送され得る。現在の利用可能な帯域幅が低いときでさえ、これは、高品質のビデオ電話会議をも保証し得る。
中央サーバを介する代わりに他のユーザに直接モデル・パラメータを伝送することは、約50%だけ待ち時間を低減させ得る。
他のユーザ・デバイスは、3Dモデル・パラメータ及び対応する反映マップから他のユーザの外観を再構築し得る。人物の皮膚の色としてそのような事項を表す反映マップが非常に低速に変化するので、それらは、それらの反映マップにおいて発生する変化に従って、セッションの開始時に又は低い更新頻度において1回のみ伝送され得る。
加えて、反映マップ及び他のマップは、例えば、変化したエリアに従って、又は身体の部分を表すセマンティック・マップに従って、部分的にのみ更新され得る。例えば、顔が更新され得るが、感情を再構築するために重要度が低くあり得る髪の毛又は身体は、更新され得ず、又は低い頻度において更新され得る。
いくつかのケースでは、伝送のために利用可能な帯域幅は、制限され得る。そのような条件の下で、何らかの優先度に従って伝送するようにパラメータを順序付け、次いで、利用可能な帯域幅が許容するようにこの順序においてパラメータを伝送することが有益であり得る。この順序付けは、現実的なビデオの視覚的感知への貢献に従って行われ得る。例えば、目及び唇に関連するパラメータは、頬又は髪の毛に関連するものよりも高い感知重要度を有し得る。このアプローチは、再構築されたビデオの高度の劣化を可能にする。
モデル・パラメータ、モデル化され得ないビデオ画素、及びオーディオは全て同期され得る。
結果として、3Dモデル・パラメータの伝送によって消費される総帯域幅は、ビデオ圧縮のために典型的には使用される得る100キロビット毎秒~3メガビット毎秒よりもはるかに小さい、毎秒数百ビットであり得る。
汎用的な発話圧縮方法により可能であり得るものを超えてユーザの発話を圧縮するために、ユーザの発話のパラメトリック・モデルも使用され得る。これは、ビデオ及びオーディオ会議のために必要とされる必要な帯域幅を更に低減させる。例えば、ニューラル・ネットワークは、制限されたパラメータの集合に発話を圧縮するために使用され得、制限されたパラメータの集合から、発話が再構築されることができる。ニューラル・ネットワークは、結果として生じる圧縮解除された発話が特定のコスト関数下で元の発話に最も近いように訓練される。ニューラル・ネットワークは、一般的な発話圧縮アルゴリズムにおいて使用される線形変換とは異なり、非線形関数であり得る。
受信側においてビデオ及びオーディオを再構築するためのビットの伝送が優先され得、その結果、最も重要なビットは、より高いサービス品質において伝送又は受信され得る。これは、それらに限定され得ないが、オーディオをビデオよりも優先付けることと、モデル・パラメータをテキスチャ・マップよりも優先付けることと、ユーザの唇及び目に関連する情報を優先付けることなど、身体又は顔の或るエリアをその他よりも優先付けることと、を含み得る。
最適な方法は、全体的な最適な経験を保証するために、モデルの一部であり得ない、オーディオ、3Dモデル・パラメータ、テキスチャ・マップ、又は画素、又は係数へのビットレート又はサービス品質の割り当てを判定し得る。例えば、ビットレートが低減するにつれて、最適化アルゴリズムは、3Dモデルの解像度を低減させ、又は3Dモデルの頻度を更新し、オーディオ信号の最小の品質を保証すると決定し得る。
3Dモデルの暗号化及びセキュリティ
ユーザの3Dモデル及び対応するテキスチャ・マップは、ユーザのデバイス、クラウド上のサーバ、又は他のユーザのデバイスに保存され得る。それらのモデル及びテキスチャ・マップは、ユーザの個人データを安全にするために暗号化され得る。いくつかのユーザの間の呼び出しの前に、ユーザのデバイスは、他のユーザの3Dモデル及びテキスチャ・マップへのアクセスを要求し得、その結果、デバイスは、3Dジオメトリに基づいて、他のユーザのモデルをレンダリングすることが可能である。
この工程は、高頻度での、例えば、毎秒での暗号化鍵の交換を含み得、その結果、呼び出しが終了した後、ユーザは、他のユーザの3Dモデル及びテキスチャ・マップ又はいずれかの他の個人データにアクセスすることが可能でない。
ユーザは、どの他のユーザがユーザの3Dモデル及びテキスチャ・マップ又はいずれかの他の個人データにアクセスし得たかを判定することが可能である。
更に、ユーザは、ユーザのデバイス、リモート・コンピュータ、又は他のユーザのデバイスに保存され得る個人データを削除することが可能であり得る。
ユーザのデバイスに、又は中央コンピュータに保存され得るユーザの3Dモデル及びテキスチャ・マップは、2Dカメラ又は3Dカメラの前方にいる人物が実際にユーザであり得ることを認証するために使用され得、これは、パスワードによりシステム又はサービスにログインする必要性を省き得る。
別のセキュリティ測定は、1人又は複数の参加者の1つ又は複数のアバタへのアクセス及び使用(例えば、3Dビデオ会議の間のアバタの表示)を保護することを伴い得、これは、アバタ(若しくは、アバタ(複数可)へのアクセス及び使用を有効にするデジタル著作権管理方法を適用することによって、又はアバタへのアクセス及び/若しくは使用に対するいずれかの他の認証方式アクセス制御を使用することによって行われることができる。認証は、3Dビデオ会議の間に複数回行われ得る。認証は、生体認証に基づき得、パスワードを必要とし得、2D画像、2Dビデオ(動きを有する)のいずれかに基づいた、又は3D特徴に基づいた顔識別方法を含み得る。
3Dモデルに基づいた視差補正、アイ・コンタクト発生、及び3Dエフェクト
以下で言及される補正は、カメラの実際の光学軸と仮想カメラの所望の光学軸との間のいずれかの逸脱を補正し得る。実例の一部は、仮想カメラの高さを指すと共に、以下のいずれかも、カメラの横位置、例えば、ディスプレイの中心での仮想カメラの位置付けを指し得る(高さ及び横位置の両方、参加者の目に向けられた仮想光学軸を有するような仮想カメラの位置付け(例えば、ディスプレイに垂直であり得、ディスプレイとのいずれかの他の空間的関係を有し得る仮想光学軸を介した)。
或るユーザがユーザのカメラによって撮像され得ることを想定して、他のユーザ・デバイスは、元のビデオ(ユーザの)がカメラによって捕らえられた角度とは異なる角度からそのユーザの3Dモデルを再構築し得る。
例えば、多くのビデオ会議の状況では、ビデオ・カメラは、ユーザの目のレベルの上又は下に配置され得る。第1のユーザが、それらが第1のユーザのスクリーン上で提示されるように第2のユーザの目を見るとき、第1のユーザは、カメラの中を直接見ていない。したがって、カメラによって捕捉され、他のユーザに提示されるような画像は、下方向又は上方向を凝視しているように第1のユーザの目を示す(カメラの位置及び光学軸に応じて)。
ユーザの凝視の直前のポイントから3Dモデルをレンダリングすることによって、ユーザの結果として生じる画像は、他のユーザの目を直接見ているように見られ得る。
図8は、視差補正の実例を例示する。画像21’は、カメラ162によって獲得される画像であり得ると共に、カメラ162は、ディスプレイ161の上部に位置し、第5の参加者55に向けられ得る実際の光学軸163(下方向に向けられる)及び実際の視野163を有する。
補正された画像22’は、仮想光学軸163’及び仮想視野163’を有する仮想カメラ162’によって仮想的に獲得され得、仮想カメラは、目の高さにあるスクリーンのポイントに、及び第5の参加者155の前方に直接位置し得る。
顔位置トラッカは、ビューワの顔の位置を追跡し得、それに従って、レンダリングの視点を変更し得る。例えば、ビューワが右に移動する場合、ビューワは、反対の人物の左側のより多くを見得、ビューワが左に移動する場合、ビューワは、反対の人物の右側のより多くを見得る。
これは、2Dスクリーンを使用する間でさえ、3次元の人物又はオブジェクトを視認する3D感覚を生じさせる。
図9は、2Dデバイスによって生じた3Dイリュージョンの実例を例示する。カメラ(及び、トラッカのFOV)によって獲得される画像は、35と表わされ、様々な仮想画像は、31、32、及び33と表わされる。
これは、ビューワの動き及びビューワの目に従ってレンダリングされた画像を修正することによって取得され得、よって、3Dエフェクトを生じさせる。これを行うために、ビューワの画像は、ウェブカメラなどのカメラによって獲得される。
顔検出アルゴリズムは、画像の顔を検出及び追跡する。加えて、ビューワの目は、顔内で検出及び追跡される。ビューワの顔が動くにつれて、アルゴリズムは、目の位置を検出し、3D世界内のそれらのポジションを計算する。3D環境は、ビューワの目の位置に従って仮想カメラからレンダリングされる。
レンダリングされた画像が2Dスクリーン上で提示される場合、1つの画像のみがレンダリングされる。3D環境のこの画像は、ビューワの目の間に位置付けられるカメラの視点からレンダリングされ得る。
ビューワが3Dディスプレイ又は仮想現実(VR:virtual reality)ヘッドセット若しくはメガネなどの3Dディスプレイを使用する場合、右目及び左目の観点に対応する2つの画像は、立体視画像を生じさせるように生成される。
図10は、3Dスクリーン又はVRヘッドセット上に提示される2つの立体視画像(38及び39と表わされる)の実例を例示する。
自動立体視ディスプレイなどの一部のディスプレイは、3D画像を提示するためにメガネを必要としない。そのような3Dディスプレイでは、異なる画像は、例えば、レンチキュラ・アレイを使用して、異なる角度で投影され得、その結果、各々の目は、異なる画像を見る。Alioscopy Glasses-Free3D Displayなどの一部の自動立体視ディスプレイは、一部のAlioscopyディスプレイのケースでは、異なる角度で2つよりも多い画像、最大で8個の異なる画像を投影する。そのようなディスプレイを使用する場合、2つよりも多い画像は、スクリーン上で3Dエフェクトを生じさせるようにレンダリングされ得る。これは、更に現実的且つ密接なセンセーションを生じさせる際に、慣習的な2Dビデオ会議システムに対して著しい改善をもたらす。
3Dセンセーションを高めるために、3Dオーディオも使用されることができる。ユーザごとに、全ての他のユーザに対する仮想3D設定におけるユーザの位置が既知であり得る。各々のユーザの発話のステレオ信号は、オーディオソースの相対的ポジションに従って右耳及び左耳に対するオーディオ信号の間の遅延を生じさせることによって、モノラル・オーディオ信号から生成されることができる。そのような方式では、各々のユーザは、音が生じる方向のセンセーション、したがって、話していることがある者のセンセーションを得る。
更に、ユーザの顔、特に、それらの唇の画像は、読唇術を実行するために使用され得る。
唇の連続した画像の分析は、唇の動きを検出することができる。そのような動きは、例えば、唇の動きが話すことを関連付けられるときを検出するように訓練されたニューラル・ネットワークによって分析されることができる。訓練フェーズに対する入力として、人間の音を有するとして、サウンド・アナライザ又は人間をタグ入力ビデオ・シーケンスとさせることが可能である。人物が話していない場合、システムは、そのユーザを自動でミュートし得、よって、ユーザの環境から生じ得るバックグラウンド・ノイズを低減させ得る。
読唇術も、どの音がユーザによって生み出されると予測され得ることを知るために使用され得る。これは、それらの予測される音と相関付けない、すなわち、予測される周波数範囲にない、外部ノイズをフィルタするために使用され得、ユーザが話していることがあるときに、バックグラウンド・ノイズをフィルタするためにこれを使用し得る。
読唇術はまた、オーディオのみに基づき得る発話認識方法に加えて、システム上で遂行され得る会話のトランスクリプションを支援するために使用され得る。
これは、例えば、ニューラル・ネットワークによって実行され得る。ネットワークは、発話している人物及びシーケンスの間に発話していた関連するテキストを使用して訓練される。ニューラル・ネットワークは、LSTM又はいずれかの他のタイプのニューラル・ネットワークによる又はそれらなしの回帰型ニューラル・ネットワークであることができる。オーディオ及びビデオの両方に基づき得る方法は、改善された発話認識性能を結果としてもたらし得る。
顔、身体、及び手は、上記説明されたような、制限された数のパラメータを使用してモデル化され得る。
しかしながら、現実世界のビデオ会議では、画像内の全ての画素が、顔、身体、及び手のモデルに対応しない。身体に一部ではあり得ないオブジェクトは、画像内に現れ得る。
実例として、会議において発話している人物は、特定の電話会議に対して重大であり、又は重大では全くあり得ないオブジェクトを保持していることがある。スピーカは、ミーティングに対して有意性を有さないペン又はミーティングに対して非常に有意であるダイアグラムを保持していることがある。他のビューワにそれらのオブジェクトを伝送するために、それらは、3Dオブジェクトとして認識及びモデル化され得る。モデルは、再構築のために他のユーザに伝送され得る。
ビデオ画像の一部の部分は、3Dオブジェクトとしてモデル化され得ず、画素値、DCT係数、ウェーブレット係数、ウェーブレット・ゼロ・ツリー、又はそれらの値を伝送するためのいずれかの他の効率的な方法として、他のユーザに伝送され得る。実例は、ホワイトボード又は壁上のピクチャなど、バックグラウンド内に配置される平坦なオブジェクトを含む。
ユーザのビデオ画像及びモデルが比較され得、例えば、それらに限定されないが、モデルのレンダリングされた画像及びビデオ画像を差し引く。これは、実際のカメラの厳密な位置から撮られたようにモデルをレンダリングすることによって行われる。完全なモデル及びレンダリングにより、レンダリングされた画像及びビデオ画像は、一致するはずである。差分画像は、モデルがビデオ画像を十分に正確に推定するエリアと、モデルが十分に正確ではあり得ず、又は存在しないエリアとにセグメント化され得る。十分に正確にモデル化され得ない全てのエリアは、上記説明されたように別々に伝送され得る。
一部の状況下で、システムは、視認される一部のオブジェクトは、上記言及されたようにモデル化され得ないと決定し得る。それらのケースでは、システムは、ビューワに、モデル化されていない部分の少なくとも一部を含むビデオ・ストリームを伝送することを決定し得、次いで、存在する3Dモデルは、それらのそれぞれの位置において伝送されたビデオの上部でレンダリングされる。
ユーザは、仮想3Dビデオ会議環境の1つ又は複数のビューが提供され得、一方で、ユーザは、視野、例えば、他のユーザの全て若しくはユーザの1人若しくは一部のみを含む視野を選択し得若しくは選択し得ず、及び/又はTVスクリーン、ホワイトボードなど、仮想3Dビデオ会議環境の1つ若しくは一部のオブジェクトを選択し得、若しくは視認し得る。
ビデオ画素及びレンダリングされた3Dモデルを結合するとき、モデルに対応するエリア、ビデオ画素に対応するエリア、又はその両方は、組み合わせが自然に現れ得、異なるエリアの間の継ぎ目が見えないように処理され得る。これは、それらに限定され得ないが、再照明、ぼかし、鮮明化、ノイズ除去又は、全体画像が1つのソースから発して現れるように画像成分の1つ又は一部にノイズを追加することを含み得る。
各々のユーザは、ユーザが、仮想3Dビデオ会議環境の180度若しくは360度のビュー(若しくは、いずれかの他の角度範囲のビュー)を示すパノラマ画像、及び/又は数人の人物、1人の人物、人物の一部のみ、すなわち、人物の顔、スクリーン、若しくはホワイトボード若しくは仮想3Dビデオ会議環境の1つ又は複数の部分など、仮想3Dビデオ会議環境の一部に焦点を当てる狭視野画像を見ることができるという趣旨で、湾曲したスクリーン又は物理スクリーンの組み合わせを使用し得る。
ユーザは、マウス、キーボード、タッチパッド若しくはジョイスティック、又は画像内若しくは画像からパン及びズームを可能にするいずれかの他のデバイスを使用することによって、狭視野画像又は狭視野画像(複数可)の部分又は部分(複数可)を制御することが可能である。
ユーザは、パノラマ画像内の適切な部分上をクリックすることによって、仮想3Dビデオ会議環境の或るエリア(例えば、仮想3Dビデオ会議環境のパノラマ画像)に焦点を当てることが可能であり得る。
図11は、5人の参加者によってポピュレートされる仮想3Dビデオ会議環境のパノラミック・ビュー41と、仮想3Dビデオ会議環境内の参加者の一部の部分的ビュー42との実例を例示する。図11はまた、参加者の一部の顔のパノラミック・ビュー(又は、部分的ビュー)及び拡大画像を含むハイブリッド・ビュー43を例示する。
ユーザは、ヘッド・ジェスチャ、アイ・ジェスチャ、ハンド・ジェスチャ、又はボディ・ジェスチャを使用して、パン又はズームすることが可能であり得る。例えば、スクリーンの右部分又は左部分を見ることによって、焦点エリアは、左又は右に移動し得、その結果、それは、スクリーンの中心に表れ、前方又は後方にもたれることによって、焦点エリアは、ズーム・イン又はズーム・アウトし得る。
人物の身体の3Dモデルも、身体及びバックグラウンドを正確にセグメント化することを支援し得る。身体のモデルに加えて、セグメント化方法は、どのオブジェクトが身体に接続され得るか、例えば、人物がカメラの前方で電話、ペン、又は紙を保持していることがあることを学習する。それらのオブジェクトは、オブジェクトのモデルを使用することによって、又は画素レベル表現に基づいてオブジェクトの画像を伝送することによって、のいずれかで、人物と共にセグメント化され、仮想環境内で画像に追加される。それらのオブジェクトが人物と共にセグメント化されないが、むしろ、仮想バックグラウンドによって置き換えられる必要があるバックグラウンドの一部としてセグメント化されるように、ユーザによって保持されるオブジェクトを示し得ない既存のビデオ会議ソリューションにおいて採用され得る既存の仮想バックグラウンド方法とは対照的である。
セグメント化方法は典型的には、画素が同一のセグメントに属するとして考えられるために、超えられる必要がある一部のメトリックを使用する。しかしながら、セグメント化方法はまた、Fuzzy論理などの他のアプローチを使用し得、セグメント化方法は、画素が同一のセグメントに属する確率を出力するにすぎない。エリアがフォアグラウンド又はバックグラウンドの一部としてセグメント化されるべきであるかどうかを確実にするか否かを成す確率により画素のエリアを方法が検出する場合、ユーザは、このエリアをどのようにセグメント化するかを問い合わされ得る。
セグメント化工程の一部として、イヤフォン、イヤフォンに接続されたケーブル、マイクロフォン、3Dメガネ、又はVRヘッドセットなどのオブジェクトは、方法によって検出され得る。それらのオブジェクトは、モデル化工程及びレンダリング工程において除去され得、その結果、ビューワによって視認される画像は、それらのオブジェクトを含まない。そのようなオブジェクトを示し又は取り去るためのオプションは、ユーザによって選択され得、又はいずれかの他の方式において、例えば、ユーザによって、及び他のユーザによってなど、前に行われた選択に基づいて判定され得る。
方法が画像内で1人よりも多い人物を検出する場合、それは、フォアグラウンド内に及び仮想3Dビデオ会議環境内に人物若しくは人物(複数可)を含むかどうか、又は画像から及び仮想3Dビデオ会議環境の外でそれらをセグメント化するかどうかをユーザに問い合わせ得る。
それらがフォアグラウンド又はバックグラウンドの一部であり得るかどうかを決定するために、オブジェクトの形状又は幾何学的特徴を使用することに加えて、方法はまた、それらのオブジェクトの輝度及び色の一時的変化に関する知識によって支援され得る。動かない又は変化しないオブジェクトは、バックグラウンドの一部、例えば、ユーザが座っている部屋の一部であるより高い確率を有すると共に、動き又は一時的変化が検出され得るエリアは、フォアグラウンドに属するより高い確率を有すると考えられ得る。例えば、スタンディング・ランプは、動いているとは全く見られず、それは、バックグラウンドの一部であると考えられる。部屋の周りを歩いている犬は、動いており、フォアグラウンドの一部であると考えられる。いくつかのケースでは、例えば、ファンが回転する、周期的な繰り返す変化又は動きが検出され得、それらのエリアは、バックグラウンドに属するより高い確率を有すると考えられ得る。
システムは、ユーザの嗜好を学習し、どのオブジェクト、テキスチャ、又は画素がフォアグラウンドの一部であり得るか、どれがバックグラウンドの一部であり得るかに関するフィードバックを使用し、後のセグメント化工程を改善するためにこの知識を使用する。畳み込みニューラル・ネットワーク又は他の機械学習方法などの学習方法は、どのオブジェクトがフォアグラウンドの一部としてユーザによって典型的には選ばれ得るか、どのオブジェクトがバックグラウンドの一部としてユーザによって典型的には選ばれ得るかを学習し得、セグメント化方法を改善するためにこの知識を使用し得る。
デジタル静止カメラ及びビデオ・カメラに対する自動露光制御
バックグラウンドからのユーザの顔及び身体のセグメント化は、ユーザのカメラの露光時間を設定することを支援し得、その結果、露光は、ユーザの顔及び身体に対して最適であり得、バックグラウンド内の明るいエリア又は暗いエリアによって影響を及ぼされ得る。
特に、露光は、ユーザの顔の輝度に従って設定され得、その結果、顔は、非常に暗くもなり得ず、非常に明るくもなり得ず、飽和され得る。
検出され得る顔についての正確な露光を判定する際に、人物の皮膚の実際に輝度を知る課題が存在し得る。自然に暗い皮膚(図12の画像111を参照されたい)を有する人物の皮膚を過剰に露光させず、それらを過剰に露光された画像内の色白の顔に変えることが好ましくなり得る、図12の画像112を参照されたい。
暗い皮膚を有する人物の画像を過剰に露光させないために、自動露光方法は、ユーザの眼又は歯の白の輝度レベルに従って露光を設定し得る。カメラの露光は、何らかの一時的フィルタリングを使用して、低速に変わり得、フレームごとに急激に変化し得ない。そのような方法は、結果として生じるビデオがジッタを有し得ないことを保証する。更に、目又は歯が一部のフレームに現れ、いくつかの他のフレームに現れないときでさえ、そのような方法は、目又は歯の輝度レベルに基づいて露光を設定することを可能にし得る。
顔、目、又は歯の検出は、3Dモデル及びテキスチャ・マップに、身体のそれらの部分を検出する方法に、又は追跡方法に基づき得る。そのような方法は、Viola Jonesアルゴリズム、又は顔及び特定の顔の部分を検出するように訓練されたニューラル・ネットワークなどのアルゴリズムを含み得る。代わりに、2D画像を顔の3Dモデルに適合させることが実行され得、3Dモデルにおける全ての顔の部分の位置が事前に知られる。
別の実施例では、皮膚の正確な暗さは、Hue、Saturation、及びBrightness色座標系において推定されることができる。そのような座標系では、Hue及びSaturationは、露光に応じて変化せず、Brightness座標のみが変化する。それらの皮膚の適切な露光及びそれぞれの輝度値における人物のHue値とSaturation値との間の対応関係が発見されることができることが発見された。例えば、ピンクがかった皮膚の色合いは、色白の顔に対応し、茶色がかった色合いは、暗い皮膚に対応する、例えば、図12の画像121~126を参照されたい。
更なる別の実施例では、畳み込みニューラル・ネットワーク又はいずれかの他のネットワークなどのニューラル・ネットワークは、顔及び他の属性の形状と皮膚の輝度との間の対応関係を識別するように訓練されることができる。次いで、実行時間に、様々な露光での顔は、選ばれた露光とは独立して分析されることができ、検出された属性は、そのような皮膚の輝度を結果としてもたらすカメラの露光を判定するために使用され得る、皮膚の正確な輝度を推定するために使用されることができる。
ニューラル・ネットワークは、適切に露光された画像内の皮膚のHue及びSaturationとそれぞれのBrightnessとの間のこの関係関数又は相関を発見するように訓練され得る。推論ステージにおいて、ニューラル・ネットワークは、必ずしも最適な露光にない、例えば、明るすぎ又は暗すぎる画像内の皮膚のHue及びSaturationに基づいて、ピクチャについての適切な露光を提案する。この計算された露光は、暗すぎず明るすぎない適切に露光された画像を捕らえるために使用され得る。
更なる別の実施例では、携帯電話、専門カメラ、又はウェブカメラなどのフォトグラフィック・デバイスのユーザは、参照のためのホワイト・ペーパ又は他の較正オブジェクトによりそれら自身又は他の人物の写真を撮ることを1回依頼され得る。この較正工程は、それらの人物の皮膚の正確な色調、飽和度、及び輝度を判定するために使用され得る。次いで、実行時間に、計算デバイスは、所与の人物を認識し、初期の較正工程において発見されたように、人物の皮膚が正確な皮膚の色に対応するように、露光及びホワイト・バランスを調節する方法を稼働させることができる。
クラウド上での計算の実行
このシステムの処理は、コンピュータ、電話、若しくはタブレットなどのユーザのデバイス上で、又はクラウド上のサーバなどのリモート・コンピュータ上で実行され得る。計算も、ユーザのデバイスとリモート・コンピュータとの間で分割及び/若しくは共有され得、又は、それらは、適切なハードウェアを有するユーザに対するユーザのデバイス上で、及び他のユーザに対するクラウド上で(若しくは、いずれかの他の計算環境において)実行され得る。
身体及び頭部パラメータの推定は、圧縮された画像又は圧縮されていない画像に基づいて行われ得る。特に、それらは、クラウド上の中央コンピュータ又は別のユーザのデバイスなどのリモート・コンピュータ上で圧縮されたビデオに対して実行され得る。これは、標準のビデオ会議システムが、モデル化、レンダリング、及び処理が実行されるクラウド又は別のユーザのコンピュータに圧縮されたビデオを送信することを可能にする。
ミーティングの効率性を増大させるためのビデオ会議アプリケーション及び方法において情報を提示するための複数のスクリーン及びチャネルの使用
仮想ミーティングは、部屋などのいずれかの仮想環境内で、いずれかの他の閉じられた環境内で、又はいずれかの開かれた環境内で行われるように現れ得る。そのような環境は、情報を提示するための1つ又は複数のスクリーン、ホワイトボード、又はフリップチャートを含み得る。そのようなスクリーンは、ユーザの要望に従って、現れ得、及び無くなり得、移動され得、拡大され得、及びサイズにおいて低減され得る。
複数の参加者は、1つよりも多いスクリーンにそれらのスクリーン(又は、いずれかの他のコンテンツ)を共通し得る。これは、情報の複数のソースが同時に視認され得ることを意味する。
共有又は提示するためのマテリアルは、ミーティングの間の容易なアクセスのためにミーティングが始まる前に、そのようなスクリーン又はリポジトリに事前にロードされ得る。
異なるマテリアルを提示する1つの可能な方法は、専用ストリーム、提示されるマテリアルごとに1つを通じて、それらを伝送することによるものである。この設定では、ストリームは、多くの基準に基づいてビューワに割り振られ得る。例えば、ストリームは、1つ又は複数のビューワに特に割り振られ得る。代わりに、ストリームは、トピック又は他の考慮事項に従って割り振られ得る。そのようなケースでは、視認されるストリームは、各々のビューワによって選択され得る。これは、キーボード、マウス、又はいずれかの他のデバイスを使用することによって迅速に行われることができる。そのような選択は、ミーティングのマネージャからスクリーンを共有する許可を要求すること、そのような許可を受信すること、「スクリーン共有」ボタンをクリックすること、及び共有する関連するウインドウを選択することを現在必要とし得る、1つのコンテンツを共有する一般的な慣習よりもはるかに高速になり得る。
そのような「スクリーン共有」工程は、(例えば)最大で数分を要し得る。様々な用途では、「スクリーン共有」は、それらのマテリアルを提示する多くの異なる参加者によって何回も繰り返され得、多くの貴重な時間が失われ得る。提案されるソリューションは、持続時間を数秒まで低減させ得る。
一部の例では、ミーティング若しくはスクリーン内の参加者の全て、又は3D仮想環境内の他の関心のあるオブジェクトの全てが、ビューワのスクリーン上に同時に現れ得ない。例えば、スクリーンの視野が全ての参加者を視認するために必要な視野よりも小さい場合、これが起こり得る。そのようなケースでは、視点を変更し、異なる参加者又はオブジェクトを見るために、視認しているユーザの視野を、右に、左に、前方に、後方に、上に、又は下に移動させる必要があり得る。これは、それらに限定されないが、以下の異なる手段によって達成されることができる:
a.観点をパン及び傾斜し、又はズーム・イン及びズーム・アウトするために、キーボード矢印又は他のキーを使用すること。
b.観点をパン及び傾斜し、又はズーム・イン及びズーム・アウトするために、マウス又は他のキーを使用すること。
c.観点をパン及び傾斜し、又はズーム・イン及びズーム・アウトするために、ユーザの頭部のポジション若しくは目の凝視方向、又はその両方を追跡する方法を使用すること。方法への入力は、ウェブカメラ、又はいずれかの他の2Dカメラ若しくは3Dカメラ、又はアイ・ゲイズ・センサなどのいずれかの他のセンサからのユーザのビデオであることができる。
d.観点をパン及び傾斜し、又はズーム・イン及びズーム・アウトするために、ユーザの手を追跡する方法を使用すること。方法への入力は、ウェブカメラ、又はいずれかの他の2Dカメラ若しくは3Dカメラ、又はアイ・ゲイズ・センサなどのいずれかの他のセンサからのビデオであることができる。
e.誰がいずれかの瞬間にスピーカであり得るか、いずれかの所与の瞬間にそのスピーカ上でパン、傾斜、及びズーム・インし得るかを判定すること。数人の人物が同時に発話していることがある場合、方法は、誰が支配的なスピーカであり得るか、そのスピーカにパン及び傾斜し得るか、数人のスピーカが示され得る広視野にズーム・アウトし得るかを判定することができる。
仮想3Dビデオ会議環境内でアバタを作成するために必要とされる計算は、ユーザのコンピューティング・デバイス上で、クラウド内で、又は2つのいずれかの組み合わせにおいて実行され得る。特に、ユーザのコンピューティング・デバイス上で計算を実行することは、リモート・サーバとの通信に起因して、より高速の応答時間及び低遅延を保証することが好ましいことがあり得る。
2つ以上の2Dカメラ又は3Dカメラは、ユーザのスクリーンの周りで異なるポジションに配置され得、例えば、ユーザのスクリーンの境界又は隅に統合され得、その結果、リアルタイムでの異なる方向からのユーザの同時ビューが存在し得る。異なる方向からの2Dビュー又は3Dビューは、リアルタイムでのユーザの外観に対応する3Dテキスチャ加工されたモデルを作成するために使用されることができる。
カメラが3Dカメラである場合、カメラによって取得される3D深度は、3Dモデルにマージされることができ、3Dモデルは、1つのカメラのみによって捕捉されることができるものへの追加のエリアを2つ以上のカメラが捕捉するように、1つのカメラのみから取得されるモデルよりも完全である。
カメラが異なるポジションに位置するので、それらは、ユーザに関する僅かに異なる情報を取得し、各々のカメラは、他のカメラによって隠蔽され見られていないエリアを捕捉することが可能であり得る。カメラが2Dカメラである場合、ユーザの顔の3Dモデルを推定するために、異なる方法が使用され得る。例えば、フォトグラメトリック方法は、このタスクを達成するために使用され得る。代わりに、ニューラル・ネットワークは、カメラによって捕捉されるような画像を生み出す3Dモデルを推定するために使用され得る。
カメラによって捕捉されるようなカラー画像は、複雑なテキスチャ・マップを作成するために使用され得る。このマップは次いで、1つのカメラのみによって捕捉されることができるよりも多くのエリアをカバーする。各々のカメラから取得されるような複数のテキスチャ・マップは、共にスティッチされ得ると共に、1つのより多くの包括的なテキスチャ・マップを作成するように、重複するエリアを平均化する。これは、ニューラル・ネットワークによっても実行され得る。
このリアルタイムの3Dテキスチャ加工されたモデルは次いで、様々な角度及びカメラ・ポジションからユーザのビューをレンダリングするために使用されることができ、特に、ユーザのスクリーン内、例えば、高さ及び/又は横位置座標が参加者の目にある位置に位置付けられた仮想位置に仮想的に位置していたように、仮想カメラの視認ポジションを補正するために使用され得る。
仮想位置は、参加者の目を仮想的に横切る架空平面(imaginary plane)、ディスプレイに垂直であり又は実質的に垂直である架空平面内に位置付けられ得る。このようにして、アイ・コンタクトのセンセーションは、ユーザのリアルタイムのビデオのために生じ得る。リアルタイムの3Dテキスチャ加工されたモデルも、より快適な照射、例えば、陰影が少ない照射を生じさせるために、実在する環境内の実在する人物の照明とは異なって再度照らされ得る。
発話方法、又は発話方法へのテキスト、又はニューラル・ネットワークは、仮想ミーティングにおいて行われる会話のコンテンツを要約するために、オーディオ・ストリームに適用され得る。例えば、ニューラル・ネットワークは、全身テキスト及びそれらのそれぞれの要約に対して訓練され得る。同様に、ニューラル・ネットワークは、アクション項目及び譲受人のリストを生み出すように訓練されることができる。
工程を促進し、決定に到達することにおいてニューラル・ネットワークを支援するために、人間は、タスク・リストの要約についてのテキストの関連する部分を表し得る。これは、関連するテキストが発話されるときに近接してリアルタイムで行われ得るアクション項目の要約及びリストは、全てのミーティングの出席者に、又は受信者のいずれかの他のリストに分散され得る。これは、ミーティングを強化し、その生産性を増大させるために使用されることができる。
デジタル・アシスタントも、例えば、招待する受信者を支援し、スクリーンに情報を提示し、又はアプリケーションの他の設定を制御するように、アプリケーションを制御することを支援し得る。
デジタル・アシスタントは、ミーティングをリアルタイムで書き写し、ユーザのスクリーン上でトランスクリプションを提示するために使用され得る。理解するのが難しくなり得るエコー若しくはアクセントに起因して、又は低帯域幅若しくはパケット損失などの通信ネットワークによる問題に起因して、リモート参加者の側において受信されるオーディオが劣化し得るときに、これが非常に有益であり得る。
デジタル・アシスタントは、発話を1つの言語から別の言語にリアルタイムで翻訳し、ユーザのスクリーン上で翻訳を提示するために使用され得る。参加者が異なる発話を話すときに、これが非常に有益であり得る。更に、Text To Speech(TTS)エンジンは、翻訳された発話のオーディオ表現を生じさせるために使用され得る。敵対的生成ネットワーク又は回帰型ニューラル・ネットワークなどのニューラル・ネットワークは、ロボットの発話でなく自然に音を出す発話を生じさせるために使用されることができる。そのようなネットワークはまた、元の言語での元の発話に或るものと同一のイントネーションを有する翻訳された発話を生じさせるように訓練され得、次いで、使用され得る。
畳み込みニューラル・ネットワークなどの別のニューラル・ネットワークは、生成済みの翻訳された発話に従って動かすように、3Dモデルの顔及び唇をアニメ化するために使用され得る。代わりに、GAN又は他のネットワークは、生成済みの翻訳された発話に従って動く顔及び唇の2D画像のシーケンスを生成するために使用され得る。このために、ニューラル・ネットワークは、それらが発話に関連するように、唇の動き及び顔の歪みを学習するように訓練されることができる。上記説明された全ての工程を組み合わせることで、1つの言語で話す人物の画像シーケンス及び対応するオーディオは、別の言語で話す人物の画像シーケンス及び対応するオーディオに翻訳され得、オーディオは、自然に音を発し、画像シーケンスは、新たなオーディオに対応し、すなわち、唇の動きは、発話の音素と同期し得る。
上記説明されたようなそのようなシステムが使用され得るが、ビデオ会議アプリケーション、テレビ・インタビュー、映画又はeラーニングアプリケーションの自動ダビングに限定され得ない。
単眼RGBビデオを介した顔の正確な3D追跡のための方法
ユーザの顔の姿勢及び表情を追跡するために、単眼RGBビデオ入力を介した(深度なし)顔の正確な3D追跡のための方法が有益であり得る。方法は、カメラに関連してビデオ内の顔の3Dの動きと共に、様々な表情、例えば、笑顔、眉をひそめること、及び首の姿勢の変化を検出する必要がある。
典型的には、単眼ビデオ方式の顔の追跡は、ランドマークのまばらな集合を使用して行われ得る(dlib方式ランドマーク、HR-netフェイシャル・ランドマーク、及びGoogleのメディア・パイプ・ランドマーク)。
それらのランドマークは典型的には、ユーザの注釈付けられる画像のまばらな集合を使用して、又はパラメトリック3Dモデルを合成的に使用して生じされ得る。
それらの慣習的な方法の限定は:
a.或るエリア(耳、首)内にランドマークがないこと。
b.ランドマークの鮮明さ。
c.ランドマークの精度及び安定度。
d.時間的コヒーレンス。
e.3Dモデルへのランドマークのマッピング。
提案される方法への入力は、2D単眼ビデオ、ビデオの最初のフレームの追跡されたパラメータの近似(特定のパラメータ)、ビデオ内の近似した変形パラメータ(人物の)及び近似したカメラ・モデルと共に、この3Dテンプレートについての変形モデル(人物ごとの又は全体的な)を有する顔(全体的な)のテンプレート化された3Dモデルであり得る。
3D顔テンプレート・メッシュ(テンプレート化された3Dモデル)は、一般的な人間の顔の粗い三角形メッシュを含み得る。粗いことにより、しわ、微細構造、又は他の微細な詳細ではないが、全体形状を表すのに十分であり得る、5K又は10Kのポリゴンの次元で意味する。
テンプレートについての3D顔変形モデルは、テンプレートを変形させ、画像内で発見されるポジション及びキューに基づいて、3Dメッシュの全体形状(顎構造、鼻の長さなど)、顔の表情(笑顔、眉をひそめることなど)、又はその厳格なポジション及び方位を変化させる、標準的なパラメトリック方法を含み得る。方法のユーザは、Basel Face Model/Facewarehouse/Flameモデルなどの変形モデルとして統計的3DMMを使用し、及び/又は、As-Rigid-As-Possible、弾性又は等尺性目標などの前の変形を使用することを選ぶことができる。
ビデオ内の人物の近似した変形パラメータ及び近似したカメラ・モデルは、例えば、既知の顔部分パラメータを検出し、最小二乗センスでカメラ及び事前に注釈付けられたランドマークを最適化する顔ランドマーク検出方法を使用することによって、標準的な3DMM適合技術によって発見されることができる。初期化は、正確である必要はないが、近似される必要があるだけであり、一般的に既知の技術を介して生成されることができる。
この方法の出力は、フレームごとのジオメトリ(変形パラメータ及びメッシュモデル)、並びに画像ごとの近似したカメラ・パラメータの集合であり得る。
各々のフレームにおいて、変形したメッシュは、現在の3D顔メッシュと称され、テンプレートの上部のその変形パラメータは、2D顔部分セグメント化及び事前に注釈付けられたセグメント化から演繹されるランドマークの集合に基づいて選ばれ得る。その目的のために、提案される方法は、入力RGB単眼ビデオに基づいて3D顔のモデルを追跡及び変形させるICP(Iterative Closest Point)方法を利用する古典的な2D厳格レジストレーション技術と共に、2D顔部分セグメント化方法を使用し得る。
提案される方法は、所与の顔部分により各々の画素を注釈付ける、共通顔部分顔部分セグメント化ネットワークを構築する。
図13は、顔セグメント化を例示する。入力画像131は、カメラによって獲得される色画像である。画像132は、異なる色によって視覚化される、異なる顔部分のセグメント化を例示する。
加えて、三角形メッシュ・テンプレートは、顔部分(例えば、鼻、目、耳、首など)の予め定義された注釈付けにより事前に注釈付けられ得る。メッシュの注釈付けは、3Dモデル上の様々な顔部分と所与のターゲット画像上の顔部分との間の対応関係を発見することを支援し得る。顔部分の注釈付けは、3Dテンプレート上で1回のみ行われ得、その結果、同一の注釈付けが、複数の人物に対して自動で使用されることができる。注釈付けは、各々の顔部分に属する三角形をリスト化することによって、又は図12にあるような異なる色で顔部分を色付けするための2Dテキスチャ・マップに沿ってメッシュについてのUV座標を使用することによって規定されることができる。
図14は、方法1700を例示する。
方法は、ステップ171~175の1回以上の反復を含む、連続したビデオ・フレーム(第1の画像及び第2の画像と記される)のペアごとに以下の工程を実行し得る。
ステップ171は、現在の3D顔メッシュ及びカメラ・パラメータを考慮して、第1の画像内の様々な顔部分のランドマークの現在の2Dポジションを計算することを含み得る。
ステップ171は、変形した顔メッシュの前の反復のモデルと、カメラ・スクリーン空間投影パラメータとを使用することを含み得、方法は、3D顔メッシュ上の透視投影を実行して、各々の視認可能な注釈付けられた顔部分頂点の2Dスクリーン空間画素位置を得るために、カメラの外部的及び内部的パラメータを使用する。3D事前注釈付け(図15、3Dモデル141及びUVマップ142を参照されたい)を使用して、方法は、注釈を整合させることによって、各々の顔部分内の頂点の2Dポジションを発見する。
ステップ172は、第2の画像内の様々な顔部分のランドマークの2D位置を計算することを含み得る。
ステップ172は、画像の各々の画素を注釈付けるように、顔部分セグメント化方法を実行することを含み得、画素がバックグラウンドに属さない場合、方法は、注釈としてそれが属する規定された顔部分(目鼻、耳、唇、眉など)を保存する。
ステップ173は、第1の画像の顔部分の2D位置と第2の画像の顔部分の2D位置との間の2D->2D密度の対応関係を計算することを含み得る。
ステップ173は、対称ICP方法(https://en.wikipedia.org/wiki/Iterative_closest_point)を稼働させることによって、顔部分ごとに、第1の画像の顔部分ポイントと第2の画像の1つとの間の対応関係を発見することを含み得る。ICP方法は、2つのステップの間で反復して進み、第1のステップでは、切望して、第1の画像の形状内のポイントごとに、第2の画像の形状上の最も近いポイントを選ぶことによって、第1の画像の形状と第2の画像の形状との間の対応関係を発見する。第2のステップでは、最小二乗センスで第1の画像のポイントを第2の画像のポイントに最適に変換する回転及び転移を最適化及び発見する。最適なソリューションを発見するために、工程は、収束メトリックが満たされるときに収束が発生するまで、それらの2つのステップを繰り返す。
ここで、第1の画像の形状は、様々な顔部分の現在の2Dポジションであり得、第2の画像は、セグメント化マップ(上記説明を参照されたい)によって与えられる2D位置であり得る。ICPの厳格な適合は、顔部分ごとに別個に行われ得る。例えば、第1の画像内の視認可能な投影された鼻の画素ごとに、ターゲット画像に対する顔部分セグメント化によって与えられる、第2の画像の鼻上の対応する画素を発見する。
ステップ174は、第1の画像の3D位置と第2の画像の2D位置との間の3D->2D密度の対応関係を計算することを含み得る。
ステップ175は、対応関係を整合させるように、顔メッシュを変形させることを含み得る。
ステップ174は、重心座標によって規定された、3D顔メッシュからレンダリングされた2D画素、及びメッシュ上のそれらの3D位置に戻る第1の画像のカメラ・モデルを背面投影するために、ラスタライザ及び所与のカメラ・パラメータを使用することを含み得る。よって、方法は、メッシュ上の3D内の顔部分ポイントとカメラの透視投影下での2D内の第2の画像の位置との間の対応関係を生じさせる。
ステップ175は、典型的なまばらなランドマーク及びカメラ適合にあるように、第1の画像の3D特徴の投影が、第2の画像の2D位置の2D位置に整合するように、顔メッシュを変形させ、カメラ・パラメータを変更するために、変形モデル(例えば、上記説明されたような3DMM)を使用することを含み得る。
ステップ171~175は、収束メトリックが満たされるまで繰り返され得る。
例えば、対応関係及び適合手順にあるように、上記ステップは、収束まで繰り返され得、各々のステップにおいて、異なる且つより良好な対応関係を発見し、それらを最適化する。収束は、収束メトリックが満たされるときに達成される。
この方法は、耳、首、及び額のように、慣習的なランドマーク方法によって網羅され得ないエリア及び顔部分内のランドマークの集合を生じさせ、これは、3Dメッシュの使用に起因する。方法は、ランドマークの密度集合を生じさせ、密度の対応関係は、3Dモデル・テンプレート内で顔部分の1回の注釈付けを除き、注釈付けをほとんど必要としない。方法は、実行される回帰に起因して、一時的にコヒーレントであり得る、高品質のランドマークの密度集合を生じさせる。このコンテキストにおけるコヒーレンスは、ランドマークがフレームの間でジッタを有さないことを意味する。
それはまた、一般的なセグメント化/分類方法を単純に採用することによって、様々な顔又は身体部分、例えば、耳及び首上のランドマークを得ることを可能にする。
図16は、上唇に対する2D-2D密度の対応関係計算(両方の画像内で同一に色付けられた画素が相互に対応する)の例示であり得る。
図17は、ステップ、71、72、73、及び74のシーケンスを含む方法を例示する。
ステップ71は、仮想3D環境を取得することを含み得る。これは、仮想3D環境をユーザに表示させる、1回実行される命令を生成又は受信することを含み得る。仮想3D環境は、仮想3Dビデオ会議環境であることができ、又は仮想3Dビデオ会議環境とは異なり得る。
ステップ72は、参加者に関連するアバタに関する情報を取得することを含み得、参加者のアバタは、電話会議における少なくとも参加者の顔を含む。参加者のアバタは、1回、期間ごとに1回以上、電話会議ごとに1回以上で受信され得る。
ステップ73は、仮想3D環境内で参加者に関連するアバタを仮想的に位置付けることを含み得る。これは、参加者の前のセッションに基づいて、ジョブ・タイトル及び/又は優先度などのメタデータに基づいて、電話会議における役割、例えば、電話のイニシエータに基づいて、並びに参加者の嗜好に基づいてなど、いずれかの方式において行われることができる。ステップ73は、参加者のアバタによってポピュレートされる仮想3D環境の仮想表現を生成することを含み得る。
ステップ74は、参加者のアバタの位置と参加者の凝視方向との間の空間的関係に関する情報を受信することと、仮想3D環境内の参加者に関連するアバタの少なくとも方位を更新することとを含み得る。
図18は、方法1600を例示する。
方法1600は、人物の現在のアバタを更新するためのものであり得、ステップ1601、1602、1603、1604、及び1605を含み得る。
ステップ1601は、人物の顔の現在の顔のランドマーク・ポイントの二次元(2D)空間内の、現在の位置を計算することを含み得る。計算することは、現在のアバタ、及び2Dカメラの1つ又は複数の現在の獲得パラメータに基づき得、人物の現在のアバタは、3D空間内に位置し得る。
ステップ1602は、2D空間内で、人物の顔の顔のランドマーク・ポイントのターゲット位置を計算することを含み得、ターゲット位置を計算することは、2Dカメラによって獲得される1つ又は複数の画像に基づき得る。
ステップ1603は、現在の位置とターゲット位置との間の対応関係を計算することを含み得る。
ステップ1604は、対応関係に基づいて、3D空間内の顔のランドマーク・ポイントの位置を計算することを含み得る。
ステップ1605は、3D空間内の顔のランドマーク・ポイントの位置に基づいて、現在のアバタを修正することを含み得る。
現在の顔のランドマーク・ポイントは、現在の顔のランドマークのエッジ・ポイントのみであり得る。
現在の顔のランドマーク・ポイントは、現在の顔のランドマークのエッジ・ポイント及び現在の顔のランドマークの非エッジ・ポイントを含み得る。
対応関係を計算することは、反復的最近ポイント(ICP)工程を適用することを含み得、現在の位置は、ソース位置と見なされ得る。
3D空間内のターゲットの顔のランドマーク・ポイントの位置は、重心座標によって表わされ得る。
現在のアバタは、参照アバタ及び現在の3D変形モデルを含み得、現在のアバタを修正することは、参照アバタを実質的に修正することなく、現在の3D変形モデルを修正することを含み得る。
現在の3D変形モデルは、3Dモーフィング・モデル(3DMM:3D morphable model)であり得る。
方法は、現在の画像に対し、及び収束するまで、ステップ1601~1605を繰り返すことを含み得る。
ステップ1602は、セグメント化を含み得る。
図18はまた、複数の参加者の間の3Dビデオ会議を行うための方法1650の実例を例示する。
方法1650は、ステップ1652、1654、及び1656を含み得る。
ステップ1652は、異なる状況下の参加者の3D表現を生成するための初期の3D参加者表現情報を受信することを含み得る。この受信することは、特にビデオ会議のため、又は他の目的のために獲得される参加者のビデオ又は画像に基づき得る。受信された情報も、ソーシャル・ネットワーク及び同様のものなどの追加のソースから取り出され得る。参加者情報は、電話会議の参加者、例えば、第1の参加者及び第2の参加者に関連し得る。
ステップ1654は、第1の参加者のユーザ・デバイスによって、3Dビデオ電話会議の間、第2の参加者に関する1つ又は複数の現在の状況を示す第2の参加者の状況メタデータを受信することを含み得る。
ステップ1656は、第1の参加者のユーザ・デバイスによって、仮想3Dビデオ会議環境の第1の表現内の3D参加者表現を更新することを含み得る。
異なる状況は、異なる画像獲得条件、異なる凝視方向、異なるビューワの観点、及び異なる表情などからの少なくとも1つを含み得る。
初期の3D参加者表現情報は、初期の3Dモデル及び1つ又は複数の初期のテキスチャ・マップを含み得る。
図18はまた、複数の参加者の間の3Dビデオ会議を行うための方法1900の実例を例示する。
方法1900は、ステップ1910及び1920を含み得る。
ステップ1910は、参加者ごとに、3Dビデオ会議の間に複数回、仮想3Dビデオ会議環境内の更新された3D参加者表現情報を判定することを含み得る。
ステップ1920は、少なくとも1人の参加者に対し、3Dビデオ会議の間に複数回、仮想3Dビデオ会議環境の更新された表現を生成することを含み得、仮想3Dビデオ会議環境の更新された表現は、複数の参加者の少なくとも一部についての更新された3D参加者表現情報を表す。
3D参加者表現情報は、3Dモデル及び1つ又は複数のテキスチャ・マップを含み得る。
3Dモデルは、形状、姿勢、及び表情についての別個のパラメータを有し得る。
各々のテキスチャ・マップは、形状、姿勢、及び表情からの少なくとも1つに基づいて、選択及び/又は増補され得る。増補することは、照明、顔のメイクアップ効果(リップスティック及びブラッシュなど)に起因して値を修正することと、顔の毛の特徴(髭、口髭など)及びアクセサリ(メガネ、イヤホンなど)などを除去することとを含み得る。
各々のテキスチャ・マップは、形状、姿勢、表情、及び、参加者の顔と参加者の顔の画像を捕捉するカメラの光学軸との間の角度関係からの少なくとも1つに基づいて選択及び/又は増補され得る。
方法は、参加者ごとに、参加者の複数の3Dモデルから選択された3Dモデルを繰り返して選択することと、参加者の1つの選択された3Dモデルから参加者の別の3Dモデルへの遷移を円滑にすることとを含み得る。
ステップ1910は、以下からの少なくとも1つを含み得る:
a.更新された3D参加者表現情報を判定するための1つ又は複数のニューラル・ネットワークを使用すること。
b.更新された3D参加者表現情報を判定するための複数のニューラル・ネットワークを使用すること、複数のニューラル・ネットワークの異なるニューラル・ネットワークは、異なる状況と関連付けられ得る。
c.更新された3D参加者表現情報を判定するための複数のニューラル・ネットワークを使用すること、複数のニューラル・ネットワークの異なるニューラル・ネットワークは、異なる解像度と関連付けられ得る。
方法は、必要とされる解像度に基づいて、複数のニューラル・ネットワークの少なくとも1つのニューラル・ネットワークの出力を選択することを含み得、複数のニューラル・ネットワークは、異なる出力解像度に対して動作し、必要とされる解像度に最も近い解像度を有する1つが選択される。
図18は更に、複数の参加者の間で3Dビデオ会議を行うための方法2000の実例を例示する。
方法20は、ステップ2010及び2020を含み得る。
ステップ2010は、参加者ごとに、参加者を表す、仮想3Dビデオ会議環境内の更新された3D参加者表現情報を判定することを含み得る。判定することは、参加者の顔の少なくとも1つの視認可能なエリアを捕捉するカメラから隠蔽され得る、参加者の顔の1つ又は複数の隠蔽エリアの3D参加者表現情報を推定することを含み得る。
ステップ2020は、少なくとも1人の参加者に対して、仮想3Dビデオ会議環境の更新された表現を生成することを含み得、仮想3Dビデオ会議環境の更新された表現は、複数の参加者の少なくとも一部についての更新された3D参加者表現情報を表す。
方法は、3Dモデル隠蔽エリア及び1つの又は隠蔽部分のテキスチャ・マップを含み得る。
1つ又は複数の隠蔽エリアの3D参加者表現情報を推定することは、1つ又は複数の敵対的生成ネットワークを使用して実行され得る。
方法は、アバタのサイズを判定することを含み得る。
人物の3Dモデルをレンダリングするための多解像度ニューラル・ネットワーク
3D仮想ミーティング・アプリケーションでは、仮想3Dビデオ会議環境内で非常に高品質を3D仮想ビデオ会議の参加者に提示する必要性があり得る。高い現実性レベルを達成するために、各々の参加者の頭部及び身体の3Dモデルを作成するために、ニューラル・ネットワークが使用され得る。ニューラル・ネットワークはまた、参加者のテキスチャ・マップを作成するために使用され得、3Dモデル及びテキスチャ・マップは次いで、異なる角度から視認されることができる参加者の画像を作成するようにレンダリングされることができる。
ミーティングに2人よりも多い参加者が存在する場合、各々の参加者は、ミーティングにおける参加者の多く又は全てを見るためにズーム・プットではなく、クローズ・アップから他の参加者を見るために、ズーム・イン及びズーム・アウトすることを望み得る。
参加者の3Dモデル及びテキスチャ・マップを作成するためにニューラル・ネットワークを使用することは典型的には、計算的に集中的演算であり得る。多くの参加者の画像をレンダリングするために複数回ニューラル・ネットワークを稼働させることは、必要とされる計算の回数が高くなり得、リアルタイムなレンダリングを達成することなくコンピュータのリソースが浪費され得るので、スケーラブルであり得ず、標準的なコンピュータを使用して可能であり得ない。代わりに、クラウド上でコンピュータのネットワークを使用するのは非常にコストがかかり得る。
この実施例によれば、ネットワークの集合は、異なるレベルの詳細(3Dモデル内のポリゴンの数及びテキスチャ・マップ内の画素の数)において3Dモデル及びテキスチャ・マップを生み出すように訓練され得る。
例えば、非常に高い解像度のネットワークは、10,000個のポリゴンを有する3Dモデル及び2000×2000の画素を有する2Dテキスチャ・マップを作成し得る。高解像度ネットワークは、2500個のポリゴンを有する3Dモデル及び1000×1000の画素を有する2Dテキスチャ・マップを作成し得る。
中解像度ネットワークは、1500個のポリゴンを有する3Dモデル及び500×500の画素を有する2Dテキスチャ・マップを作成し得る。低解像度ネットワークは、625個のポリゴンを有する3Dモデル及び250×250の画素を有する2Dテキスチャ・マップを作成し得る。
実施例では、全てのそれらのネットワークは、可変数のレイヤの後に、いくつかの出力を有する1つのネットワークであることができる。例えば、最終的なネットワークの出力は、2000×2000の画素を有するテキスチャ・マップであり、前のレイヤの出力は、1000×1000の画素を有するテキスチャ・マップである。
実行時間の間、ソフトウェアは、ユーザが使用していることがあるズーム・レベルに従って、ミーティングにおける各々の参加者の画像のサイズがいくつであるかを判定する。
ズーム・レベルに続いて必要とされるサイズによって、方法は、関連するレベルの詳細により3Dモデル及び2Dテキスチャ・マップを作成するためにどのネットワークが使用されるべきであるかを判定する。このようにして、より小さい数字は、ネットワークごとに少ない回数の計算を結果としてもたらすより低い解像度のネットワークを必要とする。したがって、多くの人物の画像をレンダリングするために必要とされる計算の総数は、多くフル解像度ネットワークの稼働と比較して低減される。
実施例によれば、人物の顔のテキスチャ・マップは、顔の異なるエリアのテキスチャ・マップに基づいて生成されることができる。
顔のエリアの(例えば、顔のランドマークの目の、及び口の、など)テキスチャ・マップの1つは、顔の別のエリアのテキスチャ・マップよりも高い解像度の(より詳細な)ものであり得る(例えば、目と鼻との間のエリアが、頬又は額よりも高い解像度を有し得る)。例えば、ハイブリッド・テキスチャ・マップ2222を提供するように、目のより高い解像度テキスチャ・マップが顔の他のエリアのより低い解像度テキスチャ・マップに追加され得る、図20を参照されたい。
異なるエリアのテキスチャ・マップは、2つ以上の異なる解像度レベルのものであり得る。テキスチャ・マップごとの解像度の選択は、固定され得、又は経時的に変更し得る。選択は、異なるエリアの優先度に基づき得る。優先度は、経時的に変更し得る。
別の実施例によれば、顔の異なるエリアのテキスチャ・マップは、それらのエリアの変更の頻度に従って、異なる頻度で更新及び/又は伝送され得る。例えば、目及び唇は、鼻の穴又は眉よりも頻繁に変更し得る。したがって、鼻の穴及び眉のテキスチャ・マップは、目及び唇に対してよりも少なく更新され得る。このようにして、鼻の穴及び眉のテキスチャ・マップが目及び唇のテキスチャ・マップのより多くの頻度の更新で更新される状況と比較して、計算の回数は更に低減される。
異なる顔エリアのテキスチャ・マップの解像度は、利用可能な計算リソース及びメモリ・リソース状態などの追加のパラメータに基づき得る。
顔の異なるエリアのテキスチャ・マップから顔のテキスチャ・マップを生成することは、いずれかの方式において実行され得、例えば、異なるエリアの異なるテキスチャ・マップの間の境界を平滑化することなどを含み得る。顔に行われるいずれかの言及は、人物全体に、又は人物のいずれかの他の身体組織に変更すべきところは変更して適用され得る。
図18はまた、仮想3D会議などのビデオ会議の間に使用されるテキスチャ・マップを生成するための方法2100の実例を例示する。
方法21は、ステップ2110、2120、及び2130を含み得る。
ステップ2110は、3Dオブジェクトの少なくとも一部の複数のエリアの複数のテキスチャ・マップを取得すること(例えば、いずれかの方式において生成又は受信する)ことを含み得、複数のテキスチャ・マップは、第1のエリア及び第1の解像度の第1のテキスチャ・マップと、第2のエリア及び第2の解像度の第2のテキスチャ・マップとを含み得、第1のエリアは、第1のエリアとは異なり、第1の解像度は、第2の解像度とは異なる。
ステップ2120は、3Dオブジェクトの少なくとも一部のテキスチャ・マップを生成することを含み得、生成することは、複数のテキスチャ・マップに基づき得る。
ステップ2130は、ビデオ会議の間に3Dオブジェクトの少なくとも一部のテキスチャ・マップに基づいて、3Dオブジェクトの少なくとも一部の視覚的表現を利用することを含み得る。
マルチ・ビュー・テキスチャ・マップ
高度に現実的な顔を生成することがもたらされ得、それは、他のオブジェクトに適用可能であり得る。
高品質且つ非常に現実的な画像及びビデオ又は顔及び身体は、コンピュータ・グラフィックにおける一般的な問題であり得る。
これは、他の使用の中で、映画又はコンピュータ・ゲームの作成に適用されることができる。
ユーザが共通空間に座り得る3Dビデオ会議アプリケーションを作成するためにそれも適用されることができ、3Dアバタは、参加者を表し、標準的なウェブカメラによって捕捉されるようなユーザの実際の動きに従って動き及び話す。
顔、頭部、又は身体の現実的に見る3D表現を作成するために、3Dモデル及び2Dテキスチャ・マップは、オフラインで作成され得、次いで、操作され得る。操作することは、筋肉が実の身体で行うのとよく似て、動くモデルの異なる部分を有効にする3Dモデル内での操縦を生じさせることを意味する。
3Dモデル及びテキスチャ・マップは、身体及び顔の外部部分のビューを含むはずであるが、口、歯、及び舌などの内部部分をも含むはずである。それらは、まぶたなどの身体部分が動いて、開いた目及び閉じた目を提示することを有効にするはずである。
高度に現実的に見える画像又はビデオを作成するために、典型的には、頭部のモデル内で最大で100,000個を有する非常に高いレベルの3Dモデルが使用され得る。
加えて、テキスチャ・マップは、高解像度での全ての内部及び外部身体/頭部部分の記述を含むはずである。
テキスチャ・マップに加えて、レンダリング・エンジンが身体及び顔からの光の均一でない(Lambertianでない)反射、例えば、しっとりした皮膚若しくは脂ぎった皮膚から、又はぎらぎらした目からの反射をシミュレートすることを有効にするために、マテリアル・マップ又は反映度マップが必要となり得る。
そのような3Dモデル及び2Dテキスチャ及びマテリアル・マップを作成することは典型的には、多くのカメラ及び制御された照明を有する良好に装備されたスタジオを必要とする。これは、それらのモデルの使用をオフライン且つ事後製造のユースケースに限定する。
これに全て起因して、高度に現実的な身体及び頭部をレンダリングすることは、多くの計算を必要とする複雑な工程であり得る。そのような計算の量は、リアルタイムでの、及び高フレーム・レート(少なくとも、毎秒30フレーム)でのいずれかの標準的なコンピュータ上で処理されることが可能であり得ない。
多くの身体及び頭部が各々の画像内でレンダリングされる必要がある場合、例えば、3Dミーティングに多くの参加者が存在し得る場合、この問題がより一層深刻になる。
非常に多い数のポリゴンを有する3Dモデル、内部部分及び外部部分並びにマテリアル/反映マップについての多くのオプションを有するテキスチャ・マップを使用する代わりに、はるかに少ない計算を必要とする代替的なソリューションが提供され、また、多くの身体及び顔のリアルタイムなレンダリングを有効にする。
ソリューションは、様々な視点から、例えば、前方、側面、背面、上部、及び底部から、人物の画像又はビデオを捕捉することに基づき得る。
これは、ハンドヘルド携帯電話カメラにより頭部をスキャンすることによって、或いは、三脚に固定されたウェブカメラ若しくは携帯電話カメラなどの固定されたカメラ又はいずれかの他のデバイスの前方で頭部を振り向かせることによって行われることができる。人物の画像も、人物のスキャンされた写真などを使用して、ソーシャル・ネットワーク又はインターネット・リソースから抽出することを含む、他の方法及び他のソースによって獲得され得る。
スキャン工程の間、人物は、異なる顔表情を実行し、話すように依頼され得る。身体全体をスキャンするために、ユーザは、異なる身体姿勢でポーズし、動き、姿勢を継続して変更するように依頼され得る。
この工程において収集される画像は、必要とされる姿勢及び表情に応じて、並びに観点に応じて、頭部及び/又は身体の3Dモデルを作成するニューラル・ネットワーク又はいくつかのニューラル・ネットワークを訓練するために使用され得る。
加えて、テキスチャ・マップ依存の観点は、必要とされる姿勢及び表情に応じて、及び観点に応じて生み出され得る。
3Dモデル及びテキスチャ・マップは、頭部及び/若しくは身体又は人物の画像をレンダリングするために使用され得る。
ニューラル・ネットワークによって出力される2Dテキスチャ・マップが観点、姿勢、及び表情のうちの少なくとも1つに依存し得るので、それは、観点、姿勢、及び表情のうちの少なくとも1つから画像をレンダリングすることに関連し得る情報のみを含むはずである。それらの詳細が2Dテキスチャ画像に現れるという事実によって皮膚のしわなどの欠落する3D詳細が補償され得るように、これは、頭部又は身体の3Dモデルの精度が少なくなることを有効にする。同様に、開いたまぶた又は閉じたまぶたのテキスチャが2D画像内で発見され得、3Dモデルに投影され得るように、開いたまぶた又は閉じたまぶたの操作されたモデルを生じさせる必要性が存在し得ない。
実際に、それが多くの顔の詳細を省略し、小さい筋肉及びそれらの動きを考慮しないように、3Dモデルは高度に不正確である場合がある。それはまた、上記言及されたような動く顔の部分ではない内部を含まないと共に、2D画像は、複数の観点からではなく、或る観点からの外観を提示する。これは、3Dモデルにおける不正確さが、或る観点から3Dモデル及びテキスチャ・マップをレンダリングすることに反映しない。
結果として、画像をレンダリングするために使用される3Dモデルは、非常に詳細である必要なく、多くのポリゴンを含まない。典型的には、それは、従来のソリューションにおける数万又は数十万のポリゴンと比較して、数千又は数百のポリゴンを有することができる。
これは、高価でないプロセシング・ユニットにより計算デバイス上でのリアルタイムでの頭部及び/又は身体の高速な、リアルタイムなレンダリングを可能にする。
更に、3Dモデル及び2Dテキスチャ・マップは、所望の出力画像の解像度に応じて、異なるネットワークによって出力され得る。低解像度画像は、より少ない計算を必要とするより少ない係数によりニューラル・ネットワークによって出力され得る低解像度ポリゴン3Dモデル及び低解像度テキスチャ・マップに基づいてレンダリングされる。
これは更に、GPU、携帯電話、又はタブレットを有さない、ラップトップなどの低コスト且つ低電力の計算デバイスを使用して、1つの画像内でいくつかの頭部及び/又は身体を一度にレンダリングすることを可能にする。
また、ソリューションは、スタジオを必要とせず、単一のカメラに基づき得ることに留意されよう。それは、多くのカメラ及び照射源を有する複雑なシステムを必要とせず、制御された照明を必要としない。
図19は、3Dビデオ会議のための方法2200の実例を例示する。
方法2200は、ステップ2210及び2220を含み得る。
ステップ2210は、参加者ごとに、参加者を表す、仮想3Dビデオ会議環境内の更新された3D参加者表現情報を判定することを含み得る。判定することは、参加者の画像を獲得するカメラの実際の光学軸と仮想カメラの所望の光学軸との間の差分を補償することを含み得る。
ステップ2220は、少なくとも1人の参加者に対し、仮想3Dビデオ会議環境の更新された表現を生成することを含み得、仮想3Dビデオ会議環境の更新された表現が、複数の参加者の少なくとも一部についての更新された3D参加者表現情報を表す。
仮想3Dビデオ会議環境の更新された表現は、複数の参加者の少なくとも一部の参加者ごとのアバタを含み得る。
仮想3Dビデオ会議環境内の第1のアバタの凝視方向は、(a)第1のアバタによって表わされ得る第1の参加者の凝視方向と(b)第1の参加者に表示される仮想3Dビデオ会議環境の表現との間の空間的関係を表し得る。
仮想3Dビデオ会議環境内の第1のアバタの凝視方向は、カメラの実際の光学軸に対して不可知であり得る。
仮想3Dビデオ会議環境の更新された表現内の第1の参加者の第1のアバタは、仮想カメラによって捕捉されるとして、仮想3Dビデオ会議環境の更新された表現内に現れる。
仮想カメラは、第1の参加者の第1の参加者の目を仮想的に横切る仮想平面に位置し得る。
方法は、参加者の頭部姿勢及び表情に関する参加者外見情報を受信又は生成することと、参加者外見情報を反映するように、更新された3D参加者表現情報を判定することとを含み得る。
方法は、アバタの各々の形状を判定することを含み得る。
図19はまた、三次元であり得るオブジェクトの観点から画像を生成するための方法2300の実例を例示する。
方法2300は、オブジェクトのコンパクトな3Dモデル及び或る観点と関連付けられた少なくとも1つの二次元(2D)テキスチャ・マップに基づいて、オブジェクトの画像をレンダリングするステップ2310を含み得る。
レンダリングすることは、コンパクトな3Dモデルに対する少なくとも1つの2Dテキスチャ・マップから生成されるテキスチャを仮想的に配置することを含み得る。
方法は、異なるテキスチャ・マップ観点と関連付けられ得る複数の2Dテキスチャ・マップから、或る観点と関連付けられた少なくとも1つの2Dテキスチャ・マップを選択することを含み得る。
レンダリングすることはまた、オブジェクトの要求される外観に応答し得る。
オブジェクトは、センサによって獲得され得る獲得されたオブジェクトの表現であり得る。
レンダリングすることはまた、獲得されたオブジェクトの外観パラメータに応答し得る。
獲得されたオブジェクトは、三次元(3D)ビデオ会議の参加者であり得る。
方法は、1つ又は複数のニューラル・ネットワークから、少なくとも1つの2Dテキスチャ・マップを受信することを含み得る。
図19は更に、複数の参加者の間で3Dビデオ会議を行うための方法2400の実例を例示する。
方法2400は、ステップ2410、2420、及び2430を含み得る。
ステップ2410は、第1の参加者と関連付けられ得る第1のユニットによって、第2の参加者メタデータ及び第1の観点メタデータを受信することとを含み得、第2の参加者メタデータは、第2の参加者の姿勢及び第2の参加者の表情を示し得、第1の観点メタデータは、第1の参加者が第2の参加者のアバタを見ることを要求する仮想ポジションを示し得る。
ステップ2420は、第1のユニットによって、第2の参加者メタデータ及び第1の観点メタデータに基づいて、第2の参加者表現情報を生成することを含み得、第2の参加者表現情報は、第2の参加者のコンパクトな3Dモデル及び第2の参加者テキスチャ・マップを含み得る。
ステップ2430は、第1の参加者に対し、3Dビデオ会議の間、仮想3Dビデオ会議環境の表現を判定することを含み得、判定することは、第2の参加者表現情報に基づき得る。
方法は、第2の参加者メタデータ及び第1の観点メタデータに応答して、コンパクトな3D及び第2の参加者テキスチャ・マップの各々の1つを生成することを含み得る。
コンパクトな3Dモデル及び第2の参加者テキスチャ・マップのうちの少なくとも1つを生成することは、第2の参加者メタデータ及び第1の観点メタデータに基づいて、コンパクトな3Dモデル及び第2の参加者テキスチャ・マップのうちの少なくとも1つを出力するように訓練された1つ又は複数のニューラル・ネットワークに、第2の参加者メタデータ及び第1の観点メタデータをフィードすることを含み得る。
コンパクトな3Dモデルは、1万個未満のポイントを含み得る。
コンパクトな3Dモデルは、FLAMEモデル(https://flame.is.tue.mpg.de/home)についてなど、必然的に5千個のポイントから構成され得る。
仮想3Dビデオ会議環境の表現を判定することは、第2の参加者テキスチャ・マップに基づいて、仮想3Dビデオ会議環境内の第2の参加者の外観の推定を判定することと、少なくとも第2の参加者のコンパクトな3Dモデルに基づいて、推定を訂正することとを含み得る。
訂正することは、3D会議ビデオの1人又は複数の参加者のコンパクトな3Dモデルに関連する秘匿効果及び照射効果に基づいて、推定を訂正することを含み得る。
ビデオからの記銘力及びムード推定
Covid 9に起因して、人物のミーティングにおける多くがビデオ電話会議と置き換えられてきた。
そのような呼び出しは長くなり得、参加者は、それらの記銘力又は焦点を失い得、また、インターネットを閲覧し、電子メールを読み、又はそれらの電話によりプレイすることなど、ミーティングに並列して他の事項を行うことを唆され得る。
多くのケースでは、ミーティング参加者の一部が、他の参加者が注意深くなり得るかどうか(すなわち、ミーティングに注意を払っている)、及び、他の参加者がどのように感じるか、例えば、他の参加者が話していることにそれらが満足し得、悲しみ得、怒り得、ストレスを感じ得、同意し得、又は同意し得ない、ことを知ることが重要であり得る。
そのようなビデオ電話会議についての実例のケースは、例えば、学校の講義、大学の講義、セールス・ミーティング、及びチーム・マネージャによって管理されるチーム・ミーティングと関連付けられ得る。
ビデオを分析し、参加者の記銘力、殊に、積極的に参加し得ず、話し得ない参加者を推定するためのソリューションが提供され得る。
ビデオ会議ミーティングからのビデオのデータベースが収集され得る。
ビデオのうちの1つ又は複数内に現れる参加者ごとに(又は、参加者の少なくとも一部)、ビデオは、ユーザの記銘力及び感覚が一定であると推定され得る部分に分割され得る。各々のビデオの各々の部分では、記銘力レベル及び感情は、いくつかの可能な手段を使用することによって推定され得る。
参加者は、ミーティングのその部分の間に参加者がどのように興味があったか、及びその時間の間にそれらのムードが何であったかを問い合わされ得る。
a.外部アノテータは、頭部姿勢、目の動き、及び顔表情など、参加者の外観に基づいて、記銘力及びムードを推定するように依頼され得る。
b.外部デバイスは、ポリグラフ・マシン又は他のあまり洗練されていない方法によって行われるように、参加者の心臓の鼓動及び他の生物学的信号を測定するために使用され得る。
c.コンピュータ・ソフトウェア又はオブザーバは、参加者がミーティングに関連し得ない、すなわち、ミーティングに完全に焦点を当てていないコンピュータ・スクリーン上で別のウインドウを見ていたかどうかを検証し得る。
各々のビデオの部分ごとに、記銘力についての数値スコアが作成され得、又は代わりに、参加者の記銘力は、「高度に関心がある」、「関心がある」、「無関心である」、「退屈である」、「極端に退屈である」、及び「多くのタスクがある」など、いくつかのクラスに分類され得る。
同様の方式において、ユーザのムードが推定され得、例えば、「幸せである」、「満足である」、「悲しい」、「怒っている」、「ストレスを感じる」、である。
逆に、数値は、幸福度、リラクゼーション、関心などの或る感覚に与えられることができる。
ニューラル・ネットワーク・モデルは、ビデオ内の参加者の外観と記銘力及びムードのレベルとの間の相関関係を発見するように訓練され得る。
実行時間において、ビデオは、ネットワークに供給され得、それは、時間に応じて記銘力レベルの推定を出力する。
この出力は、それらの性能を改善し、又は記銘力を失ったことがある或る他の参加者を助けるために、ミーティングのホスト又はマネージャ(教師、セールスパーソン、マネージャ)などの一部の参加者に提示され得る。
実施例では、ビデオ内で検出される顔は、以前の特許において説明されたように、「頭部姿勢、目の凝視方向、及び顔表情に関するパラメータを含む、パラメトリック・モデルを生成するニューラル・ネットワークによってモデル化され得る。
パラメトリック・モデルが発見されると、パラメータのみがニューラル・ネットワークに入力され得、ニューラル・ネットワークは、未処理ビデオを入力する代わりに記銘力レベルを推定する。
パラメータは、時間的に一連のパラメータとして入力され得、その結果、表情、頭部、及び目の動きにおける時間的変化が考慮に入れられ得る。例えば、長期間の間に顔表情又は頭部及び目の方向をコーディングするパラメータに変更がない場合、ネットワークは、これが注意を払っていないことの兆候であり得ると学習し得る。
そのような方法は、記銘力のレベルを推定するネットワークに入力され得るデータの量を低減させるので有益であり得る。
別の実施例では、ビデオ分析ネットワークの出力は、コンピュータ・ソフトウェアによって収集されるデータと組み合わされ得る。
そのような追加のデータは、以下のものであることができる:
a.他のウインドウがスクリーン上で視認されるか?
b.ビデオ会議ミーティングの間にユーザがタイプしているか、又はマウスをクリックし得るか?
c.目の凝視追跡を使用して、人物が見得る方向が推定されることができる。
方法は、ユーザがビデオ会議アプリケーションにおいて話していることがある人物を若しくは他の人物を見ていることがあるか、又は周りを凝視していることがあるだけであるかどうかを推定し得る。
目の凝視検出を使用して、方法はまた、他の開いたウインドウなど、ビデオ会議ソフトウェアによって占有されていないスクリーンのエリアをユーザが見ているかどうかを推定することができる。
目の凝視検出を使用して、方法は、ミーティングの間にユーザがテキストを読んでいることがあるかどうかを推定することができる。
全てのデータ・ソースの組み合わせは、ミーティングの参加者が、ミーティングの間に多くのタスクがあり得るかどうか、及びビデオ・ミーティングの代わりに他のタスクに注意を払い得るかどうかを推定するために使用され得る。
上記言及された工程は、人物の画像をレンダリングすることに限定されず、動物又はいずれかの他のオブジェクトをレンダリングするためにも使用されることができることに留意されよう。
図19は更に、ビデオ会議における参加者の精神的パラメータを判定するための方法2500の実例を例示する。
方法2500は、ビデオ会議の間に参加者の精神的状態を判定するために、ビデオ会議の間に獲得される参加者のビデオに対して機械学習工程を適用するステップ2510を含み得、精神的状態は、ムード及び記銘力から選択され得る。機械学習工程は、1人又は複数の人物のビデオ・セグメントを訓練し、訓練するビデオ・セグメントの各々の間に1人又は複数の人物の参加者の精神的状態を示す精神的状態メタデータを訓練すると、共にそれが供給された訓練工程によって訓練されてきた。
訓練する精神的状態メタデータは、例えば、以下からの少なくとも1つによって、いずれかの方式において生成され得る:
a.1人又は複数の人物をクエリすること。
b.1人又は複数の人物とは異なるエンティティ(医療スタッフ及びエクスパートなど)によって生成されること。
c.訓練するビデオ・セグメントの獲得の間に1人又は複数の人物の1つ又は複数の生理学的パラメータを測定すること。
d.訓練するビデオ・セグメントの獲得の間、1人又は複数の人物と関連付けられたディスプレイ以外の構成要素により、1人又は複数の人物の対話に基づいて生成されること。
e.訓練するビデオ・セグメントの獲得の間、1人又は複数の人物の凝視方向に基づいて生成されること。
1人又は複数の人物は、参加者であり得る。
ビデオ会議は、三次元(3D)ビデオ会議であり得る。
方法2500は、訓練することを含み得る。
図18は更に、ビデオ会議における参加者の精神的状態を判定するための方法2600の実例を例示する。
方法2600は、ステップ2610及び2620を含み得る。
ステップ2610は、3Dビデオ会議の間に参加者外観パラメータを取得することを含み得る。そのようなパラメータの実例は、Flameモデル(https://flame.is.tue.mpg.de/home)において与えられる。
ステップ2620は、参加者の精神的状態を判定することを含み得、判定することは、機械学習工程によって、パラメータを分析することを含み得る。
機械学習工程は、シン・ニューラル・ネットワークによって実装され得る。
分析することは、3Dビデオ会議の間に繰り返して行われる。
分析することは、外観パラメータの値の1つ又は複数のパターンの後に追跡することを含み得る。
方法は、機械学習工程によって、1つ又は複数のパターンに基づいて、参加者の精神的状態を判定することを含み得る。
方法は、少なくとも予め定められた期間の間、1つ又は複数の外観パラメータが実質的に変化し得ない、記銘力の不足を判定することを含み得る。
精神的状態は、参加者のムードであり得る。
精神的状態は、参加者の記銘力であり得る。
判定することは、ディスプレイ以外のデバイス内での参加者の対話に関する1つ又は複数の対話パラメータに更に応答し得る。
参加者外観パラメータは、参加者の凝視方向を含み得る。
図19は、ビデオ会議における参加者の精神的パラメータを判定するための方法2700の実例を例示する。
方法2700は、ステップ2710及び2720を含み得る。
ステップ2710は、3Dビデオ会議の間の参加者対話パラメータを取得することを含み得る。
ステップ2720は、機械学習工程によって、参加者の精神的パラメータを判定するように、参加者対話パラメータを分析することを含み得る。
図19はまた、ビデオ会議における参加者の精神的状態を判定するための方法2800の実例を例示する。
方法2800は、ステップ2810、2820、及び2830を含み得る。
ステップ2810は、3Dビデオ会議の間に参加者外観パラメータを取得することを含み得る。
ステップ2820は、参加者のコンピュータと交換されるコンピュータ・トラフィックを示す参加者コンピュータ・トラフィック・パラメータを取得することを含み得、参加者のコンピュータは、3Dビデオ会議に参加するために利用される。
ステップ2830は、参加者の精神的状態を判定することを含み得、判定することは、機械学習工程によって、参加者外観パラメータ、及び参加者コンピュータ・トラフィック・パラメータを分析することを含み得る。
図19はまた、ビデオ会議における参加者の精神的状態を判定するための方法2900の実例を例示する。
方法2900は、ステップ2910、2920、及び2930を含み得る。
ステップ2910は、3Dビデオ会議の間に参加者外観パラメータを取得することを含み得る。
ステップ2920は、参加者のコンピュータと交換されるコンピュータ・トラフィックを示す参加者コンピュータ・トラフィック・パラメータを取得することを含み得、参加者のコンピュータは、3Dビデオ会議に参加するために利用される。
ステップ2910及び2920の後に、参加者の精神的状態を判定するステップ2930が続き得、判定することは、機械学習工程によって、参加者外観パラメータ、及び参加者コンピュータ・トラフィック・パラメータを分析することを含み得る。
実行される必要があり得る計算の総回数は、視野(FOV:Field Of View)内に現れる人物の数によっては縛られ得ないが、むしろ、ビューの解像度によって縛られ得ないことに留意されるべきである。スクリーン解像度が一定のままである場合、例えば、FOVを広げることは、捕捉及びレンダリングされる必要があるより小さいサイズを有するが、より多くの参加者が示されることを結果としてもたらし得る。
1つの視覚的検知ユニットにおける複数の参加者
既存の電話会議システムは、カメラごとに1人の参加者を想定する。したがって、1人よりも多い人物がそれを使用する場合でさえ、1つのタグ付けられた名前がカメラごとに現れる。これは、殊に、他の参加者がそれらを認識することができない場合、参加者が誰であるかについての理解不足につながる場合がある。
複数の参加者が単一のカメラによって、又は単一のカメラよりも多くを含み得る視覚的検知ユニットによって捕捉されるときでさえ、カメラによって捕捉される各々の参加者の正確な表現を提供することが有益であり得る。
参加者は、仮想3Dビデオ会議環境の1つ又は複数の表現内に現れ得、各々の参加者は、アバタによって提示され得る。
非参加者も、仮想3Dビデオ会議環境の1つ又は複数の表現に現れ得ることに留意されるべきである。したがって、仮想3Dビデオ会議環境の少なくとも1つの表現に現れるはずである人物は、関連する人物として見なされ得る。関連する人物は、参加者又は非参加者であり得る。
方法は、視覚的検知ユニットによって捕捉される人物の数を検出することと、人物を識別することを試みることとなど、視覚的情報分析によって開始し得る。いずれかの識別工程が使用され得る。例えば、顔検出及び認識である。
人物が検出されると、方法は、人物が関連するか又は関連しないかどうか、及び無視され得るかどうかを判定し得る。
人物が関連すると想定して、人物の画像(視覚的検知ユニットによって獲得される画像の部分)は、セグメント化され得る。セグメント化は、異なるセグメントを各々の参加者の衣服又は他の可能なアクセサリ(時計、メガネ、ジュエリなど)と関連付けることを含み得る。任意選択で、関連する人物は、異なるセグメントを識別することが可能にされ得る(ユーザから入力を受信することによって)。
各々の参加者がアバタによって表わされる仮想3Dビデオ会議環境では、視覚的検知ユニットによって捕捉される関連する人物の各々の1人は、異なるアバタによって表わされ得る。複数の関連する人物が存在することを識別することなく、そのようなシステムは機能しない。
このフレームワーク内で、関連する人物の1人がジェスチャをとり、又は場合によっては、同一のカメラの関連する人物の別を見る、ということが生じ得る。これは次いで、アバタの振る舞いによって反映される。実例として、関連する人物の1人が別の関連する人物にオブジェクトを手渡す場合、このアクションは、仮想3Dビデオ会議環境内で反映されることができ、第2の関連する人物に対応するアバタに同様のオブジェクトを手渡す、第1の関連する人物と対応するアバタが示される。
任意選択で、システムも、一部の一時的メモリを有する一時的追跡機構を有する。これは、参加者が、カメラのビューに及びビューから動くことを可能にすると共に、別々に識別されることを可能にする。この追跡は、顔認識、衣服の色の追跡、又は同様の方法に基づき得る。
別のオプションは、1人よりも多い人物がカメラ・ビュー内に現れるとき、システムは、ビデオ会議内のそれらの人物のサブセットのみを示すように指示され得る。例えば、ビデオ会議が家から行われる場合、他の家庭の人物及び動物-子供、ペット、配偶者(関連しないと見なされる)は、カメラのビュー内で時折現れることが非常に習慣的である。このケースでは、システムは、ビデオ会議内の関連しない人物又は動物を示さないように構成される。
図21は、複数の方法、方法3000、方法3001、方法3003、及び方法3200の実例を例示する。
方法3000は、複数の参加者の間の仮想3Dビデオ会議を行うためのものである。
仮想3Dビデオ会議の実行は、複数の参加者デバイスに仮想3Dビデオ会議環境の複数の表現を表示することを含み得る。仮想3Dビデオ会議のプロビジョンのために必要とされる計算は、複数の参加者デバイスのいずれか以外の1つ又は複数の計算システムによって実行され得、複数の参加者デバイスによって単独で(又は、ほぼ単独で)実行され得、1人又は複数の参加者デバイス及び1つ又は複数の他のシステムの組み合わせによって実行され得る。
参加者のいずれに関連する視覚的検知ユニットの視野内の関連する人物の存在に関連する情報は、1つ又は複数の他の参加者デバイスに送信され得、1つ又は複数の他のシステムに送信され得、フィルタリング・ルール、伝送遮断ルール、又は複数の人物に関連するいずれかのインジケーションの処理、及び/若しくは伝送、及び/若しくは表示に関連するいずれかの他のルールの対象になり得る。
参加者デバイスは、仮想3Dビデオ会議環境の複数の表現を表示し得、通常は、仮想3Dビデオ会議環境の表現は、1人の参加者デバイスから別の参加者デバイスへと異なる。関連する1人又は複数の人物の存在は、仮想3Dビデオ会議環境の複数の表現の少なくとも一部に反映され得る。
方法3000は、或る参加者に関連する視覚的検知ユニットによって、視覚的情報を獲得するステップ3010によって開始され得る。
ステップ3010の後、視覚的情報に現れる1人又は複数の人物を識別するステップ3020が続き得る。いくつかのケースでは、複数の人物は、視覚的情報に現れ得る。一部の他のケースでは、1人の人物のみが視覚的情報に現れる。一部の更なるケースでは、人物が視覚的情報に現れない。
単一の人物が視覚的情報に現れ、又は人物が視覚的情報に現れない場合、ステップ3020の後、検出に応答し、又は1人の人物に応答し、又は人物がいないことに応答するステップ3029が続き得る。
複数の人物が視覚的情報に現れる場合、ステップ3020の後、複数の人物から、少なくとも1人の関連する人物を発見するステップ3030が続き得る。
関連する人物は、その存在が仮想3Dビデオ会議の少なくとも1人の参加者(又は、参加者デバイス)に示され得る人物である。少なくとも、関連する人物の存在に関するインジケーションは、或る参加者の参加者デバイスの外に送信され得る。
関連する人物の存在は、仮想3Dビデオ会議の1人又は複数の参加者に表示される仮想3Dビデオ会議環境内で表わされ得る(又は、少なくとも表わされるための候補である)。参加者は、その人物のインジケーションを受信しないと判定し得、並びに/又は先述の存在の表示は、フィルタリング及び/若しくは表示ルールの対象になり得る。関連する人物は、参加者であり得、又は参加者であり得ない。
ステップ3030は、以下のうちの少なくとも1つを含み得る:
a.複数の人物のどの人物が仮想3Dビデオ会議の参加者であるかを判定すること。
b.参加者が関連する人物であるかどうかを判定すること。
c.3Dビデオ会議の非参加者が関連する人物であるかどうかを判定すること。
d.顔認識工程を適用すること。
e.いずれかの生体識別工程、更には顔認識工程を適用すること。
f.或る参加者及び人物の外観に続く少なくとも或る期間の間に少なくとも1人の関連する人物に関する識別情報を記憶すること。これは、別の関連性判定工程を開始する必要がないので、計算リソースの使用率を低減し得る。
g.少なくとも1人の関連する人物が視覚的検知ユニットの視野をから出て、次いで、視覚的検知ユニットの視野に再度入った後、少なくとも1人の関連する人物のいずれかを識別すること、識別することは、識別情報に基づいている。これは、関連するとして識別される人物が、最大で予め定義された時間の間に視野を離れ得、なおも関連するとして見なされるので、或る「メモリ」を提供し得る。
h.関連する人物が、計算リソースを低減させるために関連する人物が視野を出る予め定義された期間の間でさえ、視覚的検知ユニットの視野内にあり、仮想3Dビデオ会議環境を再生成及び/又は更新することが必要とされ、また、通信リソースの使用率を低減させ得る(仮想3Dビデオ会議環境の更新に関する情報を送信する必要がない)ことを示し続けること。これは、仮想3Dビデオ会議環境をより円滑にし得る。方法は、仮想3Dビデオ会議環境内の関連する人物の存在又は不存在に関連する情報を更新するかどうかを決定するときにヒステリシス機構又はいずれかの他の円滑化機構を使用し得る。
ステップ3030の後、複数の人物から、少なくとも1人の関連する人物を発見することに応答するステップ3040が続き得る。
ステップ3040は、少なくとも1人の関連する人物の各々に対し、3Dエンティティ表現情報を判定するステップ4041と、少なくとも1人の参加者に対し、少なくとも1人の関連する人物の各々についての3Dエンティティ表現情報に基づいて、仮想3Dビデオ会議環境の表現を生成するステップ3042とを含み得る。
ステップ3010、3020、3030、及び3040は、視覚的検知ユニット又は参加者のいずれかに関連して実行されることができる。
方法3001は、複数の参加者の間で仮想3Dビデオ会議を行うためのものである。
方法3001は、或る参加者に関連する視覚的検知ユニットによって、視覚的情報を獲得するステップ3010によって開始し得る。
ステップ3010の後、視覚的情報に現れる1人又は複数の人物を識別するステップ3020が続き得る。いくつかのケースでは、複数の人物は、視覚的情報に現れ得る。一部の他のケースでは、1人の人物のみが、視覚的情報に現れる。一部の更なるケースでは、人物は、視覚的情報に現れない。
単一の人物が視覚的情報に現れ、又は人物が視覚的情報に現れない場合。ステップ3020の後、検出に応答し、又は1人の人物に応答し、又は人物がいないことに応答するステップ3029が続き得る。
複数の人物が視覚的情報に現れる場合、ステップ3020の後、複数の人物から、少なくとも1人の関連する人物を発見するステップ3030が続き得る。
ステップ3030の後、複数の人物から、少なくとも1人の関連する人物を発見することに応答するステップ3040が続き得る。
ステップ3040は、少なくとも1人の関連する人物の各々に対し、3Dエンティティ表現情報を判定するステップ4041と、少なくとも1人の参加者に対し、少なくとも1人の関連する人物の各々についての3Dエンティティ表現情報に基づいて、仮想3Dビデオ会議環境の表現を生成するステップ3042とを含み得る。
ステップ3040は、関連する人物の間の物理的対話を検索するステップ3043を含み得る。物理的対話を発見するとき、ステップ3040は、仮想3Dビデオ会議環境の表現(少なくとも1人の参加者についての)を生成するステップをも含み得、物理的対話に応答し得る。
方法3002は、複数の参加者の間で仮想3Dビデオ会議を行うためのものである。
方法3002は、或る参加者に関連する視覚的検知ユニットによって、視覚的情報を獲得するステップ3010によって開始し得る。
ステップ3010の後、視覚的情報に現れる1人又は複数の人物を識別するステップ3020が続き得る。いくつかのケースでは、複数の人物は、視覚的情報に現れ得る。一部の他のケースでは、1人の人物のみ、視覚的情報に現れる。一部の更なるケースでは、人物は、視覚的情報に現れない。
単一の人物が視覚的情報に現れ、又は人物が視覚的情報に現れない場合。ステップ3020の後、検出に応答し、又は1人の人物に応答し、又は人物がいないことに応答するステップ3029が続き得る。
複数の人物が視覚的情報に現れる場合、ステップ3020の後、複数の人物から、少なくとも1人の関連する人物を発見するステップ3030が続き得る。
ステップ3030の後、複数の人物から、少なくとも1人の関連する人物を発見することに応答するステップ3040が続き得る。
ステップ3040は、少なくとも1人の関連する人物の各々に対し、3Dエンティティ表現情報を判定するステップ3041と、少なくとも1人の参加者に対し、少なくとも1人の関連する人物の各々についての3Dエンティティ表現情報に基づいて、仮想3Dビデオ会議環境の表現を生成するステップ3042とを含み得る。
ステップ3040は、関連する人物が単一の視覚的検知ユニットによって捕捉されることを示す同一の視覚的検知ユニットのインジケーションを生成するステップ3045を含み得る。例えば、図23の同一の視覚的検知ユニットのインジケーション3099を参照されたい。
同一の視覚的検知ユニット・インジケーション仮想3Dビデオ会議環境の表現に含まれ得る(少なくとも1人の参加者に対し)。視覚的検知ユニットは、第1のカメラ及び第2のカメラを含み得る。関連する人物の1人が第1のカメラ視野内にあり、関連する人物のもう一方が第2のカメラの視野内にある、同一の視覚的検知ユニット・インジケーションが生成され得、又は生成され得ない。
方法3003は、複数の参加者の間で仮想3Dビデオ会議を行うためのものである。
方法3003は、或る参加者に関連する視覚的検知ユニットによって、視覚的情報を獲得するステップ3010によって開始し得る。
ステップ3010の後、視覚的情報に現れる1人又は複数の人物を識別するステップ3020が続き得る。いくつかのケースでは、複数の人物は、視覚的情報に現れ得る。一部の他のケースでは、1人の人物は、視覚的情報に現れる。一部の更なるケースでは、人物は、視覚的情報に現れない。
単一の人物が視覚的情報に現れ、又は人物が視覚的情報に現れない場合、ステップ3020の後、検出に応答し、又は1人の人物に応答し、又は人物がいないことに応答するステップ3029が続き得る。
複数の人物が視覚的情報に現れる場合、ステップ3020の後、複数の人物から、少なくとも1人の関連する人物を発見するステップ3030が続き得る。
ステップ3030の後、複数の人物から、少なくとも1人の関連する人物を発見することに応答するステップ3040が続き得る。
ステップ3040は、少なくとも1人の関連する人物の各々に対し、3Dエンティティ表現情報を判定するステップ4041と、少なくとも1人の参加者に対し、少なくとも1人の関連する人物の各々についての3Dエンティティ表現情報に基づいて、仮想3Dビデオ会議環境の表現を生成するステップ3042とを含み得る。
ステップ3040は、同一の視覚的検知ユニットによって捕捉される関連する人物の各々の関連する人物に対して、関連する人物が発話しているか否かを判定するステップ3047を含み得る。
ステップ4047の後、関連する人物が、1人又は複数の参加者に表示される仮想3Dビデオ会議環境の表現内で話しているか否かの判定に応答することが続き得る。
応答することは、単一の発話している人物が、仮想3D環境内で表示されることを可能にすることを含み得る。
方法3200は、複数の参加者の間で仮想3Dビデオ会議を行うためのものである。
方法3200は、初期化ステップ3202を含み得る。初期化ステップ3202は、異なる状況下で参加者の3D表現を生成するための初期の3D参加者表現情報を受信することを含み得る。3D参加者表現情報は、3Dモデル及び1つ又は複数のテキスチャ・マップを含み得る。
方法3200は、参加者の凝視方向に関する凝視方向情報を受信するステップ3210を含み得る。凝視方向情報は、参加者の検出された凝視方向又は推定された凝視方向を表し得る。
ステップ3210の後、(a)或る参加者の凝視が、参加者の少なくとも頭部をも捕捉する視覚的検知ユニットの視野内に位置する人物に向かって目指しているかどうか、又は(b)人物の凝視が、仮想3Dビデオ会議環境内の人物の表現に向かって目指しているかどうかを推定するステップ3220が続き得る。
ステップ3220の後、(i)人物の3D表現が仮想3Dビデオ会議環境内に現れるはずであるかどうか、及び/又は参加者が人物を見ていることを示すように、参加者の表現の凝視方向を更新するかどうかを判定するステップ3230が続き得る。
判定することは、異なるパラメータ、例えば、或る参加者の凝視が人物に向けられていたかどうか、人物の凝視が仮想3Dビデオ会議環境内の人物の表現に向けられているかどうか、人物が現在の仮想3D会議の参加者であるかどうか、参加者がいずれかの前の仮想3D会議に参加していたかどうか、などに応答し得る。
ステップ3230は、以下のうちの少なくとも1つを含み得る:
a.人物が参加者でないとき、人物の3D表現が仮想3Dビデオ会議環境内に現れるはずであると決定すること。
b.非参加者が仮想3Dビデオ会議環境内に現れることを可能にすること。
c.或る参加者によって提供されるルール又は定義に基づいて判定することを実行すること。それはまた、他の参加者によって提供されるルールに基づき得、ルールは、どの人物が仮想3Dビデオ会議環境のそれらの表現内に現れるはずであるかを定義し得る。
d.(a)人物のサイズ及び(b)人物の推定された年齢のうちの少なくとも1つに基づいて判定することを実行すること。例えば、子供は、表わされることから除外され得る。
e.通信の帯域幅及び/又は計算リソース状態に基づいて判定することを実行すること。例えば、或る参加者デバイスから別のデバイス又はシステムへの通信リンク又はチャネルの利用可能な帯域幅が或る閾値を下回るとき、例えば、殊に、人物が参加者でない場合、別の実例では更に、人物が既存のアバタと関連付けられないとき、決定は、人物を無視する傾向があり得る。
f.顔認識を使用して人物を識別すること。
g.識別工程を使用して、或る参加者及び人物を識別すること。
h.或る参加者及び人物の外観に続く少なくとも或る期間の間に記憶される、人物及び或る参加者に関する記憶された識別情報に基づいて判定することを実行すること。
i.人物が視覚的検知ユニットの視野を出て、次いで、視覚的検知ユニットの視野に再度入った後に人物を識別すること。識別することは、識別情報に基づいている。
ステップ3230の後、ステップ3230の判定に応答するステップ3240が続き得る。
ステップ3240は、ステップ3240(a)~3240(n)からの少なくとも1つを含み得る:
a.人物の3D表現が仮想3Dビデオ会議環境内に現れるはずであると判定されるとき、人物の外観に関する人物情報を生成すること。人物情報は、人物、の3D表現、又は仮想3Dビデオ会議環境の1つ又は複数の表現内の人物のアバタ又は他の3D表現を提供するように、レンダリング・エンジン又は他の画像プロセッサによって処理され得る情報を含み得る。人物は、アバタと関連付けられ得、又は関連付けられ得ない。既存のアバタと関連付けられるとき、人物情報は、アバタをどのように更新するか(例えば、状況情報を提供する)の命令であり得る。既存のアバタと関連付けられないとき、人物と最初に関連付けられない場合でさえ、新たなアバタを生成し、又は既存のアバタを使用する必要があり得る。
b.凝視方向を更新すると判定するとき、参加者が人物を見ていることを示すように、参加者の表現の凝視方向を更新すること。これは、参加者及び同様のものに関する状況を更新することを含み得る。
c.人物及び或る参加者が同一の視覚的検知ユニットによって捕捉されることを示す同一の視覚的検知ユニット・インジケーションを生成すること。視覚的検知ユニットは、第1のカメラ及び第2のカメラを含み得、或る参加者は、第1のカメラの視野内にあり、人物は、第2のカメラの視野内にある。
d.人物と或る参加者との間の物理的対話を検索すること(人物が現れるはずであると判定するとき)。
e.物理的対話が発見されるとき、それが仮想3Dビデオ会議環境の1つ又は複数の表現内に現れるはずであるかどうかを判定し、そうである場合、それがどのように現れるはずであるかを判定し、物理的対話が1つ又は複数の表現内に表わされる情報を生成すること。
f.人物が参加者でないことを示す3D人物表現情報を生成すること。
g.仮想3Dビデオ会議環境内で人物から人物の視覚的表現への或る参加者の凝視方向における変化の間に仮想3Dビデオ会議環境内の或る参加者の凝視方向を変化しないで維持すること。
h.複数の参加者の少なくとも一部の参加者ごとのアバタを含む仮想3Dビデオ会議環境の更新された表現を生成すること。
i.更新された3D参加者表現情報のセグメントの関連性を判定し、関連性及び利用可能なリソースに基づいて、どのセグメントを伝送するかを選択すること。
j.仮想3Dビデオ会議環境情報の更新された表現のセグメントの関連性を判定し、関連性及び利用可能なリソースに基づいて、どのセグメントを伝送するかを選択すること。
k.参加者の3D参加者表現情報の3Dモデル及び1つ又は複数のテキスチャ・マップを生成すること。
l.参加者の顔の少なくとも1つの視覚的エリアを捕捉するカメラの視野外に位置する参加者の顔の1つ又は複数の隠蔽エリアの3D参加者表現情報を推定すること。
m.参加者ごとに、照射条件を変更することによって、更新された3D参加者表現情報を判定すること。
n.参加者ごとに、ウェアラブル・アイテム情報を追加又は変更することによって、更新された3D参加者表現情報を判定すること。
全てのステップ3240(a)~3240(n)は、同一のデバイス又はシステムによって実行され得るが、ステップ3240(a)~3240(n)の1つ又は複数のステップは、異なるデバイス及び/又はシステムによって実行され得る。例えば、ステップ(h)は、コンピュータ化システムに位置するレンダリング・エンジン又はステップ3240(a)を実行する参加者デバイスとは異なる参加者デバイスによって生成され得る。
仮想3Dビデオ会議環境の複数の表現が存在し(例えば、参加者ごとに1つ)、ステップ3230及び/又は3240は、表現の各々の1つごとに行われ得る。更新自体(視覚的情報、例えば、人物の外観を含めること)は、1つの表現から他の表現へと異なり得る。
仮想3D会議の複数の参加者は、複数の参加者デバイスと関連付けられる。複数の参加者デバイスのいずれかとは異なるコンピュータ化システムも存在し得る。
方法3200の様々なステップは、コンピュータ化システムのうちの少なくとも1つ、及び複数の参加者デバイスの1つ又は複数によって実行され得る。
図22は、視覚的検知ユニットによって獲得されるビデオの一部である画像3009を例示する。画像3009は、第1の人物3004及び第2の人物3005を捕捉する。それらが相互に抱擁するように、人物の間の物理的対話が存在する。物理的対話は、仮想3Dビデオ会議環境内で表わされ得る。
1つの実例では、両方の人物は、関連する人物として見なされ、それらのアバタ3004’及び3005’は、仮想3Dビデオ会議環境の表現3009’内に現れる(環境の一部のみが示される)。
別の実例では、第1の人物のみが関連する人物として見なされ、そのアバタ3004’(及び、第2の人物のアバタではない)は、仮想3Dビデオ会議環境の表現3009”内に現れる(環境の一部のみが示される)。
図22はまた、視覚的検知ユニットによって獲得されるビデオの一部である画像3008を例示する。画像3008は、第4の人物3008を見ている第3の人物3007を捕捉する。
1つの実例では、両方の人物は、関連する人物として見なされ、それらのアバタ3006’及び3007’は、3Dビデオ会議環境の表現3008”に現れる(環境の一部のみが示される)。他の関連する人物51~53の追加のアバタも示される。
図23は、参加者の凝視方向の実例を例示する。図の上部は、仮想3Dビデオ会議環境内で(パノラミック・ビュー41内で)第1の参加者81の3D視覚的表現(51)を見ているように第5の参加者85を例示する。
第2の実例は、第1の参加者81を見ているように、この実例では、両方の参加者が同一のデバイスを使用し得、同一の視覚的捕捉ユニットによって捕捉されるように、第5の参加者85を例示する。
両方のケースでは、仮想3Dビデオ会議環境は、第5の参加者が第1の参加者(実際の参加者又は3D参加者表現)を見ていることを示すように更新され得る。第5の参加者が実際の第1の参加者又は参加者の表現を見ているかどうかに関するインジケーションが提供され得る。
コンテンツの共有
それらが通信の問題の影響を受けやすく、フェイスツーフェイス・ミーティングの利点を欠いているので、ビデオ会議ができるだけ効率的であることが重要である。ビデオ会議の効率性を制限し得る1つの問題は、ファイル及びスクリーンを共有することによって通常は達成される情報を共有することにより行われる必要がある。
Zoom、Webex、及びMicrosoft Teamsなどの既存のソリューションは、会議の間にアプリケーション又はそれらのスクリーン全体を共有することを可能にする。それらのアプリケーションの一部は、複数のユーザが同時にコンテンツを共有することさえも可能にする。他の参加者が会議の準備をし、会議への通知がされるためにミーティングの前にコンテンツを共有することを望む場合、それらは、一部の追加のアプリケーションを通じて行う必要がある。例えば、それらは、他の参加者へのメールを通じてマテリアルを送出する。他の参加者にミーティングの後にマテリアルに関心がある場合、それは、それらに送出する必要がある。
提案される方法はまた、3Dビデオ会議に向けられると共に、他のシステムに対して、特に、2Dビデオ会議環境に対しても有益であることができる。
提案される方法によれば、各々の参加者が電話会議の間にデータ1つよりも多い部分を共有することが可能である。その上、情報は、それらのミーティングの前に他の参加者と容易に共有されることができ、その終わりに続いて視認されることができる。
提案される方法によれば、ミーティングが計画され、招待が送出されるとき、Google Drive又はMicrosoft Teams内のフォルダのように、共有フォルダが作成される。ドライブへのリンクは、後の参加者に送信され、ミーティング自体のために後に使用される同一のリンクであることができる。
ミーティングのホストは、共有フォルダへのアクセスのためにパーミッション(アクセス制御ルール)を設定することが許可される。それらのパーミッションは、ドキュメントをアップロードすること、それらを編集すること、及びサブフォルダを作成することなどを可能にすることを含み得る。以下の段落は、それらが参加者に対して可能にされることを想定して、取り得るオプションを詳述する。
参加者は、ワード処理されたドキュメント、プレゼンテーション、及びスプレッドシートなど(総合的に「ドキュメント」と呼ばれる)をフォルダにアップロードすることができる。それらはまた、異なる基準に基づいて、フォルダ内でサブフォルダを作成することができる。参加者は、それらが同一のフォルダにアップロードしたドキュメントへの特定の設定を設定することが可能であり得る。
1つの取り得るオプションは、ドキュメントがアップロードされるとき、又はそれらが修正されるときに、参加者に通知を送信することである。
参加者は、ミーティング自体の間に、共有フォルダにドキュメントをアップロードし得る。
追加のオプションは、ミーティングの間に参加者の1人又は複数によって協調して1つ又は複数のドキュメントを作成することである(例えば、Google Driveが許可するように)。
ミーティングの間、参加者は、特定の時間に、それらがミーティングの間に共有フォルダ内でドキュメントの1つ又は複数を共有すると決定し得る。
共有フォルダを有することは、以下の新規の利点を可能にする:参加者がミーティングに参加することができず、又は通信問題を有する場合、それらのドキュメントが他の参加者によってなおも視認され得る。それは、単一の参加者がマテリアルの1つよりも多い部分を一度に共有することが単純である。上述したように、既存のソリューションは、1つのアプリケーション、1つのウインドウ、又は1つのスクリーンを一度に共有することを可能にするにすぎない。ミーティングの前に情報を共有することは、ドキュメントが利用可能であるときに参加者を更新するように注意するので、複数のアプリケーションを必要としない。
ミーティングの終了に続いて、いずれかの定義された期間の間に共有フォルダを除去又は削除することが可能である。1つの追加の可能性は、同一の共有フォルダにミーティングの記録を追加することである。これは次いで、ミーティングの全ての又は一部を逃し得た参加者が、1つの場所内で全ての関連する情報を発見することを可能にする。それはまた、ミーティングに参加する参加者が、ミーティングが終わった後に、それら自身のペースで情報を検討することを可能にする。
提案される方法はまた、ミーティングの後にマテリアルを送出する必要なしに、他の参加者とのマテリアルの即時的な共有を有効にする。要約及び/又はアクション項目がミーティングのために捕捉される場合、それらも共有フォルダに配置されることができる。
図24は、仮想3Dビデオ会議の間にコンテンツを共有するための方法3400を例示する。
方法3400は、ステップ3410、3420、及び3430によって開始し得る。
ステップ3410は、仮想3Dビデオ会議に参加する複数の参加者を招待することを含み得る。
ステップ3420は、共有されるコンテンツ項目を記憶するために専用の共有フォルダを作成することを含み得、共有されるコンテンツは、少なくとも仮想3Dビデオ会議の間にアクセス可能である。共有されるコンテンツは、テキスト、ドキュメント、ビデオ・ユニット、及びオーディオ・ユニットのうちの少なくとも1つを含む。
ステップ3430は、複数の参加者に対して、共有フォルダへのアクセスを有効にすることを含み得、アクセスは、1つ又は複数のアクセス制御ルールによって統治される。これは、ステップ3410の招待へのリンクを追加すること、又は以下のステップ3410と共に、ステップ4310に続いて、若しくはステップ3410に関わらず、いずれかの有効にするステップを実行することを含み得る。
アクセス制御ルールは、共有されるコンテンツの取り出し及び共有フォルダへのコンテンツのアップロードなどを判定し得る。
1つ又は複数のアクセス制御ルールは、共有フォルダ内の記憶リソースの可用性に応答し得、例えば、アップロードされることになるコンテンツのサイズが第1のサイズ閾値(閾値は、参加者ごと、参加者のタイプごと、オーガナイザごと、及び参加者ごとなどで判定され得る)を超えるとき、参加者が参加者からのアップロードされるコンテンツの第2の集約サイズに到達するとき、アップロードを防止する。
1つ又は複数のアクセス制御ルールは、共有フォルダへの及び/又は共有フォルダからの通信リンクの帯域幅可用性に応答し得る。
アクセスは、電話会議の始まりの前に開始すること、及び電話会議時に開始することなどを有効され得る。
アクセスは、電話会議の終了時に、又は電話会議の終了の後に終結され得る。
ステップ3410、3420、及び3430の後、仮想3Dビデオ会議を行うステップ3440が続き得、行うことは、コンテンツ項目のうちの少なくとも1つを共有することを含む。
ステップ3440は、仮想3Dビデオ参照を記録することを含み得る。
共有することは、1つ又は複数の共有ルールに少なくとも部分的に基づいて実行され得る。例えば、全ての参加者は、共有フォルダ内のいずれかのコンテンツを共有し得る。更に別の実例について、共有ルールは、1人又は複数の参加者によって共有する方式に対して制限を課し得る。
1つ又は複数の共有ルールは、1つ又は複数のアクセス制御ルールに含まれ得る。
1つ又は複数の共有ルールは、1つ又は複数のアクセス制御ルールに含まれ得ない。
ステップ3440の後、仮想3D会議の終了時、又は仮想3D会議の終了に続いて実行される追加のステップ3450が続き得る。
ステップ3450は、以下のうちの少なくとも1つを含み得る:
a.仮想3Dビデオ会議の完了の後に専用とされる共有フォルダを削除すること。
b.仮想3Dビデオ会議の完了の後に専用とされる共有フォルダを維持し、仮想3Dビデオ会議の完了の後に共有フォルダへのアクセスを有効にすること。
c.仮想3Dビデオ会議の完了の後の予め定義された期間まで専用とされる共有フォルダを維持し、仮想3Dビデオ会議の完了の後の予め定義された期間まで共有フォルダへのアクセスを有効にすること。
d.仮想3Dビデオ会議の完了の後に専用とされる共有フォルダを維持し、共有フォルダにアクセスするための完了アクセス制御ルールの後に適用する。
e.仮想3Dビデオ会議の完了の後に専用とされる共有フォルダを維持し、共有フォルダへの仮想3Dビデオ会議の記録を追加すること。
ステップ3410、3420、3430、3430、及び3450の1つ、一部、又は全ては、仮想3Dビデオ会議アプリケーションによって管理され得る。
図25は、ユーザ・デバイス4000(1)~4000(R)(及び、4000(r)、rは、1~Rの範囲に及ぶ)、ネットワーク4050、リモート・コンピュータ化システム4100(仮想3Dビデオ会議ルータ4111を含み得る)、並びに複数のM個の共有されるコンテンツ項目4105(1)~4105(M)(及び、4105(m)、mは、1~Mの範囲に及ぶ)を含む共有フォルダ4105を例示する。図25はまた、共有フォルダにアクセスし、仮想3Dビデオ会議に参加する他の参加者を招待するユーザ・デバイス4000(r)によって送信される招待4106(1)~4106(R)を例示する。仮想3Dビデオ会議の間、様々な信号(VC関連信号)4108は、ユーザ・デバイスと交換される。
共有フォルダは、例えば、リモート・コンピュータ化システム4100又はシステムのいずれかの他のユニットによって、いずれかの方式において実装され得る。仮想3Dビデオ会議の記録4109は、仮想フォルダに記憶されるとして例示される。
図25はまた、共有ルール、アクセス制御ルール、及び同様のものを含み得る様々なルール4104(1)~4104(N)(集合的に4104と表わされる)を例示する。
ルールは、全ての参加者に、参加者の一部に、又は1人の参加者のみに適用され得る。
図26は、第1のタイミング図3480及び第2のタイミング図3480’の2つの実例を例示する。
第1のタイミング図3480は、以下のイベントのシーケンス:共有フォルダを開封すること、並びに/又は、共有フォルダ3482、共有フォルダ3483へのアクセスの開始、電話会議3485の開始、電話会議3486の終了、及び共有フォルダ3487の終結に関して参加者に通知すること、を例示する。
それらのイベントの間の複数の他のタイミング関係が存在し得る。
仮想3D会議は、電話会議3485の開始と電話会議3486の終了との間で行われる。
第1のタイミング図では、電話会議が記録され、例えば、共有フォルダ3487の終結まで参加者に利用可能であり得る。記録は、共有フォルダ内で利用可能であり得、又はいずれかの他の方式において提供され得る。
第2のタイミング図3480は、以下のイベントのシーケンス:(a)共有フォルダを開封すること、並びに/又は、共有フォルダ3483へのアクセスの開始と同時に生じる共有フォルダ3482、(a)電話会議3485の開始、及び(b)共有フォルダ3487の終結と同時に生じる電話会議3486の終了に関して参加者に通知すること、を例示する。
フォアグラウンド及びバックグラウンド
フォアグラウンドとバックグラウンドとの間で区別することがVCシステムにおいて重要であることが多い。このコンテキストでは、バックグラウンドは、シーンの他の部分よりも重要性が低い、参加者のカメラによって捕捉されるシーンの部分である。行われる会議又はミーティングにおいてその外観が役割を有しないので、重要性が低い部分は、共に修正又は除去され得る。実際に、既存のソリューションは、バックグラウンドの修正を可能にすることが多い。
これは、参加者の明瞭なバックグラウンドを、より満足するバックグラウンドと置き換えるため、又は特定の雰囲気を生じさせるために若しくは他の理由のために、商業的な理由などの多角的な理由のために選ばれる1つと置き換えるため、に行われることが多い。
ビデオ会議システムの重要性の増加により、フォアグラウンドとバックグラウンドとの間の区別ができるだけ正確であることが重要である。このタスクは特に、参加者のアバタのみ、場合によっては、それらが使用していることがある一部のアクセサリが他の参加者に提示される今後の3D VC環境内で重要である。
一部のソリューションは、フォアグラウンドとバックグラウンドとの間でフレームごとをベースに区別し得る。この方法は、「緑のスクリーン」として知られる方法が使用されるときに良好に作用する。方法を使用するとき、バックグラウンドは、既知の色(緑)を有し、それは、参加者の背後にスクリーンを配置することによって達成される。カメラによって捕捉される各々の画素が検査される。その色が既知のスクリーンの色と合致する場合、画素は、バックグラウンドの一部であると想定される。この方法は、いくつかの方法において増補され得る。それにも関わらず、参加者をホストするほとんどの環境は、そのようなスクリーンを扱いやすくせず、他の方法が使用される。
このための既存の方法は典型的には、皮膚の色を最初に探索する。次いで、それらが捕捉されるピクチャ内の人物を識別することとそれらが判定する前に、一部の合理的な囲み形状又は皮膚の色の周りの色を発見することをそれらは試みる。提示されるピクチャから無計画な方法で身体部分が現れ及び消えることにこれがつながることが多く、それは、身体部分は、時にはバックグラウンドの一部であると認知され、置き換えられ、またある時には、身体部分は、フォアグラウンドの一部であると考えられ、置き換えられないからである。
このシステムの別の欠点は、イーゼル又はホワイトボードなどの何らかのアクセサリを参加者が追加することを望む場合、それらがバックグラウンドの一部であるように現れ、それら置き換えられるときにそれらが示されないことである。
現在の方法は、3Dビデオ会議に向けられると共に、他のシステムにも有益であることができる。
現在の方法によれば、バックグラウンド及びフォアグラウンドは、時間的な追跡に基づいて区別され、フレームごとのベースには実行されない。
この方法によれば、捕捉されたピクチャは、いわゆるブロブを識別するように最初にセグメント化される。今日の方法にあるように、それらの静的な特性(色又は周りの色など)に基づいてブロブがフォアグラウンド又はバックグラウンドの一部であると識別することに加えて、ブロブはまた、それらの時間的な特性又は動的な特性に基づいて分類される。動き得、それらの外観、色、又は他の特性を変え得るブロブは、フォアグラウンドに属するとして分類され得、又はフォアグラウンドに属するとする高い確率を有するとして少なくとも分類され得る。いくつかのケースでは、時間的な動きを有するブロブ(ファン、紙のパラパラする部分など)は、バックグラウンドに属するとして、又はバックグラウンドに属する高い確率を有するとしてカテゴリ化されることができる。
オプションは、ユーザに、時に、好ましくはユーザが会議に参加するが、これが進行するように、ブロブがフォアグラウンド又はバックグラウンドに属するかどうかを選ぶことを決定させることである。代替は、フォアグラウンド及びバックグラウンドに属するブロブの時間的及び空間的振る舞いを学習するように、適切な場所に機械学習システムを有することである。このシステムは、ユーザ選択から、フォアグラウンド又はバックグラウンド内のブロブを含むかどうかを学習する。これを実装する1つの方法は、ニューラル・ネットワークを通ることである。
バックグラウンドが既知であると、参加者は、アクセサリを追加することができ、それらは、会議内で他のビューワに現れる。加えて、ホワイトボード又は類似のデバイスが使用される場合、それに書き込むこと及びボード自体は、バックグラウンドの一部として分類されず、したがって、システムは、他の参加者にそれを継続して示す。
図27は、仮想三次元(3D)ビデオ会議に関連するフォアグラウンド及びバックグラウンド・セグメント化のための方法3500を例示する。
方法3500は、ビデオ・ストリームの複数の画像の各々の画像をセグメントにセグメント化するステップ3510によって開始し得る。各々のセグメントは、実質的に一定である1つ又は複数の特質を有し得る。
セグメント化することは、ブロブ分析を適用することを含み得、セグメントは、ブロブである。セグメント化することは、ブロブ分析とは異なるセグメント化方法を適用し得る。
ステップ3510に続き、セグメントの時間的な特質を判定するステップ3520が続き得る。
ステップ3520に続き、セグメントの時間的な特質に少なくとも部分的に基づいて、バックグラウンド・セグメント又はフォアグラウンド・セグメントとして各々のセグメントを分類するステップ3530が続き得る。
ステップ3530は、以下からの少なくとも1つを含み得る:
a.バックグラウンド・セグメントとして静的セグメントを分類すること。
b.バックグラウンド・セグメントとして周期的変化を示すセグメントを分類すること。
c.1つ又は複数の顔のセグメントを探索すること。
d.フォアグラウンド・セグメントとして各々の顔のセグメントを分類すること。
e.バックグラウンド・セグメントとして、顔のセグメントではなく、周期的変化を示すセグメントを分類すること。
f.バックグラウンド・セグメント又はフォアグラウンド・セグメントとして各々のセグメントを分類するために、機械学習工程を使用すること、機械学習工程は、ユーザから受信される分類入力に基づいて分類を実行するように訓練されている。
g.ユーザからのフィードバックに少なくとも部分的に基づいて分類すること。
h.画像のうちの少なくとも1つのユーザ・セグメントを表示し、セグメントの少なくとも一部に関連する分類入力をユーザから受信すること、分類することは、分類入力にも基づいている。
i.フォアグラウンド・セグメントとして、仮想3D会議の少なくとも1人の参加者に表示される仮想3Dビデオ会議環境に追加される1つ又は複数の項目を分類すること。
図27はまた、仮想三次元(3D)ビデオ会議に関連するフォアグラウンド及びバックグラウンド・セグメント化のための方法3501を例示する。
方法3501は、ビデオ・ストリームの複数の画像の各々の画像をセグメントにセグメント化するステップ3510によって開始し得る。各々のセグメントは、実質的に一定である1つ又は複数の特質を有し得る。
セグメント化することは、ブロブ分析を適用することを含み得、セグメントは、ブロブである。セグメント化することは、ブロブ分析とは異なるセグメント化方法を適用し得る。
ステップ3510に続き、セグメントの時間的な特質を判定するステップ3520が続き得る。
方法3520に続き、ユーザ情報を提供し、ユーザからフィードバックを受信するステップ3525が続き得る。
ステップ3525は、以下からの少なくとも1つを含み得る:
a.セグメントの時間的な特質に関する時間的な情報をユーザに提供すること。
b.セグメントの少なくとも一部に関連する分類入力などのフィードバックをユーザから受信すること。
c.セグメントをユーザに表示し、セグメントの時間的な特質に関する時間的情報をユーザに提供すること。
d.セグメントの少なくとも一部に関連する分類入力などのフィードバックをユーザから受信すること。
ステップ3525に続き、フィードバックに少なくとも部分的に基づいて、バックグラウンド・セグメント又はフォアグラウンド・セグメントとして、各々のセグメントを分類するステップ3535が続き得る。フィードバックは、例えば、分類入力を含み得る。
ステップ3535は、フィードバックに、及びセグメントの時間的な特質に応答し得る。ステップ3535は、ステップ3530のいずれかのサブステップを含み得、各々のサブステップは、フィードバックに基づいて修正され得、又はその出力及び考えられるユーザからのフィードバックを有し得る。
図38は、フォアグラウンド及びバックグラウンドへの画像セグメントの実例を示す。
画像3490は、人物3493、人工呼吸器3494、及びグレーの壁を捕捉する。動作するとき、人工呼吸器は、周期的に変化する動きを実行し得、バックグラウンド3492に属すると見なされることができる。人物自体は、フォアグラウンド3491を形成する。
手直し-ノイズ除去メイクアップ
Zoom及びMicrosoft Teamsなどの既存のビデオ会議システムは、参加者が、それらの外観を改善し又はそうでなければ修正する「フィルタ」を追加することを可能にする。例えば、リップスティック又はブラッシュなどのメイクアップを追加することが可能である。また、メガネなどのガジェットを追加することが可能であり、口髭及び髭を追加し、髪の毛の色及びスタイルを修正するなどのように現れることが可能である。
そのようなフィルタは、メイクアップ又はガジェットを追加しないためにのみ使用されることができる。それらはまた、参加者の外観を手直しし(フォトショッピングとして知られるそのような機能)及びノイズ除去する(カメラ、照明条件によって追加されるノイズを低減させるために)ために利用されることができる。
仮想3D環境内の参加者の外観を判定する正確且つ効率的な(メモリ・リソース使用率及び/又は計算リソース使用率の観点で)を提供する必要性が存在する。
それらを強化するために顔の部分を識別するようにフレームごとをベースにセグメント化を実行することは、非常に非効率であり、画像に導入されるノイズからの影響を受ける。例えば、各々のフレーム内で、唇が識別され、次いで、リップスティックの関連する色が適用される。同様に、顎が検出され、場合によっては、顔及び口髭の傾きも正確な角度でその上部に置かれる。これは、コストがかかる動作である。特に、人物がリップスティック、ブラッシュ、メガネ、口髭を追加し、また、髪の毛の色を修正することを選ぶ場合、これは、全ての関連する顔の部分を検出することを毎秒10回(典型的には毎秒30回以上であるフレーム・レートに応じて)行う必要があることを必要とする。部分が検出されると、手直し及びメイクアップがフレームごとに追加される。
このコストがかかるアクションも、参加者の外観をノイズ除去する可能性を制限する。このように実行されることになるこのための主な理由は、システムが特定の参加者の顔のモデルを維持しないことである。
参加者がアバタを通じてミーティング環境に現れる方法が提供される。そのような表現を生成する上述した方法のいずれかが使用され得る。
参加者又は少なくとも参加者の頭部及び顔及び/若しくは胴体の3Dモデルが取得され得る。このモデル(及び、1つ又は複数のテキスチャ・マップ)は、参加者のアバタを作成するためを根拠として操作又は使用され得る。
参加者の異なる顔の部分は、3Dモデルの不可欠な部分である。
手直し及びメイクアップを追加するために、3Dモデルが一度更新され得る。例えば、選ばれた色がリップスティックにおいて唇に追加される。3Dモデルの他の部分と同様に、唇に対応するボクセルは次いで、それと関連付けられた反射率を有し、アバタがレンダリングされるにつれて、反射率は、唇の現実的な外観を可能にする。同様に、いずれかの選ばれた色は、ルージュとして現れるように頬に適用される。これがより現実的に現れるようにするために、選ばれた色は、線形に又は他の方法において、強度で又は空間的に元の皮膚の色と組み合わされることができ、その結果、それは、モデルが実際にその頬上でルージュを有するように現れる。次いで、モデルがアバタを作成するように操作されると、全ての追加が適切な場所で準備される。
その上、この方法は、容易なノイズ除去及び「フォトショッピング」を可能にする。モデルがカメラ、照明、又は他の源によって導入されるノイズの影響を受けにくいはずであるので、ノイズ除去が可能である。モデルの存在が進行中であるので、カメラによる単一の画像の捕捉の間に導入されるノイズについて、経時的にモデル内の各々のポイント反射率の値を平均化することによって、それは容易にくっきりとされることができる。
顔の部分をそのように修正する(鼻を修正し、頬骨を持ち上げ、「二重顎」を除去するなど)「フォトショッピング」は、それらのアクションをフレームごとに何回も何回も実行する代わりに、3Dモデルに対して実行される。3Dモデルが作成されると、全てのエフェクトがモデルに対して実行される。言い換えると、モデルの頬骨が持ち上げられ、その二重顎が除去される。それらの調節は次いで、注目され、新たな画像がカメラによって捕捉されるときはいつでも、新たなアバタを作成するために必要である全ては、人物の新たな場所、方位、及び凝視を理解することである。それらは次いで、調節された3Dモデルに適用される。
図29は、方法3600を例示する。
方法3600は、第1の参加者及び第2の参加者を参照する。これは、説明の簡易化のためである。上述した第1の参加者及び第2の参加者は、参加者のいずれかのペアであり得る。方法3600のいずれかのステップは、参加者のいずれかの組み合わせに対して適用され得る。
方法3600は、初期化ステップ3602を含み得る。
初期化ステップ3602は、仮想3Dビデオ会議の第1の参加者のユーザ・デバイスによって、異なる制約の下で第2の参加者の3D表現を生成するための、参照の第2の参加者の3D表現情報を受信することを含み得、異なる制約は、(a)手直し制約、(b)メイクアップ制約、及び(c)1つ又は複数の状況制約からの少なくとも1つを含み得る。
実際の参加者がメイクアップ制約において規定されるメイクアップを実際に装着していないときでさえ、制約、例えば、メイクアップ及び/又は手直しが提供され得る。
少なくとも1つの他の制約は、他の手段、例えば、画像分析、及び同様のものによって判定され得る。
状況制約の実例は、方法3200において例示される。
例えば、異なる制約は、第2の参加者の異なる凝視方向、第2の参加者の異なる表情、異なる照明条件、及びカメラの異なる視野などを含み得る。
初期の3D参加者表現情報は、初期の3Dモデル及び1つ又は複数の初期のテキスチャ・マップを含み得る。
3D参加者表現情報は、3Dモデル及び1つ又は複数のテキスチャ・マップを含み得る。
初期の第2の参加者の3D表現情報は、第2の参加者の修正された表現を表し得る。修正された表現が第2の参加者の実際の外観とは異なるという意味で、それは「修正される」。修正された表現は、顔要素のサイズ、形状、及び位置からの少なくとも1つによって、第2の参加者の実際の外観とは異なる。
方法3600は、第1の参加者のユーザ・デバイスによって、3Dビデオ電話会議の間、第2の参加者に関する1つ又は複数の現在の制約を示す第2の参加者の制約メタデータを受信するステップ3610を含み得る。
ステップ3610の後、第2の参加者の制約メタデータに基づいて、第1の参加者のユーザ・デバイスによって、仮想3Dビデオ会議環境の第1の表現内の第2の参加者の3D参加者表現を更新するステップ3620が続き得る。
ステップ3620の後、第2の参加者の3D参加者表現情報に基づいて、第2の参加者のアバタを生成するステップ3630が続き得る。
ステップ3630は、顔要素のメイクアップ・フリーの外観及び選択されたメイクアップに基づいて、顔要素のメイクアップ・バージョンを生成するステップ3632を含み得る。よって、選択されたメイクアップは、顔要素のメイクアップ・フリーの顔の外観にわたって仮想的に追加若しくは配置され得、又はそうでなければ、顔要素のメイクアップ・フリーの顔の外観と統合され得る。
ステップ3632は、顔要素のメイクアップ・フリーの外観及び選択されたメイクアップのボクセルに対して線形関数を適用することによって、顔要素のメイクアップ・バージョンを生成することを含み得る。
メイクアップ・フリーバージョンは、1つ又は複数のメイクアップ制約に従って修正されることができる、第2の参加者のいずれかの参照表現によって置き換えられ得る。
方法3600は、異なる制約下で更新された第2の参加者の3D表現を生成するための更新された参照の第2の参加者の3D表現情報を取得するステップ3670を含み得る。更新された参照の第2の参加者の3D表現情報は、異なる制約下で初期の参照の第2の参加者の3D表現を置き換え得る。
更新された参照の第2の参加者の表現情報は、ノイズ除去を実行することによって生成され得る。
仮想3Dビデオ会議環境の複数の表現が存在し(参加者ごとに1つ)、ステップ3630及び/又は3640は、表現の1つごとに行われ得る。更新自体は(視覚的情報、例えば、人物の外観の包含)は、1つの表現から他の表現へと異なり得る。
仮想3D会議の複数の参加者は、複数の参加者デバイスと関連付けられる。また、複数の参加者デバイスのいずれかとは異なるコンピュータ化システムが存在し得る。
方法3600の様々なステップは、コンピュータ化システムのうちの少なくとも1つ、及び複数の参加者デバイスの1つ又は複数によって実行され得る。
図30は、リップスティックなしの参加者の実例を例示し、図34は、リップスティックを有する参加者の実例を例示し、図35は、リップスティックなしの参加者のアバタの実例を例示し、図36は、参加者の唇のリップスティックのない表現の実例を例示し、図37は、リップスティックを有する参加者のアバタの実例を例示する。
リップスティックの不存在、又はリップスティックの必要とされる追加は、参加者の画像から学習され得、他の参加者のデバイスに制約として送信され得る。加えて又は代わりに、参加者は、その唇の実際の状態に関わらず、リップスティックを追加及び/又は除去することによって、参加者の3D表現を更新することを要求し得る。
参加者は、例えば、参加者が実際に装着していないいずれかのウェアラブル・アイテムをアバタに追加し、参加者が実際に装着しているウェアラブル・アイテムをアバタから除去し、及び/又は参加者及びその周囲(ウェアラブル・アイテム、ジュエリ、アクセサリの実際の外観並びに参加者のアバタにおけるいずれかの要求される変化を導入することを要求し得る(参加者のデバイスから、又はいずれかの他のデバイス若しくはシステムから、いずれかの方式において)。
ビデオ会議内でのオーディオ品質改善
それらの設定が自然ではなく、典型的には、フェイスツーフェイス・ミーティングよりも参加者の部分に対してより集中した注意を必要とするので、参加者が、ビデオ会議内で良好且つ明瞭に相互に聞くことが重要である。それにも関わらず、オンラインミーティングの間にバックグラウンド・ノイズが聞こえることが多い。他のケースでは、マイクロフォン又は他のシステム構成要素による問題は、何が発話されているかの品質及び明瞭さを低減させ、そのようなミーティングの効果を低減させる。
ノイズ・クリーニングの方法が今日では存在する。Krispなどの一部のソリューションは、人間ではない声をくっきりとする。この特定のアプリケーションは、ビデオ会議のクライアント側にインストールされる。言い換えると、それをインストールしていない参加者は、その利点を得ない。一方、ノイズが多く又は不明瞭なサウンドトラックは、全ての参加者に伝送される。
提案される方法は、ビデオ会議内のオーディオを強化するために、画像及びビデオ処理を利用する。ビデオ会議環境内で、参加者は典型的には、それらを視認及び捕捉するカメラを有することを理由に、これが全体的に可能である。
一言で言えば、強化は、参加者の口、唇、及び舌の動き、又はスピーカを視認するカメラに現れ得るそれらのサブセットを視覚的に分析することによって実行される。
機械学習技術を使用して、システムは、それらの動きが異なる音にどのように対応するかを学習するように訓練される。この訓練は、ニューラル・ネットワーク又は他の方法により実行されることができる。
訓練は、単語全体及びセンテンス全体に対して実行されることができる。加えて、又は代わりに、それは、「音」のサブセットに対してのみ実行されることができる。例えば、英語の言語では、アクセント及びアーティキュレーションに基づいて、何らかの変形と共に、44個の音素又は別個の音が存在することが全体的に合意されている。
そのようなシステムは、発話するビデオ会議の参加者を視認するとき、スピーカが作っている音に関する知識に基づいた仮定を行い得る。それらの仮定は次いで、以下の2つの方法において使用され得る:
a.スピーカから来たように現れない音を除去することによって、バックグラウンド・ノイズをくっきりとすること。
b.例えば、参加者のマイクロフォンが機能しないとき、又はそれが誤りによってミュートされる場合でさえ(力によってミュート解除することは、ビデオ会議の任意選択の設定であり得、各々の参加者によって、及び/又はミーティングのホストによって別々に設定され得る)、システムから伝送されるオーディオの品質を改善すること。
それらのオーディオ補正は、利用可能なリソースに応じて、又は他の考慮事項に基づいて、スピーカのシステムにおいて、又は中心位置において実行され得る。
また、システムが特定の参加者に対してそれ自体を較正するために、参加者に何らかの単語又は何らかの音を言わせることが可能である。ミーティングの最初に、参加者がそれらに参加するとき、又はミーティングの回数ごとに一回、これが一回のみ実行され得る。
図31は、仮想三次元(3D)ビデオ会議の参加者に関連するオーディオ品質改善のための方法3700を例示する。
方法3700は、機械学習工程によって、仮想3Dビデオ会議の間に取得される参加者のビデオの画像分析に基づいて、オーディオによって生成される参加者を判定するステップ3710によって開始し得る。
機械学習工程は、画像分析出力を参加者の生成されたオーディオに変換するように訓練され得る。機械学習工程は、ビデオを参加者の生成されたオーディオに変換するように訓練され得る。
方法は、機械学習工程を訓練し、又は訓練された機械学習工程を受信することを含み得る。
ステップ3710の後、参加者の生成されたオーディオに少なくとも基づいて、参加者の関連するオーディオ情報を生成するステップ3720が続き得る。参加者の関連するオーディオ情報は、別の参加者のコンピュータ化システムに提供されると、他の参加者のコンピュータ化システムに、参加者のオーディオが参加者と関連付けられたオーディオ・センサによって検知される検知されたオーディオに含まれるときに参加者のオーディオよりも高い品質の参加者の関連するオーディオを生成させる。
ステップ3720は、以下からの少なくとも1つを含み得る:
a.オーディオ処理アルゴリズムの1つ又は複数のオーディオ処理特徴を判定し、検知されたオーディオに対してオーディオ処理アルゴリズムを適用すること。1つ又は複数のオーディオ処理特徴は、参加者の関連するオーディオの所望のスペクトル範囲などのいずれかの時間ドメイン及び/又はスペクトル・ドメイン・オーディオ・パラメータであり得る。
b.フィルタリング工程を含み得るオーディオ処理アルゴリズムを適用すること。オーディオ処理アルゴリズムを適用することは、検知されたオーディオをフィルタリングすることを含み得る。
c.検知されたオーディオに対してノイズ低減アルゴリズムを適用すること。
d.発話合成アルゴリズムを適用すること。
判定するステップ3710は、参加者のオーディオ・センサ(マイクロフォンなど)がミュートであるときでさえ適用され得る。
ステップ3710に、オーディオ・センサがミュートであるときと判定することが先行し得、又はステップ3710は、オーディオ・センサがミュートであるときと判定することを含み得る。オーディオ・センサのミュート状態に関する判定はオーディオ・センサの出力と参加者のビデオの画像分析に基づいてユーザによって出力される推定されたオーディオとの間の比較に基づき得る。
オーディオ・センサがミュートされると判定するとき、ステップ3720は、発話合成アルゴリズムを適用することを含み得る。
ステップ3720は、検知されたオーディオの存在及び品質のうちの少なくとも1つに基づいて、参加者の関連するオーディオ情報をどのように生成するかを判定するステップ3722を含み得る。
ステップ3722は、(i)検知されたオーディオに対してオーディオ処理アルゴリズムを適用することと、(ii)発話合成アルゴリズムを適用することと、の間で選択することを含み得る。
予測
仮想3Dビデオ会議では、参加者は、アバタとして現れ得、又はいずれかの他の3D表現を有し得る。
これは、参加者の3Dモデルを作成することを伴い得る。ミーティングの間、参加者は、カメラの前方に座る。それらは、それらの動きを捕捉し、参加者の姿勢、方位、及び表情を発見するように、何らかの分析が実行される。次いで、ミーティングのビューワごとに、参加者のアバタが作成され、その結果、アバタの姿勢、方位、及び表情は、参加者がミーティングの環境内に物理的に位置する場合、それがあるようにビューワの視野に現れる。
このリアルタイム処理は、2つの構成要素を有するとして見られることができ:一方は、参加者の分析を行い、他方は、レンダリングを実行する。
それらの2つの構成要素は、同一位置にあり得、又は同一位置にあり得ない。例えば、分析は、参加者ごとに一回のみ実行される必要があるが、ビューワごとに一回、レンダリングが複数回実行される必要があり得る。したがって、1つのオプションは、参加者の位置において、又は中心位置において分析を実行させることであると共に、レンダリング又はその一部は、各々のビューワの位置において実行され得る。分析構成要素は、レンダリング構成要素に、姿勢、方位、及び表情における変化を通知する必要があり、その結果、レンダリング構成要素は、アバタを正確にレンダリングする。
効率性を増大させ、エラーの可能性を低減させ、リソースを節約するために、それらの2つの構成要素の間の通信の量を低減させると共に、高い程度の信頼性を維持することが重要である。
動き又は他の特性における何らかの変化は、短期間の間の場合でさえ予測され得る。
以下の簡易化された実例を考える。ビデオ会議の参加者がうなずくと想定し、また、ミーティングのビューワのシステム内の参加者のアバタのレンダリングの間の間隔でもある33ミリ秒ごとに画像が捕捉されることを想定されたい。参加者の頭部が上方向に動いているとき、この動きは、少なくとも数百ミリ秒、いわゆる、200ミリ秒の間に継続することが仮定される。
それらの仮定の下、この動きが発生していることをレンダリング構成要素が予測することが可能である場合、例えば、少なくとも短期間の間、予測が正確である限り、分析構成要素からいずれの追加の情報をも受信することなく、この動きを継続的にレンダリングすることが可能であり得る。実際の動きが予測された動きとは異なる場合、分析構成要素は、補正と共にレンダリング・ユニットのみを予測された動きに更新する必要があり得る。それらの補正は、実際の動き情報よりもはるかに少ない情報を含む。したがって、これは、通信における多くの節約を可能にする。
例えば、クライアントにおいて予測がないことを仮定する。サーバは、全ての値を送信する必要がある。例えば、フレームごとに、方位が1度だけ上方向に変化するはずである。クライアントが予測能力を有さない場合、サーバは、補正を送信する必要があるだけである。例えば、クライアントは1度だけ上方向に予測していたが、実際には、変化は、1.0001度であり、よって、クライアントは、0.0001の値を送信する必要があるだけである。
予測が「概して」良好である場合、補正が行われる場合、それは完全な予測よりも低い規模のものである。
例えば、100の値を予測するが、実の値が101であったことが判明する場合、補正は単に1である。補正は典型的には、予測よりもはるかに小さい値を有するので、それらは、少ないビットによりコーディングされることができる。補正が大規模であるが、それらが稀に行われる場合、Huffmanコーディング又は算術コーディングを使用することは、より多くの通信ビットを可能にする。
これが当てはまらない場合、言い換えると、補正が予測と同一の規模である場合、これは、予測がないことを実際には意味する。
機械学習システムは、それらの最近の履歴に基づいて、姿勢、方位、及び表情をどのように予測するかを学習するように訓練され得る。それらの近未来を予測することは、それらの履歴ごとの別々に、又はそれらの履歴のいずれかの組み合わせに基づいて実行され得る。予測的モデルは、参加者ごとに別々に、又は「全体の」参加者に対して学習され得る。
例えば、RNNニューラル・ネットワーク又はLSTMニューラル・ネットワークは、いずれかの所与の時間に姿勢、方位、及び表情の値を受信し得、次の値を予測するように学習し得る。
これは、既存のテキストを学習することによって、又は音楽シーケンスを学習することにより音楽を作成することによって、テキストをどのように作成するかをNNが教えられることとよく似ている。
モデルが学習されると、それは分析構成要素及びレンダリング構成要素と共有される。
第3の構成要素は、決定器は、3つのオプションの中で決定を行い得る:
a.分析構成要素に全てのデータをレンダリング構成要素に伝送させること。
b.予測的モデルのみに基づいてレンダリング構成要素にレンダリングさせること。
c.分析モデルによって送信される補正と共に予測的モデルに基づいてレンダリング構成要素にレンダリングさせること。
説明を簡易化するために、分析構成要素及び意思決定器は、第1のコンピュータ化ユニット内であり、レンダリング構成要素は、第2のコンピュータ化ユニット内にあると仮定される。
決定は、送信される必要があるデータの量についての閾値を設定することによって、又は補正が送信される必要がある連続した回数に対して閾値を設定することによって、又はそれらの組み合わせで行われることができる。
分析構成要素は、レンダリング構成要素によって使用される予測的モデルを認識する。したがって、それは、レンダリング構成要素が予測的モデルに基づいてレンダリングしている場合、それが何を行っているかを評価することができる。
図32は、仮想三次元(3D)ビデオ会議の参加者の振る舞いの変化を予測する方法3800を例示する。
予測は、コンピュータ化ユニットの間のトラフィックのボリュームを低減させ得る。
方法3800は、反復的方法であり得る。各々の反復は、或る振る舞い予測子を使用し得、1つが別の振る舞い予測子を使用する必要があり、次の反復が始まる。各々の反復は、仮想3Dビデオ会議の一部に対して適用される。
第1のコンピュータ化ユニットが方法3800の様々なステップを実行し、アナライザ及び/又は送信機として見なされることができることが仮定される。
第2のコンピュータ化ユニットは、第1のコンピュータ化ユニットによって生成される情報を受信し得、仮想3Dビデオ会議環境内で参加者の表現を表示し得る(又は、ディスプレイに示させ得る)。
第2のコンピュータ化ユニットは、受信機として見なされ得る。
第1のコンピュータ化エンティティは、参加者のビデオにアクセスし得、ビデオは、仮想3Dビデオ会議の間に獲得される。第2のコンピュータ化エンティティは、ビデオへのアクセスを有し得ない。
第1のコンピュータ化エンティティは、画像アナライザであり得る。第2のコンピュータ化ユニットは、レンダリング・ユニットであり得る。
第1のコンピュータ化ユニット及び第2のコンピュータ化ユニットの各々の1つは、参加者デバイス及びいずれかの参加者デバイス以外のコンピュータ化システムなどであり得る。
方法3800は、仮想3Dビデオ会議の複数の部分の部分ごとに、以下のステップを実行することを開始し得る:
a.第1のコンピュータ化ユニットによって、仮想3Dビデオ会議の部分の間に、第2のコンピュータ化ユニットによって適用されることになる参加者の振る舞い予測子を判定するステップ3810。最良の推定子及び良好の推定子などを発見するいずれかの方法が使用され得ることを含む、いずれかの判定方法又は選択方法が適用され得る。
b.仮想3Dビデオ会議の部分の間に参加者の振る舞い予測子を適用することに関連する1つ又は複数の予測不正確度を判定するステップ3820。
c.仮想3Dビデオ会議の部分の間に仮想3Dビデオ会議の別の参加者によって提示される仮想3Dビデオ会議環境内の参加者の表現に影響を及ぼす少なくとも1つの予測不正確度を示す不正確度メタデータを生成するかどうか、及び第2のコンピュータ化ユニット予測に伝送するかどうかを判定するステップ3830。
ステップ3830の後、予測不正確メタデータを生成し、及び第2のコンピュータ化ユニットに伝送すると判定するとき、予測不正確度メタデータを生成し、及び第2のコンピュータ化ユニットに伝送するステップ3840が続き得る。
参加者の振る舞い予測子は、部分の開始時又は部分が開始した後に判定及び伝送され得る。
1つ又は複数の予測不正確度は、参加者の表現へのリアルタイムな修正を可能にするように、リアルタイムで生成され得、及び第2のコンピュータ化ユニットに伝送され得る(そのように行うと判定される場合)。
ステップ3840は、部分インジケータの終わり及び/又は次の振る舞い予測子の識別子などを伝送することを含み得る。
ステップ3480は、第2のコンピュータ化エンティティに、第2のコンピュータ化ユニットによって適用されることになる参加者の振る舞い予測子に関する情報を送信することを含み得る。
ステップ3810は、仮想3Dビデオ会議の前の部分の間の参加者の振る舞いに基づき得る。
ステップ3810は、部分の間の参加者の振る舞い予測子を適用することに関連する1つ又は複数の予測不正確度に基づいて、部分が終わり、新たな部分が開始するときを判定することを含み得る。
ステップ3810は、部分の間の参加者の振る舞い予測子を適用することに関連する1つ又は複数の予測不正確度に基づいて、部分が終わり、新たな部分が開始するときを判定することを含み得る。
例えば、判定は、予測不正確度に関連する伝送された情報のサイズ(Spi)が閾値を超えるとき、参加者の振る舞いを直接例示する(予測なしで)「直接の」振る舞い情報のサイズ(Sdbi)をSpiが超えるとき、現在使用されている参加者の振る舞い予測子の精度が閾値を下回るときなどに行われ得る。
ステップ3830は、参加者の表現に対する少なくとも1つの予測不正確度の効果に基づき得る。
ステップ3810、3820、3830、及び3840のうちの少なくとも1つは、機械学習工程によって実行され得る。
ステップ3810、3820、3830、及び3840は、第1のコンピュータ化ユニットによって実行され得る。
方法3800は、第2のコンピュータ化ユニットによって、各々の部分において、第2のコンピュータ化ユニットによって適用されることになる参加者の振る舞い予測子を判定するステップ3850を含み得る。
ステップ3850の後、第2のコンピュータ化ユニットによって、各々の部分において、参加者の振る舞い予測子を適用するステップ3860が続き得、適用することは、第1のコンピュータ化ユニットからリアルタイムで受信される予測不正確度情報によって影響を及ぼされる。
図33は、仮想3Dビデオ会議4201、4202、及び4203内の3つの期間を例示する。第1の期間4201の間、2人の参加者4211及び4212は、或る場所にあり(画像4215に例示されるように)、両者は、コンピュータのディスプレイを見ている。参加者は、それらの凝視方向を動かし及び変化させ(第2の期間4202の間)、よって、画像4216に例示されるように相互に見るまで、それらは、第3の期間4203の間に後者の場所に留まり得る。
参加者が動くことを開始し、よって、第1の期間の終わりに、又はその僅かに後に(図33に示されるように)、仮想3Dビデオ会議の第1の部分4231が終わり得(及び、第2の部分4232が開始し得る)、第2の振る舞い予測子4242が使用され得るとき、第1の期間4201の間に正確であった第1の振る舞い予測子4241は、正確でない。
参加者が動くことを停止し、よって、第2の期間の終わりに、又はその僅かに後に(図33に示されるように)、第2の部分4232が終わり得(及び、第3の部分4233が開始し得る)、第3の振る舞い予測子4243が使用され得るとき、第2の期間4202の間に正確であった第2の振る舞い予測子4242は、正確でない。
上述した方法の少なくとも一部は、2Dビデオ会議に変更されるべきものは変更されて適用可能であり得る。
先述の明細書では、開示の実施例は、開示の実施例の特定の実例を参照して説明されてきた。しかしながら、添付の特許請求において示されるように、開示の実施例のより広い精神及び範囲から逸脱することなく、様々な修正及び変更が行われ得ることが明白である。
その上、説明及び特許請求の範囲における用語「前方(front)」、「背面(back)」、「上部(top)」、「底部(bottom)」、「にわたって(over)」、及び「下で(under)」などは、存在する場合、説明の目的として使用され、永続的な相対的位置を説明するためのものでは必ずしもない。そのように使用される用語は、適切な状況の下で相互に変更可能であり、その結果、本明細書で説明される開示の実施例は、例えば、本明細書で例示され、又はそうでなければ、本明細書で説明されるもの以外の方位において動作する能力を有する。
本明細書で議論されるような接続は、例えば、中間デバイスを介して、それぞれのノード、ユニット、又はデバイスから又はそれぞれのノード、ユニット、又はデバイスに、信号を転送するのに適切ないずれかのタイプの接続であり得る。したがって、他に暗に示され又は他に述べられない限り、接続は、例えば、直接接続又は間接的接続であり得る。接続は、単一の接続、複数の接続、片方向接続、又は双方向接続であるとして参照において例示又は説明され得る。しかしながら、異なる実施例は、接続の実装態様を変え得る。例えば、双方向接続ではなく別々の片方向接続が使用され得、逆もまたそうである。また、複数の接続は、直列に、又は時間多重化方式において複数の信号を転送する単一の接続と置き換えられ得る。同様に、複数の信号を搬送する単一の接続は、それらの信号のサブセットを搬送する様々な異なる接続に分離され得る。したがって、信号を転送するための多くのオプションが存在する。
同一の機能性を達成するための構成要素のいずれかの配列は、所望の機能性が達成されるように効率的に関連付けられる。よって、アーキテクチャ又は中間的構成要素に関係なく、特定の機能性を達成するために本明細書で組み合わされるいずれかの2つの構成要素は、所望の機能性が達成されるように相互に「関連付けられる」と見られ得る。同様に、そのように関連付けられる2つの構成要素も、所望の機能性を達成するように、相互に「動作可能に接続され」又は「動作可能に結合される」として見なされることができる。
更に、当業者は、上記説明された動作の間の境界が例示であるにすぎないことを認識するであろう。複数の動作は、単一の動作に組み合わされ得、単一の動作は、追加の動作に分散され得、動作は、時間で部分的に重なって実行され得る。その上、代替的な実施例は、特定の動作の複数のインスタンスを含み得、動作の順序は、様々な他の実施例において改編され得る。
また、例えば、一実施例では、例示される実例は、単一の集積回路上で、又は同一のデバイス内で実装され得る。代わりに、実例は、適切な方式において互いに相互接続されたいずれかの数の別々の集積回路又は別々のデバイスとして実装され得る。
しかしながら、他の修正、変形、及び改編も可能である。したがって、明細書及び図面は、限定的な意味ではなく例示的な意味で見なされることになる。
特許請求の範囲では、括弧の間に置かれるいずれかの参照符号は、特許請求の範囲を限定するとして解釈されるべきではない。単語「含む(comprising)」は、特許請求の範囲において記載されるもの以外の他の要素又はステップの存在を排除しない。更に、用語「a」又は「an」は、本明細書で使用されるように、1つ又は1つよりも多いとして定義される。また、同一の請求項が導入フレーズ「1つ又は複数の(one or more)」又は「少なくとも1つの(at least one)」を含み、「a」又は「an」などの不定冠詞を含むときでさえ、特許請求の範囲における「少なくとも1つの」及び「1つ又は複数の」などの導入フレーズの使用は、不定冠詞「a」又は「an」によって別の請求項の要素の導入が、1つのそのような要素のみを包含する開示の実施例に、そのように導入される請求項の要素を包含するいずれかの特定の請求項を限定することを暗に示すと解釈されるべきではない。定冠詞の使用にも同一のことが当てはまる。他に述べられない限り、「第1の(first)」及び「第2の(second)」などの用語は、そのような用語が説明する要素の間で任意に区別するために使用される。よって、それらの用語は、そのような要素の時間的優先度又は他の優先度を示すことを必ずしも意図していない。或る測定が相互に異なる請求項において記載される稀な事実は、それらの測定の組み合わせが利点をもたらすために使用されることができないことを示さない。
開示の実施例の或る特徴が本明細書で例示及び説明されてきたと共に、多くの修正、代替、変更、及び同等物がここでは当業者に対して行われる。したがって、添付の特許請求の範囲は、開示の実施例の精神内に収まるように、全てのそのような修正及び変更を網羅することを意図していることが理解されることになる。

Claims (108)

  1. 複数の参加者のとの間で三次元(3D)ビデオ会議を行う方法であって、
    或る参加者に関連する視覚的検知ユニットによって、視覚的情報を獲得することと、
    前記視覚的情報に現れる複数の人物を識別することと、
    前記複数の人物から、少なくとも1人の関連する人物を発見することと、
    前記少なくとも1人の関連する人物の各々に対し、3Dエンティティ表現情報を判定することと、
    少なくとも1人の参加者に対し、前記少なくとも1人の関連する人物の各々についての前記3Dエンティティ表現情報に基づいて、仮想3Dビデオ会議環境の表現を生成することと、
    を含む、方法。
  2. 前記発見することは、前記複数の人物のどれが前記仮想3Dビデオ会議の参加者であるかを判定することを含む、請求項1に記載の方法。
  3. 前記発見することは、前記3Dビデオ会議の非参加者が関連する人物であると判定することを含む、請求項1に記載の方法。
  4. 前記識別することは、顔認識工程を適用することを含む、請求項1に記載の方法。
  5. 前記或る参加者及び前記人物の外観に従って、少なくとも或る期間の間に前記少なくとも1人の関連する人物に関する識別情報を記憶することを含む、請求項1に記載の方法。
  6. 前記少なくとも1人の関連する人物が前記視覚的検知ユニットの視野を出て、前記視覚的検知ユニットの前記視野に再度入った後、前記少なくとも1人の関連する人物のいずれかを識別することを含み、前記識別することは、前記識別情報に基づいている、請求項5に記載の方法。
  7. 少なくとも1人の関連する人物は、関連する人物である、請求項1に記載の方法。
  8. 前記関連する人物の間の物理的対話を探索することを含む、請求項7に記載の方法。
  9. 仮想3Dビデオ会議環境の前記更新された表現の前記生成は、前記物理的対話を反映する、請求項8に記載の方法。
  10. 前記関連する人物が単一の視覚的検知ユニットによって捕捉されることを示す同一の視覚的検知ユニット・インジケーションを生成することを含む、請求項7に記載の方法。
  11. 前記視覚的検知ユニットは、第1のカメラ及び第2のカメラを含み、前記関連する人物の一方は、前記第1のカメラの視野内にあり、前記関連する人物のもう一方は、前記第2のカメラの視野内にある、請求項7に記載の方法。
  12. 同一の視覚的検知ユニットによって捕捉される関連する人物の関連する人物ごとに、前記関連する人物が発話しているか否かを判定することを含む、請求項7に記載の方法。
  13. 複数の参加者は、前記仮想3D会議に参加し、前記複数の参加者は、複数の視覚的検知ユニットによって検知される、請求項1に記載の方法。
  14. 前記少なくとも1人の参加者に対し、前記仮想3Dビデオ会議環境の前記表現を前記生成することは、前記少なくとも1人の関連する人物に含まれない参加者についての3Dエンティティ表現情報にも基づいている、請求項13に記載の方法。
  15. 前記受信すること及び前記判定することは、前記複数の参加者デバイスのいずれかとも異なるコンピュータ化システムによって実行される、請求項13に記載の方法。
  16. 複数の参加者の間で三次元(3D)ビデオ会議を行う方法であって、
    前記参加者と関連付けられた仮想3Dビデオ会議環境の表現内の各々の参加者の凝視方向に関する凝視方向情報を受信することと、
    或る参加者の凝視が、前記参加者の少なくとも頭部をも捕捉する視覚的検知ユニットの視野内に位置する人物に向かって向いているかどうかを推定することと、
    前記人物の3D表現が前記仮想3Dビデオ会議環境内で現れるはずであるかどうかを決定することと、
    参加者ごとに、前記参加者の前記凝視方向を反映する、前記仮想3Dビデオ会議環境内の更新された3D参加者表現情報を判定することであって、前記或る参加者に対し、前記更新された3D参加者表現情報を前記判定することは、前記推定すること及び前記決定することの結果に応答する、前記判定することと、
    少なくとも1人の参加者に対し、仮想3Dビデオ会議環境の更新された表現を生成することであって、仮想3Dビデオ会議環境の前記更新された表現は、前記複数の参加者の少なくとも一部についての前記更新された3D参加者表現情報を表す、前記生成することと、
    を含む、方法。
  17. 前記決定することは、前記人物が前記参加者の1人であるかどうかをチェックすることを含む、請求項16に記載の方法。
  18. 前記人物が前記参加者の1人であると決定するとき、前記人物と或る参加者との間の物理的対話を探索する、請求項17に記載の方法。
  19. (a)前記或る参加者に対し、前記更新された3D参加者表現情報を前記判定すること、及び(b)前記人物に対し、前記更新された3D参加者表現情報を判定することは、前記物理的対話を反映する、請求項18に記載の方法。
  20. (a)前記人物の前記3D表現が前記仮想3Dビデオ会議環境に現れるはずであると決定すること、及び(b)前記人物が前記参加者の1人でないと決定するとき、3D人物表現情報を生成し、仮想3Dビデオ会議環境の前記更新された表現は、前記3D人物表現情報を更に含む、請求項17に記載の方法。
  21. 前記3D人物表現情報は、前記人物が参加者でないことを示す、請求項20に記載の方法。
  22. 前記人物が参加者でないとき、前記人物の前記3D表現が前記仮想3Dビデオ会議環境内に現れないはずであると決定することを含む、請求項18に記載の方法。
  23. 前記人物の前記3D表現が前記仮想3Dビデオ会議環境内に現れるはずであるかどうかを前記決定することは、前記或る参加者によって提供されるルール又は定義に基づいている、請求項17に記載の方法。
  24. 前記人物の前記3D表現が前記仮想3Dビデオ会議環境内に現れるはずであるかどうかを前記決定することは、前記人物のサイズ又は推定される年齢のうちの少なくとも1つに基づいている、請求項17に記載の方法。
  25. 前記人物から前記仮想3Dビデオ会議環境内の前記人物の視覚的表現への前記或る参加者の凝視方向における変化の間、前記仮想3Dビデオ会議環境内の前記或る参加者の凝視方向を変えないまま維持することを含む、請求項17に記載の方法。
  26. 前記人物及び前記或る参加者が同一の視覚的検知ユニットによって捕捉されることを示す同一の視覚的検知ユニット・インジケーションを生成することを含む、請求項17に記載の方法。
  27. 前記決定することは、顔認識を使用して前記人物を識別することを含む、請求項17に記載の方法。
  28. 識別工程を使用して、前記或る参加者及び前記人物の各々の1人を識別することを含む、請求項17に記載の方法。
  29. 前記或る参加者及び前記人物の外観に従って、少なくとも或る期間の間に前記人物及び前記或る参加者に関する識別情報を記憶することを含む、請求項28に記載の方法。
  30. 前記人物が前記視覚的検知ユニットの前記視野を出て、前記視覚的検知ユニットの前記視野に再度入った後、前記人物を識別することを含み、前記識別することは、前記識別情報に基づいている、請求項29に記載の方法。
  31. 前記視覚的検知ユニットは、第1のカメラ及び第2のカメラを含み、前記或る参加者は前記第1のカメラの視野内にあり、前記人物は、前記第2のカメラの視野内にある、請求項17に記載の方法。
  32. 前記複数の参加者は、複数の参加者デバイスと関連付けられ、前記受信すること及び前記判定することは、前記複数の参加者デバイスの少なくとも一部によって実行される、請求項17に記載の方法。
  33. 前記複数の参加者は、複数の参加者デバイスと関連付けられ、前記受信すること及び前記判定することは、前記複数の参加者デバイスのいずれかとも異なるコンピュータ化システムによって実行される、請求項17に記載の方法。
  34. 凝視方向情報は、前記参加者の検出された凝視方向又は推定された凝視方向を表す、請求項17に記載の方法。
  35. 異なる状況下で前記参加者の前記3D表現を生成するための初期の3D参加者表現情報を受信することを含む、請求項17に記載の方法。
  36. 前記3D参加者表現情報は、3Dモデル及び1つ又は複数のテキスチャ・マップを含む、請求項17に記載の方法。
  37. 仮想3Dビデオ会議環境の前記更新された表現は、前記複数の参加者の前記少なくとも一部の参加者ごとのアバタを含む、請求項17に記載の方法。
  38. 更新された3D参加者表現情報のセグメントの関連性を判定することと、前記関連性及び利用可能なリソースに基づいて、どのセグメントを伝送するかを選択することと、を含む、請求項17に記載の方法。
  39. 仮想3Dビデオ会議環境情報の更新された表現のセグメントの関連性を判定することと、前記関連性及び利用可能なリソースに基づいて、どのセグメントを伝送するかを選択することと、を含む、請求項17に記載の方法。
  40. 方法は、参加者の3D参加者表現情報の3Dモデル及び1つ又は複数のテキスチャ・マップを生成することを含む、請求項17に記載の方法。
  41. 参加者の顔の少なくとも1つの視覚的エリアを捕捉するカメラの視野外に位置する前記参加者の前記顔の1つ又は複数の隠蔽エリアの3D参加者表現情報を推定することを含む、請求項17に記載の方法。
  42. 参加者ごとに、前記更新された3D参加者表現情報を前記判定することは、照明条件を変更することを含む、請求項17に記載の方法。
  43. 参加者ごとに、前記更新された3D参加者表現情報を前記判定することは、ウェアラブル・アイテム情報を追加又は変更することを含む、請求項17に記載の方法。
  44. 仮想3Dビデオ会議の間にコンテンツを共有する方法であって、
    仮想3Dビデオ会議に参加する複数の参加者を招待することと、
    共有されるコンテンツ項目を記憶するために専用の共有フォルダを作成することであって、前記共有されるコンテンツは、少なくとも前記仮想3Dビデオ会議の間にアクセス可能である、前記作成することと、
    前記複数の参加者に対し、前記共有フォルダへのアクセスを有効にすることであって、前記アクセスは、1つ又は複数のアクセス制御ルールによって統治される、前記有効にすることと、
    前記仮想3Dビデオ会議を行うことであって、前記行うことは、前記コンテンツ項目のうちの少なくとも1つを共有することを含む、前記行うことと、
    を含む、方法。
  45. 前記共有することは、1つ又は複数の共有ルールに少なくとも部分的に基づいて実行される、請求項44に記載の方法。
  46. 前記1つ又は複数の共有ルールは、前記1つ又は複数のアクセス制御ルールに含まれる、請求項44に記載の方法。
  47. 前記1つ又は複数の共有ルールは、前記1つ又は複数のアクセス制御ルールに含まれない、請求項44に記載の方法。
  48. アクセスを前記有効にすることは、前記仮想3Dビデオ会議の開始の前でさえ、前記共有フォルダへのアクセスを有効にすることを含む、請求項44に記載の方法。
  49. 前記招待すること、作成すること、有効にすること、及び行うことは、仮想3Dビデオ会議アプリケーションによって管理される、請求項48に記載の方法。
  50. 前記仮想3Dビデオ会議の完了の後に、専用の前記共有フォルダを削除することを含む、請求項44に記載の方法。
  51. 前記仮想3Dビデオ会議の完了の後に、専用の前記共有フォルダを維持することと、前記仮想3Dビデオ会議の前記完了の後に、前記共有フォルダへのアクセスを有効にすることと、を含む、請求項44に記載の方法。
  52. 前記仮想3Dビデオ会議の完了の後の予め定義された期間まで、専用の前記共有フォルダを維持することと、前記仮想3Dビデオ会議の前記完了の後の予め定義された期間まで、前記共有フォルダへのアクセスを有効にすることと、を含む、請求項44に記載の方法。
  53. 仮想3Dビデオ会議の完了の後に、専用の前記共有フォルダを維持することと、前記共有フォルダにアクセスするための完了の後のアクセス制御ルールを適用することと、を含む、請求項44に記載の方法。
  54. 前記仮想3Dビデオ会議の完了の後に、専用の前記共有フォルダを維持することと、前記共有フォルダへの前記仮想3Dビデオ会議の記録を追加することと、を含む、請求項44に記載の方法。
  55. 前記共有されるコンテンツ項目は、テキスト、ドキュメント、ビデオ・ユニット、及びオーディオ・ユニットのうちの少なくとも1つを含む、請求項44に記載の方法。
  56. 仮想三次元(3D)ビデオ会議に関連するフォアグラウンド及びバックグラウンド・セグメント化のための方法であって、
    ビデオ・ストリームの複数の画像の各々の画像をセグメントにセグメント化することであって、各々のセグメントは、一定である1つ又は複数の特質を有する、前記セグメント化することと、
    前記セグメントの時間的な特質を判定することと、
    前記セグメントの前記時間的な特質に少なくとも部分的に基づいて、各々のセグメントをバックグラウンド・セグメント又はフォアグラウンド・セグメントとして分類することと、
    を含む、方法。
  57. 静的セグメントをバックグラウンド・セグメントとして分類することを含む、請求項56に記載の方法。
  58. 周期的変化を示すセグメントをバックグラウンド・セグメントとして分類することを含む、請求項56に記載の方法。
  59. 1つ又は複数の顔セグメントを探索することを更に含む、請求項56に記載の方法。
  60. 各々の顔セグメントをフォアグラウンド・セグメントとして分類することを含む、請求項59に記載の方法。
  61. 顔セグメントではなく、周期的変化を示すセグメントをバックグラウンド・セグメントとして分類することを含む、請求項59に記載の方法。
  62. 前記画像のうちの少なくとも1つのユーザ・セグメントを表示することと、前記セグメントの少なくとも一部に関連する分類入力を前記ユーザから受信することと、を更に含み、前記分類することは、前記分類入力にも基づいている、請求項56に記載の方法。
  63. 前記セグメントの時間的な特質に関する時間的な情報をユーザに提供することと、前記セグメントの少なくとも一部に関連する分類入力を前記ユーザから受信することと、を更に含み、前記分類することは、前記分類入力にも基づいている、請求項56に記載の方法。
  64. 前記セグメントをユーザに表示することと、前記セグメントの時間的な特質に関する時間的な情報を前記ユーザに提供することと、前記セグメントの少なくとも一部に関連する分類入力を前記ユーザから受信することと、を更に含み、前記分類することは、前記分類入力にも基づいている、請求項56に記載の方法。
  65. 各々のセグメントを前記バックグラウンド・セグメント又は前記フォアグラウンド・セグメントとして分類するために機械学習工程を使用することを更に含み、前記機械学習工程は、ユーザから受信される分類入力に基づいて分類することを実行するように訓練されている、請求項56に記載の方法。
  66. 前記セグメント化することは、ブロブ分析を適用することを含み、前記セグメントは、ブロブである、請求項56に記載の方法。
  67. 前記分類することの後、フォアグラウンド・セグメントとして、前記仮想3D会議の少なくとも1人の参加者に表示される仮想3Dビデオ会議環境に追加される1つ又は複数の項目を分類することが続く、請求項56に記載の方法。
  68. 複数の参加者の間で仮想三次元(3D)ビデオ会議を行う方法であって、
    前記仮想3Dビデオ会議の第1の参加者のユーザ・デバイスによって、異なる制約の下で、第2の参加者の3D表現を生成するための参照の第2の参加者の3D表現情報を受信することであって、前記異なる制約は、(a)手直し制約、(b)メイクアップ制約、及び(c)1つ又は複数の状況制約からの少なくとも1つを含む、前記受信することと、
    前記第1の参加者の前記ユーザ・デバイスによって、前記3Dビデオ電話会議の間、第2の参加者に関する1つ又は複数の現在の制約を示す第2の参加者の制約メタデータを受信することと、
    前記第2の参加者の制約メタデータに基づいて、前記第1の参加者の前記ユーザ・デバイスによって、仮想3Dビデオ会議環境の第1の表現内で、前記第2の参加者の3D参加者表現を更新することと、
    前記第2の参加者の3D参加者表現情報に基づいて、前記第2の参加者のアバタを生成することと、
    を含む、方法。
  69. 前記異なる制約は、前記手直し制約を含む、請求項68に記載の方法。
  70. 前記異なる制約は、前記メイクアップ制約を含む、請求項68に記載の方法。
  71. 前記第2の参加者の3D参加者表現情報に基づいて前記第2の参加者の前記アバタを前記生成することは、顔要素のメイクアップ・フリーの外観及び選択されたメイクアップに基づいて、前記顔要素のメイクアップ・バージョンを生成することを含む、請求項69に記載の方法。
  72. 前記第2の参加者の3D参加者表現情報に基づいて前記第2の参加者の前記アバタを前記生成することは、顔要素のメイクアップ・フリーの外観及び選択されたメイクアップのボクセルに対して線形関数を適用することによって、前記顔要素のメイクアップ・バージョンを生成することを含む、請求項69に記載の方法。
  73. 初期の第2の参加者の3D表現情報は、前記第2の参加者の修正された表現を表し、前記修正された表現は、前記第2の参加者の実際の外観とは異なる、請求項68に記載の方法。
  74. 前記修正された表現は、顔要素のサイズ、形状、及び位置からの少なくとも1つによって、前記第2の参加者の実際の外観とは異なる、請求項68に記載の方法。
  75. 前記異なる制約は、異なる凝視方向を含む、請求項68に記載の方法。
  76. 前記異なる制約は、異なる表情を含む、請求項68に記載の方法。
  77. 初期の3D参加者表現情報は、初期の3Dモデル及び1つ又は複数の初期のテキスチャ・マップを含む、請求項68に記載の方法。
  78. 異なる制約下で更新された第2の参加者の3D表現を生成するための更新された参照の第2の参加者の3D表現情報を受信することを含む、請求項68に記載の方法。
  79. 前記更新された参照の第2の参加者の表現情報は、ノイズ除去を実行することによって生成される、請求項68に記載の方法。
  80. 仮想三次元(3D)ビデオ会議の参加者に関連するオーディオ品質改善のための方法であって、
    機械学習工程によって、前記仮想3Dビデオ会議の間に取得される前記参加者のビデオの画像分析に基づいて、参加者の生成されたオーディオを判定することと、
    前記参加者の生成されたオーディオに少なくとも基づいて、参加者の関連するオーディオ情報を生成することであって、前記参加者の関連するオーディオ情報は、別の参加者のコンピュータ化システムに提供されると、前記参加者と関連付けられたオーディオ・センサによって検知される検知されたオーディオに参加者のオーディオが含まれるとき、前記別の参加者のコンピュータ化システムに、前記参加者のオーディオよりも高い品質の参加者の関連するオーディオを生成させる、前記生成することと、
    を含む、方法。
  81. 前記参加者の生成されたオーディオ情報を前記生成することは、オーディオ処理アルゴリズムの1つ又は複数のオーディオ処理特徴を判定することと、前記検知されたオーディオに対して前記オーディオ処理アルゴリズムを適用することと、を含む、請求項80に記載の方法。
  82. 前記オーディオ処理アルゴリズムは、フィルタリング工程を含み、前記オーディオ処理アルゴリズムを前記適用することは、前記検知されたオーディオをフィルタリングすることを含む、請求項81に記載の方法。
  83. 前記1つ又は複数のオーディオ処理特徴は、前記参加者の関連するオーディオの所望のスペクトル範囲を含む、請求項81に記載の方法。
  84. 前記参加者の生成されたオーディオ情報を前記生成することは、前記検知されたオーディオに対してノイズ低減アルゴリズムを適用することを含む、請求項80に記載の方法。
  85. 前記参加者の生成されたオーディオ情報を前記生成することは、発話合成アルゴリズムを適用することを含む、請求項80に記載の方法。
  86. 画像分析出力を参加者の生成されたオーディオに変換するように前記機械学習工程を訓練することを含む、請求項80に記載の方法。
  87. ビデオを参加者の生成されたオーディオに変換するように前記機械学習工程を訓練することを含む、請求項80に記載の方法。
  88. 前記オーディオ・センサがミュートであると判定するとき、前記参加者の関連するオーディオ情報を生成することを含む、請求項80に記載の方法。
  89. 前記オーディオ・センサがミュートであると判定するとき、発話合成アルゴリズムを適用することによって、前記参加者の関連するオーディオ情報を生成することを含む、請求項80に記載の方法。
  90. 前記検知されたオーディオの存在及び品質のうちの少なくとも1つに基づいて、前記参加者の関連するオーディオ情報をどのように生成するかを判定することを含む、請求項80に記載の方法。
  91. 前記判定することは、(i)前記検知されたオーディオに対してオーディオ処理アルゴリズムを適用することと、(ii)発話合成アルゴリズムを適用することと、の間で選択することを含む、請求項90に記載の方法。
  92. 仮想三次元(3D)ビデオ会議の参加者の振る舞いの変化を予測する方法であって、
    前記仮想3Dビデオ会議の複数の部分の部分ごとに、第1のコンピュータ化ユニットによって、前記仮想3Dビデオ会議の前記部分の間に第2のコンピュータ化ユニットによって適用されることになる参加者の振る舞い予測子、(b)前記仮想3Dビデオ会議の前記部分の間に前記参加者の振る舞い予測子を適用することに関連する1つ又は複数の予測不正確度、及び(c)前記仮想3Dビデオ会議の前記部分の間に前記仮想3Dビデオ会議の別の参加者に提示される仮想3Dビデオ会議環境内の前記参加者の表現に影響を及ぼす少なくとも1つの予測不正確度を示す予測不正確度メタデータを生成し、前記第2のコンピュータ化ユニットに伝送するかどうか、を判定することと、
    予測不正確度メタデータを生成し、前記第2のコンピュータ化ユニットに伝送すると判定するとき、前記予測不正確度メタデータを生成し、前記第2のコンピュータ化ユニットに伝送することと、
    を含む、方法。
  93. 前記第1のコンピュータ化エンティティは、前記参加者のビデオへのアクセスを有し、前記ビデオは、前記仮想3Dビデオ会議の間に獲得され、前記第2のコンピュータ化エンティティは、前記ビデオへのアクセスを有さない、請求項92に記載の方法。
  94. 前記第1のコンピュータ化エンティティは、画像アナライザであり、前記第2のコンピュータ化エンティティは、レンダリング・ユニットである、請求項92に記載の方法。
  95. 前記仮想3Dビデオ会議の前記部分の間に前記第2のコンピュータ化ユニットによって適用されることになる前記参加者の振る舞い予測子を前記判定することは、前記仮想3Dビデオ会議の前の部分の間の前記参加者の振る舞いに基づいている、請求項92に記載の方法。
  96. 予測不正確度メタデータを生成し、前記第2のコンピュータ化ユニットに伝送するかどうかを前記判定することは、前記参加者の前記表現の前記少なくとも1つの予測不正確度の効果に基づいている、請求項92に記載の方法。
  97. 前記判定することは、機械学習工程によって実行される、請求項92に記載の方法。
  98. 前記部分の間に前記参加者の振る舞い予測子を適用することに関連する前記1つ又は複数の予測不正確度に基づいて、前記部分が終了し、新たな部分が開始するときを判定することを含む、請求項92に記載の方法。
  99. 前記第2のコンピュータ化エンティティに、部分終了インジケータを送信することを含む、請求項92に記載の方法。
  100. 前記第2のコンピュータ化エンティティに、前記第2のコンピュータ化ユニットによって適用されることになる前記参加者の振る舞い予測子に関する情報を送信することを含む、請求項92に記載の方法。
  101. 前記第2のコンピュータ化ユニットによって、部分ごとに、前記第2のコンピュータ化ユニットによって適用されることになる前記参加者の振る舞い予測子を判定することを含む、請求項92に記載の方法。
  102. 複数の参加者との間で三次元(3D)ビデオ会議を行うための非一時的コンピュータ可読媒体であって、
    或る参加者に関連する視覚的検知ユニットによって、視覚的情報を獲得し、
    前記視覚的情報に現れる複数の人物を識別し、
    前記複数の人物から、少なくとも1人の関連する人物を発見し、
    前記少なくとも1人の関連する人物の各々に対し、3Dエンティティ表現情報を判定し、
    少なくとも1人の参加者に対し、前記少なくとも1人の関連する人物の各々についての前記3Dエンティティ表現情報に基づいて、仮想3Dビデオ会議環境の表現を生成する、
    ための命令を記憶する、非一時的コンピュータ可読媒体。
  103. 複数の参加者の間で三次元(3D)ビデオ会議を行うための非一時的コンピュータ可読媒体であって、
    前記参加者と関連付けられた仮想3Dビデオ会議環境の表現内の各々の参加者の凝視方向に関する凝視方向情報を受信し、
    或る参加者の凝視が、前記参加者の少なくとも頭部をも捕捉する視覚的検知ユニットの視野内に位置する人物に向かって向いているかどうかを推定し、
    前記人物の3D表現が前記仮想3Dビデオ会議環境内で現れるはずであるかどうかを決定し、
    参加者ごとに、前記参加者の前記凝視方向を反映する、前記仮想3Dビデオ会議環境内の更新された3D参加者表現情報を判定し、前記或る参加者に対し、前記更新された3D参加者表現情報を前記判定することは、前記推定すること及び前記決定することの結果に応答し、
    少なくとも1人の参加者に対し、仮想3Dビデオ会議環境の更新された表現を生成し、仮想3Dビデオ会議環境の前記更新された表現は、前記複数の参加者の少なくとも一部についての前記更新された3D参加者表現情報を表す、
    ための命令を記憶する、非一時的コンピュータ可読媒体。
  104. 仮想3Dビデオ会議の間にコンテンツを共有するための非一時的コンピュータ可読媒体であって、
    仮想3Dビデオ会議に参加する複数の参加者を招待し、
    共有されるコンテンツ項目を記憶するために専用の共有フォルダを作成し、前記共有されるコンテンツは、少なくとも前記仮想3Dビデオ会議の間にアクセス可能であり、
    前記複数の参加者に対し、前記共有フォルダへのアクセスを有効にし、前記アクセスは、1つ又は複数のアクセス制御ルールによって統治される、前記有効にし、
    前記仮想3Dビデオ会議を行い、前記行うことは、前記コンテンツ項目のうちの少なくとも1つを共有することを含む、
    ための命令を記憶する、非一時的コンピュータ可読媒体。
  105. 仮想三次元(3D)ビデオ会議に関連するフォアグラウンド及びバックグラウンド・セグメント化のための非一時的コンピュータ可読媒体であって、
    ビデオ・ストリームの複数の画像の各々の画像をセグメントにセグメント化し、各々のセグメントは、一定である1つ又は複数の特質を有し、
    前記セグメントの時間的な特質を判定し、
    前記セグメントの前記時間的な特質に少なくとも部分的に基づいて、各々のセグメントをバックグラウンド・セグメント又はフォアグラウンド・セグメントとして分類する、
    ための命令を記憶する、非一時的コンピュータ可読媒体。
  106. 複数の参加者の間で仮想三次元(3D)ビデオ会議を行うための非一時的コンピュータ可読媒体であって、
    前記仮想3Dビデオ会議の第1の参加者のユーザ・デバイスによって、異なる制約の下で、第2の参加者の3D表現を生成するための参照の第2の参加者の3D表現情報を受信し、前記異なる制約は、(a)手直し制約、(b)メイクアップ制約、及び(c)1つ又は複数の状況制約からの少なくとも1つを含み、
    前記第1の参加者の前記ユーザ・デバイスによって、前記3Dビデオ電話会議の間、第2の参加者に関する1つ又は複数の現在の制約を示す第2の参加者の制約メタデータを受信し、
    前記第2の参加者の制約メタデータに基づいて、前記第1の参加者の前記ユーザ・デバイスによって、仮想3Dビデオ会議環境の第1の表現内で、前記第2の参加者の3D参加者表現を更新し、
    前記第2の参加者の3D参加者表現情報に基づいて、前記第2の参加者のアバタを生成する、
    ための命令を記憶する、非一時的コンピュータ可読媒体。
  107. 仮想三次元(3D)ビデオ会議の参加者に関連するオーディオ品質改善のための非一時的コンピュータ可読媒体であって、
    機械学習工程によって、前記仮想3Dビデオ会議の間に取得される前記参加者のビデオの画像分析に基づいて、参加者の生成されたオーディオを判定し、
    前記参加者の生成されたオーディオに少なくとも基づいて、参加者の関連するオーディオ情報を生成し、前記参加者の関連するオーディオ情報は、別の参加者のコンピュータ化システムに提供されると、前記参加者と関連付けられたオーディオ・センサによって検知される検知されたオーディオに参加者のオーディオが含まれるとき、他の参加者のコンピュータ化システムに、前記参加者のオーディオよりも高い品質の参加者の関連するオーディオを生成させる、
    ための命令を記憶する、非一時的コンピュータ可読媒体。
  108. 仮想三次元(3D)ビデオ会議の参加者の振る舞いの変化を予測するための非一時的コンピュータ可読媒体であって、
    前記仮想3Dビデオ会議の複数の部分の部分ごとに、第1のコンピュータ化ユニットによって、前記仮想3Dビデオ会議の前記部分の間に第2のコンピュータ化ユニットによって適用されることになる参加者の振る舞い予測子、(b)前記仮想3Dビデオ会議の前記部分の間に前記参加者の振る舞い予測子を適用することに関連する1つ又は複数の予測不正確度、及び(c)前記仮想3Dビデオ会議の前記部分の間に前記仮想3Dビデオ会議の別の参加者に提示される仮想3Dビデオ会議環境内の前記参加者の表現に影響を及ぼす少なくとも1つの予測不正確度を示す予測不正確度メタデータを生成し、前記第2のコンピュータ化ユニットに伝送するかどうか、を判定し、
    予測不正確度メタデータを生成し、前記第2のコンピュータ化ユニットに伝送すると判定するとき、前記予測不正確度メタデータを生成し、前記第2のコンピュータ化ユニットに伝送する、
    ための命令を記憶する、非一時的コンピュータ可読媒体。
JP2023564028A 2021-05-10 2022-05-10 仮想3d通信のための方法及びシステム Pending JP2024518888A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163201713P 2021-05-10 2021-05-10
US63/201,713 2021-05-10
PCT/IB2022/054350 WO2022238908A2 (en) 2021-05-10 2022-05-10 Method and system for virtual 3d communications

Publications (1)

Publication Number Publication Date
JP2024518888A true JP2024518888A (ja) 2024-05-08

Family

ID=84029491

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023564028A Pending JP2024518888A (ja) 2021-05-10 2022-05-10 仮想3d通信のための方法及びシステム

Country Status (2)

Country Link
JP (1) JP2024518888A (ja)
WO (1) WO2022238908A2 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100085415A1 (en) * 2008-10-02 2010-04-08 Polycom, Inc Displaying dynamic caller identity during point-to-point and multipoint audio/videoconference
US10356364B2 (en) * 2013-09-10 2019-07-16 Minerva Project, Inc. Registering and displaying visual attention metadata in a web video conferencing and seminar system
US10701318B2 (en) * 2015-08-14 2020-06-30 Pcms Holdings, Inc. System and method for augmented reality multi-view telepresence
US9930270B2 (en) * 2015-10-15 2018-03-27 Microsoft Technology Licensing, Llc Methods and apparatuses for controlling video content displayed to a viewer
US11283844B2 (en) * 2017-12-05 2022-03-22 Mitel Networks Corporation Method and system for participating in an electronic communication using virtual presence
US10904481B1 (en) * 2019-12-31 2021-01-26 Facebook, Inc. Broadcasting and managing call participation

Also Published As

Publication number Publication date
WO2022238908A2 (en) 2022-11-17
WO2022238908A3 (en) 2023-01-12

Similar Documents

Publication Publication Date Title
US11575856B2 (en) Virtual 3D communications using models and texture maps of participants
US11570404B2 (en) Predicting behavior changes of a participant of a 3D video conference
US11805157B2 (en) Sharing content during a virtual 3D video conference
US11790535B2 (en) Foreground and background segmentation related to a virtual three-dimensional (3D) video conference
US11765332B2 (en) Virtual 3D communications with participant viewpoint adjustment
US11870939B2 (en) Audio quality improvement related to a participant of a virtual three dimensional (3D) video conference
US20230146178A1 (en) Attention based audio adjustment in virtual environments
Elgharib et al. Egocentric videoconferencing
JP2024518888A (ja) 仮想3d通信のための方法及びシステム
US20230419580A1 (en) Systems and Methods for Implementing a Virtual Avatar Model for a Video Conference Session
US20230247180A1 (en) Updating a model of a participant of a three dimensional video conference call
US20240022689A1 (en) Generating a sound representation of a virtual environment from multiple sound sources