JP2020507221A

JP2020507221A - Ｈｍｄを用いたビデオ会議の改良された方法およびシステム

Info

Publication number: JP2020507221A
Application number: JP2019514013A
Authority: JP
Inventors: バルバロスキリスケン，
Original assignee: ベステルエレクトロニクサナイーベティカレトエー．エス．
Priority date: 2017-02-03
Filing date: 2017-02-03
Publication date: 2020-03-05
Also published as: EP3358835B1; EP3358835A1; KR102574874B1; CN109952759A; KR20190112712A; US20210281802A1; WO2018141408A1; CN109952759B; TR201702966A2

Abstract

本発明は、ビデオ会議セッション中にビデオデータを修正する方法に関する。本方法は、少なくとも、少なくとも視覚入力を取り込むための第１カメラユニット（１０３Ｘ）と、第１ヘッドマウントディスプレイ（１０２）と、を含む第１端末（１００Ａ）を提供し、少なくとも視覚入力を出力するための第２端末（１００Ｂ）を提供し、サーバ手段（１０５）を提供し、前記第１端末（１００Ａ）および前記第２端末（１００Ｂ）は、データ交換のために前記サーバ手段（１０５）を介して接続され、前記第１カメラユニット（１０３Ｘ）を用いて、第１の人（１０１）の頭部の第１基本画像データまたは第１基本ビデオデータを提供し、または取り込み、前記第１の人（１０１）が前記ヘッドマウントディスプレイ（１０２）を装着している間に、前記第１カメラユニットを用いて、前記第１の人（１０１）の前記頭部の第１処理画像データまたは第１処理ビデオデータを取り込み、前記第１ヘッドマウントディスプレイ（１０２）の外観を表す前記第１の処理画像データまたは第１の処理ビデオデータの第１処理データセクションを判定し、前記第１処理画像データまたは第１処理ビデオデータの前記第１処理データセクションを第１基本データセクションで置き換えることによって、第１の組の修正画像データまたは修正ビデオデータを生成し、前記第１基本データセクションは、前記第１基本画像データまたは第１の基本ビデオデータの一部であり、前記人の前記顔の一部、特に、前記第１の人（１０１）の目を表している、ステップを含む方法。【選択図】図４

Description

本発明は、請求項１に記載のビデオ会議セッション中にビデオデータを修正する方法、請求項１４に記載のそのような方法を実行するためのコンピュータプログラム製品、および請求項１５に記載のビデオ会議セッションのためのシステムに関する。

本発明の技術分野はビデオ会議システムに関する。そのようなビデオ会議システムは、データ接続、特にインターネット接続を通じて、コンピュータ、ラップトップまたはスマートフォンのような個別の端末を介した視覚的通信を可能にする。いくつかのビデオ会議システムでは、ヘッドマウントディスプレイ（ＨＭＤ）が使用される。そのようなＨＭＤは、仮想現実（ＶＲ）および／または拡張現実（ＡＲ）および／または複合現実（ＭＲ）を可能にする。

ビデオ会議以外に、仮想会議室、仮想空間、ロールプレイングゲームおよび仮想環境一般もＨＭＤで行われ、ＨＭＤは、ユーザの実際の顔が見られない場合にも、そのような用途では困るものであり、厄介なものである。

文献ＵＳ６８０６８９８Ｂ１は、各参加者がカメラおよびディスプレイを有するビデオ会議環境において、視線および頭部姿勢を自動的に調整するためのシステムおよび方法を開示する。参加者の画像は仮想３Ｄ空間にレンダリングされる。３Ｄ空間の参加者の画像が、画面上で見ている人に見られるように現れるようにするため、頭部姿勢の向きおよび視線の方向が修正される。参加者が視聴者を見ている場合、彼らの視線は「カメラ」の方に設定され、これはアイコンタクトの知覚を与える。

文献ＵＳ２００８０２５２６３７は仮想現実ベースのビデオ会議を開示する。

文献ＵＳ２０１１０２０２３０６は調整可能な仮想現実システムを開示する。

ＨＤＭの大きなサイズのため、会議中の他の人々は、前記ＨＤＭを着用している人の顔のごく一部が見えるだけなので、ヘッドマウントディスプレイを用いたビデオ会議では邪魔になることがある。

したがって、本発明の目的は、ビデオ会議セッション中のユーザの快適さを改善するビデオ会議のための方法およびビデオ会議システムを提供することである。

上述の目的は、請求項１に記載のビデオ会議セッション中にビデオデータを修正する方法によって解決される。本発明の方法は、少なくとも、少なくとも視覚入力を取り込むための第１カメラユニットおよび第１ヘッドマウントディスプレイを含む第１端末を提供するステップと、少なくとも視覚入力を出力するための第２端末を提供するステップと、サーバ手段または通信手段または転送媒体を提供するステップと、前記第１端末および前記第２端末は、データ交換のために前記転送媒体、特にサーバ手段を介して接続され、第１カメラユニットを用いて、第１の人の頭部の第１基本画像データまたは第１基本ビデオデータを提供し、または取り込むステップと、前記第１の人がヘッドマウントディスプレイを装着している間に、第１カメラユニットを用いて、前記第１の人の頭部の第１処理画像データまたは第１処理ビデオデータを取り込むステップと、第１ヘッドマウントディスプレイの外観を表す第１処理画像データまたは第１処理ビデオデータの第１処理データセクションを判定するステップと、第１処理画像データまたは第１処理ビデオデータの第１処理データセクションを第１基本データセクションで置き換えることによって、第１の組の修正画像データまたは修正ビデオデータを生成するステップと、第１基本データセクションは、第１基本画像データまたは第１の基本ビデオデータの一部であり、前記人の前記顔の一部、特に、前記第１の人の前記目を表しており、特に少なくとも１つのさらなる端末、特に少なくとも第２端末を介して、特に前記人の顔全体を表す第１修正画像データまたは第１修正ビデオデータを出力することを含む。

したがって、本発明は、１人、２人または複数のユーザが仮想現実グラス（ＶＲ）または拡張現実眼鏡（ＡＲ）などのヘッドマウントディスプレイ（ＨＭＤ）を装着しながら、好ましくはフルフェイスのビデオ会議を提供する方法を開示する。ＨＭＤ／ＶＲ／ＡＲ装置を使用する１人、２人または複数の参加者の場合、ユーザの顔のかなりの部分、特に目はＨＭＤ／ＶＲ／ＡＲ装置で覆われているため、他のユーザは顔を完全には見ることができず、ビデオ会議はどことなく無意味である。新規な方法では、ユーザのそれぞれ１つまたは複数の事前に記録された顔の姿勢をリアルタイムビデオに重ね合わせ（スーパーインポーズ）、遠隔地に転送されて、何の障害もなくフルフェイスでのビデオ会議を確立する。

さらなる好ましい実施形態が、従属請求項および／または以下の明細書部分の主題である。

本発明の好ましい実施形態によれば、第２端末は第２カメラと第２ヘッドマウントディスプレイを含む。本発明は、さらに、第２カメラユニットを用いて、第２の人の頭部の第２基本画像データまたは第２基本ビデオデータを提供し、または取り込むステップと、前記第２の人が前記第２ヘッドマウントディスプレイを装着している間に、第２カメラユニットを用いて、前記第２の人の頭部の第２処理画像データまたは第２処理ビデオデータを取り込むステップと、第２ヘッドマウントディスプレイの外観を表す第２処理画像データまたは第２処理ビデオデータの第２処理データセクションを判定するステップと、第２処理画像データまたは第２処理ビデオデータの第２処理データセクションを第２基本データセクションで置き換えることによって、第２の組の修正画像データまたは修正ビデオデータをそれぞれ生成し、形成するステップと、第２基本データセクションは、第２基本画像データまたは第２の基本ビデオデータの一部であり、前記第２の人の前記顔の一部、特に、前記第２の人の目を表しており、特に、第１端末（１００Ａ）を介して第２修正画像データまたは第２修正ビデオデータを出力するステップによって特徴づけられる。１つだけでなく、または少なくとも１つだけでないＨＤＭがビデオ会議方法に統合されているので、本実施形態は有益である。したがって、２人または少なくとも２人の人又はユーザが、ＨＭＤを装着しながら本発明のビデオ会議方法を使用することができる。

前記第１修正画像データまたは第１修正ビデオデータおよび／または第２修正画像データまたは第２修正ビデオデータは、本発明のさらなる好ましい実施形態によれば、前記サーバに接続された少なくとも１つの端末を介して出力される。必ずしもすべての端末がＨＭＤを有する必要がないので、本実施形態は有益である。したがって、、ＨＭＤを装着している、または装着していない人またはユーザは、同じように対話することができ、特に各ユーザの顔、特にフルフェイサーまたはＨＤＭなしでのそれぞれの人が、１つ、２つ、または少なくとも１つまたは少なくと２つまたは複数の端末上に表示される。

端末は、画面を有する、もしくは表面上または空間内に視覚画像を投影するあらゆる装置として理解することができる。したがって、端末は、好ましくは、ラップトップ、タブレットＰＣ、デスクトップＰＣ、スマートフォン、ＴＶなどである。端末とＨＭＤは１つの装置であることもさらに考えられる。

さらなる端末は、本発明のさらなる好ましい実施形態によれば、さらなるカメラユニットおよびさらなるヘッドマウントディスプレイを含む。本発明は、さらに、さらなるカメラユニットを用いて、さらなる人の頭部のさらなる基本画像データまたはさらなる基本ビデオデータを提供し、または取り込むステップと、前記さらなる人がさらなるヘッドマウントディスプレイを装着している間に、さらなるカメラユニットを用いて、前記さらなる人の頭部の第２処理画像データまたは第２処理ビデオデータを取り込むステップと、さらなるヘッドマウントディスプレイの外観を表すさらなる処理画像データまたはさらなる処理ビデオデータのさらなる処理データセクションを判定するステップと、さらなる処理画像データまたはさらなる処理ビデオデータの前記さらなる処理データセクションをさらなる基本データセクションで置き換えることによって、さらなる組の修正画像データまたは修正ビデオデータを形成するステップと、さらなる基本データセクションは、さらなる基本画像データまたはさらなる基本ビデオデータの一部であり、前記さらなる人の前記顔の一部、特に、前記さらなる人の目を表しており、第１端末を介し、および／または第２端末および／または任意のさらなる端末を介し、特に、同時に、さらなる修正画像データまたはさらなる修正ビデオデータを出力するステップによって特徴づけられる。本実施形態は、複数のユーザ又は人、特に２人以上、３人以上、４人以上、又は４人を超える人がそれぞれＨＭＤを使用することができるので有益である。異なる種類のＨＭＤ、特にＶＲおよびＡＲ装置が、同じビデオ会議セッションで利用されることも考えられる。したがって、処理画像データまたは処理ビデオデータによって表される各ＨＭＤは、前記それぞれのＨＭＤを使用するユーザの顔部分、特に目を表すデータと置き換えることができる。

第１、第２および／またはさらなる基本ビデオデータもしくは第１、第２および／またはさらなる基本画像データは、本発明の好ましい実施形態によれば、それぞれの端末のメモリおよび／またはサーバ手段に記憶される。第１、第２および／またはさらなる基本ビデオデータもしくは第１、第２および／またはさらなる基本画像データが一度取り込まれ、第１、第２および／またはさらなる修正ビデオデータもしくは第１、第２および／またはさらなる修正画像データが必要とされる場合に処理される。あるいは、前記第１、第２および／または第３の人（１０１、１１１、１１４）がビデオ会議に参加するたびに、第１、第２および／またはさらなる基本ビデオデータもしくは第１、第２および／またはさらなる基本画像データが取り込まれ、第１、第２および／またはさらなる修正ビデオデータもしくは第１、第２および／またはさらなる修正画像データが必要とされる場合に、第１、第２および／またはさらなる基本ビデオデータもしくは第１、第２および／またはさらなる基本画像データが更新され、または置換され、および処理される。

少なくとも１つの端末および好ましくは大多数の端末、またはすべての端末は、本発明のさらなる好ましい実施形態によれば、音声データを取り込み、および／または出力するための手段を含み、１つの端末によって取り込まれた前記取り込まれた音声データは、１つまたは複数のさらなる端末に少なくとも転送される。そのような手段は、例えば、マイクロフォンである。音声取り込み手段は、ＨＤＭに配置することができ、または端末の一部とすることができる。

第１の人の顔に対する第１ヘッドマウントディスプレイの位置は、本発明のさらなる好ましい実施形態によれば、物体認識によって決定される。第１ヘッドマウントディスプレイの形状は、視覚的又は電子的に提供される物体認識および／または識別データによって決定されることが好ましい。第１ヘッドマウンドディスプレイと第１端末との間のデータ接続により、電子的識別データが提供される。第２の人の顔に対する第２ヘッドマウントディスプレイの位置は、本発明のさらなる好ましい実施形態によれば、物体認識によって決定される。第２ヘッドマウントディスプレイの形状は、視覚的又は電子的に提供される物体認識および／または識別データによって決定されることが好ましい。第２ヘッドマウンドディスプレイと第２端末との間のデータ接続により、電子的識別データが提供される。さらなる人の顔に対するさらなるヘッドマウントディスプレイの位置は、本発明のさらなる好ましい実施形態によれば、物体認識によって決定される。さらなるヘッドマウントディスプレイの形状は、視覚的又は電子的に提供される物体認識および／または識別データによって決定されることが好ましい。さらなるヘッドマウンドディスプレイとさらなる端末との間のデータ接続により、電子的識別データが提供される。

第１の人の顔の皮膚部分の動きを表す顔の動きデータが、本発明のさらなる好ましい実施形態によれば、生成され、皮膚部分の動きが前記第１カメラユニットによって取り込まれる。第２の人の顔の皮膚部分の動きを表す顔の動きデータが、本発明のさらなる好ましい実施形態によれば、生成され、皮膚部分の動きが前記第２カメラユニットによって取り込まれる。第３の人の顔の皮膚部分の動きを表す顔の動きデータが、本発明のさらなる好ましい実施形態によれば、生成され、皮膚部分の動きが前記第３カメラユニットによって取り込まれる。

第１の人の少なくとも１つの目の動きを表す眼球運動データが、本発明のさらなる好ましい実施形態によれば、生成され、目の動きは、視線追跡手段によって取り込まれる。第２の人の少なくとも１つの目の動きを表す眼球運動データも、生成され、目の動きは、第２視線追跡手段によって取り込まれる。さらなる人の少なくとも１つの目の動きを表す眼球運動データも、生成され、目の動きは、さらなる視線追跡手段によって取り込まれる。顔の皮膚の動きは、選択的な顔の動き検出器によって検出することができ、前記顔の動き検出器は、視線追跡手段に加えて、または代わりに設けることができる。視線追跡および顔の動きを組み合わせた検出器が提供され、特にＨＭＤの上または内部に、もしくはＨＭＤの一部として配置される。

第１基本データセクションは、さらなる好ましい実施形態によれば、第１の人の顔の前記取り込まれた顔の動きデータおよび／または第１の人の少なくとも１つの目の前記取り込まれた眼球運動データに応じて修正される。第２基本データセクションは、さらなる好ましい実施形態によれば、第２の人の顔の前記取り込まれた顔の動きデータおよび／または第２の人の少なくとも１つの目の前記取り込まれた眼球運動データに応じて修正される。第３基本データセクションは、さらなる好ましい実施形態によれば、第３の人の顔の前記取り込まれた顔の動きデータおよび／または第３の人の少なくとも１つの目の前記取り込まれた眼球運動データに応じて修正される。

さらなる好ましい実施形態によれば、第１基本データセクションの一部として第１の人の目の形状を表す眼球データが識別される。眼球データは、前記取り込まれた眼球運動データに応じて修正されることが好ましく、および／または第１基本データセクションの目の上および／または下の第１の人の顔の皮膚部分を表す皮膚データが識別されることが好ましい。皮膚データは、前記取り込まれた顔の動きデータに応じて修正されることが好ましい。さらなる好ましい実施形態によれば、第２基本データセクションの一部として第２の人の目の形状を表す眼球データが識別される。眼球データは、前記取り込まれた眼球運動データに応じて修正されることが好ましく、および／または第２基本データセクションの目の上および／または下の第２の人の顔の皮膚部分を表す皮膚データが識別されることが好ましい。皮膚データは、前記取り込まれた顔の動きデータに応じて修正されることが好ましい。さらなる好ましい実施形態によれば、さらなる基本データセクションの一部としてさらなる人の目の形状を表す眼球データが識別される。眼球データは、前記取り込まれた眼球運動データに応じて修正されることが好ましく、および／またはさらなる基本データセクションの目の上および／または下のさらなる人の顔の皮膚部分を表す皮膚データが識別されることが好ましい。皮膚データは、前記取り込まれた顔の動きデータに応じて修正されることが好ましい。ＨＭＤを使用するそれぞれの人の眼球運動を表す視覚データを利用して、ビデオ会議セッションおよびシステムそれぞれの使いやすさおよび／または快適さをさらに高めることができるので、本実施形態は有益である。

視線追跡手段は、好ましくはｎｅａｒｅｙｅＰＣＣＲトラッカーである。前記視線追跡手段は、第１ヘッドマウントディスプレイの上または内部に、および／または第２ヘッドマウントディスプレイの上または内部に、および／またはさらなるヘッドマウントディスプレイの上または内部に配置されることが好ましい。

本発明のさらなる好ましい実施形態によれば、本発明の方法は、特にカメラユニットによって、第１の人の頭部の姿勢に関する情報を受信するステップと、物体、特に第１の人の頭部の姿勢に従って、頭部の仮想モデルと頭部の顔の視線を方向づけるステップと、ビデオ会議通信の一部からの可視ピクセルを仮想モデルに投影するステップと、空間の所望の点で顔の視線を作り出す前記頭部の合成された目を生成するステップと、作り出された顔の視線に従って仮想モデルを方向づけるステップと、ビデオ会議通信の対応する部分に仮想モデルを投影するステップと、を含み、第１の組の修正画像データまたは修正ビデオデータの少なくとも一部は、前記仮想モデルによって置き換えられる。それぞれの（第１、第２、および／またはさらなる）処理画像データまたは（第１、第２、および／またはさらなる）処理ビデオデータが、本発明の方法と本発明のシステムのそれぞれをさらに強化するために修正することができるので、本実施形態は有益である。

合成された目を作成することは、好ましくは、目のセグメンテーション情報を受信すること、および合成の目を作成するために虹彩および瞳孔情報を推定することを含む。合成された目は、さらに好ましくは、オリジナルの目を合成の目に置き換えるために、セグメンテーション情報を用いてビデオ会議通信の対応する部分に合成の目をデジタル的に描くことを含む。好ましくは、ビデオ会議通信中にリアルタイムで仮想モデルの合成された目をデジタル的に調整するステップが提供される。ビデオ会議通信は、少なくとも２人の参加者間で行うことが好ましく、インターネット、統合サービスデジタルネットワーク、または直接通信リンクのうちの少なくとも１つによって進められることが非常に好ましい。

本発明は、さらに、請求項１乃至請求項１３に記載の方法を実行するためのコンピュータプログラム製品に関する。

本発明は、さらに、ビデオ会議セッションのためのシステムに関する。前記システムは、少なくとも視覚入力を取り込むための第１カメラユニットおよび第１ヘッドマウントディスプレイを含む第１端末と、少なくとも視覚入力を出力するための第２端末と、サーバ手段と、を含み、前記第１端末および前記第２端末は、データ交換のためのサーバ手段を介して接続され、第１カメラユニットを用いて、第１の人の頭部の第１基本画像データまたは第１基本ビデオデータが提供され、または取り込まれ、前記第１の人がヘッドマウントディスプレイを装着している間に、第１カメラユニットを用いて、前記第１の人の頭部の第１処理ビデオデータまたは第１処理ビデオデータが取り込まれ、第１ヘッドマウントディスプレイの外観を表す第１処理画像データまたは第１処理ビデオデータの第１処理データセクションが判定され、第１処理画像データまたは第１処理ビデオデータの第１処理データセクションを第１基本データセクションで置き換えることによって、第１の組の修正画像データまたは修正ビデオデータが形成され、第１基本データセクションは、第１基本画像データまたは第１基本ビデオデータの一部であり、前記人の顔の一部、特に、前記人の目を表しており、特に前記人の顔全体を表す第１修正データまたは第１修正ビデオデータが第２端末を介して出力されることを含むことが好ましい。

本発明のさらなる利点、目的および特徴は、本発明の例示的な構成要素が例示されている添付の図面の以下の明細書によって説明される。少なくとも本質的にそれらの機能に関して適合する本発明に係るシステムおよび方法の構成要素は、同じ参照符号を付すことができ、そのような構成要素は、前記図面に関して何度も付したり説明したりする必要はない。

以下では、添付の図面に関して本発明を例示的に説明する。

ＨＭＤが使用される技術状態のビデオ会議セッションの概略図を示す。ＨＭＤも使用される本発明に係るビデオ会議セッションの第１の概略図を示す。ＨＭＤも使用される本発明に係るビデオ会議セッションの第２の概略図を示す。人間の顔の形状の一部を表すピクセルによるＨＭＤを表すピクセルの置き換えを概略的に示す。本発明のビデオ会議セッション中に使用することができるいくつかのＨＭＤを示す。使用中のＨＭＤの形状を検出するために使用中のＨＭＤを識別するためのいくつかの可能性をそれぞれ示す。概略的に示されたＨＭＤの正面図および側面図を示し、ここに示されたＨＭＤは視線追跡手段を含む。顔の動きの追跡中のシーンを概略的に示し、ここでは、顔の動きの追跡がマーカーの有無にかかわらず実行することができる。システム起動フローチャートの一例を示す。画像処理中のステップを表すフローチャートの一例を概略的に示す。複数のユーザとのビデオ会議を概略的に示す。例示的な場合における仮想環境、仮想会議室に接続された複数のユーザを示す。

図１は従来技術の設定を示す。ここには、第１ユーザの頭部の正面図１０１Ａと、第１ユーザ１０１の頭部の側面図（横顔）１０１Ｂとが示されている。第１ユーザ１０１は、ＨＭＤ１０２を装着している。前記ＨＭＤ１０２（例示的な場合ではＶＲガラス）は、正面図１０２Ａおよび側面図１０２Ｂに示されている。第１ユーザ１０１の頭部は、第１カメラユニット１０３Ｘによって取り込まれる。第１カメラユニット１０３Ｘは、ビデオ会議中に利用可能なカメラユニットである。第１カメラユニット１０３Ｘは、例示的な場合では、好ましくは外部に配置されるが、他の任意の選択肢も可能である。

参照符号１０３Ｙは第２カメラユニットを示す。第２カメラユニット１０３Ｙによって第２ユーザ１１１の頭部が取り込まれる。第２カメラユニット１０３Ｙは、ビデオ会議中に利用可能なカメラユニットである。第２カメラユニット１０３Ｙは、例示的なケースでは、好ましくは外部に配置されるが、他の任意の選択肢も可能である。本発明のビデオ会議セッション中に第２ユーザ１１１がＨＭＤを使用または着用することも考えられる。

参照番号１０３Ｚはさらなるカメラユニットを示す。さらなるユーザ１１４の頭部は、さらなるカメラユニット１０３Ｚによって取り込まれる。さらなるカメラユニット１０３Ｚは、ビデオ会議セッション中に利用可能なカメラユニットである。さらなるカメラユニット１０３Ｚは、例示的な場合では、好ましくは外部に配置されるが、他の任意の選択肢も可能である。

参照番号Ａは、第１ユーザ１０１と第２ユーザ１１１がビデオ会議システムを介して通信している場合を示す。この場合、第１ユーザ１０１のみがＨＭＤを装着し、第２ユーザ１１１は画面のようなＨＭＤとは異なる光学出力手段を利用する。この場合、第１カメラ１０３Ｘおよび第２のカメラ１０３Ｙによって取り込まれたデータは、ビデオ会議用の任意の転送媒体１０５を介して他の参加者に転送される。例示的な場合では、転送媒体１０５は、好ましくはサーバユニット、特にインターネットである。さらに、第１ユーザ１０１側の第１ユーザ端末１００Ａから第２ユーザ１１１側の第２ユーザ端末１００Ｂに経路１０４を介して音声データおよびビデオデータを送信すること、およびその逆も可能である。そのため、第１カメラユニット１０３Ｘで取り込まれたビデオデータは、画面１０９を介して第２ユーザ１１１に出力される。したがって、第２ユーザ１１１は、ＨＭＤ１１０を装着している第１ユーザを認識する。

参照番号Ｂは、第１ユーザ１０１とさらなるユーザ１１４がビデオ会議システムを介して通信している場合を示す。この場合、第１ユーザ１０１とさらなるユーザ１１４の両方が、それぞれＨＭＤを着用して使用している。この場合、第１カメラ１０３Ｘおよびさらなるカメラ１０３Ｚによって取り込まれたデータは、ビデオ会議用の任意の転送媒体１０５を介して他の参加者に転送される。例示的な場合では、転送媒体１０５は、好ましくはサーバユニット、特にインターネットである。第１ユーザ１０１側の第１ユーザ端末１００Ａからさらなるユーザ１１４側のさらなるユーザ端末１００Ｃに経路１０４を介して音声データおよびビデオデータを送ること、さらにその逆も可能である。したがって、第１カメラユニット１０３Ｘによって取り込まれたビデオデータは、ＨＭＤ１１２を介して第２ユーザ１１１に出力される。第１カメラユニット１０３Ａによって取り込まれたビデオデータは、ＨＭＤ１１２の右画面およびＨＭＤ１１２の左画面を介して出力されることが好ましい。したがって、第２ユーザ１１１は、ＨＭＤ１１０を装着している第１ユーザを認識するが、これは、それぞれＨＭＤ１１２の右画面１１２ＡおよびそれぞれＨＭＤの左画面１１２Ｂに何の変更もなく、第1ユーザ１０１のビデオが１１３Ａおよび１１３Ｂに転送されることを意味する。

したがって、図１は、本発明がオフの状態でもある従来技術の間に起ったことを簡単に説明したものであるが、ユーザがＨＭＤ（図ではＶＲグラス）にアイコンタクトも対面通信も有しないため、顔全体の画像の転送が不可能である。これは、ビデオ会議の参加者を非常に煩わせるものである。

図２は、本発明の方法およびシステムの第１の概略図を示す。参照番号２０１は、顔の動きの取り込みための、特にベクトル、ラスタ、画像および／またはビデオのいずれかの方法で取り込まれた、第１ユーザ１０１の記録された頭部データを示す。記録された頭部データ２０１は、ＨＭＤを表すデータを含まないことが好ましく、したがって頭部、特に顔、特に顔の形状、特に口の上および額の下、特に顔の目の領域を表すデータを含むことが好ましい。第１ユーザ１０１の記録された頭部データ２０１は、コンピューティングシステムまたはユニット、特にサーバおよび／または第１端末１００Ａもしくは第２端末１００Ｂ、または任意のさらなる端末１００Ｃに転送することができる。コンピューティングシステムまたはユニットは、第１カメラユニット１０３Ｘによって取り込まれたデータを記録されたデータ２０１で修正する。ここでの修正することとは、好ましくは、特にリアルタイムで、結合すること、置き換えること、重ね合わせることを意味する。したがって、ビデオまたは写真が第２ユーザ１１１に出力されるが、前記ビデオまたは写真は、第１カメラユニット１０３Ｘによって取り込まれたビデオまたは写真とは異なる。出力されたそれぞれの視聴画像は、特にカメラ１０３Ｘによって取り込まれたデータと記録された頭部のデータ２０１とを組み合わせることによって人工的に生成されることが好ましい。したがって、参照番号２０２はＨＭＤを使用していても第１ユーザ１０１の顔全体を転送する画像データを表す。

ケースＢでも、さらなるユーザ１１４が目、特に第１の人１０１の顔全体を見る。

したがって、参照番号２０３Ａは、第１ユーザ１０１が、ＨＭＤ、特にＶＲグラスの右表示にＨＭＤを使用していても、その第１ユーザ１０１の正面図を転送する画像データを表す。したがって、参照番号２０３Ｂは、第１ユーザ１０１が、ＨＭＤ、特にＶＲグラスの右表示にＨＭＤを使用していても、第１ユーザ１０１の顔全体を転送する画像データを表す。

したがって、本発明は、ビデオ会議セッション中にビデオデータを修正するための方法、または高度なビデオ会議セッションを提供するための方法を開示する。第１端末１００Ａが提供され使用され、第１端末１００Ａはラップトップ、デスクトップ、携帯電話、タブレットＰＣ、ＴＶなどであり得る。前記端末１００Ａは、好ましくは、少なくとも視覚的入力を取り込むための第１カメラユニット１０３Ｘを含み、さらに第１ヘッドマウントディスプレイ１０２をさらに含む。さらに、少なくとも視覚入力を出力するために、第２端末１００Ｂが設けられ、使用される。好ましくは、データ転送手段、特にサーバ手段１０６が設けられ、前記第１端末１００Ａおよび前記第２端末１００Ｂは、サーバ手段１０６を介してそれぞれデータ交換のためのデータ転送手段に接続される。第１の人１０１の頭部の第１の基本画像データまたは第１の基本ビデオデータ２０１は、好ましくは、第１カメラユニット１０３Ｘによって提供または取り込まれる。前記第１の人１０１が第１ヘッドマウントディスプレイ１０２を装着している間の前記第１の人１０１の頭部の第１の処理画像データまたは第１の処理ビデオデータは、第１カメラユニット１０３Ｘによって取り込まれる。第１ヘッドマウントディスプレイ１０２の外観を表す第１の処理画像データまたは第１の処理ビデオデータの第１処理データセクションが取り込まれ、ここでは、第１の基本データセクションによって第１処理画像データまたは第１処理ビデオデータを置き換えることによって、第１の組の修正された画像データまたは修正されたビデオデータが生成される。第１の基本データセクションは、好ましくは第１の基本画像データまたは第１の基本ビデオデータの一部であり、第１の人１０１の顔の一部、特にその人物１０１の目の一部を表す。特に前記第１の人１０１の完全な顔を表すデータは、それぞれ第２端末１００Ｂの出力装置、特に画面を介して示されるように出力することができる。

したがって、本発明は、１人以上のユーザがそれぞれ装着しているＨＭＤ（ヘッドマウントディスプレイ）を使用している間のビデオ会議（または他の任意の電話会議技術）に関する。ＨＭＤ（ヘッドマウントディスプレイ）は、独自の表示または携帯電話の付属品を備えた独立型の仮想現実グラス、拡張現実グラスのいずれであってもよく、これは、現実世界、複合現実デバイスおよび／またはヘッドアップディスプレイ（ＨＵＤ）の上に拡張画像（ビデオ）を重ね合わせるものである。

カメラ装置、カメラユニット１０３Ｘ〜１０３Ｚは、任意のカメラ、いくつかの例では外部カメラ、または携帯電話の内蔵カメラ、または任意のコンピュータとすることができる。カメラは、単レンズカメラまたはデュアルレンズ（マルチレンズ）であってもライトフィールドカメラにすることができる。

ビデオ会議は、インスタントメッセンジャー（ＩＭ）またはＶｏＩＰ環境で、インターネットを介して行うことができる。ビデオ会議の用語は、電話会議などのあらゆる種類のビデオ会議アクティビティを網羅することが好ましい。

図３は、記録された頭部データ２０１がどのように取り込まれ、処理されるかを示す。

ユーザ頭部データ３０１は、学習サイクルまたは記録されたビデオまたは類似の技術のいずれかで取り出される。第１ユーザ１０１の頭部についての頭部データは、好ましくは、前記頭部の正面透視図から取り込まれる。参照番号３０２は、特に、少なくとも１８０°、または少なくとも２７０°、または３６０°の範囲における、前記頭部および／または前記カメラユニット３１０の回転運動を示す。カメラユニット３１０は、好ましくは記録装置、特に単純なカメラ、または好ましくは走査レーザ支持を有する没入型カメラまたは光深度カメラなどのより複雑な装置である。カメラユニット３１０は、第１カメラユニット１０３Ｘまたは他のカメラユニットであることがさらに考えられる。第１のＨＭＤ１０２のサイズが検出され、ユーザ頭部データ３０１が適切に切り取られ（３０７）、それぞれＨＭＤを装着して使用しながら、第１の人１０１の取り込まれた画像またはビデオデータのＨＭＤを表すデータを置き換える。切り取られたデータは、グラフィック的なそれぞれ画像データまたはビデオデータ修正のためのユニットに転送される（３０８）。

切り取られたデータ３０５は、第１カメラユニット１０３Ｘによって取り込まれた画像またはビデオデータ、特に処理画像データまたは処理ビデオデータを修正するために提供される（３０９）。

したがって、図２および図３は、本発明が使用されている間の状態および本発明の利益を明示する。記録された顔データ（顔のポーズ）は、ＨＭＤのサイズで切り取られ、好ましくはリアルタイムビデオと組み合わされ（重ね合わせまたはスーパーインポーズ）、第２のビデオに転送される。さらに、ユーザはＨＭＤを使用していない第１ユーザの顔全体であるので、これは全体的なビデオ会議の体験を向上させる。図２および図３では、画像／ビデオ処理に関連する計算は、第１ユーザ側で行われるが、他の任意の選択肢、例えば、サーバ上またはそれぞれの受信者の端末１００Ａ、１００Ｂ上でも可能である。多くの、特に３人以上のユーザが同じビデオ会議セッションに参加していることも考えられ、そこでは複数のまたはすべてのユーザがＨＭＤを使用または着用している。したがって、ＨＭＤを使用することが好ましいすべてのユーザの画像またはビデオデータ（処理画像データまたは処理ビデオデータ）は、それぞれのユーザの顔面部分、特に目を表す画像またはビデオデータで修正されることが好ましい。

図４は、重ねあわせ、それぞれの置換処理の一例を示す。切り取られたデータ３０５は、ＨＭＤを表す処理画像データまたは処理ビデオデータの少なくとも一部を、顔、特に第１ユーザ１０１の顔、特に目の所定の部分を表すデータにそれぞれ重ね合わせるかまたは置き換える。言い換えれば、１つの選択肢として、切り取られた没入データ３０５は、処理画像データまたは処理ビデオデータを部分的または区画的に重ねあわせる（４０２）ために、処理画像データまたは処理ビデオデータに転送される（４０１）。

図５は、ＨＭＤの実施形態に関する４つの例を示す。参照番号１０２Ａは、ＶＲグラス（スクリーンとして携帯電話／スマートフォンを有する）を表し、参照番号５０１は、独立型ＶＲグラスまたはそれ自体の画面を有するＶＲガラスを表し、参照番号５０２は片目の適用範囲を有する一種のＡＲグラスまたは複合現実グラスを表し、参照番号５０３は、両目の適用範囲を有する一種のＡＲグラスまたは複合現実感グラスを表す。このように、図５は、スマートフォンを搭載した最大のＶＲグラスと、顔の対象エリアが異なるさまざまなＨＭＤを示す。

図６は、使用中のＨＭＤに関する情報、特に形状および／または色および／またはサイズをどのように収集することができるかの３つの例を示す。参照番号６０１は、モーションキャプチャおよびサイズ検出のためのマーカーなし検出または電子的検出を表す。したがって、ＨＭＤの特徴は画像解析によって収集することができる。参照番号６０２は、カメラユニット１０３Ｘに見える、ＨＭＤの部分上の特別な形状または点またはドットマーカーを示す。参照番号６０３はＱＲマーカーを示し、ここでＱＲコード（登録商標）はＨＭＤの特徴に関する情報、または前記ＨＭＤの特徴を表すデータをダウンロードするためのリンクを表す。したがって、図６は、システムがどのようにしてユーザの顔の位置、ＨＭＤ位置、そしておそらくＨＭＤサイズを検出するかを示す。より没入型のビデオ会議システムでは、ユーザの目を正しい表現の場所にユーザの目を正しく配置する必要があり、さまざまなセンサおよび視線追跡メカニズムを使用することができる。

ＮＦＣまたはＢｌｕｅｔｏｏｔｈ（登録商標）またはＲＦＩＤまたはＷｉＦｉまたは非無線またはケーブル接続技術、特にＵＳＢなどの無線技術を介したデータ転送などのさらなる可能性が、追加的または代替的に考えられる。

図７は特別なＨＭＤ１０２Ａを示す。このＨＭＤ１０２Ａは、好ましくはアイトラッカー、特に任意の種類の（最も可能なのはｎｅａｒｅｙｅＰＣＣＲトラッカー）７０１、および／または顔の動きを検出するための検出器（容量性または光学的）７０２を含む。ユーザ頭部データ３０１、特に、切り取られたユーザの頭部データは、好ましくはアイトラッカー７０１および／または顔の動き検出器７０２によって測定された測定値に応じて修正される。したがって、第１ユーザ１０１の顔の表示外観はさらに現実的に見える。

図８は顔の動き追跡の例を示す。ドットマーカー８０１の光学的検出は、それぞれの顔の動きの分析の判定を可能にする。しかしながら、マーカーレス法のような異なる検出方法が代替的または追加的に可能である。

図９は、システム起動を表すフローチャートを示す。

参照番号９０１によれば、本発明のシステムはそれぞれビデオ会議セッションを開始する。したがって、システムが実際に開始されているかどうかを９０２でチェックされ、システムが実際に開始されていない９０２Ｎの場合では何も起こらない(９０４)。システムが実際に開始される場合９０２Ｙでは、少なくとも１つのＨＭＤが検出されたかどうかがチェックされる（９０４）。ＨＭＤ装置が検出されない９０４Ｎ場合は、何も起こらない。ＨＭＤ装置が検出されると（９０４Ｙ）、記録されたデータ（基本画像データまたは基本ビデオデータ）がそれぞれロードまたは生成されるように要求される。その後、システムの起動は終了する（９０８）。

図１０は、第１ユーザ側、特に第１端末によって画像処理がどのように行われるかを例示的に示すフローチャートを示す。リアルタイムビデオ１００１が取り込まれる。前記取り込まれたリアルタイムビデオ１００１のそれぞれ前記処理画像データまたは処理ビデオデータは、画像／ビデオ処理１００２によって修正される（最も好ましくは、第１ユーザ側で行われるが、クラウド、ビデオ会議サーバまたは遠隔で計算を行うなどの他のオプションがユーザは可能である）。処理画像データまたは処理ビデオデータをそれぞれ修正する画像／ビデオ処理１００２は、記録されたデータ１００４を用いて行われる。好ましくは第１ユーザの少なくとも片目を表すデータは、処理画像データまたは処理ビデオデータと組み合わされる。出力１００３として、合成された重ね合わせ画像／ビデオが結果として得られる。

したがって、図１０に示す重ね合わせ計算を、任意の計算場所およびシステムおよび装置に転送することができるが、ほとんどの場合、この計算はユーザ側で行われ、装置／端末はコンピュータ（デスクトップ、ＰＣ、ラップトップ）、スマートフォンまたはタブレットである可能性がある。

図１１は、ＨＭＤを有するまたは有しない複数のユーザが本発明のビデオ会議セッションに参加することができ、これらのユーザのうちの少なくとも１人がそれぞれＨＭＤを着用することを示す。参照番号１１０１は第１ユーザ（図１、図２、図３の第１ユーザ１０１に対応）を示し、参照番号１１０２は第２ユーザを示し、参照番号１１０３は第２ユーザを示し、参照番号１１０４は第２ユーザを示し、参照番号１１０５はｎ番目のユーザを示す。したがって、ビデオ会議通信は、少なくとも２人の参加者の間で行われることが好ましく、ビデオ会議１０５のための少なくとも１つの転送媒体、特にインターネット１０６、統合サービスデジタルネットワークまたは直接通信リンクによって進められることが特に好ましい。

図１２は、例示的な場合における仮想環境１２００および仮想会議室をそれぞれ示す。仮想環境１２００は、特にロールプレイングゲームなどのための仮想空間であることも考えられる。例示的な場合では、第１ユーザ１２０１はＨＭＤ、ＶＲグラスを有する。例示的な場合では、第２ユーザ１２０２もＨＭＤ、ＶＲグラスを有する。Ｎ番目のユーザ１２０３もまた、ＨＭＤ、特に例示的な場合にはＶＲグラスを有する。仮想環境１２００からわかるように、本発明により、前記仮想環境で会議を行うすべての人がＨＭＤ１２０１Ａ、１２０２Ａおよび１２０３Ａなしで示されている。

したがって、本発明は、システムおよび方法に関し、その方法は、ビデオ会議セッション中にビデオデータを修正するために機能することが好ましく、少なくとも次のステップを含む。少なくとも視覚入力を取り込むための第１カメラユニット１０３Ｘと第１ヘッドマウントディスプレイ１０２とを備える第１端末１００Ａを提供する。少なくとも視覚入力を出力するために第２端末１００Ｂを提供する。サーバ手段１０５を提供し、前記第１端末１００Ａと前記第２端末１００Ｂとはデータ交換のためにサーバ手段１０５を介して接続される。第１カメラユニット１０３Ｘを用いて第１の人１０１の頭部の第１の基本画像データまたは第１の基本ビデオデータを提供または取り込み、前記第１の人１０１が前記ヘッドマウントディスプレイ１０２を装着している間に、前記第１の人１０１の頭部の第１の処理画像データまたは第１の処理ビデオデータを第１カメラユニットで取り込み、第１ヘッドマウントディスプレイ１０２の外観を表す第１の処理画像データまたは第１の処理ビデオデータの第１処理データセクションを判定し、第１の処理画像データまたは第１の処理ビデオデータの第１処理データセクションを第１の基本データセクションで置き換えることによって、第１の組の修正画像データまたは修正ビデオデータを生成するが、第１の基本データセクションは、第１の基本画像データまたは第１の基本ビデオデータの一部であり、上記人の顔の一部、特に上記第１の人１０１の目の一部を表す。

第２端末１００Ｂを介して、特に前記第１の人１０１の完全な顔を表す第１の修正画像データまたは第１の修正ビデオデータを出力する。

したがって、本発明の方法は、まず、ＶＲ／ＡＲグラスなしでユーザの顔の写真を記録または撮影する。このプロセスでは、光深度写真技術やその他の３Ｄまたは没入型ビデオ／写真技術などの任意の技術を使用することができる。目の近くのユーザの顔領域がモデル化された後、それはそれぞれの端末に記憶されることが好ましい。ユーザがビデオ会議またはビデオ通話でＶＲ／ＡＲグラスを使い始めると、コンピュータはＶＲ／ＡＲグラスの端（または識別子などの他の方法）を容易に検出し、通常のビデオにＶＲ／ＡＲグラスとビデオを組み合わせた結果、他のユーザはＶＲ／ＡＲグラスなしの通常の顔を見る。追加の機能はＶＲ／ＡＲグラスの内側の視線追跡も目を正しく配置することができる。

１００Ａ第１ユーザ端末
１００Ｂ第２ユーザ端末
１００Ｃさらなるユーザ端末
１０１第１の人／第１ユーザ
１０１Ｂユーザ頭部（第１ユーザ）の側面（横顔）
１０２第１ＨＭＤ
１０２ＡＨＭＤ装置（例示的場合のＶＲグラス）の前面
１０２ＢＨＭＤ装置（例示的場合のＶＲグラス）の側面
１０３Ｘ第１ユーザでのビデオ会議用の第１カメラユニット（例示的な場合では外部に配置されているが、他の任意の選択肢が可能である）
１０３Ｙ第２ユーザでのビデオ会議用のカメラ（例示的な場合では外部に配置されているが、他の任意の選択肢が可能である）
１０３Ｚ第３ユーザでのビデオ会議用のカメラ（例示的な場合では外部に配置されているが、他の任意の選択肢が可能である）
１０４両方のユーザがビデオオーディオ情報を送信する
１０５ビデオ会議用の任意の転送媒体
１０６例示的な場合では、転送媒体はインターネットである
Ａ画面表示を使用するビデオ会議の第２ユーザ
１０９画面
１１０ＨＭＤを装着する第１ユーザの転送されたビデオ
１１１第２ユーザ
１１２さらなるユーザのＨＭＤ
１１２ＡＶＲグラスの右画面
１１２ＢＶＲグラスの左画面
１１３Ａグラスの右画面を変更することなく第１ユーザの転送されたビデオ
１１３Ｂグラスの左画面を変更することなく第１ユーザの転送されたビデオ
１１４さらなるユーザ
１１５さらなるヘッドマウントディスプレイ
２０１顔のモーションキャプチャのための第１ユーザの記録された頭部データ（ベクトル、ラスター、画像および／またはビデオのいずれか任意の方法で）
３０９リアルタイムビデオを記録データと組み合わせる（重ね合わせ−スーパーインポーズ）ためにコンピュータシステム（図示せず）に転送される
２０２ＨＭＤを使用している場合でも、第１ユーザの顔全面を転送される
２０３ＡＶＲグラスの右表示用ＨＭＤを使用している場合でも第１ユーザの顔全面を転送される
２０３ＢＶＲグラスの左表示用ＨＭＤを使用している場合でも第１ユーザの顔全面を転送される
３０１ユーザの頭部データは、学習サイクルで撮影されるか、またはビデオなどで記録されるかのいずれかである
３０２３６０°または同様の広角データを回転し、取得する
３０３ＨＭＤのサイズを検出し、適切に切り取られる
３０４適切な切り取り
３０５切り取られたデータ
３０７適切なＨＭＤサイズを取得することによって切り取りから転送されたデータ
３０８切り取られたデータ転送
３１０記録装置（単純なカメラ、もしくは走査型レーザを支持する没入型または光深度カメラなどのより複雑な装置）
４０１切り取られた没入型データが転送される
４０２重ね合わせが行われる
５０１独立型ＶＲグラスまたは専用画面付きＶＲグラス
５０２片目を覆うＡＲグラスまたは複合現実グラスの種類
５０３両目を覆うＡＲグラスまたは複合現実グラスの種類
６０１モーションキャプチャとサイズ検出のためのマーカーレス検出または電子的検出６６０２ドットマーカー
６０３ＱＲマーカー
７０１あらゆる種類のアイトラッカー（最も可能なのはｎｅａｒｅｙｅＰＣＣＲトラッカー）
７０２顔の動き検出器（静電容量式または光学式のいずれか）
８０１ドットマーカー
９０１開始
９０２発明（開示されたシステム）が有効になっているか
９０２Ｎ／Ｙいいえ／はい
９０３何もしない
９０４ＨＭＤが検出されたか？
９０５何もしない
９０６リアルタイムビデオと記録されたデータとの重ね合わせ
９０７記録されたデータ
９０８終了
１００１リアルタイムビデオ
１００２画像／ビデオ処理（最も好ましくは、第１ユーザ側で行われるが、クラウド、ビデオ会議サーバまたは遠隔ユーザでの計算のような他の任意の選択肢が可能である）
１００３合成された重ね合わせ画像の出力
１００４記録されたデータ
１２００仮想環境、例示的な場合には仮想会議室、また仮想空間および／またはロールプレイングゲームなども可能である
１２０１例示的な場合では、ＨＭＤ、ＶＲグラスを有する第１ユーザ
１２０１Ａ仮想環境で見られた第１ユーザ
１２０２例示的な場合では、ＨＭＤ、ＶＲグラスを有する第２ユーザ
１２０２Ａ仮想環境で見られた第２ユーザ
１２０３例示的な場合では、ＨＭＤ、ＶＲグラスを有する第Ｎユーザ
１２０３Ａ仮想環境で見られた第Ｎユーザ

Claims

ビデオ会議セッション中にビデオデータを修正する方法であって、
少なくとも、
少なくとも視覚入力を取り込むための第１カメラユニット（１０３Ｘ）および第１ヘッドマウントディスプレイ（１０２）を含む第１端末（１００Ａ）を提供するステップと、
少なくとも視覚入力を出力するための第２端末（１００Ｂ）を提供するステップと、
サーバ手段（１０５）を提供するステップと、
前記第１カメラユニット（１０３Ｘ）を用いて、第１の人（１０１）の頭部の第１基本画像データまたは第１基本ビデオデータを提供し、または取り込むステップと、
前記第１の人（１０１）が前記ヘッドマウントディスプレイ（１０２）を装着している間に、前記第１カメラユニットを用いて、前記第１の人（１０１）の前記頭部の第１処理画像データまたは第１処理ビデオデータを取り込むステップと、
前記第１ヘッドマウントディスプレイ（１０２）の外観を表す前記第１の処理画像データまたは第１の処理ビデオデータの第１処理データセクションを判定するステップと、
前記第１処理画像データまたは第１処理ビデオデータの前記第１処理データセクションを第１基本データセクションで置き換えることによって、第１の組の修正画像データまたは修正ビデオデータを生成するステップと、を含み、
前記第１端末（１００Ａ）および前記第２端末（１００Ｂ）は、データ交換のために前記サーバ手段（１０５）を介して接続され、
前記第１基本データセクションは、前記第１基本画像データまたは第１の基本ビデオデータの一部であり、前記人の前記顔の一部、特に、前記第１の人（１０１）の目を表している方法。
前記第２端末（１００Ｂ）は、第２カメラユニット（１０３Ｙ）および第２ヘッドマウントディスプレイを含むことを特徴とし、
前記第２カメラユニット（１０３Ｙ）を用いて、第２の人（１１１）の頭部の第２基本画像データまたは第２基本ビデオデータを提供し、または取り込むステップと、
前記第２の人（１１１）が前記第２ヘッドマウントディスプレイを装着している間に、前記第２カメラユニット（１０３Ｙ）を用いて、前記第２の人（１１１）の前記頭部の第２処理画像データまたは第２処理ビデオデータを取り込むステップと、
前記第２ヘッドマウントディスプレイの外観を表す前記第２処理画像データまたは第２処理ビデオデータの第２処理データセクションを判定するステップと、
前記第２処理画像データまたは第２処理ビデオデータの前記第２処理データセクションを第２基本データセクションで置き換えることによって、第２の組の修正画像データまたは修正ビデオデータを形成するステップと、
前記第１端末（１００Ａ）を介して前記第２修正画像データまたは第２修正ビデオデータを出力するステップと、によって特徴づけられ、
前記第２の基本データセクションは、前記第２基本画像データまたは第２の基本ビデオデータの一部であり、前記第２の人（１１１）の前記顔の一部、特に、前記第２の人（１１１）の目を表している請求項１に記載の方法。
前記第１修正画像データまたは第１修正ビデオデータおよび／または前記第２修正画像データまたは第２修正ビデオデータは、前記サーバ手段（１０５）に接続された少なくとも１つのさらなる端末（１００Ｃ）を介して出力されることを特徴とする請求項１または請求項２に記載の方法。
さらなる端末（１００Ｃ）は、さらなるカメラユニット（１０３Ｚ）およびさらなるヘッドマウントディスプレイを含むことを特徴とし、
前記さらなるカメラユニット（１０３Ｚ）を用いて、さらなる人（１１４）の頭部のさらなる基本画像データまたはさらなる基本ビデオデータを提供し、または取り込むステップと、
前記さらなる人（１１４）が前記さらなるヘッドマウントディスプレイを装着している間に、前記さらなるカメラユニット（１０３Ｚ）を用いて、前記さらなる人（１１４）の前記頭部の第２処理画像データまたは第２処理ビデオデータを取り込むステップと、
前記さらなるヘッドマウントディスプレイ（１１２）の外観を表す前記さらなる処理画像データまたはさらなる処理ビデオデータのさらなる処理データセクションを判定するステップと、
前記さらなる処理画像データまたはさらなる処理ビデオデータの前記さらなる処理データセクションをさらなる基本データセクションで置き換えることによって、さらなる組の修正画像データまたは修正ビデオデータを形成するステップと、
前記第１端末（１００Ａ）および／または前記第２端末（１００Ｂ）を介して、特に、同時に、前記さらなる修正画像データまたはさらなる修正ビデオデータを出力するステップと、によって特徴づけられ、
前記第さらなる基本データセクションは、前記さらなる基本画像データまたはさらなる基本ビデオデータの一部であり、前記さらなる人（１１４）の前記顔の一部、特に、前記さらなる人（１１４）の目を表している請求項１乃至請求項３のいずれか一に記載の方法。
第１、第２および／またはさらなる基本ビデオデータもしくは第１、第２および／またはさらなる基本画像データは、それぞれの端末（１００Ａ、１００Ｂ、１００Ｃ）のメモリおよび／または前記サーバ手段（１０５）に記憶され、
第１、第２および／またはさらなる基本ビデオデータもしくは第１、第２および／またはさらなる基本画像データが一度取り込まれ、第１、第２および／またはさらなる修正ビデオデータもしくは第１、第２および／またはさらなる修正画像データが必要とされる場合に処理されることを特徴とし、または、
前記第１、第２および／または第３の人（１０１、１１１、１１４）がビデオ会議に参加するたびに、第１、第２および／またはさらなる基本ビデオデータもしくは第１、第２および／またはさらなる基本画像データが取り込まれ、第１、第２および／またはさらなる修正ビデオデータもしくは第１、第２および／またはさらなる修正画像データが必要とされる場合に、前記第１、第２および／またはさらなる基本ビデオデータもしくは第１、第２および／またはさらなる基本画像データが更新され、または置換され、および処理されることを特徴とする請求項１乃至請求項４のいずれか一に記載の方法。
少なくとも１つの端末（１００Ａ）と好ましくは大多数の端末（１００ａ、１００Ｂ）またはすべての端末（１００Ａ、１００Ｂ、１００Ｃ）は、音声データを取り込み、および／または出力するための手段を含み、１つの端末によって取り込まれた前記取り込まれた音声データは、１つまたは複数のさらなる端末に少なくとも転送されることを特徴とする請求項１乃至請求項５のいずれか一に記載の方法。
第１の人（１０１）の顔に対する前記第１ヘッドマウント（１０２）ディスプレイの前記位置は、物体認識を用いて判定され、
前記第１ヘッドマウントディスプレイ（１０２）の前記形状は、物体認識によって判定され、および／または識別データは視覚的または電子的に提供されることを特徴とする請求項１乃至請求項６のいずれか一に記載の方法。
前記第１の人（１０１）の前記顔の皮膚部分の動きを表す顔の動きデータが生成され、前記皮膚部分の前記動きが前記第１カメラユニット（１０３Ｘ）によって取り込まれることを特徴とする請求項１乃至請求項７のいずれか一に記載の方法。
前記第１の人（１０１）の少なくとも１つの眼の動きを表す眼球運動データが生成され、前記目の動きは、視線追跡手段（７０２）によって取り込まれることを特徴とする請求項１乃至請求項８のいずれか一に記載の方法。
第１基本データセクションは、
前記第１の人（１０１）の前記顔の前記取り込まれた顔の動きデータ、および／または、
前記第１の人（１０１）の少なくとも１つの目の前記取り込まれた眼球運動データ、に応じて修正されることを特徴とする請求項８または請求項９に記載の方法。
前記第１の人（１０１）の前記目の形状を表す眼球データは、前記第１基本データセクションの一部として識別され、
前記眼球データは、前記取り込まれた眼球運動データに応じて修正されることを特徴とし、および／または、
前記第１の人（１０１）の前記顔の前記皮膚部分を表す皮膚データは、前記第１基本データセクション内の目の上および／下に修正され、
前記皮膚データは、前記取り込まれた顔の動きデータに応じることを特徴とする請求項１０に記載の方法。
視線追跡手段（７０２）は、好ましくはｎｅａｒｅｙｅＰＣＣＲトラッカーであり、
前記視線追跡手段（７０２）は前記第１ヘッドマウントディスプレイ（１０２）の上または内部に配置されることを特徴とする請求項１０または請求項１１に記載の方法。
前記第１の人（１０１）の前記頭部の前記姿勢に関する情報を受信し、
前記物体の前記姿勢に従って、前記頭部の仮想モデルおよび前記頭部の顔の視線を方向づけ、
ビデオ会議通信の一部からの可視ピクセルを仮想モデルに投影し、
空間の所望の点で顔の視線を作り出す前記頭部の合成された目を生成し、
前記作り出された顔の凝視に従って、前記仮想モデルを方向づけ、
前記仮想モデルを前記ビデオ会議通信の対応する部分に投影し、
修正画像データまたは修正ビデオデータの少なくとも一部は、前記仮想モデルによって置き換えられることを特徴とする請求項１乃至請求項１２のいずれか一に記載の方法。
請求項１乃至請求項１３のいずれか一に記載の方法を実行するためのコンピュータプログラム製品。
少なくとも、
少なくとも視覚入力を取り込むための第１カメラユニット（１０３Ｘ）および第１ヘッドマウントディスプレイ（１０２）を含む第１端末（１００Ａ）と、
少なくとも視覚入力を出力するための第２端末（１００Ｂ）と、
サーバ手段（１０５）と、を含み、
前記第１端末（１００Ａ）および前記第２端末（１００Ｂ）は、データ交換のために前記サーバ手段（１０５）を介して接続され、
前記第１カメラユニット（１０３Ｘ）を用いて、第１の人（１０１）の頭部の第１基本画像データまたは第１基本ビデオデータが提供され、または取り込まれ、
前記第１の人（１０１）が前記ヘッドマウントディスプレイ（１０２）を装着している間に、前記第１カメラユニット（１０３Ｘ）を用いて、前記第１の人（１０１）の前記頭部の第１処理画像データまたは第１処理ビデオデータが取り込まれ、
前記第１ヘッドマウントディスプレイの外観を表す前記第１処理画像データまたは第１処理ビデオデータの第１処理データセクションが判定され、
前記第１処理画像データまたは第１処理ビデオデータの前記第１処理データセクションを第１基本データセクションで置き換えることによって、第１の組の修正画像データまたは修正ビデオデータが形成され、
前記第１基本データセクションは、前記第１基本画像データまたは第１基本ビデオデータの一部であり、前記人（１０１）の前記顔の一部、特に、前記人（１０１）の目を表しており、
特に前記人（１０１）の顔全体を表す前記第１修正画像データまたは第１修正ビデオデータは、前記第２端末（１００Ｂ）を介して出力されるビデオ会議セッションのためのシステム。