JP2011505771A

JP2011505771A - ３次元ビデオ通信の端末、システム、および方法

Info

Publication number: JP2011505771A
Application number: JP2010536313A
Authority: JP
Inventors: リュウ、ユアン; ワン、ジン
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2007-12-03
Filing date: 2008-12-03
Publication date: 2011-02-24
Also published as: KR20100085188A; WO2009076853A1; US20100238264A1; CN101453662A; EP2234406A1; CN101453662B; EP2234406A4

Abstract

３次元ビデオ通信の端末、システム及び方法が開示される。３次元ビデオ通信端末は、送信装置および受信装置を含む。送信装置は、カメラおよび映像処理ユニット、符号化ユニットおよび送信ユニットを含む。受信装置は、受信ユニット、復号ユニット、再構成ユニットおよびレンダリングユニットを含む。３次元ビデオ通信システムは、３次元ビデオ通信端末、２次元ビデオ通信端末およびパケット網を含む。３次元ビデオ通信方法は、双方向の３次元ビデオ通信の形で処理され、該方法は、ビデオデータを撮影して取得し、撮影対象の深度および／または視差の情報をビデオデータから取得し、ビデオデータならびに深度および／または視差の情報を符号化し、リアルタイム伝送プロトコルに従って符号化されたデータをデータパケットにパケット化し、パケット網を介してデータパケットを伝送する、ことを含む。リアルタイム遠隔ビデオストリームの双方向通信が実現される。

Description

本発明は、３次元（３Ｄ）の分野に関し、詳細には、３Ｄビデオ通信の端末、システム、および方法に関する。

３Ｄビデオ技術は、ビデオ技術における開発の趨勢であるが、対象世界の場面を正確に再現し、かつ場面の深度、階層構造、および現実感を正確に表す、３Ｄ視覚原理に適合する深度情報を有する映像を提供するのに役立つ。

現在、ビデオの研究は、両眼３Ｄビデオ、および多視点符号化（multi-view coding、ＭＶＣ）という２つの領域に集中している。図１に示されるように、両眼３Ｄビデオの基本原理は、人間の目の収差の原理をシミュレートする。２台のカメラシステムを使い、左目および右目の映像が得られる。左目は左目チャネルの映像を見て、一方、右目は右目チャネルの映像を見る。最終的に、３Ｄ映像が合成される。ＭＶＣは、少なくとも３台のカメラにより撮影され、多数のビデオチャネルを有する。異なるカメラが異なる角度でＭＶＣを撮影する。図２はこのビデオ技術を使用した単一視点カメラシステム、平行多視点カメラシステム、および収束多視点カメラシステムの構造を示す。ＭＶＣが再生されるとき、異なる角度の場面および映像がＴＶスクリーンなどのユーザ端末に送られ、その結果、ユーザが様々な角度で異なる場面を含む映像を見ることができる。

従来技術でのＭＶＣ技術の場合、ユーザが動的場面を見て、静止、スロー再生、および巻き戻しなどの対話を行い、視野角を変えることができる。この技術を使用するシステムは、多数のカメラを採用して、記憶されたビデオストリームを取り込み、多視点３Ｄ再構成ユニットおよびインターリーブ技術を使用して、階層的なビデオフレームを作成し、それにより、動的場面の効果的な圧縮および対話型再生を行う。このシステムは、計算装置を有するレンダリングおよび受信装置を含む。レンダリングプログラムは、受信装置により受信された、各フレームからなる対話型の視点映像を、顧客により選択された視野角で描画し受信するために使用される。

従来技術での別の対話型ＭＶＣ技術が、新しいビデオ取込システムで使用されている。このシステムは、関連するビデオを取り込むためのビデオカメラ、制御パーソナルコンピュータ（ＰＣ）、サーバ、ネットワーク構成要素、顧客、およびビデオ構成要素を含む。多数のカメラがマスタ・スレーブ方式で動作する。これらのカメラは、１つまたは複数の制御ＰＣにより制御され、多数の視点から異なる方向でデータを収集する。取り込まれたビデオデータは、ＰＣにより圧縮され、１つまたは複数の記憶用サーバに送られる。サーバは、圧縮されたデータをエンドユーザに分配するか、またはデータをさらに圧縮して、時間領域および空間領域の関連性を取り除く。

本発明を生み出すにあたり、本発明者は、既存のＭＶＣ技術に少なくとも以下の問題を見いだした。

ＭＶＣ技術の場合、単機能が現在の顧客の実際の要件を満たすことなく実装されている。たとえば、従来技術のＭＶＣ技術は、記憶された動的場面の対話型再生に集中している。既存技術のマルチビデオ技術は、取り込まれたマルチビデオデータをサーバ上に記憶し、その後そのデータを端末に分配することに集中している。どの関連するシステム、方法、または装置も、ＭＶＣの遠隔リアルタイム伝送、およびリアルタイムでの双方向対話型３Ｄビデオの再生をサポートしない。

本発明の様々な実施形態が、３Ｄビデオ通信端末、方法、および送信装置を提供することを対象とし、これらは、ビデオデータの遠隔リアルタイム双方向通信、およびＭＶＣのＭＶＣ遠隔リアルタイム放送を行うように提供される。

本発明の一実施形態が、３Ｄビデオ通信端末を提供する。端末は送信装置および受信装置を含む。

送信装置は、ビデオデータならびにビデオデータの深度および／または視差の情報を撮影し出力するように構成されるカメラおよび映像処理ユニットと、カメラおよび映像処理ユニットにより出力されるビデオデータならびに深度および／または視差の情報を符号化するように構成される符号化ユニットと、符号化ユニットにより出力された符号化されたデータをリアルタイム伝送プロトコルに適合するパケットにカプセル化し、パケット網を介してパケットをリアルタイムで送信するように構成された送信ユニットと、を含む。

受信装置は、パケットを送信ユニットから受信し、パケットのプロトコルヘッダを取り除いて、符号化されたデータを取得するように構成された受信ユニットと、受信ユニットにより出力された符号化されたデータを復号して、ビデオデータならびに深度および／または視差の情報を取得するように構成された復号ユニットと、復号ユニットにより出力された深度および／または視差の情報ならびに復号ユニットにより出力されたビデオデータに従ってユーザの角度で映像を再構成し、映像データをレンダリングユニットに送信するように構成された再構成ユニットと、再構成ユニットにより出力された再構成された映像のデータを３Ｄ表示装置に描画するように構成されたレンダリングユニットと、を含む。

本発明の一実施形態が、３Ｄビデオ通信システムを提供する。このシステムは、２次元（２Ｄ）ビデオ通信または３Ｄビデオ通信を実現するように構成された３Ｄビデオ通信端末と、２Ｄビデオ通信を実現するように構成された２Ｄビデオ通信端末と、３Ｄビデオ通信端末間または２Ｄビデオ通信端末間で伝送された２Ｄまたは３Ｄのビデオデータを運ぶように構成されたパケット網と、を含む。

本発明の一実施形態が、３Ｄビデオ通信端末を提供する。この端末は、撮影を行い、ビデオデータならびに深度および／または視差の情報を出力するように構成されたカメラおよび映像処理ユニットと、カメラおよび映像処理ユニットにより出力されたビデオデータならびに深度および／または視差の情報を符号化するように構成された符号化ユニットと、符号化ユニットにより出力された符号化されたデータをリアルタイム伝送プロトコルに適合するパケットにカプセル化し、パケット網を介してパケットをリアルタイムで送信するように構成された送信ユニットと、を含む。

本発明の一実施形態が、別の３Ｄビデオ通信端末を提供する。この端末は、送信ユニットからパケットを受信し、パケットのプロトコルヘッダを取り除いて、符号化されたデータを取得するように構成された受信ユニットと、受信ユニットにより出力された符号化されたデータを復号して、ビデオデータならびに深度および／または視差の情報を取得するように構成された復号ユニットと、復号ユニットにより出力された深度および／または視差の情報ならびに復号ユニットにより出力されたビデオデータに従ってユーザの角度で映像を再構成し、その映像データをレンダリングユニットに送信するように構成された再構成ユニットと、再構成ユニットにより出力された再構成された映像のデータを３Ｄ表示装置に描画するように構成されたレンダリングユニットと、を含む。

本発明の一実施形態が、３Ｄビデオ通信方法を提供する。この方法は、撮影してビデオデータを取得するなどの双方向３Ｄビデオ通信を行い、撮影対象の深度および／または視差の情報をビデオデータから取得し、ビデオデータならびに深度および／または視差の情報を符号化し、リアルタイム伝送プロトコルを使用することにより符号化されたデータをパケットにカプセル化し、パケット網を介してパケットを伝送する、ことを含む。

本発明の一実施形態が、別の３Ｄビデオ通信方法を提供する。この方法は、パケット網を介してリアルタイムで伝送されたビデオパケットを受信し、パケットのプロトコルヘッダを取り除いて、符号化された３Ｄビデオデータを取得し、符号化されたビデオデータを復号して、ビデオデータならびに深度および／または視差の情報を取得し、深度および／または視差の情報ならびにビデオデータに従ってユーザの角度で映像を再構成し、再構成された映像のデータを３Ｄ表示装置に描画する、ことを含む。

上記の技術的解決策は、３Ｄビデオ通信端末が、受信装置を使用して、３Ｄビデオストリームをリアルタイムで受信してストリームを描画する、またはパケット網を介して相手端末にリアルタイムで３Ｄビデオデータを伝送することができることを示す。したがって、ユーザが、遠隔でリアルタイム３Ｄ映像を見て、遠隔３Ｄビデオ通信を実現し、ユーザ体験を改善することができる。

従来技術を使用する両眼３Ｄビデオ撮影の原理図である。従来技術を使用する、単一視点カメラシステム、平行多視点カメラシステム、および収束多視点カメラシステムの構成を示す図である。本発明の一実施形態による３Ｄビデオ通信端末の原理図である。本発明の一実施形態による３Ｄビデオ通信システムの原理図である。図４に示されたパケット網の送信側、受信側、および両側の装置の原理図である。図４に示されたパケット網の送信側、受信側、および両側の装置の原理図である。本発明の一実施形態による３Ｄビデオ通信システムの原理図である。送信装置および受信装置上のビデオデータの符号化および復号が混在した流れ図である。視差、深度、およびユーザの視距離の関係を示す図である。本発明の一実施形態による、送信側の３Ｄビデオ通信方法の流れ図である。本発明の一実施形態による、受信側の３Ｄビデオ通信方法の流れ図である。

以下の部分は、図を参照することにより実施形態を取り上げて、本発明の目的、技術的解決策、および利点を詳細に説明する。

図３は、本発明の一実施形態を示す。多数の視点をサポートする双方向リアルタイム３Ｄビデオ通信端末が、本実施形態で提供される。この端末を使用するとき、両方の通信当事者が、安定したリアルタイム３Ｄビデオ映像を多数の角度で見ることができる。

３Ｄビデオ通信端末が第１の実施形態で提供される。この端末は送信装置、パケット網、および受信装置を含む。

送信装置は、撮影を行い、ビデオデータならびに深度および／または視差の情報を出力するように構成されるカメラおよび映像処理ユニット３１２と、カメラおよび映像処理ユニット３１２により出力されたビデオデータならびに深度および／または視差の情報を符号化するように構成された符号化ユニット３１３と、符号化ユニット３１３により出力された符号化されたデータをリアルタイム伝送プロトコルに適合するパケットにカプセル化し、パケット網を介してパケットをリアルタイムで送信するように構成された送信ユニット３１４と、を含む。

受信装置は、送信ユニット３１４からパケットを受信し、パケットのプロトコルヘッダを取り除いて、符号化されたデータを取得するように構成された受信ユニット３２１と、受信ユニット３２１により出力された符号化されたデータを復号して、ビデオデータならびに深度および／または視差の情報を取得するように構成された復号ユニット３２２と、復号ユニット３２２により出力された深度および／または視差の情報ならびに復号ユニット３２２により出力されたビデオデータに基づいてユーザの角度で映像を再構成し、映像データをレンダリングユニット３２４に送信するように構成された再構成ユニット３２３と、復号ユニット３２２により出力される復号されたデータまたは再構成ユニット３２３により出力された再構成された映像を３Ｄ表示装置上に描画するように構成されたレンダリングユニット３２４と、を含む。

双方向通信機能を実装するためには、送信装置の片側が受信装置をさらに含むことができ、受信装置の片側が送信装置をさらに含むことができる。

カメラおよび映像処理ユニット３１２は、多視点カメラおよび映像処理ユニットとすることができる。送信装置および受信装置は、全体として扱われる、または個々に使用される。本実施形態では、３Ｄビデオデータの遠隔リアルタイム双方向通信が現場放送（on-site broadcasting）または娯楽の場面（entertainment scene）で行われる。

前述では、送信ユニット３１４が、カメラおよび映像処理ユニット３１２により撮影されたビデオデータを送信し、ビデオデータがパケット網を介してリアルタイムで伝送された後に、受信側の受信ユニットがビデオデータをリアルタイムで受信し、次に、必要に応じてビデオデータを再構成するまたは描画することができることを示す。この方法では、ユーザが３Ｄ映像を遠隔でリアルタイムに見て、遠隔３Ｄビデオ通信を実現し、ユーザ体験を改善することができる。

図４は、Ｈ．３２３プロトコルに基づく、ネットワーキングのための３Ｄビデオ通信システムの一実施形態を示す。本発明のこの実施形態では、３Ｄビデオ通信システムが、第１の実施形態における、送信側、パケット網、および受信側を含む。

ビデオデータは、パケット網を介してリアルタイムで伝送することができる。

図５に示すように、送信側は送信装置および受信装置を含む。

送信装置は、
撮影を行い、ビデオデータを出力するように構成され、単一視点モード、多視点モード、または単一視点モードと多視点モードとの両方をサポートするユニットとすることができるカメラおよび映像処理ユニット５１０と、
指令に従ってカメラおよび映像処理ユニット５１０の動作を制御する、たとえば、ビデオ操作ユニット５３１により送られる指令に従ってカメラおよび映像処理ユニットの動作を制御するように構成された収集制御ユニット５１１と、
同期信号を生成し、その信号をカメラおよび映像処理ユニット５１０に送信して、同期収集を制御するか、または、その信号を収集制御ユニット５１１に送信して、ユニット５１１にカメラおよび映像処理ユニット５１０による同期収集を制御することを通知するように構成された同期ユニット５１２と、
カメラおよび映像処理ユニット５１０内のカメラの内部パラメータおよび外部パラメータを取得して、補正指令を収集制御ユニット５１１に送信するように構成された較正ユニット５１３と、
収集制御ユニット５１１により出力されたビデオデータ、および関連するカメラパラメータを受信し、前処理アルゴリズムに従ってビデオデータを前処理するように構成された前処理ユニット５１４と、
撮影対象の３Ｄ情報を前処理ユニット５１４により出力されたビデオデータから取得して、３Ｄ情報およびビデオデータを符号化ユニット５１６に送信するように構成されたマッチング／深度抽出ユニット５１５と、
前処理ユニット５１４により出力されたビデオデータ、ならびにマッチング／深度抽出ユニット５１５により出力された深度および／または視差の情報を符号化するように構成された符号化ユニット５１６と、
符号化ユニット５１６により出力された符号化されたデータを多重化するように構成された多重化ユニット５１７と、
多重化ユニット５１７により出力された符号化されたデータをリアルタイム伝送プロトコルに適合するパケットにカプセル化し、パケット網を介してパケットをリアルタイムで伝送するように構成された送信ユニット５１８と、
を含む。

受信側は送信装置および受信装置を含む。受信装置は、
パケットを送信ユニット５１８から受信し、パケットのプロトコルヘッダを取り除いて、符号化されたデータを取得するように構成された受信ユニット５２０と、
受信ユニット５２０により受信されたデータを逆多重化するように構成された逆多重ユニット５２１と、
逆多重ユニット５２１により出力された符号化されたデータを復号するように構成された復号ユニット５２２と、
復号ユニット５２２により出力され、３Ｄマッチング技術で処理された復号されたデータに基づき、映像を再構成し、映像データをレンダリングユニット５２４に送信するように構成された再構成ユニット５２３と、
復号ユニット５２２または再構成ユニット５２３により出力されたデータを３Ｄ表示装置上に描画するように構成されたレンダリングユニット５２４と、
を含む。

別の実施形態では、受信装置は、
復号ユニット５２２により出力された３Ｄビデオデータを２Ｄビデオデータに変換するように構成された変換ユニット５２５と、
変換ユニット５２２により出力された２Ｄビデオデータを表示するように構成されたパネル表示装置５２６と、
をさらに含む。

パケット網の両側の通信端末は、通信を行い、送信装置および３Ｄ受信装置を制御するように構成されている。端末は、
カメラおよび映像処理ユニット５１０の能力情報と共にミーティング開始指令などの指令を送信し、カメラおよび映像処理ユニット５１０内の特定のカメラスイッチを制御するか、または特定の角度で撮影を行う指令などの送信装置制御指令を収集制御ユニット５１１から反対の当事者に送信ユニット５１８を介して送信するように構成された指令送信ユニット５３０と、
たとえば、ミーティング確認メッセージを受信した後に、送信装置および受信装置の電源を入れるなど、送信装置および受信装置を操作するように構成されたビデオ操作ユニット５３１と、
パケット網に接続され、多地点ミーティング接続を制御するように構成された多地点制御ユニット（ＭＣＵ）５３２であって、
通信端末からミーティング開始指令を受信したときに、その指令により運ばれる能力情報に従ってミーティングの両側に３Ｄ撮影および３Ｄ表示の能力があるか否かを判断するように構成された能力判断ユニット５３２０（別の実施形態では、この機能はまた、端末に組み込まれることができる。すなわち、どのＭＣＵもミーティングの両側また多数の側の能力を判断するために使用されず、端末自身が判断する。）と、
両側に３Ｄ撮影および３Ｄ表示の能力があると能力判断ユニット５３２０が決定したときに、パケット網を介したミーティングの両側の通信端末間のミーティング接続を確立するように構成されたミーティング確立ユニット５３２１（たとえば、ユニット５３２１は、ミーティング確認メッセージを両側の通信端末のビデオ操作ユニット５３１に送信して、送信装置および受信装置の電源を入れ、受信側の通信端末のアドレスを送信側の送信装置上の送信ユニット５１８に送信する。）と、
を含む多地点制御ユニット（ＭＣＵ）５３２と、
データフォーマットを変換するように構成された変換ユニット５３３（たとえば、ユニット５３３は、一方の側の送信装置上の送信ユニット５１８により受信されたビデオデータを２Ｄビデオデータに変換する。）と、
変換ユニット５３３により出力されたビデオデータを反対側の送信装置５２０上の受信ユニット５２０に送信するように構成された転送ユニット５３４と、
を含む。

ＭＣＵシステム内の能力判断ユニット５３２０が、ミーティングの両側のうちの一方に３Ｄ表示能力がないという結果を得るとき、変換ユニット５３３は動作を開始する。通信端末もまた能力判断機能を有する。

この実施形態では、Ｈ．３２３プロトコルに基づいてビデオ通信システムネットワーキングが行われる。ビデオ通信システムは、ローカルエリアネットワーク（ＬＡＮ）、Ｅ１、狭帯域サービス統合デジタル網（ＩＳＤＮ）、または広帯域ＩＳＤＮなどのパケット網上に確立されている。このシステムは、Ｈ．３２３ゲートキーパ、Ｈ．３２３ゲートウェイ、Ｈ．３２３ＭＣＵ、一般の２Ｄカメラ装置、ならびにカメラおよび映像処理ユニットを含む。

ネットワーク上のＨ．３２３エンティティとしてのゲートキーパは、Ｈ．３２３通信端末、ゲートウェイ、およびＭＣＵにアドレス変換およびネットワークアクセス制御を提供する。ゲートキーパはまた、帯域幅管理およびゲートウェイ探索などの別のサービスを通信端末、ゲートウェイ、およびＭＣＵに提供する。

Ｈ．３２３ゲートウェイは、パケット網上のＨ．３２３端末、パケット交換網上の別のＩＴＵ端末、または別のＨ．３２３ゲートウェイに双方向リアルタイム通信を提供する。

Ｈ．３２３ＭＣＵは、前述のように、ミーティング接続を制御するように構成されている。ネットワーク上のエンドポイントとしてのこのユニットは、多地点ミーティングに参加する３台以上の端末およびゲートウェイの役に立つ、または２台の通信端末に接続されて、ポイントツーポイントのミーティングを保持し、次に多地点ミーティングに拡張する。ＭＣＵは、必須のマルチポイントコントローラ（ＭＣ）、および任意選択のマルチポイントプロセッサ（ＭＰ）からなる。ＭＣは、多地点ミーティングのために制御機能を提供し、通信端末との能力交渉を行い、ミーティング資源を制御する。ＭＣにより制御されたＭＰは、統合モードにおける多地点ミーティングの音声、ビデオ、および／またはデータストリームを混合し切り換える。

２Ｄカメラ装置は、２Ｄビデオ通信端末、または、テレビ電話、テレビ会議端末、およびＰＣビデオ通信端末などの２Ｄの映像収集および表示能力しか持たないビデオ通信端末とすることができる。

上記の実施形態は、既存のＨ．３２３ビデオ通信ネットワークと比べて、本発明のこの実施形態のＭＣＵは、多視点３Ｄ通信システムに基づき改良され、多視点３Ｄ通信システムと一般の２Ｄビデオ通信システムとの間のミーティングを制御し、３Ｄビデオストリームを処理することを示す。

Ｈ．３２３プロトコルのほかに、リアルタイム伝送に適合する、本発明の実施形態で提供されたプロトコルはまた、Ｈ．２６１プロトコル、Ｈ．２６３プロトコル、Ｈ．２６４プロトコル、セッション開始プロトコル（ＳＩＰ）、リアルタイム・トランスポート・プロトコル（ＲＴＰ）、およびリアルタイム・ストリーミング・プロトコル（ＲＴＳＰ）を含むことが理解できる。これらのプロトコルは、本発明を限定するために使用されるのではない。

図６は、３Ｄビデオ通信システムの別の実施形態を示す。カメラおよび映像処理ユニット６１０、収集制御ユニット６１１、同期ユニット６１２、および較正ユニット６１３が、多視点３Ｄビデオ通信システムのビデオ収集部分を構成する。カメラおよび映像処理ユニットは、深度および／または視差の情報からなるビデオデータを送信するように構成された３Ｄカメラおよび映像処理ユニット、または、分離されたカメラおよびマッチング／深度抽出ユニット、のうちの１つとすることができる。カメラは撮影を行い、ビデオデータを出力するように構成されている。

マッチング／深度抽出ユニットは、撮影対象の深度および／または視差の情報をカメラにより出力されたビデオデータから取得して、その情報を送信するように構成されている。

カメラおよび映像処理ユニット６１０のカメラはグループ分けされ、各グループ内のカメラの数Ｎは１または２以上である。カメラは、平行多視点カメラ方式、または環状多視点カメラ方式で並べられ、異なる視点から場面を撮影するために使用されている。収集制御ユニット６１１は、カメラのグループ分けを制御する。カメラが、ビデオストリームを伝送するためのＣａｍｅｒａＬｉｎｋ、ＩＥＥＥ１３９４ケーブル、または同軸ケーブルを介して収集制御ユニット６１１に接続されている。さらに、カメラはまた、遠隔制御データ回線を介して指令送信ユニットに接続され、その結果、ユーザが遠隔で、カメラを移動および回転し、カメラをズームインおよびズームアウトすることができる。カメラおよび映像処理ユニット６１０では、カメラグループの数Ｍは１または２以上であり、実際の適用場面の要件に従って設定することができる。図６では、２グループの平行多視点カメラがビデオストリームを送信するために使用されている。

同期ユニット６１２は、前述のように、カメラ間のビデオストリームの同期収集を制御するように構成されている。同期ユニット６１２により、多視点カメラおよび映像処理ユニット６１０により撮影された高速で移動する対象の映像に違いが発生するのを防ぐことができるが、これは高速で撮影された映像は各視点で大きく異なるか、または同時に同じ視点で見ても左目および右目で見え方が異なるためである。この場合、ユーザは、ゆがんだ３Ｄビデオを見る。同期ユニット６１２は、ハードウェアまたはソフトウェアのクロックにより同期信号を生成し、その信号をカメラの外部同期インタフェースに送信して、カメラの同期収集を制御する。または、同期ユニット６１２は、その信号を収集制御ユニット６１１に送信し、次に収集制御ユニット６１１は制御ケーブルを介してカメラの同期収集を制御する。同期ユニット６１２はまた、カメラのビデオ出力信号を制御信号として使用し、同期収集制御のためにその信号を別のカメラに送信することができる。同期収集は、フレーム同期、または水平同期および垂直同期を必要とする。

較正ユニット６１３は、前述のように、多数のカメラを較正するように構成されている。３Ｄビデオシステムでは、場面の深度または視差の情報は、世界空間座標系内の座標と撮影点座標との間の投影での点の撮影関係に基づく３Ｄマッチングおよび場面再構成のために必要とされている。映像中心、焦点距離、およびレンズ収差などのカメラの内部パラメータ、ならびにカメラの外部パラメータが、撮影関係の決定に重要である。これらのパラメータは不明、一部不明、または原理上不確定である。したがって、カメラの内部パラメータおよび外部パラメータを決まった方法で取得する必要がある。この過程はカメラ較正と呼ばれる。カメラにより３Ｄビデオを収集する間の、収差を考慮しない、点での理想的撮影方程式は、アフィン変換原理に従って以下のように表される。

上式で、ｕ、ｖは、撮影点座標を表し、Ｘ_ｗＹ_ｗＺ_ｗは世界空間座標を表し、ｓは映像の倍率を表し、映像の水平単位ピクセルの数ｆ_ｕと垂直単位ピクセルの数ｆ_ｖとの比を示し、ｆは焦点距離を表し、ｕ_０、ｖ_ｏは映像中心座標を表し、Ｒはカメラの回転行列を表し、ｔはカメラの移動ベクトルを表し、Ｋはカメラの内部パラメータを表し、Ｒおよびｔはカメラの外部パラメータを表す。平行２カメラシステムについては、この方程式は以下のように表される。

上式で、ｆは焦点距離を表し、Ｚは点から撮影面までの距離を表し、Ｂは２台のカメラの光心間の距離を表し、ｄは視差を表す。焦点距離ｆは深度Ｚに大きく影響を及ぼすことを理解することができる。さらに、映像中心および収差係数などの内部パラメータでも、深度および／または視差の計算に影響を及ぼすものがある。これらのパラメータは、映像補正に必要である。

この実施形態では、カメラが従来の較正法および自己較正法など多くの方法で較正することができる。従来の較正法は、１９７０年代に提案された直接線形変換（direct linear transformation、ＤＬＴ）較正法、および放射状整列制約（radial alignment constraint、ＲＡＣ）に基づく較正法を含む。基本的方法では、カメラ撮影モデルの線形方程式のシステムが設定され、シナリオ内の１組の点の世界空間座標、および撮影面上の対応する座標が測定され、次にこれらの座標値が線形方程式のシステムに導入されて、内部パラメータおよび外部パラメータを得る。自己較正は、較正ブロックのない映像点間の対応に基づいてカメラを較正する過程を指し、多くの映像内の撮影点間の極性制約などの特殊な制約関係に基づく。したがって、シナリオの構造情報は必要ない。自己較正法には、融通性があり、かつ使いやすいという利点がある。

本発明のこの実装方法では、較正ユニット６１３は、多数のカメラを較正し、各カメラの内部パラメータおよび外部パラメータを取得するように機能する。様々な適用シナリオで異なる較正アルゴリズムが使用されている。たとえば、テレビ会議のシナリオでは、較正ユニット６１３は、較正のために改良された従来の較正法を使用して、従来の較正法の複雑な取扱過程を簡略化し、精度を改善し、自己較正法と比べて較正時間を短縮する。基本的な考え方は、テレビ会議のシナリオでのユーザの名札、およびそのシナリオでのカップなど、永続的に存在し撮影場面の中に溶け込んだ対象が基準として提供されるか、または見つけられるということである。これらの対象は、端、単語、名札のデザイン、およびカップの同心円の特徴など、抽出することができる物理的寸法、および豊富な特徴を提供する。関連するアルゴリズムが較正のために使用されている。たとえば、較正のための面較正法は、既知の物理サイズを有する面較正基準を提供すること、撮影を行って、異なる角度の面較正基準の映像を取得すること、言葉およびデザインの特徴など、面較正基準の映像の特徴を自動的にマッチングおよび検出すること、面較正アルゴリズムに従ってカメラの内部パラメータおよび外部パラメータを取得すること、および、最適化のための収差係数を取得することを含む。

カメラの焦点距離および外部パラメータなど、異なるカメラのパラメータが大きく異なるのを避けるために、これらのパラメータのうちの内部パラメータおよび外部パラメータが、本発明の多くの実施形態でフィードバック情報として収集制御ユニットに提供される。収集制御ユニットは、現在のパラメータの違いに基づいてカメラを調節し、その結果、繰り返しの過程で受け入れ可能な水準まで違いは縮小される。

収集制御ユニット６１１は、前述のように、カメラのグループを制御して、ビデオ映像を収集し送信するように構成されている。カメラのグループの数は、一定の要件を満たすように場面に従って設定されている。１つのグループのカメラが設定されたとき、収集制御ユニットは２Ｄビデオストリームを送信する。２つのグループのカメラが設定されたとき、収集制御ユニットは両眼３Ｄビデオストリームを送信する。３つ以上のグループのカメラが設定されたとき、ＭＶＣストリームを送信する。アナログカメラについては、収集制御ユニットはアナログ映像信号をデジタルビデオ映像に切り換える。映像は収集制御ユニットのキャッシュにフレームの形式で保存されている。さらに、収集制御ユニット６１１は、カメラの較正のために、収集された映像を較正ユニット６１３に提供する。較正ユニット６１３は、カメラの内部パラメータおよび外部パラメータを収集制御ユニット６１１に送り返す。収集制御ユニット６１１は、これらのパラメータに基づいてビデオストリームと収集されたカメラの属性との間の対応を確立する。これらの属性は、カメラの一意のシーケンス番号、カメラの内部パラメータおよび外部パラメータ、ならびに各フレームを収集したタイムスタンプを含む。これらの属性、およびビデオストリームは、決まった形式で送信されている。前述の機能のほかに、収集制御ユニット６１１はまた、カメラを制御し、同期して映像を収集する機能も提供する。収集制御ユニット６１１は、較正されたパラメータに従ってカメラの遠隔制御インタフェースを介してカメラの移動、回転、ズームイン、およびズームアウトを行うことができる。このユニットはまた、同期収集を行うために、カメラの同期インタフェースを介してカメラに同期クロック信号を提供することができる。さらに、収集制御ユニット６１１はまた、入力制御ユニット６２０により制御することができる。たとえば、ユーザにより選択された視点情報に従ってカメラの不必要なビデオ収集が打ち切られる。

前処理ユニット６１４は、前述のように、収集されたビデオデータを前処理するように構成されている。特に、前処理ユニット６１４は、収集された映像キャッシュおよび該当するカメラパラメータを収集制御ユニット６１４から受信し、前処理アルゴリズムに従ってキャッシュされた映像を処理する。前処理される内容は、映像のノイズを取り除くこと、たとえば、異なるカメラの設定により引き起こされた映像のクロミナンスおよび輝度の違いを調節するなど、異なるカメラによる映像の違いを除去すること、放射収差補正など、カメラのパラメータの収差計数に従って映像を補正すること、および／または、走査線のマッチングに基づいて、ダイナミックプログラミングなどの３Ｄマッチングアルゴリズムのために走査線の位置合わせをすること、を含む。前処理された映像では、大部分の収集過程の間に引き起こされた映像ノイズ、およびカメラの違いにより引き起こされた映像間の好ましくない不一致が除去されて、その後の３Ｄマッチングおよび深度／視差の抽出に役立つ。

マッチング／深度抽出ユニット６１５は、前述のように、前処理ユニット６１４により出力されたビデオデータから撮影対象の３Ｄ情報を取得して、３Ｄ情報およびビデオデータをビデオ符号化／復号ユニット６１６に送信するように構成されている。３Ｄ映像マッチングは３Ｄビデオの重要な技術である。３Ｄビデオの再構成には、撮影対象の３Ｄ情報が必要である。重要な深度情報は、多数の映像から取得しなければならない。深度情報を取得するためには、まず、撮影点が、場面内の１点に対応する多数の映像で見つけられ、多数の映像内のその点の座標に従って空間内のその点の座標が取得でき、その点の深度情報を取得する。映像マッチング技術を用いて、場面内の１点に対応する、異なる映像内の撮影点が見つけられる。

本発明の一実施形態により利用可能な３Ｄマッチング技術は、ウィンドウに基づくマッチング法、特徴に基づくマッチング法、および動的計画（dynamic planning）法を含む。ウィンドウに基づくマッチング法、および動的計画法は、グレーに基づくマッチングアルゴリズムを使用する。グレーに基づくアルゴリズムの基本的な考え方は、映像が小さなサブエリアに分割され、テンプレートとしてのこれらの小さなサブエリアのグレー値に基づいて、グレー値が前の値と最も似ている小さなサブエリアが別の映像から見つけられることである。両方のサブエリアが類似要件を満たす場合、これらのサブエリア内の点は互いに一致する。マッチングの過程で、関連する関数群が使用されて、両方のサブエリアの類似性を確認することができる。一般に、グレーに基づくマッチングの過程で、映像の密な深度図が取得できる。特徴に基づくマッチングの過程で、マッチングがより良い安定性を達成するように、映像のグレーの代わりに、映像のグレー情報に基づきエクスポートされた映像の特徴が使用されている。マッチする特徴は、端、および端の交点（端点）など、場面内の３Ｄ構造の潜在的に重要な特徴として役立てられることができる。特徴に基づくマッチングの過程で、一般に、まばらな深度情報図が取得でき、次に、内挿値の方法を使い映像の密な深度情報図が取得できる。

マッチング／深度抽出ユニット６１５は、２台の隣接するカメラにより収集されたビデオ映像のマッチングを行い、視差／深度情報を計算により取得するように構成されている。マッチング／深度抽出ユニット６１５は、２台の隣接するカメラにより撮影された映像の最大視差を制限する。最大視差を超える場合、マッチングアルゴリズムの効率が非常に低くなるので、高精度の視差／深度情報が取得することができない。最大視差は、あらかじめシステムにより設定することができる。本発明の一実施形態では、マッチング／深度抽出ユニット６１５により使用されたマッチングアルゴリズムは、ウィンドウマッチング法および動的計画法などの多数のマッチングアルゴリズムから選択され、実際の適用シナリオに従って設定されている。マッチング操作の後、マッチング／深度抽出ユニット６１５は、映像の視差、およびカメラのパラメータに従って場面内の深度情報を取得する。以下の段落に、グレーに基づくウィンドウ・マッチング・アルゴリズムの一例を示す。

ｆ_Ｌ（ｘ、ｙ）およびｆ_Ｒ（ｘ、ｙ）が、左カメラおよび右カメラにより撮影された２つの映像であり、（ｘ_Ｌ、ｙ_Ｌ）がｆ_Ｌ（ｘ、ｙ）内の点とする。（ｘ_Ｌ、ｙ_Ｌ）を中心と見なし、サイズがｍ×ｎのテンプレートＴを形成する。テンプレートが水平にΔｘ、垂直にΔｙの距離にｆ_Ｒ（ｘ、ｙ）内で移動され、テンプレートがｆ_Ｒ（ｘ、ｙ）内のｋ番目の領域Ｓ_ｋを覆う場合、Ｓ_ｋとＴの従属性は、関連する関数群により測定することができる。

Ｄ（Ｓ_ｋ、Ｔ）が最小の場合、最大マッチングが達成されている。Ｓ_ｋおよびＴが同じである場合、Ｄ（Ｓ_ｋ、Ｔ）＝０である。

ここで、Ｅ（Ｓ_ｋ）およびＥ（Ｔ）は、それぞれＳ_ｋおよびＴのグレー値を示す。Ｃ（Δｘ、Δｙ）が極大の場合、Ｄ（Ｓ_ｋ、Ｔ）は極小である。（ｘ_Ｌ、ｙ_Ｌ）は点（ｘ_Ｌ＋Δｘ、ｙ_Ｌ＋Δｙ）と一致すると考えることができる。Δｘ、Δｙはそれぞれ２つの映像間の水平視差および垂直視差を表す。上記の視差カメラシステムについては、垂直視差は０に近く、水平視差はΔｘ＝ｆＢ／Ｚと表すことができる。この場合、場面内の点の深度はＺ＝ｆＢ／Δｘと表すことができる。

別の実施形態では、マッチング／深度抽出ユニット６１５は、たとえば、システムのリアルタイム性能を保証する視差計算によってマッチングアルゴリズムを最適化することができる。

ビデオ符号化／復号ユニット６１６は、前述のように、ビデオデータを符号化および復号するように構成されている。ユニット６１６は、ビデオ符号化ユニット、およびビデオ復号ユニットを含む。本発明の一実施形態では、３Ｄビデオ符号は、ブロックベース符号およびオブジェクトベース符号に分類されている。３Ｄ映像符号では、フレーム内予測およびフレーム間予測により、空間および時間の領域でのデータ冗長性が除去され、空間データ冗長性はまた、多チャネル映像間で除去することができる。たとえば、多チャネル映像間の時間領域冗長性は、視差の推定および補償により除去される。視差の推定および補償の核心は、２つ以上の映像間の依存性を見つけることである。視差の推定および補償は、動きの推定および補償と似ている。

本発明の一実施形態で説明されるビデオ符号化および復号ユニットは、ＭＶＣデータを以下のモードのうちの１つで符号化および復号する。

１）異なる視点間の映像の視差が、設定された最大視差以下の場合、データは１フレーム＋視差／深度値＋偏残差からなるフレームの混合モードで符号化されている。視差／深度値は、ＭＰＥＧパート３：補助ビデオデータ表現標準を使用する。図７は、両眼３Ｄビデオのための混合符号化方式を実装する基本処理例を示す。図７では、符号化側は左映像および右映像、ならびに深度／視差情報を取得する。左映像、およびその視差／深度情報は、従来方式で符号化される。右映像は、左映像の符号化方式を参考にすることにより推定され、符号化され、次に、符号化されたデータは復号側に送られる。復号側は、左映像のデータ、視差／深度情報、および右映像の残差データを復号し、前のデータを３Ｄ映像に結合する。

２）異なる視点間の映像の視差が、設定された最大視差よりも大きい場合、ビデオストリームは、Ｈ．２６３およびＨ．２６４の符号化および復号標準などの従来方式で別々に符号化される。混合符号化および復号方式は隣接映像間の依存性を十分に利用して、高い圧縮効率を達成し、隣接映像間の時間領域および空間領域のデータ冗長性を大きく低減する。さらに、視差／深度符号は、映像の再構成に役立つ。映像内のある領域が隠され、視差／深度データが抽出できない場合、再構成された映像の品質を改善するために残差符号が使用される。異なる視点間の映像の視差が抽出できない場合、異なる視点でのビデオストリームは、ＭＰＥＧ委員会により規定されたＭＶＣ符号化標準などの従来の動き推定および補償方式で別々に符号化される。さらに、本発明で説明される符号化および復号ユニットはまた、スケーラビリティビデオ符号化（scalability video coding、ＳＶＣ）標準をサポートし、その結果、システムは異なるネットワーク条件にさらによく適用可能である。

さらに、ビデオ符号化および復号ユニットは、入力制御ユニット６２０の逆方向チャネルからデータを受信し、ユーザの情報に従って符号化および復号の動作を制御する。その基本制御は、
符号化のためにユーザにより選択された視点に従ってビデオストリームを見つけ、ユーザに見られていない視点でのビデオストリームを符号化せずに、ビデオ符号化および復号ユニットの処理能力を効果的に節約すること、および、
ユーザ端末の表示能力に従ってビデオストリームを符号化および復号すること、
を含む。２Ｄ表示能力しかない端末については、２Ｄビデオストリームの経路が符号化され、送られる。この方法では、多視点３Ｄビデオ通信システムと一般のビデオ通信システムとの間の互換性は改善され、不必要なデータが送られることが少ない。

多重化／逆多重化ユニット６１７は、前述のように、多重化ユニットおよび逆多重化ユニットを含む。多重化ユニットは、復号されたビデオストリームをビデオ符号化および復号ユニットから受信し、フレーム／フィールド単位でビデオストリームの多数の経路を多重化する。ビデオストリームがフィールド単位で多重化される場合、一方のビデオストリームが奇数フィールドに符号化され、他方のビデオストリームが偶数フィールドに符号化される。奇数／偶数フィールドのビデオストリームは、フレームとして送信される。逆多重化ユニットは、逆多重化のためにパケットデータを受信ユニットから受信し、多数の経路の符号化されたビデオストリームを復元する。

送信／受信ユニット６１８は、前述のように、送信ユニットおよび受信ユニットを含む。送信／受信ユニット６１８はネットワーク伝送ユニットと呼ばれる。送信側の送信ユニットは、多重化されたデータストリームを多重ユニットから受信し、データストリームをパケット化し、データストリームをＲＴＰに適合するパケットの中にカプセル化し、次に、イーサネット（登録商標）インタフェース、またはＩＳＤＮインタフェースなどのネットワークインタフェースを介してデータストリームを送出する。さらに、送信側の送信ユニットはまた、符号化されたビデオ・データ・ストリームをオーディオ符号化／復号ユニット６２１から受信し、信号方式データストリームをシステム制御ユニット６２２から受信し、送信されるファイルデータなどのユーザデータをユーザ・データ・ユニット６２３から受信する。このデータはパケット化され、ネットワークインタフェースを介して受信側に送信される。受信側の受信ユニットが送信側からパケットデータを受信した後に、プロトコルヘッダが削除され、有効なユーザデータが取っておかれ、次にデータは、データ種別に従って逆多重化ユニット、オーディオ復号ユニット、システム制御ユニット６２２、およびユーザ・データ・ユニット６２３に送られる。さらに、メディア種別ごとに適切な論理フレーミング、シーケンス番号付け、エラー検出、およびエラー訂正が行われる。

再構成ユニット６３０は、復号ユニットにより出力された復号されたデータを再構成し、次にそのデータをレンダリングユニットに送信するように構成されている。再構成ユニット６３０の機能は、
カメラが置かれていない視点でのビデオ映像をユーザが見ることができない問題を解決すること（カメラの数が限られているためにすべての視点がカバーされているわけではないので、カメラが置かれていない視点でユーザが場面を見る必要がある場合がある。再構成ユニット６３０は、ユーザにより見られる視点情報を入力制御ユニット６２０から取得することができる。ユーザがカメラの既存の視点を選択した場合、再構成ユニット６３０は、映像を再構成しない。ユーザが、アナログ視野角のない、２つの隣接するグループのカメラ間、またはグループ内の２台の隣接するカメラ間の視点を選択した場合、再構成ユニット６３０は、隣接するカメラにより撮影された映像に従ってユーザにより選択された視点で映像を再構成する。カメラの撮影視点での視差／深度情報、隣接するカメラの位置パラメータ情報、および投影方程式に従って決定される、場面のアナログ視野角での映像点座標に基づいて、アナログ視野角でのビデオ映像が再構成される。）と、および、
３Ｄ表示を通じて変化した位置のために、視差で変化する３Ｄ映像をユーザが見る問題を解決すること、
を含む。自動３Ｄ表示により、ユーザが眼鏡をかけることなく３Ｄ映像を見ることができるようになる。しかしこのときまでには、ユーザから自動３Ｄ表示までの距離が変化されることがあり、映像の視差が変化することとなる。

ユーザの視差、深度、および見る距離の間の関係を示す必要がある。図８は、視差カメラシステムでの映像視差ｐ、対象深度ｚ_ｐ、およびユーザから表示器までの距離Ｄの間の関係を示す。簡単な幾何学的関係に基づき、以下の式が得られる。

上記の式は、映像の視差ｐは、ユーザから表示器までの距離Ｄに依存することを示す。３Ｄビデオ受信側で受信された３Ｄビデオ映像には、通常、基準視差ｐ_ｒｅｆの役割を果たすことができる固定視差がある。Ｄが変化するとき、再構成ユニットは視差ｐ_ｒｅｆを調節して、新しい視差ｐ´を生成し、次に新しい視差に基づいて別の映像を再構成する。この場合、ユーザから表示器表面までの距離が変化するとき、適切な映像が見られることができる。ユーザから表示器表面までの距離が、深度図が取得された後にカメラを介して自動的に検出するか、または入力制御ユニット６２０を介して手動で制御することができる。

入力制御ユニット６２０は、通信端末から入力データを受信し、次に、多数のビデオストリームの符号化および再構成を制御するために、そのデータを収集制御ユニット６１１、符号化ユニット、および再構成ユニット６３０にフィードバックするように構成されている。入力制御ユニット６２０は、視点に関する情報、および表示器とユーザの間の距離に関する情報を含む。エンドユーザが、グラフィカル・ユーザ・インタフェース（ＧＵＩ）または遠隔制御装置を介して、視点、距離、および表示モードなどの入力制御ユニット６２０に関する情報を入力することができる。または、端末自身が、端末の表示能力情報などの関連する情報を検出する。

レンダリングユニット６３１は、前述のように、ビデオ・データ・ストリームを再構成ユニット６３０から受信し、ビデオ映像を表示装置に描画する。本発明で説明された多視点３Ｄビデオ通信システムは、一般の２Ｄビデオ表示装置、自動３Ｄ表示装置、１対の３Ｄ眼鏡、およびホログラフィック表示装置を含む多数の表示端末をサポートする。

さらに、他の実施形態では、システムは、
通信端末でマイクロホンからの送信用オーディオ信号を符号化し、受信ユニットにより受信されたオーディオ信号を復号し、オーディオデータをスピーカに送るように構成されたオーディオ符号化／復号ユニット６２１（Ｄ．７１１およびＧ．７２９）と、
電子ホワイトボード、静止画伝送、ドキュメント交換、データベースアクセス、およびオーディオ・グラフィック・ミーティングなどの遠隔情報処理アプリケーションをサポートするように構成されたユーザ・データ・ユニット６２３と、
端末が正しく動作するための信号方式を提供するように構成されたシステム制御ユニット６２２（このユニットは、呼制御、能力交換、指令および指示された信号方式、ならびにメッセージを提供する。）と、
をさらに含む。

このネットワーク構成では、ビデオ通信セッションを開始するとき、当事者がＭＣＵを介してまたは当事者自身でピア端末（peer end）と能力交渉を行う。両当事者が多視点３Ｄビデオ通信システムを使用する場合、これらの当事者は異なる視点でリアルタイム３Ｄビデオを見ることができる。当事者が一般の２Ｄビデオ通信端末の場合、３Ｄビデオ通信条件が満たされることができないので、端末がＭＣＵにより制御される場合、両者は２Ｄモードでビデオ通信を行うことができる。

ＭＶＣ通信の過程では、多視点３Ｄ通信システムが以下の表示モードで動作する。

（１）単一ビデオ映像表示モードでは、受信側のユーザが、ＧＵＩインタフェース上でまたは指令送信ユニットの遠隔制御により視点を選択することができ、次に、通信端末は、視点の情報を信号方式によりピア端末に送信する。信号方式を受信後、ピア端末の収集制御ユニット６１１は、カメラおよび映像処理ユニット６１０で関連する動作を行うか、または、受信されたビデオデータから、対応する視点でのビデオストリームを選択し、次に、選択されたビデオストリームを符号化し、最後にビデオストリームを受信側の表示装置に送り返す。ユーザにより見られるビデオ映像は、左映像および右映像を含み、ＭＶＣカメラ内の２台のカメラおよび映像処理ユニットにより収集された３Ｄ映像、２Ｄ映像でありうる。

（２）多数のビデオ映像表示モードでは、送信側のＭＶＣカメラおよび映像処理ユニットが動作するとき、受信側のユーザが、異なる視点で反対側の場面を見ることができ、多数の映像がシステムに表示されている。

本発明の第２の実施形態で提供された３Ｄビデオ通信端末内の各ユニットは、処理モジュールに統合できることに留意されたい。たとえば、収集制御ユニット６１１、前処理ユニット６１４、マッチング／深度抽出ユニット６１５、ビデオ符号化／復号ユニット６１６、多重化／逆多重化ユニット６１７、および送信／受信ユニット６１８は、処理モジュールに統合されている。同様に、本発明の別の実施形態で提供された３Ｄビデオ通信端末内の各ユニット、およびＭＶＣ装置の各ユニットは、処理モジュールに統合できる。または、各実施形態での２つ以上のユニットが、処理モジュールに統合できる。

本発明の一実施形態で提供される各ユニットは、ハードウェア形態で実装でき、ソフトウェアは、ソフトウェア機能モジュールの形態で実装できることに留意されたい。それに対応して、本発明の一実施形態で提供されたテレフォニーゲートウェイは、独立した製品として使用することができ、そのソフトウェアは、使用のために、ＰＣが読出し可能な記憶媒体に記憶することができる。

図９および図１０は、一実施形態で提供された３Ｄビデオ通信方法を示す。３Ｄビデオ通信方法が、本発明の第１の実施形態で提供されている。図９および図１０は、それぞれ送信側および受信側の処理を示す。この処理は、ビデオデータを送信および受信する処理を含む双方向３Ｄビデオ通信を行うステップを含む。

図９に示すように、ビデオデータを送信する処理は、以下のステップを含む。

ステップ８０２：ビデオデータを取得するために撮影が行われる。

ステップ８０６：撮影対象の視差／深度情報がビデオデータから取得される。

ステップ８０７：ビデオデータ、および深度／視差情報が符号化される。

ステップ８０８：符号化されたビデオデータが多重化される。

ステップ８０９：符号化されたデータが、リアルタイム伝送プロトコルに適合するパケットにカプセル化され、次に、パケットはパケット網を介して伝送される。

他の実施形態では、ビデオデータを取得するための撮影の処理は、ＭＶＣデータを取得するための多視点撮影を行う処理により置き換えられる。

ビデオストリームが符号化されるステップ８０７が実行される前に、この処理は以下を含む。

ステップ８０１：多視点撮影モードで取得された映像の同期処理が行われる。

同期して撮影された映像が収集されるステップ８０２が実行された後に、この処理は以下を含む。

ステップ８０３：多数の収集された映像に対してカメラ較正が行われ、映像収集および処理のためのカメラパラメータが送り返される、すなわち、カメラの内部パラメータおよび外部パラメータが取得され、これらのパラメータに基づいて撮影処理が補正される。

ステップ８０４：収集された映像が前処理される。

ステップ８０５：視差制限条件が満たされるか否かに関する判断が行われる。

ステップ８０６：視差制限条件が満たされる場合、３Ｄマッチングが行われ、視差／深度情報が抽出される、すなわち、撮影対象の３Ｄ情報が抽出され、次に、ビデオストリームが符号化される。

ステップ８０７：視差制限条件が満たされない場合、ビデオストリームは直接符号化される。

別の実施形態では、カプセル化されたデータが送信される前に、この処理は以下を含む。

ステップ８０８：符号化されたビデオストリームが多重化される。

双方向３Ｄビデオ通信が行われる処理はまた、カメラおよび映像処理ユニットの能力情報と共にミーティング開始指令を送信するステップを含む。

パケット網を介してパケットが伝送されるステップ８０９が実行された後に、この処理は、さらに、受信されたミーティング開始指令、および搬送された能力情報に従って両側の当事者に３Ｄ撮影能力および３Ｄ表示能力があるか否かを判断すること、両側に３Ｄ撮影能力および３Ｄ表示能力がある場合、パケット網を介した両側の通信端末間のミーティングを確立して、カメラおよび映像処理ユニット、ならびに両側の受信装置を起動すること、を含む。

両側のうちの一方にその撮影能力がない場合、この処理は、さらに、送信側のビデオデータを２Ｄビデオデータに変換し、そのデータを受信側に送信することを含む。

図１０に示されるように、ビデオデータを受信する処理は以下を含む。

ステップ９０１：パケット網を介してリアルタイム伝送用ビデオパケットが受信され、次に、パケットのプロトコルヘッダが取り除かれて、符号化された３Ｄビデオ符号化データを取得する。

ステップ９０３：符号化されたビデオデータが復号されて、ビデオデータ、および関連する深度および／または視差の情報を取得する。

ステップ９０５：ユーザの視野角での映像が、深度および／または視差の情報ならびにビデオデータに従って再構成される。

ステップ９０６および９０７：再構成された映像データが３Ｄ表示装置上に描画される。

別の実施形態では、パケットのプロトコルヘッダが取り除かれた後で、かつパケットが復号される前に、この処理は以下のステップをさらに含む。

ステップ９０２：パケットが多重化されたビデオデータを含むか否かに関する判断が行われる。含まれる場合、多重化されたパケットが逆多重化される。

別の実施形態では、データが３Ｄ表示装置に描画されるステップが実行される前に、この処理は以下のステップをさらに含む。

ステップ９０４：復号されたデータを含む映像が再構成される必要があるか否かに関する判断が行われる。

映像が再構成される必要がある場合、この処理はステップ９０５に進み、映像が再構成される。そうでない場合、この処理はステップ９０６および９０７に進み、復号されたデータが３Ｄ表示装置に描画される。

さらに、符号化されたビデオデータが復号された後に、この処理は、さらに、ローカル側の表示装置に３Ｄ表示能力があるか否か判断し、能力がない場合、復号された３Ｄビデオデータが２Ｄビデオデータに変換され、次にパネル表示装置に送信されることを含む。

要約すると、ビデオの通信端末、システム、および方法により、少なくとも以下の技術的効果を本発明で達成することができる。

３Ｄビデオの遠隔双方向リアルタイム通信が、ライブ場面または娯楽場面で達成される。双方向リアルタイム多視点３Ｄビデオ通信が、家庭の通信または企業のミーティングの場面で達成される。ネットワーク資源が十分利用され、ユーザが、ＭＶＣ通信の過程で、多視点で場面を見ることができる。この技術は既存の技術的ビデオ通信方式と完全に異なる。この環境では、ユーザは現場にいるように感じることができ、したがってユーザの体験が改善される。

この分野の一般的な専門家は、関連するハードウェアをガイドすることにより、プログラムにより実行可能である３Ｄビデオ通信方法の前述の実施形態で提供されるすべてまたは一部の手順を理解し実装することができる。記載されている手順は、コンピュータが読出し可能な記憶媒体に記憶することができる。したがって、このプログラムが実装されるとき、それは本発明の各実装方法で提供される３Ｄビデオ通信方法の内容を含む。記憶媒体は、ＲＯＭ／ＲＡＭでも、磁気ディスクでも、コンパクトディスクでもよい。

本発明の実施形態で提供される３Ｄビデオ通信の端末、システム、および方法が上記に記載されている。本発明の方法および精神が、前述の実施形態を通じて記載されている。当業者は、本発明の特定の実施形態および適用範囲に、本発明の精神に適合する様々な修正を行うことができる。本発明は、修正形態および変形形態が以下の特許請求の範囲、またはその均等物により定義される保護の範囲に入る前提で、修正形態および変形形態を含むものとする。
本出願は、全体を参照により本明細書に組み込まれる、２００７年１２月３日に中国特許庁に提出された「３次元ビデオ通信の端末、システム、および方法」と題する中国特許出願第２００７１０１８７５８６．７の優先権を主張する。

Claims

３次元（３Ｄ）ビデオ通信端末であって、送信装置および受信装置を含み、
前記送信装置は、
撮影を行い、ビデオデータならびに深度および／または視差の情報を出力するように構成されるカメラおよび映像処理ユニットと、
前記カメラおよび映像処理ユニットにより出力される前記ビデオデータならびに前記深度および／または視差の情報を符号化するように構成される符号化ユニットと、
前記符号化ユニットにより出力される前記符号化されたデータをリアルタイム伝送プロトコルに適合するパケットにカプセル化し、該パケットをパケット網を介してリアルタイムで送信するように構成される送信ユニットと、
を含み、
前記受信装置は、
ピア端末の前記送信ユニットから前記パケットを受信し、前記符号化されたデータを得るために前記パケットのプロトコルヘッダを取り除いて、前記符号化されたデータを取得するように構成される受信ユニットと、
前記受信ユニットにより出力される前記符号化されたデータを復号して、前記ビデオデータならびに前記深度および／または視差の情報を取得するように構成される復号ユニットと、
前記復号ユニットにより出力される前記深度および／または視差の情報ならびに前記復号ユニットにより出力される前記ビデオデータに従ってユーザの角度で映像を再構成し、前記映像をレンダリングユニットに送信するように構成される再構成ユニットと、
前記再構成ユニットにより出力される前記再構成された映像のデータを３Ｄ表示装置上に描画するように構成される前記レンダリングユニットと、
を含む、
３Ｄビデオ通信端末。
前記カメラおよび映像処理ユニットは、単一視点モード、多視点モード、または単一視点モードと多視点モードとの両方をサポートするユニットである、請求項１に記載の３Ｄビデオ通信端末。
通信を行い、前記送信装置および前記受信装置を制御するように構成される、前記パケット網の両側の通信端末をさらに含み、前記通信端末は、
前記カメラおよび映像処理ユニットに関する能力を運ぶミーティング開始指令を送信することを含む指令を送信するように構成される指令送信ユニットと、
ミーティング確認メッセージを受信した後に、前記送信装置および前記受信装置の電源を入れることを含み、前記送信装置および前記受信装置を操作するように構成されるビデオ操作ユニットと、
を含む、請求項１に記載の端末。
前記送信装置は、
前記ビデオ操作ユニットにより送信される指令に従って前記カメラおよび映像処理ユニットの動作を制御することを含む、前記カメラおよび映像処理ユニットの動作を制御する前記指令に従うように構成される収集制御ユニット
をさらに含む、請求項３に記載の端末。
前記指令送信ユニットは、さらに、前記送信装置を制御するための指令を前記ピア端末に送信するように構成される、請求項１に記載の端末。
前記送信装置を制御するための前記指令は、前記カメラおよび映像処理ユニットのカメラのための特定のスイッチ、または撮影の特定の視野角を制御するための指令を含む、請求項５に記載の端末。
前記送信装置は、
前記カメラおよび映像処理ユニット内の前記カメラの内部パラメータおよび外部パラメータを取得して、前記カメラを較正するための指令を前記収集制御ユニットに送信するように構成される較正ユニット
をさらに含む、請求項４に記載の３Ｄビデオ通信端末。
前記送信装置は、
前記収集制御ユニットにより出力される、前記カメラの前記ビデオデータおよび関連するパラメータを受信し、前処理アルゴリズムに従って前記ビデオデータを前処理するように構成される前処理ユニット
をさらに含む、請求項４に記載の端末。
前記送信装置は、
同期信号を生成し、該信号を、同期収集を制御するために前記カメラおよび映像処理ユニットに送信するか、または、
該信号を前記収集制御ユニットに送信し、同期収集を行うために前記カメラおよび映像処理ユニットを制御することを前記収集制御ユニットに通知する、
ように構成される同期ユニット
をさらに含む、請求項４に記載の３Ｄビデオ通信端末。
前記送信装置は、前記符号化ユニットにより出力される前記符号化されたデータを多重化し、該データを前記送信ユニットに送るように構成される多重化ユニットをさらに含み、
前記受信装置は、前記受信ユニットにより出力される前記多重化されたデータを逆多重化し、該データを前記復号ユニットに送るように構成される逆多重ユニットをさらに含む、
請求項１に記載の端末。
前記カメラおよび映像処理ユニットは、
前記深度および／または視差の情報を含む前記ビデオデータを送信するように構成される３Ｄカメラおよび映像処理ユニットであるか、または、
分離されたカメラおよびマッチング／深度抽出ユニットであって、カメラは撮影を行い、前記ビデオデータを出力するように構成され、マッチング／深度抽出ユニットは、撮影対象の前記深度および／または視差の情報を、前記カメラにより出力される前記ビデオデータから取得して、該情報を送信するように構成される、カメラおよびマッチング／深度抽出ユニットである、
請求項１に記載の端末。
３次元（３Ｄ）ビデオ通信システムであって、
２次元（２Ｄ）ビデオ通信または３Ｄビデオ通信を行うように構成される３Ｄ通信端末と、
前記２Ｄビデオ通信を行うように構成される２Ｄビデオ通信端末と、
前記３Ｄビデオ通信端末間または前記２Ｄビデオ通信端末間で伝送される２Ｄビデオデータまたは３Ｄビデオデータを運ぶように構成されるパケット網と、
を含む、３Ｄビデオ通信システム。
前記２Ｄビデオ通信端末間および／または前記３Ｄビデオ通信端末間の多地点ミーティング接続を制御するように構成される多地点制御システムをさらに含み、該多地点制御システムは、
前記通信端末により送信されるミーティング開始指令が受信されたとき、該指令により運ばれる能力情報に従ってミーティングの両側に３Ｄ撮影能力および３Ｄ表示能力があるか否かを判断するように構成される能力判断ユニットと、
前記両側に前記３Ｄ撮影能力および３Ｄ表示能力があると前記能力判断ユニットが判断したとき、前記ミーティングの前記両側の前記通信端末間で前記パケット網を介してミーティング接続を確立するように構成されるミーティング確立ユニットと、
を含む、請求項１２に記載のシステム。
前記多地点制御システムは、
一方の端末から受信された前記ビデオデータを前記２Ｄビデオデータに変換することを含み、データ形式を変換するように構成される変換ユニットと、および、
前記変換ユニットにより出力される前記２Ｄビデオデータをピア端末に送信するように構成される転送ユニットと、
を含み、
前記多地点制御システムの前記能力判断ユニットが、前記ミーティングの前記両側の一方に３Ｄ表示能力がないと判断したとき、前記変換ユニットが動作を開始する、
請求項１３に記載のシステム。
前記パケット網は、有線パケット網、または無線パケット網である、請求項１２に記載のシステム。
前記有線パケット網は、ローカルエリアネットワーク（ＬＡＮ）、Ｅ１、狭帯域サービス統合デジタル網（ＩＳＤＮ）、または広帯域ＩＳＤＮである、請求項１５に記載のシステム。
前記パケット網は、
前記パケット網上の各ユニットのアドレス変換、およびネットワークアクセス制御を提供するように構成されるゲートキーパと、
前記パケット網での通信の両者間の双方向通信、または別のゲートウェイとの双方向通信をリアルタイムで達成するように構成されるゲートウェイと、
を含む、請求項１２に記載のシステム。
３次元（３Ｄ）ビデオ通信端末であって、
撮影を行い、ビデオデータならびに深度および／または視差の情報を出力するように構成されるカメラおよび映像処理ユニットと、
前記カメラおよび映像処理ユニットにより出力される前記ビデオデータならびに前記深度および／または視差の情報を符号化するように構成される符号化ユニットと、
前記符号化ユニットにより出力される前記符号化されたデータをリアルタイム伝送プロトコルに適合するパケットにカプセル化し、パケット網を介して前記パケットをリアルタイムで送信するように構成される送信ユニットと、
を含む、３Ｄビデオ通信端末。
３次元（３Ｄ）ビデオ通信端末であって、
送信ユニットからパケットを受信し、前記パケットのプロトコルヘッダを取り除いて、復号されたデータを取得するように構成される受信ユニットと、
前記受信ユニットにより出力される前記符号化されたデータを復号して、ビデオデータならびに深度および／または視差の情報を取得するように構成される復号ユニットと、
前記復号ユニットにより出力される前記深度および／または視差の情報ならびに前記ビデオデータに基づいて、ユーザの角度で映像を再構成し、前記映像をレンダリングユニットに送信するように構成される再構成ユニットと、
前記再構成ユニットにより出力される前記再構成された映像のデータを３Ｄ表示装置上に描画するように構成されるレンダリングユニットと、
を含む、３Ｄビデオ通信端末。
前記復号ユニットにより出力される３Ｄビデオデータを２次元（２Ｄ）ビデオデータに変換するように構成される変換ユニットと、
前記変換ユニットにより出力される前記２Ｄビデオデータを表示するように構成されるパネル表示装置と、
をさらに含む、請求項１９に記載の端末。
双方向３次元（３Ｄ）ビデオ通信を行うための３Ｄビデオ通信方法であって、
ビデオデータを取得するために撮影を行い、
撮影対象の深度および／または視差の情報を前記ビデオデータから取得し、
前記ビデオデータならびに前記深度および／または視差の情報を符号化し、
前記符号化されたデータをリアルタイム伝送プロトコルに適合するパケットにカプセル化し、
パケット網を介して前記パケットを伝送する、
ことを含む、方法。
さらに、多視点符号化（ＭＶＣ）データを取得するために多視点撮影を行うことを含む、請求項２１に記載の方法。
前記双方向３Ｄビデオ通信は、さらに、カメラおよび映像処理ユニットの能力情報を運ぶミーティング開始指令を送信することを含み、
前記パケット網を介して前記パケットを送信した後に、前記方法は、さらに、
受信された前記ミーティング開始指令および運ばれた前記能力情報に従って両側の当事者に３Ｄ撮影能力および３Ｄ表示能力があるか否かを判断し、
両側に前記３Ｄ撮影能力および３Ｄ表示能力があるか否かの判断が行われたとき、前記パケット網を介して前記両側の通信端末間でミーティングを確立して、前記カメラおよび映像処理ユニットおよび前記両側の受信装置を起動する、
ことを含む、請求項２１に記載の方法。
前記ビデオデータを取得するために撮影することは、カメラの内部パラメータおよび外部パラメータを取得して、該内部パラメータおよび外部パラメータに従って撮影動作を補正することを含む、請求項２１に記載の方法。
３次元（３Ｄ）ビデオ通信方法であって、
ビデオデータを受信することを含み、該ビデオデータを受信することは、
パケット網を介してビデオパケットをリアルタイム伝送で受信し、次に、パケットのプロトコルヘッダを取り除いて、符号化された３Ｄビデオ符号化データを取得し、
前記符号化されたビデオデータを復号して、ビデオデータならびに関連する深度および／または視差の情報を取得し、
前記深度および／または視差の情報ならびに前記ビデオデータに従ってユーザの視野角での映像を再構成し、
前記再構成された映像のデータを３Ｄ表示装置上に描画する、
ことを含む、３Ｄビデオ通信方法。
前記符号化されたビデオデータを復号する後に、前記方法は、さらに、
ローカル側の表示装置に３Ｄ表示能力があるか否かを判断し、表示能力がない場合、前記復号された３Ｄビデオデータは２次元（２Ｄ）ビデオデータに変換され、パネル表示装置に送られることを含む、請求項２５に記載の方法。
前記パケットのプロトコルヘッダを取り除いた後で、かつ、前記データを復号する前に、前記方法は、さらに、
前記パケットが、多重化されたビデオデータを含むか否かを判断し、多重化されたビデオデータを含む場合、前記パケットは逆多重化される、請求項２５に記載の方法。
前記データを３Ｄ表示装置上に描画する前に、前記方法は、さらに、
前記復号されたデータを含む映像が再構成される必要があるか否かを判断し、
前記映像が再構成される必要があるときに、前記復号されたデータを含む映像を再構成する、
ことを含む、請求項２５に記載の方法。