本発明は、マルチポイントおよびポイントツーポイント会議アプリケーションのためのシステムおよび方法を提供する。システムおよび方法は、ビデオおよびオーディオデータを配信するように設計され、ビデオおよびオーディオデータは、適切なスケーラブル符号化技法を使用して符号化される。そのような技法は、ソースデータをいくつかの異なるビットストリームとして符号化し、そのいくつかの異なるビットストリームは、様々な時間的解像度、品質解像度(すなわちSNRの点での)、およびビデオの場合には空間解像度で、元の信号の表現を提供する。
便宜上、本明細書では本発明のシステムおよび方法を主にビデオ信号の文脈で説明する。しかし、システムおよび方法がオーディオ信号、あるいはビデオ信号とオーディオ信号の組合せで等しく動作可能であることを理解されよう。
図1に、マルチポイントおよびポイントツーポイント会議アプリケーションのための、電子またはコンピュータネットワーク環境で実装することのできる例示的システム100を示す。システム100は、1つまたは複数のネットワークサーバ(例えばScalable Video Conferencing Server(SVCS)110)を使用して、会議参加者またはクライアント120、130、および140へのカスタマイズデータの配信を調整する。SVCS110は、例えば、会議の他の参加者に送信するためにエンドポイント140で生成されたビデオストリーム150の配信を調整することができる。システム100では、ビデオストリーム150がまず、SVC技法を使用して多数のデータ構成要素(例えば、層150aおよび150b)として適切に符号化またはスケールダウンされる。複数のデータ層は、様々な特徴または機能(例えば空間解像度、フレームレート、画質、信号対雑音比(SNR)など)を有することができる。例えば、電子ネットワーク環境内の様々な個々のユーザ要件およびインフラストラクチャ仕様(例えば、CPU能力、ディスプレイサイズ、ユーザプリファレンス、および帯域幅)を考慮して、データ層の様々な特性または特徴を適切に選択することができる。
システム100の例示的実装は、様々なデータ要件または必要性を有する参加者間のマルチパーティ会議をサポートするように設計される。この実装では、受信機データストリーム(例えばビデオストリーム150)から、会議でのそれぞれの特定の参加者/受信側について適切な量の情報を選択し、選択/要求された量の情報だけをそれぞれの参加者/受信側に転送するようにSVCS110が適切に構成される。例えば、図1は、ビデオストリーム150から選択された量の情報(例えばデータストリーム122および132)を示し、それらがSVCS110によってそれぞれクライアント120および130に転送される。受信側エンドポイント要求(例えば、個々の会議参加者によって要求される画質)に応答して、ネットワーク条件およびポリシーの考慮時に適切な選択を行うようにSVCS110を構成することができる。
このカスタマイズデータ選択および転送方式は、SVCビデオストリームの内部構造を利用し、それにより、様々な解像度、フレームレート、および/または帯域幅などを有する複数の層にビデオストリームを明確に分割することが可能となる。図1は、会議へのエンドポイント140のメディア入力を表すSVCビデオストリーム150の例示的内部構造を示す。この例示的内部構造は、「基本」層150bと、1つまたは複数の別個の「拡張」層150aとを含む。層150aおよび150bは全体として、会議へのエンドポイント140のメディア入力150のすべてを表す。基本層150bは、ある基本品質レベルで元のメディアを復号化または回復するのに不可欠なものである。したがってSVCS110は、すべての受信側エンドポイント120および130に基本層150bを転送する。拡張層150aは、情報を追加して、回復されたメディアの品質を向上させるが、回復されたメディアは、選択された量だけが個々の受信側エンドポイント120および130に転送される。例えば、受信側エンドポイント130は低帯域幅クライアントでよく、図1に示される3つの拡張層150aのうちの1つだけを受信することを選ぶことができる。
システム100では、1つまたは複数のチャネル(例えばチャネル170および180。これらは仮想および/または物理チャネルでよい)を介してエンドポイントとの間のSVCデータストリーム(例えばビデオストリーム150)の伝送を実施することができる。SVCデータストリームの特定の層を搬送するように各データ搬送チャネルを設計することができる。例えば、High Reliability Channel(HRC)170は、基本画質データ層(基本層150b)を搬送することができる。同様に、1つまたは複数のLow Reliability Channel(LRC)180は、「ピクチャに対する拡張(enhancements-to-the-picture)」データ層(例えば、より良好な品質、解像度、またはフレームレートの層150a)を搬送することができる。LRCのいずれかに対する情報損失によって受信側ユニット(例えばSVCS110またはエンドポイント120および130)で受信される画質が大幅に、または許容できないほど劣化しないように、送信されるSVCデータストリームを構成または階層化することができる。信頼性の高いHRCを介する基本層の伝送は、受信されるピクチャが少なくとも最低限の画質または基本的な画質を有することを保証する。HRC170が未使用帯域幅を有する場合、基本層150bに加えて、HRC170を介して拡張層150aの一部またはすべても搬送することができる。HRC170が層のすべてを搬送するのに十分な帯域幅を有する場合、LRC180が全く使用されない可能性がある。そのような場合、LRC180ではなく、単一の通信チャネル(すなわちHRC170)のみがシステム100内に存在することができ、またはシステム100内に単一の通信チャネルのみを実装することができる。
高優先順位パケットでさえも失う可能性のあるベストエフォート型通信ネットワーク上のシステム100の実装は、「Method Of And Apparatus For The Transmission Of High And Low Priority Segments Of A Video Bitstream Over Packet Networks」という名称の米国特許第5,481,312号に記載されているような適切な拡張損失回復力および回復機構(例えば前方誤り訂正(FEC)機構および自動再送要求(ARQ)機構)を使用することにより、基本層伝送の保全性を保護することができる。参照特許は、参照によりその全体が本明細書に組み込まれる。差異化サービス(DiffServ)を可能にするインターネットプロトコル(IP)ネットワーク上のシステム100の実装では、DiffServによって提供される高信頼性接続を介して基本層を伝送することができる。
専用HRC170を確立する適切な方法が利用可能ではない実装において、または専用伝送チャネルの信頼性が不確かである場合、基本層伝送の保全性を保証するための代替方法を実装するようにシステム100を構成することができる。例えば、伝送ユニット(例えば送信側エンドポイント140またはSVCS110)がHRCを介する伝送の信頼性を高めることを意図した基本層情報の伝送を先取りして反復するようにシステム100を構成することができる。実際の反復伝送数は、伝送チャネル誤り条件に依存する可能性がある。別法として、または加えて、送信側ユニットが基本層情報をキャッシュし、受信側エンドポイントまたはSVCSの要求時に情報を再送信するようにシステム100を構成することができる。この要求時再送信(retransmission-upon-request)は少なくとも、元の伝送での情報損失が迅速に検出される場合に効果的であることがある。上述のシステム100構成は、利用可能な伝送チャネルタイプおよび条件に応じて、個々のクライアント-SVCS接続、SVCS-クライアント接続、SVCS-SVCS接続、およびそれらの任意の組合せ上での基本層情報の確実な配信に有用である。
システム100のある実装では、参加見込みの受信側エンドポイントに転送するために、受信されるSVCビデオストリーム(例えばビデオストリーム150)中の基本層情報および拡張層情報を再編または再指定するようにSVCS110を構成することができる。各参加見込みの受信側エンドポイントまたは受信側エンドポイントのグループについて、基本層および拡張層情報の再指定をカスタマイズすることができる。次いで、SVCS110は、再指定された基本層および拡張層をそれぞれ適切なHRC接続およびLRC接続を介して、参加見込み受信側エンドポイントに転送することができる。再指定プロセスにより、インバウンドHRCを介してSVCS110に送信された情報を再分類し、アウトバウンドLRC上で特定の受信側エンドポイントに転送することができる。逆に、インバウンドLRCを介してSVCS110に送信された情報を再分類し、アウトバウンドHRC上で特定の受信側エンドポイントに転送することができる。
1つまたは複数の選択可能な符号化構造または動作モードを使用するようにシステム100およびその構成要素(例えばSVCS100)を構成することができる。同時出願の米国特許出願[codec]には、ビデオ会議アプリケーションに適した例示的符号化構造が記載されている。図7を参照すると、例示的動作モードにおいて、時間解像度0、1、および2と呼ばれる3つの時間的解像度(例えば毎秒7.5、15、30フレーム)に対応する層と、空間解像度LおよびSと呼ばれる2つの空間的解像度(例えばQCIFおよびCIF)に対応する層とを含むようにSVCデータストリーム(例えばデータストリーム150)を符号化することができる。この命名法では、基本層は、毎秒7.5フレームのL0層である。S0は、CIF解像度および毎秒7.5フレームのソースの表現に対応し、S1は、CIF解像度および毎秒15フレームのソースの表現に対応する。
図7に示される多階層符号化フォーマットまたは構造は、L0ピクチャがL0ピクチャに基づいて符号化され(すなわちL0ピクチャから予測され)、L1ピクチャがL0ピクチャおよび/またはL1ピクチャに基づいて符号化され、L2ピクチャがL0ピクチャ、L1ピクチャ、および/またはL2ピクチャに基づいて符号化されるようなものである。空間的拡張層S0からS2を符号化するのに並列方式が使用される。この特定の方式では、L1およびL2層情報を復号する能力は、それぞれL0層およびL0+L1層の可用性に依存する。QCIFからCIFに高めるために、拡張解像度ピクチャ(enhanced resolution picture)(すなわち層S0、S1、S2)も利用可能にすることができる。S0〜S2層のいずれかを復号する能力は、下層の対応する1つまたは複数のL0〜L2層が利用可能であることを必要とする。さらに、S1層情報およびS2層情報を復号する能力は、それぞれS0層およびS0+S1層の可用性に依存する。
本発明の例示的アプリケーションでは、マルチポイントテレビ会議を確立するのにシステム100を使用することができる。会議では、送信側エンドポイントは、L0〜L2およびS0〜S2層フォーマットとして符号化されるその入力情報を受信側エンドポイントに転送するためにSVCS110に送信することができる。L0、L1、およびS0層をHRC上で送信することができ、L2、S1、およびS2層をLRC上で送信することができる。SVCS100は、階層化された情報を混合および整合し、各受信側エンドポイントに転送される情報量をカスタマイズすることができる。受信側エンドポイントは、例えば様々なビットレート、解像度、フレームレートを有する、カスタマイズされた混合および整合済みの層組合せ(mixed-and-matched layer combination)を受信することができる。表1に、SVCS110がHRCおよびLRCを介して受信側エンドポイントに転送することのできる、L0〜L2およびS0〜S2層の例示的な混合および整合済み層組合せを示す。
特定のエンドポイント(例えばエンドポイント120)に位置する会議参加者は、多くのビデオ会議参加者のうちのある特定の参加者(例えばエンドポイント140に位置する参加者)に選択的に注意を払うこと、または焦点を当てることを望むことがある。システム100により、エンドポイント120のそのような会議参加者が、対象とする参加者/エンドポイント(例えばエンドポイント140)の高品質ビュー(例えばCIF高フレームレート)と、他の対象としない会議参加者/エンドポイント(例えばエンドポイント130)についての一般的なより低品質のビュー(例えばQCIF低フレームレート)とを要求することが可能となる。SVCS110は、対象とするエンドポイントからの高品質ビューのカスタム化データストリーム150Hおよび対象としないエンドポイントからのより低品質のビューのカスタム化データストリーム150Lをそれぞれ、要求側参加者/エンドポイント120に転送することによって要求に応答する。次いで、要求側エンドポイント120は、受信したデータストリームすべてを復号し、要求したビデオ品質で各データストリームを個々に表示することができる。図1は、例えば、エンドポイント120の要求側参加者に提示される、対象とする参加者/エンドポイント140の高品質CIFビューディスプレイ190を示す。システム100は、表示に関する複数のレベルの追加の解像度、時間的解像度、および画質を提供できることを理解されよう。
SVCS100をさらに、対象とする送信側エンドポイントに、会議の任意のエンドポイントによる現要求のすべてを満たすのに必要な少なくとも最低限の量の品質および解像度情報をその入力データストリーム(例えばデータストリーム150)に含めるように指令するように構成することができる。
SVCS100は、マルチポイント会議のエンドポイント間で情報を調整またはルーティングするスイッチとして働く。図2は、ネットワークインターフェースカード(NIC)によって通信ネットワークにリンクされるSVC100の内部スイッチング構造の一例を示す。多層に符号化されている情報をスイッチング行列に従って多重化解除し、多重化し、切り換えるようにSVC100の内部スイッチング構造を設計することができる。ソフトウェアおよび/またはハードウェアユニット(例えばマルチプレクサおよびデマルチプレクサ)の任意の適切な構成として内部スイッチング構造を実現することができる。
システム100では、情報が、情報の最初に符号化された層フォーマットを維持しながら、SVCを介して送信側エンドポイントから受信側エンドポイントに搬送されることに気付くであろう。SVC110自体での中間復号化または再符号化操作は不要である。この特徴は、中間トランジットまたはブリッジングポイント(例えばMCU)が送信側エンドポイントから受信された符号化データを復号し、再符号化し、次いで再符号化後データを受信側エンドポイントに送信する「タンデム符号化プロセス」を配置する従来の会議構成とは対照的である。タンデム符号化プロセスは、情報の伝送でアルゴリズム遅延を導入し、さらに、関係する符号化/復号化の反復によって画質が低下する。
有利には、本発明の会議システムは、SVC技法を利用して、SVCS110を介してデータストリームを転送する際のアルゴリズム遅延を回避し、またはそれを最小限に抑え、拡張品質ビデオデータをエンドポイントに配信する。本発明の会議システムで使用することのできるSVC技法またはモードの追加の特徴が、例えば、参照により本明細書に組み込まれる同時出願の米国特許出願第[SVC]に記載されている。参照される特許出願は、SVCS110によるビデオストリーム情報の抽出および切換えを容易にする特定のビデオ符号化および伝送方式を記述している。
前述のように、有利には、本発明の会議システムおよび方法は、従来の会議構成で実現可能なものよりも優れており、信頼性の高い方式で、高品質、低遅延、機能豊富なビデオ会議機能を提供する。本発明の会議システムおよび方法の利点は、少なくとも部分的には、2つの会議システムユニット間で各SVCデータストリーム中の全体の情報の様々な部分を搬送するための1対の平行な経路またはチャネル(例えばHRCおよびLRC)の確立によるものである。所望の最小会議機能に必要で重要な又は不可欠な情報が、優れた伝送特性を有するチャネル(すなわちHRC。HRCは、より信頼性の高いチャネル、ジッタの低いチャネル、および/またはよりセキュアなチャネルでよい)を介して送信される。会議システム実装に於いて、HRCは、実装環境にとって実際的または適合するような任意の適切な方式で、確立することができる。表2は、様々な電子ネットワーク実装環境でHRCを確立するための例示的な実際的または適合するオプションを特定している。
単に図示および説明の都合上のために、図1では単一のSVCS110が例示的マルチポイント会議サーバ(SVCS)システム100に配置されるように示されていることを理解されよう。複数のSVCS110または同様のサーバをシステム100に配置してマルチポイントビデオ会議セッションを提供することができる。複数のSVCS110実装は、例えばマルチポイントテレビ会議が(例えば帯域幅のコストまたはサービス品質の点で)異機種ネットワークに渡るときに有利なことがある。複数のSVCS110実装はまた、会議接続要求(例えばマルチポイントテレビ会議セッションでの多数の参加者)が単一のSVCS110の能力(例えば物理的装置または帯域幅制限)を超える可能性が高いときに望ましいことがあり、または必要であることがある。複数のアクセスサービスプロバイダからの参加者、または複数の会議参加者が様々な会社の場所にいる地理的範囲の広い会社ネットワーク上の参加者間のアプリケーション・サービス・プロバイダー(ASP)ベースの会議を含む状況でテレビ会議セッションを実施するためには、いくつかのリンクされたSVCS110を配置することが特に有利であることがある。
縦続接続構成で複数のSVCS110をリンクまたは配置することができ、それにより、他の幾何学的構成に勝る良好なネットワーク使用率および良好なシステムスケーラビリティを実現することができる。ブリッジ(例えばハードウェアMCU)に基づく従来型会議技術は、多くの性能およびコスト上の理由により縦続接続構成には適していないことに気付くであろう。例えば、従来型会議構成では、複数のMCUを通過する呼は、横切ったMCUの数に比例する遅延を受け、または遅延を蓄積する。さらに、呼情報品質が、各MCUでのタンデム符号化プロセスのために、横切ったMCUの数に比例して低下する。さらに、従来型会議構成では、ピクチャ/データ解像度が、縦続接続されたMCUの数が増加するにつれて低下し、それによって参加者/エンドポイントは、他の参加者のうちの少なくとも一部のより高い解像度ピクチャを選択する能力を奪われる。一方、本発明のSVCSは、SVCSが縦続接続されたときであっても遅延を追加せず、画質が低下しない。
図3は、異機種かつ地理的に様々な通信ネットワークドメイン(例えばAOL、Verizon、Comcast、およびFrance Telecom Network)にわたって広がるマルチポイントテレビ会議セッションをホストすることのできる例示的SVCSシステム300を示す。SVCSシステム300は、複数のSVCS110を配置する。個々のSVCS110は、様々な通信ネットワークおよび/または様々なドメインに配置することができ、通信チャネル(例えばHRCおよびLRC)によって他のSVCS110にリンクされる。リンクされたSVCS110を、スター型構成トポロジ(図示)、フルメッシュ構成トポロジまたは冗長構成トポロジ、こうしたトポロジの混合、あるいは任意の他の適切な結合トポロジとして配置することができる。
動作の際に、単一マルチポイント会議セッションに関する通信を、様々なドメイン内または様々なネットワーク上に配置された複数のSVCS110を介して配布することができる。配置されるすべてのSVCS110は、会議構造およびトポロジ全体についての情報を共有することができる。さらに、リンクされたすべてのSVCS110を、情報ストリームを効率的にアドレス指定または経路指定するように(例えば、費用のかかる広域ネットワーク上に重複した情報を送ることを回避するように)構成することができる。
図3に示されるマルチポイントビデオ会議セッションでは、France Telecomドメイン内のすべての参加者/クライアント303は、「エンドポイントA」(例えば参加者/クライアント404)を高解像度で注視し、または見ることを好む可能性がある。逆に、Comcastのドメイン内のすべての参加者/クライアント202は、エンドポイントAを低解像度で注視し、または見ることを好む可能性がある。システム300は、システム100と同様に、会議参加者/クライアントの閲覧プリファレンスを認識および確認するように構成される。したがって、参加者/クライアント202および303の閲覧プリファレンスに応答して、システム300は、エンドポイントAの近接SVCS110(図示せず)に対してSVC低解像度基本層と高解像度拡張層情報のどちらもストリーミングするようにエンドポイントAに指令する。近接SVCS110は、基本層情報および拡張層情報を、SVCS110ネットワークのスター型構成の中央の、AOLドメイン内のSVCS110に転送する。参加者/クライアント303の閲覧プリファレンスに応答して、中央SVCS110は、France Telecom SVCS110に高解像度情報と低解像度情報のどちらも転送することができる。さらに、参加者/クライアント202の閲覧プリファレンスに応答して、中央SVCS110は、Comcast SVCS110に低解像度情報のみを転送することができる。図3では、中央SVCS110から下流側SVCS110に送信された情報のタイプが、それぞれ表示「A high + low」および「A low」で示されている。
システム300は対話式会議に適していることを理解されよう。AOLドメイン内に位置する中央SVCS110を有する、図3に示す集中型環境では、エンドポイントAから参加者/クライアント303への情報伝送は、3つのSVCS110(すなわち、近接SVCS、中央SVCS、およびFrance Telecom SVCS)を通過する。したがって、エンドポイントAとエンドポイントAの情報伝送の受信側303との間の信号遅延は、ネットワーク遅延足す、個々のSVCSユニット遅延の3倍とに等しい。しかし、本発明のスイッチング行列SVCS設計は、個々のSVCSユニット遅延が本質的にゼロであることを保証する。このことは、通常は200msよりも長い従来のMCU遅延と対照をなすことになる。システム300または類似のシステムで本発明のSVCSの代わりに従来のMCUを使用すると、エンドポイントAから参加者/クライアント303までの信号伝送で600msの遅延が追加されることになる。この遅延量により、従来のMCUベースのシステムは対話式会議に対して使用不能となる。
本発明のSVCSベースのシステムを、所望の会議機能を低下させる可能性のあるネットワーク輻輳または他の環境因子に対応するようにさらに構成することができる。例えば、システム300を構成することができる。ネットワーク輻輳を受けるエンドポイントまたはSVCSが、他のSVCSに信号を送って、他のSVCSに送られた拡張層を除去して転送しないようにし、会議セッションの維持または持続に対する、ネットワーク輻輳の影響を低減することができる。
さらに、または別法として、マルチポイント会議セッションに対してスケーラブル符号化ベースのレート制御を利用するように本発明のSVCSベースのシステムを構成することができる。この機能は、移動物体および突然の場面変化が送信されるビデオイメージの品質を維持するのに必要なビデオ帯域幅制御を実現することができる。通常、撮像された物体がビデオシーンで急激または突然に移動したとき、送信されるビデオ品質を維持するのに必要なビデオ帯域幅は、長期平均帯域幅要件よりも100%以上増加する可能性がある。従来の固定レートまたは非スケーラブルビデオベースのシステムでは、移動物体または場面変化によって引き起こされるビデオ品質の全体の劣化は、伝送ビットレートを維持してパケットの除去を回避する「プリエンプティブ劣化」伝送方式を使用することによって回避される。伝送ビットレートを維持することにより、フレームがスキップされ、SNRが低下し、これらのどちらも、少なくとも一時的にビデオ品質を低下させる可能性がある。しかし、大部分のビデオ閲覧状況では、そのような一時的または過渡的な品質変化は、閲覧者にとって目障りとなり、または当惑させるものとなる可能性がある。少なくともこの理由で、「プリエンプティブ劣化」伝送方式は、移動物体または突然の場面変化が伝送されるビデオイメージの品質を維持するのに満足の行く解決策ではない。本発明のスケーラブルビデオベースのシステムは、従来型固定レートビデオシステムでは許容される一時的または過渡的な品質変化さえも回避し、または最小限に抑えるように設計される。
ビデオ品質を低下させる運動または場面変化が検出されたとき、送信側エンドポイントがその基本層(例えば層150b)の伝送に関するビットレートを維持するが、その拡張層(150a)伝送に関する帯域幅を増大させるように本発明のスケーラブルビデオベースのシステムを構成することができる。拡張層で搬送される情報の増大は、基本層伝送での運動または場面変化によって引き起こされる固定レートの基本層伝送でのビデオ品質劣化を補償することができる。このようにして、少なくとも、基本層と拡張層をどちらも受信することのできる受信側エンドポイントについて、運動または場面変化を通じて、ビデオストリームの全体の品質を維持することができる。ネットワーク容量が受信側エンドポイントに基本層と拡張層のどちらも配信するのに十分なものである場合、ビデオ品質が維持される。ネットワーク容量が拡張層のより高いビットレート伝送を配信するのには不十分である場合、ビデオ品質のレベルは、従来型プリエンプティブ劣化方式の下で得られるはずのものと同じとなる可能性がある。拡張層情報の伝送を増大させることによってビデオ品質劣化を補償する方法は、ベースビットレートが一定に保たれないシステム実装でも適用可能である。
図4に、ビデオ品質劣化に対処する際の本発明のスケーラブル符号化ベースのレート制御システムおよび方法の利点を実証する一例を示す。この例では、SVCSによるマルチポイント会議構成でリンクされる4つの送信機からの組合せ帯域幅を調査した。シミュレーションでは、各送信機チャネルは2kビット/フレームのベース帯域幅、2〜8kビット/フレームの拡張層帯域幅を有し、拡張層帯域幅は、フレームの7%について10kビットだけ増大した。平均の全「フレームサイズ」は30kビットである。
図4は、各送信機チャネル上の帯域幅の標準偏差が平均帯域幅の約50%であり、組合せデータストリームの標準偏差は平均帯域幅のわずか約18%であることを示す。この約3:1の観測標準偏差比は、送信される信号情報がSVCSによる組合せストリーム上で1標準偏差でクリッピングされるときにクリッピングされるフレーム数と比較して、送信される信号情報をそれぞれの個々の送信機チャネル上で1標準偏差でクリッピングする結果、3倍の数のフレームがクリッピングされることを示す。後者の状況は従来型プリエンプティブ劣化方式に対応し、前者の状況は、上述のようにビットレートを調節することによってビデオ品質劣化を補償する本発明の方法に対応する。
ビデオ品質劣化に対処する際の本発明のスケーラブル符号化ベースのレート制御システムおよび方法は、任意の適切なアルゴリズムを使用して、データストリームを混合することができ、所与の参加者/エンドポイントに割り振られた全帯域幅を制御することができる。帯域幅割振りのためにSVCSで使用することのできる適切なアルゴリズムは、例えば統計的多重化、所与の参加者についてのネットワークアクセスのタイプ、ビットストリームの同期、および参加者/エンドポイントの選別格付け(triage)に基づくことができる。これらの例示的アルゴリズムのそれぞれの特徴を、以下のパラグラフで、マルチポイントビデオ会議アプリケーションの文脈で説明する。
統計的多重化: ビデオを劣化させる運動が、すべての参加者/エンドポイントで同時に生じる可能性は低い。ほとんどの場合、ある特定の時間に1人の参加者/エンドポイントのみが、運動または変化する場面を伴うビデオを送信する。したがって、SVCS110アルゴリズムは、特定の時間に1つの発信元のみが、その会議データストリームを送信するためにその帯域幅の長期平均シェアよりも多く寄与することを許可することができる。図4を参照しながら上記で説明したように、追加の帯域幅の割振りは、画質が低下する回数を低減する。
所与の参加者についてのネットワークアクセスのタイプ: 受信側エンドポイントが、ビデオストリーム帯域幅と比べて広い帯域幅を有するネットワーク接続を介して会議にアクセスすることができる場合がある。そのような場合、SVCS110は常に、向上した帯域幅補償の拡張品質層を受信側エンドポイントに転送することができる。さらに、SVCS110は、受信側エンドポイントと動的に通信し、向上した帯域幅の割振りの効果性を判定することができる。ある場合、向上した帯域幅のスパイクが受信されないことがあり、または向上した帯域幅のスパイクが、基本層伝送に関するチャネル品質を低下させる可能性がある(ジッタ、遅延、またはパケット損失の増大)。そのような場合、SVCS110は、必要に応じて拡張層伝送をクリッピングすることにより、基本層伝送についての平均ビットレートを維持または上昇させることができる。SVCS110は、残りの層の情報の配信についてサービス品質優先順位を再構成することもできる。
ビットストリームの同期: SVCデータストリームでは、ある符号化フレームは他のフレームよりも長くなる傾向がある。例えば、L0ピクチャはL1ピクチャよりも大きく、L1ピクチャも通常はL2ピクチャよりも大きい。様々なストリームに対してより大きいフレームをスタッガリング(staggering)することによって帯域幅一様性を達成することができる(例えば図5参照)。したがって、SVCS110は、会議エンドポイントの一部またはすべてに制御信号を送信して、標準時間的スレッディングシーケンス中のより大きいフレーム、または挿入することのできるイントラフレームがスタッガリングされ、それによってビットレートが特定の所望の値を超えてピークに達することがないように保証することができる。SVCS110は、会議参加者/エンドポイントのそれぞれによって生成されたレートを監視することができる。異なるビデオソースまたは新しいビデオソースからのより大きいパケットがSVCS110に同期して到着するとき、SVCS110は、会議参加者/エンドポイントのうちの1つまたは複数に、その時間的スレッディングシーケンスを変更してスタッガリングを達成するように指令することができる。参加者/エンドポイントは、例えばビデオソース上のサンプル時間を変更することによって、または階層化シーケンスをシフトすることによってその時間的スレッディングシーケンスを変更することができる。
参加者/エンドポイントの選別格付け: ある参加者/エンドポイントから受信した拡張層をレート制御のために廃棄しなければならない場合には、SVCS110は、情報を廃棄するために参加者/エンドポイントを優先順位付けすることを試みることができる。SVCS110は、より重要な参加者/エンドポイントに関連する拡張層を保持し、重要性の低い他の参加者/エンドポイントに関連する拡張層のみを廃棄することができる。SVCS110は、例えば会議でのアクティブな話者を識別することにより、より重要な参加者/エンドポイントを動的に識別することができる。SVCS110は、オーディオ層を介して、あるいはオーディオ会議装置または参加者/エンドポイントからそのような識別を受信することによって、アクティブな話者を識別することができる。あるいは、SVCS110は、会議優先順位ポリシーを先験的に確立することもでき、会議優先順位ポリシーは、組織内のランク、会議司会者機能、または他のアプリケーションレベル情報などの適切な基準に基づいて、所与の会議セッションの参加者/エンドポイントに優先順位を割り当てる。次いで、SVCS110は、先験的に割り当てられた優先順位を使用して、より重要な参加者/エンドポイントを識別することができる。
本発明のビデオ会議システムおよび方法を、ビデオ会議セッションでのオーディオ会議機能を統合するようにさらに構成することができる。一般に、オーディオ会議自体は、いくつかの理由のためにビデオ会議よりも実装が単純である。例えば、オーディオで必要とされる帯域幅は通常、ビデオに対して必要な帯域幅の5〜10%のみであり、オーディオ情報をパケット損失から保護することが、ビデオ情報を保護するよりも容易となる。さらに、オーディオ信号は、符号化/復号化のために必要な処理能力がビデオ信号よりも低い。オーディオ信号を符号化/復号化するのに必要な処理能力は、1〜2桁小さくてよい。さらに、オーディオパケットはビデオパケットよりもずっと短い時間フレームを含むことができるので、オーディオ信号遅延はビデオ信号遅延よりも制御可能である。しかし、パケットサイズを低減することによってオーディオ信号遅延を縮小することにより、それに対応して増加するパケットヘッダ数に関連する帯域幅オーバヘッドが増大する。したがって、少なくとも一部の帯域幅環境では、従来型オーディオ会議でのオーディオ信号品質は低くてよい。
本発明のSVCベースの統合オーディオおよびビデオ会議システムおよび方法は、オーディオ基本層信号とビデオ基本層信号の帯域幅が近く、同様のサービス品質(QoS)を必要とすることを認識することによってオーディオ信号遅延および品質問題に効果的に対処する。したがって、統合オーディオおよびビデオ会議システムでの送信側エンドポイントは、オーディオおよびビデオ基本層信号に関するペイロードを伝送用の単一パケットとして多重化し、それによってパケットオーバヘッドを低減するように構成される。組合せパケットは、受信側エンドポイントで(例えばポイントツーポイント呼出しで)、またはSVCS110で多重化解除することができる。ある実装では、外部関連オーディオ会議ブリッジ(オーディオMCU)がオーディオ会議機能を実施することができる。
ある実装では、本発明のSVCベースの統合オーディオおよびビデオ会議システムおよび方法は、スケーラブルオーディオ符号化(SAC)、または符号化ビットストリームから複数の品質を導出することのできる他のオーディオ符号化技法を使用することができる(図6参照)。SACの使用により、SVCS110または関連するオーディオ会議ブリッジでの信号処理の必要が最小限に抑えられる。そのような実装では、SVC110がSVCストリームを切り換えて転送するのと同じまたは類似の方式で、SACストリームを復号化/符号化することなく、SVCS110でSACストリームを切り換えて受信側エンドポイントに転送することができる(図1〜5)。SACは、複数のオーディオ品質を送信するのに効果的かつ効率的な方式を提供する方法である。しかし、オーディオとビデオが同一のネットワークを介して送信されるとき、複数の品質の非スケーラブルオーディオを送信することに勝るスケーラブルオーディオを送信することに関するビットレート節約は、スケーラブルビデオの場合の節約と比較して少ないことがある。ある状況では、例えばレガシー・システムとの互換性のために、SVCS110で切り換えられるスケーラブルビデオストリームと共に非スケーラブルオーディオストリームを引き続き使用することが望ましいことがある。
図6は、オーディオおよびビデオストリームを多重化および多重化解除する例示的構成を示す。構成600aは組合せオーディオおよびビデオストリーム610を示し、組合せオーディオおよびビデオストリーム610は、送信側エンドポイント140によって多重化され、並列のベストエフォート型チャネルと信頼性の高いチャネルを介して送信される。オーディオストリーム610が、非スケーラブル符号化される場合、オーディオストリーム610は、受信側エンドポイント120に転送するためにMCUまたは関連する会議サーバ630上で復号化および再混合される。オーディオストリーム610が、スケーラブル符号化される場合、受信側エンドポイント120のみで復号化してよい。
本発明のSVCおよびSACベースの統合オーディオおよびビデオ会議システムは、信号転送方式を使用して、会議参加者/話者間の対話式議論またはリアルタイム議論を妨害する可能性のあるオーディオクリッピング効果を最小限に抑え、または低減することができる。例示的方式では、各送信側エンドポイント140は、スケーラブルオーディオストリームを(低品質層および高品質層で)、そのストリームで表される話者の音量の標識と共に送信する。SVCS110は、音量標識でソートされた次のN人の話者に関する高品質および低品質(およびビットレート)層中の最強のストリームを受信側エンドポイントに転送する。Nは通常は1から3でよい。信号強度標識をSACSで計算することもできる。受信したストリームのすべてはエンドポイントで混合することができる。この方式では、ある話者からの信号がゆっくりと弱まって新しい話者が割り込むとき、トーク・スパート(talk spurt)の初期部分を含むスムースな遷移をすべての聴取者が利用可能である。そのような方式を用いない場合、話者が話し始めたときに話者のオーディオクリッピングが生じる可能性がある。このようにスケーラブルオーディオ符号化を利用することにより、本発明は、オーディオスイッチングに一般に関連する欠点を克服する。
図8は、複数のエンドポイント(例えばエンドポイント810A〜E)間の会議セッション801でのSACS800の動作の例示的構成を示す。SACS800は、複数の品質で符号化されるオーディオ信号830を受信および処理するように構成される。各エンドポイントは、様々な品質層または成分を有するオーディオ信号830を送信することができる。エンドポイント「i」からのオーディオ信号830中の様々な品質成分が図8に略図で示されており、増分品質層が、左側の基本層から始まって左側から右側に配列されている。SACS800は、各エンドポイント810A〜Eからのオーディオ信号830中の適切な量の情報を選び、会議セッション801の参加エンドポイントのそれぞれに転送する。選択され(例えば850Aおよび850B)、特定のエンドポイント(例えば、それぞれエンドポイント820Aおよび820B)に転送される情報の量およびタイプは、特定の受信側エンドポイントの特徴または必要に依存することがある。例えば、高品質音を再生することができ、そのような品質をサポートすることのできるネットワーク接続を有するエンドポイント820Aでは、SACS800は高品質情報850Aを転送することができる。逆に、高品質音を再生することができないか、又はそのような品質をサポートすることのできるネットワーク接続を有さないエンドポイント820Bでは、SACS800は、850Aより低品質の情報850Bのみを転送することができる。
図8に示される会議801の特定の時間または瞬間に、エンドポイント810Aを「アクティブな話者」とみなすことができ、その結果、その伝送830Aからより良好なオーディオ品質が聴取者に提供される。エンドポイント810Bおよび810Cを「一時的な話者」とみなすことができ、そのエンドユーザは、(i)現在は実際の話者であるが、エンドポイント810Aから生じる中断および雑音によって一時的に遮られている、(ii)エンドポイント810Aと同時に小さい音声で話している、または(iii)前の話者であり、その話者について、SACS800が、最高品質で始まり、最低品質で終わる信号成分の転送を徐々に停止している。これらすべての場合において、エンドポイント810Bおよび810Cからのオーディオ信号成分を、混合のために聴取者(例えばエンドポイント820Aおよび820B)が利用可能となる。この特徴により、様々な話者構成間のクリッピングのない遷移が可能となる。図8に示される会議例でのエンドポイント810Dおよび810Eは非話者であるとみなされるが、低品質情報830Dおよび830EをSACS800に送信中である。SACS800は、その音量がセッション801のN個の強いオーディオストリームのうちの1つとなった場合、この情報をオーディオミックス中に含むことができる。
あるオーディオ符号化技法では、受信機/デコーダはオーディオストリームを適切に復号化するために複数のパケットを必要とすることがある。さらに、デコーダは、その再生ジッタバッファを充填するために複数のパケットを必要とすることがある。そのような場合、すべての着信ストリームについて1つまたは複数のオーディオパケットをキャッシュし、適切な時に(例えば、そのようなストリームが受信機で必要とされるとみなされた後に)キャッシュしたものを受信機に転送するように、SACベースのサーバ(例えばSVCS110)を構成することができる。
低遅延オーディオが必要な会議アプリケーションでは、わずか10から20ミリ秒のサンプルを含むオーディオデータパケットが一般に使用される。そのようなアプリケーションでは、パケットヘッダ(例えば、IP、TCP、またはUDP、およびRTP情報)によって導入される、オーディオデータ(データ本体)に対する極めて著しいオーバヘッドが存在する。このオーバヘッドは200%もの高さとなる可能性がある。そのようなアプリケーションでは、特定の受信機に向けられた1つまたは複数のパケットを1つの組合せパケットに集約し、次いで1つの組合せパケットを受信機に送信することによってオーディオストリームに関するレート制御を実施するようにSACベースのサーバ(例えばSVCS110)を構成することができる。1つの組合せパケットの伝送によってヘッダオーバヘッドが低減されるが、その犠牲として、その特定の受信機への送信で遅延が導入される。集約/キャッシュ時間とパケットオーバヘッドの節約との平衡を取ることによってレート制御を実施するようにSVCS110を構成することができる。
このレート制御方式をさらに、エンドポイントで従来の無音および/または音量検出方式と組み合わせることができる。多くの音声通信システムでは、エンドポイントは無音検出方式を実施し、取り込まれたオーディオ中に音声情報が存在しないとみなされるときに、オーディオがネットワークで伝送されない。無音検出方式は、しきい値レベルを設定し、望ましくない雑音がネットワークを介して送信されないようにフィルタリングする。しかし、オーディオ伝送についてのこのしきい値レベルの設定によってはしばしば、話者割り込み(cut-in)のトーク・スパート(talk spurt)のクリッピングが生じる。本発明による例示的なSACベースの音声通信システムでは、2つのしきい値を実装することができ、低い方のしきい値の後、基本層情報がSACベースのサーバ(例えばSVCS110)によって送信され、高い方のしきい値の後、高品質拡張層が送信される。このようにして、話者割り込みトーク・スパートのクリッピングを最小限に抑えることができ、またはより目立たないようにすることができる。
上述の本発明のSVCおよびSACベースの会議システムおよび方法は、ゼロ遅延と、SVCS110の計算上効率的な会議機能とを使用する。本発明によれば、マルチパーティ呼出しとポイントツーポイント呼出しに共通しているSVCS110の機能を通信ネットワーク設計に統合することができ、または通信ネットワーク設計で利用することができるので有利である。例えば、セッションボーダーコントローラ、プロキシ、および他のファイアウォール、ならびにネットワークアドレス変換(NAT)トラバーサル機構との統合が有利となる可能性がある。すべてのこうした「メディアプロキシ」装置または機構は、(例えばポイントツーポイント呼出しについて)2つのドメインまたはネットワーク間のインターフェースポイント(ネットワークエッジ)上でサーバを通るメディアトラフィックをルーティングするサーバを使用することができる。例示的ネットワーク設計では、好ましくは、SVCS110はネットワークエッジ位置に配置される。あらゆるポイントツーポイント呼出しをマルチパーティ呼出しに拡張することができるので、SVCSをメディアプロキシ装置として使用すること、ならびにより高品質の呼出し構成変更(すなわちポイントツーポイントからマルチポイントに)を実施することが効率的であることがある。ネットワークエッジに配置されたSVCS110を、ビデオトラフィックの制御を改善するのに使用することができる。参照により本明細書に組み込まれる同時出願の米国特許出願第 号は、より良好なネットワーク使用率およびQoSリンクの管理を達成するために様々なビデオストリームの同期を含むビデオトラフィック制御の方式を説明している。
本発明の好ましい実施形態と考えられるものを説明したが、本発明の精神から逸脱することなくそれに対して別の変更および修正を行えることを当業者は理解するであろうし、すべてのそのような変更および修正が本発明の真の範囲内に包含されることを主張するものとする。
本発明によれば、ハードウェアとソフトウェアの任意の適切な組合せを使用してSVCS、SACS、および会議構成を実現できることも理解されよう。上述のSVCSおよび会議構成を実現しおよび動作させるソフトウェア(すなわち命令)をコンピュータ可読媒体上で提供することができ、コンピュータ可読媒体は、限定はしないが、ファームウェア、メモリ、記憶装置、マイクロコントローラ、マイクロプロセッサ、集積回路、ASIC、オンラインダウンロード可能媒体、および他の利用可能な媒体を含むことができる。