JP2010503280A - マルチメディア音声会議向け視覚的構成の管理技術 - Google Patents

マルチメディア音声会議向け視覚的構成の管理技術 Download PDF

Info

Publication number
JP2010503280A
JP2010503280A JP2009526799A JP2009526799A JP2010503280A JP 2010503280 A JP2010503280 A JP 2010503280A JP 2009526799 A JP2009526799 A JP 2009526799A JP 2009526799 A JP2009526799 A JP 2009526799A JP 2010503280 A JP2010503280 A JP 2010503280A
Authority
JP
Japan
Prior art keywords
video
display
client terminal
information
resolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009526799A
Other languages
English (en)
Other versions
JP5268915B2 (ja
Inventor
ブイ.バークレイ ウォーレン
エー.チョウ フィリップ
ジェイ.クリノン リージス
ムーア ティム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2010503280A publication Critical patent/JP2010503280A/ja
Application granted granted Critical
Publication of JP5268915B2 publication Critical patent/JP5268915B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/152Multipoint control units therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences

Abstract

マルチメディア音声会議向けの視覚的構成を管理する技術を説明する。装置はプロセッサを備えることができ、そのプロセッサは、全てのディスプレイオブジェクトに対するディスプレイオブジェクトビットレートの合計が入力ビットレートの合計以下になるように複数のディスプレイオブジェクトにディスプレイオブジェクトビットレートを割り当て、複数のビデオストリームからビデオ情報を復号化する。それらの複数のビデオストリームの各々は、様々なレベルの空間解像度、時間解像度および品質を2つ以上のディスプレイオブジェクトに対して持つ様々なビデオ階層を有する。他の実施形態も説明および主張してある。

Description

マルチメディア音声会議では一般に、複数のエンドポイント間の音声通信、ビデオ、および/またはデータ情報が関与する。データネットワークが拡大し、マルチメディア会議では従来の回線交換ネットワークよりパケットネットワークが使用されつつある。パケットネットワーク上でのマルチメディア音声会議を設定するため、一般には会議サーバが動作して音声会議を調整および管理する。会議サーバはビデオストリームを送信側の参加者から受信し、そのビデオストリームを音声会議の他の参加者にマルチキャストする。
ビデオ音声会議向けのデジタルビデオのようなマルチメディア情報の送信に関する1つの問題は、デジタルビデオにより(場合により、埋め込まれたデジタルオーディオと組み合わされて)記憶容量と送信容量が多くの場合大量に消費されることである。一般的な生のデジタルビデオシーケンスには毎秒15、30または60フレーム(フレーム/秒)が含まれる。各フレームには無数の画素が含まれる可能性がある。各画素は微小な画像要素を表す。生の形態では、画素は一般にコンピュータにより例えば24ビットで表現される。したがって、一般的な生のデジタルビデオシーケンスのビットレートまたは1秒当りのビット数は毎秒5百万ビット(ビット/秒)以上の大きさになる可能性がある。ほとんどのメディア処理装置および通信ネットワークには生のデジタルビデオを処理するリソースが不足している。このため、メディア通信システムでは情報源圧縮(コーディングまたは符号化とも呼ばれる)を用いてデジタルビデオのビットレートを低減する。復元(または復号化)は圧縮の逆を行う。
一般に、所与の処理装置および/または通信ネットワークに対して特定の種類のビデオ圧縮を選択することには設計のトレードオフが存在する。例えば、圧縮は、高いビットレートは得られないがビデオの品質の高さが維持されるロスレス、またはビデオの品質は落ちるがビットレートの減少がより劇的であるロッシーであることができる。ほとんどのシステム設計では、一連の所与の設計制約および性能要件に基づいて品質とビットレートとの間で何らかの妥協がなされる。結果として、所与のビデオ圧縮技術は一般に様々な種類のメディア処理装置および/または通信ネットワークには適していない。このことは、1つまたは複数の受信装置が複数のディスプレイフレーム、ウィンドウまたは他のオブジェクトを利用してマルチメディア音声会議の様々な参加者向けにビデオ情報を表示する際に特に問題になる恐れがある。この問題は、様々な話者集団を収容するための様々なディスプレイウィンドウに様々な参加者が現れるとさらに悪化する。
本発明の概要は選択した概念を簡潔な形で導入するために提供する。本概要は以下の発明を実施するための形態でさらに詳細に説明する。本概要により請求の範囲に記載されている主題の主要な特徴または本質的な特徴を特定することは意図しておらず、本概要を用いて請求の範囲に記載されている主題の範囲を限定することも意図していない。
様々な実施形態は一般に、ビデオ、イメージ、画像等のようなデジタルメディアコンテンツのデジタル符号化、復号化および処理を対象としている。幾つかの実施形態では、デジタルメディアコンテンツのデジタル符号化、復号化および処理は、SMPTE(Society of Motion Picture and Television Engineers)標準421M(「VC−1」)のビデオコーデックシリーズ標準およびその変形に基づくことができる。より詳細には、幾つかの実施形態は、複数の解像度ビデオ符号化および復号化技術、ならびに下位互換性を崩さずにその技術をVC−1ビットストリームで可能とする方法を対象としている。例えば、1つの実施形態では、デジタルビデオ情報を拡張SMPTE VC−1ビデオストリームまたはビットストリームに圧縮または符号化するように配置されたビデオ符号器を機器に含めることができる。ビデオ符号器は、ベース階層ならびに1つまたは複数の空間および/または時間拡張階層のような複数の階層の形でデジタルビデオ情報を符号化することができる。ベース階層は所定の最低限の空間解像度とベースレベルの時間解像度を提供することができる。1つまたは複数の拡張階層は符号化ビデオ情報を含むことができ、その符号化ビデオ情報を用いて、ベース階層に符号化されたビデオ情報に対するベースレベルの空間解像度および/またはベースレベルの時間解像度を増やすことができる。
様々な実施形態では、ビデオ復号器はビデオ情報をベース階層および1つまたは複数の拡張階層から選択的に復号化して、所望の品質レベルでビデオ情報を再生することができる。同様に、オーディオビデオマルチポイント制御装置(AVMCU)は、現在利用可能なネットワーク帯域幅と受信機の復号化能力のような情報に基づいて、ビデオ情報をベース階層および1つまたは複数の拡張階層から会議参加者に転送することを選択することができる。
幾つかの実施形態では特に、ビデオ情報をビデオストリームのベース階層および1つまたは複数の拡張階層から選択的に復号化して、音声会議に用いる視覚的構成向けの様々なレベルのビデオ解像度および品質でビデオ情報を再生するようにビデオ復号器を配置することができる。視覚的構成には一般にディスプレイウィンドウのような複数のディスプレイオブジェクトが含まれ、各々は音声会議の様々な参加者のビデオ情報を表示する。例えば、1つの実施形態では、受信クライアント端末のようなクライアントは処理システム、メモリおよびディスプレイを含むことができる。処理システムは、音声会議向け視覚的構成に対する複数のディスプレイオブジェクトにディスプレイオブジェクトビットレートを割り当てるように配置されたプロセッサを含むことができる。全てのディスプレイオブジェクトに対するディスプレイオブジェクトビットレートの合計がクライアント端末のようなクライアントに対する入力ビットレートの合計以下になるように上記の割り当てを行うことができる。クライアント端末は次いで、2つ以上のディスプレイオブジェクトに対して様々なレベルの空間解像度、時間解像度および品質を各々が有する様々なビデオ階層に対するサブスクリプション要求を、会議サーバまたは送信クライアント端末に対する上記の割り当てに基づいて送信することができる。このように、クライアント端末はその入力ビットレート割当量を効率的に使用することができる。あるいは、クライアント端末はスケーラブルビデオストリームを受信することができ、ビデオ復号器は適切なビデオ情報をビデオストリームの様々なビデオ階層から復号化することができる。このように、クライアント端末はその計算リソースを効率的に使用することができる。上記の復号化ビデオ情報を各ディスプレイフレームに描画して音声会議向けの視覚的構成を上記ディスプレイ上に作成するように、描画モジュール(例えば、ディスプレイチップセット)を配置することができる。
様々な実施形態は、会議サーバまたはAVMCU向けの適応スケジューリング技術も対象とすることができる。複数のビデオストリーム内の符号化ビデオ情報を受信するように配置された受信機を機器に含めることができる。その複数のビデオストリームの各々は、第1のレベルの空間解像度および第1のレベルの時間解像度を有するベース階層と、その第1のレベルの空間解像度または第1のレベルの時間解像度を増やす拡張階層とを含む様々なビデオ階層を有する。上記の機器は、上記の受信機に接続された適応スケジューリングモジュールをさらに含むことができる。音声会議において主要またはアクティブな話者の変化に応じて様々なビデオ階層を様々な時点で受信クライアント端末に送信するように上記の適応スケジューリングモジュールを配置することができる。他の実施形態も説明および主張してある。
マルチメディア会議システムの実施形態を示す図である。 視覚的構成の実施形態を示す図である。 コンピューティング環境の実施形態を示す図である。 クライアント端末の実施形態を示す図である。 論理フローの実施形態を示す図である。 ビデオキャプチャ再生システムの実施形態を示す図である。 一般的なビデオ符号化システムの実施形態を示す図である。 一般的なビデオ復号化システムの実施形態を示す図である。 ビデオ階層構造の実施形態を示す図である。 適応スケジューリング技術の第1の図を示す図である。 適応スケジューリング技術の第2の図を示す図である。 適応スケジューリング技術の第3の図を示す図である。
様々な実施形態は、マルチメディア音声会議向け視覚的構成の管理を対象とすることができる。マルチパーティのビデオ会議では、各受信クライアント端末はビデオストリームを、音声会議に参加し自身のビデオストリームを送信する他のクライアント端末の各々から受信する。受信クライアント端末は他の受信クライアント端末からの複数のビデオストリームを視覚的構成の形でディスプレイスクリーン上に配置することができる。視覚的構成は全てまたは一部の参加者からのビデオストリームを、所与のクライアント端末のディスプレイ装置上にモザイクとして描画または表示する。例えば、視覚的構成は現在アクティブな話者のビデオ情報を表示するためのトップディスプレイオブジェクトを有することができ、他の参加者のパノラマ表示をそのトップディスプレイオブジェクトの下に位置する小型のディスプレイオブジェクト集合により表示することができる。
各視覚的構成には異なる伝達要件がある。例えば、小型ディスプレイオブジェクトおよびピクチャインピクチャディスプレイには大型のディスプレイオブジェクトより低い空間解像度という要件があるかもしれない。同様に、あまりアクティブでない参加者のビデオ情報には、よりアクティブな参加者のビデオより低い時間解像度という要件があるかもしれない。一般に空間および/または時間解像度が低いと、SNR(signal−to−noise ratio)または他の測定基準で測定されることが多い所与の画像品質に対するビットレートは遅い。所与の時空間解像度に対して、一般に画像品質が低いとビットレートは遅く、一般に画像品質が高いとビットレートは速い。視覚的構成の中には、参加者の一部または全部に対して画像品質が低いという要件を有するものがあってもよい。
各クライアント端末は一般に、全入力ビットレート割当量、または制約、および全出力ビットレート割当量を有する。そのため、その入力ビットレートおよび出力ビットレートの割当量を効率的に利用することが1つの設計目標である。したがって、様々な実施形態ではスケーラブルビデオ表現を実装して、所与のクライアント端末がマルチメディア音声会議向けの視覚的構成を描画または表示するための全入力ビットレート割当量および/または全出力ビットレート割当量に対する利用および効率性を改善することができる。各ビデオストリームに対して複数の空間解像度、時間解像度、および品質レベルを利用できるので、クライアント端末は、視覚的構成に必要なビデオ情報のみを選択的に受信および/または復号化することにより、任意の所与の構成に対する自身の入力ビットレート割当量を効率的に利用することができる。
様々な実施形態では、視覚的構成モジュールをクライアント端末、会議サーバ、または音声会議で用いる任意の他の装置に実装することができる。視覚的構成モジュールはスケーラブルビデオストリームの全体または一部を受信することができ、それに応じて拡張復号化および視覚的構成表示の動作を実施することができる。様々な実施形態では、視覚的構成モジュールは所与のクライアント端末の複数のディスプレイオブジェクトに対する入力ビットレートの合計を受信することができる。いったん視覚的構成モジュールがクライアント端末に対する入力ビットレート割当量の合計を受信すると、視覚的構成モジュールはディスプレイオブジェクトビットレートを、クライアント端末の視覚的構成に用いる各ディスプレイオブジェクトに動的に割り当てることができる。視覚的構成モジュールはディスプレイオブジェクトビットレートを、後述のように任意数の因子に基づいて所与のディスプレイオブジェクトに割り当てることができる。例えば、幾つかの実施形態では、視覚的構成モジュールはディスプレイオブジェクトのサイズ、ディスプレイオブジェクトの位置、および所与の通信リンクまたはメディアチャネルに対する瞬間的なチャネル容量に基づいてディスプレイオブジェクトビットレートを割り当てることができる。
割り当て動作中は、視覚的構成モジュールはディスプレイオブジェクトビットレートの割り当てを、クライアント端末に対する入力ビットレートの合計以下である、全てのディスプレイオブジェクトに対するディスプレイオブジェクトビットレートの合計に制限する。視覚的構成モジュールは、アクティブな話者の変化、ディスプレイオブジェクトのサイズの変化、所与のディスプレイオブジェクト内のビデオ情報に対する動き量の変化、状態の変化(一時停止ビデオまたはストリーミングビデオ)等のような変化条件に基づいてディスプレイオブジェクトビットレートの割り当てを動的に変化させることができる。視覚的構成モジュールは、拡張ビデオ情報を拡張ビデオ符号器から復号可能なスケーラブルビデオ復号器にディスプレイオブジェクトビットレートの割り当てを出力することができる。スケーラブルビデオ復号器はディスプレイオブジェクトビットレートの割り当てを視覚的構成モジュールから受信し、スケーラブル復号化動作を開始して、そのディスプレイオブジェクトビットレートの割り当てに従ってビデオ情報を各ディスプレイオブジェクトに対する様々なビデオ階層から復号化することができる。所与のビデオ情報およびディスプレイオブジェクトの集合に対し、スケーラブルビデオ復号器は様々なレベルの空間解像度、時間解像度および品質を復号化することができる。あるいは、視覚的構成モジュールはサブスクリプションメッセージを会議サーバに送信して、視覚的構成内の各ディスプレイオブジェクトに対する所望のレベルの解像度および品質を有する様々なビデオ階層を要求することができる。このように、スケーラブルビデオ符号器/復号器および/または視覚的構成モジュールは、マルチメディア音声会議の複数の参加者に対応する複数のディスプレイオブジェクトで視覚的構成を描画する際に、所与のクライアント端末に対する入力ビットレートの効果的な使用を改善することができる。
様々な実施形態は、マルチメディア音声会議向けの適応スケジューリング技術も対象とすることができる。新たな主要またはアクティブな話者が所与の送信クライアント端末から話し始めると、会議サーバまたはAVMCUは、任意の受信クライアント端末がその新たな主要話者でディスプレイオブジェクトを描画し始めることができるように、新たなビデオキーフレームに対するキーフレーム要求を送信することができる。しかしながら、キーフレームは相対的に大きく、したがって他のビデオフレームと比較して送信時間が非常に長い。その結果、ビデオ遅延がより大きく、その新たな主要話者を参加者が見ることができるまでに数秒かかる。
様々な実施形態では、適応スケジューリングモジュールを用いてこれらおよび他の問題を解決することができる。送信クライアント端末のような別の装置の代わりに時間内にビデオ階層の送信を適応的にスケジューリングできるように、適応スケジューリングモジュールを配置することができる。その結果、主要またはアクティブな話者が話し始め、自身のビデオを送信し始める際の応答時間を改善することができる。低ビデオ階層を最初に送信し、追加の階層を徐々に送信して、長時間に渡ってビデオ品質を改善する。このように、新たな主要話者が話し始める際に、ある空間または時間解像度からより精度の良いものへスムーズに遷移し、それによりディスプレイオブジェクト内のスイッチを起動して新たな主要話者のビデオ情報を示すような視覚的構成を描画することができる。ビデオ階層の送信を適応的にスケジューリングすることで、ちらつき、ブランキング、および視覚的構成内で主要話者と対応するディスプレイオブジェクトとの間を遷移することにより発生する他の副作用を軽減することができる。
マルチメディア会議システム
図1にマルチメディア会議システム100のブロック図を示す。マルチメディア会議システム100により、様々な実施形態を実装するのに適した一般的なシステムアーキテクチャを表現することができる。マルチメディア会議システム100は複数の要素を備えることができる。要素は、ある特定の動作を実施するように配置された任意の物理または論理構造を備えることができる。各要素を、所与の一連の設計パラメータまたは性能制約に対して望ましいように、ハードウェア、ソフトウェア、またはそれらの任意の組み合わせで実装することができる。ハードウェア要素の例には、装置、コンポーネント、プロセッサ、マイクロプロセッサ、回路、回路要素(例えば、トランジスタ、レジスタ、キャパシタ、インダクタ、等)、集積回路、ASIC(applications pecific integrated circuit)、PLD(programmable logic device)、DSP(digital signal processor)、FPGA(field programable gate array)、記憶装置、論理ゲート、レジスタ、半導体素子、チップ、マイクロチップ、チップセット、等を含めることができる。ソフトウェアの例には、任意のソフトウェアコンポーネント、プログラム、アプリケーション、コンピュータプログラム、アプリケーションプログラム、システムプログラム、マシンプログラム、オペレーティングシステムソフトウェア、ミドルウェア、ファームウェア、ソフトウェアモジュール、ルーチン、サブルーチン、関数、メソッド、インタフェース、ソフトウェアインタフェース、API(application program interface)、命令セット、計算コード、コンピュータコード、コードセグメント、コンピュータコードセグメント、ワード、値、シンボル、またはそれらの任意の組み合わせを含めることができる。図1に示すように、マルチメディア会議システム100はある特定のトポロジで有限数の要素を有するが、マルチメディア会議システム100は所与の実装に対して望ましいように代替的なトポロジでそれより多いかまたは少ない要素を含んでもよいことは理解できるだろう。本実施形態はこの文脈に限定されない。
様々な実施形態では、メディア情報および制御情報のような様々な種類の情報を送信、管理または処理するようにマルチメディア会議システム100を配置することができる。メディア情報の例には一般に、音声情報、ビデオ情報、オーディオ情報、イメージ情報、テキスト情報、数値情報、英数字記号、グラフィック、等のようなユーザ向けのコンテンツを表現する任意のデータを含めることができる。制御情報は自動化システム向けのコマンド、命令または制御ワードを表現する任意のデータを指すことができる。例えば、制御情報を使用して、システムを通してメディア情報を経路付けして装置間の接続を確立し、所定の方法でメディア情報を処理するように装置に指示することができる、等である。ビデオフレームをビデオ情報から選択的に除去してビデオビットレートを下げる文脈で幾つかの実施形態を具体的に説明しているが、様々な実施形態は画像、イメージ、データ、音声、音楽またはそれらの任意の組み合わせのような任意の種類の所望のメディア情報の使用を網羅することに留意されたい。
様々な実施形態では、マルチメディア会議システム100は会議サーバ102を含むことができる。会議サーバ102は、クライアント端末106−1−m間のマルチメディア音声会議を管理または制御するように配置された任意の論理または物理エンティティを備えることができる。ここで、mは会議内の端末数を表す。様々な実施形態では、会議サーバ102は、コンピュータ、サーバ、ルータ、スイッチ、ブリッジ、等のような処理装置またはコンピューティング装置を備えるか、または会議サーバ102をそれらとして実装することができる。会議サーバ102に対する具体的な実装は、会議サーバ102に用いられる一連の通信プロトコルまたは標準により様々であってよい。1つの例では、会議サーバ102をITU(International Telecommunication Union)H.323シリーズの標準および/またはその変形に従って実装することができる。H.323標準は音声会議の動作を調整するためのMCU(multipoint control unit)を定義する。特に、MCUはH.245信号送信を扱うMC(multipoint controller)、およびデータストリームを混合および処理するための1つまたは複数のMP(multipoint processor)を含む。別の例では、会議サーバ102をIETF(Internet Engineering Task Force)MMUSIC(Multiparty Multimedia Session Control)作業部会のSIP(Session Initiation Protocol)シリーズの標準および/またはその変形に従って実装することができる。SIPは、ビデオ、音声、インスタントメッセージング、オンラインゲーム、および仮想現実のようなマルチメディア要素が関与する対話的なユーザセッションを開始、修正、および終了する提案標準である。H.323およびSIP標準は両方とも本質的に、VoIP(Voice over Internet Protocol)またはVOP(Voice Over Packet)マルチメディア音声会議の動作に対するシグナリングプロトコルである。しかしながら、他のシグナリングプロトコルを会議サーバ102に対して実装することができ、そのプロトコルが本実施形態の範囲内であることは理解できるだろう。本実施形態はこの文脈に限定されない。
様々な実施形態では、マルチメディア会議システム100は、1つまたは複数の通信リンク108−1−n上で会議サーバ102と接続するための1つまたは複数のクライアント端末106−1−mを含むことができる。ここで、mおよびnは正の数を表し、これらは必ずしも一致する必要はない。例えば、クライアントアプリケーションは、各々が別個の会議を表す幾つかのクライアント端末を同時にホストすることができる。同様に、クライアントアプリケーションは複数のメディアストリームを受信することができる。例えば、全てまたは一部の参加者からのビデオストリームを、参加者のディスプレイのトップウィンドウにモザイクとして、現在アクティブな話者のビデオで表示することができ、他の参加者のパノラマ表示を他のウィンドウに表示することができる。クライアント端末106−1−mは、会議サーバ102が管理するマルチメディア音声会議に参加または従事するように配置された任意の論理的または物理的エンティティを備えることができる。クライアント端末106−1−mを、プロセッサおよびメモリ(例えば、メモリユニット110−1−p)を含む処理システム、1つまたは複数のマルチメディア入出力(I/O)コンポーネント、ならびに無線および/または有線ネットワーク接続をその最も基本的な形において含む任意の装置として実装することができる。マルチメディアI/Oコンポーネントの例には、オーディオI/Oコンポーネント(例えば、マイクロフォン、スピーカ)、ビデオI/Oコンポーネント(例えば、ビデオカメラ、ディスプレイ)、触覚(I/O)コンポーネント(例えば、バイブレータ)、ユーザデータ(I/O)コンポーネント(例えば、キーボード、サムボード、キーパッド、タッチスクリーン)、等を含めることができる。クライアント端末106−1−mの例には、電話、VoIPまたはVOP電話、PSTN(Packet Switched Telephone Network)上で動作するように設計されたパケット電話、インターネット電話、ビデオ電話、携帯電話、PDA(personal digital assistant)、携帯電話とPDAの組み合わせ、モバイルコンピューティング装置、スマートフォン、単方向ページャ、双方向ページャ、メッセージング装置、コンピュータ、PC(personal computer)、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、ハンドヘルドコンピュータ、ネットワーク機器、等を含めることができる。本実施形態はこの文脈に限定されない。
動作モードにより、クライアント端末106−1−mを送信クライアント端末または受信クライアント端末と呼ぶことができる。例えば、ビデオストリームを会議サーバ102に送信するように動作する場合、所与のクライアント端末106−1−mを送信クライアント端末と呼ぶことができる。別の例では、例えば送信クライアント端末からのビデオストリームのようなビデオストリームを会議サーバ102から受信するように動作する場合、所与のクライアント端末106−1−mを受信クライアント端末と呼ぶことができる。後述する様々な実施形態では、クライアント端末106−1を送信クライアント端末として説明し、クライアント端末106−2−mを受信クライアント端末として説明するが、これは例に過ぎない。クライアント端末106−1−mのうち任意のものは音声会議の経過を通じて送信または受信クライアント端末として動作することができ、音声会議における様々な時点でモードを頻繁に切り替えることができる。本実施形態はこの点に限定されない。
様々な実施形態では、マルチメディア会議システム100は、有線通信システム、無線通信システム、またはその両方の組み合わせを備えるか、またはそれらの一部を形成することができる。例えば、マルチメディア会議システム100は、1つまたは複数の種類の有線通信リンク上で情報を送信するように配置された1つまたは複数の要素を含むことができる。有線通信リンクは、有線、ケーブル、バス、PCB(printed circuit board)、イーサネット(登録商標)接続、P2P(peer−to−peer)接続、バックプレーン、スイッチファブリック、半導体材料、ツイストペア線、同軸ケーブル、光ファイバ接続、等を含むことができるがこれらに限らない。マルチメディア会議システム100は、1つまたは複数の種類の無線通信リンク上で情報を送信するように配置された1つまたは複数の要素を含むこともできる。無線通信の例は、無線チャネル、赤外線チャネル、RF(radio−frequency)チャネル、WiFi(Wireless Fidelity)チャネル、RFスペクトルの一部、および/あるいは1つまたは複数の認可周波数帯域または自由周波数帯域を含むことができるがこれらに限らない。
メディア処理向けの様々な標準および/またはプロトコルに従って動作するようにマルチメディア会議システム100を配置することもできる。メディア処理標準の例には、SMPTE(Society of Motion Picture and Television Engineers)421M(「VC−1」)シリーズの標準およびその変形、MICROSOFT(登録商標) WINDOWS(登録商標) MEDIA VIDEOバージョン9(WMV−9)シリーズの標準およびその変形、DVB−T(Digital Video Broadcasting Terrestrial)放送標準、ITU/IEC H.263標準、低ビットレート通信向けビデオコーディング、2000年11月公開のITU−T勧告H.263v3および/またはITU/IEC H.264標準、超低速ビットレート通信向けビデオコーディング、2003年5月公開のITU−T勧告H.264、MPEG(Motion Picture Experts Group)標準(例えば、MPEG−1、MPEG−2、MPEG−4)、および/またはHiperLAN(High performance radio Local Area Network)標準が含まれるがこれらに限らない。メディア処理プロトコルの例には、SDP(Session Description Protocol)、RTSP(Real Time Streaming Protocol)、RTP(Real−time Transport Protocol)、SMIL(Synchronized Multimedia Integration Language)プロトコル、および/またはISMA(Internet Streaming Media Alliance)プロトコルが含まれるがこれらに限らない。本実施形態はこの文脈に限定されない。
例えば、1つの実施形態では、マルチメディア会議システム100の会議サーバ102およびクライアント端末106−1−mを、1つまたは複数のH.323シリーズの標準および/またはその変形に従って動作するH.323システムの一部として実装することができる。H.323は、コンピュータ、機器、およびサービス品質を保証しないネットワーク上でのマルチメディア通信サービスに関する仕様を提供するITU標準である。H.323のコンピュータおよび機器はリアルタイムビデオ、オーディオ、およびデータ、またはこれら要素の任意の組み合わせを有することができる。この標準は、コールシグナリングプロトコル、ならびにデータおよびオーディオビジュアル通信向けプロトコルを加えた、IETFのRTPおよびRTCPプロトコルに基づく。H.323はオーディオおよびビデオ情報をネットワーク上での送信向けにフォーマットおよびパッケージする方法を定義する。標準的なオーディオおよびビデオコーダ/復号器(コーデック)はオーディオおよびビデオソースからの入力/出力をノード間の通信向けに符号化および復号化する。コーデックはオーディオまたはビデオ信号をアナログおよびデジタル形式の間で変換する。さらに、H.323はデータ通信および会議向けのT.120サービスをH.323セッション内およびH.323セッションの次に行うことを規定する。T.120サポートサービスは、所与の実装に対して望ましいように、データ処理がH.323オーディオおよびビデオと関連して行われるか、または別個に行われるかのいずれかの可能性があることを意味する。
一般的なH.323システムに従って、会議サーバ102を、H.323ゲートウェイ、H.323ゲートキーパ、1つまたは複数のH.323端末106−1−m、ならびに(例えば、ローカルエリアネットワーク上の)パーソナルコンピュータ、サーバおよび他のネットワーク装置のような複数の他の装置に接続されたMCUとして実装することができる。H.323装置をH.323シリーズの標準またはその変形に準拠して実装することができる。以下でさらに説明するように、H.323クライアント端末106−1−mを各々“エンドポイント”と考える。H.323エンドポイントは、メディアチャネルの使用をネゴシエーションするためのH.245制御シグナリング、コールシグナリングおよびコールセットアップのためのQ.931(H.225.0)、H.225.0RAS(Registration,Admission,and Status)、ならびにオーディオおよびビデオパケットを配列するためのRTP/RTCPをサポートする。H.323エンドポイントは、様々なオーディオおよびビデオコーデック、T.120データ会議プロトコルおよびある特定のMCU機能をさらに実装することができる。幾つかの実施形態を例としてのみH.323システムの文脈で説明できるが、マルチメディア会議システム100を1つまたは複数のIETF SIPシリーズの標準および/またはその変形、ならびに他のマルチメディアシグナリング標準に従って実装してもよく、それらはなお本実施形態の範囲内にあることは理解できるだろう。本実施形態はこの文脈に限定されない。
一般的な動作では、マルチメディア会議システム100をマルチメディア音声会議に使用することができる。マルチメディア音声会議には一般に、音声、ビデオ、および/またはデータ情報を複数のエンドポイント間で送信することが含まれる。例えば、公衆パケットネットワークまたはプライベートパケットネットワークを、オーディオ音声会議、ビデオ音声会議、オーディオ/ビデオ音声会議、共同文書共有および編集(collaborative document sharing and editing)、等に使用することができる。パケットネットワークを、回線交換情報とパケット情報との間で変換するように配置された1つまたは複数の適切なVoIPゲートウェイを介してPSTNに接続することもできる。パケットネットワーク上でマルチメディア音声会議を設定するために、各クライアント端末106−1−mは、例えば低帯域幅PSTN電話接続、中間帯域幅DSLモデム接続またはケーブルモデム接続、およびLAN(local area network)上の高帯域幅イントラネット接続のような、様々な接続速度または帯域幅で動作する様々な種類の有線または無線の通信リンク108−1−nを用いて会議サーバ102に接続することができる。
マルチパーティのビデオ会議では、各受信クライアント端末106−2−mはビデオストリームを、音声会議に参加し自身のビデオストリームを送信する他のクライアント端末の各々から受信する。受信クライアント端末106−2−mは、他の受信クライアント端末106−2−mからの複数のビデオストリームをディスプレイスクリーン上に視覚的構成の形で配置することができる。これを例えば、それぞれクライアント端末106−1−mの一部として実装された視覚的構成モジュール110−1−pを用いて実現することができる。視覚的構成の代表例を、図2を参照して説明することができる。
図2は視覚的構成の例示的な実施形態を示す。図2は、所与のクライアント端末106−1−mのディスプレイ上にモザイクとして表示された全てまたは一部の参加者からのビデオストリームを有する視覚的構成200を示す。図2に示すように、トップディスプレイオブジェクト202は、現在アクティブな話者のビデオ情報を表示するように配置されたディスプレイウィンドウを備えることができ、他の参加者のパノラマ表示を、トップディスプレイオブジェクトの下に位置する小型のディスプレイオブジェクト集合204−1−vにより表示することができる。アクティブな話者が小型のディスプレイオブジェクト集合204−1−vの1つに表示されている参加者の1人に変わると、小型のディスプレイオブジェクト集合204−1−vの1つからのアクティブな話者のビデオ情報をトップディスプレイオブジェクト202に表示することができ、逆もまた同様である。視覚的構成200は視覚的構成の一例に過ぎず、所与の実装または特定の音声会議に対して望ましいように、様々な数のディスプレイオブジェクトおよび様々なサイズのディスプレイオブジェクトを有する他の視覚的構成を使用してもよいことは理解できるだろう。例えば、ディスプレイオブジェクト202、204を(例えば、背景ありまたは背景なしの)“ヘッドアンドショルダ”カットアウト、他のオブジェクトを重ね合わせることができる透過オブジェクト、遠近法での長方形領域、等として実装することができる。本実施形態はこの文脈に限定されない。
図2に示すように、視覚的構成200は、現在アクティブな話者を含むメインウィンドウ、他の参加者の複数の小型ウィンドウ、および半透過的に重ね合わせたような他の要素を含むことができる。さらに、視覚的構成は動的であることができる。アクティブな話者は変わる可能性があるので、音声会議内の他の参加者をメインウィンドウおよびピクチャインピクチャを通して交代させることができる。場合によっては、全ての参加者が常に見えていなくともよい。可視である参加者の集合は時間とともに変わってもよい。
幾つかの実施形態では、視覚的構成は複数の会議に関与することができる。参加者は、互いに対する関係と相対的な重要性に従って、各音声会議を適切に配置させたいかもしれない。原則として、これらの会議は互いに完全に独立している可能性がある。しかしながら、場合によっては、それらはメイン会議のサブ会議であろう。例えば、補助会議は主要会議の別の参加者とのサイドチャットであるかもしれない。
各クライアント端末106−1−mは独自の一意的な視覚的構成を構築することを選択できる。一般に、ビデオ情報を構成から完全に削除するかまたは特別な位置に置くなど、クライアント端末106−1−m上に表示する際にクライアント端末106−1−mのユーザに対してビデオ情報を描画することには特別な処置が存在する。
各視覚的構成には異なる伝達要件がある。例えば、小型ディスプレイオブジェクトおよびピクチャインピクチャディスプレイには、大型のディスプレイオブジェクトより低い空間解像度という要件があるかもしれない。同様に、あまりアクティブでない参加者のビデオ情報には、よりアクティブな参加者のビデオより低い時間解像度という要件があるかもしれない。
空間解像度は一般に、測定されている空間の細部に関する精度の測定値を指すことができる。デジタルビデオの文脈では、空間解像度をフレーム、画像またはイメージ内の画素数で測定または表現することができる。例えば、640×480画素のデジタルイメージサイズは326,688個の個々の画素と等価である。一般に、高い空間解像度を有するイメージは低い空間解像度のイメージより多い数の画素で構成される。空間解像度はとりわけ、ビデオフレーム、画像、またはイメージの画像品質に影響を及ぼす可能性がある。
時間解像度は一般に、時間に関する特定の測定精度を指すことができる。デジタルビデオの文脈では、時間解像度をフレームレート、または15フレーム/秒、30フレーム/秒、60フレーム/秒のような秒ごとにキャプチャされたビデオ情報のフレーム数、等で測定または表現することができる。一般に、高い時間解像度は、低い時間解像度のものよりも多い1秒当りのフレーム数を指す。時間解像度はとりわけ、ビデオイメージまたはフレームのシーケンスに対する動き表現に影響を及ぼす可能性がある。ビデオストリームまたはビットストリームは、オーディオおよび/またはビデオ情報を表す連続的なセグメント(例えば、ビットまたはバイト)のシーケンスを指すことができる。
一般に空間および/時間解像度が低いと、SNR(signal−to−noise ratio)または他の測定基準で測定されることが多い所与の画像品質に対するビットレートは遅い。所与の時空間解像度に対して、一般に画像品質が低いとビットレートは遅く、一般に画像品質が高いとビットレートは速い。視覚的構成の中には、参加者の一部または全部に対して画像品質が低いという要件を有するものがあってもよい。
各クライアント端末106−1−mは一般に、全入力ビットレート割当量、または制約、および全出力ビットレート割当量を有する。そのため、その入力ビットレートおよび出力ビットレートの割当量を効率的に利用することが1つの設計目標である。したがって、様々な実施形態ではスケーラブルビデオ符号器104を実装して、所与のクライアント端末106−1−mがマルチメディア音声会議向けの視覚的構成を描画または表示するための全入力ビットレート割当量および/または全出力ビットレート割当量に対する利用および効率性を改善することができる。各ビデオストリームに対して複数の空間解像度、時間解像度、および品質レベルを利用できるので、クライアント端末106−1−mは、視覚的構成に必要なビデオ情報のみを選択的に受信および/または復号化することにより、任意の所与の構成に対する自身の入力ビットレート割当量を効率的に使用することができる。
様々な実施形態では、埋め込みコーディングまたは階層コーディングと呼ばれることがある1つまたは複数のスケーラブルコーディング技術および復号技術を用いて動作するように、スケーラブルビデオ符号器104を実装することができる。スケーラブルコーディングは、会議サーバ102のような送信機が複数の空間解像度、時間解像度、および品質レベルを生成して、全出力ビットレート割当量を効率的に利用しつつこれらの複数のレベルを送信するための効率的な方法である。対照的に、従来は、複数バージョンの同一ビデオは独立した符号化情報として生成され、全て並列に送信される。この技術は“サイマルキャスト”と呼ばれることもある。サイマルキャスト技術は一般に全入力ビットレート割当量および/または全出力ビットレート割当量を非効率的に利用する。マルチメディア会議システム100を一般に、およびスケーラブルビデオ符号器104およびビデオ構成モジュール110−1−pを特に、図3を参照して説明することができる。
図3はコンピューティング環境300のブロック図を示す。コンピューティング環境300を、会議サーバ102および/またはクライアント端末106−1−mのような装置、または装置の一部として実装することができる。幾つかの実施形態では、ソフトウェア310を実行するようにコンピューティング環境300を実装することができる。ソフトウェア310の例には、スケーラブルビデオ符号器104および/または視覚的構成モジュール110−1−pを含めることができる。例えば、コンピューティング環境300を会議サーバ102の一部として実装する際は、ソフトウェアプログラム310にスケーラブルビデオ符号器104ならびに/または視覚的構成モジュール110−1−pおよびその付随データを含めることができる。別の例では、コンピューティング環境300をクライアント端末106−1−mの一部として実装する際は、ソフトウェアプログラム310にスケーラブルビデオ符号器104ならびに/または視覚的構成モジュール110−1−pおよびその付随データを含めることができる。さらに別の例では、コンピューティング環境300を会議サーバ102および/またはクライアント端末106−1−mの一部として実装する際は、ソフトウェアプログラム310に、一般に電気、電子、および/または電気機械装置向けに実装されるオペレーティングシステムまたは他のシステムソフトウェアを含めることができる。コンピューティング環境300により記憶および実行されるソフトウェアとして実装されたスケーラブルビデオ符号器104および/または視覚的構成モジュール110−1−p向けの動作で幾つかの実施形態を説明できるが、ソフトウェアモジュール104、110に対する動作を専用ハードウェア、ソフトウェア、またはそれらの任意の組み合わせを用いて実装してもよいことは理解できるだろう。本実施形態はこの文脈に限定されない。
最も基本的な構成では、コンピューティング環境300は一般に、少なくとも1つの処理装置302とメモリ304とを備える処理システム308を含む。処理装置302は、汎用目的プロセッサ、専用プロセッサ、メディアプロセッサ、コントローラ、マイクロコントローラ、組み込みプロセッサ、DSP(digital signal processor)、等のような、ソフトウェアを実行できる任意の種類のプロセッサであることができる。メモリ304を、揮発性および不揮発性メモリの両方を含む、データを記憶可能な任意の機械読取可能またはコンピュータ読取可能媒体を用いて実装することができる。例えば、メモリ304はROM(read−only memory)、RAM(random−access memory)、DRAM(dynamic RAM)、DDRAM(Double−Data−Rate DRAM)、SDRAM(synchronous DRAM)、SRAM(static RAM)、PROM(programmable ROM)、EPROM(erasable programmable ROM)、EEPROM(electrically erasable programmable ROM)、フラッシュメモリ、強誘電体ポリマメモリのようなポリマメモリ、オボニックスメモリ、相変化または強誘電体メモリ、SONOS(silicon−oxide−nitride−oxide−silicon)メモリ、磁気または光カード、あるいは情報の記憶に適した任意の他種の媒体を含むことができる。
図3に示すように、メモリ304は、スケーラブルビデオ符号器104、視覚的構成モジュール110、および付随データのような様々なソフトウェアプログラム310を記憶することができる。スケーラブルビデオ符号器104に関する場合のような幾つかの場合、1つのメディアストリームを一度に処理するよう設計すると、ソフトウェアプログラム310をメモリ内で複製しなければならない可能性がある。同様に、ホストシステムがマルチコアのマルチプロセッサベースコンピューティングプラットフォームである場合、プロセッサ302およびスケーラブルビデオ符号器104を数回複製することができる。メモリ304は、様々な種類のオペレーティングシステムソフトウェア、アプリケーションプログラム、ビデオコーデック、オーディオコーデック、呼制御ソフトウェア、ゲートキーパソフトウェア、マルチポイントコントローラ、マルチポイントプロセッサ、等のような、会議サーバ102の様々な態様を実装するための他のソフトウェアプログラムを記憶することもできる。あるいは上記の動作を、所与の実装に対して望ましいように専用ハードウェア(例えば、DSP、ASIC、FPGA、等)あるいはハードウェア、ファームウェアおよび/またはソフトウェアの組み合わせの形で実装することができる。本実施形態はこの文脈に限定されない。
コンピューティング環境300は構成308以外の追加の特徴および/または機能性を有することもできる。例えば、コンピューティング環境300は記憶装置312を含むことができ、記憶装置312は様々な種類の取り外し可能または取り外し不能記憶装置を備えることができる。記憶装置312を、前述のように様々な種類の機械読取可能またはコンピュータ読取可能媒体のうち任意のものを用いて実装することができる。コンピューティング環境300はキーボード、マウス、ペン、音声入力装置、タッチ入力装置、等のような1つまたは複数の入力装置314を有することもできる。ディスプレイ装置、スピーカ、プリンタ、等のような1つまたは複数の出力装置316も同様にコンピューティング環境300に含めることができる。
コンピューティング環境300はさらに1つまたは複数の通信接続318を含むことができ、それによりコンピューティング環境300は通信リンク108−1−nを介して他の装置と通信することができる。通信接続318は、1つまたは複数の通信インタフェース、ネットワークインタフェース、NIC(network interface card)、無線、無線送信機/受信機(トランシーバ)、有線および/または無線通信媒体、物理接続、等のような様々な種類の標準的な通信要素を含むことができる。通信媒体は一般にコンピュータ読取可能命令、データ構造、プログラムモジュールまたは他のデータを、搬送波または他の伝送メカニズムのような変調データ信号で具現化し、任意の情報配信媒体を含む。「変調データ信号」という用語は、1つまたは複数のその特性集合を有し、または信号内の情報を符号化するように変化する信号を意味する。限定ではなく例として、通信媒体には前述のように有線通信媒体および無線通信媒体の両方が含まれる。本明細書で用いる機械読取可能媒体およびコンピュータ読取可能媒体という用語は、記憶媒体と通信媒体の両方を含む。
様々な実施形態では、コンピューティング環境300をクライアント端末106−1−mの一部または全部として実装することができる。特に、コンピューティング環境300をソフトウェアプログラム310で実装して、1つまたは複数の視覚的構成モジュール110−1−pを含めることができる。マルチパーティのビデオ会議では、各受信クライアント端末106−1−mはビデオストリームを、音声会議に参加し自身のビデオストリームを送信する他のクライアント端末の各々から受信する。所与のクライアント端末106−1−mに対し、視覚的構成モジュール110−1−pは、他のクライアント端末106−1−mからの複数のビデオストリームを例えば視覚的構成200のようなディスプレイスクリーン上の視覚的構成内に配置することができる。
様々な実施形態では、各視覚的構成には異なる伝達要件がある。例えば、小型ディスプレイオブジェクトおよびピクチャインピクチャディスプレイには大型のディスプレイオブジェクトより低い空間解像度という要件があるかもしれない。同様に、あまりアクティブでない参加者のビデオ情報には、よりアクティブな参加者のビデオより低い時間解像度という要件があるかもしれない。一般に空間および/時間解像度が低いと、SNRまたは他の測定基準で測定されることが多い所与の画像品質に対するビットレートは遅い。所与の時空間解像度に対して、一般に画像品質が低いとビットレートは遅く、一般に画像品質が高いとビットレートは速い。視覚的構成の中には、参加者の一部または全部に対して画像品質が低いという要件を有するものがあってもよい。
各クライアント端末106−1−mは一般に、全入力ビットレート割当量、または制約、および全出力ビットレート割当量を有する。そのため、その入力ビットレートおよび出力ビットレートの割当量を効率的に利用することが1つの設計目標である。様々な実施形態ではスケーラブルビデオ符号器104を会議サーバ102または様々なクライアント端末106−1−mで実装して、所与のクライアント端末106−1−mがマルチメディア音声会議向けの視覚的構成を描画または表示するための全入力ビットレート割当量および/または全出力ビットレート割当量に対する利用および効率性を改善することができる。各ビデオストリームに対して複数の空間解像度、時間解像度、および品質レベルを利用できるので、クライアント端末106−1−mは、視覚的構成内の様々なディスプレイオブジェクトに必要なビデオ情報のみを選択的に受信および/または復号化することにより、任意の所与の視覚的構成に対する自身の入力ビットレート割当量を効率的に使用することができる。クライアント端末106−1−mおよび対応する視覚的構成モジュール110−1−pを、図4を参照してさらに説明することができる。
図4は代表的なクライアント端末の実施形態を示す。図4では、クライアント端末106−1−mの任意の1つを代表するクライアント端末のより詳細なブロック図を提供している。図4に示すように、クライアント端末106は、1つまたは複数の符号化ビデオストリーム402−1−oを入力として受信するように配置された有線または無線パーサ404−1−pを備えることができる。例えば、1つの実施形態では、符号化ビデオストリーム402−1−oを、会議サーバ102の一部として実装されたスケーラブルビデオ符号器104により生成することができる。符号化ビデオストリーム402−1−oは、様々なビデオ階層で符号化されたビデオ情報を含むことができる。各ビデオ階層は様々なレベルの空間解像度、時間解像度および品質を有することができる。スケーラブルビデオ符号器104は様々なビデオ階層を符号化ビデオストリーム402−1−oに多重化し、ビデオストリーム402−1−oを1つまたは複数の通信接続318を介して通信リンク108上で送信することができる。スケーラブルビデオ符号器104および符号化ビデオストリーム402−1−oを、図6〜9を参照して以下でさらに詳細に説明することができる。
様々な実施形態では、符号化ビデオストリーム402−1−oを1つまたは複数のパーサ401−1−pで受信することができる。パーサ404−1−pは受信したビデオストリーム402−1−oを、各々をパーサ401−1−pと通信可能に接続された1つまたは複数のスケーラブルビデオ復号器406−1−rに出力することができる。パーサ404−1−pは受信したビデオストリーム402−1−oおよび/またはスケーラブルインジケータを、やはりパーサ404−1−pに通信可能に接続された視覚的構成モジュール110に出力することもできる。
様々な実施形態では、視覚的構成モジュール110はビデオストリーム402−1−oおよび/またはスケーラブルインジケータをパーサ404−1−pから受信することができる。両方の場合において、視覚的構成モジュール110はビデオストリーム402−1−oまたはスケーラブルインジケータを使用して、ビデオストリーム402−1−oが、様々なレベルの空間解像度、時間解像度、および/または品質を有する様々なビデオ階層を含むかどうかを判断することができる。ビデオストリーム402−1−oまたはスケーラブルインジケータの値を検査して非スケーラブルビデオストリームがあることが分かると、ビデオ復号器406−1−qは通常通り復号化動作および視覚的構成の表示動作を行うことができる。視覚的構成モジュール110によりビデオストリーム402−1−oがスケーラブルビデオストリームであると判断されると、ビデオ復号器406−1−qはそれに応じて拡張復号化を行うことができる。後者の場合、ビデオスビットトリーム内で復号化される空間または時間スケールの量、およびビデオビットストリーム内で空間または時間スケールのどちらを復号化するかを視覚的構成モジュール110により決定する。いずれの場合も、同一の視覚的構成モジュール110を使用して、全入力ビットレート割当量または復号化性能のような別の制約を超過しないように、全ての構成ウィンドウに渡って空間、時間解像度の割り当てを調整することができる。
例えば、1つの実施形態では、視覚的構成モジュール110は、クライアント端末106の複数のディスプレイオブジェクトに対する入力ビットレートの合計を受信することができる。入力ビットレート値の合計をメモリ304から静的に受信するか、または描画モジュール408−1−r、通信インタフェース、トランシーバ、オペレーティングシステム、等から動的に受信することができる。入力ビットレート値の合計により、クライアント端末106に対する入力ビットレート割当量の合計を示すことができる。入力ビットレート割当量の合計は、通信リンク108の瞬間的な帯域幅、処理装置302の処理速度、メモリ304のメモリサイズ、メモリ帯域幅(例えば、メモリバス速度、アクセス時間、等)、ユーザが選択した品質および解像度基準、ディスプレイオブジュクトのサイズ、ディスプレイオブジェクトの位置、ディスプレイオブジェクトに対するビデオフレームシーケンス内の動き量、コーディングビットレート、グラフィックバス速度、等のような多数の因子に従って変化してもよい。さらに、入力ビットレート割当量の合計は1つまたは複数のこれらの因子に対する条件の変化に応じて、時間とともに変化してもよい。
いったん視覚的構成モジュール110がクライアント端末106に対する入力ビットレート割当量の合計を受信すると、視覚的構成モジュール110はディスプレイオブジェクトビットレートを、クライアント端末106での視覚的構成に用いられる各ディスプレイオブジェクトに割り当てることができる。視覚的構成モジュール110は、入力ビットレート割当量の合計に関して前述した任意数の因子に基づいて、ディスプレイオブジェクトビットレートを所与のディスプレイオブジェクトに割り当てることができる。例えば、幾つかの実施形態では、視覚的構成モジュール110はディスプレイオブジェクトビットレート値を、ディスプレイオブジェクトのサイズ、ディスプレイオブジェクトの位置、および通信リンク108に対する瞬間的なチャネル容量に基づいて割り当てることができる。
割り当て動作中は、視覚的構成モジュール110はディスプレイオブジェクトビットレートの割り当てを、クライアント端末106に対する入力ビットレートの合計以下である、全てのディスプレイオブジェクトに対するディスプレイオブジェクトビットレートの合計に制限する。視覚的構成モジュール110は、アクティブな話者の変化、ディスプレイオブジェクトのサイズの変化、所与のディスプレイオブジェクト内のビデオ情報に対する動き量の変化、状態の変化(一時停止ビデオまたはストリーミングビデオ)等のような変化条件に基づいて、ディスプレイオブジェクトビットレートの割り当てを動的に変化させることができる。視覚的構成モジュール110はディスプレイオブジェクトビットレートの割り当てを、視覚的構成モジュール110に通信可能に接続されたスケーラブルビデオ復号器406−1−qに出力することができる。
様々な実施形態では、クライアント端末106は一連のスケーラブルビデオ復号器406−1−qを、各ビデオストリーム402−1−oに対して1つのビデオ復号器406に含むことができる。スケーラブルビデオ復号器406−1−qは各々、それぞれの符号化ビデオストリーム402−1−oから拡張ビデオ情報を復号化可能なビデオ復号器を備えることができる。一般に、スケーラブルビデオ復号器406−1−qは、会議サーバ102で実装されたスケーラブルビデオ符号器104に適合するので、同様なスケーラブル復号化アルゴリズムに対応し、そのアルゴリズムを使用することができる。例えば、1つの実施形態では、スケーラブルビデオ復号器406−1−qは各々、ディスプレイオブジェクトビットレートの割り当てを視覚的構成モジュール110から受信し、スケーラブル復号化動作を開始して、そのディスプレイオブジェクトビットレートの割り当てに従ってビデオ情報を各ディスプレイオブジェクトに対する様々なビデオ階層から復号化することができる。所与のビデオビットストリームおよびディスプレイオブジェクトの集合に対し、スケーラブルビデオ復号器406−1−qは様々なレベルの空間解像度、時間解像度および品質を復号化することができる。スケーラブルビデオ復号器406−1−qは復号化したビデオ情報を、スケーラブルビデオ復号器406−1−qに通信可能に接続された描画モジュール408−1−rに出力することができる。
描画モジュール408−1−rは所与のディスプレイオブジェクトに対する復号化ビデオ情報を対応するスケーラブルビデオ復号器406−1−qから受信し、描画動作を開始して復号化ビデオ情報をディスプレイオブジェクト内に描画し、音声会議向けの視覚的構成をディスプレイ410のようなディスプレイ上に作成することができる。描画モジュール408−1−rを全てのビットストリーム復号器間で共有することができ、描画モジュール408−1−rは予め設定された配置またはユーザ設定に従ってディスプレイオブジェクトを配置する。描画モジュール408−1−rの例には、グラフィックチップセット、オペレーティングシステム向けグラフィックユーザインタフェースモジュール、等を含めることができる。さらに、所与のディスプレイオブジェクトに対するディスプレイオブジェクトのサイズまたはビデオ情報コンテンツにおける変化のような、自動またはユーザによる手動のいずれかにより視覚的構成が変化すると、描画モジュール408−1−rはディスプレイオブジェクト変更情報を視覚的構成モジュール110に伝えることができる。あるいは、ディスプレイオブジェクト変更情報をオペレーティングシステムまたはグラフィックユーザインタフェースモジュールを介して視覚的構成モジュール110に送信してもよい。それに応じて、視覚的構成モジュール110はディスプレイオブジェクト変更情報を使用してディスプレイオブジェクトビットレート割り当てを変化させることができる。描画モジュール408−1−rは、例えばディスプレイ410のような1つまたは複数のディスプレイ装置に表示情報を出力することができる。ディスプレイ410は視覚的構成200または別の視覚的構成と同様な視覚的構成を描画または表示することができる。視覚的構成はディスプレイオブジェクトのモザイクを備えることができ、各ディスプレイオブジェクトは音声会議の様々な参加者のビデオ情報を含み、クライアント端末106を用いる参加者のディスプレイオブジェクトを含む。
様々な実施形態では、描画モジュール408−1−rおよび/またはディスプレイ410は、例えば階層マネージャ412から受信した階層情報に従って復号化ビデオ情報を描画することができる。階層マネージャ412は一連のディスプレイレイアウト情報に対するユーザ入力またはデフォルトの設定を受信することができる。ディスプレイレイアウト情報は、視覚的構成におけるディスプレイオブジェクトのレイアウトに関する情報を備えることができ、その情報にはディスプレイオブジェクトのサイズ、ディスプレイオブジェクトの位置、ディスプレイオブジェクト番号、各ディスプレイオブジェクトに対するビデオ解像度の優先度、等が含まれる。階層マネージャ412は、ビデオ構成内の各ビデオディスプレイオブジェクトに対する空間解像度パラメータおよびフレームレートパラメータを視覚的構成モジュール110に出力することができる。
視覚的構成モジュール110を再度参照すると、空間解像度および/またはフレームレートパラメータを階層マネージャ412から受信することができる。視覚的構成モジュール110は各ビデオディスプレイオブジェクトに対する空間解像度および/またはフレームレートパラメータを組み合わせて、規定のグローバル入力ビットレートを超過せずに各ビデオストリーム402−1−oに対して改良した空間的および時間的組み合わせを計算する。視覚的構成モジュール110は、クライアント端末106に対する様々な種類のリソース利用を示す様々な入力パラメータも受信することができる。例えば、システムリソース(例えば、計算サイクル、メモリ割り当てまたは帯域幅、等)の場合、視覚的構成モジュール110は1つまたは複数のディスプレイオブジェクトに用いるスケールを修正することができる。別の例では、視覚的構成モジュール110は通信チャネル帯域幅の推定値を受信し、それに応じて様々なスケールを修正することができる。本実施形態はこの文脈に限定されない。
幾つかの実施形態では、所与のクライアント端末106は「受信機駆動型階層化マルチキャスト」と呼ばれる技術を用いて、会議サーバ102に信号を伝達して、音声会議に対する別のビデオ階層を示すかまたは取得することができる。これは例えば、所与の装置(例えば、クライアント端末106、会議サーバ102、オーバレイネットワーク内のノード、等)に対する入力ビットレート割当量の合計が符号化ビデオストリーム402−1−oに対して必要とされる帯域幅未満であるときに望ましい可能性がある。例えば、クライアント端末106が、スケーラブルコーダモジュール104により生成される符号化ビデオストリーム402−1−oより少ない入力ビットレート割当量の合計を有する場合、クライアント端末106の視覚的構成モジュール110は要求414を送信して、符号化ビデオストリーム402−1−oに対する帯域幅の合計をクライアント端末106に対する入力ビットレート割当量の合計以下に減らすように特定のビデオ階層に要求することができる。要求414は、各ビデオ入力に対する特定の空間および時間スケールの集合を会議サーバ102に送信させる要求を備えることもできる。その集合は、時間とともに変化することができる。さらに、要求414は、音声会議に対する別のビデオ階層を取得するための、会議サーバ102に対するサブスクリプションメッセージを備えることができる。本実施形態はこの文脈に限定されない。
サブスクリプションメッセージを用いると、視覚的構成モジュール110の様々な要素を修正または削除することができる。例えば、視覚的構成モジュール110は必ずしもパーサ404−1−pを必要としなくともよい。むしろ、パーサ404−1−pを会議サーバ102により実装することができる。会議サーバ102がサブスクリプションメッセージをクライアント端末106から受信すると、会議サーバ102はパーサ404−1−pを使用して、会議サーバ102が受信した入力ビデオストリームを解析し、適切なビデオ階層をクライアント端末106に転送することができる。この場合、クライアント端末106で実装された視覚的構成モジュール110はパーサ404−1−pを回避または省略してもよい。本実施形態はこの文脈に限定されない。
幾つかの実施形態では、会議サーバ102は、必ずしもサブスクリプションメッセージを所与のクライアント端末106−1−mから受信せずに、パーサ404−1−pを使用することができる。例えば、1つの実施形態では、会議サーバ102は各クライアント端末106−1−mに対する視覚的構成プロファイルを有することができる。各視覚的構成プロファイルは、対応するクライアント端末106−1−mまたは所与のマルチメディア音声会議が用いる視覚的構成に関する様々な視覚的構成パラメータを記憶することができる。例えば、視覚的構成パラメータは、主要話者が常に高解像度フォーマットであり、一方で全ての他の話者(所与のクライアント端末106−1−mのユーザは除く)は低解像度フォーマットであるべきであることを示すパラメータを含むことができる。視覚的構成パラメータを所与のクライアント端末106−1−m、会議サーバ102、音声会議の管理者、等により定義することができる。視覚的構成パラメータはさらにデフォルトの視覚的構成パラメータを含むことができる。デフォルトの視覚的構成パラメータを、所与のマルチメディア音声会議のある特定の特徴といった、様々な数の因子に基づいて選択することができる。上記特徴の例には、多数の参加者、各クライアント端末106−1−mに関連する能力情報、音声会議に用いられるメディア情報の種類(例えば、オーディオ、ビデオ、オーディオ/ビデオ、共有文書編集、等)、サブスクリプションレベル、サービスレベル品質、優先度レベル、地理的制約、帯域幅制約、等が含まれてもよい。このように、会議サーバ102は視覚的構成プロファイルおよび視覚的構成パラメータを使用して、1つまたは複数のクライアント端末106−1−mにより使用される視覚的構成を決定することができる。本実施形態はこの文脈に限定されない。
上述の実施形態に対する動作を以下の図面およびそれに付随する例を参照してさらに説明することができる。図面の一部は論理フローを含むことがある。本明細書で提示する上記図面は特定の論理フローを含むことがあるが、論理フローは本明細書で説明する一般的な機能性を実装できる方法の例を提供するに過ぎないことは理解できるだろう。さらに、特に明記しない限り、所与の論理フローを必ずしも提示した順序で実行する必要はない。さらに、所与の論理フローをハードウェア要素、プロセッサにより実行されるソフトウェア要素、またはそれらの任意の組み合わせで実装することができる。本実施形態はこの文脈に限定されない。
図5は論理フロー500の1つの実施形態を示す。論理フロー500は、マルチメディア会議システム100、会議サーバ102、スケーラブルビデオ符号器104、クライアント端末106、および/または視覚的構成モジュール110のような、本明細書で説明した1つまたは複数の実施形態により実行される動作の代表例であることができる。図5に示すように、ブロック502で、符号化ビデオ情報を、様々なレベルの空間解像度、時間解像度および品質を持つ様々なビデオ階層を各々が有する複数のビデオストリームで受信することができる。複数のディスプレイオブジェクトに対する入力ビットレートの合計をブロック504で決定することができる。ブロック506で、ディスプレイオブジェクトビットレートを複数のディスプレイオブジェクトに割り当てることができる。この場合、全てのディスプレイオブジェクトに対するディスプレイオブジェクトビットレートの合計は入力ビットレートの合計以下である。ブロック508で、ビデオ情報をディスプレイオブジェクトビットレートの割り当てに従ってディスプレイオブジェクトに対する様々なビデオ階層から復号化することができる。復号化ビデオ情報を各ディスプレイフレーム内で描画して、音声会議に対する視覚的構成を作成することができる。本実施形態はこの文脈に限定されない。
例えば、1つの実施形態では、サブスクリプションメッセージを会議サーバに送信して、音声会議に対する様々なビデオ階層を取得することができる。本実施形態はこの文脈に限定されない。
例えば、1つの実施形態では、ディスプレイフレームに対するディスプレイオブジェクトビットレートを、ディスプレイ上のディスプレイフレームのサイズまたはディスプレイフレームの位置に基づいて修正することができる。ディスプレイフレームに対するディスプレイオブジェクトビットレートを、通信リンクに対する瞬間的なチャネル容量に基づいて修正することもできる。ディスプレイフレームに対するディスプレイオブジェクトビットレートをアクティブな話者に基づいてさらに修正することができる。本実施形態はこの文脈に限定されない。
例えば、1つの実施形態では、符号化ビデオ情報を、様々なビデオ階層を有するビデオストリームで受信することができる。各ビデオ階層は、クライアント端末側での音声会議に対して様々なレベルの空間解像度、時間解像度および/または品質を含むことができる。例えば、1つの実施形態では、様々なビデオ階層は第1のレベルの空間解像度および第1のレベルの時間解像度を有するベース階層と、その第1のレベルの空間解像度または第1のレベルの時間解像度を増やす1つまたは複数の拡張階層とを含むことができる。本実施形態はこの文脈に限定されない。
スケーラブル符号化および復号化
前述のように、様々な実施形態は複数の解像度符号化および復号化技術を実装することができる。図1を再度参照すると、デジタルビデオ情報を共通ビデオストリーム内の複数のビデオ階層として符号化するようにスケーラブルビデオ符号器104を配置することができ、この場合、各ビデオ階層は1つまたは複数のレベルの空間解像度および/または時間解像度を提供する。図1に示すように、スケーラブルビデオ符号器104を会議サーバ102の一部として実装することができる。これは例えば、1つまたは複数のクライアント端末106−1−mにスケーラブルビデオ符号化機能が実装されていないときに望ましい可能性がある。その結果、会議サーバ102は、ビデオ情報を様々な受信ビデオストリームからアップサンプリングまたはダウンサンプリングすることでクライアント端末106−1−mの代わりにスケーラブルビデオ符号化技術を実装することができる。しかしながら、幾つかの実施形態では、スケーラブルビデオ符号器104をクライアント端末106−1−mの各々において実装することができる。この場合、会議サーバ102向けに実装されたスケーラブルビデオ符号化機能を、サブスクリプションメッセージに応じて受信ビデオストリームを解析して適切なビデオ階層をクライアント端末106−1−mに転送することに限定するか、または完全に省略することができる。本実施形態はこの文脈に限定されない。
スケーラブルビデオ符号器104は、ベース階層および拡張階層のような複数のビデオ階層に対するデジタルビデオ情報を単一の共通ビデオストリームに多重化することができる。スケーラブルビデオ符号器104により符号化されたビデオ情報を復号化するようにスケーラブルビデオ復号器406−1−qを配置することができる。例えば、共通ビデオストリームからのビデオ情報を逆多重化または選択的に復号化して、ベース階層および1つまたは複数の拡張階層からビデオ情報を取り出し、例えば一般にSNR値で定義される所望のレベルの品質でビデオ情報を再生するように、スケーラブルビデオ復号器を配置することができる。スケーラブルビデオ復号器406−1−qは、各ビデオ階層に対して定義されたように様々な開始符号を用いてビデオ情報を選択的に復号化することができる。同様に、AVMCU(例えば、会議サーバ102)は、現在利用可能な帯域幅および復号器機能のような情報に基づいて1人または複数の参加者にベース階層と拡張階層のサブセットのみとを転送することを選択することができる。AVMCUはビデオビットストリーム内の開始符号を用いて階層を選択する。
例えば、1つの実施形態では、スケーラブルビデオ符号器104はデジタルビデオ情報をベース階層ならびに1つまたは複数の時間および/または空間拡張階層として符号化することができる。ベース階層はデジタルビデオ情報に対する基本レベルまたは最低レベルの空間解像度および/または時間解像度を提供することができる。時間および/または空間拡張階層はデジタルビデオ情報に対する拡大した拡張レベルのビデオ空間解像度および/または時間解像度を提供することができる。様々な種類のエントリポイントおよび開始符号を定義して、ビデオストリーム内の様々なビデオ階層を区別することができる。このように、単一のスケーラブルビデオ符号器は複数レベルの空間解像度および/または時間解像度を単一の共通ビデオストリーム(例えば、符号化ビデオストリーム402−1−o)で提供および多重化することができる。
様々な実施形態では、多数の様々なビデオ復号器は符号化ビデオストリームの所与のビデオ階層から選択的にデジタルビデオ情報を復号化して、望ましいレベルの空間解像度および/または時間解像度を所与のメディア処理装置に提供することができる。例えば、ある種のビデオ復号器はベース階層をビデオストリームから復号化することができ、別の種類のビデオ復号器はベース階層および1つまたは複数の拡張階層をビデオストリームから復号化することができる。メディア処理装置は各ビデオ階層から復号化されたデジタルビデオ情報を様々な方法で組み合わせて、空間解像度および/または時間解像度の意味で様々なレベルのビデオ品質を提供することができる。メディア処理装置は次いで復号化したデジタルビデオ情報を、選択したレベルの空間解像度および時間解像度で1つまたは複数のディスプレイ上に再生することができる。
スケーラブルまたは複数解像度のビデオ符号器および復号器により、従来のビデオ符号器および復号器に対して幾つかの利点を与えることができる。例えば、単一のスケーラブルビデオ符号器および1つまたは複数の種類のビデオ復号器を用いて、様々な拡大または差分化したデジタルビデオサービスを提供することができる。レガシービデオ復号器は必ずしも拡張階層へのアクセスを有していなくてもデジタルビデオ情報をビデオストリームのベース階層から復号化することができ、拡張ビデオ復号器は同一のビデオストリーム内でベース階層および1つまたは複数の拡張階層の両方にアクセスすることができる。別の例では、異なる暗号化技術を各階層に使用し、それにより各階層へのアクセスを制御することができる。同様に、様々なデジタル権限を各階層に割り当てて各階層に対するアクセスを許可することができる。さらに別の例では、空間および/または時間解像度のレベルを、ビデオソースの種類、ビデオ圧縮技術の種類、通信リンクに対して利用可能な帯域幅またはプロトコル、所与の受信装置に対して利用可能な処理またはメモリリソース、デジタルビデオの再生に用いられるディスプレイ装置の種類、等に基づいて上げ下げすることができる。
特に、この改良した可変ビデオ符号化解像度の実装には、ディスプレイ解像度の次元をビデオストリーム内で指定するパラメータを持つという利点がある。ビデオの一部に対する符号化解像度はエントリポイントレベルで送信される。エントリポイントはビデオシーケンスの1つまたは複数の画像サブシーケンスまたは画像グループの近傍にあるかまたはそれらに隣接する。上記のビデオシーケンスは、イントラ符号化フレーム(「Iフレーム」とも呼ばれる)で始まり、そのイントラ符号化フレームに対して予測符号化した1つまたは複数の予測符号化フレーム(「Pフレーム」または「Bフレーム」とも呼ばれる)を含むこともできる。所与のエントリポイントで送信された符号化解像度はしたがって、ベース階層でIフレームを含み、そのIフレームを参照するPフレームまたはBフレームを含む画像グループに適用される。
様々な実施形態は、ビデオシーケンスの一部を異なる解像度で可変に符号化可能とする、改良した可変解像度符号化技術の実装を対象とすることができる。本技術は例えばビデオコーデックシステムに適用される。したがって、可変解像度符号化技術を、符号化ビットストリームシンタックスを利用する例示的なビデオ符号器/復号器の文脈で説明する。特に、改良した可変解像度符号化技術の実装の1つを、SMPTE標準421M(VC−1)ビデオコーデックシリーズの標準およびその変形のアドバンストプロファイルに準拠するビデオコーデックにおいて説明する。あるいは、本技術を様々なビデオコーデック実装および標準に組み込むことができ、それらは後述する例示的なビデオコーデックおよびシンタックスとは細部で異なる可能性がある。
図6はビデオキャプチャおよび再生システム600に対する実装を示す。図6はビデオコーデックを採用するビデオキャプチャおよび再生システム600を示し、その中で様々な解像度符号化技術が一般的な適用または使用シナリオで実装される。ビデオキャプチャおよび再生システム600を、例えば会議サーバ102および/またはクライアント端末106−1−mのようなマルチメディア会議システム100内の多数の様々な要素で実装することができる。
ビデオキャプチャおよび再生システム600は一般に、ビデオコンテンツを入力デジタルビデオソース610からキャプチャして通信チャネル640上の圧縮ビデオビットストリームに符号化するビデオソース/符号器620と、ビデオをチャネルから受信および復号化してビデオディスプレイ670上でそのビデオを表示するビデオプレイヤ/復号器650とを含む。可変解像度符号化を有する後述のビデオコーデックを実装できる上記システムの幾つかの例には、ビデオキャプチャ、符号化、復号化および再生が全て単一のマシン内で実施されるシステム、およびこれらの動作が別個の、地理的に離れたマシン上で実施されるシステムが含まれる。例えば、デジタルビデオレコーダ、またはTVチューナカード付きパーソナルコンピュータは、ビデオ信号をキャプチャしてそのビデオをハードドライブに符号化し、ビデオをハードドライブからモニタ上に読み戻し、復号化および表示することができる。別の例として、商業出版者またはビデオ放送者は、ビデオ送信(例えば、デジタル衛星チャネル、またはWebビデオストリーム)を生成するためのビデオ符号器あるいは符号化ビデオを保持する記憶装置(例えば、テープまたはディスク)とを取り込んだビデオマスタシステムを使用することができる。ビデオマスタシステムは、ビデオをユーザの復号器および再生マシン(例えば、パーソナルコンピュータ、ビデオプレイヤ、ビデオレシーバ、等)に配信するために使用される。
図示したシステム600では、ビデオソース/符号器620は情報源プリプロセッサ622、情報源圧縮符号器624、マルチプレクサ626およびチャネル符号器628を含む。プリプロセッサ622は未圧縮のデジタルビデオを、ビデオカメラ、アナログテレビキャプチャ、または他の情報源のようなデジタルビデオソース610から受信し、そのビデオを処理して圧縮符号器624に入力する。圧縮符号器624は、図7を参照して説明されるビデオ符号器700の例であり、ビデオの圧縮および符号化を実施する。マルチプレクサ626は結果として生じる圧縮ビデオビットストリームをパケット化して、チャネル符号器628に配信して通信チャネル640上に符号化する。通信チャネル640はデジタルテレビ放送、衛星または他の無線送信のようなビデオ送信、あるいはケーブル、電話または他の有線送信、等であることができる。通信チャネル640はコンピュータハードドライブまたは他の記憶ディスクのような記録ビデオ媒体、テープ、光ディスク(DVD)または他の取り外し可能記録媒体であることもできる。チャネル符号器628は圧縮ビデオビットストリームをファイルコンテナ、送信搬送波信号等に符号化する。
ビデオプレイヤ/復号器650では、チャネル復号器652は圧縮ビデオビットストリームを通信チャネル640上で復号化する。デマルチプレクサ654は圧縮ビデオビットストリームを逆多重化してチャネル復号器から圧縮復号器656に配信する。圧縮復号器656の例は、図8を参照して説明するビデオ復号器800である。圧縮復号器は次いでビデオを圧縮ビデオビットストリームから復号化および再構築する。最後に、ポストプロセッサ658はビデオを処理してビデオディスプレイ670上に表示する。後処理動作の例には、デブロッキング、デリンギングまたは他のアーチファクト除去、レンジリマッピング、色変換および他の同様な動作が含まれる。
図7は一般化したビデオ符号器700のブロック図であり、図8は一般化したビデオ復号器800のブロック図であり、それらの符号器および復号器に可変解像度符号化技術を組み込むことができる。符号器および復号器内のモジュール間に示した関係は符号器および復号器内の情報の主な流れを示し、明確にするために他の関係は省略してある。特に、図7および8は通常、ビデオシーケンス、フレーム、マクロブロック、ブロック、等に使用される符号器設定、モード、テーブル、等を示す副情報は示さない。上記副情報を、一般にはその副情報のエントロピー符号化後に、出力ビットストリームで送信する。出力ビットストリームのフォーマットは例えば、SMPTE VC−1フォーマット、リアルタイム通信に適応されたSMPTE VC−1フォーマット、H.263フォーマット、H.264フォーマットまたは他のビデオフォーマットであることができる。
例えば、1つの実施形態では、符号器700および復号器800はブロックベースであり、各々が4つの8×8のルミナンスブロック(場合によって、1つの16×16のマクロブロックとして扱われる)と2つの8×8のクロミナンスブロックを含む4:2:0のマクロブロックフォーマットを使用する。あるいは、符号器700および復号器800はオブジェクトベースであり、異なるマクロブロックまたはブロックフォーマットを使用し、または8×8のブロックおよび16×16のマクロブロックとは異なるサイズまたは構成の画素集合上で動作を実施する。マクロブロックを使用してプログレッシブまたはインタレースビデオコンテンツのいずれかを表現することができる。
様々な実施形態におけるスケーラブルビデオ符号化および復号化技術およびツールをビデオ符号器および/または復号器において実装することができる。ビデオ符号器および復号器はそれらの中に様々なモジュールを含むことができ、それらの様々なモジュールは多様な方法で、互いと関連および通信することができる。後述するモジュールおよび関係は例であり限定ではない。所望の実装および圧縮の種類により、ビデオ符号器またはビデオ復号器のモジュールを追加、省略、複数モジュールへ分割、他のモジュールと組み合わせ、および/または同様なモジュールで置換することができる。代替的な実施形態では、異なるモジュールおよび/または他のモジュール構成を有するビデオ符号器またはビデオ復号器により、1つまたは複数の説明した技術を実施することができる。
一般に、ビデオ圧縮技術にはフレーム内圧縮とフレーム間圧縮が含まれる。フレーム内圧縮技術は、一般にIフレーム、キーフレーム、または参照フレームと呼ばれる個々のフレームを圧縮する。フレーム間圧縮技術は、先行および/または後続フレームを参照してフレームを圧縮し、一般に予測フレームと呼ばれる。予測フレームの例には予測(P)フレーム、超予測(SP)フレーム、および両予測または両方向(B)フレームが含まれる。予測フレームは1つまたは複数の他のフレームからの動き補償予測(または差分)の点から表される。予測残差は予測したものと元のフレームとの間の差分である。対照的に、Iフレームまたはキーフレームは他のフレームを参照せずに圧縮される。
ビデオ符号器は一般に、カレントフレームを含むビデオフレームシーケンスを受信し、圧縮ビデオ情報を出力として生成する。符号器は予測フレームとキーフレームを圧縮する。符号器のコンポーネントの多くはキーフレームと予測フレームの両方を圧縮するために用いられる。これらのコンポーネントにより実施される厳密な動作は、圧縮されている情報の種類により様々であることができる。
図7は一般的なビデオ符号化システム700のブロック図である。符号化システム700は、カレントフレーム705を含むビデオフレームシーケンスを受信し、圧縮ビデオ情報795を出力として生成する。ビデオ符号器の特定の実施形態では一般に、一般化符号器700を変形または補完したものが用いられる。
符号化システム700は予測フレームとキーフレームを圧縮する。表現の便宜上、図7は符号化システム700を通るキーフレーム用の経路と前方予測フレーム用の経路とを示す。符号化システム700のコンポーネントの多くはキーフレームおよび予測フレームの両方を圧縮するために用いられる。これらのコンポーネントにより実施される厳密な動作は、圧縮されている情報の種類により様々であることができる。
予測フレーム(例えば、Pフレーム、SPフレーム、およびBフレーム)は1つまたは複数の他のフレームからの予測(または差分)の点から表わされる。予測残差は予測したものと元のフレームとの間の差分である。対照的に、キーフレーム(例えば、Iフレーム)は他のフレームを参照せずに圧縮される。
カレントフレーム705が前方予測フレームである場合、動き推定器710はカレントフレーム705のマクロブロックまたは他の画素集合(例えば、16×8、8×16または8×8のブロック)の動きを参照フレームに対して推定する。参照フレームは、フレーム記憶720にバッファされた再構築後の前フレーム725である。代替的な実施形態では、参照フレームは後続フレームであり、またはカレントフレームは両方向に予測される。動き推定器710は動きベクトルのような動き情報715を副情報として出力する。動き補償器730は動き情報715を再構築後の前フレーム725に適用して、動き補償されたカレントフレーム735を形成する。しかしながら、予測が完全であることは稀であり、動き補償されたカレントフレーム735と元のカレントフレーム705との間の差分が予測残差745である。あるいは、動き推定器および動き補償器では別の種類の動き推定/補償が適用される。
周波数変換器760は空間領域ビデオ情報を周波数領域(すなわち、空間)データに変換する。ブロックベースのビデオフレームに対して、周波数変換器760は、DCT(discrete cosine transform)と同様の特性を有する、以下のセクションで説明する変換を適用する。幾つかの実施形態では、周波数変換器760は周波数変換を、キーフレームに対する空間予測残差ブロックに適用する。周波数変換器760は8×8、8×4、4×8、または他のサイズの周波数変換を適用することができる。
量子化器770は次いでスペクトルデータ係数のブロックを量子化する。量子化器は均一なスカラ量子化を、フレーム毎または他の基準で変化するステップサイズでスペクトルデータに適用する。あるいは、量子化器は別の種類の量子化、例えば不均一量子化、ベクトル量子化、または非適応量子化をスペクトルデータ係数に適用するか、または周波数変換を使用しない符号化システムで空間領域データを直接量子化する。適応量子化に加えて、符号器700はフレーム除去、適応フィルタリング、またはレート制御向けの他の技術を使用することができる。
再構築されたカレントフレームが後続の動き推定/補償に必要であると、逆量子化器776が、量子化されたスペクトルデータ係数に対して逆量子化を実施する。逆周波数変換器766は次いで周波数変換器760の動作の逆を実施し、(予測フレームに対する)再構築された予測残差または再構築されたキーフレームを生成する。カレントフレーム705がキーフレームであった場合、再構築されたキーフレームを、再構築されたカレントフレームと捉える。カレントフレーム705が予測フレームであった場合、再構築された予測残差を動き補償されたカレントフレーム735に加えて再構築後のカレントフレームを形成する。フレーム記憶720は、次のフレームの予測に用いるため、再構築されたカレントフレームをバッファする。幾つかの実施形態では、符号器は再構築フレームにデブロッキングフィルタを適用して、フレームブロック内の不連続性を適応的に平滑化する。
エントロピー符号器780は量子化器770の出力およびある特定の副情報(例えば、動き情報715、量子化ステップサイズ)を圧縮する。一般的なエントロピー符号化技術には、算術符号化、差分符号化、ハフマン符号化、ランレングス符号化、LZ符号化、辞書符号化、およびそれらの組み合わせが含まれる。エントロピー符号器780は一般に様々な種類の情報(例えば、DC係数、AC係数、様々な種類の副情報)に対して様々な符号化技術を使用し、特定の符号化技術における複数の符号表から選択することができる。
エントロピー符号器780は圧縮ビデオ情報795をバッファ790に置く。バッファレベルインジケータをビットレート適応モジュールにフィードバックする。圧縮ビデオ情報795はバッファ790から一定のビットレートまたは相対的に一定のビットレートで消費され、そのビットレートで後のストリーミング向けに記憶される。あるいは、符号器700が圧縮ビデオ情報を圧縮直後に流す。
バッファ790の前後に、ネットワーク上で送信するために圧縮ビデオ情報795をチャネル符号化することができる。チャネル符号化は誤り検出および補正データを圧縮ビデオ情報795に適用することができる。
図8は一般的なビデオ復号化システム800のブロック図である。復号化システム800は圧縮されたビデオフレームシーケンスに対する情報895を受信し、再構築フレーム805を含む出力を生成する。ビデオ復号器の特定の実施形態では一般に、一般化復号器800を変形または補完したものを使用する。
復号化システム800は予測フレームおよびキーフレームを復元する。表現の便宜上、図8は復号化システム800を通るキーフレーム用の経路と前方予測フレーム用の経路とを示す。復号化システム800のコンポーネントの多くはキーフレームおよび予測フレームの両方を圧縮するために用いられる。これらのコンポーネントにより実施される厳密な動作は、圧縮されている情報の種類により様々であることができる。
バッファ890は圧縮ビデオシーケンスに対する情報895を受信し、受信した情報をエントロピー復号器880が利用できるようにする。バッファ890は一般に、長時間に渡ってほぼ一定の速度で情報を受信し、帯域幅または送信における短期変動を平滑化するためのジッタバッファを含む。バッファ890は再生バッファおよび他のバッファも含むことができる。あるいは、バッファ890は情報を可変速度で受信する。バッファ890の前後に、誤り検出および補正のために圧縮ビデオ情報をチャネル復号化および処理することができる。
エントロピー復号器880は、一般に符号器で実施されたエントロピー符号化の逆を適用して、エントロピー符号化された量子化データおよびエントロピー符号化された副情報(例えば、動き情報、量子化ステップサイズ)を復号化する。エントロピー復号化技術には、算術復号化、差分復号化、ハフマン復号化、ランレングス復号化、LZ復号化、辞書復号化、およびそれらの組み合わせが含まれる。エントロピー復号器880は様々な種類の情報(例えば、DC係数、AC係数、様々な種類の副情報)に対して様々な復号化技術を使用し、特定の復号化技術における複数の符号表から選択することができる。
再構築すべきフレーム805が前方予測フレームである場合、動き補償器830は動き情報815を参照フレーム825に適用して、再構築されているフレーム805の予測835を形成する。例えば、動き補償器830はマクロブロック動きベクトルを用いて参照フレーム825内のマクロブロックを見つける。予測835はしたがって、前に復号化したビデオフレームから動き補償された一連のビデオブロックである。フレームバッファ820は参照フレームとして用いるために、以前の再構築フレームを記憶する。あるいは、動き補償器は別の種類の動き補償を適用する。動き補償器による予測が完全であることは稀であり、したがって復号器800は予測残差も再構築する。
復号器が後続の動き補償に対して再構築フレームを必要とすると、フレーム記憶820は次のフレームの予測に用いるためにその再構築フレームをバッファする。幾つかの実施形態では、符号器はデブロッキングフィルタを再構築フレームに適用してフレームブロック内の不連続性を適応的に平滑化する。
逆量子化器870はエントロピー復号化データを逆量子化する。一般に、逆量子化器は均一なスカラ逆量子化を、フレーム毎または他の基準で変化するステップサイズでエントロピー復号化データに適用する。あるいは、逆量子化器は別の種類の逆量子化、例えば不均一量子化、ベクトル量子化、または非適応量子化をデータに適用するか、または逆周波数変換を使用しない復号化システムで空間領域データを直接逆量子化する。
逆周波数変換器860は量子化された周波数領域データを空間領域ビデオ情報に変換する。ブロックベースのビデオフレームに対して、逆周波数変換器860は以下のセクションで説明する逆変換を適用する。幾つかの実施形態では、逆周波数変換器860は逆周波数変換を、キーフレームに対する空間予測残差ブロックに適用する。逆周波数変換器860は8×8、8×4、4×8、または他のサイズの逆周波数変換を適用することができる。
可変解像度符号化技術により復号器は所望のビデオディスプレイ解像度を維持することができ、一方で符号器は、1つまたは複数のビデオ部分を複数レベルの符号化解像度で符号化することを選択する柔軟性を有することができる。その符号化解像度は、ディスプレイ解像度とは異なっていてもよい。符号器はビデオシーケンスの一部の画像を低符号化解像度で符号化して低い符号化ビットレート、ディスプレイサイズまたはディスプレイ品質を実現することができる。低符号化解像度を使用したいときは、符号器は画像(単数または複数)を低解像度にフィルタおよびダウンサンプルする。復号化時、復号器はディスプレイ解像度で表示するためにこれらのビデオストリーム部分を低符号化解像度で選択的に復号化する。復号器は、大型画素のアドレス指定能力によりスクリーン上に表示する前に、低解像度のビデオをアップサンプルすることもできる。同様に、符号器はビデオシーケンスの一部の画像を高符号化解像度で符号化して高い符号化ビットレート、ディスプレイサイズまたはディスプレイ品質を実現することができる。高解像度符号化を使用したいときは、符号器フィルタにより元のビデオ解像度の大部分を維持する。これは一般に、高解像度のビデオとその高解像度ビデオのサイズにマッチするように補間された低解像度階層のビデオとの間の差分を表す追加の階層を符号化することで行われる。例えば、元のビデオは、それぞれ640画素および480画素の水平および垂直画素解像度を有することができる。符号化ベース階層は320×240画素を有することができる。第1の空間拡張階層は640×480画素の解像度を提供することができる。元のビデオを水平および垂直解像度に沿って2の倍数でダウンサンプルすることで、この空間拡張階層を得ることができる。640×480のビデオと、第1の拡張階層の640×480の解像度にマッチするように水平および垂直に2の倍数で補間した320×240のベース階層との間の差分を計算することで、上記の空間拡張階層を符号化する。復号化時は、ディスプレイの解像度に関わらず、復号器はディスプレイ解像度で表示するためにこれらのビデオストリーム部分をベース空間解像度符号化および高空間解像度符号化で選択的に復号化するか、またはビデオに相当な細部を提供する。
様々な実施形態では、ビデオ符号器700は可変解像度符号化をフレーム毎または他の基準で提供することができる。様々なレベルの解像度符号化を複数のビデオ階層の形で構成することができ、各ビデオ階層は所与のビデオ情報集合に対して様々なレベルの空間解像度および/または時間解像度を提供する。例えば、ビデオ情報をベース階層および拡張階層でビデオストリームに符号化するようにビデオ符号器700を配置することができる。例えば、ビデオ情報は1つまたは複数のフレームシーケンス、フレーム、イメージ、画像、静止画、ブロック、マクロブロック、画素集合、または他の定義されたビデオデータ集合(集合的に「フレーム」と呼ぶ)を含むことができる。ベース階層は第1のレベルの空間解像度と第1のレベルの時間解像度を有することができる。拡張階層は第1のレベルの空間解像度、第1のレベルの時間解像度、またはその両方を増やすことができる。複数の拡張階層を置いて、所与のビデオ情報集合に対して空間解像度または時間解像度を増やす際に、所望のレベルの粒度を提供することができる。ビデオ階層を、図9を参照してより詳細に説明することができる。
図9はビデオ階層構造の例示的な実施形態を示す。図9はビデオストリームにおける符号化デジタルビデオの複数の独立ビデオ階層900を階層的に表している。図9に示すように、ビデオ階層900はベース階層(BL)を備えることができる。BLはベースレベルの空間解像度とベースレベルの時間解像度(例えば、フレームレート)のビデオストリームを表すことができる。例えば、1つの実施形態では、ベースレベルの時間解像度はT=15フレーム/秒としてTフレーム/秒を備えることができる。ビデオの符号化は、後続のBLビデオフレームの復号化が同一階層からの以前のビデオフレーム(例えば、ベース階層内の1つまたは複数のP、SPまたはBフレーム)にのみ左右されるようなものである。
ビデオ階層900は1つまたは複数の拡張階層も備えることができる。例えば、拡張階層は、第1の空間拡張階層(SL0)、第2の空間拡張階層(SL1)、および第3の空間拡張階層(SL2)のような1つまたは複数の空間拡張階層を含むことができる。SL0は、BLに追加して高解像度ビデオをBLシーケンスと同一のフレームレート(例えば、15フレーム/秒)で提供することができる空間拡張階層を表す。SL1は、BLに追加して高解像度ビデオをBLシーケンスより高速の中間フレームレートで提供することができる空間拡張階層を表す。例えば、1つの実施形態では、中間フレームレートはT/2フレーム/秒であることができ、T=30フレーム/秒である。SL2は、BLに追加して高解像度ビデオをBLシーケンスよりさらに高速の高フレームレートで提供することができる空間拡張階層である。例えば、1つの実施形態では、高フレームレートはTフレーム/秒であることができ、T=60フレーム/秒である。Tに与えた値は例に過ぎず限定ではないことは理解できるだろう。
拡張階層は、第1の時間拡張階層(TL1)および第2の時間拡張階層(TL2)のような1つまたは複数の時間拡張階層を含むこともできる。TL1は、BLに追加してBLと同一の低解像度ビデオを生成することができるが、フレームレートはBLフレームに対して2倍のフレームレートであることができる空間拡張階層を表す。その結果、このシーケンスで動き描画が改善される。TL2はBLおよびTL1のフレームレートを2倍にする時間拡張階層を表す。このレベルでの動き描画はBLまたはTL1より良好である。
図9内の破線矢印で示すように、ベース階層および拡張階層を用いる多数の組み合わせが利用可能である。限定ではなく例として、幾つかの組み合わせとして以下の組み合わせを含めることができる。
・BL
・BL+SL0
・BL+TL1
・BL+TL1+TL2
・BL+SL0+TL1+SL1
・BL+SL0+TL1+SL1+TL2+SL2
これらおよび他のビデオ階層の組み合わせにより、ビデオ品質が時間内で一貫していることを保証することができる。場合により、ビデオ品質が時間内で一貫するように、全ての時間階層に対して同一数の空間拡張階層を選択することが望ましいかもしれない。
以下でさらに十分に説明するように、符号器700は圧縮ビデオビットストリーム795内のシーケンスヘッダで最大解像度を指定する(図7)。コンテナファイルフォーマット、または送信キャリアフォーマットのヘッダ情報においてのようにビデオビットストリームのシーケンスヘッダで解像度符号化のレベルを符号化すると、ビットストリーム外部で保持されるヘッダ情報と比べて、最大解像度がビデオ復号器により直接復号化可能であるという利点がある。コンテナファイルまたは送信キャリア復号器(例えば、チャネル復号器652)により最大解像度を別個にビデオ復号器に渡す必要はない。
符号器700はさらに、1つまたは複数の画像グループがビデオビットストリーム内のエントリポイントの後に、エントリポイントヘッダ内の所定のフラグまたは開始符号を用いて低解像度で符号化されることを伝える。幾つかの実施形態では、フラグが低符号化解像度または高符号化解像度を示す場合、符号化サイズをエントリポイントヘッダで同様に符号化することもできる。
圧縮ビデオビットストリーム795(図7)は圧縮プログレッシブビデオフレームまたは他の画像(例えば、インタレースフレームまたはインタレースフィールドフォーマット画像)のシーケンスに対する情報を含む。ビットストリーム795を、図8の復号器800のような復号器により復号化された幾つかの階層構造に構成する。最高階層はシーケンス階層であり、フレームシーケンス全体に対する情報を有する。さらに、各圧縮ビデオフレームは、3階層構造、すなわち(上から下へ)画像、マクロブロック、およびブロックに構造化されるデータから構成される。様々な解像度符号化技術を採用する代替的なビデオ実装では、様々なシンタックス要素構成を有する他のシンタックス構造を利用することができる。
さらに、圧縮ビデオビットストリームは1つまたは複数のエントリポイントを含むことができる。ビットストリーム内の有効なエントリポイントは エレメンタリビットストリーム内の位置である。その位置から、メディア処理システムはビットストリーム内の先行情報(ビット)を全く必要とすることなくビットストリームを復号化または処理することができる。エントリポイントヘッダ(画像グループヘッダとも呼ばれる)は一般に、例えばビデオフレームの水平および垂直方向のサイズ、要求されたエレメンタリストリームバッファの状態および量子化パラメータのような、復号器の重要な初期化情報を含む。先行フレームを参照せずに復号化できるフレームは、独立フレームまたはキーフレームと呼ばれる。
エントリポイントを、エントリポイントインジケータによりビットストリーム内で送信する。エントリポイントインジケータの目的は、例えば復号化を開始または再開するためのビットストリーム内特殊位置の存在を伝えることであり、エントリポイントインジケータの直後のビデオフレームを復号化する際は、過去に復号化されたビデオフィールドまたはフレームに左右されない。エントリポイントインジケータおよび関連エントリポイント構造をビットストリーム内に一定間隔または不規則間隔で挿入することができる。したがって、符号器は様々なポリシーを採用して、ビットストリームへのエントリポイントインジケータの挿入を管理することができる。エントリポイントインジケータおよび構造をビデオビットストリーム内の一定のフレーム位置に挿入することが一般的な動作であるが、幾つかのシナリオ(例えば、誤り回復または高速チャネル変更)ではエントリポイント挿入の周期的性質を変更することができる。例えば、VC−1ビデオエレメンタリストリーム内のエントリポイント構造に関する以下の表1を参照されたい。
Figure 2010503280
様々な実施形態では、エントリポイントインジケータを所与の標準、プロトコルまたはアーキテクチャに従って定義することができる。場合により、エントリポイントインジケータを定義して所与の標準、プロトコルまたはアーキテクチャを拡張することができる。以下の表1および2では、様々なエントリポイントインジケータを、SMPTE 421M(VC−1)ビットストリームに埋め込まれたビットストリームセグメントに適した開始符号サフィックスおよびその対応する意味として定義する。開始符号は、ベース階層および1つまたは複数の拡張階層のような様々なビデオ階層に対して様々な開始符号で一意に識別可能であるべきである。しかしながら、開始符号ではビデオ階層間の同様な構造識別子を使用して解析および識別をより容易にすることができる。構造識別子の例にはシーケンスヘッダ、エントリポイントヘッダ、フレームヘッダ、フィールドヘッダ、スライスヘッダ、等を含めることができるがこれらに限らない。さらに、開始符号エミュレーション技術を利用して、所与のビデオ階層に対する開始符号がビデオストリーム内にランダムに発生する確率を下げることができる。
特定の開始符号によっては、各ビデオ階層に対する特定の構造パーサおよび復号器を起動または開始してビデオストリームからビデオ情報を復号化することができる。特定の構造パーサおよび復号器は、必要な参照フレーム、量子化器、速度制御、動き補償モード、等のような、所与のビデオ階層に適切な特定の一連の復号器ツールを実装することができる。本実施形態はこの文脈に限定されない。
様々な実施形態では、開始符号サフィックスは最新のVC−1ビットストリームと下位互換であることができ、したがってレガシーVC−1復号器はVC−1ビットストリームが上記の新規セグメントを含む場合でも動作を継続できなければならない。開始符号サフィックスを使用して、SMPTE 421Mビデオビットストリームの最新フォーマットを拡張および構築してスケーラブルビデオ表現をサポートすることができる。
Figure 2010503280
表2に示す開始符号サフィックスを0x000001の3バイトシーケンスの末尾に追加して様々な開始符号を作成することができる。その開始符号をVC−1ビットストリームに統合することで、ビデオ復号器は自身がビットストリームのどの部分を解析しているかを判断することができる。例えば、シーケンス開始符号はVC−1ビットストリームにおけるシーケンスヘッダの出現を知らせる。開始符号に見えるビットシーケンスの出現を、もう開始符号をエミュレートしない数個のビットストリームに上記シーケンスを分割する開始符号エミュレーション防止により排除することができる。
様々な実施形態では、さらなるビデオ階層を表すビットストリーム断片の追加を、ビットストリーム内の拡張階層断片の存在を識別および送信する新規開始符号を追加することで実現する。例えば、図9に示す2つの空間階層と3つの時間階層を用いて、以下の表3に示すように以下のサフィックスを割り当てて、様々な階層ビットストリームセグメントをそれらのサフィックスが保持する内容に関連付けて送信することができる。
Figure 2010503280
断片の挿入については一連の所定の範囲規則に従うべきである。例えば、シーケンスレベルSL0の情報はシーケンスレベルBLの情報に従うべきである、等である。
適応スケジューリング
図10はビデオのスケーラビリティを使用してマルチメディア会議システム100のようなRTC(Real TIme Communication)システムにおける遅延を改善するための、適応スケジューリング技術に関する第1の論理図である。新たな主要またはアクティブな話者が例えば送信クライアント端末106−1から話し始めると、受信クライアント端末106−2、106−3がその新たな主要話者でディスプレイオブジェクトを描画し始めることができるように、会議サーバ102は新たなビデオキーフレームに対するキーフレーム要求1002を送信することができる。しかしながら、キーフレームは相対的に大きく、したがって他のビデオフレームと比較して送信時間が非常に長い。その結果、ビデオ遅延がより大きく、その新たな主要話者を参加者が見るのに数秒かかる。
様々な実施形態では、適応スケジューリングモジュール1004を用いてこれらおよび他の問題を解決することができる。送信クライアント端末106−1のような別の装置の代わりに時間内にビデオ階層の送信を適応的にスケジューリングできるように、適応スケジューリングモジュール1004を配置することができる。その結果、主要またはアクティブな話者が話し始め、自身のビデオを送信し始める際の応答時間を改善することができる。低ビデオ階層を最初に送信し、追加の階層を徐々に送信して、長時間に渡ってビデオ品質を改善する。このように、新たな主要話者が話し始める際にスムーズに遷移し、それによりディスプレイオブジェクト内のスイッチを起動して新たな主要話者のビデオ情報を示すような視覚的構成を描画することができる。ビデオ階層の送信を適応的にスケジューリングすることで、ちらつき、ブランキング、および視覚的構成内で主要話者と対応するディスプレイオブジェクトとの間を遷移することにより発生する他の副作用を軽減することができる。
様々な実施形態では、送信クライアント端末106−1をスケーラブルビデオ符号器104で実装して複数のビデオ階層を会議サーバ102に送信することができる。新たな主要話者が現れた際に、送信クライアント端末106−1を介してベース階層のような低ビデオ階層を最初に受信クライアント端末106−2、106−3に送信するように会議サーバ102の適応スケジューリングモジュール1004を配置することができる。適応スケジューリングモジュール1004は、1つまたは複数の拡張階層を受信クライアント端末106−2、106−3に送信することで、ビデオストリーム内のフレームレートおよび/または空間解像度を徐々に増やすことができる。受信クライアント端末106−2、106−3はそれにより、相対的に迅速に送信される低ビデオ階層を最初に取得する。時間とともに、所与の通信リンク108上で利用可能な帯域幅によっては、受信クライアント端末106−2、106−3は高フレームレートおよび/または高解像度のコンテンツを取得することができる。
図10に示すように、音声会議で新たな主要話者に切り替える際、会議サーバ102(またはAVMCU)は、全ての参加者がその話者からビデオを受信し始めることができるように、新規のキーフレームに対する要求を送信する。完全なキーフレームを全ての階層に送信するのと対照的に、スケーラブルビデオ符号器104はビデオのベース階層のみを会議サーバ102に送信する。その結果、ビデオを送信および復号化する時間は大幅に削減され、それにより参加者が新たな主要話者を見るのに要する時間が削減される。
図11はビデオのスケーラビリティを使用してマルチメディア会議システム100における遅延を改善するための適応スケジューリング技術の第2の論理図を示す。図11に示すように、適応スケジューリングモジュール1004が低ビデオ階層を送信した直後に、適応スケジューリングモジュール1004は漸進的にさらなる拡張階層を送信して高フレームレートおよび/または高解像度を提供する。図11は、2つの時間スケールを送信してビデオ情報における動き描画を改善する場合を示す。
図12はビデオのスケーラビリティを使用してマルチメディア会議システム100における遅延を改善するための適応スケジューリング技術の第3の論理図を示す。図12に示すように、いったん受信クライアント端末106−2、106−3で安定状態が実現されると、適応スケジューリングモジュール1004は全ての残存するビデオ階層を受信クライアント端末106−2、106−3に送信することができる。適応スケジューリングモジュール1004は、それぞれ通信リンク108−2、108−3上でメディアチャネルが利用できる利用可能帯域幅によって、送信するビデオ階層の数を決定する。図12に示すように、受信クライアント端末106−2は帯域幅が十分に広くないので第2の空間および時間階層は受信できず、受信クライアント端末106−3は通信の帯域幅が制限されているのでベース階層および第1の時間スケールのみを受信することができる。
図10〜12に示すように、適応スケジューリング技術を主要話者間のスムーズな遷移に使用することができる。例えば、1つの実施形態では、受信機は様々なビデオ階層を有するビデオストリーム内の符号化ビデオ情報を受信することができる。上記の様々なビデオ階層には、第1のレベルの空間解像度および第1のレベルの時間解像度を有するベース階層と、その第1のレベルの空間解像度またはその第1のレベルの時間解像度を増やす拡張階層とが含まれる。適応スケジューリングモジュール1004を受信機と通信可能に接続することができ、様々なビデオ階層を様々な時点で受信クライアント端末に送信するように配置することができる。本実施形態はこの文脈に限定されない。
例えば、1つの実施形態では、ベース階層の送信後まで拡張階層の送信を遅らせるように適応スケジューリングモジュール1004を配置することができる。本実施形態はこの文脈に限定されない。
例えば、1つの実施形態では、新たな主要話者を決定する際にベース階層を第1の時刻に受信クライアント端末に送信するように適応スケジューリングモジュール1004を配置することができる。例えば、新たな主要話者の決定を、主要話者検出器を会議サーバ102で用いるといった任意数の異なる方法で実現することができる。本実施形態はこの文脈に限定されない。
例えば、1つの実施形態では、新たな主要話者を決定する際にベース階層を第1の時刻に受信クライアント端末に送信し、拡張階層を所定の待機時間後の第2の時刻に送信するように適応スケジューリングモジュール1004を配置することができる。所定の待機時間は、所与の実装に望ましいように受信クライアント端末が主要話者間および視覚的構成に対するディスプレイオブジェクト間でスムーズな遷移を実現できるのに十分な任意の時間であることができる。一般に、所定の待機時間に、受信クライアント端末が所望のレベルのビデオ解像度および品質で安定状態に安定化および到達するのに十分な時間を含めることができる。本実施形態はこの文脈に限定されない。
例えば、1つの実施形態では、適応スケジューリングモジュール1004を送信機と通信可能に接続することができる。送信機を使用してベース階層と拡張階層を異なる予定時刻に送信することができる。本実施形態はこの文脈に限定されない。
本明細書では多数の特定の詳細を説明して実施形態の徹底的な理解を提供している。しかしながら当業者は、本実施形態をこれらの特定の詳細なしに実践できることを理解するであろう。他の事例では、本実施形態を不明瞭にしないように公知の動作、コンポーネントおよび回路は詳細に説明していない。本明細書で開示した特定の構造的および機能的詳細は代表的なものであり、本実施形態の範囲を必ずしも限定しないことが理解できるだろう。
「1つの実施形態」または「実施形態」への任意の言及は、その実施形態に関連して説明した特定の特徴、構造、または特性が少なくとも1つの実施形態に含まれることを意味することにも留意されたい。本明細書の様々な箇所で現れる句「1つの実施形態では」は必ずしも全て同一の実施形態を指していない。
幾つかの実施形態を、「接続された(coupled)」および「接続された(connected)」という表現をそれらの派生語とともに用いて説明することができる。これらの用語は互いに対する同義語を意味しているわけではないことは理解されるべきである。例えば、幾つかの実施形態を用語「接続された(connected)」を用いて説明して、2つ以上の要素が互いに直接、物理的または電気的に接していることを示すことができる。別の例では、幾つかの実施形態を用語「接続された(coupled)」を用いて説明して、2つ以上の要素が互いに直接、物理的または電気的に接していることを示すことができる。しかしながら、用語「接続された(coupled)」は、2つ以上の要素が互いに直接は接していないが、互いになお協調または相互作用することを意味することもできる。本実施形態はこの文脈に限定されない。
例えば、幾つかの実施形態を、機械により実行した場合に、本実施形態に従ってその機械に方法および/または動作を実施させることが可能な命令または命令集合を記憶できる機械読取可能媒体または製品を用いて実装することができる。上記の機械は例えば、任意の適切な処理プラットフォーム、コンピューティングプラットフォーム、コンピューティング装置、コンピューティング装置、コンピューティングシステム、処理システム、コンピュータ、プロセッサ、等を含むことができ、ハードウェアおよび/またはソフトウェアの任意の適切な組み合わせを用いて実装することができる。機械読取可能媒体または製品は例えば、任意の適切な種類のメモリユニット、メモリ装置、メモリ製品、メモリ媒体、記憶装置、記憶製品、記憶媒体および/または記憶ユニット、例えばメモリ、取り外し可能または取り外し不能媒体、消去可能または消去不能媒体、書き込み可能または再書き込み可能媒体、デジタルまたはアナログ媒体、ハードディスク、フロッピーディスク(登録商標)、CD−ROM、CD−R、CD−RW、光ディスク、磁気媒体、光磁気媒体、取り外し可能メモリカードまたはディスク、様々な種類のDVD、テープ、カセット、等を含むことができる。
本主題を構造的特徴および/または方法論的動作に固有な言葉で説明したが、添付の請求項で定義した本主題は必ずしも上述の特定の特徴または動作に限定されないことは理解されるべきである。むしろ、上述の特定の特徴および動作は請求項を実装する形態の例として開示してある。

Claims (20)

  1. 符号化ビデオ情報を、様々なレベルの空間解像度、時間解像度および品質を持つ様々なビデオ階層を各々が有する複数のビデオストリームで受信すること、
    複数のディスプレイオブジェクトに対する入力ビットレートの合計を決定すること、
    ディスプレイオブジェクトビットレートを、全てのディスプレイオブジェクトに対するディスプレイオブジェクトビットレートの合計が前記入力ビットレートの合計以下であるように複数のディスプレイオブジェクトに割り当てること、および
    前記割り当てに従って、ビデオ情報を前記ディスプレイオブジェクトに対する前記の様々なビデオ階層から復号化すること、
    を含む方法。
  2. サブスクリプションメッセージを会議サーバに送信して音声会議向けの様々なビデオ階層を取得することを含む、請求項1に記載の方法。
  3. ディスプレイフレームに対するディスプレイオブジェクトビットレートを、ディスプレイ上の前記ディスプレイフレームのサイズまたは前記ディスプレイフレームの位置に基づいて修正することを含む、請求項1または2に記載の方法。
  4. ディスプレイフレームに対するディスプレイオブジェクトビットレートを、通信リンクに対する瞬間的なチャネル容量に基づいて修正することを含む、請求項1から3の任意の1つに記載の方法。
  5. 前記復号化ビデオ情報を各ディスプレイフレームに描画して音声会議向けの視覚的構成を作成することを含む、請求項1から4の任意の1つに記載の方法。
  6. クライアント端末で、前記符号化ビデオ情報を、音声会議向けの様々なレベルの空間解像度、時間解像度および品質を各々が持つ様々なビデオ階層を有する前記ビデオストリームで受信することを含む、請求項1から5の任意の1つに記載の方法。
  7. 前記符号化ビデオ情報を前記ビデオストリームで受信することであって、各ビデオストリームは、第1のレベルの空間解像度および第1のレベルの時間解像度を有するベース階層と、前記第1のレベルの空間解像度または前記第1のレベルの時間解像度を増やす拡張階層とを含む様々なビデオ階層を有することを含む、請求項1から6の任意の1つに記載の方法。
  8. アクティブな話者に基づいてディスプレイフレームに対するディスプレイオブジェクトビットレートを修正することを含む、請求項1から7の任意の1つに記載の方法。
  9. 符号化ビデオ情報を、様々なレベルの空間解像度、時間解像度および品質を持つ様々なビデオ階層を各々が有する複数のビデオストリームから受信および解析するための一連のパーサ、
    前記パーサに接続された視覚的構成モジュールであって、複数のディスプレイオブジェクトに対する入力ビットレートの合計を決定し、全てのディスプレイオブジェクトに対するディスプレイオブジェクトビットレートの合計が前記入力ビットレートの合計以下であるように、ディスプレイオブジェクトビットレートを複数のディスプレイオブジェクトに割り当てる前記視覚的構成モジュール、および
    前記割り当てに従って、ビデオ情報を前記ディスプレイオブジェクトに対する各ビデオストリーム内の前記の様々なビデオ階層から復号化するための、前記視覚的構成モジュールに接続された一連のビデオ復号器、
    を備えるクライアント端末。
  10. 前記視覚的構成モジュールはサブスクリプションメッセージを会議サーバに送信して音声会議向けの様々なビデオ階層を取得する、請求項9に記載のクライアント端末。
  11. 前記視覚的構成モジュールはディスプレイフレームに対するディスプレイオブジェクトビットレートを、ディスプレイ上の前記ディスプレイフレームのサイズまたは前記ディスプレイフレームの位置に基づいて修正する、請求項9または10に記載のクライアント端末。
  12. 前記視覚的構成モジュールはディスプレイフレームに対するディスプレイオブジェクトビットレートを、通信リンクに対する瞬間的なチャネル容量に基づいて修正する、請求項9から11の任意の1つに記載のクライアント端末。
  13. ディスプレイに接続された描画モジュールであって、前記復号化ビデオ情報を各ディスプレイフレームに描画して音声会議向けの視覚的構成を前記ディスプレイ上に作成する前記描画モジュールを備える、請求項9から12の任意の1つに記載のクライアント端末。
  14. 符号化ビデオ情報を複数のビデオストリームで受信する受信機であって、各ビデオストリームが、第1のレベルの空間解像度および第1のレベルの時間解像度を有するベース階層と、前記第1のレベルの空間解像度または前記第1のレベルの時間解像度を増やす拡張階層とを含む様々なビデオ階層を有する受信機、および
    前記受信機に接続された適応スケジューリングモジュールであって、前記の様々なビデオ階層を様々な時刻に受信クライアント端末に送信する前記適応スケジューリングモジュールを備える会議サーバ。
  15. 前記適応スケジューリングモジュールは前記ベース階層の送信後まで前記拡張階層の送信を遅らせる、請求項14に記載の会議サーバ。
  16. 前記適応スケジューリングモジュールは、新たな主要話者を決定する際に前記ベース階層を第1の時刻に前記受信クライアント端末に送信する、請求項14または15に記載の会議サーバ。
  17. 前記適応スケジューリングモジュールは、新たな主要話者を決定する際に前記ベース階層を第1の時刻に前記受信クライアント端末に送信し、所定の待機時間後の第2の時刻に前記拡張階層を送信する、請求項14から16の任意の1つに記載の会議サーバ。
  18. 前記適応スケジューリングモジュールに接続された送信機であって、前記ベース階層と前記拡張階層とを異なる予定時刻に送信する前記送信機を備える、請求項14から17の任意の1つに記載の会議サーバ。
  19. データ処理装置での実行時に、請求項1から8の任意の1つに記載の方法を実装し、および/または請求項9から13の任意の1つに記載のクライアント端末を実装し、および/または請求項14から18の任意の1つに記載の会議サーバを実装するコンピュータプログラム要素を備えるコンピュータプログラム。
  20. 請求項19に記載のコンピュータプログラムを保持するコンピュータプログラムキャリア媒体。
JP2009526799A 2006-08-29 2007-08-15 マルチメディア音声会議向け視覚的構成の管理技術 Active JP5268915B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/511,749 2006-08-29
US11/511,749 US8773494B2 (en) 2006-08-29 2006-08-29 Techniques for managing visual compositions for a multimedia conference call
PCT/US2007/075963 WO2008027724A1 (en) 2006-08-29 2007-08-15 Techniques for managing visual compositions for a multimedia conference call

Publications (2)

Publication Number Publication Date
JP2010503280A true JP2010503280A (ja) 2010-01-28
JP5268915B2 JP5268915B2 (ja) 2013-08-21

Family

ID=39136263

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009526799A Active JP5268915B2 (ja) 2006-08-29 2007-08-15 マルチメディア音声会議向け視覚的構成の管理技術

Country Status (5)

Country Link
US (5) US8773494B2 (ja)
EP (1) EP2060104B1 (ja)
JP (1) JP5268915B2 (ja)
KR (1) KR101365882B1 (ja)
WO (1) WO2008027724A1 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012134874A (ja) * 2010-12-22 2012-07-12 Ricoh Co Ltd Tv会議システム
JP2013048356A (ja) * 2011-08-29 2013-03-07 Ricoh Co Ltd Tv会議システム、映像配信装置、及びデータ処理方法
JP2014045243A (ja) * 2012-08-24 2014-03-13 Sumitomo Electric Ind Ltd 映像データ配信装置およびそれを含む双方向対話システム
JP2014520422A (ja) * 2011-05-18 2014-08-21 トムソン ライセンシング 受信ビットレートの動的適応方法および関連する受信機
JP2015154315A (ja) * 2014-02-17 2015-08-24 日本電信電話株式会社 映像会議サーバ、映像会議システム、および、映像会議方法
JP2017028658A (ja) * 2015-07-28 2017-02-02 株式会社リコー 情報処理装置、画像表示方法、通信システム、プログラム
US9578179B2 (en) 2012-02-02 2017-02-21 Tencent Technology (Shenzhen) Company Limited Method, apparatus and system for transmitting multimedia data
JP2018011169A (ja) * 2016-07-13 2018-01-18 株式会社リコー 通信装置、通信システム、通信方法およびプログラム
JP2018029338A (ja) * 2016-08-16 2018-02-22 Line株式会社 ビデオカンファレンスのためのビデオストリーム提供方法およびコンピュータプログラム

Families Citing this family (186)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100466720C (zh) * 2005-01-17 2009-03-04 株式会社东芝 视频合成设备及视频合成方法
US8422546B2 (en) * 2005-05-25 2013-04-16 Microsoft Corporation Adaptive video encoding using a perceptual model
US8059721B2 (en) * 2006-04-07 2011-11-15 Microsoft Corporation Estimating sample-domain distortion in the transform domain with rounding compensation
US20070237237A1 (en) * 2006-04-07 2007-10-11 Microsoft Corporation Gradient slope detection for video compression
US8130828B2 (en) * 2006-04-07 2012-03-06 Microsoft Corporation Adjusting quantization to preserve non-zero AC coefficients
US7995649B2 (en) 2006-04-07 2011-08-09 Microsoft Corporation Quantization adjustment based on texture level
US8503536B2 (en) * 2006-04-07 2013-08-06 Microsoft Corporation Quantization adjustments for DC shift artifacts
US8711925B2 (en) * 2006-05-05 2014-04-29 Microsoft Corporation Flexible quantization
US9198084B2 (en) 2006-05-26 2015-11-24 Qualcomm Incorporated Wireless architecture for a traditional wire-based protocol
FR2902266B1 (fr) * 2006-06-13 2008-10-24 Canon Kk Procede et dispositif de repartition de la bande passante de communication
US8773494B2 (en) 2006-08-29 2014-07-08 Microsoft Corporation Techniques for managing visual compositions for a multimedia conference call
US20080062988A1 (en) * 2006-09-12 2008-03-13 Brian Daigle Methods, computer program products, and modules for dynamically allocating bandwidth of a subscriber line
US11303684B2 (en) 2006-09-14 2022-04-12 Opentv, Inc. Methods and systems for data transmission
US8335873B2 (en) * 2006-09-14 2012-12-18 Opentv, Inc. Method and systems for data transmission
KR100883653B1 (ko) * 2006-10-02 2009-02-18 삼성전자주식회사 촬영 기능을 갖는 단말기 및 이를 위한 디스플레이 방법
US20080095228A1 (en) * 2006-10-20 2008-04-24 Nokia Corporation System and method for providing picture output indications in video coding
US8270469B2 (en) * 2006-12-15 2012-09-18 Precoad Inc. Encoding video at multiple resolution levels
US7957603B2 (en) * 2006-12-29 2011-06-07 Intel Corporation Digital image decoder with integrated concurrent image prescaler
US8238424B2 (en) * 2007-02-09 2012-08-07 Microsoft Corporation Complexity-based adaptive preprocessing for multiple-pass video compression
GB0819389D0 (en) * 2008-03-12 2008-11-26 Skype Ltd Method of transmitting data in a communication system
GB0704834D0 (en) 2007-03-13 2007-04-18 Skype Ltd Method of transmitting data in a communication system
US9509618B2 (en) 2007-03-13 2016-11-29 Skype Method of transmitting data in a communication system
US8498335B2 (en) * 2007-03-26 2013-07-30 Microsoft Corporation Adaptive deadzone size adjustment in quantization
US20080240257A1 (en) * 2007-03-26 2008-10-02 Microsoft Corporation Using quantization bias that accounts for relations between transform bins and quantization bins
US8243797B2 (en) 2007-03-30 2012-08-14 Microsoft Corporation Regions of interest for quality adjustments
US8442337B2 (en) * 2007-04-18 2013-05-14 Microsoft Corporation Encoding adjustments for animation content
US8203591B2 (en) 2007-04-30 2012-06-19 Cisco Technology, Inc. Method and system for optimal balance and spatial consistency
US20080273683A1 (en) * 2007-05-02 2008-11-06 Menachem Cohen Device method and system for teleconferencing
US9294721B2 (en) * 2007-05-29 2016-03-22 Microsoft Technology Licensing, Llc Techniques for a mixed audio conference
US8331438B2 (en) * 2007-06-05 2012-12-11 Microsoft Corporation Adaptive selection of picture-level quantization parameters for predicted video pictures
US8667144B2 (en) 2007-07-25 2014-03-04 Qualcomm Incorporated Wireless architecture for traditional wire based protocol
US7936705B1 (en) * 2007-08-16 2011-05-03 Avaya Inc. Multiplexing VoIP streams for conferencing and selective playback of audio streams
CN101420609B (zh) * 2007-10-24 2010-08-25 华为终端有限公司 视频编码、解码方法及视频编码器、解码器
JP5223318B2 (ja) * 2007-12-07 2013-06-26 ソニー株式会社 画像処理装置、画像処理方法およびプログラム
US20090163185A1 (en) 2007-12-24 2009-06-25 Samsung Electronics Co., Ltd. Method and system for creating, receiving and playing multiview images, and related mobile communication device
US8750390B2 (en) * 2008-01-10 2014-06-10 Microsoft Corporation Filtering and dithering as pre-processing before encoding
US8327277B2 (en) * 2008-01-14 2012-12-04 Microsoft Corporation Techniques to automatically manage overlapping objects
US20110067073A1 (en) * 2008-01-22 2011-03-17 Koelhi Johan Communication unit and a method for providing access to an iptv network
US8160132B2 (en) 2008-02-15 2012-04-17 Microsoft Corporation Reducing key picture popping effects in video
US8189933B2 (en) * 2008-03-31 2012-05-29 Microsoft Corporation Classifying and controlling encoding quality for textured, dark smooth and smooth video content
US8811294B2 (en) 2008-04-04 2014-08-19 Qualcomm Incorporated Apparatus and methods for establishing client-host associations within a wireless network
US20090265661A1 (en) * 2008-04-14 2009-10-22 Gary Stephen Shuster Multi-resolution three-dimensional environment display
US8897359B2 (en) 2008-06-03 2014-11-25 Microsoft Corporation Adaptive quantization for enhancement layer video coding
US8421840B2 (en) * 2008-06-09 2013-04-16 Vidyo, Inc. System and method for improved view layout management in scalable video and audio communication systems
AU2014200913A1 (en) * 2008-06-09 2014-03-13 Vidyo, Inc. Improved view layout management in scalable video and audio communication systems
US8509434B2 (en) * 2008-06-20 2013-08-13 Korean Broadcasting System Method and apparatus for protecting scalable video coding contents
JP5146145B2 (ja) * 2008-06-24 2013-02-20 株式会社リコー 画像処理装置、画像処理方法、コンピュータプログラム、及び、情報記録媒体
US9571856B2 (en) * 2008-08-25 2017-02-14 Microsoft Technology Licensing, Llc Conversion operations in scalable video encoding and decoding
US8694658B2 (en) * 2008-09-19 2014-04-08 Cisco Technology, Inc. System and method for enabling communication sessions in a network environment
US9398089B2 (en) 2008-12-11 2016-07-19 Qualcomm Incorporated Dynamic resource sharing among multiple wireless devices
US8584132B2 (en) 2008-12-12 2013-11-12 Microsoft Corporation Ultra-wideband radio controller driver (URCD)-PAL interface
US8380790B2 (en) * 2008-12-15 2013-02-19 Microsoft Corporation Video conference rate matching
US8233026B2 (en) * 2008-12-23 2012-07-31 Apple Inc. Scalable video encoding in a multi-view camera system
EP2204965B1 (en) * 2008-12-31 2016-07-27 Google Technology Holdings LLC Device and method for receiving scalable content from multiple sources having different content quality
TWI534753B (zh) * 2009-01-07 2016-05-21 創新科技有限公司 用於分段處理輸入資料之資料處理裝置、使用該裝置之系統及用於資料傳輸之方法
US8102849B2 (en) * 2009-02-12 2012-01-24 Qualcomm, Incorporated Association procedure to enable multiple multicast streams
KR101557504B1 (ko) * 2009-04-13 2015-10-07 삼성전자주식회사 채널 적응형 비디오 전송 방법, 이를 이용한 장치 및 이를 제공하는 시스템
US20100272187A1 (en) * 2009-04-24 2010-10-28 Delta Vidyo, Inc. Efficient video skimmer
US8659639B2 (en) 2009-05-29 2014-02-25 Cisco Technology, Inc. System and method for extending communications between participants in a conferencing environment
US8330794B2 (en) * 2009-06-10 2012-12-11 Microsoft Corporation Implementing multiple dominant speaker video streams with manual override
US9264248B2 (en) 2009-07-02 2016-02-16 Qualcomm Incorporated System and method for avoiding and resolving conflicts in a wireless mobile display digital interface multicast environment
US9082297B2 (en) 2009-08-11 2015-07-14 Cisco Technology, Inc. System and method for verifying parameters in an audiovisual environment
US20110113384A1 (en) 2009-11-12 2011-05-12 Gotcher Michael C Media System Having Three Dimensional Navigation via Dynamic Carousel
US8462797B2 (en) * 2009-11-30 2013-06-11 Alcatel Lucent Method of priority based transmission of wireless video
US8625667B2 (en) * 2009-11-30 2014-01-07 Alcatel Lucent Method of opportunity-based transmission of wireless video
KR20110065159A (ko) * 2009-12-09 2011-06-15 한국전자통신연구원 다중 서버를 이용하여 다계층 콘텐츠를 제공하는 시스템 및 그의 콘텐츠 서비스 방법
US9582238B2 (en) 2009-12-14 2017-02-28 Qualcomm Incorporated Decomposed multi-stream (DMS) techniques for video display systems
JP5387395B2 (ja) * 2009-12-28 2014-01-15 ソニー株式会社 受信装置、受信方法およびプログラム
US8818175B2 (en) 2010-03-08 2014-08-26 Vumanity Media, Inc. Generation of composited video programming
WO2011112640A2 (en) * 2010-03-08 2011-09-15 Vumanity Media Llc Generation of composited video programming
US9225916B2 (en) * 2010-03-18 2015-12-29 Cisco Technology, Inc. System and method for enhancing video images in a conferencing environment
US20130298040A1 (en) * 2010-04-30 2013-11-07 American Teleconferencing Services, Ltd. Systems, Methods, and Computer Programs for Providing Simultaneous Online Conferences
WO2011138637A1 (en) * 2010-05-03 2011-11-10 Nokia Corporation System, method, and apparatus for facilitating group video communication
US20110274178A1 (en) * 2010-05-06 2011-11-10 Canon Kabushiki Kaisha Method and device for parallel decoding of video data units
US9313452B2 (en) 2010-05-17 2016-04-12 Cisco Technology, Inc. System and method for providing retracting optics in a video conferencing environment
US20110299605A1 (en) * 2010-06-04 2011-12-08 Apple Inc. Method and apparatus for video resolution adaptation
JP5786023B2 (ja) 2010-06-15 2015-09-30 ドルビー ラボラトリーズ ライセンシング コーポレイション カスタマイズされたビデオコンテンツバージョンを含むビデオデータの符号化、配信及び表示
US8947492B2 (en) 2010-06-18 2015-02-03 Microsoft Corporation Combining multiple bit rate and scalable video coding
US10089937B2 (en) 2010-06-21 2018-10-02 Microsoft Technology Licensing, Llc Spatial and temporal multiplexing display
US9225975B2 (en) 2010-06-21 2015-12-29 Microsoft Technology Licensing, Llc Optimization of a multi-view display
US8576271B2 (en) * 2010-06-25 2013-11-05 Microsoft Corporation Combining direct and routed communication in a video conference
US8392201B2 (en) * 2010-07-30 2013-03-05 Deutsche Telekom Ag Method and system for distributed audio transcoding in peer-to-peer systems
US8896655B2 (en) 2010-08-31 2014-11-25 Cisco Technology, Inc. System and method for providing depth adaptive video conferencing
US9077586B2 (en) 2010-11-03 2015-07-07 Broadcom Corporation Unified vehicle network frame protocol
US8699457B2 (en) 2010-11-03 2014-04-15 Cisco Technology, Inc. System and method for managing flows in a mobile network environment
KR101381595B1 (ko) * 2010-11-04 2014-04-07 한국전자통신연구원 그룹 미디어 통신을 위한 영상 통화 장치 및 그 처리 방법
US8902244B2 (en) 2010-11-15 2014-12-02 Cisco Technology, Inc. System and method for providing enhanced graphics in a video environment
US9338394B2 (en) 2010-11-15 2016-05-10 Cisco Technology, Inc. System and method for providing enhanced audio in a video environment
US9143725B2 (en) 2010-11-15 2015-09-22 Cisco Technology, Inc. System and method for providing enhanced graphics in a video environment
US9111138B2 (en) 2010-11-30 2015-08-18 Cisco Technology, Inc. System and method for gesture interface control
WO2012072276A1 (en) * 2010-11-30 2012-06-07 Telefonaktiebolaget L M Ericsson (Publ) Transport bit-rate adaptation in a multi-user multi-media conference system
SG191748A1 (en) * 2011-01-19 2013-08-30 Ericsson Telefon Ab L M Indicating bit stream subsets
US10135900B2 (en) 2011-01-21 2018-11-20 Qualcomm Incorporated User input back channel for wireless displays
US9582239B2 (en) 2011-01-21 2017-02-28 Qualcomm Incorporated User input back channel for wireless displays
US9413803B2 (en) 2011-01-21 2016-08-09 Qualcomm Incorporated User input back channel for wireless displays
US8964783B2 (en) 2011-01-21 2015-02-24 Qualcomm Incorporated User input back channel for wireless displays
US9787725B2 (en) 2011-01-21 2017-10-10 Qualcomm Incorporated User input back channel for wireless displays
US9065876B2 (en) 2011-01-21 2015-06-23 Qualcomm Incorporated User input back channel from a wireless sink device to a wireless source device for multi-touch gesture wireless displays
US9503771B2 (en) 2011-02-04 2016-11-22 Qualcomm Incorporated Low latency wireless display for graphics
US10108386B2 (en) 2011-02-04 2018-10-23 Qualcomm Incorporated Content provisioning for wireless back channel
US8674957B2 (en) 2011-02-04 2014-03-18 Qualcomm Incorporated User input device for wireless back channel
US8692862B2 (en) * 2011-02-28 2014-04-08 Cisco Technology, Inc. System and method for selection of video data in a video conference environment
US8786631B1 (en) 2011-04-30 2014-07-22 Cisco Technology, Inc. System and method for transferring transparency information in a video environment
US8934026B2 (en) 2011-05-12 2015-01-13 Cisco Technology, Inc. System and method for video coding in a dynamic environment
US8949333B2 (en) * 2011-05-20 2015-02-03 Alejandro Backer Systems and methods for virtual interactions
US9451320B2 (en) * 2011-05-23 2016-09-20 Broadcom Corporation Utilizing multi-dimensional resource allocation metrics for concurrent decoding of time-sensitive and non-time-sensitive content
US9606723B2 (en) * 2011-07-21 2017-03-28 Z124 Second view
US9588668B2 (en) * 2011-07-21 2017-03-07 Imerj, Llc Methods of displaying a second view
US10045089B2 (en) 2011-08-02 2018-08-07 Apple Inc. Selection of encoder and decoder for a video communications session
JP6085907B2 (ja) * 2011-09-13 2017-03-01 株式会社リコー 会議システム、イベント管理サーバ、および、プログラム
US9143728B2 (en) 2011-09-19 2015-09-22 Telefonaktiebolaget L M Ericsson (Publ) User interface control in a multimedia conference system
US9009341B2 (en) * 2011-10-11 2015-04-14 Avaya Inc. Video bandwidth management system and method
WO2013062509A1 (en) * 2011-10-24 2013-05-02 Hewlett-Packard Development Company, L.P. Applying geometric correction to a media stream
US9525998B2 (en) 2012-01-06 2016-12-20 Qualcomm Incorporated Wireless display with multiscreen service
US9190021B2 (en) * 2012-04-24 2015-11-17 Hewlett-Packard Development Company, L.P. Visual feedback during remote collaboration
US20130318251A1 (en) * 2012-05-22 2013-11-28 Alimuddin Mohammad Adaptive multipath content streaming
CN103533294B (zh) * 2012-07-03 2017-06-20 中国移动通信集团公司 视频数据流的发送方法、终端及系统
US9813255B2 (en) * 2012-07-30 2017-11-07 Microsoft Technology Licensing, Llc Collaboration environments and views
US8661491B1 (en) 2012-08-02 2014-02-25 Ericsson Television Inc. Methods using base content and additive content and related client devices and network server devices
US9460729B2 (en) 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US20140114664A1 (en) * 2012-10-20 2014-04-24 Microsoft Corporation Active Participant History in a Video Conferencing System
US10257523B2 (en) * 2012-12-14 2019-04-09 Avago Technologies International Sales Pte. Limited Adaptive decoding system
US20140192207A1 (en) * 2013-01-07 2014-07-10 Jinsong Ji Method and apparatus to measure video characteristics locally or remotely
NO341411B1 (no) * 2013-03-04 2017-10-30 Cisco Tech Inc Virtuelle endepunkter i videokonferanser
US20140278380A1 (en) * 2013-03-14 2014-09-18 Dolby Laboratories Licensing Corporation Spectral and Spatial Modification of Noise Captured During Teleconferencing
US9288435B2 (en) * 2013-03-27 2016-03-15 Google Inc. Speaker switching delay for video conferencing
US9843621B2 (en) 2013-05-17 2017-12-12 Cisco Technology, Inc. Calendaring activities based on communication processing
US9530422B2 (en) 2013-06-27 2016-12-27 Dolby Laboratories Licensing Corporation Bitstream syntax for spatial voice coding
US9344218B1 (en) 2013-08-19 2016-05-17 Zoom Video Communications, Inc. Error resilience for interactive real-time multimedia applications
FR3009916A1 (fr) * 2013-08-26 2015-02-27 Orange Procede et dispositif d'enrichissement d'une communication
US20150088515A1 (en) * 2013-09-25 2015-03-26 Lenovo (Singapore) Pte. Ltd. Primary speaker identification from audio and video data
US9232192B2 (en) * 2013-11-08 2016-01-05 Avaya, Inc. Method and system for video conference snapshot presence
US9191617B1 (en) * 2013-12-23 2015-11-17 Altera Corporation Using FPGA partial reconfiguration for codec applications
US9380266B2 (en) * 2014-03-31 2016-06-28 Polycom, Inc. Method and systems for optimizing bandwidth utilization in a multi-participant full mesh peer-to-peer video session
US9306987B2 (en) * 2014-04-29 2016-04-05 Cisco Technology, Inc. Content message for video conferencing
CN103986935B (zh) * 2014-04-30 2018-03-06 华为技术有限公司 编码方法、编码器、屏幕共享设备及系统
JP6349997B2 (ja) 2014-06-17 2018-07-04 株式会社リコー 通信装置、通信システム、通信制御方法およびプログラム
US9812056B2 (en) * 2014-06-24 2017-11-07 Google Inc. Display resolution negotiation
EP3164963A4 (en) * 2014-07-04 2018-04-04 Telefonaktiebolaget LM Ericsson (publ) Priority of uplink streams in video switching
KR102037158B1 (ko) * 2014-08-20 2019-11-26 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 비디오 구성
KR101605773B1 (ko) * 2014-09-25 2016-04-01 현대자동차주식회사 단말 장치, 그를 가지는 차량 및 단말 장치의 제어 방법
WO2016159984A1 (en) * 2015-03-31 2016-10-06 Hewlett-Packard Development Company, L.P. Transmitting multimedia streams to users
US9870755B2 (en) * 2015-05-22 2018-01-16 Google Llc Prioritized display of visual content in computer presentations
US10085029B2 (en) * 2015-07-21 2018-09-25 Qualcomm Incorporated Switching display devices in video telephony
US10506006B2 (en) 2015-09-09 2019-12-10 Vantrix Corporation Method and system for flow-rate regulation in a content-controlled streaming network
US10694249B2 (en) 2015-09-09 2020-06-23 Vantrix Corporation Method and system for selective content processing based on a panoramic camera and a virtual-reality headset
US10419770B2 (en) 2015-09-09 2019-09-17 Vantrix Corporation Method and system for panoramic multimedia streaming
US11108670B2 (en) 2015-09-09 2021-08-31 Vantrix Corporation Streaming network adapted to content selection
US11287653B2 (en) 2015-09-09 2022-03-29 Vantrix Corporation Method and system for selective content processing based on a panoramic camera and a virtual-reality headset
GB201520509D0 (en) 2015-11-20 2016-01-06 Microsoft Technology Licensing Llc Communication system
US10332534B2 (en) * 2016-01-07 2019-06-25 Microsoft Technology Licensing, Llc Encoding an audio stream
JP6677061B2 (ja) * 2016-04-22 2020-04-08 株式会社リコー 通信装置、通信システム、及びプログラム
WO2017209661A1 (en) * 2016-05-30 2017-12-07 Telefonaktiebolaget Lm Ericsson (Publ) Wireless-system flow control and packet scheduler interface
JP6634965B2 (ja) * 2016-06-20 2020-01-22 株式会社リコー 通信端末、通信システム、通信制御方法、及びプログラム
US10868848B2 (en) * 2016-07-25 2020-12-15 Peraso Technologies Inc. Wireless multimedia communications system and method
CN108235266A (zh) * 2016-12-22 2018-06-29 展讯通信(上海)有限公司 多方通话过程中的通话控制方法、装置及多通终端
CN108234429A (zh) * 2016-12-22 2018-06-29 展讯通信(上海)有限公司 多方通话过程中的通话控制方法、装置及多通终端
US10271074B2 (en) 2016-12-30 2019-04-23 Facebook, Inc. Live to video on demand normalization
US10237581B2 (en) 2016-12-30 2019-03-19 Facebook, Inc. Presentation of composite streams to users
US10681105B2 (en) * 2016-12-30 2020-06-09 Facebook, Inc. Decision engine for dynamically selecting media streams
US10250849B2 (en) * 2016-12-30 2019-04-02 Akamai Technologies, Inc. Dynamic speaker selection and live stream delivery for multi-party conferencing
US10721284B2 (en) * 2017-03-22 2020-07-21 Cisco Technology, Inc. Encoding and decoding of live-streamed video using common video data shared between a transmitter and a receiver
JP2021500764A (ja) * 2017-08-29 2021-01-07 Line株式会社 映像通話の映像品質向上
US10372298B2 (en) 2017-09-29 2019-08-06 Apple Inc. User interface for multi-user communication session
US10848616B2 (en) * 2017-11-08 2020-11-24 Mitel Networks Corporation Portable voice unit communications via a communication device
US10389772B1 (en) * 2018-01-31 2019-08-20 Facebook, Inc. Systems and methods for optimizing simulcast streams in group video calls
KR20230084336A (ko) * 2018-05-07 2023-06-12 애플 인크. 다중 참가자 라이브 통신 사용자 인터페이스
DK201870364A1 (en) 2018-05-07 2019-12-03 Apple Inc. MULTI-PARTICIPANT LIVE COMMUNICATION USER INTERFACE
KR102460538B1 (ko) * 2018-05-28 2022-10-28 삼성에스디에스 주식회사 영상 품질 조정 방법과 이를 수행하기 위한 단말 및 중계 서버
US11284134B2 (en) * 2018-08-08 2022-03-22 Comcast Cable Communications, Llc Media content enhancement based on content importance
US10764588B2 (en) * 2018-08-10 2020-09-01 Apple Inc. Deep quality enhancement of adaptive downscaled coding for image compression
US11128792B2 (en) 2018-09-28 2021-09-21 Apple Inc. Capturing and displaying images with multiple focal planes
ES2754848B2 (es) * 2018-10-17 2021-11-23 Fernandez Luis Lopez Sistema y método para la asignación inteligente de ancho de banda en sistemas de comunicación multimedia de pista múltiple
JP2021015346A (ja) * 2019-07-10 2021-02-12 キヤノン株式会社 情報処理方法、画像処理装置、及びプログラム
US11825156B1 (en) * 2020-02-25 2023-11-21 Axon Enterprise, Inc. Computer system for processing multiplexed digital multimedia files
US11079913B1 (en) 2020-05-11 2021-08-03 Apple Inc. User interface for status indicators
US10999344B1 (en) * 2020-06-15 2021-05-04 Google Llc Dynamic video resolution and quality for improved video conferencing
WO2022056492A2 (en) * 2020-09-14 2022-03-17 NWR Corporation Systems and methods for teleconferencing virtual environments
US11290680B1 (en) * 2020-09-28 2022-03-29 Cisco Technology, Inc. High-fidelity freeze-frame for precision video communication applications
US11755340B2 (en) * 2020-10-07 2023-09-12 Microsoft Technology Licensing, Llc Automatic enrollment and intelligent assignment of settings
US11671697B2 (en) 2021-01-31 2023-06-06 Apple Inc. User interfaces for wide angle video conference
US20220368548A1 (en) 2021-05-15 2022-11-17 Apple Inc. Shared-content session user interfaces
US11893214B2 (en) 2021-05-15 2024-02-06 Apple Inc. Real-time communication user interface
US11907605B2 (en) 2021-05-15 2024-02-20 Apple Inc. Shared-content session user interfaces
US11812135B2 (en) 2021-09-24 2023-11-07 Apple Inc. Wide angle video conference
US11900677B2 (en) 2022-02-25 2024-02-13 Cisco Technology, Inc. User-selected multi-view videoconferencing

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005516557A (ja) * 2002-01-30 2005-06-02 モトローラ・インコーポレイテッド ビデオ会議システム及び動作方法
JP2005204157A (ja) * 2004-01-16 2005-07-28 Nippon Telegr & Teleph Corp <Ntt> ストリームフィルタリングシステムとコンテンツ配信システムおよびストリームフィルタリング方法ならびにプログラム
JP2005341076A (ja) * 2004-05-26 2005-12-08 Nippon Telegr & Teleph Corp <Ntt> 画像通信システム,通信会議システム,階層符号化装置,サーバ装置,画像通信方法,画像通信プログラムおよび画像通信プログラム記録媒体

Family Cites Families (105)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2038646C (en) 1990-03-20 1995-02-07 Katsumi Oomuro Atm communication system with optimal traffic control by changing the allocated bandwidth
US5253055A (en) 1992-07-02 1993-10-12 At&T Bell Laboratories Efficient frequency scalable video encoding with coefficient selection
US5654952A (en) 1994-10-28 1997-08-05 Sony Corporation Digital signal encoding method and apparatus and recording medium
US5629736A (en) 1994-11-01 1997-05-13 Lucent Technologies Inc. Coded domain picture composition for multimedia communications systems
EP0745299A4 (en) * 1994-12-16 1997-10-22 At & T Corp NETWORK-BASED MULTIMEDIA MESSAGE SYSTEM AND METHOD
JP3363668B2 (ja) 1995-07-25 2003-01-08 キヤノン株式会社 画像伝送装置及び画像伝送システム
US6343313B1 (en) 1996-03-26 2002-01-29 Pixion, Inc. Computer conferencing system with real-time multipoint, multi-speed, multi-stream scalability
KR19990071737A (ko) 1996-09-30 1999-09-27 이데이 노부유끼 송신장치,수신장치,송수신장치,전송장치및전송방법
FR2756399B1 (fr) 1996-11-28 1999-06-25 Thomson Multimedia Sa Procede et dispositif de compression video pour images de synthese
JPH10243273A (ja) 1997-02-24 1998-09-11 Canon Inc デジタルカメラ用画像表示方法
CN1186944C (zh) 1997-04-01 2005-01-26 索尼公司 图像编码器及其编码方法、图像译码器及其译码方法
US6057884A (en) 1997-06-05 2000-05-02 General Instrument Corporation Temporal and spatial scaleable coding for video object planes
US6014694A (en) * 1997-06-26 2000-01-11 Citrix Systems, Inc. System for adaptive video/audio transport over a network
US6233356B1 (en) 1997-07-08 2001-05-15 At&T Corp. Generalized scalability for video coder based on video objects
US6993201B1 (en) 1997-07-08 2006-01-31 At&T Corp. Generalized scalability for video coder based on video objects
US6223292B1 (en) * 1997-07-15 2001-04-24 Microsoft Corporation Authorization systems, methods, and computer program products
US6075571A (en) * 1997-07-29 2000-06-13 Kuthyar; Ashok K. Composite image display device and service for video conferencing
RU2201654C2 (ru) 1997-12-23 2003-03-27 Томсон Лайсенсинг С.А. Способ низкошумового кодирования и декодирования
US6104705A (en) * 1997-12-31 2000-08-15 U.S. Philips Corporation Group based control scheme for video compression
JP2000032393A (ja) 1998-07-09 2000-01-28 Sony Corp 画像情報処理装置および方法、並びに提供媒体
US6195680B1 (en) 1998-07-23 2001-02-27 International Business Machines Corporation Client-based dynamic switching of streaming servers for fault-tolerance and load balancing
US7143432B1 (en) 1999-10-01 2006-11-28 Vidiator Enterprises Inc. System for transforming streaming video data
US6385673B1 (en) 1999-10-06 2002-05-07 Sun Microsystems, Inc. System and method for adjusting performance of a media storage by decreasing a maximum throughput by a primary derate parameter to specify available & guaranteed rate parameters and determining ring buffer sizes for streams
US6639943B1 (en) * 1999-11-23 2003-10-28 Koninklijke Philips Electronics N.V. Hybrid temporal-SNR fine granular scalability video coding
JP4018335B2 (ja) 2000-01-05 2007-12-05 キヤノン株式会社 画像復号装置及び画像復号方法
US7039670B2 (en) 2000-03-30 2006-05-02 United Devices, Inc. Massively distributed processing system with modular client agent and associated method
JP3861559B2 (ja) 2000-03-31 2006-12-20 株式会社日立製作所 移動エージェント制御方法
US6747991B1 (en) * 2000-04-26 2004-06-08 Carnegie Mellon University Filter and method for adaptively modifying the bit rate of synchronized video and audio streams to meet packet-switched network bandwidth constraints
US7007098B1 (en) * 2000-08-17 2006-02-28 Nortel Networks Limited Methods of controlling video signals in a video conference
US8831995B2 (en) 2000-11-06 2014-09-09 Numecent Holdings, Inc. Optimized server for streamed applications
US7353277B1 (en) 2000-11-14 2008-04-01 Hewlett-Packard Development Company, L.P. Dynamic load balancing of video requests
US6567813B1 (en) 2000-12-29 2003-05-20 Webex Communications, Inc. Quality of service maintenance for distributed collaborative computing
US20020126759A1 (en) 2001-01-10 2002-09-12 Wen-Hsiao Peng Method and apparatus for providing prediction mode fine granularity scalability
US7085842B2 (en) 2001-02-12 2006-08-01 Open Text Corporation Line navigation conferencing system
US20020133611A1 (en) 2001-03-16 2002-09-19 Eddy Gorsuch System and method for facilitating real-time, multi-point communications over an electronic network
KR100783396B1 (ko) 2001-04-19 2007-12-10 엘지전자 주식회사 부호기의 서브밴드 분할을 이용한 시공간 스케일러빌러티방법
US6496217B1 (en) * 2001-06-12 2002-12-17 Koninklijke Philips Electronics N.V. Video communication system using model-based coding and prioritzation techniques
US7023465B2 (en) 2001-07-31 2006-04-04 Tandberg Telecom As System and method for communication device configuration, scheduling and access control
US20030076858A1 (en) * 2001-10-19 2003-04-24 Sharp Laboratories Of America, Inc. Multi-layer data transmission system
FR2831377B1 (fr) 2001-10-22 2004-01-16 France Telecom Systeme de conference du type qui comprend un pont de conference audio et/ou video et/ou des donnees auquel une pluralite de terminaux peuvent se connecter pour participer a une conference
JP2003140988A (ja) 2001-10-30 2003-05-16 Ando Electric Co Ltd 動画配信サーバ負荷試験装置
KR100408525B1 (ko) 2001-10-31 2003-12-06 삼성전자주식회사 네트워크에 적응적인 실시간 멀티미디어 스트리밍 시스템및 방법
US7031700B1 (en) 2001-11-14 2006-04-18 Sprint Spectrum L.P. Method and system for location-based group conference initiation
US6839080B2 (en) 2001-12-31 2005-01-04 Nokia Corporation Remote server switching of video streams
US7177356B2 (en) 2002-01-11 2007-02-13 Webtv Networks, Inc. Spatially transcoding a video stream
DK1753244T3 (da) 2002-01-22 2010-07-26 Microsoft Corp Fremgangsmåder og systemer til startkodeemuleringsforhindring og datafyldning
US20030158900A1 (en) 2002-02-05 2003-08-21 Santos Richard A. Method of and apparatus for teleconferencing
US20050084086A1 (en) 2002-02-15 2005-04-21 Hesse Thomas H. Systems and methods for conferencing among governed and external participants
JP2003308277A (ja) 2002-04-17 2003-10-31 Sony Corp 端末装置、データ送信装置、データ送受信システム及びデータ送受信方法
US20030204602A1 (en) 2002-04-26 2003-10-30 Hudson Michael D. Mediated multi-source peer content delivery network architecture
US20030215011A1 (en) 2002-05-17 2003-11-20 General Instrument Corporation Method and apparatus for transcoding compressed video bitstreams
AU2003238771A1 (en) 2002-05-29 2003-12-19 Simon Butler Predictive interpolation of a video signal
EP1372302A3 (en) 2002-06-14 2007-07-18 Polycom, Inc. Multipoint multimedia/audio conference using IP trunking
US7362349B2 (en) 2002-07-10 2008-04-22 Seiko Epson Corporation Multi-participant conference system with controllable content delivery using a client monitor back-channel
US7010037B2 (en) 2002-08-06 2006-03-07 Koninklijke Philips Electronics N.V. System and method for rate-distortion optimized data partitioning for video coding using backward adaptation
US6839417B2 (en) 2002-09-10 2005-01-04 Myriad Entertainment, Inc. Method and apparatus for improved conference call management
JP2004140667A (ja) 2002-10-18 2004-05-13 Canon Inc 情報処理方法
US20040086041A1 (en) 2002-10-30 2004-05-06 Koninklijke Philips Electronics N.V. System and method for advanced data partitioning for robust video transmission
KR20050084303A (ko) 2002-12-16 2005-08-26 코닌클리케 필립스 일렉트로닉스 엔.브이. 비디오 데이터 스트림의 암호화 방법 및 장치
AU2003303270A1 (en) 2002-12-19 2004-07-14 Declan Patrick Kelly Characteristic point information (cpi) for multilayer video
US7406176B2 (en) 2003-04-01 2008-07-29 Microsoft Corporation Fully scalable encryption for scalable multimedia
US7313814B2 (en) 2003-04-01 2007-12-25 Microsoft Corporation Scalable, error resilient DRM for scalable media
FR2857198B1 (fr) 2003-07-03 2005-08-26 Canon Kk Optimisation de qualite de service dans la distribution de flux de donnees numeriques
JP2005049993A (ja) 2003-07-30 2005-02-24 Canon Inc 会議システムおよびその制御方法
US8081205B2 (en) * 2003-10-08 2011-12-20 Cisco Technology, Inc. Dynamically switched and static multiple video streams for a multimedia conference
KR100965881B1 (ko) * 2003-10-10 2010-06-24 삼성전자주식회사 비디오 데이터 인코딩 시스템 및 디코딩 시스템
US7461126B2 (en) 2003-10-30 2008-12-02 Radvision Ltd. System and method for distributed multipoint conferencing with automatic endpoint address detection and dynamic endpoint-server allocation
US20050099492A1 (en) * 2003-10-30 2005-05-12 Ati Technologies Inc. Activity controlled multimedia conferencing
NO318911B1 (no) 2003-11-14 2005-05-23 Tandberg Telecom As Distribuert sammensetting av sanntids-media
US7797454B2 (en) 2004-02-13 2010-09-14 Hewlett-Packard Development Company, L.P. Media data transcoding devices
US7634533B2 (en) 2004-04-30 2009-12-15 Microsoft Corporation Systems and methods for real-time audio-visual communication and data collaboration in a network conference environment
US20050254575A1 (en) 2004-05-12 2005-11-17 Nokia Corporation Multiple interoperability points for scalable media coding and transmission
KR100662350B1 (ko) 2004-08-23 2007-01-02 엘지전자 주식회사 영상 전송 장치 및 방법
KR100679018B1 (ko) 2004-09-07 2007-02-05 삼성전자주식회사 다계층 비디오 코딩 및 디코딩 방법, 비디오 인코더 및디코더
US7679627B2 (en) 2004-09-27 2010-03-16 Qualcomm Mems Technologies, Inc. Controller and driver features for bi-stable display
JP2006098308A (ja) 2004-09-30 2006-04-13 Yamaha Corp 磁気測定装置
KR100668345B1 (ko) * 2004-10-05 2007-01-12 삼성전자주식회사 움직임 보상된 계층 생성장치 및 방법
US20060078049A1 (en) * 2004-10-13 2006-04-13 Nokia Corporation Method and system for entropy coding/decoding of a video bit stream for fine granularity scalability
US7870590B2 (en) 2004-10-20 2011-01-11 Cisco Technology, Inc. System and method for fast start-up of live multicast streams transmitted over a packet network
KR100714689B1 (ko) * 2005-01-21 2007-05-04 삼성전자주식회사 다 계층 구조 기반의 스케일러블 비디오 코딩 및 디코딩방법, 이를 위한 장치
US7668962B2 (en) * 2005-02-07 2010-02-23 Symantec Operating Corporation System and method for connection failover using redirection
JP4741261B2 (ja) * 2005-03-11 2011-08-03 株式会社日立製作所 ビデオ会議システム、プログラムおよび会議端末
US20060212542A1 (en) * 2005-03-15 2006-09-21 1000 Oaks Hu Lian Technology Development Co., Ltd. Method and computer-readable medium for file downloading in a peer-to-peer network
US7966612B2 (en) 2005-04-28 2011-06-21 International Business Machines Corporation Method, system and computer program for installing shared software components
US7937697B2 (en) 2005-05-19 2011-05-03 International Business Machines Corporation Method, system and computer program for distributing software patches
US7953224B2 (en) 2005-05-20 2011-05-31 Microsoft Corporation MPEG-4 encryption enabling transcoding without decryption
US7593032B2 (en) * 2005-07-20 2009-09-22 Vidyo, Inc. System and method for a conference server architecture for low delay and distributed conferencing applications
US8289370B2 (en) 2005-07-20 2012-10-16 Vidyo, Inc. System and method for scalable and low-delay videoconferencing using scalable video coding
US8230222B2 (en) 2005-08-23 2012-07-24 International Business Machines Corporation Method, system and computer program for deploying software packages with increased security
JP5265383B2 (ja) 2005-09-07 2013-08-14 ヴィドヨ,インコーポレーテッド 低遅延かつ分散した会議アプリケーション向けコンファレンスサーバアーキテクチャのためのシステムおよび方法
JP4266218B2 (ja) 2005-09-29 2009-05-20 株式会社東芝 動画像データの再圧縮符号化方法、装置及びプログラム
CA2624972C (en) 2005-10-06 2015-09-22 Telecommunication Systems, Inc. Voice over internet protocol (voip) location based conferencing
US8436889B2 (en) 2005-12-22 2013-05-07 Vidyo, Inc. System and method for videoconferencing using scalable video coding and compositing scalable video conferencing servers
US7664246B2 (en) * 2006-01-13 2010-02-16 Microsoft Corporation Sorting speakers in a network-enabled conference
US8619865B2 (en) 2006-02-16 2013-12-31 Vidyo, Inc. System and method for thinning of scalable video coding bit-streams
US8824453B2 (en) 2006-04-14 2014-09-02 At&T Intellectual Property I, Lp Method and apparatus for managing quality of service for multimedia applications
US7925781B1 (en) 2006-05-26 2011-04-12 The Hong Kong University Of Science And Technology Distributed storage to support user interactivity in peer-to-peer video streaming
EP2041983B1 (en) 2006-07-17 2010-12-15 Thomson Licensing Method and apparatus for encoding video color enhancement data, and method and apparatus for decoding video color enhancement data
US20080043832A1 (en) 2006-08-16 2008-02-21 Microsoft Corporation Techniques for variable resolution encoding and decoding of digital video
US7898950B2 (en) * 2006-08-18 2011-03-01 Microsoft Corporation Techniques to perform rate matching for multimedia conference calls
US8773494B2 (en) 2006-08-29 2014-07-08 Microsoft Corporation Techniques for managing visual compositions for a multimedia conference call
US8990305B2 (en) 2006-10-18 2015-03-24 Microsoft Corporation Techniques for virtual conferencing servers
US20080101410A1 (en) 2006-10-25 2008-05-01 Microsoft Corporation Techniques for managing output bandwidth for a conferencing server
US20080100694A1 (en) 2006-10-27 2008-05-01 Microsoft Corporation Distributed caching for multimedia conference calls
KR20090019677A (ko) 2007-08-21 2009-02-25 삼성전기주식회사 옥시 나이트라이드 형광체, 이를 포함하는 백색 발광 소자및 형광체 제조 방법.

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005516557A (ja) * 2002-01-30 2005-06-02 モトローラ・インコーポレイテッド ビデオ会議システム及び動作方法
JP2005204157A (ja) * 2004-01-16 2005-07-28 Nippon Telegr & Teleph Corp <Ntt> ストリームフィルタリングシステムとコンテンツ配信システムおよびストリームフィルタリング方法ならびにプログラム
JP2005341076A (ja) * 2004-05-26 2005-12-08 Nippon Telegr & Teleph Corp <Ntt> 画像通信システム,通信会議システム,階層符号化装置,サーバ装置,画像通信方法,画像通信プログラムおよび画像通信プログラム記録媒体

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012134874A (ja) * 2010-12-22 2012-07-12 Ricoh Co Ltd Tv会議システム
JP2014520422A (ja) * 2011-05-18 2014-08-21 トムソン ライセンシング 受信ビットレートの動的適応方法および関連する受信機
US10015225B2 (en) 2011-05-18 2018-07-03 Thomson Licensing Method for dynamic adaptation of the reception bitrate and associated receiver
JP2013048356A (ja) * 2011-08-29 2013-03-07 Ricoh Co Ltd Tv会議システム、映像配信装置、及びデータ処理方法
US9578179B2 (en) 2012-02-02 2017-02-21 Tencent Technology (Shenzhen) Company Limited Method, apparatus and system for transmitting multimedia data
JP2014045243A (ja) * 2012-08-24 2014-03-13 Sumitomo Electric Ind Ltd 映像データ配信装置およびそれを含む双方向対話システム
JP2015154315A (ja) * 2014-02-17 2015-08-24 日本電信電話株式会社 映像会議サーバ、映像会議システム、および、映像会議方法
JP2017028658A (ja) * 2015-07-28 2017-02-02 株式会社リコー 情報処理装置、画像表示方法、通信システム、プログラム
JP2018011169A (ja) * 2016-07-13 2018-01-18 株式会社リコー 通信装置、通信システム、通信方法およびプログラム
JP2018029338A (ja) * 2016-08-16 2018-02-22 Line株式会社 ビデオカンファレンスのためのビデオストリーム提供方法およびコンピュータプログラム

Also Published As

Publication number Publication date
US20170324934A1 (en) 2017-11-09
US10630938B2 (en) 2020-04-21
JP5268915B2 (ja) 2013-08-21
US20190238794A1 (en) 2019-08-01
EP2060104A4 (en) 2014-11-05
US8773494B2 (en) 2014-07-08
US20190222805A1 (en) 2019-07-18
WO2008027724A1 (en) 2008-03-06
EP2060104B1 (en) 2019-07-17
KR101365882B1 (ko) 2014-02-25
US10187608B2 (en) 2019-01-22
US20140376609A1 (en) 2014-12-25
US9635314B2 (en) 2017-04-25
US20080068446A1 (en) 2008-03-20
EP2060104A1 (en) 2009-05-20
KR20090060274A (ko) 2009-06-11

Similar Documents

Publication Publication Date Title
JP5268915B2 (ja) マルチメディア音声会議向け視覚的構成の管理技術
KR101354833B1 (ko) 디지털 비디오의 가변 해상도 인코딩 및 디코딩 기법
US7898950B2 (en) Techniques to perform rate matching for multimedia conference calls
US8861613B2 (en) Systems and methods for signaling and performing temporal level switching in scalable video coding
US20080101410A1 (en) Techniques for managing output bandwidth for a conferencing server
US8731152B2 (en) Reducing use of periodic key frames in video conferencing
JP5559430B2 (ja) ビデオデータをストリーミングするためのビデオ切替え
EP2583463B1 (en) Combining multiple bit rate and scalable video coding
US20080100694A1 (en) Distributed caching for multimedia conference calls
US20110274180A1 (en) Method and apparatus for transmitting and receiving layered coded video
JP2015097410A (ja) ビデオ構成要素を多重化するためのデータを信号伝達すること
JP2006087125A (ja) ビデオフレームシーケンスを符号化する方法、符号化ビットストリーム、画像又は画像シーケンスを復号する方法、データの送信又は受信を含む使用、データを送信する方法、符号化及び/又は復号装置、コンピュータプログラム、システム、並びにコンピュータ読み取り可能な記憶媒体
KR20040069360A (ko) 클라이언트 대역폭 또는 성능에 기초한 타겟된 스케일가능한 비디오 멀티캐스트
CN114600468A (zh) 将复合视频流中的视频流与元数据组合
WO2022069790A1 (en) A method, an apparatus and a computer program product for video encoding/decoding
Liu et al. Hybrid lossless-lossy compression for real-time depth-sensor streams in 3D telepresence applications
KR20220054656A (ko) 원격 단말들을 위한 몰입형 원격회의 및 원격현전을 위하여 rtcp 뷰포트의 시그널링을 위한 이벤트-기반 트리거 간격
Janson A comparison of different multimedia streaming strategies over distributed IP networks State of the art report [J]

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100517

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120629

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121001

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121009

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130507

R150 Certificate of patent or registration of utility model

Ref document number: 5268915

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250