JP2013141284A - スケーラブルなビデオ符号化を用いたスケーラブルで低遅延のテレビ会議用システムおよび方法 - Google Patents

スケーラブルなビデオ符号化を用いたスケーラブルで低遅延のテレビ会議用システムおよび方法 Download PDF

Info

Publication number
JP2013141284A
JP2013141284A JP2013030527A JP2013030527A JP2013141284A JP 2013141284 A JP2013141284 A JP 2013141284A JP 2013030527 A JP2013030527 A JP 2013030527A JP 2013030527 A JP2013030527 A JP 2013030527A JP 2013141284 A JP2013141284 A JP 2013141284A
Authority
JP
Japan
Prior art keywords
video signal
layer
video
scalable
base layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013030527A
Other languages
English (en)
Inventor
Civanlar Reha
シヴァンラール,レハ
Eleftheriadis Alexandros
エレフゼリアディス,アレクサンドロス
Danny Hong
ホン,ダニー
Shapiro Ofer
シャピロ,オファー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vidyo Inc
Original Assignee
Vidyo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vidyo Inc filed Critical Vidyo Inc
Publication of JP2013141284A publication Critical patent/JP2013141284A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/164Feedback from the receiver or from the transmission channel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/36Scalability techniques involving formatting the layers as a function of picture distortion after decoding, e.g. signal-to-noise [SNR] scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/37Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability with arrangements for assigning different transmission priorities to video input data or to video coded data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234327Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2662Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/631Multimode Transmission, e.g. transmitting basic layers and enhancement layers of the content over different transmission paths or transmitting with different error corrections, different keys or with different transmission protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/647Control signaling between network components and server or clients; Network processes for video distribution between server and clients, e.g. controlling the quality of the video stream, by dropping packets, protecting content from unauthorised alteration within the network, monitoring of network load, bridging between two different networks, e.g. between IP and wireless
    • H04N21/64746Control signals issued by the network directed to the server or the client
    • H04N21/64753Control signals issued by the network directed to the server or the client directed to the client
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/647Control signaling between network components and server or clients; Network processes for video distribution between server and clients, e.g. controlling the quality of the video stream, by dropping packets, protecting content from unauthorised alteration within the network, monitoring of network load, bridging between two different networks, e.g. between IP and wireless
    • H04N21/64784Data processing by the network
    • H04N21/64792Controlling the complexity of the content stream, e.g. by dropping packets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】テレビ会議での望ましいスケーラブルなコーデックソリューションにおいて、エンドツーエンドの遅延ペナルティが最小であるかまたは全くなしに、電子ネットワーク中でMCUをカスケードに接続することのできるゼロ遅延MCUアーキテクチャを可能にする。
【解決手段】異種のエンドポイント/受信者およびネットワーク環境上でホストされるテレビ会議システムおよびアプリケーションで使用するためのスケーラブルなビデオコーデックが提供される。スケーラブルなビデオコーデックは、ソースビデオ信号の符号化された表現を、複数の時間、品質、および空間解像度で提供する。
【選択図】図1A

Description

本発明は、マルチメディアおよび電気通信技術に関する。詳細には、本発明は、種々のアクセス機器または端末を有するユーザエンドポイント相互間で、また不均一なネットワークリンクを介して、テレビ会議を行うためのシステムおよび方法に関する。
(関連出願の相互参照)
この出願は、2005年7月20日出願の米国特許仮出願第60/701,108号、2005年9月7日出願の第60/714,741号、および2005年10月4日出願の第60/723,392号の優先権の利益を主張する。さらに、この出願は、同時出願の米国特許出願第[SVCSystem]号、第[Trunk]号、および第[Jitter]号に関連する。前述の優先権および関連出願のすべては、参照によりそのすべてを本明細書に組み込む。
テレビ会議システムは、オーディオおよびビデオを共に用いて実時間で、2つ以上の遠隔の参加者/エンドポイントが互いにビデオおよびオーディオを通信することを可能にする。2人の遠隔の参加者だけが含まれる場合、2つのエンドポイント間で適切な電子ネットワークを介して、通信の直接送信を用いることができる。2人を超える参加者/エンドポイントが含まれる場合、その参加者/エンドポイントのすべてに接続するために、マルチポイント会議ユニット(MCU)またはブリッジが一般に使用される。MCUは、例えば、星形構成に接続できる複数の参加者/エンドポイント間の通信を調停する。
テレビ会議のために、参加者/エンドポイントまたは端末は、適切な符号化および復号デバイスを備える。符号器は、送信エンドポイントにおけるローカルのオーディオおよびビデオ出力を、電子通信ネットワークを介して信号伝送するのに適切な符号化形式にフォーマットする。それとは反対に、復号器は、符号化されたオーディオおよびビデオ情報を有する受信信号を、受信エンドポイントでオーディオを再生し、画像を表示するのに適した復号形式に処理する。
従来、(例えば、ビデオウィンドウ内の人物の適正な配置を保証するための)フィードバックを提供するために、端末利用者の自分の画像もまた、自分の画面上に表示される。
通信ネットワークを介する実際のテレビ会議システムの実装形態では、遠隔の参加者間の対話式テレビ会議の品質は、エンドツーエンドの信号遅延により決定される。200msを超えるエンドツーエンドの遅延は、会議の参加者間の現実味のある生の(live)、または自然な対話を妨げる。このような長いエンドツーエンドの遅延は、他の参加者からの搬送中のビデオおよびオーディオデータがそのエンドポイントに達することができるように、テレビ会議の参加者が積極的に参加または応答することを不自然に抑制させることになる。
エンドツーエンド信号遅延は、取得遅延(例えば、A/Dコンバータ中のバッファを満たすためにかかる時間)、符号化遅延、送信遅延(エンドポイントのネットワークインターフェース制御装置に、データで満たされたパケットをサブミットするのにかかる時間)、および移送遅延(パケットがエンドポイントからエンドポイントに通信ネットワーク中を移動する時間)を含む。さらに、調停するMCUを介する信号処理時間は、所与のシステムにおける合計のエンドツーエンド遅延の一因となる。
MCUの主要なタスクは、すべての参加者に単一のオーディオストリームが伝送されるように、到来するオーディオ信号を混合することであり、また個々の参加者/エンドポイントによって送信されたビデオフレームまたはピクチャを、各参加者のピクチャを含む共通の複合ビデオフレームストリームに混合することである。フレームおよびピクチャという用語は、本明細書において交換可能に使用されること、さらに、個々のフィールドまたは組み合わせたフレームとしてインターレースされたフレームの符号化(フィールドベース、またはフレームベースのピクチャ符号化)を、当業者には自明なものとして組み込まれ得ることに留意されたい。従来の通信ネットワークシステム中で展開されるMCUは、テレビ会議のセッションの参加者すべてに配布される共通の複合ビデオフレームへと混合される個々のピクチャのすべてに対して、単一の共通の解像度(例えば、CIFまたはQCIF解像度)を提供するだけである。したがって、従来の通信ネットワークシステムは、参加者が他の参加者を異なる解像度で見ることのできるカスタマイズされたテレビ会議機能を提供することは容易ではない。このような望ましい機能により、参加者は、例えば、他の特定の参加者(例えば、話している参加者)をCIF解像度で見ることができ、他の発言しない参加者をQCIF解像度で見ることができる。MCUは、テレビ会議の参加者数と同じ回数だけ、ビデオの混合操作を繰り返すことにより、この所望の機能を提供するように構成され得る。しかし、このような構成では、MCU操作により、かなりのエンドツーエンド遅延を生ずる。さらに、MCUは複数のオーディオストリームを復号し、混合し、それらを再符号化するために、また複数のビデオストリームを復号し、(必要に応じて適切に拡大縮小して)単一のフレームにそれらを合成し、さらにその複数のビデオストリームを再度単一のストリームに再符号化するために、十分なデジタル信号処理能力を有する必要がある。テレビ会議のソリューション(米国94588カリフォルニア州プレザントン、Willow Road 4750のPolycom Inc.(ポリコム社)、および米国10166ニューヨーク州ニューヨーク、Park Avenue 200のTandberg(タンバーグ社)による市販のシステムなど)は、許容できる品質および性能レベルを提供するために、専用のハードウェアコンポーネントを使用する必要がある。
テレビ会議ソリューションの性能レベル、およびそれにより送達される品質はまた、テレビ会議がそれを介して動作するその基礎となる通信ネットワークと強い相関関係がある。ITU H.261、H.263、および H.264規格のビデオコーデックを使用するテレビ会議ソリューションは、許容できる品質を送達するために、損失のほとんどない、または無損失のロバストな通信チャネルを必要とする。必要な通信チャネルの送信速度またはビットレートは、64Kbpsから最高で数Mbpsまでの範囲になり得る。専用のISDN回線で使用された初期のテレビ会議ソリューション、およびより新しいシステムは、高速伝送のために、しばしば、高速のインターネット接続(例えば、フラクショナルT1、T2、T3など)を使用する。さらに、いくつかのテレビ会議ソリューションは、インターネットプロトコル(「IP」)通信を利用するが、これらは、帯域幅の可用性を保証するために、専用ネットワーク環境で実装される。いずれの場合も、従来のテレビ会議ソリューションは、品質伝送のために必要な専用の高速ネットワーキングインフラストラクチャを実装し、かつ維持することに関連するかなりのコストがかかることになる。
専用のテレビ会議ネットワークを実装し、維持するコストは、高い帯域幅の会社データネットワーク接続(例えば、100Mbit、イーサネット(登録商標))を利用する最近の「デスクトップテレビ会議」システムにより回避される。これらのデスクトップテレビ会議ソリューションでは、USBベースのデジタルビデオカメラ、および符号化/復号およびネットワーク伝送を実施するための適切なソフトウェアアプリケーションを備える共通のパーソナルコンピュータ(PC)が、参加者/エンドポイントの端末として使用される。
マルチメディアおよび電気通信技術における最近の進歩は、IP PBX、インスタントメッセージング、ウェブ会議などのインターネットプロトコル(「IP」)通信システムを用いて、ビデオ通信と会議機能を統合することを含む。テレビ会議をこのようなシステムに有効に統合するために、ポイントツーポイントとマルチポイント通信が共にサポートされなくてはならない。しかし、IP通信システムにおける利用可能なネットワーク帯域幅は、(例えば、時刻および全体のネットワーク負荷に依存して)広範囲に変動し、ビデオ通信に必要な高い帯域幅の通信に対して、これらのシステムを信頼性のないものにする可能性がある。さらに、IP通信システム上で実装されるテレビ会議ソリューションは、インターネットシステムに関連するネットワークチャネルの異種性と、エンドポイント機器の多様性に共に適応しなくてはならない。例えば、参加者は、様々の多様な個人的コンピューティング装置を用いて、非常に異なる帯域幅(例えば、DSL対イーサネット(登録商標))を有するIPチャネルを介してテレビ会議サービスにアクセスすることもあり得る。
テレビ電話ソリューションが実装される通信ネットワークは、2つの基本的な通信チャネルアーキテクチャを提供するものとして分類することができる。1つの基本的なアーキテクチャでは、2点間(例えば、ISDN接続、T1回線など)の専用の直接接続または交換接続を介して、保証されたサービス品質(QoS)チャネルが提供される。反対に、第2の基本的なアーキテクチャでは、通信チャネルはQoSを保証しないが、インターネットプロトコル(IP)ベースのネットワーク(例えば、イーサネット(登録商標)LAN)で使用されるものなど、「ベストエフォート」するだけのパケット送達チャネルである。
IPベースのネットワークにテレビ会議ソリューションを実装することは、少なくとも、低コスト、高い合計の帯域幅、およびインターネットへのアクセスの広範囲な可用性により望ましい可能性がある。前に述べたように、IPベースのネットワークは、通常、ベストエフォートに基づいて動作する、すなわち、パケットがその宛先に達すること、または送信された順序に到着することは保証されない。しかし、ベストエフォートと推定されるチャネルを介して、異なるレベルのサービス品質(QoS)を提供するための技法が開発されてきた。その技法は、いくつかのトラフィックタイプが順位およびRSVPを得るために、クラスによりネットワークトラフィックを指定し、かつ制御するためのDiffServeなどのプロトコルを含むことができる。これらのプロトコルは、ある帯域幅を保証し、かつ/または利用可能な帯域幅の部分に対する遅延を保証することができる。順方向エラー訂正法(FEC)および自動再送要求(ARQ)機構などの技法はまた、失われたパケット伝送に対する回復機構を改善するために、またパケット損失の影響を調停するために使用することができる。
IPベースのネットワークでテレビ会議ソリューションを実装するには、使用されるビデオコーデックを検討する必要がある。テレビ会議用に指定された規格H.261、H.263コーデックなど、標準のビデオコーデック、およびVideo CDおよびDVD用に、それぞれ、指定された規格MPEG-1およびMPEG-2のメインプロファイル(Main Profile)コーデックは、固定ビットレートで、単一のビットストリーム(「単一レイヤ」)を提供するように設計される。これらのコーデックのいくつかは、様々なビットレートのストリーム(例えば、DVDで使用されるMPEG-2)を提供するためのレート制御を用いずに展開することができる。しかし、実際には、レート制御なしであっても、特有のインフラストラクチャに依存して、目標の動作ビットレートが確立される。これらのビデオコーデックは、ネットワークが一定のビットレートを提供し、かつ送信者と受信者の間で実際的にエラーのないチャネルを提供できるという仮定に基づいている。特に、人と人の通信アプリケーション用に設計されているHシリーズ規格のコーデックは、チャネルエラーが存在する場合にロバスト性を高めるいくつかの追加の機能を提供するが、非常にわずかなパーセンテージのパケット損失に対する耐性があるだけである(通常、最高2〜3%に過ぎない)。
さらに、標準のビデオコーデックは、「単一レイヤ」符号化技法に基づいており、それは、本質的に、現在の通信ネットワークにより提供される差別化したQoS機能を利用することができない。ビデオ通信に対する単一レイヤ符号化技法のさらなる制限は、アプリケーションにおいて、低い空間解像度表示が必要または望ましい場合であっても、受信エンドポイントまたはMCUで、最高の解像度信号を受信し復号し、ダウンスケーリングを実施する必要のあることである。これは、帯域幅および計算資源を消費することになる。
前述の単一レイヤのビデオコーデックとは対照的に、「マルチレイヤ」符号化技法に基づく「スケーラブルな」ビデオコーデックでは、所与のソースビデオ信号に対して、2つ以上のビットストリームが生成される。すなわち、ベースレイヤおよび1つまたは複数のエンハンスメントレイヤである。ベースレイヤは、最小の品質レベルにおけるソース信号の基本的な表現とすることができる。最小の品質表現は、所与のソースビデオ信号のSNR(品質)、空間もしくは時間解像度側面で、またはこれらの諸側面の組合せにおいて低減することができる。1つまたは複数のエンハンスメントレイヤは、ベースレイヤのSNR(品質)、空間もしくは時間解像度側面を高めるための情報に相当する。スケーラブルなビデオコーデックは、異種のネットワーク環境および/または異種の受信者を考慮して開発されてきた。ベースレイヤは、信頼性のあるチャネル、すなわち、保証されたサービス品質(QoS)を有するチャネルを用いて送信することができる。エンハンスメントレイヤは、低減されたQoS、またはQoSなしに送信され得る。その効果は、受信者が、少なくとも最小の品質レベルを有する信号(ベースレイヤ信号)を受信することが保証されることである。同様に、異なる画面サイズを有する可能性のある異種の受信者では、例えば、可搬型装置に、小さなピクチャサイズの信号を送信することができ、また大きなディスプレイを備えるシステムに、フルサイズのピクチャを送信することができる。
MPEG-2などの規格は、スケーラブルな符号化を実施するためのいくつかの技法を規定する。しかし、「スケーラブルな」ビデオコーデックの実際の使用は、スケーラブルな符号化に関連するコストおよび複雑性の増加により、またビデオに適した高い帯域幅のIPベース通信チャネルの広範囲な可用性の欠如により妨げられてきた。
テレビ会議および他のアプリケーションのための改善されたスケーラブルなコーデックソリューションの開発に対して、現在検討が行われている。望ましいスケーラブルなコーデックソリューションは、改善された帯域幅、時間解像度、空間品質、空間解像度、および計算能力のスケーラビリティを提供することになる。特に、多目的なテレビ会議アプリケーションのための簡単化されたMCUアーキテクチャと整合性のあるスケーラブルなビデオコーデックの開発に関心が向けられている。望ましいスケーラブルなコーデックソリューションは、エンドツーエンドの遅延ペナルティが最小であるかまたは全くなしに、電子ネットワーク中でMCUをカスケードに接続することのできるゼロ遅延MCUアーキテクチャを可能にする。
本発明は、ポイントツーポイントおよびマルチポイント会議アプリケーションのためのスケーラブルなビデオ符号化(SVC)システムおよび方法(総称的に、「ソリューション」)を提供する。SVCソリューションは、複数の時間、品質、および空間解像度で、ソースビデオ信号の符号化され「レイヤ化された」表現を提供する。これらの表現は、エンドポイント/端末の符号器により作成される別個のレイヤ/ビットストリームコンポーネントにより表される。
SVCソリューションは、エンドポイント/受信側装置における多様性と、例えば、インターネットプロトコルに基づくものなど、ネットワークのベストエフォート性を含む異種のネットワーク特性における多様性とに適応するように設計される。使用されるビデオ符号化技法のスケーラブルな諸態様により、会議アプリケーションは異なるネットワーク条件に適合でき、また異なる端末利用者の要件(例えば、ユーザが、高い空間解像度または低い空間解像度で、他のユーザを見ることを選択できるなど)に適応できるようになる。
スケーラブルなビデオコーデック設計により、ポイントツーポイントおよびマルチポイントのシナリオで、エラー耐性のあるビデオ送信を可能にし、また搬送中のビデオストリームを復号、または再符号化することなく、かつストリームのエラー耐性を何も減少させることなく、会議ブリッジは、常駐、レートマッチング、エラーの局所化、ランダムエントリ、および個人的なレイアウト会議機能を提供できるようになる。
他のエンドポイントとビデオ通信するように設計されたエンドポイント端末は、ビデオ信号を、送信のために、マルチレイヤのスケーラブルなビデオフォーマットの1つまたは複数のレイヤに符号化できるビデオ符号器/復号器を含む。ビデオ符号器/復号器は、したがって、テレビ会議の参加者数と同じ数になる多くのビデオストリーム中で受信したビデオ信号レイヤを、同時に、または順次、復号することができる。端末は、汎用PCまたは他のネットワークアクセス装置で、ハードウェア、ソフトウェア、またはそれらの組合せで実装することができる。端末に組み込まれたスケーラブルなビデオコーデックは、H.264などの業界標準の符号化方法と整合性があるか、またはそれに基づく符号化方法および技法に基づくことができる。
H.264ベースのSVCソリューションでは、スケーラブルなビデオコーデックは、規格H.264 AVC符号化に基づくベースレイヤを作成する。スケーラブルなビデオコーデックはさらに、元の信号と、適切なオフセットで前のレイヤで符号化されたものとの間の差分を、再度H.264 AVCを用いて連続的に符号化することにより、一連のSNRエンハンスメントレイヤを作成する。このスケーラブルなビデオコーデックのバージョンでは、離散コサイン変換(DCT)係数のDC値は、エンハンスメントレイヤでは符号化されず、さらに、従来の非ブロック化フィルタは使用されない。
空間スケーラビリティを実施する手段として、SNRスケーラビリティを使用するように設計されたSVCソリューションでは、ベースレイヤおよびエンハンスメントレイヤのために、異なる量子化パラメータ(QP)が選択される。より高いQPで符号化されるベースレイヤは、受信するエンドポイント/端末で、任意選択で低域通過のフィルタリングが行われ、また表示のためにダウンサンプリングされる。
他のSVCソリューションでは、スケーラブルなビデオコーデックは、再構成されたベースレイヤのH.264低解像度信号が、符号化器でアップサンプリングされ、元の信号から減算される空間的にスケーラブルな符号器として設計される。その差分は、設定値だけオフセットされた後、高解像度で動作する標準の符号器に供給される。他のバージョンでは、アップサンプリングされたH.264低解像度信号は、規格ベースの高解像度符号器の動き推定プロセスにおける可能な追加の参照フレームとして使用される。
SVCソリューションは、ネットワーク条件および参加者の表示の好みに動的に応じるために、スレッディングモードまたは空間スケーラビリティモードを調整または変更することを含むことができる。
本発明のさらなる特徴、その性質、および様々な利点は、好ましい諸実施形態の以下の詳細な説明、および添付の図面からさらに明らかとなろう。
本発明の原理による、テレビ会議システムの例示的なアーキテクチャを示す概略図である。 本発明の原理による、テレビ会議システムの例示的なアーキテクチャを示す概略図である。 本発明の原理による、例示的な端末利用者の端末を示すブロック図である。 本発明の原理による、ベースおよび時間エンハンスメントレイヤ(すなわち、0から2)のための符号化器の例示的なアーキテクチャを示すブロック図である。 本発明の原理による、ベース、時間エンハンスメント、およびSNRもしくは空間エンハンスメントレイヤのための例示的なレイヤ化されたピクチャ符号化構造を示すブロック図である。 本発明の原理による、例示的なSNRエンハンスメントレイヤ符号器の構造を示すブロック図である。 本発明の原理による、例示的な単一ループのSNRビデオ符号器の構造を示すブロック図である。 本発明の原理による、空間スケーラビリティビデオ符号器のためのベースレイヤの例示的な構造を示すブロック図である。 本発明の原理による、空間スケーラビリティエンハンスメントレイヤのビデオ符号器の例示的な構造を示すブロック図である。 本発明の原理による、レイヤ間の動き予測を有する空間スケーラビリティエンハンスメントレイヤのビデオ符号器の例示的な構造を示すブロック図である。 本発明の原理による、例示的なベースレイヤのビデオ復号器を示すブロック図である。 本発明の原理による、例示的なSNRエンハンスメントレイヤのビデオ復号器を示すブロック図である。 本発明の原理による、例示的なSNRエンハンスメントレイヤ、単一ループのビデオ復号器を示すブロック図である。 本発明の原理による、例示的な空間スケーラビリティエンハンスメントレイヤのビデオ復号器を示すブロック図である。 本発明の原理による、レイヤ間の動き予測を有する空間スケーラビリティエンハンスメントレイヤのための例示的なビデオ復号器を示すブロック図である。 本発明の原理による、例示的な代替のレイヤ化されたピクチャ符号化構造を示すブロック図である。 本発明の原理による、例示的なスレッディングアーキテクチャを示すブロック図である。 本発明の原理による、例示的なスケーラブルなビデオ符号化サーバ(SVCS)を示すブロック図である。 本発明の原理による、SVCSスイッチの動作を示す概略図である。 本発明の原理による、例示的なSVCSスイッチレイヤ構成マトリックスの図である。 本発明の原理による、例示的なSVCSネットワークレイヤ構成マトリックスの図である。
その他の形で述べられていない限り、図を通して同じ番号およびキャラクタは、例示の諸実施形態の同様の機能、エレメント、コンポーネント、または部分を示すために使用される。さらに、本発明は、次に図を参照して詳細に述べられるが、それは、例示的な諸実施形態に関連して説明される。
本発明は、マルチポイントおよびポイントツーポイントのテレビ会議アプリケーションに対するビデオデータ信号のスケーラブルなビデオ符号化(SVC)のためのシステムおよび技法を提供する。SVCシステムおよび技法(総称的に「ソリューション」)は、テレビ会議における異なるユーザの参加者/エンドポイント、ネットワーク伝送能力、環境、または他の要件に応じて、送達されるビデオデータの適合化、またはカスタマイズを可能にするように設計される。発明性のあるSVCソリューションは、便利なゼロまたは低アルゴリズム遅延切換え機構を用いて、会議の参加者相互間をレイヤごとに容易に切り換えることのできるマルチレイヤフォーマットに圧縮されたビデオデータを提供する。例示的なゼロまたは低アルゴリズム遅延切換え機構、すなわち、スケーラブルなビデオ符号化サーバ(SVCS)は、同時出願の米国特許出願第[SVCS]号に述べられている。
図1Aおよび図1Bは、発明性のあるSVCソリューションに基づいた例示的なテレビ会議システム100構成を示す。テレビ会議システム100は、マルチポイントおよびポイントツーポイントのクライアント会議アプリケーションのために、異種の電子的、またはコンピュータネットワーク環境で実装することができる。システム100は、1つまたは複数のネットワーク化されたサーバ(例えば、SVCSまたはMCU 110)を使用して、会議の参加者またはクライアント120、130、および140へのカスタマイズされたデータの送達を調整する。同時係属の米国特許出願第 号に述べられているように、MCU 110は、他の会議参加者に送信するために、エンドポイント140により生成されたビデオストリーム150の送達を調整することができる。システム100では、ビデオストリームは、発明性のあるSVC技法を用いて、まず、適切に符号化され、またはダウンスケーリングされて、多数のデータコンポーネントまたはレイヤになる。複数のデータレイヤは、異なる特性または機能を有することができる(例えば、空間解像度、フレームレート、ピクチャ品質、信号対雑音比品質(SNR)など)。データレイヤの異なる特性または機能は、例えば、変化する個々のユーザ要件、および電子ネットワーク環境におけるインフラストラクチャ仕様(例えば、CPU能力、ディスプレイ寸法、ユーザの好み、および帯域幅)を考慮して、適切に選択することができる。MCU 110は、受信したデータストリーム(例えば、SVCビデオストリーム150)から、会議の特定の参加者/受信者ごとに、適切な量の情報(すなわち、SVCレイヤ)を選択するように、また各参加者/受信者120〜130に対して、選択されたまたは要求された量の情報/レイヤだけを転送するように適切に構成される。MCU 110は、受信エンドポイントの要求(例えば、個々の会議参加者により要求されるピクチャ品質)に応じて、またネットワーク条件およびポリシを考慮して、適切な選択を行うように構成され得る。
このカスタマイズされたデータ選択および転送スキームは、SVCビデオストリームの内部構造を利用し、それにより、異なる解像度、フレームレート、および/または帯域幅などを有する複数のレイヤへと、ビデオストリームを明確に分割することが可能になる。参照される特許出願第[SVCS]号からの転載である図1Bは、会議に対するエンドポイント140の媒体入力を示すSVCビデオストリーム150の例示的な内部構造を示す。SVCビデオストリーム150の例示的な内部構造は、「ベース」レイヤ150b、および1つまたは複数の別個の「エンハンスメント」レイヤ150aを含む。
図2は、SVCベースのテレビ会議システム(例えば、システム100)で使用するように設計された例示的な参加者/エンドポイント端末140を示す。端末140は、ヒューマンインターフェース入力/出力装置(例えば、カメラ210A、マイクロフォン210B、ビデオディスプレイ250C、スピーカ250D)、ならびに入力および出力信号マルチプレクサおよびデマルチプレクサユニット(例えば、パケットMUX 220AおよびパケットDMUX 220B)に結合されたネットワークインターフェース制御装置カード(NIC)230を含む。NIC 230は、イーサネット(登録商標)LANアダプタまたは他の任意の適切なネットワークインターフェース装置など、標準のハードウェアコンポーネントとすることができる。
カメラ210Aおよびマイクロフォン210Bは、他の会議参加者に送信するために、参加者のビデオおよびオーディオ信号をそれぞれ捕捉するように設計される。それとは反対に、ビデオディスプレイ250Cおよびスピーカ250Dは、他の参加者から受信したビデオおよびオーディオ信号を、それぞれ表示し、再生するように設計される。ビデオディスプレイ250Cはまた、任意選択で、参加者/端末140の自分のビデオを表示するように構成することもできる。カメラ210Aおよびマイクロフォン210Bの出力は、アナログ-デジタル変換器210cおよび210Dを、それぞれ介してビデオおよびオーディオ符号器210Gおよび210Hに結合される。ビデオおよびオーディオ符号器210Gおよび210Hは、電子通信ネットワークを介して信号を送信するために必要な帯域幅に低減するために、入力ビデオおよびオーディオのデジタル信号を圧縮するように設計される。入力ビデオ信号は、生の信号、または事前に記録され、記憶されたビデオ信号とすることができる。
ビデオ符号器210Gは、パケットMUX 220Aに直接接続される複数の出力を有する。オーディオ符号器210H出力はまた、パケットMUX 220Aに直接接続される。符号器210Gおよび210Hからの圧縮され、レイヤ化されたビデオおよびオーディオのデジタル信号は、NIC 230を経由し、通信ネットワークを介して送信するために、パケットMUX 220Aにより多重化される。反対に、NIC 230により通信ネットワークを介して受信された、圧縮ビデオおよびオーディオのデジタル信号は、多重分離するためにパケットDMUX 220Bに転送され、ビデオディスプレイ250Cおよびスピーカ250Dを介して表示し、再生するために、端末140でさらに処理される。
捕捉されたオーディオ信号は、知られた技法、例えば、G.711およびMPEG-1を含む適切な任意の符号化技法を用いて、オーディオ符号器210Hにより符号化することができる。テレビ会議システム100および端末140の実装では、オーディオの符号化には、G.711符号化が好ましい。捕捉されたビデオ信号は、本明細書で述べるSVC技法を用いてビデオ符号器210Gによりレイヤ化された符号化フォーマットで符号化される。パケットMUX 220Aは、例えば、RTPプロトコルまたは他の適切なプロトコルを用いて、入力ビデオおよびオーディオ信号を多重化するように構成することができる。パケットMUX 220Aはまた、任意の必要なQoSに関連するプロトコル処理を実施するように構成することもできる。
システム100では、端末140からのデータの各ストリームは、電子通信ネットワークを介してそれ自体の仮想チャネル(またはIP用語におけるポート番号)で送信される。例示的なネットワーク構成では、QoSは、特定の仮想チャネルのためのDiffServ (Differentiated Services、差別化されたサービス)を介して、または他の同様の任意のQoSを可能にする技法により提供され得る。必要なQoSセットアップは、本明細書で述べるシステムを使用する前に実施される。DiffServ(または、使用される同様のQoSを可能にする技法)は、ネットワークルータ(図示せず)で、またはそれを介して実施される2つの異なる範疇のチャネルを作成する。説明の都合上、2つの異なる範疇のチャネルを本明細書では、それぞれ、「高信頼性」(HRC)および「低信頼性」(LRC)チャネルと呼ぶ。HRCを確立するための明示的な方法がない場合、またはHRCそれ自体に十分な信頼性がない場合、エンドポイント(またはエンドポイントのためにMCU 110)は、(i)予防的に、HRCを介して情報を繰り返し送信し(実際の繰り返し送信数は、チャネルのエラー状態に依存することができる)、または(ii)例えば、伝送における情報損失が検出され直ちに報告された場合など、受信エンドポイントまたはSVCSの要求があると、情報をキャッシュし再送信することができる。HRCを確立するこれらの方法は、利用可能なチャネルタイプおよび条件に応じて、クライアントからMCU、MCUからクライアント、またはMCUからMCUへの接続において、個々に、または任意の組合せで適用することができる。
多数の参加者のテレビ会議システムで使用するために、端末140は、端末140で見られる、または聞こえる会議の参加者から受信された信号を復号するように設計されたビデオおよびオーディオ復号器(例えば、復号器230Aおよび230B)の1つまたは複数の対で構成される。復号器230Aおよび230Bの対は、参加者1人ずつの信号を個々に処理するように、またはいくつかの参加者信号を順次処理するように設計することができる。端末140に含まれるビデオおよびオーディオ復号器230Aおよび230Bの対の構成または組合せは、並列にかつ/または順次に処理する符号器の設計特徴を考慮して、端末140で受信した参加者信号のすべてを処理するように適切に選択することができる。さらに、パケットDMUX 220Bは、NIC 230を介して会議参加者からパケット化された信号を受信するように、また並列にかつ/または順次に処理するために、ビデオおよびオーディオ符号器230Aおよび230Bの適切な対に信号を転送するように構成することができる。
さらに、端末140では、オーディオ復号器230B出力が、オーディオミキサ240およびデジタル-アナログ変換器(DA/C)250Bに接続され、それは、スピーカ250Dを駆動して受信したオーディオ信号を再生する。オーディオミキサ240は、個々のオーディオ信号を合成して再生のために単一の信号にするように設計される。同様に、ビデオ復号器230A出力は、コンポジタ260によりフレームバッファ250Aで合成される。フレームバッファ250Aからの合成されたまたは複合ビデオピクチャは、モニタ250C上に表示される。
コンポジタ260は、複合フレームまたは表示されるピクチャ中で、対応する指定された位置に各復号ビデオピクチャを配置するように適切に設計することができる。例えば、モニタ250Cの表示は、4つの小さな領域に分割することができる。コンポジタ260は、端末140の各ビデオ復号器230Aから画素データを取得し、その画素データを適切なフレームバッファ250Aの位置に(例えば、下側右のピクチャを満たして)配置することができる。二重のバッファリング(例えば、復号器230Bの出力で1回、フレームバッファ250Aで1回)を回避するために、コンポジタ260は、例えば、復号器230Bの出力画素の配置を駆動するアドレス生成装置として構成することができる。ディスプレイ210C上で個々のビデオ復号器230A出力の配置を最適化するための代替の技法もまた、同様の効果のために使用され得る。
図2に示す様々な端末140コンポーネントは、互いに適切にインターフェースされたハードウェアおよび/またはソフトウェアコンポーネントの適切な任意の組合せで実装できることを理解されたい。そのコンポーネントは、別個のスタンドアロンのユニットとすることができるが、あるいはネットワークアクセス機能を有するパーソナルコンピュータまたは他の装置と統合することができる。
スケーラブルなビデオ符号化のための端末140で使用されるビデオ符号器を参照すると、図3〜9は、それぞれ、端末140中で展開され得る様々のスケーラブルなビデオ符号器またはコーデック300〜900を示す。
図3は、入力ビデオ信号をレイヤ化された符号化フォーマット(例えば、SVC用語では、レイヤL0、L1、およびL2、ただしL0は最もフレームレートが低い)に圧縮するための例示的な符号器アーキテクチャ300を示す。符号器アーキテクチャ300は、例えば、規格H.264/MPEG-4 AVC設計または他の適切なコーデック設計に基づいた、動き補償された、ブロックベースの変換コーデックを表す。符号器アーキテクチャ300は、動き推定(ME)、動き補償(MC)、および他の符号化機能のための従来の「典型的(text-book)な」様々のビデオ符号化プロセスブロック330に加えて、フレームバッファブロック310、ENC REF制御ブロック320、および非ブロック化フィルタブロック360を含む。システム100/端末140で使用される動き補償された、ブロックベースのコーデックは、単一レイヤの時間予測コーデックとすることができ、それは、I、P、およびBピクチャの正規の構造を有する。ピクチャのシーケンス(表示順)は、例えば、「IBBPBBP」とすることができる。ピクチャシーケンスでは、「P」ピクチャは、前のPまたはIピクチャから予測され、一方、Bピクチャは、前と次のPまたはIピクチャを共に使用して予測される。連続するIまたはPピクチャの間のBピクチャの数は、Iピクチャの出現割合が変化し得るので、変化する可能性があるが、例えば、最近のものよりも時間的に早い他のPピクチャを予測するための参照として、Pピクチャを使用することは可能ではない。規格H.264符号化は、2つの参照ピクチャリストが符号器および復号器、それぞれで維持される例外を提供するので有利である。この例外は、参照としてどのピクチャを使用するか、さらに、符号化すべき特定のピクチャに対してどの参照を使用するかを選択するために本発明により利用される。図3では、フレームバッファブロック310が、参照ピクチャリストを記憶するためのメモリを示す。ENC REF制御ブロック310は、符号器側で、現在のピクチャのためにどの参照ピクチャを使用すべきかを決定するように設計される。
ENC REF制御ブロック310の動作について、図4で示す例示的なレイヤ化されたピクチャ符号化「スレッディング(threading)」または「予測チェーン」構造をさらに参照して説明する。(図8〜9は、代替のスレッディング構造を示す)。本発明の実装形態で使用されるコーデック300は、複数レベルの時間スケーラビリティ解像度(例えば、L0〜L2)、および他のエンハンスメント解像度(例えば、S0〜S2)を可能にするために、1組の別々のピクチャ「スレッド」(例えば、1組の3スレッド410〜430)を生成するように構成することができる。スレッドまたは予測チェーンは、同じスレッドからのピクチャ、または低レベルのスレッドからのピクチャを用いて動きが補償された一連のシーケンスとして定義される。図4の矢印は、3スレッド410〜430に対する方向、ソース、および予測のターゲットを示す。スレッド410〜430は、共通のソースL0を有するが、異なるターゲットおよび経路(例えば、それぞれ、ターゲットL2、L2、L0)を有する。スレッドを使用することにより、トップレベルのスレッドの任意の数を、残りのスレッドの復号プロセスに影響することなく削除できるので、時間スケーラビリティを実装することが可能になる。
符号器300では、H.264によれば、ENC REF制御ブロックは、Pピクチャだけを参照ピクチャとして使用できることに留意されたい。しかし、Bピクチャを使用することもでき、付随して全体の圧縮効率が高まる。スレッドの組で(例えば、L2をBピクチャとして符号化することにより)単一のBピクチャを使用しても圧縮効率を改善することができる。従来の対話式通信では、未来のピクチャからの予測を有するBピクチャを使用することは符号化遅延を増加するので、使用が避けられている。しかし、本発明は、実際的にゼロの処理遅延を有するMCUの設計を可能にする。(同時出願の米国特許出願第SVCS号を参照のこと)。このようなMCUを用いれば、Bピクチャを使用しても、なお、現況技術の従来システムよりも低いエンドツーエンド遅延で動作することが可能である。
動作においては、符号器300の出力L0は、単に、4つのピクチャ間隔を空けた1組のPピクチャである。出力L1は、L0と同じフレームレートを有するが、前のL0ピクチャに基づいた予測だけが可能である。出力L2ピクチャは、最近のL0またはL1ピクチャから予測される。出力L0は、最高時間解像度の4分の1 (1:4)を提供し、L1はL0のフレームレートを倍にし(1:2)、L2は、L0+L1のフレームレートを倍にする(1:1)。異なる帯域幅/スケーラビリティ要件、または本発明の実装形態の異なる仕様に適応するように、より少ない数(例えば、L0〜L2の3未満)の、または追加の数のレイヤを、符号器300によって同様に構成することができる。
本発明によれば、さらなるスケーラビリティのために、各圧縮された時間ビデオレイヤ(例えばL0〜L1)は、SNR品質スケーラビリティおよび/または空間スケーラビリティに関連する1つまたは複数のさらなるコンポーネントを含む、または関連付けることができる。図4は、1つの追加のエンハンスメントレイヤ(SNRまたは空間)を示す。この追加のエンハンスメントレイヤは、3つの異なるコンポーネント(S0〜S2)を有しており、それぞれが、3つの異なる時間レイヤ(L0〜L2)に対応することに留意されたい。
図5および図6は、それぞれ、SNRスケーラビリティ符号器500および600を示す。図7〜9は、それぞれ、空間スケーラビリティ符号器700〜900を示す。SNRスケーラビリティ符号器500および600、ならびに空間スケーラビリティ符号器700〜900は、符号器300(図3)と同じ処理ブロック(例えば、ブロック330、310、および320)に基づいており、またそれを使用できることが理解されよう。
SNRスケーラブルコーデックのベースレイヤの場合、ベースレイヤコーデックへの入力は、最高解像度信号である(図5〜6)ことが理解される。それとは反対に、空間スケーラビリティコーデックのベースレイヤの場合、ベースレイヤコーデックへの入力は、入力信号のダウンサンプリングしたバージョンである図7〜9。SNR/空間品質エンハンスメントレイヤS0〜S2は、近日予定のITU-T H.264 Annex F規格、または他の適切な技法に従って符号化できることもまた留意されたい。
図5は、例示的なSNRエンハンスメント符号器500の構造を示しており、それは、図3に示すH.264に基づいたレイヤ化符号器300の構造と類似している。しかし、SNRエンハンスメントレイヤコーダ500への入力は、元のピクチャ(図3の入力)と、符号器で再度作成された再構成符号化ピクチャ(図3のREF)との間の差分であることに留意されたい。
図5はまた、前のレイヤの符号化エラーを符号化するためのH.264に基づく符号器500の使用を示す。このような符号化では、負ではない入力が必要である。これを保証するために、符号器500への入力(入力-REF)は正のバイアスにより(例えば、オフセット340により)オフセットされる。正のバイアスは、復号後、ベースレイヤにエンハンスメントレイヤが加えられる前に除去される。H.264のコーデック実装形態で通常使用される非ブロック化フィルタ(例えば、図3の非ブロック化フィルタ360)は、符号器500で使用されない。さらに、主題の符号効率を改善するために、エンハンスメントレイヤ中のDC直接コサイン変換(DCT)係数は、任意選択で、符号器500で無視され、または削除され得る。実験結果は、SNRエンハンスメントレイヤ(S0〜S2)中のDC値の削除は、おそらく、ベースレイヤで行われたすでに微細な量子化により、ピクチャ品質に悪影響を与えないことを示している。この設計の利益は、全く同じ符号化/復号ハードウェアまたはソフトウェアを共に、ベースレイヤとSNRエンハンスメントレイヤに対して使用できることである。同様な方法で、H.264レイヤ符号化をダウンサンプリングした画像に適用することにより、また残りを計算する前に、再構成された画像をアップサンプリングすることにより、空間スケーラビリティ(任意の比で)を導入することができる。さらに、H.264以外の規格を、両方のレイヤを圧縮するために使用することができる。
本発明のコーデックでは、SNRと時間スケーラビリティを切り離すために、時間レイヤ内の、また時間レイヤにわたるすべての動き予測を、ベースレイヤストリームだけを用いて実施することができる。この機能は、矢印415により図4で示されており、LとSブロックの組合せではなく、ベースレイヤブロック(L)における時間予測を示す。この機能のために、すべてのレイヤは、CIF解像度で符号化することができる。次いで、ある時間解像度を有するベースレイヤストリームを復号することにより、また適切な低域通過フィルタリングを用いて、ダイアディックファクタ(dyadic factor)(2)により各空間次元でダウンサンプリングすることにより、QCIF解像度のピクチャを導出することができる。この方法で、SNRスケーラビリティを、空間スケーラビリティを提供するためにも使用することができる。CIF/QCIF解像度は、説明のためだけに参照されることが理解されよう。他の解像度(例えば、VGA/QVGA)も、コーデック設計を何も変更せずに、発明性のあるコーデックによりサポートされ得る。そのコーデックはまた、SNRスケーラビリティ機能を含めるために上記で述べたものと同じ、または類似の方法で、従来の空間スケーラビリティ機能を含むことができる。MPEG-2またはH.264 Annex Fにより提供される技法を、従来の空間スケーラビリティ機能を含めるために使用することができる。
上記で述べたSNRおよび時間スケーラビリティを分離するように設計されたコーデックのアーキテクチャにより、1:4(L0だけ)、1:2(L0およびL1)、または1:1(3つのレイヤすべて)の比のフレームレートを可能にする。フレームレートを倍にするためには、100%のビットレート増加が想定され(ベースは合計50%)、Sレイヤを追加するためには、150%の増加がそのスケーラビリティ点で想定される(ベースは合計40%)。好ましい実装形態では、合計のストリームは、例えば、500Kbpsで動作し、ベースレイヤは200Kbpsで動作することができる。ベースレイヤに対して、フレームごとに200/4=50Kbpsのレートロード、また各フレームに対して、(500-200)/4=75Kbpsが想定され得る。前述のターゲットビットレートおよびレイヤビットレート比の値は例示的なものであり、本発明の特徴を説明するために指定されているに過ぎないこと、および発明性のあるコーデックは、他のターゲットビットレート、またはレイヤビットレート比に容易に適合され得ることが理解されよう。
理論的には、合計のストリームとベースレイヤが、それぞれ、500Kbpsおよび200Kbpsで動作するとき、最高で1:10のスケーラビリティ(合計対ベース)が利用可能である。表Iは、SNRスケーラビリティが空間スケーラビリティを提供するために使用された場合、利用可能な異なるスケーラビリティの選択肢の諸例を示す。
Figure 2013141284
図6は、単一の符号化ループスキームに基づく代替のSNRスケーラブル符号器600を示す。SNRスケーラブル符号器600の構造および動作は、符号器300(図3)の構造および動作に基づく。さらに、符号器600では、Q0により量子化されたDCT係数は、逆量子化され、元の量子化されない係数から減算されて、DCT係数の残余の量子化誤差(QDIFF 610)を取得する。残余の量子化誤差情報(QDIFF 610)は、より細かい量子化器Q1(ブロック620)でさらに量子化され、エントロピー符号化され(VLC/BAC)、またSNRエンハンスメントレイヤSとして出力される。動作するのは単一の符号化ループ、すなわち、ベースレイヤで動作するループであることに留意されたい。
端末140/ビデオ230符号器は、SNR品質エンハンスメントレイヤに加えて、またはそれに代えて、空間スケーラビリティエンハンスメントレイヤを提供するように構成することができる。空間スケーラビリティエンハンスメントレイヤを符号化するために、符号器への入力は、元の高解像度ピクチャと、符号器で作成されたアップサンプリングされ、再構成された符号化ピクチャとの差分である。符号器は、入力信号のダウンサンプリングされたバージョンに対して動作する。図7は、空間スケーラビリティのために、ベースレイヤを符号化するための例示的な符号器700を示す。符号器700は、低解像度ベースレイヤ符号器720の入力におけるダウンサンプラ710を含む。CIF解像度における最高の解像度入力信号に対して、ベースレイヤ符号器720は、適切なダウンサンプリングを用いてQCIF、HCIF (half CIF)、またはCIFより低い他の任意の解像度で動作することができる。例示的なモードでは、ベースレイヤ符号器720は、HCIFで動作することができる。HCIFモードの動作は、CIF解像度の入力信号の各ディメンジョンを約√2分の1でダウンサンプリングすることを必要とし、それにより、ピクチャ中の合計画素数を元の入力の約2分の1に削減する。テレビ会議アプリケーションでは、QCIF解像度が表示目的のために望ましい場合、復号されたベースレイヤを、HCIFからQCIFにさらにダウンサンプリングする必要のあることに留意されたい。
テレビ会議アプリケーションのために、スケーラブルなビデオ符号化プロセスを最適化することにおける本質的な困難さは、送信されるビデオ信号には2つ以上の解像度が存在することであることが理解される。一方の解像度の品質を改善することは、他方の解像度の品質が対応して低下する結果となる可能性がある。この困難さは、空間的にスケーラブルな符号化に対して、また符号化された解像度と表示解像度が同一である現況技術のテレビ会議システムで特に顕著である。意図する表示解像度から、符号化された信号解像度を分離する発明性のある技法は、各解像度に関連する品質とビットレートの間をよりよくバランスさせるために、コーデック設計者の手段としてさらに他のツールを提供する。本発明によれば、特定のコーデックに対する符号化される解像度の選択は、利用可能な合計の帯域幅、異なる解像度にわたる所望の帯域幅の区画、および所望の品質差の各追加レイヤが提供すべき格差(differential)を考慮し、異なる空間解像度にわたるコーデックのレート-歪み(R-D)性能を考慮することによって取得することができる。
このようなスキームの元で、信号は、CIFで、また3分の1 CIF (1/3CIF)解像度で符号化することができる。表示のために、CIF符号化信号からCIFおよびHCIF解像度信号を共に導き出すことができる。さらに、1/3CIFおよびQCIF解像度信号を共に、表示のために、1/3CIF符号化信号から同様に導き出すことができる。CIFおよび1/3CIF解像度信号は、復号された信号から直接利用可能であるが、一方、後者のHCIFおよびQCIF解像度信号は、復号信号を適切にダウンサンプリングした場合に取得することができる。同様のスキームをまた、他のターゲット解像度(例えば、1/2 VGAおよび1/4 VGAを導出できるVGA および3分の1 VGA)の場合に適用することができる。
本発明によれば、意図する表示解像度から符号化された信号解像度を分離するスキームは、ビデオ信号レイヤ(図4、および図15、16)をスレッディングするためのスキームと共に、異なるビットレートを有するターゲット空間解像度を得るためのさらなる可能性を提供する。例えば、ビデオ信号符号化スキームで、ソース信号をCIFおよび1/3 CIF解像度で符号化するために、空間スケーラビリティを使用することができる。SNRおよび時間スケーラビリティは、図4に示すように、ビデオ信号に適用することができる。さらに、使用されるSNR符号化は、単一ループまたは二重ループ符号器(例えば、図6の符号器600、または図5の符号器500)とすることができるが、あるいはデータパーティション(DP)により取得することができる。二重ループすなわちDP符号化スキームは、データが失われた、または除去された場合、ドリフトを生ずる可能性が高い。しかし、レイヤ化構造の使用は、失われた、または除去されたデータがL1、L2、S1、またはS2レイヤに属している限り、次のL0ピクチャまで、そのドリフトエラーが伝播するのを制限する。さらに、表示されたビデオ信号の空間解像度が低減されたとき、エラーの知覚が低減されることを考慮すると、L1、L2、S1、およびS2レイヤからデータを削除または除去することにより、1/3 CIF解像度を復号することにより、またそれをQCIF解像度でダウンサンプリングして表示することにより、低帯域幅信号を取得することが可能になる。ダウンサンプリングによるデータ損失は、対応するL1/S1およびL2/S2ピクチャ中にエラーを生じ、未来のピクチャにも(次のL0ピクチャまで)エラーを伝播することになるが、表示解像度が低減されることにより、人間の観察者には品質の低下が見えにくくなる。HCIF、2/3CIFで、または他の所望の任意の解像度で表示するために、同様のスキームをCIF信号に適用することができる。これらのスキームは、有利には、品質スケーラビリティを使用することにより、様々な解像度で、また様々なビットレートで、空間スケーラビリティを行うことが可能になる。
図8は、例示的な空間的にスケーラブルなエンハンスメントレイヤ符号器800の構造を示しており、それは、符号器500と同様に、前のレイヤの符号化誤差を符号化するための同じH.264符号器構造を使用するが、参照(REF)信号に対してアップサンプラブロック810を含む。このような符号器では、負ではない入力が前提であるので、入力値は、符号化の前に(例えば、オフセット340により)オフセットされる。まだ負のままである値は、ゼロにクリップされる。オフセットは復号後に、またエンハンスメントレイヤをアップサンプリングされたベースレイヤに加える前に除去される。
空間エンハンスメントレイヤ符号化の場合、SNRレイヤ符号化(図6)の場合と同様に、DCT係数の量子化器(Q)で周波数の重み付けを使用することが有利になり得る。具体的には、DCおよびその周囲のAC係数に対して、より粗い量子化を使用することができる。例えば、DC係数に対する量子化器のステップサイズを倍にすることは、非常に有効なものとなり得る。
図9は、他の空間的にスケーラブルなビデオ符号器900の例示的な構造を示す。符号器900では、符号器800とは異なり、アップサンプリングされ、再構成されたベースレイヤピクチャ(REF)が、入力から減算されるのではなく、動き推定における追加の可能な参照ピクチャとして、またエンハンスメントレイヤ符号器のモード選択ブロック330として働く。符号器900は、したがって、前の符号化された最高解像度のピクチャ(またはBピクチャのための未来のピクチャ)から、あるいは低空間解像度で符号化された同じピクチャのアップサンプリングされたバージョン(レイヤ間予測)から、現在の最高解像度のピクチャを予測するように構成することができる。ダウンサンプラ710、アップサンプラ810、およびオフセット340ブロックを追加するだけで、ベースおよびエンハンスメントレイヤのための同じコーデックを使用して、符号器800を実装することができるが、符号器900は、エンハンスメントレイヤ符号器の動き推定(ME)ブロック330*が変更されることを必要とすることを留意されたい。エンハンスメントレイヤ符号器900は、差分ドメインではなく正規の画素ドメインで動作することにさらに留意されたい。
H.264符号器などの標準の単一レイヤ符号器のBピクチャ予測ロジックを用いることにより、前の高解像度ピクチャと、アップサンプリングされたベースレイヤピクチャとから予測を組み合わせることもまた可能である。これは、第1のピクチャが、正規のまたは標準の前の高解像度ピクチャであり、また第2のピクチャが、ベースレイヤピクチャのアップサンプリングされたバージョンであるように、高解像度信号に対するBピクチャ予測参照を変更することにより達成することができる。次いで、符号器は、第2のピクチャが正規のBピクチャであるかのように予測を実施し、それにより、すべての高効率動きベクトル予測、および符号器の符号化モード(例えば、空間また時間直接モード)を利用する。H.264では、「Bピクチャ」符号化は、2つの参照ピクチャが、共に符号化されるピクチャの過去または未来のピクチャとなり得る意味で、「双方向」ではなく、「2つの予測(bi-predictive)」を表しており、一方、従来の「双方向」Bピクチャ符号化(例えば、MPEG-2)では、2つの参照ピクチャのうちの一方が過去のピクチャであり、他方が未来のピクチャであることに留意されたい。この実施形態は、ピクチャ参照制御ロジックおよびアップサンプリングモジュールに限定された最小の変更で、標準の符号器設計を使用することができる。
本発明の実装形態では、SNRおよび空間スケーラビリティ符号化モードは、1つの符号器中で組み合わせることができる。このような実装形態では、(例えば、図4で2次元で示された)ビデオスレッディング構造は、追加の第3のスケーラビリティレイヤ(SNRまたは空間)に対応した、3次元に拡張することができる。SNRスケーラビリティが、空間的にスケーラブルなコーデックの最高の解像度信号に追加される実装形態は、利用可能な品質およびビットレートの範囲の点で魅力的なものとなり得る。
図10〜14は、それぞれ、ベースレイヤ復号器1000、SNRエンハンスメントレイヤ復号器1100、単一ループのSNRエンハンスメントレイヤ復号器1200、空間的にスケーラブルなエンハンスメントレイヤ復号器1300、およびレイヤ間動き予測を有する空間的にスケーラブルなエンハンスメントレイヤ復号器1400のための例示的なアーキテクチャを示す。これらの復号器は、符号器300、500、600、700、800、および900を補足する。復号器1000、1100、1200、1300、および1400は、適切にまたは必要に応じて、端末140の復号器230Aに含まれ得る。
端末140のスケーラブルビデオ符号化/復号構成は、結果のレイヤを、システム100のHRCおよびLRCを介して送信するためのいくつかの選択肢を提示する。例えば、(L0およびS0)レイヤ、または(L0、S0およびL1)レイヤは、HRCを介して送信することができる。ネットワーク条件、ならびに高信頼性および低信頼性チャネルの帯域幅を十分考慮した後、代替の組合せをまた、所望に応じて使用することができる。例えば、ネットワーク条件に応じて、S0イントラモードを符号化することが望ましいが、保護されたHRCでS0を送信しないことが望ましいこともあり得る。このような場合、予測を含まないイントラモード符号化の頻度は、ネットワーク条件に依存する可能性があり、または受信エンドポイントにより報告される損失に応じて決定され得る。S0予測チェーンは、このような方法でリフレッシュすることができる(すなわち、S0レベルでエラーがある場合、いずれのドリフトも削除される)。
図15および16は、代替のスレッディングまたは予測チェーンアーキテクチャ1500および1600を示しており、それは、本発明によるビデオ通信または会議アプリケーションで使用することができる。スレッディング構造または予測チェーン1500および1600の実装形態は、図2〜14を参照して上記で述べたコーデック設計に対して実質的な変更を何も必要としない。
アーキテクチャ1580では、レイヤ(S0、L0、およびL1)の例示的な組合せが、高信頼性チャネル170を介して送信される。図示のように、L1は、L0予測チェーン430の一部であり、S1のためのものではないことに留意されたい。アーキテクチャ1600は、非ダイアディックなフレームレート解像度を達成することもできるスレッディング構成のさらなる例を示す。
上記で述べたシステム100および端末140のコーデック設計はフレキシブルであり、容易に、代替のSVCスキームを組み込むように拡張することができる。例えば、Sレイヤの符号化は、近日予定のITU-T H.264 SVC FGS仕様により達成することができる。FGSが使用される場合、Sレイヤの符号化は、生成されたビットストリームに組み込まれた特性により、「S」パケットの任意の部分を使用することができる。より高いレイヤに対する参照ピクチャを作成するために、FGSコンポーネントの部分を使用することが可能であり得る。通信ネットワークを介した送信におけるFGSコンポーネント情報の損失は、復号器でドリフトを生ずる可能性がある。しかし、本発明で使用するスレッディングアーキテクチャは、このような損失の影響を最小化するので有利である。誤差の伝播は、観察者に気付かれないように、わずかなフレーム数に制限することができる。参照ピクチャを作成するために含まれるFGSの量は、動的に変化することができる。
H.264 SVC FGS仕様の提案された特徴は、FGSレイヤにおけるリーク予測技法である。Y. Bao他、 、Joint Video Team (JVT)of ISO/IEC MPEG & ITU-T VCEG、15th meeting、Busan、Korea、2005年4月18〜22日を参照のこと。リーク予測技法は、前のFGSエンハンスメントレイヤピクチャと現在のベースレイヤピクチャとの正規化された重み付き平均を使用することからなる。重み付き平均は、重み付けパラメータのアルファにより制御され、アルファが1である場合、現在のベースレイヤピクチャだけが使用され、一方、それが0である場合、前のFGSエンハンスメントレイヤピクチャだけが使用される。アルファが0である場合は、ゼロの動きベクトルだけを使用する限定された場合である、本発明のSNRエンハンスメントレイヤに対する動き推定(図5のME 330)の使用と同一である。リーク予測技法は、この発明で述べられた正規のMEと共に使用することができる。さらに、FGSレイヤの予測ループを中断し、エラーのドリフトを削除するために、アルファ値を周期的に0に切り換えることが可能である。
図17は、テレビ会議システム100(図1)で使用される例示的なMCU/SVCS 110のスイッチ構造を示す。MCU/SVCS 110は、可能なソース(例えば、エンドポイント120〜140)のそれぞれから、どのパケットが、どの宛先に、どのチャネル(高信頼性対低信頼性)を介して送信されるかを判定し、それに従って信号を切り換える。MCU/SVCS 110の設計および切換え機能は、参照により本明細書に組み込まれる同時出願の米国特許出願第[SVCS]号に述べられている。簡略化のために、MCU/SVCS 110の切換え構造および切換え機能の限定された細部に限って、ここでさらに説明する。
図18は、MCU/SVCSスイッチ110の例示的な実施形態のオペレーションを示す。MCU/SVCSスイッチ110は、そのメモリ中に2つのデータ構造を維持する。すなわち、SVCSスイッチレイヤ構成マトリックス110A、および SVCSネットワーク構成マトリックス110Bであり、その例が、図19および図20にそれぞれ示される。SVCSスイッチレイヤ構成マトリックス110A(図19)は、各レイヤに対して、またソースと宛先エンドポイント120〜140の各対に対して、特定のデータパケットをどのように処理すべきかに関する情報を提供する。例えば、マトリックス110Aのエレメント値ゼロは、パケットを送信すべきではないことを示し、負のマトリックスエレメント値は、パケット全体を送信すべきであることを示し、また正のマトリックスエレメント値は、パケットデータの指定されたパーセンテージだけを送信すべきであることを示す。パケットのデータの指定されたパーセンテージの送信は、FGSタイプの技法がスケーラブルに符号化された信号に対して使用される場合に限って適切であり得る。
図18はまた、スイッチレイヤ構成マトリックス110A情報を使用してデータパケットを送るためのMCU/SVCS 110におけるアルゴリズム1800を示す。ステップ1802で、MCU/SVCS 110は、受信されたパケットヘッダを調べることができる(H.264を使用すると仮定すると、例えば、NALヘッダ)。ステップ1804で、MCU/SVCS 110は、処理命令および受信されたパケットの指定された宛先を確立するために、ソース、宛先、およびレイヤの組合せに対する関連マトリックス110Aエレメントの値を評価する。FGS符号化を使用するアプリケーションでは、正のマトリックスエレメント値は、パケットのペイロードサイズを低減する必要のあることを示す。それに従って、ステップ1806で、パケットの関連する長さエントリが変更され、データは複製されない。ステップ1808で、関連するレイヤまたはレイヤの組合せは、その指定された宛先に切り換えられる。
図18および図20を参照すると、SVCSネットワーク構成マトリックス110Bは、参加している各エンドポイントに対するポート番号を追跡する。MCU/SVCS 110は、各レイヤに対してデータを送信し、受信するために、マトリックス110B情報を使用することができる。
マトリックス110Aおよび110Bを処理することに基づいたMCU/SVCS 110 の動作により、従来のMCU動作とは対照的に、ゼロまたは最小の内部アルゴリズム遅延で信号切換えを行うことができる。従来のMCUは、様々な参加者に送信するために、到来するビデオを新しいフレームに構成する必要がある。この構成には、到来するストリームの完全な復号、および出力ストリームの再符号化を必要とする。このようなMCUにおける復号/再符号化処理遅延はかなり大きく、必要となる計算能力も同様である。スケーラブルなビットストリームアーキテクチャを用いることにより、また各エンドポイント端末140受信者中に復号器230Aの複数のインスタンスを提供することにより、MCU/SVCS 110は、各受信者宛先に対して適切なレイヤを選択するように到来するパケットをフィルタすることが必要になるだけである。DSP処理が全く必要ないか、あるいは最小で済むことにより、有利には、MCU/SVCS 110を非常にわずかなコストで実装し、(所与の装置で同時にホストされ得るセッション数の点で)優れたスケーラビリティを提供することが可能になり、また直接のエンドポイントツーエンドポイント接続における遅延よりも少しだけ大きい遅延となり得るエンドツーエンド遅延で実装することができる。
端末140およびMCU/SVCS 110は、異なるビットレートおよびストリームの組合せを用いた異なるネットワークシナリオで展開することができる。表IIは、様々な例示的なネットワークシナリオにおける可能なビットレートおよびストリームの組合せを示す。ベース帯域幅/合計帯域幅>=50%がDiffServeレイヤ化の有効性の限界であり、さらに、15fps未満の時間解像度は有用ではないことに留意されたい。
Figure 2013141284
端末140および本発明の同様の構成は、異なるQoS保証を提供できるチャネルを介して展開されるポイントツーポイントおよびマルチポイントのテレビ会議システムに関して、スケーラブルな符号化技法を利用できるようにする。本明細書で述べられたスケーラブルなコーデックの選択、スレッディングモデルの選択、高信頼性または低信頼性チャネルを介して送信すべきレイヤの選択、および様々なレイヤに対する適切なビットレート(または量子化器のステップサイズ)の選択は、本発明の特定の実装形態で変化し得る重要な設計パラメータである。通常、このような設計の選択は一度行えばよく、そのパラメータは、テレビ会議システムの展開中、または少なくとも、特定のテレビ会議セッション中は一定のままである。しかし、本発明のSVC構成は、これらのパラメータを単一のテレビ会議セッション内で動的に調整するフレキシビリティを提供することを理解されたい。参加者の/エンドポイントの要件(例えば、他のどの参加者が受信すべきか、どの解像度でなど)、およびネットワーク条件(例えば、損失の割合、ジッタ、各参加者に対する帯域幅の可用性、高信頼性と低信頼性チャネルの間を区分する帯域幅など)を考慮したパラメータの動的な調整が望ましい可能性がある。適切な動的な調整スキームの下で、個々の参加者/エンドポイントは対話式に、異なるスレッディングパターン間で(例えば、図4、8、および9で示すスレッディングパターン間で)切り換え、レイヤを高信頼性および低信頼性チャネルに割り当てる方法の変更を選択し、1つまたは複数のレイヤの削除を選択し、または個々のレイヤのビットレートを変更することができる。同様に、MCU/SVCS 110は、様々な参加者にリンクしている高信頼性および低信頼性チャネルにレイヤを割り当てる方法を変更し、1つまたは複数のレイヤを削除し、FGS/SNRエンハンスメントレイヤを何人かの参加者に対してスケール変更するように構成することができる。
例示的なシナリオでは、テレビ会議は3人の参加者、A、B、およびCを有することができる。参加者AおよびBは、200Kbpsの連続レートを保証できる高速500Kbpsチャネルへのアクセス権を有することができる。参加者Cは、100Kbpsを保証できる200Kbpsチャネルへのアクセス権を有することができる。参加者Aは、以下のレイヤを有する符号化スキームを使用することができる。すなわち、ベースレイヤ(「Base」)、CIF解像度で、7.5fps、15fps、30fpsビデオを提供する時間スケーラビリティレイヤ(「Temporal」)、および3つの時間フレームレートのいずれかで空間解像度を増加させることができるSNRエンハンスメントレイヤ(「FPS」)である。BaseおよびTemporalコンポーネントはそれぞれ、100Kbpsを必要とし、FGSは300Kbpsが必要であり、合計500Kbpsの帯域幅となる。参加者Aは、全部で3つのBase、Temporal、およびFPSコンポーネントをMCU 110に送信することができる。同様に、参加者Bは全部で3つのコンポーネントを受信することができる。しかし、シナリオでは、参加者Bには200Kbpsが保証されているだけなので、FGSは、保証されていない300Kbpsのチャネルセグメントを介して送信される。参加者Cは、BaseおよびTemporalコンポーネントだけを受信することができ、Baseコンポーネントは100Kbpsで保証されている。利用可能な(保証された、または合計の)帯域幅が変わった場合、参加者Aの符号器(例えば、端末140)は、それに応じて、コンポーネントのいずれかに対するターゲットビットレートを動的に変更することができる。例えば、保証された帯域幅が200Kbpsを超える場合、さらに多くのビットを、BaseおよびTemporalコンポーネントに割り振ることができる。符号化は実時間で行われる(すなわち、ビデオは事前に符号化されていない)ので、このような変更は、実時間応答で動的に実施することができる。
参加者BおよびCが共に、制限された能力、例えば、100Kbpsのチャネルによりリンクされている場合、参加者Aは、Baseコンポーネントだけを送信することを選ぶことができる。同様に、参加者BおよびCが、受信したビデオをQCIF解像度でのみ見ることを選択した場合、受信したCIFビデオをQCIF解像度へとダウンサンプリングすることによりFGSコンポーネントにより提供される追加の品質エンハンスメントは失われることになるので、参加者Aは、FGSコンポーネントを送信しないことにより応ずることができる。
いくつかのシナリオでは、単一レイヤのビデオストリーム(ベースレイヤまたは合計のビデオ)を送信し、スケーラビリティレイヤの使用を全く回避するのが適切であり得ることに留意されたい。
HRCおよびLRCを介してスケーラブルなビデオレイヤを送信することにおいて、LRC上の情報が失われた場合は常に、HRC上で送信された情報だけを、ビデオ再構成および表示のために使用することができる。実際には、表示されるビデオピクチャのいくつかの部分は、ベースレイヤおよび指定されたエンハンスメントレイヤを復号することにより生成されたデータを含むことになるが、他の部分は、ベースレイヤだけを復号することにより生成されたデータを含む。異なるベースレイヤとエンハンスメントレイヤの組合せに関連する品質レベルがかなり異なる場合、失われたLRCデータを含む表示されたビデオピクチャと、含まないビデオピクチャとの品質差は、顕著なものとなり得る。視覚的な影響は、時間的な次元でさらにはっきりと分かる可能性があり、ベースレイヤから「ベースレイヤ プラス エンハンスメントレイヤ」に、表示されるピクチャを繰り返し変更することはフリッカとして知覚され得る。この影響を緩和するために、ベースレイヤピクチャと、「ベースレイヤ プラス エンハンスメントレイヤ」ピクチャとの間の品質差(例えば、PSNRの点で)が、特に、フリッカが視覚的により明確であるピクチャの静的部分に対して、低く保持することを保証するのが望ましい場合がある。ベースレイヤピクチャと、「ベースレイヤ プラス エンハンスメントレイヤ」ピクチャとの間の品質差は、ベースレイヤそれ自体の品質を高めるようにする適切なレート制御技法を用いることにより、意図的に低く保持することができる。このような1つのレート制御技法は、L0ピクチャのすべてまたはいくつかを、より低いQP値(すなわち、より細かい量子化値)で符号化することであり得る。例えば、どのL0ピクチャも、3分の1に下げたQPで符号化することができる。このような、より細かい量子化は、ベースレイヤの品質を高めることができ、したがって、エンハンスメントレイヤ情報の損失により生じたどんなフリッカの影響も、または等価な空間アーティファクトも最小化する。より低いQP値をまた、1つおきのL0ピクチャに、または4つのL0ピクチャごとに適用することもでき、フリッカおよび同様のアーティファクトを緩和するのに同様の有効性がある。SNRと空間スケーラビリティの組合せの特有な使用法(例えば、QCIF品質を担うベースレイヤを表すために、HCIF符号化を使用するなど)により、ベースレイヤに適用される適正なレート制御で、静的オブジェクトをHCIF解像度に近付けることを可能にし、したがって、エンハンスメントレイヤが失われたときに生ずるフリッカアーティファクトを低減する。
本発明の好ましい諸実施形態と考えられるものを述べてきたが、本発明の趣旨から逸脱することなく、他の変更、さらなる変更および修正を諸実施形態に対して加えることができること、およびこのような変更および修正はすべて、本発明の真の範囲に含まれるものとして特許請求するように意図されていることを当業者であれば理解されよう。
本発明による、本明細書に述べられたスケーラブルなコーデックは、ハードウェアとソフトウェアの適切な任意の組合せを用いて実施できることもまた理解されよう。前述のスケーラブルなコーデックを実装しまた動作させるためのソフトウェア(すなわち、命令)は、コンピュータ可読媒体上で提供することができ、それは、限定することなく、ファームウェア、メモリ、記憶装置、マイクロ制御装置、マイクロプロセッサ、集積回路、ASICS、オンラインのダウンロード可能な媒体、および他の利用可能な媒体を含むことができる。

Claims (14)

  1. 電子通信ネットワークと1以上のサーバを介した複数のエンドポイント間のビデオ通信のためのシステムであって、そのネットワークは、前記複数のエンドポイントとサーバをリンクする異なるサービス品質と帯域幅のチャネルを提供し、前記チャネルは、指定された高信頼性チャネル(HRC)と低信頼性チャネル(LRC)を含んでおり、
    前記システムは、
    前記エンドポイントに配置された送信端末および受信端末を備え、
    少なくとも1つの前記送信端末は、他端末に送信するための少なくとも1つのスケーラブル符号化ビデオ信号を、ベースレイヤおよびエンハンスメントレイヤのフォーマットで作成するように構成され、さらに少なくとも前記ベースレイヤを指定されたHRC上で送信するように構成されており、
    少なくとも1つの前記受信端末は、指定されたHRCを含むネットワークチャネル上で受信した前記スケーラブル符号化ビデオ信号層をデコードし、さらに前記デコードしたビデオ信号レイヤを結合することによりローカル使用のためのビデオを再構築するように構成されており、
    前記サーバは、後続の端末につながる電子通信ネットワークチャネル上で、前記送信端末によって前記受信端末に対して送信された前記スケーラブル符号化ビデオ信号レイヤの伝送を仲介するように構成されている
    ことを特徴とするシステム。
  2. 少なくとも1つの端末は、エンコードと伝送のためのライブビデオ信号;エンコードと伝送のための蓄積ビデオ信号;エンコードと伝送のための合成ビデオ信号;伝送のための事前符号化ビデオ信号;のうち少なくとも1つにアクセスするように構成されている
    ことを特徴とする請求項1記載のシステム。
  3. 電子通信ネットワークと1以上のサーバを介した複数のエンドポイント間のビデオ通信のためのシステムであって、
    前記システムは、
    前記エンドポイントに配置された送信端末および受信端末を備え、
    少なくとも1つの前記送信端末は、他端末に送信するための少なくとも1つのスケーラブル符号化ビデオ信号を、ベースレイヤおよびエンハンスメントレイヤのフォーマットで作成するように構成され、さらに前記電子通信ネットワーク上で再送信を用いて少なくとも前記ベースレイヤを送信するように構成されており、
    少なくとも1つの前記受信端末は、前記電子通信ネットワーク上で受信した前記スケーラブル符号化ビデオ信号レイヤをデコードし、さらに前記デコードしたビデオ信号レイヤを結合することによりローカル使用のためのビデオを再構築するように構成されており、
    前記サーバは、後続の端末につながる前記電子通信ネットワークチャネル上で、前記送信端末によって前記受信端末に対して送信された前記スケーラブル符号化ビデオ信号レイヤの伝送を仲介するように構成されている
    ことを特徴とするシステム。
  4. 電子通信ネットワーク上に配置された1以上のサーバを介して他のエンドポイントとビデオ通信するためのエンドポイント端末であって、
    少なくとも1つのビデオ信号をベースレイヤとエンハンスメントレイヤのフォーマットにスケーラブル符号化するように構成された、少なくとも1つのスケーラブルビデオエンコーダ、
    前記電子通信ネットワーク上で伝送するため前記ベースレイヤとエンハンスメントレイヤのフォーマットにエンコードされたビデオ信号レイヤを多重化するように構成された、パケットマルチプレクサ、
    を備え、
    前記エンドポイント端末は、再送信を用いて、前記ベースレイヤを確実に送信するように構成されている
    ことを特徴とする端末。
  5. 前記スケーラブルビデオエンコーダは、入力信号を、同時送信することができる2以上の空間および/または品質解像度にエンコードするように構成されている
    ことを特徴とする請求項4記載の端末。
  6. 電子通信ネットワーク上に配置された1以上のサーバを介して他のエンドポイントとビデオ通信するためのエンドポイント端末であって、
    1以上のビデオ信号をベースレイヤとエンハンスメントレイヤのフォーマットにスケーラブル復号化するように構成された、スケーラブルビデオデコーダ、
    前記電子通信ネットワーク上で受信した後に前記ベースレイヤとエンハンスメントレイヤのフォーマットにエンコードされたビデオ信号レイヤを逆多重化するように構成された、パケットデマルチプレクサ、
    を備え、
    前記端末は、再送信リクエストを用いて、少なくとも前記ベースレイヤを確実に受信することができる
    ことを特徴とする端末。
  7. 電子通信ネットワーク上に配置された他のエンドポイントとビデオ通信するためのエンドポイント端末であって、
    1以上のビデオ信号をベースレイヤとエンハンスメントレイヤのフォーマットにスケーラブル復号化するように構成された、スケーラブルビデオデコーダ、
    前記電子通信ネットワーク上で受信した後に前記ベースレイヤとエンハンスメントレイヤのフォーマットにエンコードされたビデオ信号レイヤを逆多重化するように構成された、パケットデマルチプレクサ、
    を備え、
    前記エンドポイントは、再送信リクエストを用いて、少なくとも前記ベースレイヤを確実に受信するように構成されている
    ことを特徴とする端末。
  8. 電子通信ネットワークと1以上のサーバを介して複数のエンドポイント間で通信する方法であって、
    ビデオ信号をベースレイヤとエンハンスメントレイヤのフォーマットにスケーラブル符号化するステップ、
    前記電子通信ネットワーク上で伝送するため前記ビデオ信号のレイヤを多重化するステップ、
    再送信を確実に用いて、前記ビデオ信号のベースレイヤとエンハンスメントレイヤから少なくとも前記ベースレイヤを送信するステップ、
    を有することを特徴とする方法。
  9. 電子通信ネットワーク上で複数のエンドポイント間で通信する方法であって、
    ビデオ信号をベースレイヤとエンハンスメントレイヤのフォーマットにスケーラブル符号化するステップ、
    前記電子通信ネットワーク上で伝送するため前記ビデオ信号のレイヤを多重化するステップ、
    再送信を確実に用いて、前記ビデオ信号のベースレイヤとエンハンスメントレイヤから少なくとも前記ベースレイヤを送信するステップ、
    を有することを特徴とする方法。
  10. 電子通信ネットワーク上で、複数のエンドポイントと1以上のサーバ間で、符号化ビデオ信号ピクチャを通信する方法であって、前記符号化ビデオ信号ピクチャはベースレイヤとエンハンスメントレイヤのフォーマットにスケーラブル符号化されており、
    1以上のビデオ信号をベースレイヤとエンハンスメントレイヤのフォーマットにスケーラブル復号化するように構成された、スケーラブルビデオデコーダを用いるステップ、
    前記電子通信ネットワーク上で受信した後に前記ベースレイヤとエンハンスメントレイヤのフォーマットにエンコードされた前記ビデオ信号のレイヤを逆多重化するように構成された、パケットデマルチプレクサを用いるステップ、
    を有し、
    前記エンドポイントは、再送信リクエストを用いて、少なくとも前記ベースレイヤを確実に受信するように構成されている
    ことを特徴とする方法。
  11. 電子通信ネットワークおよび1以上のサーバを介して複数のエンドポイント間でビデオ通信する方法であって、
    前記エンドポイントに送信端末と受信端末を配置するステップ、
    少なくとも1つの前記送信端末を、ベースレイヤおよびエンハンスメントレイヤのフォーマットで他端末へ送信するための少なくとも1つのスケーラブル符号化ビデオ信号を作成するように構成し、さらに再送信を確実に用いて少なくとも前記ベースレイヤを送信するように構成するステップ、
    少なくとも1つの前記受信端末を、前記電子通信ネットワーク上で受信した前記スケーラブル符号化ビデオ信号レイヤをデコードし、さらに前記デコードしたビデオ信号レイヤを結合することによりローカル使用のためのビデオを再構築するように構成するステップ、
    前記サーバを、後続の端末につながる前記電子通信ネットワークチャネル上で、前記送信端末によって前記受信端末に対して送信された前記スケーラブル符号化ビデオ信号レイヤの伝送を仲介するように構成するステップ、
    を有することを特徴とする方法。
  12. 電子通信ネットワークと1以上のサーバを介した複数のエンドポイント間のビデオ通信のための方法であって、そのネットワークは、前記複数のエンドポイントとサーバをリンクする異なるサービス品質と帯域幅のチャネルを提供し、前記チャネルは、指定された高信頼性チャネル(HRC)と低信頼性チャネル(LRC)を含んでおり、
    前記方法は、
    前記エンドポイントに送信端末および受信端末を配置するステップ、
    少なくとも1つの前記送信端末を、ベースレイヤおよびエンハンスメントレイヤのフォーマットで他端末に送信するための少なくとも1つのスケーラブル符号化ビデオ信号を作成するように構成し、さらに少なくとも前記ベースレイヤを指定されたHRC上で送信するように構成するステップ、
    少なくとも1つの前記受信端末を、指定されたHRCを含むネットワークチャネル上で受信した前記スケーラブル符号化ビデオ信号レイヤをデコードし、さらに前記デコードしたビデオ信号レイヤを結合することによりローカル使用のためのビデオを再構築するように構成するステップ、
    前記サーバを、後続の端末につながる電子通信ネットワークチャネル上で、前記送信端末によって前記受信端末に対して送信された前記スケーラブル符号化ビデオ信号レイヤの伝送を仲介するように構成するステップ、
    を有することを特徴とする方法。
  13. 前記少なくとも1つの送信端末を構成するステップは、前記端末を、エンコードと伝送のためのライブビデオ信号;エンコードと伝送のための蓄積ビデオ信号;エンコードと伝送のための合成ビデオ信号;伝送のための事前符号化ビデオ信号;のうち少なくとも1つにアクセスするように構成するステップを有する
    ことを特徴とする請求項12記載の方法。
  14. 請求項8から13のいずれか1項記載の方法をプロセッサに実行させる命令セットを格納したことを特徴とするコンピュータ読取可能媒体。
JP2013030527A 2005-09-07 2013-02-20 スケーラブルなビデオ符号化を用いたスケーラブルで低遅延のテレビ会議用システムおよび方法 Pending JP2013141284A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US71474105P 2005-09-07 2005-09-07
US60/714,741 2005-09-07
US72339205P 2005-10-04 2005-10-04
US60/723,392 2005-10-04

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2008544319A Division JP2009508454A (ja) 2005-09-07 2006-07-21 スケーラブルなビデオ符号化を用いたスケーラブルで低遅延のテレビ会議用システムおよび方法

Publications (1)

Publication Number Publication Date
JP2013141284A true JP2013141284A (ja) 2013-07-18

Family

ID=39402785

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2008544319A Pending JP2009508454A (ja) 2005-09-07 2006-07-21 スケーラブルなビデオ符号化を用いたスケーラブルで低遅延のテレビ会議用システムおよび方法
JP2013030527A Pending JP2013141284A (ja) 2005-09-07 2013-02-20 スケーラブルなビデオ符号化を用いたスケーラブルで低遅延のテレビ会議用システムおよび方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2008544319A Pending JP2009508454A (ja) 2005-09-07 2006-07-21 スケーラブルなビデオ符号化を用いたスケーラブルで低遅延のテレビ会議用システムおよび方法

Country Status (3)

Country Link
EP (1) EP1952631A4 (ja)
JP (2) JP2009508454A (ja)
WO (1) WO2008060262A1 (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7733868B2 (en) 2005-01-26 2010-06-08 Internet Broadcasting Corp. Layered multicast and fair bandwidth allocation and packet prioritization
CA2633819C (en) 2005-12-08 2016-12-06 Vidyo, Inc. Systems and methods for error resilience and random access in video communication systems
WO2007095640A2 (en) 2006-02-16 2007-08-23 Vidyo, Inc. System and method for thinning of scalable video coding bit-streams
US8320450B2 (en) 2006-03-29 2012-11-27 Vidyo, Inc. System and method for transcoding between scalable and non-scalable video codecs
CN101588252B (zh) 2008-05-23 2011-07-20 华为技术有限公司 一种多点会议的控制方法及装置
WO2009154704A1 (en) * 2008-06-17 2009-12-23 Thomson Licensing Methods and apparatus for splitting and combining scalable video coding transport streams
US8319820B2 (en) * 2008-06-23 2012-11-27 Radvision, Ltd. Systems, methods, and media for providing cascaded multi-point video conferencing units
WO2010047099A1 (ja) 2008-10-22 2010-04-29 日本電信電話株式会社 スケーラブル動画像符号化方法、スケーラブル動画像符号化装置、スケーラブル動画像符号化プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP5395621B2 (ja) * 2009-11-05 2014-01-22 株式会社メガチップス 画像生成方法および画像再生方法
JP5999873B2 (ja) 2010-02-24 2016-09-28 株式会社リコー 伝送システム、伝送方法、及びプログラム
US8259808B2 (en) * 2010-03-25 2012-09-04 Mediatek Inc. Low complexity video decoder
US9172980B2 (en) 2010-03-25 2015-10-27 Mediatek Inc. Method for adaptively performing video decoding, and associated adaptive complexity video decoder and adaptive audio/video playback system
US10063873B2 (en) 2010-03-25 2018-08-28 Mediatek Inc. Method for adaptively performing video decoding, and associated adaptive complexity video decoder and adaptive audio/video playback system
AU2011258272B2 (en) * 2010-05-25 2015-03-26 Vidyo, Inc. Systems and methods for scalable video communication using multiple cameras and multiple monitors
US20130148717A1 (en) * 2010-08-26 2013-06-13 Freescale Semiconductor, Inc. Video processing system and method for parallel processing of video data
JP5740969B2 (ja) * 2010-12-22 2015-07-01 株式会社リコー Tv会議システム
JP6079174B2 (ja) * 2011-12-27 2017-02-15 株式会社リコー 通信管理システム、通信システム、プログラム、及びメンテナンスシステム
KR102001415B1 (ko) * 2012-06-01 2019-07-18 삼성전자주식회사 다계층 비디오 코딩을 위한 레이트 제어 방법, 이를 이용한 비디오 인코딩 장치 및 비디오 신호 처리 시스템
US9525895B2 (en) * 2012-08-27 2016-12-20 Sony Corporation Transmission device, transmission method, reception device, and reception method
EP2804374A1 (en) 2013-02-22 2014-11-19 Thomson Licensing Coding and decoding methods of a picture block, corresponding devices and data stream
EP2804375A1 (en) * 2013-02-22 2014-11-19 Thomson Licensing Coding and decoding methods of a picture block, corresponding devices and data stream
CN105230017B (zh) * 2013-03-21 2019-08-06 索尼公司 图像编码装置和方法以及图像解码装置和方法
JP2015192230A (ja) * 2014-03-27 2015-11-02 沖電気工業株式会社 会議システム、会議サーバ、会議方法及び会議プログラム
JP6349997B2 (ja) * 2014-06-17 2018-07-04 株式会社リコー 通信装置、通信システム、通信制御方法およびプログラム
JP6588801B2 (ja) * 2015-10-30 2019-10-09 キヤノン株式会社 画像処理装置、画像処理方法、及び、プログラム
KR101770070B1 (ko) * 2016-08-16 2017-08-21 라인 가부시키가이샤 비디오 컨퍼런스를 위한 비디오 스트림 제공 방법 및 시스템
CN115720257B (zh) * 2022-10-13 2023-06-23 华能信息技术有限公司 一种视频会议系统的通信安全管理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09116903A (ja) * 1995-10-16 1997-05-02 Nippon Telegr & Teleph Corp <Ntt> 階層化符号化装置および階層化復号化装置
JP2000295608A (ja) * 1999-04-06 2000-10-20 Matsushita Electric Ind Co Ltd 映像信号階層符号化伝送装置、映像信号階層復号化受信装置およびプログラム記録媒体
WO2004040917A1 (en) * 2002-10-30 2004-05-13 Koninklijke Philips Electronics N.V. Coded video packet structure, demultiplexer, merger, method and apparaturs for data partitioning for robust video transmission
JP2005167962A (ja) * 2003-11-11 2005-06-23 Secom Co Ltd 符号化信号分離装置、符号化信号合成装置および符号化信号分離合成システム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1670260A3 (en) * 2002-01-23 2010-03-03 Nokia Corporation Grouping of image frames in video coding
CA2491522C (en) * 2002-07-01 2014-12-09 E G Technology Inc. Efficient compression and transport of video over a network
US20040252758A1 (en) * 2002-08-14 2004-12-16 Ioannis Katsavounidis Systems and methods for adaptively filtering discrete cosine transform (DCT) coefficients in a video encoder
MY134659A (en) * 2002-11-06 2007-12-31 Nokia Corp Picture buffering for prediction references and display
EP1445958A1 (en) * 2003-02-05 2004-08-11 STMicroelectronics S.r.l. Quantization method and system, for instance for video MPEG applications, and computer program product therefor
US20040218669A1 (en) * 2003-04-30 2004-11-04 Nokia Corporation Picture coding method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09116903A (ja) * 1995-10-16 1997-05-02 Nippon Telegr & Teleph Corp <Ntt> 階層化符号化装置および階層化復号化装置
JP2000295608A (ja) * 1999-04-06 2000-10-20 Matsushita Electric Ind Co Ltd 映像信号階層符号化伝送装置、映像信号階層復号化受信装置およびプログラム記録媒体
WO2004040917A1 (en) * 2002-10-30 2004-05-13 Koninklijke Philips Electronics N.V. Coded video packet structure, demultiplexer, merger, method and apparaturs for data partitioning for robust video transmission
JP2005167962A (ja) * 2003-11-11 2005-06-23 Secom Co Ltd 符号化信号分離装置、符号化信号合成装置および符号化信号分離合成システム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNC201210075068; Jie Jia Multimedia Framework Lab Sejong University 98 Gunja-Dong, Gwangjin-Gu Seoul, 143-747, Korea: 'Error resilience for SVC base and enhanced layers[online]' Joint Video Team of ISO/IEC MPEG &ITU-T VCEG(ISO/IEC JTC1/SC29/WG11 and ITU-T SG16 Q.6) JVT-O0&#x *
CSNG200501269010; 秦泉寺他: 'MPEG-4 ASP/FGS CODECを用いた多地点スケーラブル通信会議システム' 電子情報通信学会技術研究報告 Vol.104 No.752 Vol.104,No.752, 20050318, P.55-60, 社団法人電子情報通信学会 The Institute of Electro *
JPN6011033062; 秦泉寺他: 'MPEG-4 ASP/FGS CODECを用いた多地点スケーラブル通信会議システム' 電子情報通信学会技術研究報告 Vol.104 No.752 Vol.104,No.752, 20050318, P.55-60, 社団法人電子情報通信学会 The Institute of Electro *
JPN6014007446; Jie Jia Multimedia Framework Lab Sejong University 98 Gunja-Dong, Gwangjin-Gu Seoul, 143-747, Korea: 'Error resilience for SVC base and enhanced layers[online]' Joint Video Team of ISO/IEC MPEG &ITU-T VCEG(ISO/IEC JTC1/SC29/WG11 and ITU-T SG16 Q.6) JVT-O0&#xFF1 *

Also Published As

Publication number Publication date
EP1952631A1 (en) 2008-08-06
JP2009508454A (ja) 2009-02-26
EP1952631A4 (en) 2012-11-21
WO2008060262A1 (en) 2008-05-22

Similar Documents

Publication Publication Date Title
US9426499B2 (en) System and method for scalable and low-delay videoconferencing using scalable video coding
JP2013141284A (ja) スケーラブルなビデオ符号化を用いたスケーラブルで低遅延のテレビ会議用システムおよび方法
US20160360155A1 (en) System and method for scalable and low-delay videoconferencing using scalable video coding
US8718137B2 (en) System and method for providing error resilence, random access and rate control in scalable video communications
JP4921488B2 (ja) スケーラブルなビデオ符号化を用いて、またスケーラブルなテレビ会議サーバを複合してテレビ会議を行うためのシステムおよび方法
US8436889B2 (en) System and method for videoconferencing using scalable video coding and compositing scalable video conferencing servers
JP6309463B2 (ja) スケーラブルビデオ通信でエラー耐性、ランダムアクセス、およびレート制御を提供するシステムおよび方法
US8442120B2 (en) System and method for thinning of scalable video coding bit-streams
EP1997236A2 (en) System and method for providing error resilience, random access and rate control in scalable video communications
CA2796882A1 (en) System and method for scalable and low-delay videoconferencing using scalable video coding
EP2360843A2 (en) System and method for thinning of scalable video coding bit-streams
Eleftheriadis et al. Multipoint videoconferencing with scalable video coding
CA2615346C (en) System and method for scalable and low-delay videoconferencing using scalable video coding
AU2011254031B2 (en) System and method for providing error resilience, random access and rate control in scalable video communications

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20130626

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130730

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20131024

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20131029

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140304

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140529

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140603

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20141104