JP2009544176A

JP2009544176A - スケーラブルビデオコーデックと非スケーラブルビデオコーデックとの間でトランスコードを行うためのシステム及び方法

Info

Publication number: JP2009544176A
Application number: JP2009503292A
Authority: JP
Inventors: エレフゼリアディス，アレクサンドロス; ホン，ダニー; シャピロ，オファー; ウィーガンド，トーマス
Original assignee: ヴィドヨ，インコーポレーテッド
Priority date: 2006-03-29
Filing date: 2007-03-29
Publication date: 2009-12-10
Also published as: CA2647723A1; CN102318202B; CN102318202A

Abstract

スケーラブルなビデオ符号化を用いるビデオ通信システムにおいてトランスコードを実行するシステム及び方法を提供する。このシステム及び方法は、ある特性を有する入力信号を、異なる特性要求を有する望まれる出力信号にトランスコード又は変換するために使用することができる。このシステム及び方法は、入力信号及び望まれる出力信号の特定の特性に応じて、圧縮領域処理、部分的な復号−再符号化、又は副情報を含む完全な復号−再符号化に基づいて実現される。
【選択図】図１

Description

本出願は、２００６年３月２９日に出願された米国仮出願番号第６０／７８６，９９７号の優先権を主張する。更に、本出願は、国際特許出願ＰＣＴ／ＵＳ０６／２８３６５号、ＰＣＴ／ＵＳ０６／０２８３６６号、ＰＣＴ／ＵＳ０６／０２８３６７号、ＰＣＴ／ＵＳ０６／０２８３６８号、ＰＣＴ／ＵＳ０６／０６１８１５号、ＰＣＴ／ＵＳ０６／６２５６９号、ＰＣＴ／ＵＳ０７／６２３５７号、ＰＣＴ／ＵＳ０７／６３３３５号に関連し、これらの優先権を主張する。上述した優先権及び関連出願の全ては、本出願と共通の譲受人に譲渡され、これらの文献の全体は、引用によって本願に援用される。

本発明は、ビデオデータ通信システムに関する。詳しくは、本発明は、符号化されたデジタルビデオデータを１つのスケーラブルビデオ符号化フォーマットから他のスケーラブルビデオ符号化フォーマットに変換し、又はスケーラブルビデオ符号化フォーマットから非スケーラブルビデオ符号化フォーマットに変換し、及び非スケーラブルビデオ符号化フォーマットからスケーラブルビデオ符号化フォーマットに変換する技術に関する。

デジタルビデオ通信システムは、ビデオの符号化、記録及び伝送のために、１つ又は時には２つ以上のデジタルビデオ符号化フォーマットを採用することがある。例えば、従来型のテレビ会議システムでは、Ｈ．２６１及びＨ．２６３ビデオ符号化規格の両方が使用されており、デジタルテレビジョンシステムでは、ＭＰＥＧ−２／Ｈ．２６２ビデオ符号化が使用されている。より最近のシステムでは、テレビ会議及び放送設定の両方において、Ｈ．２６４ビデオが用いられている。

ビデオ通信システムにおいては、異なるアプリケーションドメイン内に存在する動作の前提が異なることの直接的な結果として、異なる符号化フォーマットを用いる必要がある。なお、テレビ会議、モバイル機器及びテレビ放送の用途でＨ．２６４を使用するケースのように、２つ以上の異なるアプリケーションドメインで同じ符号化フォーマットが使用されている場合であっても、異なるアプリケーションドメインにおける符号化フォーマットの使い方が大きく異なることもある。この結果、１つのアプリケーションドメインで生成されたコンテンツが、他のドメインのシステムによっては直接復号できないこともある。このために、信号変換が必要となる。同じ符号化フォーマットが使用されている実例においても、符号化されたビデオ信号のビットレートが、特定のアプリケーションコンテキストで使用できるビットレートより高く、したがって、ビットレートを低減しなくてはならないといった状況が少なからず生じる。システム全体のレート歪みが改善できる場合、トランスコードが採用されることもある。

実際のアプリケーションでは、コンテンツの相互運用性の必要性から、幾つかのインスタンスが生成され、この場合、異なるビデオ符号化フォーマット間及び同じフォーマットの異なるパラメータ設定（例えば、ビットレート）間で効率的な変換を行うことが望ましい。これらの技術は、一般的に、まとめて「トランスコード」技術と呼ばれる。

ビットストリームフォーマット変換の必要性の１つの具体例は、新たなコーデックを用いるアプリケーションにおける旧型コーデックのサポートである。例えば、他の参加者が復号することができないビットストリームフォーマットを用いて、ある参加者がテレビ会議システムに接続した場合、フォーマット変換のためにトランスコードを行うことができる。

ある符号化フォーマット内でのトランスコードでは、使用可能なディスプレイサイズ、ビットレート、処理能力、又はレシーバの消費電力に対応するために、又は包括的な符号化効率を考慮して、空間分解能を変更することが望まれることもある。同様に、使用可能なビットレート、処理能力、レシーバの消費電力に対応するために、又は包括的な符号化効率を考慮して、時間分解能を変更することが望まれることもある。望まれることが多い他の変換としては、ビットレート、処理能力又は消費電力に関するレシーバ能力に対応するためのビットストリームサイズ又はビットレートの変更がある。

トランスコード処理が必要性となる更に他の具体例として、例えば、エラー回復又は符号化効率のために、ビットストリーム特性を変更することもある。ビットストリームの変更は、例えば、イントラマクロブロック等の符号化基準の変更を含むこともある。

また、トランスコードは、上述した変更の２つ以上の組合せであってもよい。

標準ビデオコーデックのためのトランスコード技術は、例えば、ＭＰＥＧ−２とＨ．２６４との間で、放送用のテレビジョン信号をＩＰ−テレビジョン及びモバイルテレビジョンのアプリケーションに適するフォーマットに変換する等、特定のアプリケーションシナリオの要求を満たすために開発された。これらのトランスコード技術は、既存の非階層符号化（single-layer coding）技術を用いて符号化されたビデオを対象としている。

従来の、非階層コーデックに加えて、ビデオ符号化のために、階層符号化、すなわちスケーラブル符号化が使用されるようになった。スケーラブル符号化は、所定のビデオ信号を集合的に表現する２つ以上の「スケーリングされた」ビットストリームを生成することによってビットレートの効率を高めるために使用されている。スケーラビリティは、複数の異なる次元、すなわち時間、空間、品質（「信号対雑音比」（ＳＮ比）スケーラビリティ又は忠実度スケーラビリティとも呼ばれる。）について実現される。コーデックの構造に応じて、コーデックビットストリームから、空間分解能及びフレームレートの如何なる組合せも入手可能である。例えば、異なる層において、ＣＩＦ及びＱＣＩＦ分解能、並びに７．５、１５及び３０フレーム／秒（ｆｐｓ）のフレームレートでビデオ信号をスケーラブル符号化することができる。異なる層に対応するビットは、個別のビットストリーム（すなわち、１層あたり１つのストリーム）として送信することができ、又はこれらを１つ以上のビットストリームに共に多重化することもできる。本明細書では、説明を簡潔にするために、複数の層が単一のビットストリームに多重化され、送信される場合であっても、所定の層に対応する符号化されたビットを、その層のビットストリームと呼ぶこととする。

スケーラビリティ機能を提供するために特別に設計されたコーデックには、例えば、ＭＰＥＧ−２（ＩＳＯ／ＩＥＣ１３８１８−２、ＩＴＵ−ＴＨ．２６２とも呼ばれる。）及び現在開発中のＳＶＣ（ＩＴＵ−ＴＨ．２６４付属資料Ｇ又はＭＰＥＧ−４パート１０ＳＶＣ）が含まれる。ビデオ通信のために特別に設計されたスケーラブル符号化技術は、共通の譲受人に譲渡された国際特許出願ＰＣＴ／ＵＳ０６／０２８３６５号「SYSTEM AND METHOD FOR SCALABLE AND LOW-DELAY VIDEOCONFERENCING USING SCALABLE VIDEO CODING」にも開示されている。なお、スケーラブル符号化のために特別に設計されていないコーデックであっても、時間的な次元において、スケーラビリティ特性を示す場合がある。例えば、ＤＶＤ及びデジタルＴＶ環境で用いられる非スケーラブルコーデックであるＭＰＥＧ−２メインプロファイルコーデックについて検討する。更に、このコーデックが３０ｆｐｓで動作し、ＩＢＢＰＢＢＰＢＢＰＢＢＰＢＢ（周期Ｎ＝１５フレーム）のグループオブピクチャ（ＧＯＰ）構造が使用されているとする。Ｂピクチャを連続的に削除し、これに続いてＰピクチャを削除することによって、３０ｆｐｓ（全てのピクチャタイプ）、１０ｆｐｓ（Ｉピクチャ及びＰピクチャのみ）及び２ｆｐｓ（Ｉピクチャのみ）といった合計３つの時間分解能を導出することができる。ＭＰＥＧ−２メインプロファイルコーデックの設計では、Ｐピクチャの符号化は、Ｂピクチャに依存せず、Ｉピクチャの符号化は、他のＰピクチャ又はＢピクチャに依存しないので、このような連続的な削除処理を行っても復号可能なビットストリームを生成できる。以下では、時間スケーラビリティ特性を有する非階層コーデックは、スケーラブルビデオ符号化の特別なケースとみなし、他の特別な言及がない限り、スケーラブルビデオ符号化に含ませる。

スケーラブルコーデックは、通常、ピラミッド型のビットストリーム構造を有し、構成要素となるビットストリームの１つ（「ベース層」と呼ばれる。）は、ある基本的な品質で元のメディアを再生する際に不可欠である。他のビットストリームの１つ以上（「エンハンスメント層」と呼ばれる。）をベース層と共に使用することによって、再生されたメディアの品質を高めることができる。

スケーラブルビデオ符号化は、複数の拠点を結ぶビデオ会議等の対話型ビデオ通信アプリケーションにとって、特に効果的な符号化技術である。本願と同じ譲受人に譲渡されている国際特許出願ＰＣＴ／ＵＳ０６／２８３６６号及びＰＣＴ／ＵＳ０６／６２５６９号には、それぞれ「スケーラブルビデオ通信サーバ」（Scalable Video Communication Server：ＳＶＣＳ）及び「コンポジットスケーラブルビデオ符号化サーバ」（Compositing Scalable Video Coding Server：ＣＳＶＣＳ）のアーキテクチャが開示されており、これらは、既存のマルチポイント制御ユニット（Multipoint Control Unit：ＭＣＵ）と同じ目的で使用されるが、複雑性が大幅に低減され、機能性が向上されている。同様に、本願と同じ譲受人に譲渡されている国際特許出願ＰＣＴ／ＵＳ０６／０６１８１５号及びＰＣＴ／ＵＳ０７／６３３３５号には、このようなシステムにおけるエラー回復、ランダムアクセス及びレート制御のためのメカニズムが開示されている。

スケーラブルビデオのトランスコードは、非階層トランスコードと幾つかの特徴を共有しているが、スケーラブルビデオの用途又は要求に固有の更なる特徴を有する。テレビ会議の設定において、スケーラブルビデオ符号化フォーマット間でトランスコードが必要となるシナリオには、以下のようなシナリオが含まれる。

・マルチパーティビデオ会議の参加者が、他の会議参加者が要求するビットストリームのビデオ信号特性と共に使用される特定のスケーラブルビデオ符号化フォーマットでは効率的に表現できないビデオ信号特性を要求する。具体例としては、他の要求されたビデオ解像度とは僅かに異なるビデオ解像度の要求に関連するＣＳＶＣＳの使用がある。この場合、僅かに異なるビデオ解像度を提供するために、トランスコードが必要である。

・ある参加者の伝送チャンネルが、他の参加者の伝送チャンネルに比べて、エラー率が高い。この場合、高いエラー率を補償するために、より多くのスライス及びイントラマクロブロックを挿入するトランスコードが必要である。

・旧型のエンドポイントをサポートするための関連する非階層フォーマットへのトランスコード（例えば、Ｈ．２６４ＳＶＣからＡＶＣ）。

・旧型エンドポイントをサポートするための関連しない非階層フォーマットへのトランスコード（例えば、Ｈ．２６４ＳＶＣからＨ．２６３、ＭＰＥＧ２、Ｈ．２６１、ＭＰＥＧ−４、又はＨ．２６４及びＳＶＣを除く他の何らかのビデオビットストリームフォーマット）。

上述した最後の２つのシナリオについて、スケーラブルビデオ符号化フォーマットと比較して、関連する非階層符号化フォーマットと、関連しない非階層符号化フォーマットとの区別は、重要である。例えば、ＳＶＣは、Ｈ．２６４ＡＶＣの拡張であり、したがって、例えば、ハイレベルのシンタクス、動き補償、変換符号化及びデブロッキングフィルタといった多くの共通要素を有する。この結果、これらの２つのフォーマット間の変換は、高い演算効率で、より容易に実行することができる。

現在、スケーラブルビデオ符号化を用いるビデオ通信システムにおけるトランスコードが研究されている。特に、スケーラブルビットストリームと、非スケーラブルビットストリームとの間の両方向のトランスコードのための技術が注目されている。また、ビデオ信号の品質に与える影響が最小であり、演算効率が高いトランスコード技術の実現が望まれている。

スケーラブルビデオ符号化を用いるビデオ通信システムにおけるトランスコードを実行するシステム及び方法を提供する。システム及び方法は、ある特性を有する入力信号を異なる特性要求を有する所望の出力信号にトランスコード又は変換するために使用できる。

本明細書では、トランスコード変換の６個の異なる例示的なカテゴリを示す。３つの例示的なカテゴリでは、望まれる出力は、特定の時間、品質、又は空間の分解能要求を有する。他の３つの例示的なカテゴリでは、望まれる出力は、品質及び時間、空間及び時間、又は空間、品質及び時間の分解能要求の組合せを有する。各カテゴリ内で、Ｈ．２６４ＳＶＣからＡＶＣ、ＡＶＣからＳＶＣ、ＳＶＣからＳＶＣへの変換のための特定のシステム及び方法を提供する。システム及び方法は、入力信号及び望まれる出力信号の特定の特性に応じて、圧縮領域処理、部分的な復号−再符号化又は副情報を含む完全な復号−再符号化に基づいている。

本発明の更なる特徴、性質及び様々な利点は、以下の好ましい実施の形態及び添付の図面によって、より明瞭になる。

添付の図面の全体に亘り、同じ符号及び記号は、特別な記載がない限り、例示する実施の形態の同様の特徴、要素、コンポーネント及び部分を指示するために使用する。更に、以下では、例示的な実施の形態に関して、図面を参照して本発明を説明する。

図１に示す例示的なトランスコードシステム１００は、ビデオ通信システムで用いることができるトランスコーダ１１０を備える。入力ビデオエンコーダ１２０は、一組のある特性（例えば、フォーマット及び／又はパラメータ特性）を有する入力ビデオビットストリームを生成する。トランスコーダ１００は、入力ビデオビットストリームの特性を変換又は変更し、所望の特性、すなわちターゲット特性の異なる組を有する出力ビデオストリームを生成する。特性の異なる組は、出力ビデオデコーダ１３０によって希望又は要求されるシグナリング特性に対応していてもよい。出力ビデオストリームは、出力ビデオデコーダ１３０に供給される。

例えば、ライブビデオ通信システムの場合と同様に、図１では、エンコーダ１２０及びデコーダ１３０は、トランスコーダ１００に接続されている。なお、トランスコーダ１１０の処理は、信号の符号化処理及び復号処理がいつの時点で実行されるかに関わらず実行される。更に、トランスコーダ１００に入力ビデオビットストリームを提供するメカニズム又はデコーダ１３０に出力ビデオビットストリームを提供するメカニズムは、トランスコーダ１００の動作には影響せず、トランスコーダ１００の動作には関連しない。実際には、例えば、入力ビデオビットストリーム及び出力ビデオビットストリームの何れかをハードディスク、ＲＡＭ又は他の記憶装置に保存してもよい。また、エンコーダ１２０は、ネットワーク接続を介して事前に符号化されたビデオを送信するサーバに置換してもよい。同様に、デコーダ１３０は、後の復号又はこの他の使用のために出力ビデオビットストリームを保存するサーバに置換してもよい。入力ビデオビットストリームをトランスコーダ１１０に提供し、又はトランスコーダ１１０の出力ビデオビットストリームを使用する他のメカニズムを用いてもよい。本明細書に開示するトランスコード技術は、ソース、配信メカニズム、又は入力ビットストリーム及び出力ビットストリームの用途の如何にかかわらず、これらの全てのケースに適用できる。

トランスコーダ１１０のトランスコード処理は、入力信号及び出力信号に関する所定のレート制約に応じて、可逆処理であっても不可逆処理であってもよい。可逆トランスコードとは、入力信号と出力信号の両方が所定のレート制約を満たすと共に、入力信号と出力信号が同一になることを意味する。不可逆トランスコードとは、入力信号と出力信号の両方が所定のレート制約を満たすが、入力信号と出力信号が同一にならないことを意味する。

Ｈ．２６４ＳＶＣ規格（例えば、引用により全体が本願に援用される「T. Wiegand, G. Sullivan, J. Reichel, H. Schwarz, M. Wien, eds., "Joint Draft 5: Scalable Video Coding," Joint Video Team, Doc.JVT-R201, Bangkok, Thailand, January 2005」参照）は、時間、ＳＮ比及び空間のスケーラビリティを符号化ビデオビットストリームに提供する。入力ＳＶＣビットストリームからのトランスコードとしては、出力ビデオフォーマットについて、以下のよう例示的なケースが考えられる。

・ＳＶＣビットストリームへのトランスコード
・Ｈ．２６４ビットストリームへのトランスコード
・Ｈ．２６３、ＭＰＥＧ２、Ｈ．２６１、ＭＰＥＧ４、又は他の何らかのビデオビットストリームフォーマット（Ｈ．２６４及びＳＶＣを除く）へのトランスコード
出力ＳＶＣビットストリームへのトランスコードとしては、入力ビデオフォーマットについて、以下のよう例示的なケースが考えられる。

・ＳＶＣビットストリームからのトランスコード
・Ｈ．２６４ビットストリームからのトランスコード
・Ｈ．２６３、ＭＰＥＧ２、Ｈ．２６１、ＭＰＥＧ４、又は他の何らかのビデオビットストリームフォーマット（Ｈ．２６４及びＳＶＣを除く）からのトランスコード
トランスコーダ１１０の設計及び動作に関する重要な検討事項は、エンコーダ（例えば、エンコーダ１２０）が、後のトランスコード処理を考慮に入れて、入力ビデオビットストリームを予測し、準備できるか否かという点である。ここでは、典型的な例として、ＳＶＣ符号化の場合、入力ビデオビットストリームがこのように準備され、Ｈ．２６４符号化の場合、このようには準備されないと考える。Ｈ．２６３、ＭＰＥＧ２、Ｈ．２６１、ＭＰＥＧ４、又は他の何らかのビデオビットストリームフォーマット（Ｈ．２６４及びＳＶＣを除く）については、入力ビデオビットストリームは、このようには準備されないと仮定する。なお、これらの規格間の著しい相違のために、エンコーダによるトランスコードプロセスの予測によって、トランスコード処理が単純化されることは期待されない。

図２は、トランスコーダ１１０において採用することができるトランスコード方法又は技術（「完全な復号／再符号化トランスコード（Full Decode/Re-encode Transcoding：ＦＤＲＴ）２００」）を示している。ＦＤＲＴ２００の処理は、ビットストリームのピクチャの完全な復号及び完全な再符号化を含む（すなわち、入力ビデオデコーダ２１０において、入力ビットストリームから復号されたピクチャを生成し、出力ビデオエンコーダ２２０において、このピクチャを符号化して、出力ビットストリームを生成する）。この手法は複雑であり、後述する他のトランスコードの手法（図３〜図７等）に比べて、大きな遅延を引き起こす。このような遅延特性のため、多くのアプリケーションでは、ＦＤＲＴ２００の使用を回避することが望ましい。しかしながら、所定のビットレート制約条件内で、大きく異なる出力ビデオビットストリームによってしか入力ビデオ信号を表すことができない場合等、ＦＤＲＴ２００を使用する必要がある場合もある。このような場合とは、２つの関係するコーデック（入力ビットストリーム及び出力ビットストリーム）の復号処理の大部分が異なる場合、又は入力ビットストリーム及び出力ビットストリームの特性（例えば、空間分解能、ＳＮ比分解能、符号化判定）が実質的に異なる場合等である。このような場合、トランスコード処理によって導入される入力ビデオエンコーダと出力ビデオデコーダとの間の大きなドリフトのために、最大限の又は完全な復号／再符号化処理が必要であり、又は望ましい。このドリフトは、ビデオ品質に劇的に影響し、ビデオ信号を実用的な品質に保つために、制御しなければならない。ドリフトの完全制御（すなわち、関係する全ての出力ビットストリーム符号化パラメータを調整する能力）は、完全な復号／再符号化トランスコード技術によってのみ実現される。

図２に示すように、トランスコードシステム１００は、ＦＤＲＴ２００において、デコーダ２１０とエンコーダ２２０との間で、好適に副情報を用いて、出力ビデオ符号化処理を向上させる。この副情報には、入力ビットストリームにおいて用いられているマクロブロックモード判定、量子化値、参照ピクチャ及び／又は動きベクトル等が含まれる。例えば、副情報の中の動きベクトルを用いることによって、ＦＤＲＴ２００だけではなく、信号変換処理を補うために動きベクトル情報を使用する本明細書に開示する他の全てのトランスコード処理において、ビデオ符号化に関連する複雑性を好適に排除又は低減できる。

図３は、本発明のトランスコード方法又は技術（「部分的な復号／再符号化トランスコード（Partial Decode/Re-encode Transcoding：ＰＤＲＴ）３００）を示している。ＰＤＲＴ３００は、入力ビデオデコーダ３１０における、入力ビットストリームでのピクチャの部分的な復号及び出力ビデオデコーダ３２０における、入力ビットストリームから得られた副情報を用いる再符号化を含む。ＰＤＲＴ３００では、入力ビットストリームを解析及び変更し、完全なチェインではなく、入力コーデックの復号処理及び出力コーデックの符号化処理の一部だけを呼び出す。ＰＤＲＴ３００は、ＦＤＲＴ２００に比べて、潜在的に複雑性が低く、生じる遅延も小さい。これらの改善の程度は、関連するコーデックの復号処理の類似性及び入力ビデオ信号特性と出力ビデオ信号特性との間の変化の量に依存する。ＰＤＲＴ３００は、出力ビデオビットストリームによって入力ビデオ信号を近似的に表現できる実例において、好適に用いることができる。この場合、トランスコードによって導入されるドリフトは、十分に小さく、出力ビデオビットストリームにおける符号化判定の一部のみを調整することによって、入力ビデオエンコーダにおいて、トランスコード処理を予測することによって、又はこれらの両方によって制御できる。

図３に示すように、トランスコードシステム１００は、ＰＤＲＴ３００において、デコーダ３１０とエンコーダ３２０との間で、好適に副情報を用いて、出力ビデオ符号化処理を向上させる。この副情報には、入力ビットストリームにおいて用いられているマクロブロックモード判定、量子化値、参照ピクチャ及び／又は動きベクトル等が含まれる。

図４は、本発明の他のトランスコード技術（「圧縮領域トランスコード（Compressed Domain Transcoding：ＣＤＴ）４００」）を示している。ＣＤＴ４００は、入力ビデオビットストリーム解析器４１０における入力ビデオビットストリームの符号化データ（入力ビデオシンタクス要素）の解析及び出力ビデオビットストリーム生成器４２０におけるこれらのデータの出力ビデオビットストリームの符号化データへのマッピングを含む。入力ビットストリームは、解析及び変更されるが、入力コーデック及び出力コーデックの復号処理は、何れも呼び出されない。ＣＤＴ４００は、ＦＤＲＴ２００及びＰＤＲＴ３００の両方に比べて、複雑性が低く、生じる遅延も小さい。ＣＤＴ４００は、出力ビデオビットストリームによって入力ビデオ信号を正確に表現できる実例において、好適に用いることができる。この場合、トランスコードによってドリフトは導入されず、又はトランスコードによって導入されるドリフトは、非常に小さく、入力ビデオエンコーダにおいて、トランスコード処理を予測することによって、制御できる。

図４に示すように、ＣＤＴ３００では、解析器４１０と生成器４２０との間で、好適に副情報を用いて、入力ビデオシンタクス要素のマッピングを向上させることができる。この副情報には、入力ビットストリームのシンタクス要素の全て又は一部を含ませてもよい。

通常、パケットの全体の削除を含む入力ビデオビットストリームの修正又は変更は、トランスコード技術とはみなされない。例えば、メディアゲートウェイにおいて、レシーバが望まない時間的階層に対応するＳＶＣビットストリームのパケットを削除する処理は、トランスコード処理とはみなされず、ビットストリームのスケーラビリティ機能の直接的な使用とみなされる。例外として、ＳＶＣストリームのベース層を抽出し、ＡＶＣに互換性があるストリームに変更する場合がある。ベース層のパケットは、符号化データを変更することなく、ＡＶＣ互換のＮＡＬユニット又はＳＶＣ互換のＮＡＬユニットにカプセル化することができる。ＳＶＣカプセル化は、ＡＶＣのみに対応するレシーバでは、復号できず、したがって、変換しなければならない。このような場合、トランスコーダ１００は、適切なハイレベルのトランスコード技術である「トランスポート層トランスコード」（Transport-Layer Transcoding：ＴＬＴ）を用いることができる。

ＳＶＣビットストリームをＨ．２６３、ＭＰＥＧ２、Ｈ．２６１、ＭＰＥＧ４、又は他の何らかのビデオビットストリームフォーマット（Ｈ．２６４及びＳＶＣを除く）にトランスコードするためには、通常、ＦＤＲＴを用いてトランスコードを行う必要がある。同様に、Ｈ．２６３、ＭＰＥＧ２、Ｈ．２６１、ＭＰＥＧ４、又は他の何らかのビデオビットストリームフォーマット（Ｈ．２６４及びＳＶＣを除く）をＳＶＣビットストリームにトランスコードするためには、通常、ＦＤＲＴを用いてトランスコードを行う必要がある。

以下では、ＳＶＣからＨ．２６４へのトランスコード、Ｈ．２６４からＳＶＣへのトランスコード及びＳＶＣからＳＶＣへのトランスコードのための技術について説明する。トランスコード処理は、出力ビットストリームのある特性に関する要求によって導かれる。ここでは、以下のトランスコードタイプを説明する。以下では、各タイプを特定するために、括弧付きの記号を使用する。

・所定の要求された時間分解能（Ｔ）
・所定の要求された品質分解能（Ｑ）
・所定の空間分解能（Ｓ）
・品質分解能及び時間分解能の所定の組合せ（Ｑ／Ｔ）
・空間分解能及び時間分解能の所定の組合せ（Ｓ／Ｔ）
・空間分解能、品質分解能、時間分解能の所定の組合せ（Ｑ／Ｓ／Ｔ）
これらのタイプのそれぞれについて、以下では、Ｈ．２６４からＳＶＣ（タイプ「＋」と表す。）、ＳＶＣからＨ．２６４、（タイプ「−」と表す。）及びＳＶＣからＳＶＣ（タイプ「＝」と表す）のフォーマット変換のタイプを説明する。変換のタイプを表す記号（＋、−、＝）と、トランスコードのタイプを表す記号（Ｔ、Ｑ、Ｓ、Ｑ／Ｔ、Ｓ／Ｔ、Ｑ／Ｓ／Ｔ）とを組み合わせることによって、本明細書に記載する様々な変換ケース及びトランスコードタイプ組合せを一意的に特定することができる。例えば、記号「Ｑ／Ｔ＋」は、要求された品質分解能及び時間分解能の所定の組合せを伴うＨ．２６４からＳＶＣへのトランスコードを表す。

まず、出力ビデオ信号の時間分解能について特別な要求がある出力ビットストリームへのトランスコードのケースを説明する（トランスコードタイプＴ）。ＳＶＣへのトランスコードでは、インター予測のための（時間スケーラビリティのための）特定の依存の構造へのトランスコードが要求される。空間分解能及びＳＮ比分解能は、入力ビットストリームと出力ビットストリームとの間で、同一であると仮定する。Ｈ．２６４及びＳＶＣは、ビデオ信号の時間分解能及びインター予測のための依存の構造を表現するための同じ基本的な能力を提供する。このため、トランスコードタイプＴの変換タイプ＋、−、＝のためのトランスコード処理のオプションは、比較的簡単であり、当分野において周知である。

ＳＶＣからＨ．２６４へのトランスコード（ケース「Ｔ−」）では、スケーラブルコンテンツ構造の更なるシグナリングを除いて、時間スケーラビリティは、Ｈ．２６４について下位互換性を有する。更に、ＳＶＣエンコーダが、例えば、時間スケーラビリティによって、要求された出力ビデオ解像度を予測する場合、トランスコード処理は、ＣＤＴ４００又はＴＬＴの何れかを用いることができる。時間スケーラビリティは、インター予測参照の依存構造によって実現される。トランスコードでは、他のピクチャの復号に必要でないピクチャは、除外することができる。ケース「Ｔ−」のトランスコードオプションは、当分野において周知である。

Ｈ．２６４からＳＶＣへのトランスコード（ケース「Ｔ＋」）では、Ｈ．２６４エンコーダがトランスコードを考慮できない場合、通常、ＦＤＲＴ２００又はＰＤＲＴ３００を用いなければならない。このようなケースとは、Ｈ．２６４エンコーダ入力の時間的予測構造が、出力における望まれる時間的予測構造（これによって時間スケーラビリティが実現される）に一致しない場合等である。入力ビデオ信号の時間的階層の幾つかが出力信号の時間的階層に一致するが、２つの信号において、上位の時間的階層の構造が異なる場合には、ＰＤＲＴ３００を用いることができる。この場合、一致する下位の層を変更なしで用いることができるが、上位の層のピクチャは、復号及び再符号化する必要がある。Ｈ．２６４エンコーダ入力の時間的予測構造が望まれる出力時間分解能の下位集合である場合、トランスコーダは、事前に符号化されたピクチャデータ（例えば、スキップピクチャ又はスキップマクロブロックデータ）を挿入して、要求に応じて、更なる時間スケーラビリティ層を生成することができ、出力ビデオ信号において望まれていない入力ビデオ信号の時間的階層を削除することができる。これは、トランスコーダにおいて追加的データが生成されるＣＤＴ４００の一形式である。入力信号の時間分解能が出力信号の所望の時間分解能に完全に一致するように、Ｈ．２６４エンコーダが、後のトランスコード処理を予測し、考慮に入れることができる場合、如何なる追加的データも生成しないＣＤＴ４００を採用することができる。

ＳＶＣからＳＶＣへのトランスコード（ケース「Ｔ＝」）では、ＳＶＣエンコーダが要求された出力ビデオ解像度を予測する場合、ケース「Ｔ＋」について説明したように、ＣＤＴ４００を用いてトランスコードを行うことができる。エンコーダが要求された出力ビデオ解像度を予測しない場合、ケース「Ｔ＋」と同様に、ＦＤＲＴを使用する必要がある。

次に、出力ビデオ信号のＳＮ比分解能について特別な要求がある出力ビットストリームへのトランスコードのケースを説明する（トランスコードタイプ「Ｑ」）。入力ビデオ信号のＳＮ比分解能は、出力ビデオ信号の要求されたＳＮ比分解能以下であると仮定してもよい。ＳＶＣへのトランスコードでは、（ＳＮ比スケーラビリティのための）一組の下位のＳＮ比分解能へのトランスコードも要求されることがある。時間分解能及び空間分解能は、入力ビットストリームと出力ビットストリームとの間で、同一であると仮定してもよい。

なお、ＳＶＣのＳＮ比分解能は、粗いスケーラビリティ（coarse-grain scalability：ＣＧＳ）及び細かいスケーラビリティ（fine-grain scalability：ＦＧＳ）の２つのメカニズムの何れかによって表現される。両方のメカニズムにおいて、ベース信号の画質を向上させるための更なる「エンハンス」信号が送信される。このエンハンス処理は、繰り返すことでき、この場合、第１のエンハンス信号がベース信号になり、第１のエンハンス／ベース信号を向上させるために、第２の更なるエンハンス信号が送信される。繰り返されるエンハンス処理は、（マクロブロック間又はマクロブロック内の）動きベクトルの精密化、残差信号の精密化及びその両方のための処理であってもよい。なお、下位の層のマクロブロックからマクロブロックタイプを予測してもよい。

動きベクトルの精密化は、更なる動きベクトルを送信して、先に送信されているベース動きベクトルに加算し、合計の又は結合された動きベクトルを生成する処理を含み、この動きベクトルは、Ｈ．２６４シンタクスを用いて正確に表現できる。例えば、図５に示すように、ベース層動きベクトル５２をエンハンスメント層動きベクトル５４に加算することによって、結合されたトータルの動きベクトル５６が生成され、これは、Ｈ．２６４シンタクスを用いて、正確に表現することができる。

残差信号の精密化は、更なる変換係数を送信して、先に送信されているベース変換係数に加算し、合計の変換係数を生成する処理を含み、この変換係数は、Ｈ．２６４シンタクスを用いて、近似的に表現することができる。例えば、図６に示すように、量子化されたベース層変換係数６２及びエンハンスメント層変換係数６４を加算することによって、ＳＶＣ変換係数の大きさを表す値を求めることができる。特定のＱＰ（Ｘ）の大きさを表す値は、Ｈ．２６４で正確に表現できる場合もあり、正確には表現できない場合もある。結合されたＳＶＣ変換係数値は、ＱＰ（量子化パラメータ）の特定の選択についてのみ正確に表現できる場合がある。図６は、例えば、図の右側のスケールに示すように、量子化値が５の場合の正確な表現ＱＰ（Ｘ’）を示している。ＱＰ（ＱＰ（Ｘ））の他の選択では、図の左側に示すように、結合されたＳＶＣ変換係数値は、量子化値２と３の間になる。マクロブロック間の残差信号及び動きベクトルは、互いに関連付けられ、すなわち、特定の動きベクトルを特定の残差信号に結合しなければならない。

所定の望まれる出力ＳＮ比分解能でのＳＶＣからＨ．２６４へのトランスコード（ケース「Ｑ−」）では、通常、ＰＤＲＴ３００を用いなければならない。但し、結合されたＳＶＣ変換係数レベルの和が、ビットレート制約内でＨ．２６４変換係数レベルによって表現できる値になる場合は、トランスコードにおいて、ＣＤＴ４００を用いることができる。この条件は、ＳＶＣエンコーダによって強制してもよく、この条件によって、トランスコーダの動作が非常に簡単になる。

要求されたＳＮ比分解能に対応するＳＶＣ動きベクトルは、（ベース層動きベクトルとエンハンスメント層動きベクトルとを加算することによって）生成され、出力ビットストリームエンコーダによって再符号化される。ＳＶＣ動きベクトルの生成及び再符号化は、エラーが導入されることのないＣＤＴ４００を用いて好適に実行できる。

ＳＶＣ残差変換係数、すなわち要求されたＳＮ比分解能に対応するＳＶＣ変換係数は、（ベース層変換係数及びエンハンスメント層変換係数を加算することによって）生成され出力ビットストリームエンコーダによって再符号化される。更に、ＳＶＣエンコーダを制御できるならば、ＣＧＳとＦＧＳを区別することは有用である。ＣＧＳが使用され、且つＳＶＣエンコーダが制御できる場合のみ、Ｈ．２６４シンタクス内に対応するカウンタパートを有する量子化された変換係数を選択できる。この対応性は、通常、Ｈ．２６４及びＳＶＣの量子化値の差分が６又は６の整数倍の場合に成立する。したがって、量子化値における差分がこれに該当すれば、トランスコードのためにＣＤＴ４００を用いることができる。一手法として、Ｈ．２６４ビットストリームのビットレートは高くなるが、ＳＶＣの変換係数レベルを正確に表すようにＨ．２６４の量子化パラメータを適切に選択することによって、トランスコードによるドリフトを回避することができる。ドリフトを回避するための他の手法として、ＳＶＣのビットレートは高くなるが、ＳＶＣにおける変換係数を再構築する規則を変更し、Ｈ．２６４におけるビットレート効率が高い表現を可能にしてもよい。これらの手法の両方によって、ドリフトを生じることなく、ＣＤＴ４００を用いてトランスコードを実行できる。２つの手法の何れも使用されない場合、通常、ＳＶＣ係数とＨ．２６４係数との間に差分が生じ、導入されたドリフトを追跡する必要がある。これは、ＰＤＲＴ３００を用いて実行できる。以下では、上で検討したケースの具体例について説明する。

出力ビットストリームエンコーダが、（例えば、図６に示すように、ＱＰ（Ｘ’）を用いて）ＳＶＣ変換係数を正確に表すことができる場合、入力ビデオエンコーダと出力ビデオデコーダとの間にドリフトは生じない。エンハンス層のＱＰとベース層のＱＰとの間の差分が６の整数倍となるように量子化パラメータを選択することによって、又は正確な表現のための条件が満たされるＳＶＣ量子化パラメータ及びＨ．２６４量子化パラメータの他の組を選択することによって、又はＳＶＣ生成規則（すなわち、ベース層変換係数及びエンハンスメント層変換係数から、最終的な変換係数をどのように決定するかを定める規則）を変更することによって、正確な表現を実現できる。規則の変更は、所定のビットレート制約内で、Ｈ．２６４の逆スケーリング法を用いて、得られるＳＶＣ変換係数が誤差なしで表現されるように行わなくてはならない。

この他の場合、すなわち、出力ビットストリームエンコーダが、（例えば、図６に示すように、ＱＰ（Ｘ）を用いて）ＳＶＣ変換係数を正確に表現できない場合、望ましくないドリフトが生じる。但し、入力ビデオエンコーダによりトランスコード処理を予測し、及びトランスコード処理によって生じる可能性がある偏差を予測することによって、又は適切な参照ピクチャ選択又はイントラ符号化によって、ドリフトを制御できる。入力ビデオエンコーダによるドリフトの制御は、ＰＤＲＴ３００及びＣＤＴ４００の手法を適用する場合に好ましい。入力ビデオエンコーダは、トランスコード処理の予測に基づき、Ｈ．２６４変換係数シンタクスを用いて正確に表現できる変換係数を選択することができる。これに代えて、入力ビデオエンコーダは、トランスコード処理の予測に基づき、Ｈ．２６４変換係数シンタクスを用いて、小さな誤差で表現できる変換係数を選択することができる。このために、ＳＶＣエンコーダは、量子化パラメータの許容値でどのレベルを表現できるかを知る必要がある。なお、許容値の組は、トランスコードのビットレート制約条件によって与えられる。量子化パラメータの値を小さくすれば、ＳＶＣ変換係数をより正確に表現できるが、Ｈ．２６４出力ビットストリームのビットレートが高くなる。ＳＶＣエンコーダは、多くの場合、どの量子化値を用いるか、及びどの精密値を用いるかを選択できる。このようなＳＶＣエンコーダは、小さな偏差のみしか生じない有利な選択を行うことができる。

本願と同じ譲受人に譲渡された国際特許出願ＰＣＴ／ＵＳ０６／０２８３６５号「System and Method for Scalable and Low-Delay Videoconferencing Using Scalable Video Coding」には、時間スケーラビリティを実現する手段として、時間的予測構造にスレッド化（threading）を導入している。更に、本願と同じ譲受人に譲渡された国際特許出願ＰＣＴ／ＵＳ０６／０６１８１５号「Systems and Method for Error Resilience and Random Access in Video Communication Systems」は、包括的には、スケーラブルビデオ符号化を用いるビデオ通信システムにおける改善されたエラー回復及びランダムアクセスのための技術を開示しており、詳しくは、スレッド化された予測構造を開示している。特に、この国際特許出願には、スケーラブル符号化されたビデオ信号の最下位の時間的階層に対応し、再伝送等の適切なトランスポート層技術を用いて、レシーバに確実に伝送されるピクチャである「ＬＲ」ピクチャが説明されている。

ここに開示されている又は同様のビデオ通信システムのエンコーダは、可能性があるトランスコードを予測し、時間的なレベルがより上位のピクチャ（Ｌ１、Ｌ２、…、ＬＮピクチャ）とは異なるように、ＬＲピクチャについて、ＳＶＣビットストリームを制限することを選択できる。ＬＲピクチャについては、好ましくは、ドリフトが全く生じないようにトランスコード法が選択され、圧縮領域のトランスコード処理（ＣＤＴ４００）を実行できるようにする。この選択により、ＬＲピクチャについては、幾つかの制約及びビットレートオーバヘッドが生じる。これに代えて、ドリフトが生じるようにＳＶＣビットストリームが生成される場合、ＰＤＲＴ３００の処理によってドリフトを判定し、低減する必要がある。

ＬＲピクチャではないピクチャについては、エンコーダは、自由にビットストリームの構造を選択でき、通常、変換係数レベルが正確に表現できるようなＳＶＣ表現を強制し、又はドリフトを生じさせないといった義務はない。この理由は、これらの（非ＬＲ）ピクチャは、時間的に入れ子にされ、これらの空間−時間的エラー伝搬は、非常に限定的であるためである。換言すれば、トランスコードの手法（ＦＤＲＴ、ＰＤＲＴ、ＣＤＴ）は、ピクチャ毎に選択することができる。また、この選択は、ピクチャがＬＲピクチャであるか否か、又はピクチャが空間又はＳＮ比分解能のエンハンスメントであるか否かに基づいて行うことができる。

ＰＤＲＴ３００を用いる場合、トランスコーダ（例えば、トランスコーダ１１０）自体でもドリフトを制御することができる。このような制御のために、トランスコーダは、現在のピクチャについて、動きベクトルを用いて、累積されたドリフトエラーを監視し、トランスコードされた（出力ビデオ信号の）参照ピクチャと、入力ビデオ参照ピクチャとの間の差分から動き補償を行ってもよい。トランスコーダは、現在のピクチャのＳＶＣ変換係数を概算する際、入力ビデオ信号のＳＶＣ変換係数に加算することによって、この動き補償された差分信号を考慮に入れる。このドリフト制御の手法は、当分野では周知である。

Ｈ．２６４からＳＶＣへのトランスコード（ケース「Ｑ＋」）では、通常、ＰＤＲＴ３００を用いてトランスコードを行う必要がある。この場合、最高の出力ビデオ品質に加えて、下位の出力ビデオ品質も要求されていると仮定してもよい。トランスコードのために、Ｈ．２６４の動きベクトルは、ＳＶＣビットストリームのベース層、エンハンスメント層、及び（場合によっては）残りの動きベクトルといった様々なＳＶＣ動きベクトルに分割することができる。幾つかの成分への分割は、空間的に行ってもよく、又は全てのＳＶＣ動きベクトル成分の合計がＨ．２６４動きベクトルとなるように行ってもよく、又はこれらの組合せによって実現してもよい。残りの動きベクトルは、ＳＶＣビットストリームの一部としては送信されない。

これに代えて、Ｈ．２６４変換係数を、ＳＶＣビットストリームのベース層、エンハンスメント層、及び（場合によっては）残りの変換係数といった様々なＳＶＣ変換係数に分割してもよい。幾つかの成分への分割は、周波数に基づいて行ってもよく、又は全てのＳＶＣ変換係数成分の合計がＨ．２６４変換係数となるように行ってもよく、又はこれらの組合せによって実現してもよい。残りの係数は、ＳＶＣビットストリームの一部としては送信されない。

上述した２つのケースの特別な分割は、以下に説明する意志決定のためのレート−歪み最適化アルゴリズムの一部であってもよい。

レート−歪み最適化アルゴリズムによって、入力Ｈ．２６４ビットストリームより低いＳＮ比を有する全ての再構築ポイントにおいて、効率的な分割を判定できる。ピクチャ内において、トランスコードは、イントラ符号化パートに影響することもあり、インター符号化パートに影響することもある。イントラ符号化パートについては、残差変換係数は、ベース層変換係数及びエンハンスメント層変換係数に分割してもよい。なお、Ｈ．２６４入力ビットストリームに等しいエンハンスメント層を有する２層の具体例では、ベース層係数は、好ましくは、Ｈ．２６４量子化値に６を加えた量子化値で符号化される。この係数は、６が加えられた量子化値を用いてＨ．２６４入力変換係数を量子化することによって得られる。ＳＶＣの量子化値は、通常、「レート−歪み最適化（Rate-Distortion Optimization：ＲＤＯ）」と呼ばれる処理によって選択される。この処理では、量子化値は、Ｄ＋λ＊Ｒを最小化することによって選択される。ここで、トランスコードＤは、Ｈ．２６４入力とＳＶＣ出力との間のドリフトに対応し、Ｒは、ＳＶＣ出力のレートに対応し、λは、ＤとＲの間のトレードオフを提供するラグランジュパラメータ（正値）である。したがって、トランスコーダは、出力表現のための様々なオプションに亘ってＤ＋λ＊Ｒを最小化するように動作してもよい。ＳＶＣでは、イントラ予測は、ベース層のみで実行されるため、イントラトランスコードによって、ドリフトが生成される。このドリフトを回避するオプションは、ＳＶＣにおけるイントラ予測を変更し、エンハンスメント層内の参照サンプルも使用することである。

インター符号化のためのレート−歪み最適化アルゴリズムにおける手法は、ドリフトを制御する必要があるイントラ符号化におけるトランスコードのケースと同様である。インター符号化の場合、Ｄ＋λ＊Ｒの最小化は、一組の動きベクトルも含む。残差変換係数は、ベース層変換係数及びエンハンスメント層変換係数に分割される。なお、Ｈ．２６４入力ビットストリームに等しいエンハンスメント層を有する２層の具体例では、ベース層係数は、好ましくは、Ｈ．２６４量子化値に６を加えた量子化値で符号化される。この係数は、６が加えられた量子化値を用いてＨ．２６４入力変換係数を量子化することによって得られる。また、動きベクトルも、ベース層動きベクトル及びエンハンスメント層動きベクトルに分割される。上述と同様に、量子化値は、Ｄ＋λ＊Ｒを最小化することによって量子化値を選択するＲＤＯ処理によって選択される。ここで、トランスコードＤは、Ｈ．２６４入力とＳＶＣ出力との間のドリフトに対応し、Ｒは、ＳＶＣ出力のレートに対応し、λは、ＤとＲの間のトレードオフを提供するラグランジュパラメータ（正値）である。したがって、トランスコーダは、出力表現のための様々なオプションに亘ってＤ＋λ＊Ｒを最小化するように動作してもよい。

要約すれば、トランスコードの準備のために、ＳＶＣエンコーダは、Ｈ．２６４入力分解能と同じではない、出力のために要求されている様々なＳＮ比分解能のためのハイブリッド符号化ループを閉じる必要がある。様々なＳＮ比分解能は、Ｈ．２６４動きベクトル及びＨ．２６４変換係数の分割に対応する。したがって、（入力分解能とは異なる）特定のＳＮ比分解能では、動き補償されたＳＮ比分解能と現在のＳＮ比分解能との間でドリフトが生じる。ドリフトは、ＳＶＣ変換係数が失われるために生じ、映像の歪みを回避するためには、これを追跡し、補償する必要がある。更に、ＳＶＣエンコーダにおいて、デブロッキングフィルタを調整して使用することによって、ドリフトを最小化するようにしてもよい。本発明では、この追跡を各層内で実行し、レート−歪み最適化を用いて、パフォーマンスを最適化する。

ＳＶＣからＳＶＣへのトランスコード（ケース「Ｑ＝」）では、トランスコードにおいて、ＰＤＲＴ３００の手法を用いる必要がある。この場合、最高の入力ビデオ品質より低い最高の出力ビデオ品質に加えて、下位の出力ビデオ品質も要求されていると仮定してもよい。下位の出力ビデオ品質が、下位の入力ビデオ品質と同じである場合、最高のビデオ品質のトランスコードは、Ｈ．２６４からＳＶＣへのトランスコード（ケース「Ｑ＋」）について上述したレートシェーピング又は最適化アルゴリズムと同様である。ケース「Ｑ＝」における相違は、Ｈ．２６４の変換係数又は変換係数予測誤差が、最上位の層の係数精密値を含む場合があり、同様に、Ｈ．２６４の動きベクトル及び動きベクトル予測誤差が、最上位の層の動きベクトル精密値を含む場合がある点である。ＳＶＣからＳＶＣへの他の全てのトランスコードのケースには、同様の相違が存在する。なお、トランスコーダは、必要であれば、出力ビデオ信号の要求によって（例えば、最高の時間スケーラビリティ層より低い層が望まれる場合）、トランスコードの前に、入力ビデオ信号のより上位の層の幾つかを削除してもよい。

次に、出力ビデオ信号の空間分解能について特別な要求がある出力ビットストリームへのトランスコードのケース（トランスコードタイプ「Ｓ」）を説明する。ＳＶＣへのトランスコードを行う場合、（空間スケーラビリティについて）一組の下位の空間分解能へのトランスコードも要求されると仮定してもよい。時間分解能及びＳＮ比分解能は、入力ビットストリームと出力ビットストリームの間で同じであると仮定してもよい。

ＳＶＣにおける複数の空間分解能の表現は、ＳＮ比スケーラビリティと同様の手法で（すなわち、マクロブロックタイプ、動きベクトル、イントラコンテンツ及びインター符号化残差の予測によって）実現される。複数の空間分解能の表現における唯一の相違は、下位の層の符号化データを、使用することが望まれる上位の分解能にスケーリング又はアップサンプリングする必要があるという点である。マクロブロックタイプ及び動きベクトルの予測は、ビットレートを低減するために設計された可逆処理であり、Ｈ．２６４シンタクスを用いて正確に表現することができる。動きベクトル精密値は、送信された更なる動きベクトルから構成され、この更なる動きベクトルは、先に送信及びスケーリングされているベース動きベクトルに加算され、これにより得られる動きベクトルは、Ｈ．２６４シンタクスを用いて正確に表現することができる。イントラコンテンツ予測では、ベース層からのイントラ符号化された信号をアップサンプリングし、ベース層信号は、Ｈ．２６４に準拠するイントラマクロブロックの予測であってもよく、後述するように、ＳＶＣに準拠するイントラマクロブロックの表現であってもよい。

なお、Ｈ．２６４に準拠するイントラマクロブロックは、４×４、８×８又は１６×１６の輝度画素ブロックサイズに基づいて動作する空間予測子と、これに続く符号化された残差信号と、オプションとして、これに続くイントラマクロブロックのデブロッキングとから構成される。ＳＶＣに準拠するイントラマクロブロックは、Ｈ．２６４に準拠するイントラマクロブロックと、これに続く、残差信号とから構成され、残差信号は、アップサンプリングされたＨ．２６４に準拠する又はＳＶＣに準拠するイントラマクロブロックによって形成される予測子に、ＳＮ比エンハンスメントとして加算される。Ｈ．２６４又はＳＶＣに準拠するイントラマクロブロックからの予測を用いて符号化されるＳＶＣに準拠するマクロブロックの変換係数は、Ｈ．２６４シンタクスを用いて近似的に表現できる。

インター符号化残差予測では、ベース層からのインター符号化残差をアップサンプリングし、これに続いて、ＳＮ比エンハンスメントとして、予測子に残差信号を加算する。

ＳＶＣからＨ．２６４へのトランスコード（ケース「Ｓ−」）では、トランスコードにおいて、通常、ＰＤＲＴ３００を用いる必要がある。トランスコードのために、要求されたＨ．２６４空間分解能に最も近いＳＶＣの空間層がビットストリームから抽出される。このＳＶＣ層の空間分解能が要求されたＨ．２６４空間分解能と同じである場合（これは、トランスコードを予測するＳＶＣエンコーダによって確認できる）、トランスコードにおいて、ＰＤＲＴ３００を用いることができる。この他の場合、すなわち、２つの層の空間分解能が異なる場合、トランスコードにおいて、完全な復号／再符号化処理を必要となることがある。

トランスコードにおいて、部分的な復号／再符号化処理が使用される場合（例えば、ＰＤＲＴ３００技術を用いる場合）、マクロブロックは、Ｈ．２６４シンタクスを用いては表現できず、トランスコードする必要がある。これらのマクロブロックは、主に、Ｉｎｔｒａ＿ＢＬ予測及び残差予測を含むマクロブロックである。これにより得られる変換係数は、Ｈ．２６４シンタクスを用いて近似させる必要がある。更に、このような場合、トランスコーダによってドリフトを制御する必要がある。これは、所定の出力品質分解能のためのＳＶＣからＨ．２６４へのトランスコード（ケース「Ｑ」）について上述した手法と同様の手法で実行できる。ドリフトを制御するために、所定のレート制約条件について、各層に適用されるレート−歪み最適化アルゴリズムによって、入力と出力との間の差分を最小化してもよい。このアルゴリズムは、通常、（インター符号化及びイントラ符号化のための）量子化パラメータ及び（インター符号化のみのための）動きベクトルを可能な変数として、上述したものと同様のアルゴリズムであってもよい。

Ｈ．２６４からＳＶＣへのトランスコード（ケース「Ｓ＋」）では、トランスコードにおいて、ＦＤＲＴ２００を用いる必要がある。但し、トランスコード処理を改善するために、Ｈ．２６４からの幾つかの動きベクトルを再使用してもよい。

ＳＶＣからＳＶＣへのトランスコード（ケース「Ｓ＝」）では、トランスコードにおいて、ＦＤＲＴ２００を用いてもよく、ＰＤＲＴ３００を用いることも可能である。この場合、要求される出力ビデオ解像度は、使用可能な入力ビデオ解像度より高くても低くてもよい（例えば、ＣＳＶＣＳにおいて、１つのビデオ信号のピクチャサイズを２０％大きくする）。トランスコードの基礎となる入力空間分解能は、要求された出力分解能に最も近い下位の空間分解能になるように選択される。トランスコード処理では、下位の分解能（例えば、２０％）からの適切なスケーリング係数を含む予測子を生成する。符号化される元の信号は、アップサンプリングされた下位の分解能の信号であってもよく、（使用可能であれば）ダウンサンプリングされた上位の分解能の信号であってもよい。ＳＶＣ再符号化は、下位の層の予測情報及びドリフトを補償するために符号化された残差を再使用することによって実行してもよい。

通常は、動き推定を避けることができる。

続いて、出力ビデオ信号のＳＮ比分解能及び時間分解能について特別な要求がある出力ビットストリームへのトランスコードのケース（トランスコードタイプ「Ｑ／Ｔ」）を説明する。この場合、ＳＶＣへのトランスコードを行う際、（ＳＮ比スケーラビリティ及び時間スケーラビリティのために）一組の下位のＳＮ比分解能及び時間分解能が要求される場合がある。入力ビットストリームと出力ビットストリームとの間で、空間分解能は同じであると仮定してもよい。

ＳＶＣからＨ．２６４へのトランスコード（ケース「Ｑ／Ｔ−」）では、ＳＶＣエンコーダは、要求された時間的な出力分解能を予測すると仮定してもよい。したがって、トランスコードケース「Ｑ−」のための手法及び技術をケース「Ｑ／Ｔ−」に適用できる。

Ｈ．２６４からＳＶＣへのトランスコード（ケース「Ｑ／Ｔ＋」）では、Ｈ．２６４入力ビットストリームにおいて階層的な時間的予測構造が使用されていない場合、トランスコードにおいて、ＦＤＲＴ２００を用いる必要がある。階層的な時間的予測構造が使用されている場合は、ＰＤＲＴ３００を含むＱ＋のトランスコードケースに適用可能なトランスコードの手法及び技術を適用でき、又はピクチャ毎にトランスコード技術の適用を切り替えてもよい。階層的な時間的予測構造が使用されていない場合、トランスコーダは、ＳＮ比スケーラビリティについて符号化効率を向上させるために、このような階層的な時間的予測構造を挿入してもよい。

ＳＶＣからＳＶＣへのトランスコード（ケース「Ｑ／Ｔ＝」）では、ＳＶＣエンコーダは、要求された時間的な出力分解能を予測すると仮定してもよい。したがって、ケース「Ｑ＝」のための手法をケース「Ｑ／Ｔ＝」に適用できる。

スケーラブルな時間的階層が使用されている場合、圧縮領域におけるトランスコードの実施の形態（例えば、ＣＤＴ４００）と、完全な復号／再符号化の実施の形態及び部分的な復号／再符号化の実施の形態（例えば、ＦＲＤＴ２００及びＰＲＤＴ３００）とを組み合わせることが実用的であり、望ましいことがある。例えば、ＳＶＣからの時間的なベース層を複製してもよく、時間的なエンハンスメント層は、部分的な復号／再符号化の実施の形態又は圧縮領域の実施の形態を用いて、トランスコードしてもよく、又は、例えば、スキップされたピクチャ等の他の予め符号化されたビットストリームによって置換してもよい。

続いて、出力ビデオ信号の空間分解能及び時間分解能について特別な要求がある出力ビットストリームへのトランスコードのケース（トランスコードタイプ「Ｓ／Ｔ」）を説明する。ＳＶＣへのトランスコードを行う際、（空間的スケーラビリティ及び時間スケーラビリティのために）一組の下位の空間分解能及び時間分解能が要求される場合がある。入力ビットストリームと出力ビットストリームとの間で、ＳＮ比分解能は同じであると仮定してもよい。

ＳＶＣからＨ．２６４へのトランスコード（ケース「Ｓ／Ｔ−」）では、ＳＶＣエンコーダは、要求された時間的な出力分解能を予測すると仮定してもよい。したがって、トランスコードケース「Ｓ−」のための手法及び技術をケース「Ｓ／Ｔ−」に適用できる。

Ｈ．２６４からＳＶＣへのトランスコード（ケース「Ｓ／Ｔ＋」）では、トランスコードにおいて、ＦＤＲＴ２００を用いる必要がある。

ＳＶＣからＳＶＣへのトランスコード（ケース「Ｓ／Ｔ＝」）では、ＳＶＣエンコーダは、要求された時間的な出力分解能を予測すると仮定してもよい。したがって、ケース「Ｓ＝」のための手法をケース「Ｓ／Ｔ＝」に適用できる。

最後に、トランスコードケース「Ｓ／Ｑ／Ｔ」について説明する。このようなケースのトランスコードは、本発明の原理に基づき、タイプ「Ｑ／Ｔ」を適用し、これに続いて「Ｓ」又は「Ｓ／Ｔ」を適用し、次に「Ｑ」を適用することによって行うことができる。ケース「Ｑ／Ｔ」、「Ｓ」、「Ｓ／Ｔ」、「Ｑ」のためのトランスコードについては、上述した通りである。したがって、説明を簡潔にするために、ケース「Ｓ／Ｑ／Ｔ」のためのトランスコードについては、同様の記述を繰り返さない。

上述した全ての組合せのためのトランスコーダは、ビットストリームのエラー回復力を高める又は低めるシンタクス要素を挿入するように動作してもよい。このようなシンタクス要素には、マクロブロックモード（イントラマクロブロック及びインターマクロブロック）、イントラ予測信号、動きベクトル及び残差変換係数等が含まれる。更に、トランスコーダは、ビットストリームにスライスを追加してもよく、ビットストリームからスライスを削除してもよい。

上述した全ての組合せのためのトランスコーダは、異なるネットワークを介して送信されるようにビットストリームを調整できる。これらのネットワークには、ＲＴＰ／ＩＰ、ＩＳＤＮ及びＨ．３２４Ｍ回路交換網が含まれる。トランスコーダは、エラー回復のためにシンタクス要素を調整してもよく、ＭＴＵサイズ制限又は伝送エラーのための調整、及び他の理由のためにスライスのサイズを変更してもよい。

上述した全ての組合せのためのトランスコーダは、ＳＶＣ及びＨ．２６４の異なるプロファイルに適合するように、ビットストリームを調整できる。

出力ビットストリームがＳＶＣ規格に準拠する場合、トランスコーダにＣＳＶＣＳの機能（本願と同じ譲受人に譲渡された国際特許出願ＰＣＴ／ＵＳ０６／６２５６９号に開示されている。）を結合してもよい。この構成では、トランスコーダは、（Ｈ．２６１、Ｈ．２６３、Ｈ．２６４又はＳＶＣに基づいて符号化された）複数の入力ビットストリームを受信し、上述した全ての変換技術（Ｔ＋、Ｑ＋、Ｓ＋、Ｑ／Ｔ＋、Ｓ／Ｔ＋、Ｓ／Ｑ／Ｔ＋）を適用した後、標準のＣＳＶＣＳ技術を用いて、単一のＳＶＣ出力ビットストリームに結合するように動作してもよい。

ここに開示した好ましい実施の形態は、Ｈ．２６４ＳＶＣドラフト仕様書に基づいているが、本発明の技術は、空間、品質又は時間のスケーラビリティを提供する如何なる符号化構造にも直接適用できることは、当業者にとって明らかである。

更に、本発明のシステム及び方法において、ここに開示したトランスコード技術は、ハードウェア及びソフトウェアの適切な如何なる組合せを用いて実現してもよい。上述したトランスコード技術を実現し、動作させるソフトウェア（すなわち、命令）は、コンピュータにより読取可能な媒体を介して提供でき、このような媒体は、以下に限定されるわけではないが、ファームウェア、メモリ、ストレージ装置、マイクロコントローラ、マイクロプロセッサ、集積回路、ＡＳＩＣＳ、オンラインでダウンロード可能なメディア及び他の利用可能なメディアを含むことができる。

本発明の原理に基づくトランスコードシステムの総合的なアーキテクチャを示すブロック図である。本発明の原理に基づく完全な復号及び再符号化を用いる例示的なトランスコードシステムを示すブロック図である。本発明の原理に基づく部分的な復号及び再符号化を用いる例示的なトランスコードシステムを示すブロック図である。本発明の原理に基づく圧縮領域における処理を用いる例示的なトランスコードシステムを示すダイヤグラムである。本発明の原理に基づき、ベース層動きベクトルとエンハンスメント層動きベクトルの加算によって、変換されたＳＶＣ動きベクトルを生成する例示的な処理を説明する図である。本発明の原理に基づき、ベース層変換係数とエンハンスメント層変換係数の加算によって、変換されたＳＶＣ変換係数を生成する例示的な処理を説明する図である。

Claims

少なくとも１つのデジタルビデオ信号入力及び少なくとも１つのデジタルビデオ信号出力を有するビデオ処理ユニット（「トランスコーダ」）を備え、
前記トランスコーダの入力ビデオ符号化フォーマットは、ＳＶＣでり、前記トランスコーダの出力ビデオ符号化フォーマットは、Ｈ．２６４であり、
前記トランスコーダは、異なる層において個別に符号化されている、前記少なくとも１つのデジタルビデオ信号入力の個々の層符号化パラメータを復号及び結合し、前記少なくとも１つの出力ビデオ信号において、前記少なくとも１つのデジタルビデオ信号出力が、入力品質分解能以下の所望の品質分解能を有するように、前記結合されたパラメータを単一の値に符号化するデジタルビデオ信号処理システム。
前記個々の層符号化パラメータは、変換係数データを含む請求項１記載のデジタルビデオ信号処理システム。
前記個々の層符号化パラメータは、動きベクトルデータを含む請求項１記載のデジタルビデオ信号処理システム。
入力ビデオ信号の符号化において、周期的なイントラマクロブロック及びスレッド化された時間的予測構造のうちの少なくとも１つを用いて、トランスコードドリフトを最小化する請求項１記載のデジタルビデオ信号処理システム。
少なくとも１つのデジタルビデオ信号入力及び少なくとも１つのデジタルビデオ信号出力を有するビデオ処理ユニット（「トランスコーダ」）と、
少なくとも１つの入力ビデオエンコーダと、
前記少なくとも１つの入力ビデオエンコーダを前記トランスコーダにリンクする電子通信ネットワークとを備え、
前記入力ビデオエンコーダのビデオ符号化フォーマットは、ＳＶＣであり、前記トランスコーダの入力ビデオ符号化フォーマットは、ＳＶＣであり、前記トランスコーダの出力ビデオ符号化フォーマットは、Ｈ．２６４であり、
前記入力ビデオエンコーダは、更に、ＳＶＣ符号化データに含まれる少なくとも１つのピクチャについて、ＳＶＣ符号化データがＨ．２６４によって正確に表現されるように構成され、
前記トランスコーダは、更に、異なる層において個別に符号化されている、前記少なくとも１つの入力信号の個々の層符号化パラメータを復号及び結合し、前記少なくとも１つの出力ビデオ信号において、前記少なくとも１つの出力ビデオ信号が、入力品質分解能以下の所望の品質分解能を有するように、前記結合されたパラメータを単一の値に符号化するデジタルビデオ信号処理システム。
前記個々の層符号化パラメータは、変換係数データを含む請求項５記載のデジタルビデオ信号処理システム。
前記個々の層符号化パラメータは、動きベクトルデータを含む請求項５記載のデジタルビデオ信号処理システム。
前記入力ビデオエンコーダは、更に、連続するＳＶＣ層におけるブロックの変換係数データのＱＰ差分が６の倍数となるように構成されている請求項５記載のデジタルビデオ信号処理システム。
前記入力ビデオエンコーダは、更に、少なくとも最下位の時間的階層（ＬＲ）のピクチャについて、ＳＶＣ符号化データがＨ．２６４によって正確に表現されるように構成されている請求項５記載のデジタルビデオ信号処理システム。
少なくとも１つのデジタルビデオ信号入力及び少なくとも１つのデジタルビデオ信号出力を有するビデオ処理ユニット（「トランスコーダ」）を備え、
前記トランスコーダの入力ビデオ符号化フォーマットは、Ｈ．２６４であり、前記トランスコーダの出力ビデオ符号化フォーマットは、ＳＶＣであり、
前記トランスコーダは、少なくとも１つの入力信号の個々の層符号化パラメータを複数のコンポーネントに分割し、少なくとも１つの出力ビデオ信号が、少なくとも、入力品質分解能より低い所望の品質分解能を有するように、少なくとも１つの出力ビデオ信号の異なる層に亘って、前記複数のコンポーネントの全部又は一部を個別に符号化するデジタルビデオ信号処理システム。
前記個々の層符号化パラメータは、変換係数データを含む請求項１０記載のデジタルビデオ信号処理システム。
前記変換係数データの分割されたコンポーネントは、異なる周波数に対応する係数データ、互いに加算されると元の係数データ値になる値の組、及びこれらの組合せのうちの少なくとも１つを含む請求項１１記載のデジタルビデオ信号処理システム。
前記少なくとも１つの出力ビデオ信号の層における変換係数データの符号化は、連続する層におけるブロックのＱＰ差分が６の倍数となるように行われる請求項１１記載のデジタルビデオ信号処理システム。
前記個々の層符号化パラメータは、動きベクトルデータを含む請求項１０記載のデジタルビデオ信号処理システム。
前記動きベクトルデータの分割されたコンポーネントは、異なる空間的位置に対応する動きベクトルデータ、互いに加算されると元の動きベクトルデータになる値の組、及びこれらの組合せのうちの少なくとも１つを含む請求項１４記載のデジタルビデオ信号処理システム。
前記トランスコーダは、更に、各層内のドリフトに対応する歪みに基づき、各層内でレート−歪み最適化を用いて、少なくとも１つの入力信号の個々の層符号化パラメータを分割する請求項１０記載のデジタルビデオ信号処理システム。
前記入力ビデオ信号の符号化フォーマットは、更に、エンハンスメント層において基準サンプルを用いてイントラ予測を実行してトランスコードドリフトを除去するように構成されている請求項１０記載のデジタルビデオ信号処理システム。
少なくとも１つのデジタルビデオ信号入力及び少なくとも１つのデジタルビデオ信号出力を有するビデオ処理ユニット（「トランスコーダ」）を備え、
前記トランスコーダの入力ビデオ符号化フォーマットは、ＳＶＣであり、前記トランスコーダの出力ビデオ符号化フォーマットは、ＳＶＣであり、前記入力ビデオ符号化フォーマットの最上位の層を除いて、入力ビデオ符号化フォーマットと同じ空間分解能、時間分解能及び品質分解能を有し、
前記トランスコーダは、少なくとも１つの入力信号の最上位の層符号化パラメータを複数のコンポーネントに分割し、少なくとも１つの出力ビデオ信号が、少なくとも１つの入力ビデオ信号の最上位の層の品質分解能より低い所望の品質分解能を有するように、少なくとも１つの出力ビデオ信号の異なる層に亘って、前記複数のコンポーネントの全部又は一部を個別に符号化するデジタルビデオ信号処理システム。
前記個々の層符号化パラメータは、変換係数データ及びその精密値を含む請求項１８記載のデジタルビデオ信号処理システム。
前記変換係数データの分割されたコンポーネントは、異なる周波数に対応する変換係数又はその精密値、互いに加算されると元の係数又は精密値になる値の組、及びこれらの組合せのうちの少なくとも１つを含む請求項１９記載のデジタルビデオ信号処理システム。
前記少なくとも１つの出力ビデオ信号の層における変換係数又はその精密値の符号化は、連続する層におけるブロックのＱＰ差分が６の倍数となるように行われる請求項１９記載のデジタルビデオ信号処理システム。
前記個々の層符号化パラメータは、動きベクトルデータ又はその精密値を含む請求項１８記載のデジタルビデオ信号処理システム。
前記動きベクトルデータの分割されたコンポーネントは、異なる空間的位置に対応する動きベクトルデータ又はその精密値、互いに加算されると元の動きベクトルデータ又は精密値になる値の組、及びこれらの組合せのうちの少なくとも１つを含む請求項２２記載のデジタルビデオ信号処理システム。
前記トランスコーダは、更に、各層内のドリフトに対応する歪みに基づき、各層内でレート−歪み最適化を用いて、少なくとも１つの入力信号の個々の層符号化パラメータを分割する請求項１８記載のデジタルビデオ信号処理システム。
前記入力ビデオ信号の符号化フォーマットは、更に、エンハンスメント層において基準サンプルを用いてイントラ予測を実行してトランスコードドリフトを除去するように構成されている請求項１８記載のデジタルビデオ信号処理システム。
少なくとも１つのデジタルビデオ信号入力及び少なくとも１つのデジタルビデオ信号出力を有するビデオ処理ユニット（「トランスコーダ」）を備え、
前記トランスコーダの入力ビデオ符号化フォーマットは、ＳＶＣであり、前記トランスコーダの出力ビデオ符号化フォーマットは、Ｈ．２６４であり、入力ビデオ符号化フォーマットが提供する空間分解能内にある空間分解能を有し、
前記トランスコーダは、異なる層において個別に符号化されている、前記少なくとも１つの入力信号の個々の層符号化パラメータを復号及び結合し、出力ビデオ符号化フォーマットにおいて、同等なシンタクスが使用可能である場合、少なくとも１つの出力ビデオ信号において、前記結合されたパラメータを単一の値に符号化し、出力ビデオ符号化フォーマットにおいて、正確な符号化を使用できない場合、少なくとも１つの出力ビデオ信号において、前記結合されたパラメータの近似値を符号化するデジタルビデオ信号処理システム。
前記個々の層符号化パラメータは、変換係数データを含む請求項２６記載のデジタルビデオ信号処理システム。
前記個々の層符号化パラメータは、動きベクトルデータを含む請求項２６記載のデジタルビデオ信号処理システム。
前記トランスコーダは、更に、ドリフトに対応する歪みに基づき、レート−歪み最適化を用いて、少なくとも１つの入力ビデオ信号の結合されたパラメータの近似値を符号化する請求項２６記載のデジタルビデオ信号処理システム。
入力ビデオ信号の符号化において、周期的なイントラマクロブロック及びスレッド化された時間的予測構造のうちの少なくとも１つを用いて、トランスコードドリフトを最小化する請求項２６記載のデジタルビデオ信号処理システム。
少なくとも１つのデジタルビデオ信号入力及び少なくとも１つのデジタルビデオ信号出力を有するビデオ処理ユニット（「トランスコーダ」）を備え、
前記トランスコーダの入力ビデオ符号化フォーマットは、ＳＶＣであり、前記トランスコーダの出力ビデオ符号化フォーマットは、ＳＶＣであり、入力ビデオ符号化フォーマットと同じ時間分解能及び品質分解能、並びに出力ビデオ符号化フォーマットの望まれる最高の空間分解能（「望まれる出力分解能」）に最も近い空間分解能以下の入力ビデオ符号化フォーマットの空間分解能（「最も近い入力分解能」）を有し、
前記トランスコーダは、前記望まれる出力分解能に最も近い入力分解能を有する入力ビデオ信号層を適切にアップサンプリング又はダウンサンプリングし、望まれる出力分解能に適切にスケーリングされ、導入されたドリフトを補償するように符号化された残差を含む最も近い入力分解能を有する前記入力ビデオ信号層の符号化データからの予測子を用いて、前記アップサンプリング又はダウンサンプリングされたデータを符号化するように構成されているデジタルビデオ信号処理システム。
前記トランスコーダは、更に、ドリフトに対応する歪みに基づき、レート−歪み最適化を用いて、残差を符号化する請求項３１記載のデジタルビデオ信号処理システム。
前記入力ビデオ信号の符号化において、周期的なイントラマクロブロック及びスレッド化された時間的予測構造のうちの少なくとも１つを用いて、トランスコードドリフトを最小化する請求項３１記載のデジタルビデオ信号処理システム。
前記予測子は、動きベクトルデータを含む前記少なくとも１つの出力ビデオ信号の符号化は、更なる動き推定を実行することなく行われる請求項３１記載のデジタルビデオ信号処理システム。
少なくとも１つのデジタルビデオ信号入力及び少なくとも１つのデジタルビデオ信号出力を有するビデオ処理ユニット（「トランスコーダ」）を備え、
前記トランスコーダの入力ビデオ符号化フォーマットは、時間スケーラビリティをサポートし、前記トランスコーダの出力ビデオ符号化フォーマットは、時間スケーラビリティをサポートし、入力ビデオ符号化フォーマットの時間分解能の少なくとも１つが出力ビデオ符号化フォーマットの所望の時間分解能に含まれており、
前記トランスコーダは、如何なる所望の出力時間分解能にも対応しない少なくとも１つの入力ビデオ信号の層を不要な時間的階層として削除することによって、少なくとも１つの出力ビデオ信号について時間分解能の所望の組を生成し、データが所望の出力時間分解能に対応する場合、少なくとも１つの入力ビデオ信号からのデータを少なくとも１つの出力ビデオ信号ピクチャデータにコピーし、少なくとも１つの入力ビデオ信号に存在していない所望の出力時間分解能について予め符号化された情報を送信するデジタルビデオ信号処理システム。
前記予め符号化された情報は、スキップデータから構成される請求項３５記載のデジタルビデオ信号処理システム。
少なくとも１つのデジタルビデオ信号入力及び少なくとも１つのデジタルビデオ信号出力をトランスコードする方法において、入力ビデオ符号化フォーマットがＳＶＣであり、出力ビデオ符号化フォーマットがＨ．２６４であり、当該方法は、
異なる層において個別に符号化されている、前記少なくとも１つのデジタルビデオ信号入力の個々の層符号化パラメータを復号及び結合するステップと、
前記少なくとも１つの出力ビデオ信号において、前記少なくとも１つのデジタルビデオ信号出力が、入力品質分解能以下の所望の品質分解能を有するように、前記結合されたパラメータを単一の値に符号化するステップとを有する方法。
前記個々の層符号化パラメータは、変換係数データを含む請求項３７記載の方法。
前記個々の層符号化パラメータは、動きベクトルデータを含む請求項３７記載の方法。
前記入力ビデオ信号の符号化において、周期的なイントラマクロブロック及びスレッド化された時間的予測構造のうちの少なくとも１つを用いて、トランスコードドリフトを最小化するステップを更に有する請求項３７記載の方法。
トランスコーダにおいて、少なくとも１つのデジタルビデオ信号出力にトランスコードするために、電子通信ネットワークを介して、トランスコーダに、少なくとも１つのデジタルビデオ信号入力を符号化する方法において、入力ビデオ符号化フォーマットは、ＳＶＣであり、出力ビデオ符号化フォーマットは、Ｈ．２６４であり、当該方法は、
ＳＶＣ符号化データに含まれる少なくとも１つのピクチャがＨ．２６４によって正確に表現できるＳＶＣ符号化データとして、少なくとも１つのデジタルビデオ信号入力を符号化するステップと、
前記トランスコーダにおいて、異なる層において個別に符号化されている、前記少なくとも１つのデジタルビデオ信号入力の個々の層符号化パラメータを復号及び結合し、前記少なくとも１つの出力ビデオ信号において、前記少なくとも１つのデジタルビデオ信号出力が、入力品質分解能以下の所望の品質分解能を有するように、前記結合されたパラメータを単一の値に符号化するステップとを有する方法。
前記個々の層符号化パラメータは、変換係数データを含む請求項４１記載の方法。
前記個々の層符号化パラメータは、動きベクトルデータを含む請求項４１記載の方法。
連続するＳＶＣ層におけるブロックの変換係数データのＱＰ差分が６の倍数となるように符号化を行うステップを更に有する請求項４１記載の方法。
更に、少なくとも最下位の時間的階層（ＬＲ）のピクチャについて、ＳＶＣ符号化データがＨ．２６４によって正確に表現されるように符号化を行うステップを更に有する請求項４１記載の方法。
少なくとも１つのデジタルビデオ信号入力及び少なくとも１つのデジタルビデオ信号出力をトランスコードする方法において、入力ビデオ符号化フォーマットがＳＶＣであり、出力ビデオ符号化フォーマットがＨ．２６４であり、当該方法は、
少なくとも１つの入力信号の最上位の層の層符号化パラメータを複数のコンポーネントに分割するステップと、
少なくとも１つの出力ビデオ信号が、少なくとも１つの入力ビデオ信号の最上位の層の品質分解能より低い所望の品質分解能を有するように、少なくとも１つの出力ビデオ信号の異なる層に亘って、前記複数のコンポーネントの全部又は一部を個別に符号化するステップとを有する方法。
前記個々の層符号化パラメータは、変換係数データを含む請求項４６記載の方法。
前記変換係数データの分割されたコンポーネントは、異なる周波数に対応する係数データ、互いに加算されると元の係数データ値になる値の組、及びこれらの組合せのうちの少なくとも１つを含む請求項４７記載の方法。
前記少なくとも１つの出力ビデオ信号の層における変換係数データの符号化は、連続する層におけるブロックのＱＰ差分が６の倍数となるように行われる請求項４７記載の方法。
前記個々の層符号化パラメータは、動きベクトルデータを含む請求項４６記載の方法。
前記動きベクトルデータの分割されたコンポーネントは、異なる空間的位置に対応する動きベクトルデータ、互いに加算されると元の動きベクトルデータになる値の組、及びこれらの組合せのうちの少なくとも１つを含む請求項５０記載の方法。
少なくとも１つの入力信号の個々の層符号化パラメータを分割するステップは、各層内のドリフトに対応する歪みに基づき、各層内でレート−歪み最適化を用いるステップを含む請求項４６記載の方法。
前記入力ビデオ信号の符号化フォーマットは、更に、エンハンスメント層において基準サンプルを用いてイントラ予測を実行してトランスコードドリフトを除去するように構成されている請求項４６記載の方法。
少なくとも１つのデジタルビデオ信号入力及び少なくとも１つのデジタルビデオ信号出力をトランスコードする方法において、入力ビデオ符号化フォーマットがＳＶＣであり、出力ビデオ符号化フォーマットがＳＶＣであり、前記入力ビデオ符号化フォーマットの最上位の層を除いて、入力ビデオ符号化フォーマットと同じ空間分解能、時間分解能及び品質分解能を有し、当該方法は、
少なくとも１つの入力信号の最上位の層の層符号化パラメータを複数のコンポーネントに分割するステップと、
少なくとも１つの出力ビデオ信号が、少なくとも１つの入力ビデオ信号の最上位の層の品質分解能より低い所望の品質分解能を有するように、少なくとも１つの出力ビデオ信号の異なる層に亘って、前記複数のコンポーネントの全部又は一部を個別に符号化するステップとを有する方法。
前記個々の層符号化パラメータは、変換係数データ及びその精密値を含む請求項５４記載の方法。
前記変換係数データの分割されたコンポーネントは、異なる周波数に対応する変換係数又はその精密値、互いに加算されると元の係数又は精密値になる値の組、及びこれらの組合せのうちの少なくとも１つを含む請求項５５記載の方法。
前記少なくとも１つの出力ビデオ信号の層における変換係数又はその精密値の符号化は、連続する層におけるブロックのＱＰ差分が６の倍数となるように行われる請求項５５記載の方法。
前記個々の層符号化パラメータは、動きベクトルデータ又はその精密値を含む請求項５４記載の方法。
前記動きベクトルデータの分割されたコンポーネントは、異なる空間的位置に対応する動きベクトルデータ又はその精密値、互いに加算されると元の動きベクトルデータ又は精密値になる値の組、及びこれらの組合せのうちの少なくとも１つを含む請求項５８記載の方法。
少なくとも１つの入力信号の個々の層符号化パラメータを分割するステップは、各層内のドリフトに対応する歪みに基づき、各層内でレート−歪み最適化を用いるステップを含む請求項５４記載の方法。
前記入力ビデオ信号の符号化フォーマットは、エンハンスメント層において基準サンプルを用いてイントラ予測を実行してトランスコードドリフトを除去するように構成されている請求項５４記載の方法。
少なくとも１つのデジタルビデオ信号入力及び少なくとも１つのデジタルビデオ信号出力をトランスコードする方法において、入力ビデオ符号化フォーマットがＳＶＣであり、出力ビデオ符号化フォーマットがＨ．２６４であり、入力ビデオ符号化フォーマットが提供する空間分解能内にある空間分解能を有し、当該方法は、
異なる層において個別に符号化されている、前記少なくとも１つの入力信号の個々の層符号化パラメータを復号及び結合するステップと、
出力ビデオ符号化フォーマットにおいて、同等なシンタクスが使用可能である場合、少なくとも１つの出力ビデオ信号において、前記結合されたパラメータを単一の値に符号化し、出力ビデオ符号化フォーマットにおいて、正確な符号化を使用できない場合、少なくとも１つの出力ビデオ信号に、前記結合されたパラメータの近似値を符号化する方法。
前記個々の層符号化パラメータは、変換係数データを含む請求項６２記載の方法。
前記個々の層符号化パラメータは、動きベクトルデータを含む請求項６２記載の方法。
少なくとも１つの出力ビデオ信号に、前記結合されたパラメータの近似値を符号化するステップは、ドリフトに対応する歪みに基づき、レート−歪み最適化を用いるステップを更に有する請求項６２記載の方法。
周期的なイントラマクロブロック及びスレッド化された時間的予測構造のうちの少なくとも１つを用いて、トランスコードドリフトを最小化するステップを更に有する請求項６２記載の方法。
少なくとも１つのデジタルビデオ信号入力及び少なくとも１つのデジタルビデオ信号出力をトランスコードする方法において、入力ビデオ符号化フォーマットがＳＶＣであり、出力ビデオ符号化フォーマットがＳＶＣであり、入力ビデオ符号化フォーマットと同じ時間分解能及び品質分解能、並びに出力ビデオ符号化フォーマットの望まれる最高の空間分解能（「望まれる出力分解能」）に最も近い空間分解能以下の入力ビデオ符号化フォーマットの空間分解能（「最も近い入力分解能」）を有し、
前記望まれる出力分解能に最も近い入力分解能を有する入力ビデオ信号層を適切にアップサンプリング又はダウンサンプリングするステップと、
望まれる出力分解能に適切にスケーリングされ、導入されたドリフトを補償するように符号化された残差を含む最も近い入力分解能を有する前記入力ビデオ信号層の符号化データからの予測子を用いて、前記アップサンプリング又はダウンサンプリングされたデータを符号化するステップとを有する方法。
ドリフトに対応する歪みに基づき、レート−歪み最適化を用いて、残差を符号化するステップを更に有する請求項６７記載の方法。
前記入力ビデオ信号の符号化において、周期的なイントラマクロブロック及びスレッド化された時間的予測構造のうちの少なくとも１つを用いて、トランスコードドリフトを最小化するステップを更に有する請求項６７記載の方法。
前記予測子は、動きベクトルデータを含む前記少なくとも１つの出力ビデオ信号の符号化は、更なる動き推定を実行することなく行われる請求項６７記載の方法。
少なくとも１つのデジタルビデオ信号入力及び少なくとも１つのデジタルビデオ信号出力をトランスコードする方法において、入力ビデオ符号化フォーマットは、時間スケーラビリティをサポートし、出力ビデオ符号化フォーマットは、時間スケーラビリティをサポートし、入力ビデオ符号化フォーマットの時間分解能の少なくとも１つが出力ビデオ符号化フォーマットの所望の時間分解能に含まれており、当該方法は、
如何なる所望の出力時間分解能にも対応しない少なくとも１つの入力ビデオ信号の層を不要な時間的階層として削除することによって、少なくとも１つの出力ビデオ信号について時間分解能の所望の組を生成するステップと、
データが所望の出力時間分解能に対応する場合、少なくとも１つの入力ビデオ信号からのデータを少なくとも１つの出力ビデオ信号ピクチャデータにコピーするステップと、
少なくとも１つの入力ビデオ信号に存在していない所望の出力時間分解能について予め符号化された情報を送信するステップとを有する方法。
前記予め符号化された情報は、スキップデータから構成される請求項７１記載の方法。
少なくとも１つのデジタルビデオ信号入力及び少なくとも１つのデジタルビデオ信号出力を有するビデオ処理ユニット（「トランスコーダ」）を備え、
前記トランスコーダの出力ビデオ符号化フォーマットは、時間スケーラビリティをサポートし、前記トランスコーダは、データが所望の出力時間分解能に対応する場合、少なくとも１つの入力ビデオ信号からのデータを少なくとも１つの出力ビデオ信号ピクチャデータにコピーすることによって、少なくとも１つの出力ビデオ信号について時間分解能の所望の組を生成し、少なくとも１つの入力ビデオ信号からピクチャデータを復号し、少なくとも１つの入力ビデオ信号に存在していない所望の出力時間分解能のために、出力ビデオ信号において、前記ピクチャデータを符号化するデジタルビデオ信号処理システム。
前記出力ビデオ信号時間分解能は、スレッド化される請求項７３記載のデジタルビデオ信号処理システム。
少なくとも１つのデジタルビデオ信号入力及び少なくとも１つのデジタルビデオ信号出力をトランスコードする方法において、出力ビデオ符号化フォーマットは、時間スケーラビリティをサポートし、当該方法は、
データが所望の出力時間分解能に対応する場合、少なくとも１つの入力ビデオ信号からのデータを少なくとも１つの出力ビデオ信号ピクチャデータにコピーすることによって、少なくとも１つの出力ビデオ信号について時間分解能の所望の組を生成するステップと、
少なくとも１つの入力ビデオ信号からピクチャデータを復号し、
前記ピクチャデータを少なくとも１つの出力ビデオ信号に符号化し、少なくとも１つの入力ビデオ信号に存在していない所望の出力時間分解能を生成するステップとを有する方法。
前記出力ビデオ信号時間分解能は、スレッド化される請求項７６記載の方法。
請求項３６乃至７２及び請求項７５乃至７６における何れかのステップを実行する一組の実行可能な命令を含むコンピュータ読取可能な媒体。