JP2009544176A - スケーラブルビデオコーデックと非スケーラブルビデオコーデックとの間でトランスコードを行うためのシステム及び方法 - Google Patents

スケーラブルビデオコーデックと非スケーラブルビデオコーデックとの間でトランスコードを行うためのシステム及び方法 Download PDF

Info

Publication number
JP2009544176A
JP2009544176A JP2009503292A JP2009503292A JP2009544176A JP 2009544176 A JP2009544176 A JP 2009544176A JP 2009503292 A JP2009503292 A JP 2009503292A JP 2009503292 A JP2009503292 A JP 2009503292A JP 2009544176 A JP2009544176 A JP 2009544176A
Authority
JP
Japan
Prior art keywords
video signal
input
output
digital video
resolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009503292A
Other languages
English (en)
Inventor
エレフゼリアディス,アレクサンドロス
ホン,ダニー
シャピロ,オファー
ウィーガンド,トーマス
Original Assignee
ヴィドヨ,インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from PCT/US2006/028368 external-priority patent/WO2008051181A1/en
Priority claimed from PCT/US2006/028366 external-priority patent/WO2008082375A2/en
Priority claimed from PCT/US2006/028365 external-priority patent/WO2008060262A1/en
Priority claimed from PCT/US2006/028367 external-priority patent/WO2007075196A1/en
Priority claimed from PCT/US2006/061815 external-priority patent/WO2007067990A2/en
Priority claimed from PCT/US2006/062569 external-priority patent/WO2007076486A2/en
Priority claimed from PCT/US2007/062357 external-priority patent/WO2007095640A2/en
Priority claimed from PCT/US2007/063335 external-priority patent/WO2007103889A2/en
Application filed by ヴィドヨ,インコーポレーテッド filed Critical ヴィドヨ,インコーポレーテッド
Priority claimed from PCT/US2007/065554 external-priority patent/WO2007115133A2/en
Publication of JP2009544176A publication Critical patent/JP2009544176A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

スケーラブルなビデオ符号化を用いるビデオ通信システムにおいてトランスコードを実行するシステム及び方法を提供する。このシステム及び方法は、ある特性を有する入力信号を、異なる特性要求を有する望まれる出力信号にトランスコード又は変換するために使用することができる。このシステム及び方法は、入力信号及び望まれる出力信号の特定の特性に応じて、圧縮領域処理、部分的な復号−再符号化、又は副情報を含む完全な復号−再符号化に基づいて実現される。
【選択図】図1

Description

本出願は、2006年3月29日に出願された米国仮出願番号第60/786,997号の優先権を主張する。更に、本出願は、国際特許出願PCT/US06/28365号、PCT/US06/028366号、PCT/US06/028367号、PCT/US06/028368号、PCT/US06/061815号、PCT/US06/62569号、PCT/US07/62357号、PCT/US07/63335号に関連し、これらの優先権を主張する。上述した優先権及び関連出願の全ては、本出願と共通の譲受人に譲渡され、これらの文献の全体は、引用によって本願に援用される。
本発明は、ビデオデータ通信システムに関する。詳しくは、本発明は、符号化されたデジタルビデオデータを1つのスケーラブルビデオ符号化フォーマットから他のスケーラブルビデオ符号化フォーマットに変換し、又はスケーラブルビデオ符号化フォーマットから非スケーラブルビデオ符号化フォーマットに変換し、及び非スケーラブルビデオ符号化フォーマットからスケーラブルビデオ符号化フォーマットに変換する技術に関する。
デジタルビデオ通信システムは、ビデオの符号化、記録及び伝送のために、1つ又は時には2つ以上のデジタルビデオ符号化フォーマットを採用することがある。例えば、従来型のテレビ会議システムでは、H.261及びH.263ビデオ符号化規格の両方が使用されており、デジタルテレビジョンシステムでは、MPEG−2/H.262ビデオ符号化が使用されている。より最近のシステムでは、テレビ会議及び放送設定の両方において、H.264ビデオが用いられている。
ビデオ通信システムにおいては、異なるアプリケーションドメイン内に存在する動作の前提が異なることの直接的な結果として、異なる符号化フォーマットを用いる必要がある。なお、テレビ会議、モバイル機器及びテレビ放送の用途でH.264を使用するケースのように、2つ以上の異なるアプリケーションドメインで同じ符号化フォーマットが使用されている場合であっても、異なるアプリケーションドメインにおける符号化フォーマットの使い方が大きく異なることもある。この結果、1つのアプリケーションドメインで生成されたコンテンツが、他のドメインのシステムによっては直接復号できないこともある。このために、信号変換が必要となる。同じ符号化フォーマットが使用されている実例においても、符号化されたビデオ信号のビットレートが、特定のアプリケーションコンテキストで使用できるビットレートより高く、したがって、ビットレートを低減しなくてはならないといった状況が少なからず生じる。システム全体のレート歪みが改善できる場合、トランスコードが採用されることもある。
実際のアプリケーションでは、コンテンツの相互運用性の必要性から、幾つかのインスタンスが生成され、この場合、異なるビデオ符号化フォーマット間及び同じフォーマットの異なるパラメータ設定(例えば、ビットレート)間で効率的な変換を行うことが望ましい。これらの技術は、一般的に、まとめて「トランスコード」技術と呼ばれる。
ビットストリームフォーマット変換の必要性の1つの具体例は、新たなコーデックを用いるアプリケーションにおける旧型コーデックのサポートである。例えば、他の参加者が復号することができないビットストリームフォーマットを用いて、ある参加者がテレビ会議システムに接続した場合、フォーマット変換のためにトランスコードを行うことができる。
ある符号化フォーマット内でのトランスコードでは、使用可能なディスプレイサイズ、ビットレート、処理能力、又はレシーバの消費電力に対応するために、又は包括的な符号化効率を考慮して、空間分解能を変更することが望まれることもある。同様に、使用可能なビットレート、処理能力、レシーバの消費電力に対応するために、又は包括的な符号化効率を考慮して、時間分解能を変更することが望まれることもある。望まれることが多い他の変換としては、ビットレート、処理能力又は消費電力に関するレシーバ能力に対応するためのビットストリームサイズ又はビットレートの変更がある。
トランスコード処理が必要性となる更に他の具体例として、例えば、エラー回復又は符号化効率のために、ビットストリーム特性を変更することもある。ビットストリームの変更は、例えば、イントラマクロブロック等の符号化基準の変更を含むこともある。
また、トランスコードは、上述した変更の2つ以上の組合せであってもよい。
標準ビデオコーデックのためのトランスコード技術は、例えば、MPEG−2とH.264との間で、放送用のテレビジョン信号をIP−テレビジョン及びモバイルテレビジョンのアプリケーションに適するフォーマットに変換する等、特定のアプリケーションシナリオの要求を満たすために開発された。これらのトランスコード技術は、既存の非階層符号化(single-layer coding)技術を用いて符号化されたビデオを対象としている。
従来の、非階層コーデックに加えて、ビデオ符号化のために、階層符号化、すなわちスケーラブル符号化が使用されるようになった。スケーラブル符号化は、所定のビデオ信号を集合的に表現する2つ以上の「スケーリングされた」ビットストリームを生成することによってビットレートの効率を高めるために使用されている。スケーラビリティは、複数の異なる次元、すなわち時間、空間、品質(「信号対雑音比」(SN比)スケーラビリティ又は忠実度スケーラビリティとも呼ばれる。)について実現される。コーデックの構造に応じて、コーデックビットストリームから、空間分解能及びフレームレートの如何なる組合せも入手可能である。例えば、異なる層において、CIF及びQCIF分解能、並びに7.5、15及び30フレーム/秒(fps)のフレームレートでビデオ信号をスケーラブル符号化することができる。異なる層に対応するビットは、個別のビットストリーム(すなわち、1層あたり1つのストリーム)として送信することができ、又はこれらを1つ以上のビットストリームに共に多重化することもできる。本明細書では、説明を簡潔にするために、複数の層が単一のビットストリームに多重化され、送信される場合であっても、所定の層に対応する符号化されたビットを、その層のビットストリームと呼ぶこととする。
スケーラビリティ機能を提供するために特別に設計されたコーデックには、例えば、MPEG−2(ISO/IEC13818−2、ITU−T H.262とも呼ばれる。)及び現在開発中のSVC(ITU−T H.264付属資料G又はMPEG−4パート10SVC)が含まれる。ビデオ通信のために特別に設計されたスケーラブル符号化技術は、共通の譲受人に譲渡された国際特許出願PCT/US06/028365号「SYSTEM AND METHOD FOR SCALABLE AND LOW-DELAY VIDEOCONFERENCING USING SCALABLE VIDEO CODING」にも開示されている。なお、スケーラブル符号化のために特別に設計されていないコーデックであっても、時間的な次元において、スケーラビリティ特性を示す場合がある。例えば、DVD及びデジタルTV環境で用いられる非スケーラブルコーデックであるMPEG−2メインプロファイルコーデックについて検討する。更に、このコーデックが30fpsで動作し、IBBPBBPBBPBBPBB(周期N=15フレーム)のグループオブピクチャ(GOP)構造が使用されているとする。Bピクチャを連続的に削除し、これに続いてPピクチャを削除することによって、30fps(全てのピクチャタイプ)、10fps(Iピクチャ及びPピクチャのみ)及び2fps(Iピクチャのみ)といった合計3つの時間分解能を導出することができる。MPEG−2メインプロファイルコーデックの設計では、Pピクチャの符号化は、Bピクチャに依存せず、Iピクチャの符号化は、他のPピクチャ又はBピクチャに依存しないので、このような連続的な削除処理を行っても復号可能なビットストリームを生成できる。以下では、時間スケーラビリティ特性を有する非階層コーデックは、スケーラブルビデオ符号化の特別なケースとみなし、他の特別な言及がない限り、スケーラブルビデオ符号化に含ませる。
スケーラブルコーデックは、通常、ピラミッド型のビットストリーム構造を有し、構成要素となるビットストリームの1つ(「ベース層」と呼ばれる。)は、ある基本的な品質で元のメディアを再生する際に不可欠である。他のビットストリームの1つ以上(「エンハンスメント層」と呼ばれる。)をベース層と共に使用することによって、再生されたメディアの品質を高めることができる。
スケーラブルビデオ符号化は、複数の拠点を結ぶビデオ会議等の対話型ビデオ通信アプリケーションにとって、特に効果的な符号化技術である。本願と同じ譲受人に譲渡されている国際特許出願PCT/US06/28366号及びPCT/US06/62569号には、それぞれ「スケーラブルビデオ通信サーバ」(Scalable Video Communication Server:SVCS)及び「コンポジットスケーラブルビデオ符号化サーバ」(Compositing Scalable Video Coding Server:CSVCS)のアーキテクチャが開示されており、これらは、既存のマルチポイント制御ユニット(Multipoint Control Unit:MCU)と同じ目的で使用されるが、複雑性が大幅に低減され、機能性が向上されている。同様に、本願と同じ譲受人に譲渡されている国際特許出願PCT/US06/061815号及びPCT/US07/63335号には、このようなシステムにおけるエラー回復、ランダムアクセス及びレート制御のためのメカニズムが開示されている。
スケーラブルビデオのトランスコードは、非階層トランスコードと幾つかの特徴を共有しているが、スケーラブルビデオの用途又は要求に固有の更なる特徴を有する。テレビ会議の設定において、スケーラブルビデオ符号化フォーマット間でトランスコードが必要となるシナリオには、以下のようなシナリオが含まれる。
・マルチパーティビデオ会議の参加者が、他の会議参加者が要求するビットストリームのビデオ信号特性と共に使用される特定のスケーラブルビデオ符号化フォーマットでは効率的に表現できないビデオ信号特性を要求する。具体例としては、他の要求されたビデオ解像度とは僅かに異なるビデオ解像度の要求に関連するCSVCSの使用がある。この場合、僅かに異なるビデオ解像度を提供するために、トランスコードが必要である。
・ある参加者の伝送チャンネルが、他の参加者の伝送チャンネルに比べて、エラー率が高い。この場合、高いエラー率を補償するために、より多くのスライス及びイントラマクロブロックを挿入するトランスコードが必要である。
・旧型のエンドポイントをサポートするための関連する非階層フォーマットへのトランスコード(例えば、H.264SVCからAVC)。
・旧型エンドポイントをサポートするための関連しない非階層フォーマットへのトランスコード(例えば、H.264SVCからH.263、MPEG2、H.261、MPEG−4、又はH.264及びSVCを除く他の何らかのビデオビットストリームフォーマット)。
上述した最後の2つのシナリオについて、スケーラブルビデオ符号化フォーマットと比較して、関連する非階層符号化フォーマットと、関連しない非階層符号化フォーマットとの区別は、重要である。例えば、SVCは、H.264AVCの拡張であり、したがって、例えば、ハイレベルのシンタクス、動き補償、変換符号化及びデブロッキングフィルタといった多くの共通要素を有する。この結果、これらの2つのフォーマット間の変換は、高い演算効率で、より容易に実行することができる。
現在、スケーラブルビデオ符号化を用いるビデオ通信システムにおけるトランスコードが研究されている。特に、スケーラブルビットストリームと、非スケーラブルビットストリームとの間の両方向のトランスコードのための技術が注目されている。また、ビデオ信号の品質に与える影響が最小であり、演算効率が高いトランスコード技術の実現が望まれている。
スケーラブルビデオ符号化を用いるビデオ通信システムにおけるトランスコードを実行するシステム及び方法を提供する。システム及び方法は、ある特性を有する入力信号を異なる特性要求を有する所望の出力信号にトランスコード又は変換するために使用できる。
本明細書では、トランスコード変換の6個の異なる例示的なカテゴリを示す。3つの例示的なカテゴリでは、望まれる出力は、特定の時間、品質、又は空間の分解能要求を有する。他の3つの例示的なカテゴリでは、望まれる出力は、品質及び時間、空間及び時間、又は空間、品質及び時間の分解能要求の組合せを有する。各カテゴリ内で、H.264SVCからAVC、AVCからSVC、SVCからSVCへの変換のための特定のシステム及び方法を提供する。システム及び方法は、入力信号及び望まれる出力信号の特定の特性に応じて、圧縮領域処理、部分的な復号−再符号化又は副情報を含む完全な復号−再符号化に基づいている。
本発明の更なる特徴、性質及び様々な利点は、以下の好ましい実施の形態及び添付の図面によって、より明瞭になる。
添付の図面の全体に亘り、同じ符号及び記号は、特別な記載がない限り、例示する実施の形態の同様の特徴、要素、コンポーネント及び部分を指示するために使用する。更に、以下では、例示的な実施の形態に関して、図面を参照して本発明を説明する。
図1に示す例示的なトランスコードシステム100は、ビデオ通信システムで用いることができるトランスコーダ110を備える。入力ビデオエンコーダ120は、一組のある特性(例えば、フォーマット及び/又はパラメータ特性)を有する入力ビデオビットストリームを生成する。トランスコーダ100は、入力ビデオビットストリームの特性を変換又は変更し、所望の特性、すなわちターゲット特性の異なる組を有する出力ビデオストリームを生成する。特性の異なる組は、出力ビデオデコーダ130によって希望又は要求されるシグナリング特性に対応していてもよい。出力ビデオストリームは、出力ビデオデコーダ130に供給される。
例えば、ライブビデオ通信システムの場合と同様に、図1では、エンコーダ120及びデコーダ130は、トランスコーダ100に接続されている。なお、トランスコーダ110の処理は、信号の符号化処理及び復号処理がいつの時点で実行されるかに関わらず実行される。更に、トランスコーダ100に入力ビデオビットストリームを提供するメカニズム又はデコーダ130に出力ビデオビットストリームを提供するメカニズムは、トランスコーダ100の動作には影響せず、トランスコーダ100の動作には関連しない。実際には、例えば、入力ビデオビットストリーム及び出力ビデオビットストリームの何れかをハードディスク、RAM又は他の記憶装置に保存してもよい。また、エンコーダ120は、ネットワーク接続を介して事前に符号化されたビデオを送信するサーバに置換してもよい。同様に、デコーダ130は、後の復号又はこの他の使用のために出力ビデオビットストリームを保存するサーバに置換してもよい。入力ビデオビットストリームをトランスコーダ110に提供し、又はトランスコーダ110の出力ビデオビットストリームを使用する他のメカニズムを用いてもよい。本明細書に開示するトランスコード技術は、ソース、配信メカニズム、又は入力ビットストリーム及び出力ビットストリームの用途の如何にかかわらず、これらの全てのケースに適用できる。
トランスコーダ110のトランスコード処理は、入力信号及び出力信号に関する所定のレート制約に応じて、可逆処理であっても不可逆処理であってもよい。可逆トランスコードとは、入力信号と出力信号の両方が所定のレート制約を満たすと共に、入力信号と出力信号が同一になることを意味する。不可逆トランスコードとは、入力信号と出力信号の両方が所定のレート制約を満たすが、入力信号と出力信号が同一にならないことを意味する。
H.264SVC規格(例えば、引用により全体が本願に援用される「T. Wiegand, G. Sullivan, J. Reichel, H. Schwarz, M. Wien, eds., "Joint Draft 5: Scalable Video Coding," Joint Video Team, Doc.JVT-R201, Bangkok, Thailand, January 2005」参照)は、時間、SN比及び空間のスケーラビリティを符号化ビデオビットストリームに提供する。入力SVCビットストリームからのトランスコードとしては、出力ビデオフォーマットについて、以下のよう例示的なケースが考えられる。
・SVCビットストリームへのトランスコード
・H.264ビットストリームへのトランスコード
・H.263、MPEG2、H.261、MPEG4、又は他の何らかのビデオビットストリームフォーマット(H.264及びSVCを除く)へのトランスコード
出力SVCビットストリームへのトランスコードとしては、入力ビデオフォーマットについて、以下のよう例示的なケースが考えられる。
・SVCビットストリームからのトランスコード
・H.264ビットストリームからのトランスコード
・H.263、MPEG2、H.261、MPEG4、又は他の何らかのビデオビットストリームフォーマット(H.264及びSVCを除く)からのトランスコード
トランスコーダ110の設計及び動作に関する重要な検討事項は、エンコーダ(例えば、エンコーダ120)が、後のトランスコード処理を考慮に入れて、入力ビデオビットストリームを予測し、準備できるか否かという点である。ここでは、典型的な例として、SVC符号化の場合、入力ビデオビットストリームがこのように準備され、H.264符号化の場合、このようには準備されないと考える。H.263、MPEG2、H.261、MPEG4、又は他の何らかのビデオビットストリームフォーマット(H.264及びSVCを除く)については、入力ビデオビットストリームは、このようには準備されないと仮定する。なお、これらの規格間の著しい相違のために、エンコーダによるトランスコードプロセスの予測によって、トランスコード処理が単純化されることは期待されない。
図2は、トランスコーダ110において採用することができるトランスコード方法又は技術(「完全な復号/再符号化トランスコード(Full Decode/Re-encode Transcoding:FDRT)200」)を示している。FDRT200の処理は、ビットストリームのピクチャの完全な復号及び完全な再符号化を含む(すなわち、入力ビデオデコーダ210において、入力ビットストリームから復号されたピクチャを生成し、出力ビデオエンコーダ220において、このピクチャを符号化して、出力ビットストリームを生成する)。この手法は複雑であり、後述する他のトランスコードの手法(図3〜図7等)に比べて、大きな遅延を引き起こす。このような遅延特性のため、多くのアプリケーションでは、FDRT200の使用を回避することが望ましい。しかしながら、所定のビットレート制約条件内で、大きく異なる出力ビデオビットストリームによってしか入力ビデオ信号を表すことができない場合等、FDRT200を使用する必要がある場合もある。このような場合とは、2つの関係するコーデック(入力ビットストリーム及び出力ビットストリーム)の復号処理の大部分が異なる場合、又は入力ビットストリーム及び出力ビットストリームの特性(例えば、空間分解能、SN比分解能、符号化判定)が実質的に異なる場合等である。このような場合、トランスコード処理によって導入される入力ビデオエンコーダと出力ビデオデコーダとの間の大きなドリフトのために、最大限の又は完全な復号/再符号化処理が必要であり、又は望ましい。このドリフトは、ビデオ品質に劇的に影響し、ビデオ信号を実用的な品質に保つために、制御しなければならない。ドリフトの完全制御(すなわち、関係する全ての出力ビットストリーム符号化パラメータを調整する能力)は、完全な復号/再符号化トランスコード技術によってのみ実現される。
図2に示すように、トランスコードシステム100は、FDRT200において、デコーダ210とエンコーダ220との間で、好適に副情報を用いて、出力ビデオ符号化処理を向上させる。この副情報には、入力ビットストリームにおいて用いられているマクロブロックモード判定、量子化値、参照ピクチャ及び/又は動きベクトル等が含まれる。例えば、副情報の中の動きベクトルを用いることによって、FDRT200だけではなく、信号変換処理を補うために動きベクトル情報を使用する本明細書に開示する他の全てのトランスコード処理において、ビデオ符号化に関連する複雑性を好適に排除又は低減できる。
図3は、本発明のトランスコード方法又は技術(「部分的な復号/再符号化トランスコード(Partial Decode/Re-encode Transcoding:PDRT)300)を示している。PDRT300は、入力ビデオデコーダ310における、入力ビットストリームでのピクチャの部分的な復号及び出力ビデオデコーダ320における、入力ビットストリームから得られた副情報を用いる再符号化を含む。PDRT300では、入力ビットストリームを解析及び変更し、完全なチェインではなく、入力コーデックの復号処理及び出力コーデックの符号化処理の一部だけを呼び出す。PDRT300は、FDRT200に比べて、潜在的に複雑性が低く、生じる遅延も小さい。これらの改善の程度は、関連するコーデックの復号処理の類似性及び入力ビデオ信号特性と出力ビデオ信号特性との間の変化の量に依存する。PDRT300は、出力ビデオビットストリームによって入力ビデオ信号を近似的に表現できる実例において、好適に用いることができる。この場合、トランスコードによって導入されるドリフトは、十分に小さく、出力ビデオビットストリームにおける符号化判定の一部のみを調整することによって、入力ビデオエンコーダにおいて、トランスコード処理を予測することによって、又はこれらの両方によって制御できる。
図3に示すように、トランスコードシステム100は、PDRT300において、デコーダ310とエンコーダ320との間で、好適に副情報を用いて、出力ビデオ符号化処理を向上させる。この副情報には、入力ビットストリームにおいて用いられているマクロブロックモード判定、量子化値、参照ピクチャ及び/又は動きベクトル等が含まれる。
図4は、本発明の他のトランスコード技術(「圧縮領域トランスコード(Compressed Domain Transcoding:CDT)400」)を示している。CDT400は、入力ビデオビットストリーム解析器410における入力ビデオビットストリームの符号化データ(入力ビデオシンタクス要素)の解析及び出力ビデオビットストリーム生成器420におけるこれらのデータの出力ビデオビットストリームの符号化データへのマッピングを含む。入力ビットストリームは、解析及び変更されるが、入力コーデック及び出力コーデックの復号処理は、何れも呼び出されない。CDT400は、FDRT200及びPDRT300の両方に比べて、複雑性が低く、生じる遅延も小さい。CDT400は、出力ビデオビットストリームによって入力ビデオ信号を正確に表現できる実例において、好適に用いることができる。この場合、トランスコードによってドリフトは導入されず、又はトランスコードによって導入されるドリフトは、非常に小さく、入力ビデオエンコーダにおいて、トランスコード処理を予測することによって、制御できる。
図4に示すように、CDT300では、解析器410と生成器420との間で、好適に副情報を用いて、入力ビデオシンタクス要素のマッピングを向上させることができる。この副情報には、入力ビットストリームのシンタクス要素の全て又は一部を含ませてもよい。
通常、パケットの全体の削除を含む入力ビデオビットストリームの修正又は変更は、トランスコード技術とはみなされない。例えば、メディアゲートウェイにおいて、レシーバが望まない時間的階層に対応するSVCビットストリームのパケットを削除する処理は、トランスコード処理とはみなされず、ビットストリームのスケーラビリティ機能の直接的な使用とみなされる。例外として、SVCストリームのベース層を抽出し、AVCに互換性があるストリームに変更する場合がある。ベース層のパケットは、符号化データを変更することなく、AVC互換のNALユニット又はSVC互換のNALユニットにカプセル化することができる。SVCカプセル化は、AVCのみに対応するレシーバでは、復号できず、したがって、変換しなければならない。このような場合、トランスコーダ100は、適切なハイレベルのトランスコード技術である「トランスポート層トランスコード」(Transport-Layer Transcoding:TLT)を用いることができる。
SVCビットストリームをH.263、MPEG2、H.261、MPEG4、又は他の何らかのビデオビットストリームフォーマット(H.264及びSVCを除く)にトランスコードするためには、通常、FDRTを用いてトランスコードを行う必要がある。同様に、H.263、MPEG2、H.261、MPEG4、又は他の何らかのビデオビットストリームフォーマット(H.264及びSVCを除く)をSVCビットストリームにトランスコードするためには、通常、FDRTを用いてトランスコードを行う必要がある。
以下では、SVCからH.264へのトランスコード、H.264からSVCへのトランスコード及びSVCからSVCへのトランスコードのための技術について説明する。トランスコード処理は、出力ビットストリームのある特性に関する要求によって導かれる。ここでは、以下のトランスコードタイプを説明する。以下では、各タイプを特定するために、括弧付きの記号を使用する。
・所定の要求された時間分解能(T)
・所定の要求された品質分解能(Q)
・所定の空間分解能(S)
・品質分解能及び時間分解能の所定の組合せ(Q/T)
・空間分解能及び時間分解能の所定の組合せ(S/T)
・空間分解能、品質分解能、時間分解能の所定の組合せ(Q/S/T)
これらのタイプのそれぞれについて、以下では、H.264からSVC(タイプ「+」と表す。)、SVCからH.264、(タイプ「−」と表す。)及びSVCからSVC(タイプ「=」と表す)のフォーマット変換のタイプを説明する。変換のタイプを表す記号(+、−、=)と、トランスコードのタイプを表す記号(T、Q、S、Q/T、S/T、Q/S/T)とを組み合わせることによって、本明細書に記載する様々な変換ケース及びトランスコードタイプ組合せを一意的に特定することができる。例えば、記号「Q/T+」は、要求された品質分解能及び時間分解能の所定の組合せを伴うH.264からSVCへのトランスコードを表す。
まず、出力ビデオ信号の時間分解能について特別な要求がある出力ビットストリームへのトランスコードのケースを説明する(トランスコードタイプT)。SVCへのトランスコードでは、インター予測のための(時間スケーラビリティのための)特定の依存の構造へのトランスコードが要求される。空間分解能及びSN比分解能は、入力ビットストリームと出力ビットストリームとの間で、同一であると仮定する。H.264及びSVCは、ビデオ信号の時間分解能及びインター予測のための依存の構造を表現するための同じ基本的な能力を提供する。このため、トランスコードタイプTの変換タイプ+、−、=のためのトランスコード処理のオプションは、比較的簡単であり、当分野において周知である。
SVCからH.264へのトランスコード(ケース「T−」)では、スケーラブルコンテンツ構造の更なるシグナリングを除いて、時間スケーラビリティは、H.264について下位互換性を有する。更に、SVCエンコーダが、例えば、時間スケーラビリティによって、要求された出力ビデオ解像度を予測する場合、トランスコード処理は、CDT400又はTLTの何れかを用いることができる。時間スケーラビリティは、インター予測参照の依存構造によって実現される。トランスコードでは、他のピクチャの復号に必要でないピクチャは、除外することができる。ケース「T−」のトランスコードオプションは、当分野において周知である。
H.264からSVCへのトランスコード(ケース「T+」)では、H.264エンコーダがトランスコードを考慮できない場合、通常、FDRT200又はPDRT300を用いなければならない。このようなケースとは、H.264エンコーダ入力の時間的予測構造が、出力における望まれる時間的予測構造(これによって時間スケーラビリティが実現される)に一致しない場合等である。入力ビデオ信号の時間的階層の幾つかが出力信号の時間的階層に一致するが、2つの信号において、上位の時間的階層の構造が異なる場合には、PDRT300を用いることができる。この場合、一致する下位の層を変更なしで用いることができるが、上位の層のピクチャは、復号及び再符号化する必要がある。H.264エンコーダ入力の時間的予測構造が望まれる出力時間分解能の下位集合である場合、トランスコーダは、事前に符号化されたピクチャデータ(例えば、スキップピクチャ又はスキップマクロブロックデータ)を挿入して、要求に応じて、更なる時間スケーラビリティ層を生成することができ、出力ビデオ信号において望まれていない入力ビデオ信号の時間的階層を削除することができる。これは、トランスコーダにおいて追加的データが生成されるCDT400の一形式である。入力信号の時間分解能が出力信号の所望の時間分解能に完全に一致するように、H.264エンコーダが、後のトランスコード処理を予測し、考慮に入れることができる場合、如何なる追加的データも生成しないCDT400を採用することができる。
SVCからSVCへのトランスコード(ケース「T=」)では、SVCエンコーダが要求された出力ビデオ解像度を予測する場合、ケース「T+」について説明したように、CDT400を用いてトランスコードを行うことができる。エンコーダが要求された出力ビデオ解像度を予測しない場合、ケース「T+」と同様に、FDRTを使用する必要がある。
次に、出力ビデオ信号のSN比分解能について特別な要求がある出力ビットストリームへのトランスコードのケースを説明する(トランスコードタイプ「Q」)。入力ビデオ信号のSN比分解能は、出力ビデオ信号の要求されたSN比分解能以下であると仮定してもよい。SVCへのトランスコードでは、(SN比スケーラビリティのための)一組の下位のSN比分解能へのトランスコードも要求されることがある。時間分解能及び空間分解能は、入力ビットストリームと出力ビットストリームとの間で、同一であると仮定してもよい。
なお、SVCのSN比分解能は、粗いスケーラビリティ(coarse-grain scalability:CGS)及び細かいスケーラビリティ(fine-grain scalability:FGS)の2つのメカニズムの何れかによって表現される。両方のメカニズムにおいて、ベース信号の画質を向上させるための更なる「エンハンス」信号が送信される。このエンハンス処理は、繰り返すことでき、この場合、第1のエンハンス信号がベース信号になり、第1のエンハンス/ベース信号を向上させるために、第2の更なるエンハンス信号が送信される。繰り返されるエンハンス処理は、(マクロブロック間又はマクロブロック内の)動きベクトルの精密化、残差信号の精密化及びその両方のための処理であってもよい。なお、下位の層のマクロブロックからマクロブロックタイプを予測してもよい。
動きベクトルの精密化は、更なる動きベクトルを送信して、先に送信されているベース動きベクトルに加算し、合計の又は結合された動きベクトルを生成する処理を含み、この動きベクトルは、H.264シンタクスを用いて正確に表現できる。例えば、図5に示すように、ベース層動きベクトル52をエンハンスメント層動きベクトル54に加算することによって、結合されたトータルの動きベクトル56が生成され、これは、H.264シンタクスを用いて、正確に表現することができる。
残差信号の精密化は、更なる変換係数を送信して、先に送信されているベース変換係数に加算し、合計の変換係数を生成する処理を含み、この変換係数は、H.264シンタクスを用いて、近似的に表現することができる。例えば、図6に示すように、量子化されたベース層変換係数62及びエンハンスメント層変換係数64を加算することによって、SVC変換係数の大きさを表す値を求めることができる。特定のQP(X)の大きさを表す値は、H.264で正確に表現できる場合もあり、正確には表現できない場合もある。結合されたSVC変換係数値は、QP(量子化パラメータ)の特定の選択についてのみ正確に表現できる場合がある。図6は、例えば、図の右側のスケールに示すように、量子化値が5の場合の正確な表現QP(X’)を示している。QP(QP(X))の他の選択では、図の左側に示すように、結合されたSVC変換係数値は、量子化値2と3の間になる。マクロブロック間の残差信号及び動きベクトルは、互いに関連付けられ、すなわち、特定の動きベクトルを特定の残差信号に結合しなければならない。
所定の望まれる出力SN比分解能でのSVCからH.264へのトランスコード(ケース「Q−」)では、通常、PDRT300を用いなければならない。但し、結合されたSVC変換係数レベルの和が、ビットレート制約内でH.264変換係数レベルによって表現できる値になる場合は、トランスコードにおいて、CDT400を用いることができる。この条件は、SVCエンコーダによって強制してもよく、この条件によって、トランスコーダの動作が非常に簡単になる。
要求されたSN比分解能に対応するSVC動きベクトルは、(ベース層動きベクトルとエンハンスメント層動きベクトルとを加算することによって)生成され、出力ビットストリームエンコーダによって再符号化される。SVC動きベクトルの生成及び再符号化は、エラーが導入されることのないCDT400を用いて好適に実行できる。
SVC残差変換係数、すなわち要求されたSN比分解能に対応するSVC変換係数は、(ベース層変換係数及びエンハンスメント層変換係数を加算することによって)生成され出力ビットストリームエンコーダによって再符号化される。更に、SVCエンコーダを制御できるならば、CGSとFGSを区別することは有用である。CGSが使用され、且つSVCエンコーダが制御できる場合のみ、H.264シンタクス内に対応するカウンタパートを有する量子化された変換係数を選択できる。この対応性は、通常、H.264及びSVCの量子化値の差分が6又は6の整数倍の場合に成立する。したがって、量子化値における差分がこれに該当すれば、トランスコードのためにCDT400を用いることができる。一手法として、H.264ビットストリームのビットレートは高くなるが、SVCの変換係数レベルを正確に表すようにH.264の量子化パラメータを適切に選択することによって、トランスコードによるドリフトを回避することができる。ドリフトを回避するための他の手法として、SVCのビットレートは高くなるが、SVCにおける変換係数を再構築する規則を変更し、H.264におけるビットレート効率が高い表現を可能にしてもよい。これらの手法の両方によって、ドリフトを生じることなく、CDT400を用いてトランスコードを実行できる。2つの手法の何れも使用されない場合、通常、SVC係数とH.264係数との間に差分が生じ、導入されたドリフトを追跡する必要がある。これは、PDRT300を用いて実行できる。以下では、上で検討したケースの具体例について説明する。
出力ビットストリームエンコーダが、(例えば、図6に示すように、QP(X’)を用いて)SVC変換係数を正確に表すことができる場合、入力ビデオエンコーダと出力ビデオデコーダとの間にドリフトは生じない。エンハンス層のQPとベース層のQPとの間の差分が6の整数倍となるように量子化パラメータを選択することによって、又は正確な表現のための条件が満たされるSVC量子化パラメータ及びH.264量子化パラメータの他の組を選択することによって、又はSVC生成規則(すなわち、ベース層変換係数及びエンハンスメント層変換係数から、最終的な変換係数をどのように決定するかを定める規則)を変更することによって、正確な表現を実現できる。規則の変更は、所定のビットレート制約内で、H.264の逆スケーリング法を用いて、得られるSVC変換係数が誤差なしで表現されるように行わなくてはならない。
この他の場合、すなわち、出力ビットストリームエンコーダが、(例えば、図6に示すように、QP(X)を用いて)SVC変換係数を正確に表現できない場合、望ましくないドリフトが生じる。但し、入力ビデオエンコーダによりトランスコード処理を予測し、及びトランスコード処理によって生じる可能性がある偏差を予測することによって、又は適切な参照ピクチャ選択又はイントラ符号化によって、ドリフトを制御できる。入力ビデオエンコーダによるドリフトの制御は、PDRT300及びCDT400の手法を適用する場合に好ましい。入力ビデオエンコーダは、トランスコード処理の予測に基づき、H.264変換係数シンタクスを用いて正確に表現できる変換係数を選択することができる。これに代えて、入力ビデオエンコーダは、トランスコード処理の予測に基づき、H.264変換係数シンタクスを用いて、小さな誤差で表現できる変換係数を選択することができる。このために、SVCエンコーダは、量子化パラメータの許容値でどのレベルを表現できるかを知る必要がある。なお、許容値の組は、トランスコードのビットレート制約条件によって与えられる。量子化パラメータの値を小さくすれば、SVC変換係数をより正確に表現できるが、H.264出力ビットストリームのビットレートが高くなる。SVCエンコーダは、多くの場合、どの量子化値を用いるか、及びどの精密値を用いるかを選択できる。このようなSVCエンコーダは、小さな偏差のみしか生じない有利な選択を行うことができる。
本願と同じ譲受人に譲渡された国際特許出願PCT/US06/028365号「System and Method for Scalable and Low-Delay Videoconferencing Using Scalable Video Coding」には、時間スケーラビリティを実現する手段として、時間的予測構造にスレッド化(threading)を導入している。更に、本願と同じ譲受人に譲渡された国際特許出願PCT/US06/061815号「Systems and Method for Error Resilience and Random Access in Video Communication Systems」は、包括的には、スケーラブルビデオ符号化を用いるビデオ通信システムにおける改善されたエラー回復及びランダムアクセスのための技術を開示しており、詳しくは、スレッド化された予測構造を開示している。特に、この国際特許出願には、スケーラブル符号化されたビデオ信号の最下位の時間的階層に対応し、再伝送等の適切なトランスポート層技術を用いて、レシーバに確実に伝送されるピクチャである「LR」ピクチャが説明されている。
ここに開示されている又は同様のビデオ通信システムのエンコーダは、可能性があるトランスコードを予測し、時間的なレベルがより上位のピクチャ(L1、L2、…、LNピクチャ)とは異なるように、LRピクチャについて、SVCビットストリームを制限することを選択できる。LRピクチャについては、好ましくは、ドリフトが全く生じないようにトランスコード法が選択され、圧縮領域のトランスコード処理(CDT400)を実行できるようにする。この選択により、LRピクチャについては、幾つかの制約及びビットレートオーバヘッドが生じる。これに代えて、ドリフトが生じるようにSVCビットストリームが生成される場合、PDRT300の処理によってドリフトを判定し、低減する必要がある。
LRピクチャではないピクチャについては、エンコーダは、自由にビットストリームの構造を選択でき、通常、変換係数レベルが正確に表現できるようなSVC表現を強制し、又はドリフトを生じさせないといった義務はない。この理由は、これらの(非LR)ピクチャは、時間的に入れ子にされ、これらの空間−時間的エラー伝搬は、非常に限定的であるためである。換言すれば、トランスコードの手法(FDRT、PDRT、CDT)は、ピクチャ毎に選択することができる。また、この選択は、ピクチャがLRピクチャであるか否か、又はピクチャが空間又はSN比分解能のエンハンスメントであるか否かに基づいて行うことができる。
PDRT300を用いる場合、トランスコーダ(例えば、トランスコーダ110)自体でもドリフトを制御することができる。このような制御のために、トランスコーダは、現在のピクチャについて、動きベクトルを用いて、累積されたドリフトエラーを監視し、トランスコードされた(出力ビデオ信号の)参照ピクチャと、入力ビデオ参照ピクチャとの間の差分から動き補償を行ってもよい。トランスコーダは、現在のピクチャのSVC変換係数を概算する際、入力ビデオ信号のSVC変換係数に加算することによって、この動き補償された差分信号を考慮に入れる。このドリフト制御の手法は、当分野では周知である。
H.264からSVCへのトランスコード(ケース「Q+」)では、通常、PDRT300を用いてトランスコードを行う必要がある。この場合、最高の出力ビデオ品質に加えて、下位の出力ビデオ品質も要求されていると仮定してもよい。トランスコードのために、H.264の動きベクトルは、SVCビットストリームのベース層、エンハンスメント層、及び(場合によっては)残りの動きベクトルといった様々なSVC動きベクトルに分割することができる。幾つかの成分への分割は、空間的に行ってもよく、又は全てのSVC動きベクトル成分の合計がH.264動きベクトルとなるように行ってもよく、又はこれらの組合せによって実現してもよい。残りの動きベクトルは、SVCビットストリームの一部としては送信されない。
これに代えて、H.264変換係数を、SVCビットストリームのベース層、エンハンスメント層、及び(場合によっては)残りの変換係数といった様々なSVC変換係数に分割してもよい。幾つかの成分への分割は、周波数に基づいて行ってもよく、又は全てのSVC変換係数成分の合計がH.264変換係数となるように行ってもよく、又はこれらの組合せによって実現してもよい。残りの係数は、SVCビットストリームの一部としては送信されない。
上述した2つのケースの特別な分割は、以下に説明する意志決定のためのレート−歪み最適化アルゴリズムの一部であってもよい。
レート−歪み最適化アルゴリズムによって、入力H.264ビットストリームより低いSN比を有する全ての再構築ポイントにおいて、効率的な分割を判定できる。ピクチャ内において、トランスコードは、イントラ符号化パートに影響することもあり、インター符号化パートに影響することもある。イントラ符号化パートについては、残差変換係数は、ベース層変換係数及びエンハンスメント層変換係数に分割してもよい。なお、H.264入力ビットストリームに等しいエンハンスメント層を有する2層の具体例では、ベース層係数は、好ましくは、H.264量子化値に6を加えた量子化値で符号化される。この係数は、6が加えられた量子化値を用いてH.264入力変換係数を量子化することによって得られる。SVCの量子化値は、通常、「レート−歪み最適化(Rate-Distortion Optimization:RDO)」と呼ばれる処理によって選択される。この処理では、量子化値は、D+λ*Rを最小化することによって選択される。ここで、トランスコードDは、H.264入力とSVC出力との間のドリフトに対応し、Rは、SVC出力のレートに対応し、λは、DとRの間のトレードオフを提供するラグランジュパラメータ(正値)である。したがって、トランスコーダは、出力表現のための様々なオプションに亘ってD+λ*Rを最小化するように動作してもよい。SVCでは、イントラ予測は、ベース層のみで実行されるため、イントラトランスコードによって、ドリフトが生成される。このドリフトを回避するオプションは、SVCにおけるイントラ予測を変更し、エンハンスメント層内の参照サンプルも使用することである。
インター符号化のためのレート−歪み最適化アルゴリズムにおける手法は、ドリフトを制御する必要があるイントラ符号化におけるトランスコードのケースと同様である。インター符号化の場合、D+λ*Rの最小化は、一組の動きベクトルも含む。残差変換係数は、ベース層変換係数及びエンハンスメント層変換係数に分割される。なお、H.264入力ビットストリームに等しいエンハンスメント層を有する2層の具体例では、ベース層係数は、好ましくは、H.264量子化値に6を加えた量子化値で符号化される。この係数は、6が加えられた量子化値を用いてH.264入力変換係数を量子化することによって得られる。また、動きベクトルも、ベース層動きベクトル及びエンハンスメント層動きベクトルに分割される。上述と同様に、量子化値は、D+λ*Rを最小化することによって量子化値を選択するRDO処理によって選択される。ここで、トランスコードDは、H.264入力とSVC出力との間のドリフトに対応し、Rは、SVC出力のレートに対応し、λは、DとRの間のトレードオフを提供するラグランジュパラメータ(正値)である。したがって、トランスコーダは、出力表現のための様々なオプションに亘ってD+λ*Rを最小化するように動作してもよい。
要約すれば、トランスコードの準備のために、SVCエンコーダは、H.264入力分解能と同じではない、出力のために要求されている様々なSN比分解能のためのハイブリッド符号化ループを閉じる必要がある。様々なSN比分解能は、H.264動きベクトル及びH.264変換係数の分割に対応する。したがって、(入力分解能とは異なる)特定のSN比分解能では、動き補償されたSN比分解能と現在のSN比分解能との間でドリフトが生じる。ドリフトは、SVC変換係数が失われるために生じ、映像の歪みを回避するためには、これを追跡し、補償する必要がある。更に、SVCエンコーダにおいて、デブロッキングフィルタを調整して使用することによって、ドリフトを最小化するようにしてもよい。本発明では、この追跡を各層内で実行し、レート−歪み最適化を用いて、パフォーマンスを最適化する。
SVCからSVCへのトランスコード(ケース「Q=」)では、トランスコードにおいて、PDRT300の手法を用いる必要がある。この場合、最高の入力ビデオ品質より低い最高の出力ビデオ品質に加えて、下位の出力ビデオ品質も要求されていると仮定してもよい。下位の出力ビデオ品質が、下位の入力ビデオ品質と同じである場合、最高のビデオ品質のトランスコードは、H.264からSVCへのトランスコード(ケース「Q+」)について上述したレートシェーピング又は最適化アルゴリズムと同様である。ケース「Q=」における相違は、H.264の変換係数又は変換係数予測誤差が、最上位の層の係数精密値を含む場合があり、同様に、H.264の動きベクトル及び動きベクトル予測誤差が、最上位の層の動きベクトル精密値を含む場合がある点である。SVCからSVCへの他の全てのトランスコードのケースには、同様の相違が存在する。なお、トランスコーダは、必要であれば、出力ビデオ信号の要求によって(例えば、最高の時間スケーラビリティ層より低い層が望まれる場合)、トランスコードの前に、入力ビデオ信号のより上位の層の幾つかを削除してもよい。
次に、出力ビデオ信号の空間分解能について特別な要求がある出力ビットストリームへのトランスコードのケース(トランスコードタイプ「S」)を説明する。SVCへのトランスコードを行う場合、(空間スケーラビリティについて)一組の下位の空間分解能へのトランスコードも要求されると仮定してもよい。時間分解能及びSN比分解能は、入力ビットストリームと出力ビットストリームの間で同じであると仮定してもよい。
SVCにおける複数の空間分解能の表現は、SN比スケーラビリティと同様の手法で(すなわち、マクロブロックタイプ、動きベクトル、イントラコンテンツ及びインター符号化残差の予測によって)実現される。複数の空間分解能の表現における唯一の相違は、下位の層の符号化データを、使用することが望まれる上位の分解能にスケーリング又はアップサンプリングする必要があるという点である。マクロブロックタイプ及び動きベクトルの予測は、ビットレートを低減するために設計された可逆処理であり、H.264シンタクスを用いて正確に表現することができる。動きベクトル精密値は、送信された更なる動きベクトルから構成され、この更なる動きベクトルは、先に送信及びスケーリングされているベース動きベクトルに加算され、これにより得られる動きベクトルは、H.264シンタクスを用いて正確に表現することができる。イントラコンテンツ予測では、ベース層からのイントラ符号化された信号をアップサンプリングし、ベース層信号は、H.264に準拠するイントラマクロブロックの予測であってもよく、後述するように、SVCに準拠するイントラマクロブロックの表現であってもよい。
なお、H.264に準拠するイントラマクロブロックは、4×4、8×8又は16×16の輝度画素ブロックサイズに基づいて動作する空間予測子と、これに続く符号化された残差信号と、オプションとして、これに続くイントラマクロブロックのデブロッキングとから構成される。SVCに準拠するイントラマクロブロックは、H.264に準拠するイントラマクロブロックと、これに続く、残差信号とから構成され、残差信号は、アップサンプリングされたH.264に準拠する又はSVCに準拠するイントラマクロブロックによって形成される予測子に、SN比エンハンスメントとして加算される。H.264又はSVCに準拠するイントラマクロブロックからの予測を用いて符号化されるSVCに準拠するマクロブロックの変換係数は、H.264シンタクスを用いて近似的に表現できる。
インター符号化残差予測では、ベース層からのインター符号化残差をアップサンプリングし、これに続いて、SN比エンハンスメントとして、予測子に残差信号を加算する。
SVCからH.264へのトランスコード(ケース「S−」)では、トランスコードにおいて、通常、PDRT300を用いる必要がある。トランスコードのために、要求されたH.264空間分解能に最も近いSVCの空間層がビットストリームから抽出される。このSVC層の空間分解能が要求されたH.264空間分解能と同じである場合(これは、トランスコードを予測するSVCエンコーダによって確認できる)、トランスコードにおいて、PDRT300を用いることができる。この他の場合、すなわち、2つの層の空間分解能が異なる場合、トランスコードにおいて、完全な復号/再符号化処理を必要となることがある。
トランスコードにおいて、部分的な復号/再符号化処理が使用される場合(例えば、PDRT300技術を用いる場合)、マクロブロックは、H.264シンタクスを用いては表現できず、トランスコードする必要がある。これらのマクロブロックは、主に、Intra_BL予測及び残差予測を含むマクロブロックである。これにより得られる変換係数は、H.264シンタクスを用いて近似させる必要がある。更に、このような場合、トランスコーダによってドリフトを制御する必要がある。これは、所定の出力品質分解能のためのSVCからH.264へのトランスコード(ケース「Q」)について上述した手法と同様の手法で実行できる。ドリフトを制御するために、所定のレート制約条件について、各層に適用されるレート−歪み最適化アルゴリズムによって、入力と出力との間の差分を最小化してもよい。このアルゴリズムは、通常、(インター符号化及びイントラ符号化のための)量子化パラメータ及び(インター符号化のみのための)動きベクトルを可能な変数として、上述したものと同様のアルゴリズムであってもよい。
H.264からSVCへのトランスコード(ケース「S+」)では、トランスコードにおいて、FDRT200を用いる必要がある。但し、トランスコード処理を改善するために、H.264からの幾つかの動きベクトルを再使用してもよい。
SVCからSVCへのトランスコード(ケース「S=」)では、トランスコードにおいて、FDRT200を用いてもよく、PDRT300を用いることも可能である。この場合、要求される出力ビデオ解像度は、使用可能な入力ビデオ解像度より高くても低くてもよい(例えば、CSVCSにおいて、1つのビデオ信号のピクチャサイズを20%大きくする)。トランスコードの基礎となる入力空間分解能は、要求された出力分解能に最も近い下位の空間分解能になるように選択される。トランスコード処理では、下位の分解能(例えば、20%)からの適切なスケーリング係数を含む予測子を生成する。符号化される元の信号は、アップサンプリングされた下位の分解能の信号であってもよく、(使用可能であれば)ダウンサンプリングされた上位の分解能の信号であってもよい。SVC再符号化は、下位の層の予測情報及びドリフトを補償するために符号化された残差を再使用することによって実行してもよい。
通常は、動き推定を避けることができる。
続いて、出力ビデオ信号のSN比分解能及び時間分解能について特別な要求がある出力ビットストリームへのトランスコードのケース(トランスコードタイプ「Q/T」)を説明する。この場合、SVCへのトランスコードを行う際、(SN比スケーラビリティ及び時間スケーラビリティのために)一組の下位のSN比分解能及び時間分解能が要求される場合がある。入力ビットストリームと出力ビットストリームとの間で、空間分解能は同じであると仮定してもよい。
SVCからH.264へのトランスコード(ケース「Q/T−」)では、SVCエンコーダは、要求された時間的な出力分解能を予測すると仮定してもよい。したがって、トランスコードケース「Q−」のための手法及び技術をケース「Q/T−」に適用できる。
H.264からSVCへのトランスコード(ケース「Q/T+」)では、H.264入力ビットストリームにおいて階層的な時間的予測構造が使用されていない場合、トランスコードにおいて、FDRT200を用いる必要がある。階層的な時間的予測構造が使用されている場合は、PDRT300を含むQ+のトランスコードケースに適用可能なトランスコードの手法及び技術を適用でき、又はピクチャ毎にトランスコード技術の適用を切り替えてもよい。階層的な時間的予測構造が使用されていない場合、トランスコーダは、SN比スケーラビリティについて符号化効率を向上させるために、このような階層的な時間的予測構造を挿入してもよい。
SVCからSVCへのトランスコード(ケース「Q/T=」)では、SVCエンコーダは、要求された時間的な出力分解能を予測すると仮定してもよい。したがって、ケース「Q=」のための手法をケース「Q/T=」に適用できる。
スケーラブルな時間的階層が使用されている場合、圧縮領域におけるトランスコードの実施の形態(例えば、CDT400)と、完全な復号/再符号化の実施の形態及び部分的な復号/再符号化の実施の形態(例えば、FRDT200及びPRDT300)とを組み合わせることが実用的であり、望ましいことがある。例えば、SVCからの時間的なベース層を複製してもよく、時間的なエンハンスメント層は、部分的な復号/再符号化の実施の形態又は圧縮領域の実施の形態を用いて、トランスコードしてもよく、又は、例えば、スキップされたピクチャ等の他の予め符号化されたビットストリームによって置換してもよい。
続いて、出力ビデオ信号の空間分解能及び時間分解能について特別な要求がある出力ビットストリームへのトランスコードのケース(トランスコードタイプ「S/T」)を説明する。SVCへのトランスコードを行う際、(空間的スケーラビリティ及び時間スケーラビリティのために)一組の下位の空間分解能及び時間分解能が要求される場合がある。入力ビットストリームと出力ビットストリームとの間で、SN比分解能は同じであると仮定してもよい。
SVCからH.264へのトランスコード(ケース「S/T−」)では、SVCエンコーダは、要求された時間的な出力分解能を予測すると仮定してもよい。したがって、トランスコードケース「S−」のための手法及び技術をケース「S/T−」に適用できる。
H.264からSVCへのトランスコード(ケース「S/T+」)では、トランスコードにおいて、FDRT200を用いる必要がある。
SVCからSVCへのトランスコード(ケース「S/T=」)では、SVCエンコーダは、要求された時間的な出力分解能を予測すると仮定してもよい。したがって、ケース「S=」のための手法をケース「S/T=」に適用できる。
最後に、トランスコードケース「S/Q/T」について説明する。このようなケースのトランスコードは、本発明の原理に基づき、タイプ「Q/T」を適用し、これに続いて「S」又は「S/T」を適用し、次に「Q」を適用することによって行うことができる。ケース「Q/T」、「S」、「S/T」、「Q」のためのトランスコードについては、上述した通りである。したがって、説明を簡潔にするために、ケース「S/Q/T」のためのトランスコードについては、同様の記述を繰り返さない。
上述した全ての組合せのためのトランスコーダは、ビットストリームのエラー回復力を高める又は低めるシンタクス要素を挿入するように動作してもよい。このようなシンタクス要素には、マクロブロックモード(イントラマクロブロック及びインターマクロブロック)、イントラ予測信号、動きベクトル及び残差変換係数等が含まれる。更に、トランスコーダは、ビットストリームにスライスを追加してもよく、ビットストリームからスライスを削除してもよい。
上述した全ての組合せのためのトランスコーダは、異なるネットワークを介して送信されるようにビットストリームを調整できる。これらのネットワークには、RTP/IP、ISDN及びH.324M回路交換網が含まれる。トランスコーダは、エラー回復のためにシンタクス要素を調整してもよく、MTUサイズ制限又は伝送エラーのための調整、及び他の理由のためにスライスのサイズを変更してもよい。
上述した全ての組合せのためのトランスコーダは、SVC及びH.264の異なるプロファイルに適合するように、ビットストリームを調整できる。
出力ビットストリームがSVC規格に準拠する場合、トランスコーダにCSVCSの機能(本願と同じ譲受人に譲渡された国際特許出願PCT/US06/62569号に開示されている。)を結合してもよい。この構成では、トランスコーダは、(H.261、H.263、H.264又はSVCに基づいて符号化された)複数の入力ビットストリームを受信し、上述した全ての変換技術(T+、Q+、S+、Q/T+、S/T+、S/Q/T+)を適用した後、標準のCSVCS技術を用いて、単一のSVC出力ビットストリームに結合するように動作してもよい。
ここに開示した好ましい実施の形態は、H.264SVCドラフト仕様書に基づいているが、本発明の技術は、空間、品質又は時間のスケーラビリティを提供する如何なる符号化構造にも直接適用できることは、当業者にとって明らかである。
更に、本発明のシステム及び方法において、ここに開示したトランスコード技術は、ハードウェア及びソフトウェアの適切な如何なる組合せを用いて実現してもよい。上述したトランスコード技術を実現し、動作させるソフトウェア(すなわち、命令)は、コンピュータにより読取可能な媒体を介して提供でき、このような媒体は、以下に限定されるわけではないが、ファームウェア、メモリ、ストレージ装置、マイクロコントローラ、マイクロプロセッサ、集積回路、ASICS、オンラインでダウンロード可能なメディア及び他の利用可能なメディアを含むことができる。
本発明の原理に基づくトランスコードシステムの総合的なアーキテクチャを示すブロック図である。 本発明の原理に基づく完全な復号及び再符号化を用いる例示的なトランスコードシステムを示すブロック図である。 本発明の原理に基づく部分的な復号及び再符号化を用いる例示的なトランスコードシステムを示すブロック図である。 本発明の原理に基づく圧縮領域における処理を用いる例示的なトランスコードシステムを示すダイヤグラムである。 本発明の原理に基づき、ベース層動きベクトルとエンハンスメント層動きベクトルの加算によって、変換されたSVC動きベクトルを生成する例示的な処理を説明する図である。 本発明の原理に基づき、ベース層変換係数とエンハンスメント層変換係数の加算によって、変換されたSVC変換係数を生成する例示的な処理を説明する図である。

Claims (77)

  1. 少なくとも1つのデジタルビデオ信号入力及び少なくとも1つのデジタルビデオ信号出力を有するビデオ処理ユニット(「トランスコーダ」)を備え、
    前記トランスコーダの入力ビデオ符号化フォーマットは、SVCでり、前記トランスコーダの出力ビデオ符号化フォーマットは、H.264であり、
    前記トランスコーダは、異なる層において個別に符号化されている、前記少なくとも1つのデジタルビデオ信号入力の個々の層符号化パラメータを復号及び結合し、前記少なくとも1つの出力ビデオ信号において、前記少なくとも1つのデジタルビデオ信号出力が、入力品質分解能以下の所望の品質分解能を有するように、前記結合されたパラメータを単一の値に符号化するデジタルビデオ信号処理システム。
  2. 前記個々の層符号化パラメータは、変換係数データを含む請求項1記載のデジタルビデオ信号処理システム。
  3. 前記個々の層符号化パラメータは、動きベクトルデータを含む請求項1記載のデジタルビデオ信号処理システム。
  4. 入力ビデオ信号の符号化において、周期的なイントラマクロブロック及びスレッド化された時間的予測構造のうちの少なくとも1つを用いて、トランスコードドリフトを最小化する請求項1記載のデジタルビデオ信号処理システム。
  5. 少なくとも1つのデジタルビデオ信号入力及び少なくとも1つのデジタルビデオ信号出力を有するビデオ処理ユニット(「トランスコーダ」)と、
    少なくとも1つの入力ビデオエンコーダと、
    前記少なくとも1つの入力ビデオエンコーダを前記トランスコーダにリンクする電子通信ネットワークとを備え、
    前記入力ビデオエンコーダのビデオ符号化フォーマットは、SVCであり、前記トランスコーダの入力ビデオ符号化フォーマットは、SVCであり、前記トランスコーダの出力ビデオ符号化フォーマットは、H.264であり、
    前記入力ビデオエンコーダは、更に、SVC符号化データに含まれる少なくとも1つのピクチャについて、SVC符号化データがH.264によって正確に表現されるように構成され、
    前記トランスコーダは、更に、異なる層において個別に符号化されている、前記少なくとも1つの入力信号の個々の層符号化パラメータを復号及び結合し、前記少なくとも1つの出力ビデオ信号において、前記少なくとも1つの出力ビデオ信号が、入力品質分解能以下の所望の品質分解能を有するように、前記結合されたパラメータを単一の値に符号化するデジタルビデオ信号処理システム。
  6. 前記個々の層符号化パラメータは、変換係数データを含む請求項5記載のデジタルビデオ信号処理システム。
  7. 前記個々の層符号化パラメータは、動きベクトルデータを含む請求項5記載のデジタルビデオ信号処理システム。
  8. 前記入力ビデオエンコーダは、更に、連続するSVC層におけるブロックの変換係数データのQP差分が6の倍数となるように構成されている請求項5記載のデジタルビデオ信号処理システム。
  9. 前記入力ビデオエンコーダは、更に、少なくとも最下位の時間的階層(LR)のピクチャについて、SVC符号化データがH.264によって正確に表現されるように構成されている請求項5記載のデジタルビデオ信号処理システム。
  10. 少なくとも1つのデジタルビデオ信号入力及び少なくとも1つのデジタルビデオ信号出力を有するビデオ処理ユニット(「トランスコーダ」)を備え、
    前記トランスコーダの入力ビデオ符号化フォーマットは、H.264であり、前記トランスコーダの出力ビデオ符号化フォーマットは、SVCであり、
    前記トランスコーダは、少なくとも1つの入力信号の個々の層符号化パラメータを複数のコンポーネントに分割し、少なくとも1つの出力ビデオ信号が、少なくとも、入力品質分解能より低い所望の品質分解能を有するように、少なくとも1つの出力ビデオ信号の異なる層に亘って、前記複数のコンポーネントの全部又は一部を個別に符号化するデジタルビデオ信号処理システム。
  11. 前記個々の層符号化パラメータは、変換係数データを含む請求項10記載のデジタルビデオ信号処理システム。
  12. 前記変換係数データの分割されたコンポーネントは、異なる周波数に対応する係数データ、互いに加算されると元の係数データ値になる値の組、及びこれらの組合せのうちの少なくとも1つを含む請求項11記載のデジタルビデオ信号処理システム。
  13. 前記少なくとも1つの出力ビデオ信号の層における変換係数データの符号化は、連続する層におけるブロックのQP差分が6の倍数となるように行われる請求項11記載のデジタルビデオ信号処理システム。
  14. 前記個々の層符号化パラメータは、動きベクトルデータを含む請求項10記載のデジタルビデオ信号処理システム。
  15. 前記動きベクトルデータの分割されたコンポーネントは、異なる空間的位置に対応する動きベクトルデータ、互いに加算されると元の動きベクトルデータになる値の組、及びこれらの組合せのうちの少なくとも1つを含む請求項14記載のデジタルビデオ信号処理システム。
  16. 前記トランスコーダは、更に、各層内のドリフトに対応する歪みに基づき、各層内でレート−歪み最適化を用いて、少なくとも1つの入力信号の個々の層符号化パラメータを分割する請求項10記載のデジタルビデオ信号処理システム。
  17. 前記入力ビデオ信号の符号化フォーマットは、更に、エンハンスメント層において基準サンプルを用いてイントラ予測を実行してトランスコードドリフトを除去するように構成されている請求項10記載のデジタルビデオ信号処理システム。
  18. 少なくとも1つのデジタルビデオ信号入力及び少なくとも1つのデジタルビデオ信号出力を有するビデオ処理ユニット(「トランスコーダ」)を備え、
    前記トランスコーダの入力ビデオ符号化フォーマットは、SVCであり、前記トランスコーダの出力ビデオ符号化フォーマットは、SVCであり、前記入力ビデオ符号化フォーマットの最上位の層を除いて、入力ビデオ符号化フォーマットと同じ空間分解能、時間分解能及び品質分解能を有し、
    前記トランスコーダは、少なくとも1つの入力信号の最上位の層符号化パラメータを複数のコンポーネントに分割し、少なくとも1つの出力ビデオ信号が、少なくとも1つの入力ビデオ信号の最上位の層の品質分解能より低い所望の品質分解能を有するように、少なくとも1つの出力ビデオ信号の異なる層に亘って、前記複数のコンポーネントの全部又は一部を個別に符号化するデジタルビデオ信号処理システム。
  19. 前記個々の層符号化パラメータは、変換係数データ及びその精密値を含む請求項18記載のデジタルビデオ信号処理システム。
  20. 前記変換係数データの分割されたコンポーネントは、異なる周波数に対応する変換係数又はその精密値、互いに加算されると元の係数又は精密値になる値の組、及びこれらの組合せのうちの少なくとも1つを含む請求項19記載のデジタルビデオ信号処理システム。
  21. 前記少なくとも1つの出力ビデオ信号の層における変換係数又はその精密値の符号化は、連続する層におけるブロックのQP差分が6の倍数となるように行われる請求項19記載のデジタルビデオ信号処理システム。
  22. 前記個々の層符号化パラメータは、動きベクトルデータ又はその精密値を含む請求項18記載のデジタルビデオ信号処理システム。
  23. 前記動きベクトルデータの分割されたコンポーネントは、異なる空間的位置に対応する動きベクトルデータ又はその精密値、互いに加算されると元の動きベクトルデータ又は精密値になる値の組、及びこれらの組合せのうちの少なくとも1つを含む請求項22記載のデジタルビデオ信号処理システム。
  24. 前記トランスコーダは、更に、各層内のドリフトに対応する歪みに基づき、各層内でレート−歪み最適化を用いて、少なくとも1つの入力信号の個々の層符号化パラメータを分割する請求項18記載のデジタルビデオ信号処理システム。
  25. 前記入力ビデオ信号の符号化フォーマットは、更に、エンハンスメント層において基準サンプルを用いてイントラ予測を実行してトランスコードドリフトを除去するように構成されている請求項18記載のデジタルビデオ信号処理システム。
  26. 少なくとも1つのデジタルビデオ信号入力及び少なくとも1つのデジタルビデオ信号出力を有するビデオ処理ユニット(「トランスコーダ」)を備え、
    前記トランスコーダの入力ビデオ符号化フォーマットは、SVCであり、前記トランスコーダの出力ビデオ符号化フォーマットは、H.264であり、入力ビデオ符号化フォーマットが提供する空間分解能内にある空間分解能を有し、
    前記トランスコーダは、異なる層において個別に符号化されている、前記少なくとも1つの入力信号の個々の層符号化パラメータを復号及び結合し、出力ビデオ符号化フォーマットにおいて、同等なシンタクスが使用可能である場合、少なくとも1つの出力ビデオ信号において、前記結合されたパラメータを単一の値に符号化し、出力ビデオ符号化フォーマットにおいて、正確な符号化を使用できない場合、少なくとも1つの出力ビデオ信号において、前記結合されたパラメータの近似値を符号化するデジタルビデオ信号処理システム。
  27. 前記個々の層符号化パラメータは、変換係数データを含む請求項26記載のデジタルビデオ信号処理システム。
  28. 前記個々の層符号化パラメータは、動きベクトルデータを含む請求項26記載のデジタルビデオ信号処理システム。
  29. 前記トランスコーダは、更に、ドリフトに対応する歪みに基づき、レート−歪み最適化を用いて、少なくとも1つの入力ビデオ信号の結合されたパラメータの近似値を符号化する請求項26記載のデジタルビデオ信号処理システム。
  30. 入力ビデオ信号の符号化において、周期的なイントラマクロブロック及びスレッド化された時間的予測構造のうちの少なくとも1つを用いて、トランスコードドリフトを最小化する請求項26記載のデジタルビデオ信号処理システム。
  31. 少なくとも1つのデジタルビデオ信号入力及び少なくとも1つのデジタルビデオ信号出力を有するビデオ処理ユニット(「トランスコーダ」)を備え、
    前記トランスコーダの入力ビデオ符号化フォーマットは、SVCであり、前記トランスコーダの出力ビデオ符号化フォーマットは、SVCであり、入力ビデオ符号化フォーマットと同じ時間分解能及び品質分解能、並びに出力ビデオ符号化フォーマットの望まれる最高の空間分解能(「望まれる出力分解能」)に最も近い空間分解能以下の入力ビデオ符号化フォーマットの空間分解能(「最も近い入力分解能」)を有し、
    前記トランスコーダは、前記望まれる出力分解能に最も近い入力分解能を有する入力ビデオ信号層を適切にアップサンプリング又はダウンサンプリングし、望まれる出力分解能に適切にスケーリングされ、導入されたドリフトを補償するように符号化された残差を含む最も近い入力分解能を有する前記入力ビデオ信号層の符号化データからの予測子を用いて、前記アップサンプリング又はダウンサンプリングされたデータを符号化するように構成されているデジタルビデオ信号処理システム。
  32. 前記トランスコーダは、更に、ドリフトに対応する歪みに基づき、レート−歪み最適化を用いて、残差を符号化する請求項31記載のデジタルビデオ信号処理システム。
  33. 前記入力ビデオ信号の符号化において、周期的なイントラマクロブロック及びスレッド化された時間的予測構造のうちの少なくとも1つを用いて、トランスコードドリフトを最小化する請求項31記載のデジタルビデオ信号処理システム。
  34. 前記予測子は、動きベクトルデータを含む前記少なくとも1つの出力ビデオ信号の符号化は、更なる動き推定を実行することなく行われる請求項31記載のデジタルビデオ信号処理システム。
  35. 少なくとも1つのデジタルビデオ信号入力及び少なくとも1つのデジタルビデオ信号出力を有するビデオ処理ユニット(「トランスコーダ」)を備え、
    前記トランスコーダの入力ビデオ符号化フォーマットは、時間スケーラビリティをサポートし、前記トランスコーダの出力ビデオ符号化フォーマットは、時間スケーラビリティをサポートし、入力ビデオ符号化フォーマットの時間分解能の少なくとも1つが出力ビデオ符号化フォーマットの所望の時間分解能に含まれており、
    前記トランスコーダは、如何なる所望の出力時間分解能にも対応しない少なくとも1つの入力ビデオ信号の層を不要な時間的階層として削除することによって、少なくとも1つの出力ビデオ信号について時間分解能の所望の組を生成し、データが所望の出力時間分解能に対応する場合、少なくとも1つの入力ビデオ信号からのデータを少なくとも1つの出力ビデオ信号ピクチャデータにコピーし、少なくとも1つの入力ビデオ信号に存在していない所望の出力時間分解能について予め符号化された情報を送信するデジタルビデオ信号処理システム。
  36. 前記予め符号化された情報は、スキップデータから構成される請求項35記載のデジタルビデオ信号処理システム。
  37. 少なくとも1つのデジタルビデオ信号入力及び少なくとも1つのデジタルビデオ信号出力をトランスコードする方法において、入力ビデオ符号化フォーマットがSVCであり、出力ビデオ符号化フォーマットがH.264であり、当該方法は、
    異なる層において個別に符号化されている、前記少なくとも1つのデジタルビデオ信号入力の個々の層符号化パラメータを復号及び結合するステップと、
    前記少なくとも1つの出力ビデオ信号において、前記少なくとも1つのデジタルビデオ信号出力が、入力品質分解能以下の所望の品質分解能を有するように、前記結合されたパラメータを単一の値に符号化するステップとを有する方法。
  38. 前記個々の層符号化パラメータは、変換係数データを含む請求項37記載の方法。
  39. 前記個々の層符号化パラメータは、動きベクトルデータを含む請求項37記載の方法。
  40. 前記入力ビデオ信号の符号化において、周期的なイントラマクロブロック及びスレッド化された時間的予測構造のうちの少なくとも1つを用いて、トランスコードドリフトを最小化するステップを更に有する請求項37記載の方法。
  41. トランスコーダにおいて、少なくとも1つのデジタルビデオ信号出力にトランスコードするために、電子通信ネットワークを介して、トランスコーダに、少なくとも1つのデジタルビデオ信号入力を符号化する方法において、入力ビデオ符号化フォーマットは、SVCであり、出力ビデオ符号化フォーマットは、H.264であり、当該方法は、
    SVC符号化データに含まれる少なくとも1つのピクチャがH.264によって正確に表現できるSVC符号化データとして、少なくとも1つのデジタルビデオ信号入力を符号化するステップと、
    前記トランスコーダにおいて、異なる層において個別に符号化されている、前記少なくとも1つのデジタルビデオ信号入力の個々の層符号化パラメータを復号及び結合し、前記少なくとも1つの出力ビデオ信号において、前記少なくとも1つのデジタルビデオ信号出力が、入力品質分解能以下の所望の品質分解能を有するように、前記結合されたパラメータを単一の値に符号化するステップとを有する方法。
  42. 前記個々の層符号化パラメータは、変換係数データを含む請求項41記載の方法。
  43. 前記個々の層符号化パラメータは、動きベクトルデータを含む請求項41記載の方法。
  44. 連続するSVC層におけるブロックの変換係数データのQP差分が6の倍数となるように符号化を行うステップを更に有する請求項41記載の方法。
  45. 更に、少なくとも最下位の時間的階層(LR)のピクチャについて、SVC符号化データがH.264によって正確に表現されるように符号化を行うステップを更に有する請求項41記載の方法。
  46. 少なくとも1つのデジタルビデオ信号入力及び少なくとも1つのデジタルビデオ信号出力をトランスコードする方法において、入力ビデオ符号化フォーマットがSVCであり、出力ビデオ符号化フォーマットがH.264であり、当該方法は、
    少なくとも1つの入力信号の最上位の層の層符号化パラメータを複数のコンポーネントに分割するステップと、
    少なくとも1つの出力ビデオ信号が、少なくとも1つの入力ビデオ信号の最上位の層の品質分解能より低い所望の品質分解能を有するように、少なくとも1つの出力ビデオ信号の異なる層に亘って、前記複数のコンポーネントの全部又は一部を個別に符号化するステップとを有する方法。
  47. 前記個々の層符号化パラメータは、変換係数データを含む請求項46記載の方法。
  48. 前記変換係数データの分割されたコンポーネントは、異なる周波数に対応する係数データ、互いに加算されると元の係数データ値になる値の組、及びこれらの組合せのうちの少なくとも1つを含む請求項47記載の方法。
  49. 前記少なくとも1つの出力ビデオ信号の層における変換係数データの符号化は、連続する層におけるブロックのQP差分が6の倍数となるように行われる請求項47記載の方法。
  50. 前記個々の層符号化パラメータは、動きベクトルデータを含む請求項46記載の方法。
  51. 前記動きベクトルデータの分割されたコンポーネントは、異なる空間的位置に対応する動きベクトルデータ、互いに加算されると元の動きベクトルデータになる値の組、及びこれらの組合せのうちの少なくとも1つを含む請求項50記載の方法。
  52. 少なくとも1つの入力信号の個々の層符号化パラメータを分割するステップは、各層内のドリフトに対応する歪みに基づき、各層内でレート−歪み最適化を用いるステップを含む請求項46記載の方法。
  53. 前記入力ビデオ信号の符号化フォーマットは、更に、エンハンスメント層において基準サンプルを用いてイントラ予測を実行してトランスコードドリフトを除去するように構成されている請求項46記載の方法。
  54. 少なくとも1つのデジタルビデオ信号入力及び少なくとも1つのデジタルビデオ信号出力をトランスコードする方法において、入力ビデオ符号化フォーマットがSVCであり、出力ビデオ符号化フォーマットがSVCであり、前記入力ビデオ符号化フォーマットの最上位の層を除いて、入力ビデオ符号化フォーマットと同じ空間分解能、時間分解能及び品質分解能を有し、当該方法は、
    少なくとも1つの入力信号の最上位の層の層符号化パラメータを複数のコンポーネントに分割するステップと、
    少なくとも1つの出力ビデオ信号が、少なくとも1つの入力ビデオ信号の最上位の層の品質分解能より低い所望の品質分解能を有するように、少なくとも1つの出力ビデオ信号の異なる層に亘って、前記複数のコンポーネントの全部又は一部を個別に符号化するステップとを有する方法。
  55. 前記個々の層符号化パラメータは、変換係数データ及びその精密値を含む請求項54記載の方法。
  56. 前記変換係数データの分割されたコンポーネントは、異なる周波数に対応する変換係数又はその精密値、互いに加算されると元の係数又は精密値になる値の組、及びこれらの組合せのうちの少なくとも1つを含む請求項55記載の方法。
  57. 前記少なくとも1つの出力ビデオ信号の層における変換係数又はその精密値の符号化は、連続する層におけるブロックのQP差分が6の倍数となるように行われる請求項55記載の方法。
  58. 前記個々の層符号化パラメータは、動きベクトルデータ又はその精密値を含む請求項54記載の方法。
  59. 前記動きベクトルデータの分割されたコンポーネントは、異なる空間的位置に対応する動きベクトルデータ又はその精密値、互いに加算されると元の動きベクトルデータ又は精密値になる値の組、及びこれらの組合せのうちの少なくとも1つを含む請求項58記載の方法。
  60. 少なくとも1つの入力信号の個々の層符号化パラメータを分割するステップは、各層内のドリフトに対応する歪みに基づき、各層内でレート−歪み最適化を用いるステップを含む請求項54記載の方法。
  61. 前記入力ビデオ信号の符号化フォーマットは、エンハンスメント層において基準サンプルを用いてイントラ予測を実行してトランスコードドリフトを除去するように構成されている請求項54記載の方法。
  62. 少なくとも1つのデジタルビデオ信号入力及び少なくとも1つのデジタルビデオ信号出力をトランスコードする方法において、入力ビデオ符号化フォーマットがSVCであり、出力ビデオ符号化フォーマットがH.264であり、入力ビデオ符号化フォーマットが提供する空間分解能内にある空間分解能を有し、当該方法は、
    異なる層において個別に符号化されている、前記少なくとも1つの入力信号の個々の層符号化パラメータを復号及び結合するステップと、
    出力ビデオ符号化フォーマットにおいて、同等なシンタクスが使用可能である場合、少なくとも1つの出力ビデオ信号において、前記結合されたパラメータを単一の値に符号化し、出力ビデオ符号化フォーマットにおいて、正確な符号化を使用できない場合、少なくとも1つの出力ビデオ信号に、前記結合されたパラメータの近似値を符号化する方法。
  63. 前記個々の層符号化パラメータは、変換係数データを含む請求項62記載の方法。
  64. 前記個々の層符号化パラメータは、動きベクトルデータを含む請求項62記載の方法。
  65. 少なくとも1つの出力ビデオ信号に、前記結合されたパラメータの近似値を符号化するステップは、ドリフトに対応する歪みに基づき、レート−歪み最適化を用いるステップを更に有する請求項62記載の方法。
  66. 周期的なイントラマクロブロック及びスレッド化された時間的予測構造のうちの少なくとも1つを用いて、トランスコードドリフトを最小化するステップを更に有する請求項62記載の方法。
  67. 少なくとも1つのデジタルビデオ信号入力及び少なくとも1つのデジタルビデオ信号出力をトランスコードする方法において、入力ビデオ符号化フォーマットがSVCであり、出力ビデオ符号化フォーマットがSVCであり、入力ビデオ符号化フォーマットと同じ時間分解能及び品質分解能、並びに出力ビデオ符号化フォーマットの望まれる最高の空間分解能(「望まれる出力分解能」)に最も近い空間分解能以下の入力ビデオ符号化フォーマットの空間分解能(「最も近い入力分解能」)を有し、
    前記望まれる出力分解能に最も近い入力分解能を有する入力ビデオ信号層を適切にアップサンプリング又はダウンサンプリングするステップと、
    望まれる出力分解能に適切にスケーリングされ、導入されたドリフトを補償するように符号化された残差を含む最も近い入力分解能を有する前記入力ビデオ信号層の符号化データからの予測子を用いて、前記アップサンプリング又はダウンサンプリングされたデータを符号化するステップとを有する方法。
  68. ドリフトに対応する歪みに基づき、レート−歪み最適化を用いて、残差を符号化するステップを更に有する請求項67記載の方法。
  69. 前記入力ビデオ信号の符号化において、周期的なイントラマクロブロック及びスレッド化された時間的予測構造のうちの少なくとも1つを用いて、トランスコードドリフトを最小化するステップを更に有する請求項67記載の方法。
  70. 前記予測子は、動きベクトルデータを含む前記少なくとも1つの出力ビデオ信号の符号化は、更なる動き推定を実行することなく行われる請求項67記載の方法。
  71. 少なくとも1つのデジタルビデオ信号入力及び少なくとも1つのデジタルビデオ信号出力をトランスコードする方法において、入力ビデオ符号化フォーマットは、時間スケーラビリティをサポートし、出力ビデオ符号化フォーマットは、時間スケーラビリティをサポートし、入力ビデオ符号化フォーマットの時間分解能の少なくとも1つが出力ビデオ符号化フォーマットの所望の時間分解能に含まれており、当該方法は、
    如何なる所望の出力時間分解能にも対応しない少なくとも1つの入力ビデオ信号の層を不要な時間的階層として削除することによって、少なくとも1つの出力ビデオ信号について時間分解能の所望の組を生成するステップと、
    データが所望の出力時間分解能に対応する場合、少なくとも1つの入力ビデオ信号からのデータを少なくとも1つの出力ビデオ信号ピクチャデータにコピーするステップと、
    少なくとも1つの入力ビデオ信号に存在していない所望の出力時間分解能について予め符号化された情報を送信するステップとを有する方法。
  72. 前記予め符号化された情報は、スキップデータから構成される請求項71記載の方法。
  73. 少なくとも1つのデジタルビデオ信号入力及び少なくとも1つのデジタルビデオ信号出力を有するビデオ処理ユニット(「トランスコーダ」)を備え、
    前記トランスコーダの出力ビデオ符号化フォーマットは、時間スケーラビリティをサポートし、前記トランスコーダは、データが所望の出力時間分解能に対応する場合、少なくとも1つの入力ビデオ信号からのデータを少なくとも1つの出力ビデオ信号ピクチャデータにコピーすることによって、少なくとも1つの出力ビデオ信号について時間分解能の所望の組を生成し、少なくとも1つの入力ビデオ信号からピクチャデータを復号し、少なくとも1つの入力ビデオ信号に存在していない所望の出力時間分解能のために、出力ビデオ信号において、前記ピクチャデータを符号化するデジタルビデオ信号処理システム。
  74. 前記出力ビデオ信号時間分解能は、スレッド化される請求項73記載のデジタルビデオ信号処理システム。
  75. 少なくとも1つのデジタルビデオ信号入力及び少なくとも1つのデジタルビデオ信号出力をトランスコードする方法において、出力ビデオ符号化フォーマットは、時間スケーラビリティをサポートし、当該方法は、
    データが所望の出力時間分解能に対応する場合、少なくとも1つの入力ビデオ信号からのデータを少なくとも1つの出力ビデオ信号ピクチャデータにコピーすることによって、少なくとも1つの出力ビデオ信号について時間分解能の所望の組を生成するステップと、
    少なくとも1つの入力ビデオ信号からピクチャデータを復号し、
    前記ピクチャデータを少なくとも1つの出力ビデオ信号に符号化し、少なくとも1つの入力ビデオ信号に存在していない所望の出力時間分解能を生成するステップとを有する方法。
  76. 前記出力ビデオ信号時間分解能は、スレッド化される請求項76記載の方法。
  77. 請求項36乃至72及び請求項75乃至76における何れかのステップを実行する一組の実行可能な命令を含むコンピュータ読取可能な媒体。
JP2009503292A 2006-03-29 2007-03-29 スケーラブルビデオコーデックと非スケーラブルビデオコーデックとの間でトランスコードを行うためのシステム及び方法 Pending JP2009544176A (ja)

Applications Claiming Priority (10)

Application Number Priority Date Filing Date Title
US78699706P 2006-03-29 2006-03-29
PCT/US2006/028368 WO2008051181A1 (en) 2006-07-21 2006-07-21 System and method for jitter buffer reduction in scalable coding
PCT/US2006/028366 WO2008082375A2 (en) 2005-09-07 2006-07-21 System and method for a conference server architecture for low delay and distributed conferencing applications
PCT/US2006/028365 WO2008060262A1 (en) 2005-09-07 2006-07-21 System and method for scalable and low-delay videoconferencing using scalable video coding
PCT/US2006/028367 WO2007075196A1 (en) 2005-09-07 2006-07-21 System and method for a high reliability base layer trunk
PCT/US2006/061815 WO2007067990A2 (en) 2005-12-08 2006-12-08 Systems and methods for error resilience and random access in video communication systems
PCT/US2006/062569 WO2007076486A2 (en) 2005-12-22 2006-12-22 System and method for videoconferencing using scalable video coding and compositing scalable video conferencing servers
PCT/US2007/062357 WO2007095640A2 (en) 2006-02-16 2007-02-16 System and method for thinning of scalable video coding bit-streams
PCT/US2007/063335 WO2007103889A2 (en) 2006-03-03 2007-03-05 System and method for providing error resilience, random access and rate control in scalable video communications
PCT/US2007/065554 WO2007115133A2 (en) 2006-03-29 2007-03-29 System and method for transcoding between scalable and non-scalable video codecs

Publications (1)

Publication Number Publication Date
JP2009544176A true JP2009544176A (ja) 2009-12-10

Family

ID=40379584

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009503292A Pending JP2009544176A (ja) 2006-03-29 2007-03-29 スケーラブルビデオコーデックと非スケーラブルビデオコーデックとの間でトランスコードを行うためのシステム及び方法

Country Status (3)

Country Link
JP (1) JP2009544176A (ja)
CN (1) CN102318202B (ja)
CA (1) CA2647723A1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012532540A (ja) * 2009-07-07 2012-12-13 ゼットティーイー コーポレイション モバイルマルチメディア放送システムにおける階層送信方法、階層受信方法、階層送信装置、及び階層受信装置
JP2013513999A (ja) * 2009-12-14 2013-04-22 トムソン ライセンシング 符号化ビットストリームのマージ
WO2013100184A1 (en) * 2011-12-27 2013-07-04 Ricoh Company, Limited Communication management system, communication system, computer-readable recording medium, and maintenance system
JP2014103632A (ja) * 2012-11-22 2014-06-05 Kddi Corp 映像圧縮フォーマット変換装置、映像圧縮フォーマット変換方法、およびプログラム
JP5557265B1 (ja) * 2011-04-15 2014-07-23 エスケー プラネット カンパニー、リミテッド マルチトラックビデオを用いた高速スケーラブル・ビデオ・コーディング装置及び方法
JP2015177431A (ja) * 2014-03-17 2015-10-05 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP2020043519A (ja) * 2018-09-12 2020-03-19 パナソニックIpマネジメント株式会社 変換装置、復号装置、変換方法および復号方法
JP2020537835A (ja) * 2017-09-08 2020-12-24 Line株式会社 ビデオ品質制御

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103546754B (zh) * 2012-07-16 2016-09-14 中国科学院声学研究所 从h.264/avc到svc空间可分级的转码方法及系统
BR112015004393B1 (pt) 2012-09-07 2023-01-17 Sony Corporation Dispositivos e métodos de transmissão e recepção
CN104010155B (zh) * 2013-02-27 2017-12-22 联芯科技有限公司 视频电话的实现方法及移动终端
US9380305B2 (en) * 2013-04-05 2016-06-28 Qualcomm Incorporated Generalized residual prediction in high-level syntax only SHVC and signaling and management thereof
CN106341622B (zh) * 2015-07-06 2020-01-24 阿里巴巴集团控股有限公司 一种多路视频流的编码方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04274674A (ja) * 1991-03-01 1992-09-30 Matsushita Electric Ind Co Ltd データ変換装置
US20030202579A1 (en) * 2002-04-24 2003-10-30 Yao-Chung Lin Video transcoding of scalable multi-layer videos to single layer video
JP2004521583A (ja) * 2001-07-10 2004-07-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 非スケーラブル符号化ビデオ信号からスケーラブル符号化ビデオ信号を発生する方法及び装置
JP2004289295A (ja) * 2003-03-19 2004-10-14 Fujitsu Ltd データ処理システム、データ処理装置及びデータ処理方法
JP2005080153A (ja) * 2003-09-03 2005-03-24 Nippon Telegr & Teleph Corp <Ntt> 階層符号化ビットストリームの再量子化方法及びその装置と、階層符号化ビットストリームの再量子化プログラム及びそのプログラムを記録した記録媒体
JP2005516498A (ja) * 2002-01-23 2005-06-02 ノキア コーポレイション ビデオ符号化における画像フレームのグループ化
JP2008536451A (ja) * 2005-04-14 2008-09-04 トムソン ライセンシング 空間スケーラブルビデオ符号化及び復号化向けスライス適応型動きベクトル符号化のための方法及び装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69520919T2 (de) * 1994-09-28 2002-03-28 Matsushita Electric Ind Co Ltd Digitale Verabeitung geeignet für ein analoges vom Standard abweichendes Videosignal

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04274674A (ja) * 1991-03-01 1992-09-30 Matsushita Electric Ind Co Ltd データ変換装置
JP2004521583A (ja) * 2001-07-10 2004-07-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 非スケーラブル符号化ビデオ信号からスケーラブル符号化ビデオ信号を発生する方法及び装置
JP2005516498A (ja) * 2002-01-23 2005-06-02 ノキア コーポレイション ビデオ符号化における画像フレームのグループ化
US20030202579A1 (en) * 2002-04-24 2003-10-30 Yao-Chung Lin Video transcoding of scalable multi-layer videos to single layer video
JP2004289295A (ja) * 2003-03-19 2004-10-14 Fujitsu Ltd データ処理システム、データ処理装置及びデータ処理方法
JP2005080153A (ja) * 2003-09-03 2005-03-24 Nippon Telegr & Teleph Corp <Ntt> 階層符号化ビットストリームの再量子化方法及びその装置と、階層符号化ビットストリームの再量子化プログラム及びそのプログラムを記録した記録媒体
JP2008536451A (ja) * 2005-04-14 2008-09-04 トムソン ライセンシング 空間スケーラブルビデオ符号化及び復号化向けスライス適応型動きベクトル符号化のための方法及び装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6012025911; Ishfaq Ahmad et al.: 'Video Transcoding: An Overview of Various Techniques and Research Issues' IEEE Transactions on Multimedia Vol.7, No.5, 200510, p.793-804, IEEE *
JPN6013035183; Julien Reichel et al.: 'Joint Scalable Video Model JSVM 1' Joint Video Team (JVT) of ISO/IEC MPEG & ITU-T VCEG (ISO/IEC JTC1/SC29/WG11 and ITU-T SG16 Q.6) 14th , 200501, ITU-T *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012532540A (ja) * 2009-07-07 2012-12-13 ゼットティーイー コーポレイション モバイルマルチメディア放送システムにおける階層送信方法、階層受信方法、階層送信装置、及び階層受信装置
JP2013513999A (ja) * 2009-12-14 2013-04-22 トムソン ライセンシング 符号化ビットストリームのマージ
JP5557265B1 (ja) * 2011-04-15 2014-07-23 エスケー プラネット カンパニー、リミテッド マルチトラックビデオを用いた高速スケーラブル・ビデオ・コーディング装置及び方法
US9270942B2 (en) 2011-12-27 2016-02-23 Ricoh Company, Limited Communication management system, communication system, computer-readable recording medium, and maintenance system
WO2013100184A1 (en) * 2011-12-27 2013-07-04 Ricoh Company, Limited Communication management system, communication system, computer-readable recording medium, and maintenance system
US9350947B2 (en) 2011-12-27 2016-05-24 Ricoh Company, Ltd. Communication management system, communication system, computer-readable recording medium, and maintenance system
JP2014103632A (ja) * 2012-11-22 2014-06-05 Kddi Corp 映像圧縮フォーマット変換装置、映像圧縮フォーマット変換方法、およびプログラム
JP2015177431A (ja) * 2014-03-17 2015-10-05 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP2020537835A (ja) * 2017-09-08 2020-12-24 Line株式会社 ビデオ品質制御
US11218746B2 (en) 2017-09-08 2022-01-04 Line Corporation Method, system, and non-transitory computer readable record medium for video quality control
JP7037642B2 (ja) 2017-09-08 2022-03-16 Line株式会社 ビデオ品質制御
JP2020043519A (ja) * 2018-09-12 2020-03-19 パナソニックIpマネジメント株式会社 変換装置、復号装置、変換方法および復号方法
JP7378035B2 (ja) 2018-09-12 2023-11-13 パナソニックIpマネジメント株式会社 変換装置、復号装置、変換方法および復号方法

Also Published As

Publication number Publication date
CA2647723A1 (en) 2007-10-11
CN102318202B (zh) 2014-06-04
CN102318202A (zh) 2012-01-11

Similar Documents

Publication Publication Date Title
US8320450B2 (en) System and method for transcoding between scalable and non-scalable video codecs
JP2009544176A (ja) スケーラブルビデオコーデックと非スケーラブルビデオコーデックとの間でトランスコードを行うためのシステム及び方法
AU2007309044B2 (en) System and method for scalable video coding using telescopic mode flags
US8396134B2 (en) System and method for scalable video coding using telescopic mode flags
KR100888963B1 (ko) 영상 신호의 스케일러블 인코딩 및 디코딩 방법
JP4833296B2 (ja) 多階層を基盤としたスケーラブルビデオコーディング方法および装置
JP4109113B2 (ja) ビデオ伝送におけるビットストリーム間の切換
US8218619B2 (en) Transcoding apparatus and method between two codecs each including a deblocking filter
JPH07322269A (ja) ビデオデータを有するビットストリームを符号変換する方法および装置
KR20040091686A (ko) 더 높은 질의 참조 프레임을 사용하는 fgst 코딩 방법
US11317105B2 (en) Modification of picture parameter set (PPS) for HEVC extensions
JP2015097416A (ja) スケーラブルビデオ通信でエラー耐性、ランダムアクセス、およびレート制御を提供するシステムおよび方法
EP2372922A1 (en) System and method for transcoding between scalable and non-scalable video codecs
JP2007507927A (ja) アドバンスドデータパーティショニングと効率的な空間−時間−snrスケーラビリティビデオコーディング及びストリーミングのためのファイン・グラニュラリティ・スケーラビリティとを結合したシステム及び方法
KR20050012755A (ko) 더 높은 질의 참조 프레임들을 이용하는 향상된 효율의미세 입상 계위 시간 프레임워크
AU2012201234B2 (en) System and method for transcoding between scalable and non-scalable video codecs
AU2011205017B2 (en) System and method for scalable video coding using telescopic mode flags
Liu et al. A comparison between SVC and transcoding
Inamdar Performance Evaluation Of Greedy Heuristic For SIP Analyzer In H. 264/SVC
Jia et al. Switching Picture Added Scalable Video Coding and its Application for Video Streaming Adaptive to Dynamic Network Bandwidth

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100302

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120529

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120822

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120829

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130730

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20131024

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20131031

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140130

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140902