JP4732428B2 - 多重記述トランスコーディングのためのトランスコーディング・ノード及びトランスコーディング方法 - Google Patents

多重記述トランスコーディングのためのトランスコーディング・ノード及びトランスコーディング方法 Download PDF

Info

Publication number
JP4732428B2
JP4732428B2 JP2007317008A JP2007317008A JP4732428B2 JP 4732428 B2 JP4732428 B2 JP 4732428B2 JP 2007317008 A JP2007317008 A JP 2007317008A JP 2007317008 A JP2007317008 A JP 2007317008A JP 4732428 B2 JP4732428 B2 JP 4732428B2
Authority
JP
Japan
Prior art keywords
data block
packet
layer
packets
transcoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007317008A
Other languages
English (en)
Other versions
JP2008193661A (ja
Inventor
エッケハルト・シュタインバッハ
アリ・エル・エサイリ
ヴォルフガンク・ケレラー
ショアイブ・カーン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of JP2008193661A publication Critical patent/JP2008193661A/ja
Application granted granted Critical
Publication of JP4732428B2 publication Critical patent/JP4732428B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/40Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/19Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding using optimisation based on Lagrange multipliers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/37Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability with arrangements for assigning different transmission priorities to video input data or to video coded data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/39Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability involving multiple description coding [MDC], i.e. with separate layers being structured as independently decodable descriptions of input picture data

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Time-Division Multiplex Systems (AREA)

Description

本発明は通信ネットワークの分野に関し、特に、ワイヤレス機器へのメディアストリーミングに関する。
ビデオをあるフォーマットから別のフォーマットへ変換するプロセスであるビデオトランスコーディングは、送信機と受信機との間のリンクの異種性に対処するために徹底的に取り組まれてきた。様々なチャネル要件に適合させるために、トランスコーディングが一部の中間ノードで必要とされる。標準的なトランスコーディング(MPEG2からH.264へ、H.263からH.264へなど)、解像度スケーリング(空間的トランスコーディング)、ビットレート変換(品質トランスコーディング)、及びフレームレート変換(時間的トランスコーディング)は、非特許文献1に記載されているように、ビデオトランスコーディングメカニズムの一部の例である。
他方では、多重記述(MD)ビデオ符号化は、非特許文献2に記載されているように、パスダイバーシチと組み合わされたときに、誤り耐性を提供することが可能である。ビデオソースは、独立したパスで伝送される複数の記述に分解される。各記述は、受信機側で独立に復号化され得る。受信品質は、受信された記述の個数によって決定される。MDビデオ符号化は、非特許文献3に記載されているような様々な方法で実現される。時間的ダウンサンプリング(例えば、フレームの偶数/奇数分離(非特許文献2)、さらに非特許文献4)は、ソースを様々な組に分割し、各組を独立に符号化する。非特許文献5に記載されているような空間的ダウンサンプリングは、ピクセルドメイン又は周波数ドメインにおけるソースを同様に様々な組に分割する。ある種の冗長性又は相関、例えば、非特許文献6及び非特許文献7が、その後に、様々なストリームの間に導入されている。非特許文献8に記載されているようなチャネル符号化もまた同様に、様々な記述の間で不均一誤り保護(unequal error protection)を行うために使用される。
その一方で、多重記述ビデオトランスコーディング(MDVT)についての関連した研究はない。MDビデオトランスコーディングとは、デコーダ−エンコーダの実施を経由することなく、単一記述(SD)で符号化されたビデオをMDビデオストリームに変換することを意味する。
Yun Xin等,「Digital Video Transcoding」,Proceedings of the IEEE,vol.93,no.1,Jan.2005 J.G Apostolopoulos,「Reliable Video Communication over Lossy Packet Networks using Multiple State Encoding and Path diversity」,Proc.Visual Communications and Image Processing,pp.392−409,Jan.2001 V.K Goyal,「Multiple Description Coding:Compression meets the network」,IEEE Signal Processing Mag.,vol.18,no.5,pp.74−93,Sept.2001 Audio−Visual Services over Packet Networks Conf.,Aberdeen,U.K.,1997で公開されたS.Wenger,「Video Redundancy Coding in H.263+」 W.Jiang,A.Ortega,「Multiple Description Coding via Polyphase Transform and Selective Quantization」,Proc.of VCIP ’99,San Jose,USA,Jan.1999 Y.Wang等,「Multiple Description Coding using Pairwise Correlating Transforms」,IEEE Trans.Image Proc.,vol.10,pp.351−366,March 2001 K.Matty and L.Kondi,「Balanced Multiple Description Video Coding Using Optimal Partitioning of the DCT Coefficients」、IEEE ICASSP 2004 R.Puri and K.Ramchandran,「Multiple Description Source Coding through Forward Error Crrection Codes」,in Proc.33rd Asilomar Conf.Signals,System Comp.,vol.1,1999,pp.342−346
本発明の目的は、トランスコーディング・ノードと、逆トランスコーディング・ノードと、より効率的な多重記述トランスコーディング方法とを提供することである。
本発明のさらなる目的は、ネットワーク内における多重記述メディア・トランスコーディング(in-network multiple description media transcoding)の効率的な解決策を提供することである。
上記目的は、請求項1に記載されたトランスコーディング・ノード、請求項36に記載された逆トランスコーディング・ノード、請求項38に記載されたトランスコーディング方法、請求項39に記載された逆トランスコーディング方法、及び、請求項40に記載されたコンピュータプログラムによって達成される。
本発明は、
第1の伝送パスの伝送パス特性及び第2の伝送パスの伝送パス特性に基づいて、データブロックの中で第1の伝送プロトコルを使用して送信されるべき第1の記述及び前記第1の通信プロトコルとは異なる第2の伝送プロトコルを使用して送信されるべき第2の記述に対するトランスコーディング・パラメータを決定するように動作し、前記第1の通信プロトコル及び前記第2の通信プロトコルによって送信されたときに期待歪みに基づいて前記トランスコーディング・パラメータを決定するようにさらに動作するものである最適化ユニットと、
前記トランスコーディング・パラメータに応じて前記第1の記述に対する第1のパケットのシーケンスと前記第2の記述に対する第2のパケットのシーケンスとを生成するように動作するものであるパケット生成ユニットと、
前記第1の通信プロトコルに従って前記第1のパケットのシーケンスを送信するように動作するものである第1の送信ユニットと、
前記第2の通信プロトコルに従って前記第2のパケットのシーケンスを送信するように動作する第2の送信ユニットと
を備える多重記述トランスコーディングのためのトランスコーディング・ノードを提供する。
本発明は、
第1の通信プロトコルに従ってパケットを受信し、前記パケットの受信が成功したかどうかをチェックし、受信に成功したパケットから第1のパケットのシーケンスを生成するように動作するものである第1の受信ユニットと、
前記第1の通信プロトコルとは異なる第2の通信プロトコルに従ってパケットを受信し、前記パケットの受信が成功したかどうかをチェックし、受信に成功したパケットから第2のパケットのシーケンスを生成するように動作するものである第2の受信ユニットと、
各パケットに含まれる各データセグメント及び/又は各符号セグメントがデータブロックの異なったデータブロック部分に関連付けられているデータセグメント及び/又は符号セグメントを含む前記第1のパケットのシーケンス及び前記第2のパケットのシーケンスを受信し、前記第1のシーケンス中の前記パケット又は前記第2のシーケンス中の前記パケットが同じデータブロックに属しているかどうかを決定し、データブロック部分固有のセグメント(datablock part specific segment)として、前記同じデータブロックに属しているパケットから前記同じデータブロック部分に関連付けられているデータセグメント及び/又は符号セグメントを取り出し、前記データブロック部分固有のセグメントの個数がデータブロック部分の所与のデータブロック部分固有の数(datablock part specific number)に少なくとも等しいときに、データブロック部分固有の誤り訂正符号(datablock part specific error correction code)に従って前記データブロック部分固有のセグメントを復号化し、少なくとも1個の前記復号化されたデータブロック部分固有のセグメントに基づいて復元データブロックを生成するように動作するものであるパケットマージユニットと
を備える、多重記述データを受信する逆トランスコーディング・ノードをさらに提供する。
本発明は、
第1の伝送パスの伝送パス特性及び第2の伝送パスの伝送パス特性に基づいて、データブロックの中で第1の伝送プロトコルを使用して送信されるべき第1の記述と前記第1の通信プロトコルとは異なる第2の伝送プロトコルを使用して送信されるべき第2の記述とに対するトランスコーディング・パラメータを決定するステップであって、最適化ユニットが、前記第1の通信プロトコル及び前記第2の通信プロトコルによって送信されたときに、期待歪みに基づいて前記トランスコーディング・パラメータを決定するようにさらに動作する、ステップと、
前記トランスコーディング・パラメータに応じて前記第1の記述に対する第1のパケットのシーケンス及び前記第2の記述に対する第2のパケットのシーケンスを生成するステップと、
前記第1の通信プロトコルに従って前記第1のパケットのシーケンスを送信するステップと、
前記第2の通信プロトコルに従って前記第2のパケットのシーケンスを送信するステップと
を含む、多重記述トランスコーディング方法を提供する。
本発明は、
第1の通信プロトコルに従ってパケットを受信するステップと、
前記第1の通信プロトコルに従って前記パケットの受信が成功したかどうかをチェックするステップと、
前記第1の通信プロトコルに従って受信に成功したパケットから第1のパケットのシーケンスを生成するステップと、
前記第1の通信プロトコルとは異なる第2の通信プロトコルに従ってパケットを受信するステップと、
前記第2の通信プロトコルに従って前記パケットの受信が成功したかどうかをチェックするステップと、
前記第2の通信プロトコルに従って受信に成功したパケットから第2のパケットのシーケンスを生成するステップと、
前記第1のパケットのシーケンス及び前記第2のパケットのシーケンス(171,172)を受信するステップであって、前記第1のパケットのシーケンス及び前記第2のパケットのシーケンスが、データセグメント及び/又は符号セグメントを含み、前記パケットのそれぞれに含まれる各データセグメント及び/又は各符号セグメントが、データブロックの異なったデータブロック部分に関連付けられている、ステップと、
前記第1のシーケンス中の前記パケット又は前記第2のシーケンス中の前記パケットが同じデータブロックに属しているかどうかを決定するステップと、
データブロック部分固有のセグメントとして、前記同じデータブロックに属しているパケットから前記同じデータブロック部分に関連付けられているデータセグメント及び/又は符号セグメントを取り出すステップと、
前記データブロック部分固有のセグメントの個数がデータブロック部分の所定のデータブロック部分固有の数に少なくとも等しいときに、データブロック部分固有の誤り訂正符号に従って前記データブロック部分固有のセグメントを復号化するステップと、
少なくとも1個の前記復号化されたデータブロック部分固有のセグメントに基づいて復元データブロックを生成するステップと
を含む、多重記述符号化データを逆トランスコーディングする方法をさらに提供する。
さらに、本発明は、プログラムがコンピュータ上で動くときに、請求項3及び4に記載された発明に係る方法を実行するプログラム・コードを有するコンピュータプログラムを提供する。
本発明は、メディアストリームが、同時に様々な伝送パスを介して、端末、例えば、逆トランスコーディング・ノードへ送信されるときに、かつ、さらには、様々な伝送パスの伝送レート及びパケット損失のようなパス特性が多重記述を決定する際に考慮されるときに、パスダイバーシチを利用するならば、例えば、ユーザのための、より良好な伝送品質が得られるという研究成果に基づいている。
本発明の実施形態では、トランスコーディングは、例えば、無線ネットワーク・コントローラ、又は、ワイヤード−ワイヤレス・インターフェースのようなネットワークノードで行われ、結果としてのビットストリームが様々なパスを介して、例えば、UMTSインターフェース(ユニバーサル移動通信システム)を使用する第1のパスと、WLANインターフェース(ワイヤレス・ローカルエリアネットワーク)を使用する第2のパスとを介して送信される。このような平衡していないスキームにより、様々なビットレート又は誤り確率を有するクライアントをサポートするような柔軟性が提供される。受信機端末において、両方の記述が受信されるならば、これらは組み合わされ、さもなければ、一方の受信された記述がそのまま復号化される。
本発明の実施形態は、パスダイバーシチと組み合わされた前方誤り訂正(FEC)に基づいて多重記述ビデオトランスコーディング(MDVT)を実行する。
トランスコーディング・ノードでは、受信された各グループ・オブ・ピクチャ(GOP)は、2個の別個のパスを介して送信される2個の記述を生成するために独立に処理される。パスの(パケット損失、ビットレート)プロファイルが与えられると、各パスを越えて1個の記述内で送信されるべきパケットの最適な個数と、GOPからこれらのパケットの1つずつへの各フレームの寄与度とを探索することによって、全体的な歪みが最小化される。
FECは、例えば、非特許文献8及び非特許文献9に記載されているように、MDビデオ符号化のため既に研究されている。非特許文献8では、プログレッシブ・ビデオストリームが様々なセクションに分割され、その後に、誤り保護がN個の均一な記述を作成するために様々なセクションの全体に分布させられる。最適なFEC割り当てを決定するために、様々なセクションのレート境界(rate boundary)がレート歪み性能を最大化するよう最適化中に変更されている。レート境界がソースによって固定されているならば、多重記述を生成する同じアプローチが適用され続けるが、結果として得られるのは準最適解(suboptimal solution)である。その上、生成された記述は、2パス伝送のため特別に最適化されていない。非特許文献9では、ソースは、FECを適用し、接続されたノード毎に記述の最適な個数を決定する。中間ノードは、エンドユーザのレート及び損失特性と一致するように、符号化されたスケーラブル・ストリームを切り捨てるために配置されている。切り捨て後に、中間ノードは、残りのソースビットストリームと、FEC情報の適切な部分とを再パケット化する。この動作を中間ノードで実行することは、送信機での従来型のFECベースのMDCより性能を低下させるが、送信機からあらゆる受信機への別個のユニキャスト接続を開くことなく、多数の異種受信機を扱うことを可能にさせる。
G.Wang等,「FEC−based Scalable Multiple Description Coding for Overlay Network Streaming」,CCNC 2005
これらの制限を解決するために、本発明の実施形態は、ビデオソースとは完全に独立し、かつ、ハイブリッド、スケーラブル、又は、あらゆるその他の従属した、すなわち、優先順位付きのビデオストリームに適用可能である解決策を提供する。トランスコーディング・ノード、例えば、中間ノードは、利用可能な損失特性及びレート特性に依存して、FECの最適量と送信されるべきパケットの個数とを決定する。さらに、パスダイバーシチが、2個の記述を送信し、各記述内で送信されるべきパケットの個数を探索することによって利用される。パケット長を制約することにより、パケット化問題は解決され、ビデオストリーム全体で固定されたパケット長が保証される。
後述される多重記述符号化及びトランスコーディングは、誤り耐性を提供しているときに、複数のパスを介してメディアストリームをユーザ端末へ伝送する手段を提供する。通常、多重記述メディア符号化は、メディアソース、すなわち、メディアサーバで行われる。本発明の実施形態は、例えば、ネットワーク内で単一記述復号化ストリームから多重記述メディア・トランスコーディングを実行する方法及びシステムを提供する。
これは、サーバーが多重記述符号化をサポートしていないとき、又は、単にメディアサーバが、メディアストリームをユーザへ配信するオペレータによって制御されていない別のドメインに属しているならば、有利である。
さらに、本発明は、多重記述符号化が複数のパスを介してメディアストリームを送信するために誤り耐性手段を提供する、マルチパス伝送を対象としている。このような状況は、オペレータがWLAN、UMTS、WIMAXのようないくつもの異なる伝送パスをユーザに提供する将来のネットワーク環境のため期待されている。利点は、オペレータが自身のリソースをより良く利用し、より良いサービス品質をユーザに提供するために、このパスダイバーシチを利用できることである。
本発明の好ましい実施形態は、添付図面において詳細に説明されている。
以下、多重記述ビデオトランスコーディング、すなわち、単一記述ビデオストリーム(single description video stream)を多重記述ビデオストリームへトランスコーディングする本発明の実施形態が詳細に記載されている。記載されている実施形態は、グループ・オブ・ピクチャ(GOP)又は階層ビデオ構造を重点的に取り扱う。それにもかかわらず留意されるべきことは、多重記述トランスコーディングの実施形態が、優先順位を付けられていないデータ構造に適用されるのではなく、特に、優先順位を付けられた、又は、階層的なデータ構造に適用され、ビデオストリームだけに適用されるのではなく、例えば、オーディオストリーム、特に、優先順位を付けられたオーディオストリームに適用され得ることである。
以下、トランスコーディング・ノードの実施形態は、簡単にするために、簡潔にトランスコーディング・ノードと呼ばれることもあり、同様に、逆トランスコーディング・ノードの実施形態は端末と呼ばれることもある。
図1Aは、ここでは、H.264エンコーダであるソースエンコーダ110と、ここでは、H.264デコーダである対応したソースデコーダ120との間の完全なパスを示している。図1Aに示されているように、H.264エンコーダは、単一記述ビデオストリーム112を生成し、トランスコーディング・ノード130に送信する。トランスコーディング・ノード130は、例えば、無線ネットワーク・コントローラ(RNC)又はワイヤード−ワイヤレス・インターフェースのようなネットワークノードでもよい。トランスコーディング・ノードの実施形態は、ビデオストリームをFEC(前方誤り訂正)符号化し、単一記述を、一方の記述がパスA132を介して送信され、第2の記述がパスB134を介して送信される2つの記述に分割する。この図でわかるように、トランスコーディング・ノード130は、長さLのNA個のパケットを含む第1の記述133を第1のパス132を介して送信し、NB個のパケットを含む第2の記述135を第2のパス134を介して送信する。
パスA132は、パス1又は第1のパスと呼ばれることもあり、パスB134は、パス2又は第2のパスと呼ばれる場合もある。
トランスコーディング・パラメータがどのように決定されるか、及び、パケットハンドリングがこれらのトランスコーディング・パラメータに基づいてどのように実行されるかについての詳細は後述されている。
逆トランスコーディング・ノード150では、パスAを介して受信された第1の記述133と、パスBを介して受信された第2の記述135とがFEC復号化され、H.264デコーダ120へ与えられる復元ビデオストリーム152を生成するためにマージされる。
多重記述トランスコーディングの実施形態は、15個のフレーム(I,P1,B1...P7,B7)からなるグループ・オブ・ピクチャ(GOP)に関して以下に記載されている。同じ考え方が階層ストリーム(Layer1,...,LayerM)に関して成り立つ。
中間ノードでは、各GOPは独立に処理される。1つのGOP内では、フレームはフレームの受信順に処理される。各フレームは、所定のサイズlの小さなセクションに分割される。この結果、フレームIに対してKI個のセクションが得られ、フレームIの長さ(LI)がlの倍数でないならば、最後のセクションはゼロパディングされる(ゼロを付加して固定長にされる)。lが小さい場合、このパディングは無視できる。同様に、フレームP1...B7が同じサイズlの小さなセクションに分割され、それぞれ、KP1...KB7個のセクションが得られる。上記のセクションは、ある種のチャネル符号化、例えば、リードソロモン符号によってさらに保護される。RS(Ni,Ki)がフレーム毎に列に関して適用され、NI、NP1、...、NB7個のセクションを生じる。送信されるべきFECの量は、チャネル条件に依存してこのアルゴリズムの次のステップにおいて決定される。この手順は図2に説明されている。
図2は、それぞれのフレーム長がLI、LP1、LB1、...、LP7、LB7である各フレームI、P1、B1、...、P7、B7の、長さがlであるKI、KP1、KB1、...KP7、KB7のセクションへの分割と、前方誤り訂正符号、例えば、リードソロモン符号を用いた各フレームの保護とを示している。FECセクションは、データセクションと同じ長さlを有する。FECセクションの個数が生成され、使用されるべきFEC符号は最適化アルゴリズムによって決定される。
中間ノードは、2つのパスを介して、例えば、2つのネットワーク又は2つの通信プロトコルを介して、受信機端末に接続されていると仮定されるので、パスダイバーシチをMDトランスコーディングスキームと組み合わせることが可能である。したがって、トランスコードされた各GOPは、パスA及びパスBを介して送信される2つの記述に組み込まれる。各記述は、図1Aに示されているように、所定のサイズLからなる多数のパケットで形成されている。
パケットサイズLは、小さなセグメントサイズlの整数倍になるように定められる(すなわち、L=K×l,K∈N+)。最終的な目標は、次の数を探索することにより受信されたストリームにおける期待歪み(expected distortion)を最小限に抑えることである。
第一に、NA及びNBは、すなわち、パスA及びBによってそれぞれ送信され、各パスのレート及び損失の制約の影響を受けるパケットの個数である。
第二に、(サイズlの)セクションの個数は、各フレームの(長さLの)各パケットへの寄与を表す。換言すると、各パケットは、長さがlであるK個のセクションを含み、K=k(I)+k(P1)+...+k(B7)であり、式中、k(i)は、各パケットに含まれているフレームiのセクションの個数である。
上記の目標を解決するため、以下の事項が定義される。
トランスコードされるべきストリームは、優先順位付きのストリームである。フレームIが失われるならば、全ての後続フレームは再構成できない。Piが失われるならば、フレームPi+1...及び対応するBi...フレームは復元できない。しかし、Bフレームの損失は、後続のPフレーム又はBフレームに影響を与えない。その結果として、以下の優先順位が区別される。
優先順位(I)>優先順位(Pi)>優先順位(Pi+1)...>優先順位(Bi)=優先順位(Bi+1)...
A+NB個の送信されたパケットの中から、以下の事項が定義される。
0は、フレームIを復元するために受信されるべきパケットの個数である。
1は、フレームP1を復元するために受信されるべきパケットの個数である。
2は、フレームP2を復元するために受信されるべきパケットの個数である。
...
7は、フレームP7を復元するために受信されるべきパケットの個数である。
1は、フレームB1を復元するために受信されるべきパケットの個数である。
...
7は、フレームB7を復元するために受信されるべきパケットの個数であり、
ここで、さらに上記の優先順位から推論され、
7≧N6≧...N1≧N0
1≧N1、M2≧N2、...,M7≧N7
であることが定められる。
1番目の不等式は、フレームIが最初に再構成され、その後に、フレームPi、Pi+1などが続けて再構成されることを表している。2番目の不等式は、フレームBiを復元するために、その参照フレームPi及びPi-1が最初に受信されるべきであることを表している。しかし、フレームBiの受信は、後続の送信フレームに依存しない。
任意のN0個の受信パケットがフレームIを復元可能であるならば、各パケットはフレームIの情報のうちの(1/N0)を含むべきである。例えば、2個のパケットがフレームIを復元するために要求されるならば、フレームIの情報の1/2があらゆる送信パケットに含まれるべきである。その結果として、(サイズlの)
Figure 0004732428
個のセクションが各パケットに挿入されるべきである。
パケット長は、L=K×l,K∈N+として既に定義されている。もし、フレームIの
Figure 0004732428
個のセクション、各フレームPi...の
Figure 0004732428
個のセクション、及び、各Biフレームの
Figure 0004732428
個のセクションが各パケットに挿入されるならば、結論として、
Figure 0004732428
である。
一般に、総和がL/l以下であるならば、この式は依然として成り立つ。パケットは、このような場合にはゼロパディングされるべきである。
結果として、数N0...M7が決定されると、パケット化問題も同様に解決され、固定パケット長が保証される。
本願において詳細に記載されているような期待歪みの代わりに、その他の期待歪みの定義又はその他の測定基準が、測定基準のタイプに依存して、トランスコーディング・パラメータを最適化するため、すなわち、目的関数を最小化もしくは最大化するため、例えば、音声品質測定のため知られているユーザに認識された平均オピニオンスコア(MOS)と類似した品質測定基準を最適化するため使用され得る。
各パスは(ビットレート、損失)プロファイルによって定義され、すなわち、各パスは様々な損失確率を伴う様々なビットレートをサポートし得る。これは、様々な(ビット誤り率、信号対雑音比)特性を伴う様々な変調スキームと対応し得る。一般性を失うことなく、以下では、パスは、それ自体のパス特性であるパケット損失及びビットレート割当量(bit rate budget)によって表現されている。パケット長Lが既知であるとき、ビットレートRはパケットの個数N=R/Lに対応している。最適化の一部として、受信機での期待歪みを最小化できる最適ビットレート選択のための探索が実行される。
Figure 0004732428
と定義され、式中、各エントリー(NAi,PAi)及び(NBj,PBj)は、起こり得る(NA,PA)及び(NB,PB)ペア、すなわち、パケット割当量及び損失確率の選択を表している。パケットの個数に関しては、以下の式:
N=NA+NB
が適用される。
期待歪み(ED)を最小化する上記の目的は、
{NA,NB,N0,N1,...,N7,M1,...,M7}=arg min ED(NA,NB,N0,N1,...,N7,M1,...,M7
のように定義され、ここで、
Figure 0004732428
7≧N6≧ ...≧N1≧N0 かつ M1≧N1,M2≧N2,...,M7≧N7
A+NB≧Mi,i=1...7
となる。
受信機での期待歪みを最小限に抑えるために、各記述で送信されるべきパケットの総数を生じる最良ビットレート選択が2つのパスの全体で探索される。レート損失プロファイル(rate loss profile)が与えられると、各フレームを復元するために要求されるパケットの個数を決定する、各パケットにおける(サイズlの)フレームセクションの最良割り当てプロセスもまた探索される。
1番目の上記制約は、パケット割り当てプロセスを解決する。N0...M7の値が決定されると、各フレームと所要のFECの量のセクションが、様々なパケットに割り当てられ得る。この制約は、GOP全体に亘る固定パケットサイズも保証する。
2番目の上記制約では、所与の損失確率に対する各パスのレート割当量を満たすパケットの個数NA、NBが、パスA及びB上で探索される。
3番目の上記制約は、GOPの様々なフレームの間での依存性の直接的な結果である。
4番目の上記制約は、両方の記述から完全なGOPを復元することができるように満たされるべきである。すなわち、Mi個のパケットが各Biフレームを復元するために必要とされるならば、パケットの総数は少なくともMiと等しくなるべきである。
Figure 0004732428
である。ここで、
Figure 0004732428
は、NA+NB個のパケットの中からi個のパケットが失われている確率であり、ここで、
Figure 0004732428
であり、さらに、
Enc_D(I,P1,B1...P7,B7)=量子化に起因するGOPの符号化歪みであり、
D(I)はフレームIが失われたときの付加的な歪み(additional distortion)であり、
D(Pi)はフレームPiが失われたときの付加的な歪みであり、
・・・
D(Bi)はフレームBiが失われたときの付加的な歪みである。
ある程度の個数のパケット(N0...M7)が、フレーム(I...B7)を個々に復元するために受信されるべきである。期待歪み関数中の各項は、受信パケットの個数がフレーム毎に必要とされるパケットの個数より少ないときに、損失を決定する。
Enc_D(I,P1,B1...B7,P7)、D(I)、D(Pi)及びD(Bi)の値は、最適化ステージ中にわかっている。これらの値を計算するために、非特許文献10によって記載されている技術が採用されている。あるフレーム損失パターンが与えられたときにGOPに関して観察された再構成歪み(reconstruction distortion)を記述する歪み行列が計算され、ビデオビットストリームと共に送信される。行列は、起こり得るフレーム損失毎に受信機における歪みを含む。フレーム損失の場合、最後に復号化されたフレームが失われたフレームの代わりに表示され、対応する歪みが計算される。
W.Tu,W.Kellerer,E.Steinbach,「Rate−Distortion Optimized Video Frame Dropping on Active Network Nodes」,in Packet Video Workshop 2004,Irvine,California,Dec.2004
パケット割当量及びパケット損失確率によって定められる2つのパスプロファイルは、中間ノードに知られていることが仮定されている。これらのパスはさらに、パスダイバーシチ利得を有するトランスコーダと受信機との間の仮想パスであるとみなされる。したがって、両方のパス上の総パケット割当量は、平均パケット損失確率を用いて最適化される。結果として得られるパケットは、その後に異なるパス上の2つの記述で受信機へ送信される。パスダイバーシチの詳細な解析は後述されている。
パスプロファイルが与えられると、上記の最適化問題は、制約付きレート歪み問題として定式化される。期待歪み関数は、GOPの様々なフレームの個別の歪みの総和である。他方で、各パケットへの全てのGOPフレームの寄与度(contribution)の総和はパケット長を超えるべきでない。
Figure 0004732428
をフレームI、Pi及びBiのそれぞれの寄与度として定義する。
上記割り当て問題は、
Figure 0004732428
という条件で、
Figure 0004732428
として書き換えられる。
効率的な割り当てアルゴリズムは、非特許文献11に記載されているように、ラグランジュ緩和を導入することによって取得される。上記の制約付き問題は、したがって、制約なし問題:
Figure 0004732428
λ=ラグランジュ乗数
に変換される。
Y.ShohamとA.Gersho,「Efficient bit allocation for an arbitrary set of quantizers」,IEEE Trans.Acoust.,Speech,Signal Processing,Vol.36,pp.1445−1453,Sept.1998
λを0から無限大まで動かすことにより、図3に示されているように、結果として様々な歪み
Figure 0004732428
及びレート
Figure 0004732428
を生じる様々な(N1,Mi)の組が取得される。
基本的な反復ラグランジュ法の他に、反復ラグランジュ法の高速アプローチもまた、各項を別々に最小化することにより、すなわち、
Figure 0004732428
により、制約なし最適化を簡略化することによって適用される。
その一方で、(3)は、各項が独立に最小化され得ることを要求する。その結果として、高速解法が適用できるように、様々なフレームに対応する様々な項の独立性が保証されるべきである。
特別なフレームの損失に起因する受信機での期待歪みは、トランスコーディング点でわかっている。上述されているように、歪み行列は、ビデオストリームに加えて副次的な情報(サイド情報)として送信されている。しかし、特別なフレームの損失の確率は、GOPのその他のフレームの受信に依存することがある。例えば、Bフレームが正確に受信されるべき場合、このBフレーム及びその参照フレームは同様に受信されなければならない。
この依存性問題を解決するため、GOPフレームは時間的な優先順に処理される。Iフレーム項が最初に最小化され、対応するセクションの個数N0が決定される。Piフレームの損失に起因する受信機での期待歪みは、フレームP1及びIだけに依存する。N0がわかると、P1項が最小化され、対応するセクションの個数N1が決定される。同様に処理することにより、残りの(Ni,Mi)値が決定される。
総歪み及び総レートは、個別の歪み及びレートのそれぞれを合計することにより決定される。
上記の問題を解決するために、パケット割当量L/l以下である最大レートを与えるλ=λ*の値が探索される。
λ*での総レート及び総歪みを、それぞれ、
Figure 0004732428
及び
Figure 0004732428
と定義する。
L(λ*)=L/lであるならば、制約なし問題に対する解は、制約付き問題に対する解(非特許文献11)と同一である。
以下、最適化を実現するための条件が検討されている。
各(Ni,Mi)値は、特別なフレームに関する(Di,Li)の組を生成する。高い(Ni/Mi)値に対し、より多くのパケットがフレームを復元するために要求される。この結果として、より高い歪み(Di)及びより低いレート(Li)が生じる。低い(Ni/Mi)値に対しては、逆のことが成り立つ。その結果、各フレームのレート−歪みの組に達する。このことは、文献で研究されている典型的なレート歪み最小化問題と類似している。制約なし問題となると、最適化の要件は各フレームのレート−歪み関数の凸性(convexity)である。
制約なし最適化問題を解法するため、最適なλを探索する反復ラグランジュ法が使用される。非特許文献11に記載された技術に類似した技術が、L(λ1)<L(λ3)であるような初期値λ1及びλ3を見つけるために使用される。二分探索アルゴリズムがこのとき決定するために使用される。
非特許文献12で得られるH.264/AVCハイブリッド・コーデックを使用するアルゴリズムをテストするために、ある種の実験が行われる。16個のフレームからなるピクチャのグループが処理されている。以下のシミュレーションでは、フォアマン・テスト・シーケンス(Foreman test sequence)の20GOPに対する平均結果がプロットされている。総パケット割当量は、2つの対称的なパスの間で均等に分けられている。両方のパスに接続されている受信機で平均再構成品質が測定される。独立したベルヌーイ・パケット損失ネットワークが、5%、15%及び30%のパケット損失レート(PLR)を用いて使用された。シミュレーション中、パケット長Lは512バイトに固定され、セクションサイズlは1バイトに固定された。ここで、冗長性は、元のビデオストリームを保護するために専用の付加的なオーバーヘッドである。
http://iphome.hhi.de/suehring/tml/download/
図4は、反復ラグランジュ法(MDVTアルゴリズム、16個のIBPBP...フレームのGOP)を使用することによって得られた結果を示している。0%の冗長性の場合、誤り保護は使用されないので、1個のパケットの損失は完全なGOPの損失を招く。冗長性がより高い場合、受信機での期待歪みはビデオストリームのソース歪みまで低下する。
上述されているように、L(λ*)=L/lであるならば、制約付き問題と制約なし問題との両方の解は同一であり、よって、反復ラグランジュ法による最適解に達する。
図5は、パケット損失及び冗長性とは無関係に450バイトから550バイトまでの範囲で平均パケット長Lを示している。
制約なし解と最適解との間には小さなギャップが存在する。このギャップは、低い冗長性及び高いパケット損失のときになお一層増大する。
解と最適性との間のギャップは、一般にレート−歪み関数の非凸性に原因がある。図6は、例えば、30%のPLRでのPフレームのレート−歪み関数を示している。セクションの個数Niが増加するのにつれて、
Figure 0004732428
は減少し、歪み(Di)は増加する。高PLR及び高Ni値において、歪みは飽和し、R−D曲線は凸性を失う。
制約なし反復ラグランジュ法は、R−D関数の非凸性に起因して最適解に収束しない。この割り当て問題に対する最適解は、非特許文献13に記載されているようなダイナミックプログラミング法によって取得される。しかし、複雑さは、任意のトランスコーディングアプローチの重大な制限となる。ダイナミックプログラミング法は、高い複雑さのためこのアプリケーションに適さない。以下では、上記の最適化問題を解法するための高速グリーディ割り当て技術(fast greedy allocation technique)が説明されている。最初に、基本アプローチが説明されている。
A.V.Trushkin,「Bit number distribution upon quantization of a multivariate random variable」,Problems of Information Transmission,vol.16,pp.76−79,1980
レート制約:
Figure 0004732428
を満たしながら、受信機において期待歪みを最小化するために、様々な(Ni/Mi)値を割り当てる。グリーディ割り当て技術が最適(Ni,Mi)値を決定するために続けられる。任意の(Ni/Mi)値を、残りの(Ni,Mi)値を一定に保ったまま増大させることは、総レートを減少させ、総歪みを増加させる。D及びLが総歪み及び総レートのそれぞれであるとして、
Figure 0004732428
を定義する。
アルゴリズムは次の通り要約される。
ステップ1:開始点として、各フレームに対し、GOPの残りのフレームに対する最悪ケースのシナリオを想定して、その個々のフレームの最良可能解に対応する最小(Ni/Mi)値を決定する。これは、例えば、フレームIだけを受信したいことを示すことによって行われる。レート制約を満たす最小N0値を決定する。その結果として、パケット長L0>L/lとなる初期的な(Ni/Mi)の組が得られる。
ステップ2:可能な(Ni/Mi)の増分毎に得られる勾配を決定する。各(Ni/Mi)は、有効な勾配を可能にする、可変の整数ステップサイズでインクリメントされる。
ステップ3:勾配を最小化する(Ni/Mi)値を決定する。この(Ni/Mi)値をこれに対応するステップサイズずつインクリメントする。
ステップ4:ステップ2及び3を繰り返し、L(反復)=L/lとなるときに停止する。
図7は、ターゲットパケット長が512バイトであるときに、どのようにグリーディ割り当てアルゴリズムが最適パケット長に収束するかの例を示している。各「*」は反復遷移(iteration transition)に対応している。より長い遷移は、通常は、Iフレーム又はPフレームに対応し、より短い遷移はBフレームに対応している。
グリーディ割り当てアルゴリズムをテストするために、反復ラグランジュアルゴリズムに関して説明されたような同じシミュレーションが実行される。図8では、MDVTグリーディ割り当てアルゴリズム、IBPBP...フレームシーケンス、様々なPLR(パケット損失レート)におけるグリーディ割り当て技術の出力と反復ラグランジュの出力との比較が示されている。低いPLR及び高い冗長性のときでは、最適性までの小さなギャップは固定されている。高いPLR及び低い冗長性における利得は、図9に示されているように高い(MDVTグリーディ割り当てアルゴリズム、IBPBP...フレームシーケンス、高いPLR)。
グリーディ・アルゴリズムの最適性は、最適解に到達するために行われるステップによって決定される。ラグランジュ法と比較することにより、最適解はかなり近似していることがわかる。
優先順位の順にスケーラブル・ストリームと類似しているIPP...フレームシーケンスのケースをさらに考慮することにより、図10(MDVTグリーディ割り当てアルゴリズム、IPP...フレームシーケンス)を参照する。グリーディ割り当て法によって、同じ利得が依然として達成可能であることがわかる。既に示されているように、Pフレームでさえも高いPLRでは凸性を緩めることがある。
この方法の主要な利点は複雑さが低いことであり、トランスコーディングアプローチにおける重要な要件は非常に高速な方法である。
図8、9及び10からわかることは、平均GOP psnr(ピーク信号対雑音比)が低冗長性では低いことである。逆に、0%の冗長性の場合、優先順位が高いフレームを保護しながら重要性のより低いフレームをドロップすることは、平均再構成品質を高める可能性がある。重要性のより低いフレームを低いレートで動的にドロップすることができるように、上記のグリーディ・アルゴリズムを修正する。
(Ni/Mi)のサンプル空間は、最小値1と最大値Nとによって制限され、ここで、Nは総パケット割当量である。このことは、全パケットを受信することにより、全フレームが復元され得ることを意味している。
Figure 0004732428
式(*)から、(Ni/Mi)値をインクリメントすることにより、そのレート寄与度が減少し、同時にこのフレームを復元する確率は減少することがわかる。例えば、
もし、M7→∞であるならば、
Figure 0004732428
かつ、フレームB7がドロップされる。基本的な考え方は、(Ni,Mi)のサンプル空間をN、2N、4N...まで増大させることである。
図11Aは、このフレームドロップの柔軟性を提供することにより達成される利得を示している。サンプル空間が広くなると、より大きく改良される。逆に、ある点で、例えば、4N及び8Nで、さらに重要な利得は持続されない。これは、サンプル空間をNのある倍数に制限することを可能にする。
図8における様々なサンプル空間の結果を比較することにより、本アルゴリズムは、さらなるフレームドロップが要求されないときに、同じ点に収束することが認められる。この動的性は、元のグリーディ・アルゴリズムの修正を必要としない。(Ni,Mi)の許容可能な値の組を増大させることにより、アルゴリズムは、受信機で期待歪みを最小限に抑えるために、最適な(Ni,Mi)値を決定可能である。
図12Aは、一般に、元のアルゴリズムと動的アルゴリズムを比較している。
パスダイバーシチを説明する前に、例えば、GOPと階層ビデオストリーム(layered video stream)を取り扱う実施形態の類似性を明らかにするために、優先順位Priority(i)>Priority(i+1),i=1,...,Mを用いて階層ビデオストリームの多重記述トランスコーディングを最適化する実施形態が提起されている。
階層ビデオストリームは、レイヤが重要度の降順に組織化されている優先順位付きストリームである。トランスコーディング・ノードの実施形態への入力としてMレイヤを含む階層ビデオストリームが考慮されている。
Layer1は基本レイヤに対応し、Layer2〜LayerMはスケーラブル・ビデオストリームのエンハンスメント・レイヤに対応する。中間ノードでは、各グループ・オブ・ピクチャ(GOP)は再び独立に処理される。レイヤ境界は、既にソースによって指定されており、Layer1は、I=1,2,...Mとして、Riに等しい固定長を有する。各レイヤを所定サイズlの小さなセクションに分割することにより、Layer1のためのK1個のセクションが得られ、R1がlの倍数でないならば、最後のセクションはゼロパディングされる。lが小さい場合、このパディングは無視できる。同様に、Layer2〜LayerMは同じサイズlの小さなセクションに分割され、それぞれ、K2〜KM個のセクションを生じる。レイヤ毎の上記セクションは、ある種のチャネル符号化、例えば、リードソロモン(RS)符号によってさらに保護されている。送信されるべきFECの量は、チャネル条件に依存してアルゴリズムの次のステップにおいて決定される。
したがって、Layeriの長さRiは、セクション長lを1ビットに縮小するとき、セクションの個数Kiに対応する。よって、セクションのレイヤ固有の数(layer specific number)Kiとレイヤ固有の長さ(layer specific length)Riとの間の関係は、
i=Ri/l
として表現可能であり、l=1ビットの場合には、
i=Ri/1ビット
として表現される。上記アルゴリズムは、例えば、パケットサイズ制約が
Figure 0004732428
として記述される場合、長さRiに基づいて実行されるか、又は、上記アルゴリズムは、最初にデータブロック部分を等しいセクションサイズlのセクションに分割し、よって、上記のデータブロック長Liと等価な量を表すセクションの個数Kiに基づいて実行され、この場合において、パケットサイズ制約は、既に行われているように、
Figure 0004732428
として記述される。
したがって、上記アルゴリズムは、データブロック部分をサイズlのセクションに分割しない実施形態にも使用され得ることが当業者に明白である。
したがって、階層型の実施形態をGOP型の実施形態と比較すると、Layer1はIフレームを表し、Layer2はGOP又はその他のハイブリッドコーデックビデオストリームの引き続くPフレーム及びBフレームを表す。よって、GOP型の実施形態に対する図2に関して、上記階層型の実施例では、フレームI,P1,B1...P7,B7のKI,KP1,KB1,...,KP7は、レイヤLayer1,Layer2,...,LayerMの長さR1,R2,...,RMに対応する。GOP型の実施例について記載されていたものと同様の定義及び制約が適用される。
トランスコードされるべき階層ビデオストリームは、レイヤが重要度の降順に編成されている優先順位付きストリームである。
トランスコードされるべきビデオストリームは、レイヤが重要度の降順に編成されている優先順位付きストリームである。例えば、Layer1が失われるならば、全ての後続のレイヤは再構成され得ない。その結果として、以下の優先順位:
Priority(Layeri)>Priority(Layerj),i<j,M j i=1,2,...M
で区別される。
A+NB個の送信されたパケットから、Layeriを復元するために受信されるべきパケットの個数として、Ni、但し、N1≦N2≦...≦NMが定められ得る。
不等式は、Layer1が最初に再構成され、その後、Layer2〜LayerMが続けられるべきであることを意味している。
任意のN1個の受信されたパケットがLayer1を復元可能であるならば、各パケットは、Layer1の情報のうちの(1/N1)を含むべきである。例えば、2個のパケットがLayer1を復元するために要求されるならば、Layer1の情報のうちの1/2が送信されたパケット毎に含まれるべきである。したがって、N1は、Layer1の分割の個数を定義し、(長さl)の
Figure 0004732428
個のセクションが各パケットに挿入されなければならない。
パケット長は、L=K×L,K∈N+として定義済みである。
Layer1
Figure 0004732428
個のセクション、Layer2...の
Figure 0004732428
個のセクション、及び、LayerM
Figure 0004732428
個のセクションが各パケットに挿入されるならば、結論としては、
Figure 0004732428
である。
一般に、総和がL/l以下であるならば、この要件は依然として成り立つ。パケットはこのような場合にはゼロパディングされるべきである。その結果、分割の個数(N1,N2,...NM)が決定されると、パケット化問題もまた解決され、一定のパケット長が保証される。
各パスは(ビットレート、損失)プロファイルによって定められ、すなわち、各パスは様々な損失確率を用いて様々なビットレートをサポート可能である。これは、様々な(ビット誤り率、信号対雑音比)特性を有する、様々な変調スキームに対応する。一般性を失うことなく、パケット損失確率及びビットレート割当量によってパスが表現される。パケット長が既知であるとき、ビットレートはパケットの個数、すなわち、N=R/Lに対応している。最適化の一部として、受信機での期待歪みを最小化する最適ビットレート選択が探索される。
Figure 0004732428
及び
Figure 0004732428
を定義することにより、各エントリーが、可能な(パケット割当量、損失確率)選択を表現している。
期待歪み関数に関して、この場合も、2つの利用可能なパスA及びBが最適化中に1つの仮想パスとして考慮され、受信機での期待歪みは、両方のパスの平均複合チャネルに対して最小化される。期待歪みは、ビデオシーケンスのソース歪みと、ビデオストリームの一部のレイヤが失われたときの付加的な歪みとの総和である。
期待歪み関数(ED)は、
Figure 0004732428
によって定義される。式中、Source_Distortion(Layer1,Layer2,Layer3,...,LayerM)は量子化誤差を原因とするGOPのソース歪みであり、i=1,2,...Mとして、D(Layeri)は、Layeriが失われたときの付加的な歪みであり、1個のパケットがいずれかのパスで失われる確率は、
Figure 0004732428
によって定義される。ここで、NA+NB個のパケットのうちのiが失われる確率は、
Figure 0004732428
であり、式中、(N1,N2,...,NM)の値は、各レイヤの分割を決定し、よって、(Layer1,Layer2,...,LayerM)のそれぞれを復元するために受信されるべきパケットの個数を表している。期待歪み関数の各項は、受信パケットの個数がレイヤ毎に要求されたパケットの個数未満であるときの期待される付加的な歪みを決定する。
Source_Distortion(Layer1,Layer2,Layer3,...,LayerM)の値及びi=1,2,...Mとして、D(Layeri)の値は、最適化ステージで必要とされる。これらの値はソースで計算されることがあり、ビデオビットストリームと共に送信されることもある。
目的関数はこの場合も、
{NA,NB,N1,N2,...,NM}=arg min ED(NA,NB,PA,PB,N1,N2,...NM
として記述され得る。
この場合も、以下の制約:
Figure 0004732428
が満たされるように最適化される。
受信機での期待歪みを最小化するために、各記述で送信されるべきパケットの総数を与える、2つのパスに亘る最良ビットレート選択が探索される。ある選択が行われると、各パケットへのレイヤのセクションの最良割り当てプロセスがさらに探索され、各レイヤを復元するために要求されるパケットの個数を決定する。1番目の制約は、パケット割当量制約を表す。送信された各パケットへの様々なレイヤの寄与度は、パケット長を超えるべきでない。この制約は、パケット充填問題をも解決する。(Ni,N2,...,NM)の値が決定されると、各レイヤのデータ選択とFECの所要量とが、様々なパケットに割り当てられる。この制約は、階層ビデオストリーム全体での固定パケットサイズをさらに保証する。
2番目の制約では、所与の損失確率に対する各パスのレート割当量を満たすパスA及びB上のパケットの個数が探索される。3番目の制約は、ビデオストリームの様々なレイヤ間の依存性の直接的な結果である。4番目の制約は、両方の記述から完全なビデオを復元できるようにするために満たされるべきであり、すなわち、NM個のパケットがLayerMを復元するために必要とされるならば、送信されたパケットの総数は少なくともNMと等しくなければならない。
動的グリーディ割り当て法を再び参照すると、図8、9及び19から、平均GOP信号対雑音比は、冗長性が低い場合に低いことがわかる。
逆に、低レートでは、優先順位がより低いレイヤをドロップすることは、より重要なレイヤがより大きな保護を受けることを可能にする。これは、アルゴリズムがあるLayerj,j≦Mで階層ストリームを切り捨てることを許容することによって実現される。Iフレーム、Bフレーム及びPフレームのハイブリッドビデオコーデックストリームの場合、重要度の低いフレーム(例えば、(既に明らかにされているように)Bフレーム)をドロップすることと等価である。したがって、上述されているグリーディ・アルゴリズムは、低レートでは重要度のより低いレイヤを動的にドロップすることができるように修正されている。
ここまでは、(N1,N2,...,NM)のサンプル空間は、1という最小値と総パケット割当量であるNという最大値とによって制限されていた。これは、全パケットを正確に受信することにより、全レイヤが復元され得ることを意味している。
Figure 0004732428
式(*)から、任意のNi値をインクリメントすることにより、Layeriのレート寄与度が減少することがわかる。同時に、これは、より多くのパケットがLayeriを復元するために要求されること、すなわち、このレイヤを復元する確率が減少することを意味する。
様々なサンプル空間に対し、上述された同じシミュレーションが繰り返される。IBP構造を有する16フレームからなるGOPが考慮されている。図11Bでは、(N1,N2,...,NM)のサンプル空間を増大させることにより達成される利得が示されている。
N、2N及び8Nと等しいサンプル空間が考慮されている。サンプル空間を増大させることにより、より重要度の低いフレームは各パケット内でより少ないバイトが割り当てられる。これは、より重要度の高いフレームが優先してより大きく保護されることを可能にさせる。
換言すると、図11Bは、サンプル空間を増大させることが、より重要度の高いレイヤのためにより大きな保護を割り当てる柔軟性をグリーディ・アルゴリズムに与えることを示している。シミュレーションでは、IBPの16フレームからなるグループ・オブ・ピクチャが考慮された。
より優先順位の低いレイヤをドロップさせる上記の考え方は、今度は階層ビデオ構造のため拡張されている。分析的に、これはサンプル空間を無限大まで増大させることと等価的である。ビデオ符号化の観点から、このことは、Layerj,j≦Mにおけるビデオストリームの切り捨てを意味している。
修正アルゴリズムは以下の通り要約される。
1)(N1,N2,...,NM)のサンプル空間を数N’>N、例えば、N’=8Nにセットする。
2)切り捨て点を決定:基本アルゴリズムを適用する。Nj+1>Nであるならば、Layerjでストリームを切り捨てる。レイヤ間の依存性に起因して、全てのLayerk,j+1≦k≦Mがドロップされる。
3)(N1,N2,...,Nj)値を決定するために基本アルゴリズムを適用する。
同じシミュレーションが修正アルゴリズムをテストするために実行される。IBP構造を有する16フレームとIPP構造を有する8フレームとからなるGOPが、図12B及び12Cのそれぞれで考慮されている。両方のケースにおいて、このフレームドロップの柔軟性を提供することにより実現される利得は、かなり顕著である。さらに、動的アルゴリズムは、さらなるフレームのドロップが要求されないときに元のアルゴリズムと同じ点に収束することがわかる。
以下では、不均一誤り保護(UEP)を用いる多重記述ビデオトランスコーディング(MDVT)アプローチの実施形態が、均一誤り保護(EEP)を用いる同じアプローチと比較されている。
前者では、動的グリーディ・アルゴリズムは誤り保護の最適量を決定する。後者では、全フレームが同数のセクションに分解されている。
図13は、様々な冗長性及びPLRでのUEP利得を示している。これはFECを用いるMDCを使用する理由を例証している。不均一前向き誤り保護(unequal forward error protection)は、優先順位付けされていないネットワークを介して複数の独立したパケットを送信しながら、優先順位付きビデオストリームの特性を利用するために役立つ。そして、後に続くパスダイバーシチは詳細に説明されている。
提案されているトランスコーディングアプローチの前に、2つの利用可能なパス上で同時に行われる最適化を示す(図14A)。総パケット割当量N=NA+NB及び平均損失確率Pが与えられると、様々なフレーム間での誤り保護の最適配分が決定される。パケットは、NA個のパケットとNB個のパケットの2つの記述で送信された。両方のパスに接続されているユーザ(図14C)は、両方の記述を組み合わせることが可能であり、結果として生じる歪みは、主歪み(central distortion)Dcに等しい。
しかし、一部のシナリオでは、ユーザは一方のパスだけに接続されることがある。受信機の帯域幅、パス上の遅延、又は、完全なGOPの停止でさえ、一方のパスを利用不可能にさせることがある(図14D)。このようなケースでは、受信機での平均歪みは、Dcより大きな副歪み(side distortion)Dsに等しい。
ここで、両方のパスを同時に最適化するべきか(図14A)又は個別に最適化するべきか(図14B)という疑問が生じる。個別最適化では、ソースチャネル符号化スキームは両方のパスに適用され、入力ビデオストリームは、誤り保護され、各パス上で別々に送信される。
図15A及び15Bでは、受信機の平均副psnr(図15A)と平均主psnr(図15B)とを測定することにより、同時最適化と個別最適化が比較されている。両方のリンクは、このシミュレーションでは対称であることが仮定されている。副歪みを測定するとき、一方のリンクはレートR−outを用いて利用可能である。主歪みを測定するとき、両方のリンクが利用できるので、出力レートは2倍になる。出力レートであるR−outは、x軸上に原ビデオストリームの入力レートであるR−inに応じてプロットされている。y軸上には、GOPの平均psnrがプロットされている。
同時最適化を行うとき、主再構成品質は強力であり、一方、副再構成品質は弱い。この場合、受信品質は平均ネットワーク挙動を表している。複合仮想チャネルが十分に良好であるかぎり、良好な受信を保証する。
一方、個別最適化を行うとき、より優れた副再構成が行われる。しかし、両方のリンクの存在は最適再構成を保証せず、個別最適化として、パケット割当量はリンクの割当量まで削減される。一部のフレームは、良好な副再構成を保証するためにリンク毎にドロップされるので、両方のリンクを組み合わせることは、全フレームの復元を可能にしない。図15Bは、各パスが個別に最適化される従来のアプローチと比較されて、両方のパス上での同時最適化によって達成される利得を示している。
ピクチャを完全にするため、これらのパスのうちの一方が利用できないという問題が取り扱われる。ネットワーク条件が変化するのに伴って、ある時間間隔でのリンク破損の可能性が存在する。したがって、副再構成と主再構成との間でトレードオフする解法が提唱されている。この目的のため、トランスコーディング点での倍率μは、例えば、受信機での期待歪みが、
期待歪み=Dc+μ*s
に等しくなるように導入されている。
高い値のμは個別最適化の事例に対応し、一方、μをゼロに設定することは同時最適化の事例に対応する。μの選定は、ネットワーク条件に依存してオペレータによってオフラインで決定されてもよい。
図16A及び16Bには、様々なμの値に対する受信機での副再構成品質(図16A)及び主再構成品質(図16B)がプロットされている。同図は、副歪みの利得が主歪みにおける損失より大きいある点に到達可能であることを示している。
倍率μは緩和係数(relaxation factor)とも呼ばれる。
実際的なシナリオでは、受信機は、異なるレート及び損失特性を伴う2つの不平衡パスを介してトランスコーディング・ノードに接続されている可能性がかなり高い。このセクションでは、不平衡パスのMDVTアプローチの性能が実証されている。
2つの不平衡パスを介してデータを送信する1つの方法は、GOPフレームをフレームの2つの部分集合に分離し、単一記述ビデオトランスコーディング(SDVT)を各部分集合に適用し、別個のパスを介して送信することである(図17)。これに対して、MDVTアプローチでは、2つのパスは1つの仮想パスとして作用し、両方のパスに亘る同時最適化が考慮されている。その後に、結果として得られたパケットストリームが2つのパスに分離される(図18)。
換言すると、図17は、ビデオストリームが奇数フレーム及び偶数フレームに分離される、すなわち、両方の記述が同数のフレームを搬送し、結果としての奇数フレームのストリーム及び結果としての偶数フレームのストリームが、単一記述ビデオトランスコーディング(SDVT)に基づいて、別個にトランスコードされる、アプローチを示している。逆に、図18に示されているように、多重記述ビデオアプローチの実施形態は、共通の仮想チャネルを介して両方の記述を最適化する。
図18は、トランスコーディング・ノード130(MDVT)の実施形態を示している。特に、トランスコーディング・ノードが他のノードから入力ビデオストリームを受信するネットワーク内実施では、トランスコーディング・ノードの実施形態は、着信ビデオストリームをバッファリングするバッファをさらに備え、後で多重記述トランスコードされるグループ・オブ・ピクチャ(GOP)を構築する。多重記述トランスコーディングは、レートR1及びパケット損失レートP1によって表されている第1のパス132のパス特性に関して、ビットレートR2及びパケット損失レートP2によって特徴付けられた第2のパス134の特性に基づいて、最適化されている。決定されたトランスコーディング・パラメータに基づいて、第1の記述が生成されるとともに第1のパス132を介して受信機150へ送信され、第2の記述が生成されるとともに第2のパスを介して受信機150へ送信される。
図17において、奇数フレームが保護され、パス1を介して送信され、偶数フレームが保護され、パス2を介して送信される。これは結果として、ρが冗長性係数であるとき、レートR1=(1+ρ)R(oddframes)及びR2=(1+ρ)R(evenframes)の2つの不平衡記述を生じる。結果として得られたパスのプロファイル(R1,P1)及び(R2,P2)が比較のためMDVTアプローチで使用されている。
IBP...構造を有する16個のフレームからなるGOPが考慮されている。奇数フレームの部分集合は(I,P1...P7)フレームを含み、偶数部分集合は(B1...B8)フレームを含む。2つのパスは、それぞれ、25%のPLR(パス1)と10%のPLR(パス2)とを含む場合が考慮されている。冗長性係数のさらなる変形が実行されている。図19及び20において、2つのテストシーケンスのための両方の方法、すなわち、図19のフォアマン(399フレーム)、及び、図20のコンテナ(279フレーム)が比較される。全体的な冗長性は20%から100%まで変化する。4.2dB及び3.65dBまでの利得が、図19及び20のそれぞれのMDVTアプローチに関して観測される。改良は、様々な冗長性に関して、かつ、高い冗長性であっても観察可能であり、ソース歪みに達するとき、従来の奇数/偶数分離アプローチよりMDVTアプローチを使用する利得が依然として存在する。
換言すると、図21は、パス1のパケット損失レートが25%であり、パス2のパケット損失レートが10%であるIPPフォアマン・テスト・シーケンスを用いる、不平衡パスのための多重記述ビデオトランスコーディングを示し、図22は、IPPフォアマン・テスト・シーケンス及び両方のパスのための15%のパケット損失レートを用いる、不平衡パスのための多重記述ビデオトランスコーディングを示している。図21及び図22の両方の場合において、フォアマン・テスト・シーケンス(399フレーム)が使用されている。両方の図において、MDVTアプローチの利得は、奇数/偶数分割アプローチを上回ることが依然として明白である。
以下では、より広い範囲に既に取り込まれている一時的なパス停止の問題がより詳細に説明されている。2つのパス(例えば、UMTSリンク及びWLANリンク)を介してトランスコーディング・ノード(例えば、無線ネットワーク・コントローラ)に接続されているモバイル端末が考慮されている。トランスコーディング・ノードは両方のリンクに亘る再構成品質を最大化する。したがって、両方のリンクが利用可能であるとき、受信機は両方の記述を復号化可能であり、高い受信品質が達成される。しかし、一方のリンクが停止しているならば、一方の記述が復号化され、受信品質は悪い。
一時的なパス停止の1つの理由はハンドオーバである。ハンドオーバ中に、リンクが数秒間に亘り機能停止することがある。リンクが停止する前に、トランスコーダが既にGOPを処理し始めているならば、トランスコーダは、2つのパスの動作(オペレーション)のため受信機での期待歪みを最小化する。しかし、受信機での歪みは期待されている通りではない。
この制限を解決するために、停止の場合に1パス受信と2パス受信との間でトレードオフすることができる緩和パラメータが導入される。トランスコーディング・ノードは、停止確率を推定し、それに応じて緩和パラメータを調整可能である。トランスコーディング・ノードにおける停止確率推定値が正確であるかどうかとは無関係に、このことは性能の改善又は低下を招く。
レート及びパケット損失確率の他に、各リンクの停止性能を特徴付ける第3のパラメータが導入されている(図23)。
図23A〜23Cは、モバイル端末のための様々な受信シナリオを示している。図23Aは、両方のパスが利用可能であり、期待歪みがDcと一致するシナリオを示している。図23Bは、パス1だけが利用可能であり、期待歪みがDs1と一致するシナリオを示し、図23Cは、パス2だけが利用可能であり、期待歪みがDs2と一致するシナリオを示している。
トランスコーディング・ノードは、
期待歪み=Dc+μ1*Ds1+μ2*Ds2
によって定義された受信機での全体的な歪みを最小化し、式中、Dcは、両方のパスが利用可能であるときの期待歪みであり、Dsiは、パスiだけが利用可能であるときの期待歪みである。
1つの記述及び2つの記述が受信されたときの、受信機での平均PSNRが図24及び図25のそれぞれに示されている。平衡化のケースは、μ=μ1=μ2及びP1=P2=0.05を用いて考慮されている。出力レート(R−out)は、入力GOPレート(R−in)に応じてx軸に沿って変化する。コンテナ・テスト・シーケンス(279フレーム)が考慮されている。
図24は、1パス品質、すなわち、5%のパケット損失レートの場合のピーク信号対雑音比を示している。様々なμの値は、(1つの記述が受信される)副受信に関してトランスコーディング・ノードにおける様々な動作ポイントを表している。図25は、2パス品質、すなわち、2つの記述が5%のパケット損失レートの場合に受信されたときのピーク信号対雑音比を示している。様々なμの値は、今度は、主受信の場合のトランスコーディング・ノードにおける様々な動作ポイントを表している。
トランスコーダは、パス停止確率に関するチャネルフィードバックに基づいて動作(μ1,μ2)を選定する。最良受信性能のため、トランスコーディング・ノードは、パス2上の停止確率が高い場合に(μ1=0,μ2=0)から(μ1=1,μ2=0)へ切り替わるべきである。代替的に、フィードバック情報が不正確であるか、又は、遅延を伴うとき、トランスコーダは、両極端の間にあるその他の点(μ1,μ2)で動作し得る。これらの機能点のうちの一部が図27に示されている。
提案されたアプローチは、360GOPの連結フォアマン・シーケンス(concatenated Foreman sequence)を用いてさらに評価される。各GOPは16フレームからなるIBPシーケンスに対応している。2つの不平衡パス、すなわち、レートR1=R−inであるパス1、及び、レートR2=1.2×R−inであるパス2が考慮され、ここで、R−inは入力ビデオストリームのレートである。両方のパスは5%のPLRの影響を受ける。GOPシーケンスの平均PSNRは、パス1及びパス2上の停止確率に応じて図28及び29にプロットされている。
両方の図面で、x軸上の点(0,0)は、停止がいずれのパスにおいても発生しないケースに対応している。このケースでは、両方の記述が正確に受信され、復号化される。様々な(μ1,μ2)の組み合わせに対応する曲線は、停止が無い場合における類似した性能を明らかにしている。これは、両方の記述が受信されたときには信号に十分な冗長性が存在し、最適品質が(μ1,μ2)の対とは無関係に完全に達成されることを示している。
それにもかかわらず、停止が存在するケースでは状況が異なる。図28は、パス2が常に利用可能であり、一方、パス1上の停止確率が変化する状況を描いている。このケースでは、μ1=0及びμ2=0の組み合わせに対する受信品質は、高帯域幅パス(すなわち、パス2)が常に利用可能であるので、パス1上の停止による影響を僅かに受ける。μ1=0及びμ2=0.1をセットすることによるパス2上の副受信の最適化は、平均PSNRをさらに増加させる。逆に、パス1に対する最適化、すなわち、μ1=0.1及びμ2=0は、パス1上の停止が増加するのにつれて、品質の低下を招く。
換言すると、図28は、パス1及びパス2上の停止の確率に応じて平均ピーク信号対雑音比を示し、ここで、低帯域幅パスであるパス1は停止することが多く(高停止確率)、一方、高帯域幅パスであるパス2は常に利用可能である(0という停止確率)。平均品質は、高帯域幅パスが利用可能である限り持続され得る。
図29では、反対の状況が考慮され、パス1は常に利用可能であり、高帯域幅パスであるパス2は停止させられる。この場合、主歪みの最適化、すなわち、μ1=0及びμ2=0、又は、パス2動作の最適化、すなわち、μ1=0及びμ2=0.1は、平均PSNRの低下を招く。パス2上の停止確率が増加するのにつれて、パス1上の副再構成品質は平均PSNRを改善するために最大化されるべきである。これは、顕著なPSNR利得を生じるμ1=0.1及びμ2=0に調整することにより実現される。
換言すると、図29は、パス1及びパス2上の停止の確率に応じて平均ピーク信号対雑音比を示し、ここで、低帯域幅パスであるパス1は、常に利用可能であり(0%という停止確率)、一方、高帯域幅パスであるパス2は、停止することが多い(高停止確率)。平均ピーク信号対雑音比を改善するために、パス1上の副再構成品質は最大化されるべきである。
この実験は、緩和パラメータの正確な選定が平均性能の改善の原因となることを示している。実際の性能は、ネットワーク条件の可変性及びチャネル停止推定値の精度に依存している。
本セクションでは、2つの直接的なパスが送信機と受信機との間に存在する場合が考慮されている。直接的にビデオソースにMDVTを適用することから生じる柔軟性の検討が行われている。
両方のパスを介して送信されたビデオの総レートは、ソース符号化レートRsrcとチャネル符号化レートRchとの合計に等しい。同時に、受信機での総歪みは、量子化誤差に起因するソース歪みDsrc及びパケット消失に起因するチャネル歪みDchに一致する。ソースレートの増加は、量子化歪みを最小化し、チャネルレートの増加は、パケット損失の確率を最小化する。
MDVTでは、符号化されたビデオストリームは、中間ネットワークノードで2つの記述にトランスコードされる。この場合、Rsrc及びDsrcは、ビデオソースによって既に固定されている。アルゴリズムは、記述を保護し、Dchを最小化するために、付加的な冗長性を使用する。他方、2つの記述が送信機で生成されるとき、ソースは、受信機での総歪み、すなわち、Dch+Dsrcを最小化するために、RsrcとRchとの間でトレードオフを行うことが可能である。図30では、ビデオストリームは、量子化パラメータを変化させることにより様々な解像度で生成されている。各解像度は、ターゲットソースレートに対応している。
図30は、フォアマン・テスト・シーケンスの場合のレート歪み曲線を示している。
図31及び32には、受信機での平均ピーク信号対雑音比(PSNR)が伝送レートに応じてプロットされている。図31は、様々なソースレートに対する伝送レート及び5%のパケット損失レートに応じて、受信機における再構成品質(PSNR)が示されている。図32は、様々なソースレートに対する伝送レート及び15%のパケット損失レートに応じて、受信機における再構成品質(PSNR)が示されている。
伝送レートは、両方のパス上の総レート、すなわち、Rsrc+Rchである。各曲線は、所与のソースレートRsrcの場合に適用されたMDVTアルゴリズムに対応している。ある特定の伝送レートに対し、各曲線は、異なるソースレートとチャネルレートの組み合わせを表している。様々なソースレートの間で選定する柔軟性を与えることにより、ソース符号化とチャネル符号化との間の最適トレードオフが所与のレート割当量に対し決定される。これは最終的には、1つの固定されたレート動作に対する利得が受信機で得られる原因となる。この柔軟性の利得は、受信機でのビデオ歪みを最小化するために送信機とトランスコーディング・ノードとの間のレート適応が重要であることを示している。これは、通常は、フィードバックチャネルが受信品質を最大化し、受信機での連続したプレイアウトを提供するために使用されるストリーミングアプリケーションの事例である。
以下、MDVTの考え方が、マルチユーザMDVTシナリオに拡張されている。各エンドユーザに個別にサービスするのではなく、ユーザは、典型的に、トランスコーディング・ノードによるサービスを受ける様々なマルチキャストグループに加入する。本シナリオでは、トランスコーディング・ノードへの1パス接続性を有する低帯域幅クライアントと2パス接続性を有する高帯域クライアントとの、2つのタイプのクライアントが考慮されている。低帯域幅ユーザと高帯域幅ユーザとに別々の記述を送信するのではなく、記述1は共通マルチキャストチャネル1を介して全ユーザへ送信され、記述2はマルチキャストチャネル2のみを介して高帯域幅ユーザだけに送信される。これは、最終的に帯域幅の節約をもたらす。2−ユーザ型MDVTスキームは、図33Aに示されている。
図33Aは、チャネル1を介して第1の記述133’を送信し、チャネル2を介して第2の記述135’を送信する多重記述トランスコーダ130’を示している。チャネル1はビットレートR1を有するWLAN通信チャネルであり、チャネル2はレートR2を有するUMTS通信チャネルである。
ユーザ1 150’又は逆トランスコーディング・ノード150’が、例えば、ユーザ2 150’’又は逆トランスコーディング・ノード150’’とは異なる位置にあるとき、両方のユーザは異なるパケット損失確率Pにさらされ得る。したがって、ユーザ1に関して、通信チャネル1 133’は、レートR1及びパケット損失レートP11によって記述される可能性があり、ユーザ2に関して、チャネル1 132’’は、パス又はチャネル特性レートR1及びパケット損失確率P12によって記述され得る。同様に、チャネル2 134’’は、パス又はチャネル特性R2及びパケット損失確率P2によって記述され得る。
階層多重記述符号化は、パケット損失環境において異種クライアントにサービスを提供するため既に使用され、例えば、非特許文献14を参照されたい。サーバーは、階層ビデオストリームを、ボトルネックリンクを介して全ユーザへ送信される複数の記述に符号化する。低帯域幅クライアントは基本レイヤ表現(base layer representation)を受信し、一方、高帯域幅クライアントは基本レイヤ表現とエンハンスメント・レイヤ表現(enhancement representation)との両方を受信する。MDCの場合と同様に、階層ビデオストリームのレート境界は、受信機側での期待歪みを最小限に抑えるために最適化中に変更される。このスキームは、レイヤ境界が既に固定されているトランスコーディング・ノードにおいてこれ以上最適化されない。
P.Chou,H.Wang,V.Padmanabhan、「Layered Multiple Description Coding」,In Proc.Packet Video Workshop,Apr.2003、及び、V.Stankovic,R.Hamzaoui,Z.Xiong,「Robust Layered Multiple Description Coding of Scalable Media Data for Multicast」,IEEE Signal Processing Letters,vol.12,pp.154−157,Feb.2005
本発明の実施形態は、例えば、中間ネットワークノードにおいても適用され得る枠組みを提供する。
トランスコーディング・ノードで、階層ビデオストリーム{Layer1...LayerM}は処理される。このストリーム中の一部のレイヤは保護され、第1の記述中で低帯域幅ユーザへ送信される。第2の記述は、より大きな保護を第1の記述で送信されたレイヤに与え、利用可能な割当量及びパケット損失レートに依存して同様にその他のレイヤを含み得る。第2の記述は、高帯域幅ユーザだけに送信される。2ユーザ型MDVTシナリオが、図33Aに示されているように、後続の分析において考慮されている。それにもかかわらず、このアプローチは、異なるマルチキャストグループに加入している複数の低帯域幅ユーザ及び高帯域幅ユーザにサービスを提供するために拡張される。その場合、このアプローチへの主要な拡張は、ユーザが異なるパケット損失パターンにさらされるとき、マルチキャストグループ1内の複数のユーザのために記述1を最適化し、マルチキャストグループ2内の複数のユーザのために記述2を最適化することである。
マルチユーザ型多重記述トランスコーディングの方法の実施形態は、2ステップで要約され得る。
第一に、ユーザ1のための最適性能を見つける。一方のパスがユーザ1のため利用可能であり、記述1が送信される。MDVTアルゴリズムは、一方のパス伝送だけを最適化する間に使用され、ビデオストリームは、Layerj,j≦Mで切り捨てられる。また、Layer1〜Layerjは送信され、記述1内で保護されている。
第二に、ユーザ2に関して、Layer1〜Layerjのため必要とされる付加的な保護の量、並びに、記述2へのLayerj+1〜LayerMのデータ及びFEC寄与度を決定するために、上記アルゴリズムへの拡張が使用される。これは、2つの記述がユーザ2のため最適化される場合に比較して性能の損失を招く。
低帯域幅ユーザの場合、MDVTアルゴリズムは、Layerjでビデオストリームを切り捨て、各パケットへのLayer1〜Layerjの寄与度を決定するために使用される。上述されているように、各パケットへのLayeriの寄与度は、
Figure 0004732428
に等しい。図33Bは、N1=2、N2=3...Nj=4及びKi=Ri、ここで、RiはLayeriの長さである、という特殊なケースを示している。レイヤの分割が行われると、データ及びFEC部分は記述1のパケット全体に適切に割り当てられる。
図33Bは、第1の記述133’で送信されるLayer1〜Layerjの部分を示している。
高帯域幅ユーザの場合、Layer1〜LayerjのFEC部分の残り、及び、Layerj+1〜LayerMのデータ及びFEC部分は、図33Bに参照符号135’によって示されているように、記述2中で送信され得る。
以下、受信機での期待歪み全体が最小化されるようにこれらの部分を割り当てるアプローチが説明されている。
マルチユーザ型最適化の場合、以下の定義が提供される。
A及びNBは、記述1及び記述2のそれぞれのパケット割当量として定義されている。
Figure 0004732428
毎を、Layeriのセグメント、及び、
Figure 0004732428
と呼ぶ。Layer1〜Layerjのセグメント分割は、記述1の最適化の間に決定された。しかし、記述2に割り当てられるFECセグメントの個数は、決定されなければならない。
Layerj+1〜LayerMの場合、これらのレイヤは記述1内でドロップされているので、セグメント分割は指定されなかった。Layermのsegment_length(m)は、
Figure 0004732428
,j+1≦m≦Mに等しいことが定義されている。これは、NB個のセグメントを受信することにより、Layermが復元され得ることを意味している。ここで留意すべき点は、この初期分解は、バイトレベルでも実行可能であるが、収束の速度を低下させることである。記述2へのセグメントの割り当ては、受信機における期待歪みを決定する。様々な初期分解に対する結果は類似していた。
以下では、レート関数が導入されている。
各記述の範囲内で、全パケットは独立であり、重要度が等しい。付加的なセグメントが記述2に追加されるとき、付加的なセグメントは種々のパケットの全体で一様に分布させられる。Layeri,1≦i≦Mのうちの1つのセグメントが記述2に追加されるならば、これは、
Figure 0004732428
バイトが記述2のNB個のパケットのそれぞれに追加されることを意味している。一般に、Layeriのt個のセグメントが記述2に追加されるならば、
Figure 0004732428
バイトが各パケットに割り当てられる。t(i)が記述2に割り当てられたLayeriのセグメントの個数であるならば、パケット長制約は、
Figure 0004732428
によって定義され得る。
最後に、1つずつの歪み関数が定義される。
レイヤ毎に、パス2上で正確に受信されたセグメントの個数は、送信されたセグメントの個数と受信されたパケットの個数との関数として計算され得る。オフライン行列(offline matrix)が作成され、様々なパケット損失に対し受信されたセグメントの個数を決定するために使用される。
Figure 0004732428
i=レイヤインデックス
k=パス2上で失われたパケットの個数
t=パス2上で送信されたセグメントの個数
n_segment=パス2上で正確に受信されたセグメントの個数
受信機での全体的な期待歪みを追跡するために、両方のパス上での様々なパケット損失の組み合わせ、ならびに、様々なレイヤ間での依存性が考慮されるべきである。この複雑性を取り扱うために、パス1上の期待歪みが基準として考慮され、この歪みを最小化するためにパス2上でセグメントを割り当てる。期待歪みを決定するために要求される必須ステップは後述されている。
第一に、任意のLayeri,1≦I≦j、すなわち、記述1で送信されたレイヤを復元するため、パス1上で送信されたNA個のパケットの中で正確に受信されるべきパケットの個数としてNiが既に定義されている。逆に、x個の付加的なセグメントがパス2上で正確に受信されるならば、このことは、パス1上でNi−x個のパケットを受信することにより、Layeriは基準レイヤが復元可能である限り同様に復元可能であることを意味している。受信機での期待歪みは、パス2上の全パケット損失確率を考慮し、対応するパス1上の残りの歪みを決定することによって決定され得る。Layeriのt個のセグメントが記述2で送信されたときの、Layeri,1≦I≦jに対する受信機での期待歪み関数は、
Figure 0004732428
によって定義され、ここで、
N(Layeri)=maximum(Ni−n_segment(I,t,k),N(Layeri-1))
である。
第二に、任意のLayeri,j+1≦i≦M、すなわち、記述2だけで送信されたレイヤを復元するため、パス2上で受信されたセグメントの個数は、データ部分の全部を復元するために十分でなければならない。各レイヤはNB個のセグメントに分解されているので、正確に受信されたセグメントの個数がNB個以上であるならば、Layeriは復元され得る。この場合、Layeriは、Layeri-1が復元されているならば、正確に復号化されるので、Layeriによって引き起こされる付加的な歪みは存在しない。他方で、受信されたセグメントの個数がLayeriを復元するために十分でないならば、全体的な歪みは低減せず、Layeriの損失により生じる期待歪みが計算され得る。Layeriのt個のセグメントが記述2で送信されたときの、Layeri,j+1≦i≦Mに対する受信機での期待歪み関数は、
Figure 0004732428
によって定義され、ここで、
ED(k)=0,n_segment(i,k,t)≧NB
であり、それ以外の場合、
Figure 0004732428
である。
記述2に割り当てられる各レイヤのセグメントの最適な個数は、シングルユーザ型シナリオについて記載されたものに類似したグリーディアプローチで決定される。このアプローチは以下の通り要約され得る。
1)初期化:全レイヤの送信されたセグメントの個数はゼロに等しい。すなわち、
Figure 0004732428
2)レイヤ毎に、セグメントを記述2に追加するコストを決定する。ここで、
Figure 0004732428
3)コスト関数を最大化するレイヤのための記述2にセグメントを追加する。
4)ステップ2及び3を繰り返す。
Figure 0004732428
であるとき終了する。
以下、上記の最適化及び割り当て法によって得られたシミュレーション結果が説明されている。
2ユーザ型シナリオでは、ユーザ1の最適PSNRは、記述1がユーザ1の損失とレート特性とに関して最適化されたときに達成される。同様に、ユーザ2の最適PSNRは、両方の記述がユーザ2の損失とレート特性とに関して最適化されたときに達成され得る。パス1上及びパス2上のレートがそれぞれR1及びR2に等しいならば、最適割り当ては、2*R1+R2という総レート割当量を要求する。しかし、2ユーザ型MDVTアプローチでは、記述1がマルチキャストパスを介して両方のユーザへ送信されるので、R1+R2という総レート割当量が使用される。2ユーザ型MDVTアプローチの性能は、各ユーザの最適受信品質と比較することによってテストされる。最適解はMDVTアルゴリズムを用いて見つけられ、ユーザ1に対して、1つの記述が1パス型動作のため最適化され、ユーザ2に対して、2つの記述が2パス型動作のため同時に最適化される。IPP構造を有する8フレームからなるGOPが考慮されている。低帯域幅ユーザ及び高帯域幅ユーザのパスプロファイルは、
ユーザ1 (R1=(1+ρ1)×R−in,P11)
ユーザ2 (R1=(1+ρ1)×R−in,P12,R2,P2)
によって定義され、ここで、R−inはトランスコーディング前に符号化されたビデオストリームのレートであり、ρ1はパス1上の冗長性を決定する。パス2上のレートR2はR−inに応じて変化する。
図34及び35において、フォアマン・テスト・シーケンスが考慮されている。結果は20個のGOPに亘って平均化される。エンドユーザのプロファイルは、ρ1=0.2、P11=5%、P12=20%及びP2=30%によって定義されている。
換言すると、図34は、フォアマン・テスト・シーケンスを使用して、かつ、パス特性R1=1.2×R−in及びパケット損失確率P11=5%に基づいて、最適MDVT及び2ユーザ型MDVTに関して、ユーザ1の品質(PSNR)の比較をパス2上のレートに応じて示している。
2ユーザ型MDVTアプローチは、ユーザ1に対する最適保護を計算することにより開始する。その結果、ユーザ1の受信品質は、両方のアプローチに関して同一である。これは、平均PSNRがパス2上のレートに応じてプロットされている図34に示されている。期待歪みは記述1において低帯域幅ユーザだけに関して最小化されるので、平均PSNRは最適であり、パス2上のレートに依存しない。2ユーザ型MDVTアプローチでは、高帯域幅ユーザは、両方のユーザのためのマルチキャストパス1を介して送信されたパス1上の記述1と、パス2上の記述2とを受信する。記述2は高帯域幅ユーザの受信品質を高めることを目的としている。図35は、記載されたアプローチと最適アプローチとを比較している。(1+ρ1)×R−inというレート利得と比較して1dB未満の性能損失がユーザ2に対して観察される。利益は、複数のユーザがトランスコーディング・ノードによってマルチキャストパスを介してサービス提供されるマルチユーザ型MDVTシナリオでは、より一層大きい。
換言すると図35は、フォアマン・テスト・シーケンスを使用して、パス2のレートに応じて、最適MDVTと2ユーザ型MDVTとに対するユーザ2のPSNRの比較を示している。パス1のパス特性は、ユーザ1のためのレートR1=1.2×R1−in及びパケット損失確率P11=5%と、ユーザ2のためのパケット損失確率P12=20%とによって定義され、パス2に関しては、パケット損失確率P2=30%によって定義されている。利益は、複数のユーザがトランスコーディング・ノードによってマルチキャストパスを介してサービス提供されるマルチユーザ型MDVTシナリオでは、より一層大きい。
図36〜40では、16GOPのコンテナ・テスト・シーケンスが考慮されている。
図36及び37では、エンドユーザのプロファイルが、ρ1=0、P11=10%、P12=30%及びP2=30%によって定義されている。換言すると、図36は、コンテナ・テスト・シーケンスを使用して、パス2上のレートに応じて、最適MDVTと2ユーザ型MDVTとに関してユーザ1の品質(PSNR)を比較している。ユーザ1に関してパス1のパス特性は、レートR1=R−in及びパケット損失確率P11=10%であり、図37は、コンテナ・テスト・シーケンスを使用して、パス2上のレートに応じて、最適MDVTと2ユーザ型MDVTとに関してユーザ2の品質(PSNR)を比較している。パス1は、レートR1=R−inと、ユーザ1に関するパケット損失確率P11=10%と、ユーザ2に関するパケット損失確率P12=30%とによって表される。パス2はパケット損失確率P2=30%によって表される。
フォアマン・シーケンスについて上述された結果と類似した結果が観察される。その上、図38及び39では、エンドユーザのプロファイルがρ1=0、P11=15%、P12=10%及びP2=10%によって定義されている。
換言すると、図38は、コンテナ・テスト・シーケンスを使用して、パス2上のレートに応じて、最適PDVTと2ユーザ型MDVTとに関してユーザ1の品質(PSNR)を比較している。パス1は、パス特性であるレートR1=R−inと、パケット損失確率P11=15%とによって表される。
図39は、コンテナ・テスト・シーケンスを使用して、パス2上のレートに応じて、最適MDVTと2ユーザ型MDVTとに関してユーザ2の品質(PSNR)を示している。パス1は、レートR1=R−inと、ユーザ1に関するパケット損失確率P11=15%と、ユーザ2に関するパケット損失確率P12=10%とによって表される。パス2は、パケット損失確率P2=10%によって表される。
この場合、高帯域幅ユーザは、低帯域幅ユーザより低いパケット損失レートに直面する。より高いパケット損失レートを有するユーザ1のために最適化された記述1には、このようにして、高次レイヤの送信を犠牲にして、低次レイヤのためのより大きな保護が含まれる。この状況でさらに留意すべき点は、高帯域幅ユーザのための2ユーザ型MDVTアプローチの性能が最適解から依然として最大でも1dBであることである。
以下、トランスコーディング・ノード及び逆トランスコーディング・ノードの実施形態が図1B及び1Cに基づいてより詳細に記載されている。
図1Bは、パケット生成ユニット140、140’と、最適化ユニット142、142’と、メモリ144と、第1の送信機146と、第2の送信機147と、受信機148とを備えている多重記述トランスコーディング・ノードの実施形態を示している。「’」付きの参照符号、例えば、130’は、マルチユーザ型実施形態を表している。シングルユーザ型実施形態130及びマルチユーザ型実施形態130’の設計及び基本機能は同じであり、以下の実施形態の一般的な説明では、シングルユーザ型実施形態のための参照符号だけがより読みやすくするために使用されているが、説明はマルチユーザ型実施形態にも当てはまる。マルチユーザ型実施形態の特有の態様は個別に説明されている。
パケット生成ユニット140は、受信機148を介して、データブロック112のストリームの、すなわち、シーケンスのデータブロックを受信する。データブロック112は、所与の個数のデータブロック部分を含み、優先順位付きデータブロックのための実施形態では、各データブロック部分は、各データブロック部分に優先順位が関連付けられ、優先順位付きデータブロックのうちの少なくとも2個のデータセグメントは、異なる優先順位を有する。GOPビデオストリーム又は階層ビデオストリームを使用する上述の実施形態に関して、M個のレイヤのグループ・オブ・ピクチャの全体がデータブロックを形成しているとみなすことができ、様々なフレームI、P1、B1、...、P7、B7及び様々なレイヤL1、...、LMは、それぞれに関連付けられた優先順位を有するような、個別のデータブロック部分であると考えられる。
階層構造に関して、レイヤL1〜LMのうちの各レイヤは、階層型モデルを導入するときに記載されるように、他のレイヤとは異なる優先順位を有する。グループ・オブ・ピクチャに関して、フレームI、P1、...P7は異なる優先順位を有し、一方、フレームB1、...B7は、GOP構造を導入するときに説明されるように、全フレームのうちの最低優先順位と同じ優先順位を有する。その他の優先順位のタイプ又は構造も考えられ得る。
パケット生成ユニット140は、データブロック112を受信し、最適化ユニット142によって供給された多重記述トランスコーディング・パラメータに基づいて固定長Lのパケットを生成するように動作する。多重記述トランスコーディング・パラメータは、両方のパスに対するパケット割当量NA、NBと、割り当てパラメータN0、NP1、...NB7と、各フレーム又はレイヤに適用される特有のFEC符号化のような、既に説明されているパラメータとを含む。
2個以上のデータブロック部分に同じ優先順位が関連付けられている場合、例えば、データブロックが、全Bフレームが同じ優先順位を有するようなグループ・オブ・ピクチャである場合においては、「人為的な」優先順位のように見ることもできる順序が、方法のある種の実施形態を実行するために導入され、例えば、高速反復ラグランジュ法は、本来(ビデオの再構成の重要度に関して)同じ優先順位を有するBフレームのようなデータブロック部分に対しても、所与のシーケンス又は優先順位に従って、データブロック部分毎に個別にデータブロック部分固有の数(datablock part specific number)を最適化し、あるいは、切り捨てるデータブロック部分が同じ優先順位を有するデータブロック部分のうちの1つ、例えば、B2フレームであるということもある、より低いデータブロック部分を切り捨てることができる実施形態の場合においては、同じ優先順位を有するデータブロック部分の間の優先順位あるいは順序が、選択された(例えば、B1フレームやB2フレーム)データブロックと、あるデータブロックのうちの切り捨てられるデータブロック部分(例えば、B3フレーム〜B7フレーム)とを識別するために導入されなければならない。
トランスコーディング・ノードがストリームを受信するために作用する通信プロトコルは、固定ネットワーク・プロトコル又はワイヤレス・ネットワーク・プロトコルでもよく、あるいは、その他のプロトコルでもよい。
パケット生成ユニット140は、例えば、Layer1がN1個の部分に分割された階層構造、又は、GOPの場合に、例えば、フレームIがN0個の均等サイズの部分に分割された階層構造について説明されるように、各データブロック部分を、データブロック部分固有の均等サイズ(datablock part specific equal size)を有する所与のデータブロック部分固有の数のデータセグメントに分割するように動作する。
図2は、各レイヤ又はフレームが固定長lの小さなセクションに分割され、小さなセクションは、各データブロック部分が分割されている部分全体に一様に分布している、代替的な実施形態を示している。図2の説明を続けると、フレームIは、N0個のデータセグメント上に一様に分布しているKi個のセクションに分割されている。パケット生成ユニットは、第1の優先順位を有する第1のデータブロック部分に関連付けられている第1のデータブロック部分固有の数が、第2の優先順位を有する第2のデータブロック部分に関連付けられている第2のデータブロック部分固有の数以下であるように、各データブロック部分を所与のデータブロック部分固有の数のデータセグメントに分割するためにさらに動作するものであり、上記第1の優先順位が上記第2の優先順位より高いとき、例えば、フレームIがGOP構造の全フレームの中で最高の優先順位を有し、したがって、フレームIのデータブロック部分固有の数N0は、例えば、フレームP1のデータブロック部分固有の数NP1以下でなければならない。
パケット生成ユニット140は、その後、上記データブロック部分毎に、上記各ブロック部分及び所与のデータブロック部分固有の前方誤り訂正符号に基づいて、所与のデータブロック部分固有の数の前方誤り訂正符号セグメント又は符号セクションを生成するように動作する。前方誤り訂正符号セグメント及びセクションは、図41Aからわかるように、それぞれのデータブロック部分固有のデータセグメント又はデータセクションと同じサイズを有する。
パケット生成ユニットの実施形態は、全データブロック部分又は選択されたデータブロック部分だけをデータブロック部分固有の数(N1〜NM個、又は、N1〜Nj個)のそれぞれのデータセグメントに分割し、第1のパケットのシーケンス中の各パケットが、複数のデータブロック部分のそれぞれから、それぞれのデータブロック部分に属するデータセグメント又は符号セグメントの1つを含み、シーケンスを形成するパケットの個数は、上記第1のパケットの個数(NA)に等しくなるように、第1の記述(133,133’)に関連付けられた均等パケット長である第1のパケットのシーケンスを生成し、かつ、第1のシーケンスを形成するパケットの個数が第2のパケットの個数に等しく、第2の記述(135,135’)に関連付けられた均等パケット長(L)である第2のパケットのシーケンスを生成するように、さらに動作する。
選択されたデータブロック部分又はレイヤは、切り捨て点又は切り捨てデータブロック部分(Layerj)に基づいて送信のために選択されたデータブロック部分である。切り捨て点は、送信されているデータブロック部分の中で「最低」の優先順位を有するデータブロック部分であり、一方、切り捨てられたデータブロック部分(Layerj+1〜LayerM)は送信されないデータブロック部分である(シングルユーザ型実施形態を参照のこと)。
データセグメント及び符号セグメントはセグメントと呼ばれることもあり、データセクション及び符号セクションはセクションと呼ばれることもある。
第1の送信ユニット146は、その後に、第1の通信プロトコルに従って第1のパケットのシーケンスを送信するように動作し、第2の送信ユニットは、第2の通信プロトコルに従って第2のパケットのシーケンスを送信するように動作する。
パケット生成ユニット140、140’のさらなる実施形態は、第1の記述133、133’及び第2の記述135、135’の各パケットに、各パケットに関連付けられているデータブロックを特定する一意データブロック識別子(unique datablock identifier)を含むヘッダを追加するように動作可能である。したがって、逆トランスコーディング・ノードは、各パケットが属しているデータブロックを容易にチェックすることが可能である。トランスコーディング・ノードのさらなる実施形態は、例えば、最適化されたトランスコーディング・パラメータがデータブロック毎に適応させられている場合において、各パケットの割り当てスキームをヘッダにさらに組み入れるように動作可能である。よって、逆トランスコーディング・ノードの実施形態は、様々なデータブロック部分のセグメントが始まる場所と終わる場所とを容易に特定することが可能である。
パケット生成ユニット140、140’又は逆トランスコーディング・ノード150、150’のさらなる実施形態は、例えば、逆トランスコーディング・ノードがFEC復号化のために受信したパケットを知ることを要求されるか、又は、パケットの重複を検出することを要求される場合において、互いのデータブロックの中の1つのデータブロックに属しているパケットを特定するために、データパケット識別子をさらに追加し、又は、チェックするように動作する。
トランスコーディング・パラメータを最適化する方法が、重要度又は優先順位のより低いレイヤを切り捨てる可能性を含むような実施形態において、パケット生成ユニット140’は、データブロック部分が送信用に選択されている逆トランスコーディング・ノードを通知するために、切り捨て点をヘッダに含むようにも動作可能である。
第1及び第2の記述という用語と、第1及び第2のパケットのシーケンスという用語は、第1のパケットのシーケンス及び第2のパケットのシーケンスの送信について説明するときに同等の用語として使用される場合がある。
パケット生成ユニットの実施形態は、セグメントの優先順位に応じて、セグメント(データセグメント及び符号セグメント)を並べるように動作可能である。すなわち、各パケットは、最初に、最高の優先順位を有するデータブロック部分のセグメントを含み、その後に、2番目に高い優先順位を有するデータブロック部分のセグメントを含み、以下同様である。さらに、ヘッダは、使用されているデータブロック構造又はデータブロックタイプの種類、例えば、GOP又はレイヤ構造に関する情報を含むことがあり、データセグメントが優先順位に従って順序付けられていない場合、ヘッダは、セグメントのシーケンスもしくは優先順位、又は、それぞれのパケット割り当てを表している場合もある。
第1の記述がより優先順位の高いレイヤを含むマルチキャスト実施形態の場合、ヘッダは、切り捨て点、及び、第2のパスの割り当てに関するさらなる情報、例えば、記述1に含まれているより重要度の高いレイヤに関して記述2に追加されたセグメントのセグメント長の数、又は、その他の関連情報を含むことが可能である。
最適化ユニット142は、上記の最適化アルゴリズムに基づいて多重記述トランスコーディング・パラメータを決定するように動作する。換言すると、最適化ユニット142は、逆トランスコーディング・ノード150における期待歪みを最小化するために上記のアルゴリズムを実行するように動作する。
最適化の実施形態は図1D〜1Fに基づいて後述されている。
図1Dに示されている最適化方法の実施形態はステップ1010〜1050を含む。
ステップ1010において、最適化ユニットは、後続のステップで実行される多重記述トランスコーディング(MDT)のための制約を定義する。定義されるべき制約は、例えば、生成されるべきパケットのパケットサイズLを含み、データブロック部分が長さlの小さなセクションに分割される場合、セクション長lもまた定義されるべきである。データブロックのタイプはデータブロック部分の優先順位も定義するので、可能なパケット割当量及び損失確率のペア(NAi,PAi)及び(NBi,PBi)が、データブロックのタイプ、例えば、GOP又は階層ストリームと共に取得されるべきである。
パス特性は、例えば、逆トランスコーディング・ノードから受信されたメッセージに基づいて取得されることができ、メモリ144に記憶される。
パケットサイズ及びセクションサイズは、例えば、通信プロトコルがサポートしているパケット・ペイロード・サイズに依存して、第1の送信機146と第2の送信機147とによって使用される通信プロトコルに基づいて決定され得る。これらの制約は、最適化ユニット142が最適化のための最適な制約又は少なくとも実現可能な制約を選択できるように、データブロックのタイプによって定義される優先順位の制約と一緒に、メモリ144に同様に記憶される。
ステップ1020において、最適化ユニット142は、利用可能なパケット割当量からパケット割当量NA、NBを決定し、パスA及びパスBの損失確率のペアを決定する。
ステップ1030において、最適化ユニット142は、パケット割当量NA及びNBに基づいて、上記最適化アルゴリズム、例えば、反復ラグランジュ法、グリーディ・アルゴリズム、又は、さらには動的グリーディ・アルゴリズムに基づくパケットの割り当てを最適化する。換言すると、最適化ユニット142は、所与のパケット長L及びその他の制約、例えば、優先順位に基づいて、アロケーション(allocation)とも呼ばれる、各データブロック部分のためのパケットの最適数N0,NP1,...NB7を最適化する。よって、同時に、サイズもしくは寄与度Ri/Ni(セクション無し)、又は、Ki/Ni(セクション付き)もまた決定される。
ステップ1040において、最適化ユニット142は、データブロック部分i毎に、データブロック部分iを復元するために、総パケット割当量N=NA+NBとデータブロック部分固有の最小数Niとに基づいて、データブロック部分固有の前方誤り訂正符号を選択する。したがって、リードソロモン符号RS(NA+NB;Ni)のような前方誤り訂正符号は容易に選択され、その理由は、リードソロモン符号RS(n;k)の主要な利点の1つが、得られたn個のシンボル又はパケットの中からいずれかのk個に基づいて、元のk個のデータシンボル又はパケットが復元され得るように、リードソロモン符号RS(n;k)がk個のデータシンボル又はパケットを、さらなるn−k付加的FEC符号シンボル(n-k additional FEC code symbol)又はパケットを用いて符号化することにあるためである。同様の能力を備えるその他のFEC符号もまた使用され得る。
ステップ1050において、最適化ユニット142は、多重記述トランスコーディング・パラメータをパケット生成ユニットに提供する。多重記述トランスコーディング・パラメータは、例えば、パスA及びBのためのパケット割当量NA、NBと、データブロック部分固有のFEC符号と、たとえ固定されていないとしても、パケット長Lと、セクション長lとを含む。
図1Eは、ステップ1010、1025、1040及び1050を含み、図1Dのステップ1020及び1030が1つのステップに併合されている点だけが、図1Dと相違する。もう一度目的関数を参照すると、最適化は、パス特性、すなわち、両方のパスにおけるパケット割当量と損失確率との組み合わせの全ての有望な可能性に関して実行されるべきである。換言すると、パケット割当量の選択は、全体的に最適な多重記述トランスコーディング・パラメータを獲得するために、両方のパスのためのこれらのパス特性の組み合わせのそれぞれについての割り当てを最適化することによって、割り当てパラメータと一緒に反復的に最適化される。
第3の実施形態では、最適化ユニット142は、切り捨て点を決定するように、すなわち、より優先順位の低いデータブロックをドロップすることにより割り当てを最適化するように、さらに動作する。この場合、総パケット割当量Nが拡大される倍率、例えば、N’=8×Nは、ステップ1010で定義され、ステップ1020、1025及び1030のために使用されるべきさらなる制約である。よって、さらに、切り捨て点に関する情報、すなわち、依然として送信されるべき最低の優先順位を有するセグメントLayerjは、パケット生成ユニット140へ提供されるべきである。その理由は、これらのデータブロック部分だけがパケット生成のために使用されるからである(シングルユーザ型実施形態)。
例えば、ハンドオーバを取り扱うために倍率又は緩和係数(relaxation factor)μ1及びμ2を使用する第4の実施形態では、これらの制約もまた後続のステップのためにステップ1010で定義されるべきである。この場合、上記の多重記述トランスコーディング・パラメータだけが変更されるが、パケットハンドリング・ユニット(packet-handling unit)はこの場合に特有の情報を要求しない。
図1Fは、ステップ1110、1120、1130、1140及び1150を含むマルチユーザ型多重記述トランスコーディング(MU−MDT)の最適化方法の実施形態を示している。
図1D〜1Eに記載されている方法と同様に、ステップ1110において、マルチユーザ型多重記述トランスコーディングのための制約が定義されている。
ステップ1120において、第1の記述のためのパケット割当量NA及びパケット割り当てが、第2のパスの特性とは無関係に最適化される。
ステップ1130において、第2の記述のパケット割当量NB及びパケット割り当てが、マルチユーザ型シナリオのための期待歪み関数に応じて最適化される。
ステップ1140において、最適化ユニット142は第1及び第2の記述のためのFEC符号を選択する。
ステップ1150において、最適化ユニット140’は、マルチユーザ型多重記述トランスコーディング・パラメータをパケット生成ユニット140’に提供する。マルチユーザ型多重記述トランスコーディング・パラメータは、パスA及びBのためのパケット割当量NA、NBと、第1の記述で送信されるべきデータブロック部分と、第2の記述で送信されるべきデータブロック部分と、データブロック部分及び2つの記述のためのFEC符号と、データブロック部分毎の最小数Niと、特定のデータブロック部分iを復元するために必要な各記述とに関する情報を含む。
パケット生成ユニット140は、データブロック部分毎に、データブロック部分固有の前方誤り訂正符号を使用するように動作する。
図1Cは、第1の受信機166と、第2の受信機167と、パケットマージユニット160、160’とを備えている逆トランスコーディング・ノード150、150’の実施形態を示している。
第1の受信ユニット166は、第1の通信プロトコル133、133’に従って、パケットを受信し、パケットの受信に成功したかどうかをチェックし、受信に成功したパケットから第1のパケットのシーケンス171を生成するように動作し、第2の受信ユニット167は、第1の通信プロトコルとは異なる第2の通信プロトコルに従ってパケット135、135’を受信し、パケットの受信に成功したかどうかをチェックし、受信に成功したパケットから第2のパケットのシーケンス172を生成するように動作する。
パケットマージユニット160、160’は、第1のシーケンス171及び第2のシーケンス172の中のパケットがデータセグメント及び/又は符号セグメントを含み、各パケットに収容されているデータセグメント及び/又は符号セグメントのそれぞれはデータブロックのうちの異なるデータブロック部分が関連付けられた、第1のパケットのシーケンス171と第2のパケットのシーケンス172とを受信し、第1のシーケンス中のパケット又は第2のシーケンス中のパケットが同じデータブロックに属しているかどうかを決定し、データブロック部分固有のセグメントとして、同じデータブロックに属しているパケットから、同じデータブロック部分に関連付けられたデータセグメント及び/又は符号セグメントを取り出し、データブロック部分固有のセグメントの個数がデータブロック部分の所与のデータブロック部分の固有数と少なくとも等しいときに、データブロック部分固有の誤り訂正符号に従ってデータブロック部分固有のセグメントを復号化し、少なくとも1個の復号化されたデータブロック部分固有のセグメントに基づいて復元されたデータブロックを生成するように動作する。
パケットの受信に成功したかどうかのチェックは、例えば、1つずつの通信プロトコル(UMTS、WLANなど)と、このプロトコル中でサポートされている誤り検出機能とに基づいて実行され得る。
パケットマージユニットの実施形態は、データブロック識別子に基づいて、第1又は第2のシーケンスのパケットが同じデータブロックに属しているかどうかを決定するために、第1及び第2のシーケンス中のパケットのヘッダ内のデータブロック識別子をチェックするように動作可能である。
トランスコーディング・ノード及び逆トランスコーディング・ノードの実施形態は、2つのパス、例えば、両方のパスのそれぞれに1つの記述を伴う2つの通信プロトコルに関して説明されたが、トランスコーディング・ノード及び逆トランスコーディング・ノードの代替的な実施形態は、3つ以上のパスのパス特性を考慮し、それに応じてトランスコーディング・パラメータを最適化する方法と、パケット生成の方法と、パケットマージの方法とを適応させて、3つ以上のパス、例えば、UMTSと、WLANと、WIMAXのような通信プロトコルをサポートするように動作することも可能である。
トランスコーディング・ノードの実施形態は、例えば、適応的なフレームサイズを伴うレート適応ビデオコーデックが使用される場合に、データブロック毎にトランスコーディング・パラメータを最適化するように動作可能であり、又は、例えば、フレームが固定長を有する場合、最適化されたトランスコーディング・パラメータを決定し、パケット生成140がトランスコーディング・パラメータを最適化ユニット142ではなくメモリ144から読み出すように、後続のデータブロックのためにメモリ144に記憶するように動作可能である。後者の場合、最適化ユニット142は、例えば固定数のデータブロック毎、例えば5又は10データブロック毎、又はパスパラメータの変更に依存して、最適化されたトランスコーディング・パラメータの新しい集合を決定するように動作可能である。
以下、さらなる実施例が、図1Aに示されているようなシナリオに関して説明されている。上述されているように、図1Aに示されている機能要素のそれぞれの役割は以下の通り要約され得る。H.264エンコーダは、単一記述ビデオストリーム(single description video stream)で生成する。トランスコーディング・ノード130は、単一記述ビデオストリーム112を2つの記述133、135にトランスコーディングする役割を担うネットワークノードである。最適化パケット及びパケット割り当てが、例えば、グループ・オブ・ピクチャ単位で、このノードによって実行される。逆トランスコーディング・ノード150は、2つの受信された記述を復号化し、マージする役割を担っている。H.264デコーダ120は、復元されたビデオストリーム152を復号化するように動作する。
最適化及びパケット割り当ては、トランスコーディング・ノードで実行される。一例として、以下のビデオ特性及びネットワーク特性が考慮されている。ビデオストリームに関して、GOPサイズ=16、GOP構造=IBP...、フレームレート=30フレーム/秒、ビット単位のGOPのサイズ=121.68kbit、結果としてのビットレート=228kbps、フレーム幅=176、フレーム高=144、及び、ルミナンス−PSNR=37.75dBである。ネットワーク特性に関して、2つの利用可能なパスの伝送プロファイルが定義されているとみなされる。本例では、パスA及びBの(ビットレート,パケット損失レート)プロファイルは、それぞれ、(128kbps,0.15)及び(192kbps,0.1)であるとみなされる。
所与のパケット長に対し、2つのパスは、パケット割当量とパケット損失レートとによって表される。512バイトの固定パケット長(L)が考慮され、512バイトのペイロードサイズが考慮され、よって、パケットヘッダ長は無視されている。その結果として、パスA及びBのプロファイルは、(NA=17,PA=0.15)及び(NB=25,PB=0.1)によって定義されている。
セクション長lを1バイトに設定すると、得られるフレームI、P1...B8のセクション(K1,KP1,...,KB8)の個数は、各フレーム長(L1,LP1,...,LB8)に等しい。
上記パラメータを仮定すると、トランスコーダは、送信されたパケット全体でのGOPフレームの(K1,KP1,...,KB8)セクションの分布と、ビデオストリームを保護するFEC部分の分布とを決定する。これは、割り当てパラメータの集合(N0,N1,...,MS)を決定することによって行われる。
GOPの様々なフレームは、最適化プロセス中に優先順位の降順に分類されている。一例として、Layer1がIフレームに対応し、Layer2〜Layer8がPフレームに対応し、Layer9〜Layer16がBフレームに対応する階層ビデオストリームの場合において、
1≦N1≦...≦N8が得られ、又は、N1≦N1≦...≦N8としても表されるPriority(Layer1)>Priority(Layer2)>...>Priority(Layer8
8≦Nj,j=9...16が得られ、又は、N8≦Nj,j=9...16としても表されるPriority(Layer8)>Priority(Layer9)=Priority(Layer10)=...Priority(Layer16
というレイヤの優先順位及びレイヤの分割制約がマークされている。
割り当てパラメータの集合(N1,N2,...,N16)を決定するために、受信機での期待歪みが、両方のパスに亘って、すなわち、(NA+NB=42)パケットというパケット割当量及び平均パケット損失レート
Figure 0004732428
に対して同時に最適化することにより、最小化される。
セクションの最初に与えられたパラメータに対し、結果として得られる割り当て(N1,N2,...,N16)は(30,30,31,31,31,31,31,33,33,33,33,33,33,33,33,33)に等しく、平均PSNRは35.66dBに等しい。N1=30は、43個の送信されたパケットのうち30個のパケットがLayer1を復元するために正しく受信されるべきであることを意味する。これは、Layer1を長さが
Figure 0004732428
である30個の均等な部分に分割することによって実施される。これらの部分は、12個のFEC部分を結果的に生じるRS(42,30)を用いてさらに保護されている。データ及びFEC部分(総数42)は、42個のパケットにわたって配分される。同じ手順がLayer2〜Layer16に適用される。最適化問題中のパケット長の制約として、パケット充填問題が同様に解決され、すなわち、各パケットに割り当てられているLayer1〜Layer16のデータ又はFEC部分の総和がパケット長を超えない(総和は、最適割り当てのためのパケット長、すなわち、512バイトに等しくなるべきである)。最適化及びパケット割り当て手順は、以下の概略的な説明においてさらに例証されている。
簡単にするため、NA=3パケットの記述及びNB=2パケットの記述の2つの記述にトランスコードされる3レイヤ型ビデオストリームが考慮されている。トランスコーダは、(N1,N2,N3)に対する最適な割り当て集合(optimal allocation set)を決定する。両方のパスに亘って同時に最適化されるとき、Layeriが任意のNi個の受信されたパケットから、すなわち、パケットがパスAとパスBのどちらに由来するパケットであるかとは無関係に、復元され得るように、(N1,N2,N3)の1つの集合が決定される。
図41Aに示されている例では、トランスコーダは、割り当てパラメータ(N1,N2,N3)=(2,3,4)を決定する。したがって、Layer1 410(データブロック410)は、N1=2個の均等サイズのデータブロック部分412、414に分割され、Layer2(データブロック420)はN2=3個の均等サイズのデータブロック部分421、424、423に分割され、Layer3はN3=4個の均等サイズのデータブロック部分431、432、433、434に分割される。さらに、パケット割当量(NA,NB)=(3,2)に基づいて、トランスコーディング・ノードは、リードソロモン符号RS(NA+NB,Ni),i=1,2,3の選択の一般的な定義に基づいて、以下の固有のリードソロモン符号である、Layer1のためのRS(5,2)、Layer2のためのRS(5,3)、及び、Layer3のためのRS(5,4)を決定する。
したがって、トランスコーディング・ノード、すなわち、パケット生成ユニットは、それぞれのRS符号に基づいて、Layer1のための3個のSEC符号セグメント413,414及び415と、Layer2のための2個のSEC符号セグメント424、425と、Layer3のための1個のFEC符号セグメント435とを生成する。FEC符号セグメントは、同じレイヤ又はデータブロック中のそれぞれのデータセグメントと同じ長さ又はサイズを有する。
図41Aは、記述2 135の第1のパケット434と、第2のパケット435と同じ固定長Lを有する記述1 133の第1のパケット441と、第2のパケット442と、第3のパケット443とを示している。固定パケット長Lは、それぞれのデータセグメントへ分割する前に、レイヤ又はデータブロック部分410、420及び430の、Riとも呼ばれる、長さLiと混同されてはならない。
図41Bは、固定長lのセクションを使用する実施形態を示している。本事例では、各レイヤ、すなわち、Layer1〜Layer3、又は、データブロック部分410〜430は、セクションに分割されている。よって、Layer1は、長さlのK1個のセクションによって表され、Layer2はK2個のセクションによって表され、Layer3はK3個のセクションによって表されている。図41Aの実施形態と対照的に、データブロック部分は、均等サイズのデータセグメントにそのまま分割されるのではなく、各データブロック部分iのKi個のセクションが、既に説明されたように、均等の個数に分割される。したがって、セクションのデータブロック部分固有の数kiは、「パケット1」461を構築するデータブロック部分1のための参照符号417、データブロック部分2のための参照符号427、及び、データブロック部分3のための437によって示されているように、各パケットに割り当てられている。
両方の方法を比較すると、図41Bによる方法は、ゼロパディングを必要としない点で有利であり、これに対し、図41Bに示されているようにセクションを使用する方法は、最適化に関して計算集約性が低いという点で有利である。
換言すると、図41Aでは、割り当て集合(N1,N2,N3)の最適化結果は(2,3,4)に等しい。このことは、最低限の2個、3個及び4個のパケットが、Layer1、Layer2及びLayer3のそれぞれを復元するために受信されるべきであることを意味している。この条件を充足させるため、各Layeriは、第1のNi個のパケットに割り当てられているNi個の均等部分に分割される。(NA+NB,Ni)リードソロモン符号は、送信されたパケットの残りに割り当てられた対応するFEC部分を生成するために、各レイヤにさらに適用される。上記手順は、第1のリポート(図41B)で説明されているように、最初に各レイヤを長さlのセクションに分解し、FEC符号のオフライン行列を構築することによって代替的に実現される。この場合、長さlのデータセクションは、第1のN1個のパケットに割り当てられ、長さlのFECセクションが残りのパケットに割り当てられている。
損失の多い伝送環境では、各記述のパケットの一部が失われ得る。しかし、逆トランスコーディング・ノードは、各記述内の部分的な損失を補償するためにビデオストリーム内の冗長性をそれでもなお使用し得る。逆トランスコーディング・ノードは単一記述ストリームを復元するために以下のステップを実行する。
ステップ1:逆トランスコーディング・ノードは、プレイアウト前に両方の記述から受信されたパケットを一時的に記憶する。
ステップ2:正しく受信された各パケットは復号化され、各レイヤに対応するデータが取り出される。
ステップ3:RS符号はNA+NB個のパケットのうちのNA+NB−N1個までの消失を訂正できるので、Layer1はN1個のパケットが正しく復号化されたときに復元され得る。
ステップ4:正しくFEC復号化されたレイヤは、単一記述ビデオストリームを復元するために合成される。ストリームの一部のレイヤが失われている場合、逆トランスコーディング・ノードは適切な誤り隠蔽技術を適用する。例えば、IBP...というビデオシーケンスの場合、コピー・プリービアス・フレーム誤り隠蔽ストラテジー(copy previous frame error concealment strategy)が提供される。
ステップ5:復元されたビデオストリームはH.264デコーダへ供給される。
上記説明を要約すると、消失チャネルによるビデオ通信のための新しいアプローチが提供されている。従来の同時ソースチャネル符号化(JSCC)アプローチでは、ソース符号及びチャネル符号が、送信機と受信機との間の直接的なパスによる伝送のために最適化されている。FECベースの多重記述符号化(multiple description coding)は、多重独立記述(multiple independent description)が生成され、所与のチャネルプロファイルのため最適化されるので、このJSCCのカテゴリーに分類される。その一方で、多重記述符号化の誤り耐性は、多重チャネルを介した伝送によって改善され得ることが示されている。この付加的な誤り頑強性の利益を享受するため、パスダイバーシチを利用し、このバスダイバーシチによってビデオストリームが2パス型伝送に対して最適化されるアプローチが提案されている。実際的な状況では、送信機と受信機との間に直接的な2パス型の接続は存在しない。しかし、マルチメディア・アプリケーションのダイバーシチと、エンドユーザ間の異種性とに起因して、メディア・ゲートウェイが、エンドユーザの帯域幅要件に一致するようにビデオストリームをトランスコードするために、送信機と受信機との間に頻繁に配置されている。リレーノードは、結果として得られたビデオストリームを、多重チャネルを介して、受信機へ転送するためにさらに使用され得る。2つのパスが送信機と受信機との間の任意の点で利用可能になる一般的な場合が対象とされている。この観点から、多重記述ビデオトランスコーディングが、ネットワーク内のあらゆる動作点において多重記述符号化の誤り頑強性から恩恵を受ける新しいスキームとして導入された。
実施形態では、トランスコーディング・ノードへの入力として階層ビデオストリームが考慮されている。トランスコーダは、別個のパスを介して2つの記述で受信機へ送信するために入力ストリームを保護する。上記の最適化を実行するため、送信機でしばしば適用され、1パス型伝送のため最適化された従来のFECベースの多重記述符号化技術は、これ以上最適解を生じることがなくなる。MDC−FECアプローチの限界を解決するため、最適化を実行する新しい方法が、2つの利用可能なパスのチャネルプロファイルに基づいて提案されている。高速かつ動的なグリーディ割り当てアルゴリズムもまた、上記の最適化を解決するために導入されている。この低複雑性はリアルタイムビデオ伝送のための主要な要件である。
幾つかのMDVTアプリケーションのシナリオが記載された。最初に、平衡パス動作及び不平衡パス動作のアプローチの性能が実証された。2つの利用可能なパスによる同時最適化は、平衡型と不平衡型の両方の場合に、各パスが別個に最適化されるJSCCより進んでいることが明らかにされた。一方又は両方のパスが短期間に亘って利用できないパス停止の問題もまた検討されている。主歪みと副歪みとの間でトレードオフを行う緩和パラメータが導入されている。停止が存在する場合、トランスコーディング・ノードによる緩和パラメータの正しい選定はPSNRの著しい増大をもたらすことが示されている。その後、直接的な2パス型接続が送信機と受信機との間に存在する場合が検討されている。MDVTをソースで直接的に適用することにより得られる柔軟性が明らかにされている。したがって、MDVTがネットワーク内で実行されるとき、送信機とトランスコーディング・ノードとの間のレート適応が重要であるという結論が出された。
次に、MDVTの考え方がマルチユーザ型MDVTのケースを網羅するように拡張されている。このようなシナリオでは、全ユーザがトランスコーディング・ノードとマルチキャストチャネルとを共有する。高帯域幅ユーザは同様に第2の接続からの恩恵も受ける。また、低帯域幅ユーザと高帯域幅ユーザとを伴う2ユーザ型MDVTシナリオが検討されている。最適解は、1つの記述を低帯域幅ユーザへ送信し、2つの他の記述を高帯域幅ユーザへ送信することを要求する。しかし、2ユーザ型MDVT法では、共通の基本記述が両方のユーザへ送信され、高帯域幅ユーザはエンハンスメント記述を同様に受信する。低帯域幅ユーザの最適品質を達成可能であり、様々なレート及びパケット損失プロファイルの場合においては、高帯域幅ユーザのための最適品質より1dB未満しか離れていないということが示された。その一方で、2ユーザ型MDVT法は、少ない記述しか送信されないので、最適解と比較して重大な帯域幅節約を提供する。
上述のアプローチに対する複数の拡張が可能であり、一部の例は以下で簡単に説明されている。
第一に、提案されたMDVTアプローチでは、歪み行列がビデオストリームと一緒に副情報としてトランスコーディング・ノードへ送信されている。この情報は、各記述内で最適FEC割り当てを決定するためにトランスコーダによって必要とされるが、付加的なオーバーヘッドを結果として生じる。しかし、この情報の欠如は、準最適解の原因となる。詳細に調べられるべき1つの代替案は、オーバーヘッドを削減するために異なるGOPの歪みプロファイル間の相関を使用することである。図40では、20GOPからなるフォアマン・シーケンスの平均PSNRがプロットされている。最適なケースでは、各GOPの歪みプロファイル(DP)はビットストリームと共に送られる。図40は、第1のGOPの歪みプロファイルだけが送信され、第1のGOPの歪みプロファイルがシーケンス内の残りのGOPを最適化するために使用されるならば、最適解に近い解が依然として得られることを示している。
第二に、このシナリオでは、ユーザは異なる特性を有する2つのパスから2つの記述を受信する。典型的に、受信機は、プレイアウト前に記述を一時的に記憶する。その一方で、両方のパスの遅延差が高いならば、一方の記述だけが表示される。パケット損失レート及びパスのビットレートの他にパス遅延規準を追加することは、2つの選択されたパス上の遅延差が最小限に抑えられるようなパス選択を可能にする。
2ユーザ型MDVTシナリオのアルゴリズム的な実施が示されている。各マルチキャストグループ内で様々なパケット損失レートを有する複数のユーザの最適化のために、アルゴリズムをマルチユーザ型MDVTのケースに拡張することも、同様に詳しく調べる価値がある。
実施作業の観点から、以下の代替案について留意されるべきである。
第一に、IBP構造のケースは、提案されたアプローチの一例として記載されている。H.264−SVCストリームは別の例として使用される。スケーラブル・ビデオストリームの歪みプロファイルは同様に計算されるべきである。
第二に、MDVTアプローチがビデオ通信のため示されている。それにもかかわらず、MDVTアプローチは、一般にマルチメディア通信に適用される。このアプローチを、例えば、オーディオ伝送に適用することは、別の難しい課題である。最終的に、MDVTアプローチは、多重記述トランスコーディングを実行する方法を紹介する1つの方法であることが記載されている。別の多重記述符号化法、例えば、2つの記述へのビデオストリームの時間的ダウンサンプリング又は空間的ダウンサンプリングが、同様に使用され得る。特に、レイヤ単位でのGOPの処理に基づく方法は、リアルタイム通信の遅延を減少させることが可能である。
換言すると、本発明は、並列的に多重伝送パスを介して、例えば、UMTS、WLAN、WIMAXを介してユーザ端末へのメディアの誤り耐性伝送をサポートするために、単一記述で符号化されたメディアから多重記述で符号化されたメディアにトランスコーディングする方法及びシステムについて記載している。よって、「マルチパス伝送のための多重記述メディア・トランスコーディング」及び「マルチパス伝送のためのネットワーク内多重記述メディア・トランスコーディング」の上述の実施形態は、配信及びマルチユーザ混合型アプリケーションのシナリオ向きのマルチメディア通信のクロスレイヤ最適化の方法として考慮され得る。
本発明の方法のある種の実施要件に依存して、本発明の方法はハードウェア又はソフトウェアで実施され得る。実施は、本発明の方法が実行されるようにプログラム可能なコンピュータシステムと協働する、デジタル記憶媒体、特に、電子的に読み取り可能な制御信号が記憶されているディスク、DVD又はCDを使用して実行され得る。したがって、一般に、本発明は、コンピュータ・プログラム・プロダクトがコンピュータ上で動くときに、本発明の方法を実行するために動作するプログラム・コードが機械読み取り可能なキャリアに記憶されているコンピュータ・プログラム・プロダクトである。したがって、換言すると、本発明の方法は、コンピュータがコンピュータで動くときに、少なくとも1つの本発明の方法を実行するプログラム・コードを有するコンピュータ・プログラムである。
トランスコーディング・ノード及び逆トランスコーディング・ノードの実施形態を含む、ソースエンコーダとソースデコーダとの間の完全なパスの概略的な説明図である。 トランスコーディング・ノードの実施形態のブロック図である。 逆トランスコーディング・ノードの実施形態のブロック図である。 トランスコーディング・パラメータを決定する方法の第1の実施形態を表すフローチャートである。 トランスコーディング・パラメータを決定する方法の第2の実施形態を表すフローチャートである。 マルチユーザのシナリオのためのトランスコーディング・パラメータを決定する方法の実施形態を表すフローチャートである。 グループ・オブ・ピクチャの各フレームを、長さl及びリードソロモン符号による保護のあるセクションに分割する実施形態を示す図である。 反復ラグランジュ法に基づいて決定されたレートプロットの典型的な歪みを示す図である。 多重記述ビデオトランスコーディングの実施形態に用いられる様々なパケット損失レート及び冗長性値に関するグループ・オブ・ピクチャに対するピーク信号対雑音比を示す図である。 多重記述ビデオトランスコーディングの実施形態に用いられるパケット損失及び冗長性に依存している512バイトのパケット長に対する、反復ラグランジュ法の最適性をプロットするグラフである。 P−フレームに対するレート曲線の典型的な歪みを示す図である。 グリーディ・アルゴリズムの場合のパケット長プロットの歪みのグラフである。 ラグランジュ及びグリーディ・アルゴリズムを使用する様々な冗長性値及び様々なパケット損失比に対するグループ・オブ・ピクチャのピーク信号対雑音比を示す図である。 ラグランジュ及びグリーディ・アルゴリズムを使用する高いパケット損失比に対する、グループ・オブ・ピクチャのピーク信号対雑音比をプロットするグラフである。 IPPフレームシーケンスに対するグループ・オブ・ピクチャのピーク信号対雑音比をプロットするグラフである。 IPPフレームシーケンスを用いる多重記述ビデオトランスコーディンググリーディ割り当てアルゴリズムのフレームドロップ利得を示す図である。 可変サンプル空間及び種々のパケット損失比に対する、多重記述ビデオトランスコーディングの実施形態のピーク信号対雑音比をプロットするグラフである。 元のグリーディアプローチとフレームドロップ付きの動的アプローチとを比較するグループ・オブ・ピクチャのピーク信号対雑音比をプロットするグラフである。 16フレームのIPP構造を有するグループ・オブ・ピクチャに対する、元のグリーディアプローチのピーク信号対雑音比とフレームドロップ付きの動的アプローチとを比較する図である。 8フレームのIPP構造を有するグループ・オブ・ピクチャに対する、元のグリーディアプローチとフレームドロップ付きの動的アプローチのピーク信号対雑音比を比較する図である。 多重記述ビデオトランスコーディングのための均一誤り保護及び不均一誤り保護の場合の、グループ・オブ・ピクチャに対するピーク信号対雑音比を示す図である。 図14Aは同時最適化の場合の多重記述ビデオトランスコーディング最適化のシナリオを示す図である。図14Bは個別最適化の場合の多重記述ビデオトランスコーディング最適化のシナリオを示す図である。図14Cは2つのパスが使用可能である多重記述ビデオトランスコーディング最適化のシナリオを示す図である。図14Dは1つのパスが利用可能である多重記述ビデオトランスコーディング最適化のシナリオを示す図である。 図15Aは1つのパスだけが利用可能である場合に、同時最適化と個別最適化の結果を比較するグループ・オブ・ピクチャに対する典型的なピーク信号対雑音比を示す図である。図15Bは両方のパスが利用可能(主歪み)である場合に、同時最適化と個別最適化に関して、グループ・オブ・ピクチャに対するピーク信号対雑音比の比較を示す図である。 図16Aは1つのパスが利用可能であるときに、主再構成と副再構成との間のトレードオフ解のためのグループ・オブ・ピクチャに対するピーク信号対雑音比を示す図である。図16Bは両方のパスが利用可能であるときに、トレードオフ解のためのグループ・オブ・ピクチャに対するピーク信号対雑音比を示す図である。 個別単一ビデオ記述トランスコーディングが後に続けられる奇数/偶数フレーム分割を使用して、2つの不平衡パスを介してデータを送信する従来のアプローチの概略図である。 両方の記述が共通仮想チャネルを介して最適化される実施形態の概略図である。 コンテナ・テスト・シーケンスを使用する不平衡パスのグループ・オブ・ピクチャに対するピーク信号対雑音比をプロットするグラフである。 フォアマン・テスト・シーケンスを使用する不平衡パスのグループ・オブ・ピクチャに対するピーク信号対雑音比をプロットするグラフである。 IPP構造と共にフォアマン・テスト・シーケンスを使用する不平衡パスのためのグループ・オブ・ピクチャのピーク信号対雑音比のプロットを示す図である。 両方のパスが同じパケット損失レートを有する場合に、IPPフォアマン・テスト・シーケンスを用いる不平衡パスのためのグループ・オブ・ピクチャのピーク信号対雑音比のプロットを示す図である。 図23Aは両方のパスが利用可能である場合に、逆トランスコーディング・ノードの受信シナリオを示す図である。図23Bは第1のパスだけが利用可能である場合に、逆トランスコーディング・ノードの受信シナリオを示す図である。図23Cは第2のパスだけが利用可能である場合に、逆トランスコーディング・ノードの受信シナリオを示す図である。 トランスコーディング・ノードの種々の動作点に関して、1つの記述だけが受信された場合に、グループ・オブ・ピクチャに対するピーク信号対雑音比をプロットするグラフである。 トランスコーディング・ノードに種々の動作点に関して、2つのパスが利用可能である場合に、グループ・オブ・ピクチャに対するピーク信号対雑音比をプロットするグラフである。 様々な最適化規準に関してパス1及び2の停止の確率に応じて平均ピーク信号対雑音比の変動をプロットするグラフである。 パス1及び2の停止の確率に応じて様々な機能点を示す図である。 低帯域幅パスであるパス1が頻繁に停止し、高帯域幅パスであるパス2が常に利用可能である場合に、パス1及び2の停止の確率に応じて平均ピーク信号対雑音比をプロットするグラフである。 低帯域幅パスであるパス1が常に利用可能であり、高帯域幅パスであるパス2が頻繁に停止する場合に、パス1及び2の停止の確率に応じて平均ピーク信号対雑音比をプロットするグラフである。 フォアマン・テスト・シーケンスの場合のレート歪み曲線をプロットするグラフである。 様々なソースレート及び5%のパケット損失レートの場合に伝送レートに応じて受信機における再生品質をプロットするグラフである。 様々なソースレート及び15%のパケット損失レートの場合に伝送レートに応じて受信機における再生品質をプロットするグラフである。 図33Aは2ユーザ型多重記述ビデオトランスコーディングのシナリオの実施形態を示す図である。図33Bは記述1が低帯域幅ユーザへ送信されるマルチユーザ型シナリオの場合の多重記述ビデオトランスコーディングの実施形態を示す図である。 フォアマン・テスト・シーケンスの記述1だけを受信するユーザ1に対するピーク信号対雑音比をプロットするグラフである。 フォアマン・テスト・シーケンスのユーザ2に対するピーク信号対雑音比をプロットするグラフである。 10%のパケット損失レートのコンテナ・テスト・シーケンスの場合に、パス2上のレートに応じて、最適多重記述ビデオトランスコーディングと2ユーザ型多重記述ビデオトランスコーディングとを比較する、ユーザ1に対するピーク信号対雑音比のグラフを示している。 30%のパケット損失レートのコンテナ・テスト・シーケンスを使用して、パス2上のレートに応じて、最適多重記述ビデオトランスコーディングと2ユーザ型多重記述ビデオトランスコーディングとを比較する、ユーザ2に対するピーク信号対雑音比のグラフを示している。 15%のパケット損失レートのコンテナ・テスト・シーケンスを使用して、パス2上のレートに応じて、最適多重記述ビデオトランスコーディングと2ユーザ型多重記述ビデオトランスコーディングとを比較する、ユーザ1に対するピーク信号対雑音比のグラフを示している。 10%のパケット損失レートのコンテナ・テスト・シーケンスを使用して、パス2上のレートに応じて、最適多重記述ビデオトランスコーディングと2ユーザ型多重記述ビデオトランスコーディングとを比較する、ユーザ2に対するピーク信号対雑音比を比較するグラフを示している。 歪みプロファイルがシーケンスの第1のグループ・オブ・ピクチャのため送信されたときのピーク信号対雑音比を、20個のグループ・オブ・ピクチャのフォアマン・シーケンスに対する最適ピーク信号対雑音比だけと比較するグラフを示している。 図41Aは3層ビデオストリームを2つの記述にトランスコーディングする実施形態を示す図である。図41Bは3層ビデオストリームを固定長セクションに基づくパケットにトランスコーディングする実施形態の概略図である。

Claims (34)

  1. 多重記述トランスコーディングのためのトランスコーディング・ノード(130,130’)であって、前記トランスコーディング・ノードは、ネットワークノードであり、
    第1の伝送パス(132)の伝送パス特性(NAi,PAi)と第2の伝送パス(134)の伝送パス特性(NBi,PBi)とに基づいて、データブロック(112)の中の第1の記述(133,133’)と第2の記述(135,135’)とのためのトランスコーディング・パラメータ(145)を決定するように動作する最適化ユニット(142,142’)であって、前記第1の伝送パスの前記伝送パス特性(NAi,PAi)が前記第1の伝送パスの利用可能なパケット数とパケット損失確率のペア(NAi,PAi)とを含むものであり、前記第2の伝送パス(134)の前記伝送パス特性(NBi,PBi)が前記第2の伝送パスの利用可能なパケット数とパケット損失確率のペア(NBi,PBi)とを含むものであり、前記第1の記述が第1の伝送プロトコルを使用して第1の個数(N)個のパケットを含む第1のパケットのシーケンスとして送信されるべきものであり、前記第2の記述が前記第1の伝送プロトコルとは異なる第2の伝送プロトコルを使用して第2の個数(N)個のパケットを含む第2のパケットのシーケンスとして送信されるべきものであり、前記第1のパケットのシーケンス及び第2のパケットのシーケンスが、同じパケット長さ(L)を有し、前記最適化ユニットは、前記第1及び第2の通信プロトコルを介して送信されとき期待歪みに基づいて、前記トランスコーディング・パラメータを決定するようにさらに動作するものであり、前記第1の伝送パス及び前記第2の伝送パスが最適化中に1つの複合伝送パスであるとみなされ、前記期待歪みが1つのパケットがいずれかの伝送パスで失われる確率に基づいて決定され、前記最適化ユニットは、最適化処理中に、前記第1の伝送パスの前記利用可能なパケットの個数(NAi)から前記第1のパケットの個数(N)を決定し、前記第2の伝送パスの前記利用可能なパケットの個数(NBi)から前記第2のパケットの個数(N)を決定するように動作するものであり、前記第1の個数(N)のパケットと前記第2の個数(N)のパケットとがトランスコーディング・パラメータ(145)である、最適化ユニット(142,142’)と、
    前記トランスコーディング・パラメータ(145)に基づいて、前記第1の記述に対する前記第1の個数(N)のパケットを含む前記第1のパケットのシーケンスと、前記第2の記述に対する前記第2の個数(N)のパケットを含む前記第2のパケットのシーケンスとを生成するように動作するパケット生成ユニット(140,140’)と、
    前記第1の伝送パス(132)を介して前記第1の通信プロトコルに従って前記第1のパケットのシーケンスを送信し、前記第2の伝送パス(134)を介して前記第2の通信プロトコルに従って前記第2のパケットのシーケンスを送信するように動作する送信ユニット(146)と
    を備え
    前記最適化ユニット(142,142’)は、トランスコーディング・パラメータとして、複数個のデータブロック部分の各データブロック部分について、データブロック部分(Layer 〜Layer )を復元するのに必要なデータブロック部分固有のパケットの数(N 〜N )を決定するように動作し、
    前記複数個のデータブロック部分(Layer 〜Layer ;Layer 〜Layer )のうちの前記データブロック部分は、それぞれがデータブロック部分固有の優先順位に関連付けられ、少なくとも2個のデータブロック部分が異なる優先順位に関連付けられ、
    第1の優先順位が第2の優先順位より高いときに、前記第1の優先順位に関連付けられているデータブロック部分に関連付けられているパケットのデータブロック固有の数(N )が、前記第2の優先順位に関連付けられている第2のデータブロック部分(Layer )に関連付けられているパケットのデータブロック固有の数(N )以下となるように、前記最適化ユニット(142,142’)が、パケットの前記データブロック部分固有の数(N 〜N )を決定するように動作し、
    前記最適化ユニットが、トランスコーディング・パラメータとして、前記複数個のデータブロック部分(Layer 〜Layer ;Layer 〜Layer )のうちの各データブロック部分に関連付けられているデータブロック部分固有の前方誤り訂正符号(FEC 〜FEC ;FEC 〜FEC )を決定するように動作し、
    前記データブロック部分固有の前方誤り訂正符号は、データブロック部分(Layer 〜Layer ;Layer 〜Layer )が前記各データブロック部分に属しているデータセグメント(411,412)及び/又は符号セグメント(413,414,415)を含むパケットの前記データブロック部分固有の数(N 〜N ;N 〜N )のいずれかの組み合わせに基づいて復元され得るように決定され、
    前記パケット生成ユニット(140,140’)が、前記複数個のデータブロック部分(Layer 〜Layer ;Layer 〜Layer )のうちのそれぞれを、前記各データセグメントの前記データブロック部分固有の数(N 〜N ;N 〜N )に分割するように動作し、
    前記パケット生成ユニット(140,140’)が、前記各データブロック部分固有のFEC符号(FEC 〜FEC ;FEC 〜FEC )に基づいて、前記複数個のデータブロック部分のそれぞれに対して前記符号セグメントのデータブロック部分固有の数を生成するように動作し、
    同じデータブロック部分に属している前記データセグメント及び前記符号セグメントが、同じデータブロック部分固有セグメントサイズ(L 〜L ;L 〜L )を有するものである、トランスコーディング・ノード。
  2. 前記データブロック(112)の前記期待歪みが最小化されるように、前記最適化ユニット(142)が、前記トランスコーディング・パラメータを決定するように動作するものである、請求項1に記載のトランスコーディング・ノード。
  3. 前記第1の記述(133,133’)と前記第1の伝送パス(132)とが第1の通信プロトコルに関連付けられ、前記第2の記述(135,135’)と前記第2の伝送パス(134)とが第2の通信プロトコルに関連付けられている、請求項1又は2に記載のトランスコーディング・ノード。
  4. 前記最適化ユニットは、前記複数個のデータブロック部分の個数が前記データブロック部分(Layer〜Layer)の所与の個数未満であるように前記複数個のデータブロック部分(Layer〜Layer)を選択し、前記第1のパケットのシーケンスを生成するために前記複数個のデータブロック部分のうちのデータセグメント及び/又は符号セグメントだけを使用するように動作するものである、請求項1ないし3のいずれか一項に記載のトランスコーディング・ノード。
  5. 前記最適化ユニットが、トランスコーディング・パラメータとして、前記第1の記述(133,133’)に関連付けられている第1のパケットの個数(N)と、前記第2の記述(135,135’)に関連付けられている第2のパケットの個数(N)とを使用するように動作するものであり、
    前記パケット生成ユニット(140,140’)は、第1のパケットのシーケンス中の各パケットが、前記複数個のデータブロック部分のそれぞれから前記各データブロック部分に属している前記データセグメント又は前記符号セグメントのうちの1つを含むように、前記第1の記述(133,133’)に関連付けられた均等パケット長を有する第1のパケットのシーケンスを生成するように動作するものであり、前記シーケンスを形成するパケットの個数が前記第1のパケットの個数(N)に等しく、前記パケット生成ユニット(140,140’)は、前記第2の記述(135,135’)に関連付けられている均等パケット長(L)を有する第2のパケットのシーケンスを生成するように動作するものであり、前記第1のシーケンスを形成するパケットの個数が前記第2のパケットの個数に等しい、
    請求項1ないし4のいずれか一項に記載のトランスコーディング・ノード。
  6. 前記パケット生成ユニット(140,140’)は、前記第2のシーケンス中の各パケットが前記複数個のデータブロック部分のそれぞれから前記各データブロック部分に属している1個のデータセグメント又は符号セグメントを含むように、前記第2の記述(135,135’)に関連付けられた均等パケット長(L)を有する前記第2のパケットのシーケンスを生成するように動作するものであり、前記均等パケット長が前記第1のパケットのシーケンスの前記均等パケット長に等しい、請求項1ないし5のいずれか一項に記載のトランスコーディング・ノード。
  7. 前記最適化ユニット(142)が、目的関数:
    {N,N,N,N,...,N}=arg min ED(N,N,P,P,N,N,...N
    に従って前記トランスコーディング・パラメータを決定するように動作するものであり、
    前記最小化のための制約が、
    Figure 0004732428
    Figure 0004732428
    ≦N≦...≦N
    ≦N+N
    として定義され、ここで、Nは前記第1の記述に関連付けられている前記第1のパケットの個数を表し、Nは前記第2の記述に関連付けられている前記第2のパケットの個数を表し、Mは前記データブロックが含む前記所与のデータブロック部分の個数を表し、N〜Nは前記複数個のデータブロック部分のうちのそれぞれが分割されたデータセグメントのデータブロック部分固有の数を表し、EDは期待歪み関数を表し、Lは前記均等パケット長を表し、R〜Rは前記各データブロック部分のデータブロック部分固有の長さを表し、
    Figure 0004732428
    は前記第1の伝送パスの全ての可能な第1のパケットの個数(NAi)を表し、
    Figure 0004732428
    は前記第2の伝送パスの全ての可能な第2の個数(NBi)を表す、
    請求項1ないし6のいずれか一項に記載のトランスコーディング・ノード。
  8. 前記最適化ユニット(142)は、前記期待歪みに関する定義:
    Figure 0004732428
    を使用するように動作するものであり、ここで、Source_Distortion(Layer,Layer,Layer,...,Layer)は量子化誤差に起因するデータブロックのソース歪みであり、D(Layer)は、i=1,2,...Mとして、Layerが失われたときの付加的な歪みであり、N+N個のパケットのうちのiが失われる確率は、
    Figure 0004732428
    であり、Pは1個のパケットがいずれかのパスで失われる確率であり、
    Figure 0004732428
    によって定義され、また、N、N、...、Nは前記データブロック固有のセグメント数である、
    請求項に記載のトランスコーディング・ノード。
  9. 前記最適化ユニット(142)が、反復ラグランジュ法に基づいて前記データブロック固有のセグメント数(N〜N)を決定するように動作するものである、請求項に記載のトランスコーディング・ノード。
  10. 前記最適化ユニット(142)が、高速反復ラグランジュ法に基づいて前記データブロック部分固有のセグメント数(N〜N)を決定するように動作するものであり、前記データブロック部分固有のセグメント数が、最高の優先順位を有するデータブロック部分のデータブロック部分固有のセグメント数(N)の最小化から始めて独立に最小化される、請求項に記載のトランスコーディング・ノード。
  11. 前記最適化ユニット(142)が、グリーディ割り当て法に基づいて前記データブロック部分固有のセグメント数(N〜N)を決定するように動作する、請求項に記載のトランスコーディング・ノード。
  12. 前記最適化ユニット(142)が、前記グリーディ割り当て法のための、
    a)前記データブロック部分のそれぞれの最小のデータブロックパス固有の数(N)を決定するステップと、
    b)可変整数ステップサイズをインクリメントすることにより、データブロック部分固有のセグメント数(N)のあらゆる可能な増分から生じ、Dが総歪みであり、Lが総レートであり、tが反復回数であるとき、
    Figure 0004732428
    として定義される勾配値を決定するステップと、
    c)前記勾配値を最小化する前記データブロック部分固有のセグメント数(N)を決定し、前記データブロック部分固有のセグメント数(N)を対応するステップサイズずつ増加させるステップと、
    d)Lが前記パケット長であり、L(反復)=Lまで、ステップb)及びc)を繰り返すステップと、
    を実行するように動作する、請求項11に記載のトランスコーディング・ノード。
  13. 前記最適化ユニット(142)が、動的グリーディ・アルゴリズムを使用し、切り捨てデータブロック部分(Layer)でデータブロックを切り捨て、動的グリーディ・アルゴリズムのための以下のステップ、
    a)パケットの総数を可能な総パケット数(N)の所与の整数倍に設定するステップと、
    b)請求項11に記載された基本アルゴリズムを適用し、優先順位の低い方のデータブロック部分の前記データブロック部分固有の数が前記総パケット数より大きいならば(Nj+1>N)、切り捨てデータブロック部分としてデータブロック部分を定義することにより、前記切り捨てデータブロック部分を決定するステップと、
    c)前記データブロック部分固有のセグメント数(N〜N;N〜N)を決定するために請求項に記載された基本アルゴリズムを適用するステップと
    を実行するように動作するものであり、
    前記パケット生成ユニット(144)が、前記第1又は第2の記述を生成する優先順位がより低いデータパケット部分(Nj+1〜N)のデータセグメント及び/又は符号セグメントを使用しないように動作するものである、
    請求項12に記載のトランスコーディング・ノード。
  14. 前記最適化ユニット(142)が、主歪み及び副歪みによって定義される期待歪みを使用するように動作するものであり、前記主歪みが前記第1及び第2の記述を考慮し、前記副歪みが前記記述のうちの一方だけを考慮している、請求項1ないし13のいずれか一項に記載のトランスコーディング・ノード。
  15. 前記最適化ユニット(142)が、
    期待歪み=D+μ×D
    という式に基づいて前記期待歪みを決定するように動作するものであり、ここで、Dが前記主歪みであり、Dが前記副歪みであり、μが倍率である、
    請求項14に記載のトランスコーディング・ノード。
  16. 前記最適化ユニット(142)が、主歪みと第1の副歪みと第2の副歪みとによって定義された期待歪みを使用するように動作するものであり、前記主歪みが前記第1の記述及び前記第2の記述を考慮し、前記第1の歪みが前記第1の記述だけを考慮し、前記第2の歪みが前記第2の記述だけを考慮する、請求項1ないし13のいずれか一項に記載のトランスコーディング・ノード。
  17. 前記最適化ユニット(142)が、
    期待歪み=D+μ×Ds1+μ×Ds2
    という式に基づいて前記期待歪みを決定するように動作するものであり、ここで、Dは前記主歪みであり、Ds1は前記第1の副歪みであり、Ds2は前記第2の副歪みであり、μは第1の倍率であり、μは第2の倍率である、
    請求項12に記載のトランスコーディング・ノード。
  18. 前記最適化ユニット(142’)は、前記第1のパケットの個数(N)と、前記複数個のデータブロック部分(Layer,Layer)のための前記データブロック部分固有のセグメント数(N−N)及び前記データブロック部分固有の前方誤り訂正符号(FEC−FEC)とが、前記第1の伝送パス特性(N,P)だけを考慮して決定されるように、前記トランスコーディング・パラメータを決定し、前記第1の伝送パス特性と前記第2の伝送パス特性とを考慮して、前記第2のパケットの個数(N)と、少なくとも1個の他のデータブロック部分(Layerj+1〜Layer)のための少なくとも1個の他のデータブロック部分固有のセグメント数(Nj+1,N)及び少なくとも1個の他のデータブロック部分固有のFEC符号(FECj+1〜FEC)とを決定するようにさらに動作するものであり、
    前記パケット生成ユニット(144’)が、
    前記少なくとも1個の他のデータブロック部分(Layerj+1〜Layer)のため、前記各データブロック部分固有のFEC符号(FECj+1〜FEC)に基づいて、前記符号セグメントのデータブロック部分固有の数(N)を生成するように動作し、同一の少なくとも1個の他のデータブロック部分に属している前記データセグメント及び前記符号セグメントが、同一のデータブロック部分固有のセグメントサイズを有しており、
    前記パケット生成ユニット(144’)が、
    前記第2のシーケンスの各パケットが、前記複数個のデータブロック部分(Layer〜Layer)のそれぞれから前記各データブロック部分に属している1個の符号セグメントの少なくとも一部分を含み、及び/又は、前記少なくとも1個の他のデータブロック部分(Layerj+1〜Layer)から前記各少なくとも1個の他のデータブロック部分(Layerj+1〜Layer)に属している前記データセグメント又は符号セグメントのうちの1つを含むように、前記第2の記述に関連付けられた均等パケット長を有する第2のパケットのシーケンスを生成するように動作するものである、
    請求項に記載のトランスコーディング・ノード。
  19. 前記最適化ユニット(142’)が、全パケットが同じパケット長(L)を有し、かつ、第2のパケットのシーケンスの各パケットが前記複数個のデータブロック部分(Layer〜Layer)のそれぞれの1個のサブセグメントを含むように、前記複数個のデータブロック部分(Layer〜Layer)に属している前記データセグメント又は符号セグメントが均等サイズ化されたサブセグメントに分割されるという制約に基づいて、トランスコーディング・パラメータを決定するように動作するものである、請求項18に記載のトランスコーディング・ノード。
  20. 前記最適化ユニット(142’)が、第1の期待歪み関数に基づいて前記第1の記述を決定し、第2の期待歪み関数に基づいて前記第2の記述を決定するように動作するものである、請求項19に記載のトランスコーディング・ノード。
  21. 前記第1の期待歪みが、
    Figure 0004732428
    但し、N(Layer)=maximum(N−n_segment(i,k,t,N(Layeri−1))
    によって定義され、ここで、EDは前期期待歪みであり、Nは前記第1のパケットの個数であり、Nは前記第2のパケットの個数であり、Dは前記付加的な歪みであり、Nは前記データブロック部分固有のセグメント数であり、iは前記データブロック部分のインデックスであり、kは加算インデックスであり、tは前記第2の記述に追加された前記複数個のデータブロック部分のセグメント数であり、n_segmentは前記第2の記述の正しく受信されたパケット数である、
    請求項20に記載のトランスコーディング・ノード。
  22. 前記最適化ユニット(142’)が、前記第2の記述のために以下の期待歪み関数、
    Figure 0004732428
    ここで、ED(k)=0、n_segment(i,k,t)≧N
    さもなければ、
    Figure 0004732428
    を使用するように動作するものである、請求項20又は21に記載のトランスコーディング・ノード。
  23. 前記最適化ユニット(142’)が、
    (a)前記複数個のデータブロック部分の送信されるサブセグメントの個数と、前記少なくとも1個の他のデータブロック部分(Layerj+1〜Layer)のセグメントの個数とを設定するステップと、
    (b)iが前記データブロック部分のインデックスであり、t(i)が前記複数個のデータブロック部分のセグメントの前記個数及び前記少なくとも1個の他のデータブロック部分のセグメントの前記個数であり、ED(i,t)が前記期待歪み関数であり、L(i,t)が固定パケット長に関して前記セグメント又はサブセグメントによって占められている前記パケットの部分を指示するレートである場合に、データブロック部分毎に、以下の式:
    Figure 0004732428
    によって定義される、前記各サブセグメント又はセグメントを前記第2の記述に追加するコストを決定するステップと、
    (c)コスト関数を最大化するサブセグメント又はセグメントをデータブロック部分のための2つの前記第2の記述に追加するステップと、
    (d)Lがパケット長であるとして、
    Figure 0004732428
    が満たされるまで、ステップ(b)及び(c)を繰り返すステップと
    を実行するグリーディ割り当てアルゴリズムに従って、データブロック部分毎にデータブロック部分の個数を決定するように動作するものである、請求項22に記載のトランスコーディング・ノード。
  24. 各データブロック部分がデータブロック部分固有のセクション数(K〜K)によって表されるように、前記データブロック部分が前記データブロック部分に共通している共通サイズ(l)を有するデータセクションに分割され、
    前記最適化ユニット(142,142’)及び前記パケット生成ユニット(140,140’)が、最適化及びパケット生成のため前記セクションを使用するように動作するものである、請求項1ないし23のいずれか一項に記載のトランスコーディング・ノード。
  25. 前記パケット生成ユニット(140,140’)は、前記第2のパケットのシーケンスの各パケットが前記第1のパケットのシーケンスに含まれないように、前記第2のパケットのシーケンスを生成するようにさらに動作するものである、請求項1ないし24のいずれか一項に記載のトランスコーディング・ノード(130,130’)。
  26. 前記最適化ユニット(142)が、前記第1のパスの前記伝送パス特性(NAi,PAi)と前記第2のパスの前記伝送パス特性(NBi,PBi)の全部又は複数個の可能な組み合わせに対する前記トランスコーディング・パラメータを決定するように動作するものである、請求項1ないし25のいずれか一項に記載のトランスコーディング・ノード。
  27. 前記最適化ユニット(142,142’)が、前記データブロックが属しているデータブロックタイプに基づいて、又は、前記第1又は第2の伝送プロトコルに基づいて、前記パケット長(L)を決定するように動作するものである、請求項1ないし26のいずれか一項に記載のトランスコーディング・ノード。
  28. 第3の通信プロトコルによって前記データブロック(112)を受信するように動作する受信ユニット(148)をさらに備えている、請求項1ないし27のいずれか一項に記載のトランスコーディング・ノード。
  29. 前記トランスコーディング・パラメータを記憶するように動作するメモリ(144)をさらに備え、
    前記パケット生成ユニット(140,140’)が、前記最適化ユニット(142,142’)又は前記メモリ(144)から前記トランスコーディング・パラメータを受信するように動作するものである、
    請求項1ないし28のいずれか一項に記載のトランスコーディング・ノード。
  30. 前記最適化ユニット(142,142’)が、データブロック毎に個別に前記トランスコーディング・パラメータを決定するように動作するものである、請求項1ないし29のいずれか一項に記載のトランスコーディング・ノード。
  31. 前記最適化ユニット(142,142’)が、前記第1及び第2のパスの前記伝送パス特性が変化したかどうかをチェックし、前記伝送パス特性が変化したときには前記トランスコーディング・パラメータを決定するように動作するものである、請求項1ないし30のいずれか一項に記載のトランスコーディング・ノード。
  32. 前記パケット生成ユニット(140,140’)が、前記第1又は第2の記述のパケットにヘッダを追加するように動作するものであり、前記ヘッダが、前記データブロックに関連付けられ、かつ、他のデータブロックのデータブロック識別子とは異なるようなデータブロック識別子を含むものである、請求項1ないし31のいずれか一項に記載のトランスコーディング・ノード。
  33. 第1の伝送パス(132)の伝送パス特性(NAi,PAi)と第2の伝送パス(134)の伝送パス特性(NBi,PBi)に基づいて、データブロック(112)の第1の記述(133,133’)及び第2の記述(135,135’)に対するトランスコーディング・パラメータ(145)を決定するステップであって、前記第1の伝送パスの前記伝送パス特性が、第1の伝送パスの利用可能なパケット数と第1の伝送パスのパケット損失確率のペア(NAi,PAi)とを含み、前記第2の伝送パスの前記伝送パス特性が、第2の伝送パス(134)の利用可能なパケット数と第2の伝送パス(134)のパケット損失確率のペア(NBi,PBi)とを含み、前記第1の記述が、第1の伝送プロトコルを使用して第1の個数(N)のパケットを含む第1のパケットのシーケンスとして送信されるべきものであり、前記第2の記述が、前記第1の伝送プロトコルとは異なる第2の伝送プロトコルを使用して第2の個数(N)のパケットを含む第2のパケットのシーケンスとして送信されるべきものであり、前記第1のパケットのシーケンス及び第2のパケットのシーケンスが、同じパケット長さ(L)を有し、最適化ユニット(142)が、前記第1の通信プロトコル及び前記第2の通信プロトコルによって送信されたときに期待歪みに基づいて前記トランスコーディング・パラメータを決定するようにさらに動作し、前記第1の伝送パス及び前記第2の伝送パスが、最適化中において1つの複合伝送パスとしてみなされ、前記期待歪みが1個のパケットがいずれかの伝送パス上で失われる確率に基づいて決定され、前記最適化ユニット(142,142’)が、最適化処理中に、前記第1の伝送パスの前記利用可能なパケット数(NAi)から前記第1のパケットの個数(N)決定し、前記第2の伝送パスの前記利用可能なパケット数(NBi)から前記第2のパケットの個数(N)を決定し、前記第1のパケットの個数(N)及び前記第2のパケットの個数(N)が、トランスコーディング・パラメータ(145)である、ステップと、
    前記トランスコーディング・パラメータ(145)に応じて、前記第1の記述に対する前記第1の個数(N)のパケットを含む第1のパケットのシーケンスと、前記第2の記述に対する前記第2の個数のパケット(N)を含む第2のパケットのシーケンスとを生成するステップと、
    前記第1の伝送パス(132)を介して前記第1の通信プロトコルに従って前記第1のパケットのシーケンスを送信するステップと、
    前記第2の伝送パス(134)を介して前記第2の通信プロトコルに従って前記第2のパケットのシーケンスを送信するステップと
    を含み、
    前記トランスコーディング・パラメータを決定するステップは、トランスコーディング・パラメータとして、複数個のデータブロック部分の各データブロック部分について、データブロック部分(Layer 〜Layer )を復元するのに必要なデータブロック部分固有の数(N 〜N )を決定することを含み、
    前記複数個のデータブロック部分(Layer 〜Layer ;Layer 〜Layer )のうちの前記データブロック部分は、それぞれがデータブロック部分固有の優先順位に関連付けられ、少なくとも2個のデータブロック部分が異なる優先順位に関連付けられ、
    前記トランスコーディング・パラメータを決定するステップは、第1の優先順位が第2の優先順位より高いときに、前記第1の優先順位に関連付けられているデータブロック部分に関連付けられているパケットのデータブロック固有の数(N )が、前記第2の優先順位に関連付けられている第2のデータブロック部分(Layer )に関連付けられているパケットのデータブロック固有の数(N )以下となるように、パケットの前記データブロック固有の数(N 〜N )を決定することを含み、
    前記トランスコーディング・パラメータを決定するステップは、トランスコーディング・パラメータとして、前記複数個のデータブロック部分(Layer 〜Layer ;Layer 〜Layer )のうちの各データブロック部分に関連付けられているデータブロック部分固有の前方誤り訂正符号(FEC 〜FEC ;FEC 〜FEC )を決定することを含み、
    前記データブロック部分固有の前方誤り訂正符号は、データブロック部分(Layer 〜Layer ;Layer 〜Layer )が前記各データブロック部分に属しているデータセグメント(411,412)及び/又は符号セグメント(413,414,415)を含むパケットの前記データブロック部分の数(N 〜N ;N 〜N )のいずれかの組み合わせに基づいて復元され得るように決定され、
    前記生成するステップは、前記複数個のデータブロック部分(Layer 〜Layer ;Layer 〜Layer )のうちのそれぞれを、前記各データセグメントの前記データブロック部分固有の数(N 〜N ;N 〜N )に分割することを含み、
    前記生成するステップは、前記各データブロック部分固有のFEC符号(FEC 〜FEC ;FEC 〜FEC )に基づいて、前記複数個のデータブロック部分のそれぞれに対して前記符号セグメントのデータブロック部分固有の数を生成することを含み、
    同じデータブロック部分に属している前記データセグメント及び前記符号セグメントが、同じデータブロック部分固有セグメントサイズ(L 〜L ;L 〜L )を有し、前記第1のパケットのシーケンスの各パケットと前記第2のパケットのシーケンスの各パケットは、前記データセグメントのデータセグメントか、又は前記符号セグメントの符号セグメントを含むものである、
    多重記述トランスコーディング方法。
  34. コンピュータ上で動くときに請求項33に記載された本発明の方法を実行するようなプログラム・コードを有するコンピュータプログラム。
JP2007317008A 2006-12-07 2007-12-07 多重記述トランスコーディングのためのトランスコーディング・ノード及びトランスコーディング方法 Expired - Fee Related JP4732428B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP06025343.2 2006-12-07
EP06025343A EP1931148B1 (en) 2006-12-07 2006-12-07 Transcoding node and method for multiple description transcoding

Publications (2)

Publication Number Publication Date
JP2008193661A JP2008193661A (ja) 2008-08-21
JP4732428B2 true JP4732428B2 (ja) 2011-07-27

Family

ID=37964341

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007317008A Expired - Fee Related JP4732428B2 (ja) 2006-12-07 2007-12-07 多重記述トランスコーディングのためのトランスコーディング・ノード及びトランスコーディング方法

Country Status (2)

Country Link
EP (1) EP1931148B1 (ja)
JP (1) JP4732428B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8379851B2 (en) 2008-05-12 2013-02-19 Microsoft Corporation Optimized client side rate control and indexed file layout for streaming media
US8265140B2 (en) * 2008-09-30 2012-09-11 Microsoft Corporation Fine-grained client-side control of scalable media delivery
US9203427B2 (en) * 2011-02-10 2015-12-01 Alcatel Lucent System and method for mitigating the cliff effect for content delivery over a heterogeneous network
JP6436926B2 (ja) * 2016-03-03 2018-12-12 ソフトバンク株式会社 通信装置、通信システム、プログラム、及び通信方法
US10257839B2 (en) 2017-03-20 2019-04-09 At&T Intellectual Property I, L.P. Facilitating communication of radio resource quality to a mobile application
US10862620B2 (en) 2017-09-25 2020-12-08 Dolby Laboratories Licensing Corporation Systems and methods to optimize the load of multipath data transportation
CN111757118B (zh) * 2020-06-29 2023-04-21 北京百度网讯科技有限公司 视频转码处理方法、装置、设备和介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050210356A1 (en) * 2004-03-17 2005-09-22 Microsoft Corporation Layered multiple description coding

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050210356A1 (en) * 2004-03-17 2005-09-22 Microsoft Corporation Layered multiple description coding

Also Published As

Publication number Publication date
EP1931148A1 (en) 2008-06-11
JP2008193661A (ja) 2008-08-21
EP1931148B1 (en) 2011-11-30

Similar Documents

Publication Publication Date Title
JP5463733B2 (ja) 動画像データの符号変換伝送システム及び符号伝送方法
US8681871B2 (en) Method for encoding signals, related systems and program product therefor
US6920179B1 (en) Method and apparatus for video transmission over a heterogeneous network using progressive video coding
JP4732428B2 (ja) 多重記述トランスコーディングのためのトランスコーディング・ノード及びトランスコーディング方法
US20110268187A1 (en) System and method for determining encoding parameters
WO2013033677A1 (en) Video encoding mode selection based on an aggregate estimate of error propagation distortion over multiple lossy channels
US7627184B2 (en) Content distribution/reception device, content transmission/reception method, and content distribution/reception program
CN102342057A (zh) 用于可伸缩媒体的封装的方法和装置
Masala et al. Rate-distortion optimized slicing, packetization and coding for error resilient video transmission
Wang et al. Robust and flexible wireless video multicast with network coding
Weng et al. Sliding‐window forward error correction using Reed‐Solomon code and unequal error protection for real‐time streaming video
JPWO2003092302A1 (ja) 動画像伝送システム、動画像符号化装置、動画像復号化装置、及び動画像伝送プログラム
Wang et al. Syndrome-based robust video transmission over networks with bursty losses
JPWO2003092295A1 (ja) 動画像伝送システム、動画像符号化装置、動画像復号化装置、及び動画像伝送プログラム
Hassan et al. Adaptive and ubiquitous video streaming over Wireless Mesh Networks
Zhao et al. RD-Based Adaptive UEP for H. 264 Video Transmission in Wireless Networks
Chen et al. Error-resilient video streaming over wireless networks using combined scalable coding and multiple-description coding
Kwon et al. Cross-layer optimized multipath video streaming over heterogeneous wireless networks
Kazemi End-to-end distortion modeling and channel adaptive optimization of mixed layer multiple description coding scheme
Correia et al. Optimal priority mdc video streaming for networks with path diversity
Song et al. Towards user-oriented live video streaming
Kim et al. Channel-adaptive multiple description coding for wireless video streaming
Agueh et al. A low time-consuming smart FEC rate allocation scheme for robust wireless JPEG 2000 images and video transmission
Wen et al. Hierarchical optimization of cascading error protection scheme for H. 264 scalable video streaming
Arrifano Robust Video Coder Solution for Wireless Streaming: Applications in Gaussian Channels

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110322

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110408

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110420

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140428

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees