JP6416992B2 - ビデオビットストリームをトランスコーディングする方法及び構成 - Google Patents

ビデオビットストリームをトランスコーディングする方法及び構成 Download PDF

Info

Publication number
JP6416992B2
JP6416992B2 JP2017131446A JP2017131446A JP6416992B2 JP 6416992 B2 JP6416992 B2 JP 6416992B2 JP 2017131446 A JP2017131446 A JP 2017131446A JP 2017131446 A JP2017131446 A JP 2017131446A JP 6416992 B2 JP6416992 B2 JP 6416992B2
Authority
JP
Japan
Prior art keywords
bitstream
video
format
transcoding
side information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017131446A
Other languages
English (en)
Other versions
JP2017216698A (ja
Inventor
ケネス アンデション,
ケネス アンデション,
トマス ルザート,
トマス ルザート,
ヨナタン サムエルション,
ヨナタン サムエルション,
リカード スイェベルイ,
リカード スイェベルイ,
Original Assignee
テレフオンアクチーボラゲット エルエム エリクソン(パブル)
テレフオンアクチーボラゲット エルエム エリクソン(パブル)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テレフオンアクチーボラゲット エルエム エリクソン(パブル), テレフオンアクチーボラゲット エルエム エリクソン(パブル) filed Critical テレフオンアクチーボラゲット エルエム エリクソン(パブル)
Publication of JP2017216698A publication Critical patent/JP2017216698A/ja
Application granted granted Critical
Publication of JP6416992B2 publication Critical patent/JP6416992B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/40Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/18Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a set of transform coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/48Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using compressed domain processing techniques other than decoding, e.g. modification of transform coefficients, variable length coding [VLC] data or run-length data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Discrete Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、一般にオリジナルのビデオソースを表すビットストリームを入力フォーマットから出力フォーマットにトランスコーディングする方法及び構成に関する。
固定通信システム又は無線通信システムでビデオメディアが送信される場合、通常ビデオメディアは、ソース(source)とシンク(sink)との間の何らかの中間ノードで適応又はトランスコーディングされる。ソースは、例えばメディアプロバイダにより表されてもよく、シンクは、例えばモバイルデバイスなどの視聴デバイスにより表されてもよい。適応中、ビデオメディアは通常圧縮され、そのため、ソースノードで選択する複数のビットレートが必要とされる。アップリンク及びダウンリンクを最も効率よく利用するために、最適ビットレートは、ネットワーク能力及びシンク能力の双方を考慮に入れるだろう。ソースでビデオを符号化する時点で、ソースノードは、エンドユーザ能力及びネットワーク能力の知識を持っていないので、中間ノードは、ビデオを所望のフォーマット又は必要なフォーマットでシンクに提供するためにビデオを適応させる必要がある。ダウンリンク能力の使用を最適化するために、ソースからの高い品質と、適応ノード又はトランスコーディングノードにおける高いレベルの複雑な計算とが要求される。ダウンリンク帯域幅又は受信側の能力に適合するようにトランスコーダでの再符号化が必要になるので、ソースは高い品質を有していなければならない。
以上のことを考慮して、アップリンク資源及びダウンリンク資源の利用を最適化するために、ビデオメディアの適応又はトランスコーディングを改善された方式で可能にする改善された符号化のための手段及び方法が必要とされている。
目的は、先に説明した欠点のいくつか又はすべてを排除する解決方法を提供することである。
この目的及び他の目的は、本発明の実施形態により達成される。
第1の態様によれば、ビットストリームをトランスコーディングするトランスコーダ構成のための方法が提供される。ビットストリームはオリジナルのビデオソースを表現しており、入力フォーマットから出力フォーマットにトランスコーディングされる。方法において、入力ビデオフォーマットでビットストリームが受信され、入力ビデオフォーマットは高忠実度フォーマットである。更に、前記ビデオビットストリームに関連するサイド情報が受信される。このサイド情報は、低忠実度入力ビデオフォーマットでオリジナルのビデオソースを表現するビデオビットストリームと、オリジナルのビデオソースの知識に基づいて最適化された符号化パラメータと、オリジナルのビデオソースと高忠実度フォーマットの復号バージョンとの間の残差を示す変換係数とを少なくとも含む。受信されたサイド情報は、トランスコーディング案内情報を生成するために復号され、受信されたビットストリーム及び生成されたトランスコーディング案内情報に基づいて、低忠実度出力フォーマットによる前記ビットストリームの表現が推定される。低忠実度出力フォーマットによる前記ビットストリームの推定表現を改善するために、サイド情報の変換係数は、低忠実度出力フォーマットによる前記ビットストリームの推定表現から生成された変換係数に加算される。更に、前記ビットストリームの改善された推定表現は、低忠実度出力フォーマットによって符号化される。
第2の態様によれば、オリジナルのビデオソースを表現するビットストリームを入力フォーマットから出力フォーマットにトランスコーディングするトランスコーディング構成が提供される。前記トランスコーダ構成は、入力ビデオフォーマットでビットストリームを受信するように構成され、入力ビデオフォーマットは高忠実度フォーマットである。トランスコーダ構成は、前記ビデオビットストリームに関連するサイド情報を受信するように更に構成され、前記サイド情報は、
低忠実度入力ビデオフォーマットでオリジナルのビデオソースを表現するビットストリームと、
オリジナルのビデオソースの知識に基づいて最適化された符号化パラメータと、
オリジナルのビデオソースと高忠実度フォーマットの復号バージョンとの間の残差を示す変換係数とを少なくとも含む。前記トランスコーダ構成は、トランスコーディング案内情報を生成するために前記受信されたサイド情報を復号し、受信されたビットストリーム及び生成されたトランスコーディング案内情報に基づいて低忠実度出力フォーマットによる前記ビットストリームの表現を推定し、低忠実度出力フォーマットによる前記ビットストリームの推定表現を改善するために、サイド情報の変換係数を低忠実度出力フォーマットによる前記ビットストリームの推定表現から生成された変換係数に加算し、低忠実度出力フォーマットによる前記ビットストリームの改善された推定表現を符号化するように更に構成される。
これらの実施形態による利点は、適応処理又はトランスコーディング処理の計算の複雑さの軽減を可能にすることである。
他の利点は、詳細な説明を読むことにより理解されるだろう。
実施形態は、その更なる目的及び利点と共に、添付の図面と共に以下の説明を参照することにより最もよく理解されるだろう。
従来の技術による基本適応方式を示す図である。 従来の技術によるトランスコーディング方式を示す図である。 本発明の実施形態による方法を示すフローチャートである。 本発明の実施形態の異なる態様を概略的に示す図である。 本発明の実施形態の異なる態様を概略的に示す図である。 更なる実施形態を示す図である。 本発明の実施形態の異なる態様を概略的に示す図である。 発明の実施形態の異なる態様を概略的に示す図である。 本発明の一実施形態を概略的に示す図である。 本発明の実施形態の態様を概略的に示す図である。 本発明の実施形態の態様を概略的に示す図である。 サイド情報の多重利用の一例を示す図である。 本発明の一実施形態によるトランスコーディング構成を概略的に示す図である。 本発明の一実施形態によるビデオプロバイダ構成を概略的に示す図である。 本発明によるトランスコーディング構成の一実現形態を示す図である。 本発明によるビデオプロバイダ構成の一実現形態を示す図である。
図面を通して、同様の又は対応する要素に対して同一の図中符号が使用される。
本明細書において使用される場合の用語「ユーザ機器(User Equipment)」(UE)は、携帯電話、ビデオカメラ、パーソナルデジタルアシスタント、スマートフォン、例えば内部モバイルブロードバンドモデム又は外部モバイルブロードバンドモデムを備えるラップトップ又はパーソナルコンピュータPC、通信能力を有するタブレットPC、ポータブル電子通信デバイス、無線通信能力を備えるセンサデバイスなどの何らかの装置を表してもよい。特に、用語「UE」は、ビデオデコーダを備えるあらゆるデバイスを含む非限定的な用語として解釈されるべきである。
本明細書において使用される場合の用語、トランスコーダ構成は、ネットワークノードに配置されるトランスコーディングデバイス又は適応デバイスを表してもよい。ネットワークノードの一例は、ビデオメディア(YouTube(登録商標)、Netflix)及びエンドユーザ(モバイルデバイス、PC、TV)の双方と接続するサーバである。トランスコーダは、通常、ビデオデコーダ及びビデオエンコーダから構成される。ビデオは画素値に復号され、次に別のフォーマット/ビットレートに再符号化される。
提案される技術は、ビデオプロバイダなどのソースノードが入力ビデオ信号としての符号化ビデオビットストリーム及びサイド情報の双方をトランスコーディングノード又は適応ノードなどの中間ノードに提供し、中間ノードは、出力ビデオ信号として符号化ビデオビットストリームを提供するようなシステムに関連して最もよく理解される。出力ビデオ信号は、その後ユーザ機器などのシンクノードで受信され、表示されることが可能である。
提案される技術を更によく理解するために、現在の適応/トランスコーディング方法及びその利点の概要を簡単に説明することから始めるのが有用だろう。
図1は、入力ビデオ信号が送信側デバイス(エンコーダ)で符号化(圧縮)され、次に、ネットワークを介して送信され及び/又は記憶され(以下に説明されるアップリンク、適応及びダウンリンクにより示されるように)、次に受信側デバイス(デコーダ)により受信され、復号(解凍)される状況を示す。その後出力ビデオは、例えば受信側デバイスのエンドユーザに対して表示可能である。
通常ビデオ符号化の場合、使用する符号化アルゴリズム(例えば、使用するビデオ符号化規格及びプロファイル)、ビデオ解像度、フレームレート、画質、ビットレートなどの符号化パラメータが符号化の時点で決定されなければならない。最適の符号化パラメータは、受信側デバイスの能力(計算能力及びメモリ)並びに関連するネットワークリンクの容量、例えば利用可能帯域幅によって決まる。多くの状況において、例えばネットワーク特性が時間又は受信機の場所に伴って変化する場合、あるいはビデオが2つ以上の受信側デバイスへ送信され、各受信側デバイスが異なる能力又は異なる関連ネットワークアクセス特性を有する場合に、それらのパラメータは符号化の時点でわかっていない。そのような場合、利用可能ネットワーク資源、デバイス特性及びコンテンツを消費するときのユーザ体験に最適に対応するためには、図1に「適応」により示されるように、ネットワークでの送信中に圧縮ビデオ信号を適応させることが要求される。
送信側(エンコーダ)から適応ノードに向かうネットワークリンクは「アップリンク」として示される。適応ノードから受信側(デコーダ)に向かうネットワークリンクは「ダウンリンク」として示される。アップリンク帯域幅及びダウンリンク帯域幅は、通常共に希少資源である。送信側及び受信側が共に固定ネットワーク又は移動ネットワークに接続されたエンドユーザデバイス(例えば、スマートフォン又はラップトップ)である場合、アップリンク帯域幅は、通常ダウンリンク帯域幅より狭いので(例えば、ADSLネットワーク又は携帯電話網の場合)、アップリンクは、通常ボトルネックとなる。送信側がストリーミングサーバ又はビデオオンデマンドサーバ又はビデオキャッシュ)などのビデオサーバであり、受信側がエンドユーザデバイス(例えば、スマートフォン、タブレット又はTV)である場合、ダウンリンク帯域幅は、多くの場合に、ユーザに供給可能なビデオ品質を決定するボトルネックである(例えば、エンドユーザがDSL又は携帯電話アクセスを介して接続される場合)。更に、例えば送信側(例えば、ビデオオンデマンドサーバ)からエンドユーザへ多くの異なるコンテンツを配信しなければならない場合に(この場合、アップリンクはコンテンツ配信ネットワークCDNになることが可能だろう)、アップリンクも不経済な資源になりうる。
ネットワーク容量に加えて、他の希少資源には送信側及び受信側の、特に適応ノード又はトランスコーディングノードの計算能力及びメモリ能力がある。
解決されるべき問題は、アップリンクビットレート及びダウンリンクビットレートを最小限に抑え、それと同時にエンコーダ、適応ノード及びデコーダにおける計算/メモリの複雑さを最小限に抑えることにより、ネットワーク利用を最適化するためのビデオ符号化/適応/復号の方式を提供することである。
H.264/AVC及びH.265/HEVCなどのビデオ符号化方法は、通常いわゆるハイブリッド符号化方式に基づく。
ハイブリッドビデオ符号化方式では、図1に例示されるようなエンコーダは、通常ビデオシーケンスのピクチャごとに適用される以下の基本ステップをブロックごとに実行する。
1.以前に符号化され、再構成された画素データに基づいてオリジナルのビデオ信号(例えば、画素データ)を予測することと、オリジナルのビデオ信号と予測との差を計算することとを含む予測動作が実行される。この差は、「残差データ」又は「残差信号」又は「残差」と呼ばれる。特定のブロックの予測動作は、現在符号化されているブロックと同一のピクチャの画素に基づくことが可能であり、これは「イントラ予測」と呼ばれ、あるいは以前に符号化されたピクチャの画素に基づくことも可能であり、これは「インター予測」と呼ばれる。予測に使用されるソースデータは「予測基準」と呼ばれる。インター予測の有効性を改善するために、通常いわゆる動き補償動作が適用され、この動作は基準ピクチャに対する現在符号化中のブロックの変位を示す動きベクトルに基づく。
高い圧縮効率を実現するために、エンコーダはブロックごとに、符号化モード、ブロック分割、動きベクトルなどの多くの異なる符号化パラメータを試行する必要があり、これはモード/運動推定及び/又はレート歪み最適化(rate-distortion optimization;RDO)と呼ばれる場合もある処理である。この処理は、予測ステップに先立つ更なるステップとして解釈されることも可能だろう。
2.予測残差信号を周波数領域に変換するために、空間変換動作が実行される。
3.その結果得られる変換係数が量子化され、例えばコンテクスト適応2進算術符号化CABACを使用してエントロピー符号化される。ブロック分割、予測モード(インター/イントラ)、動きベクトルなどの指示のような更なるデータも同様にエントロピー符号化される。エントロピー符号化段の出力は、「ビットストリーム」と呼ばれる。
4.エンコーダは、後続ブロックを符号化するために使用される基準情報を生成するために復号処理の各部分(以下を参照)を実行する。
以下の説明中、エンコーダにおけるインター予測動作及びイントラ予測動作並びに残差データの生成の適用(先のステップ1)を「動き補償残差生成」と呼ぶ。
図1のデコーダは、通常ブロックごとに、ビデオシーケンスのどのピクチャにも適用される以下の基本ステップを実行する。
1.復号/画素再構成処理を制御するために、量子化変換係数及び他のデータをエントロピー復号する。
2.再構成予測残差を取得するために、復号された量子化変換係数の逆変換を実行する。
3.ビットストリームで信号伝送された予測モード及び動き情報(インター/イントラモード、動きベクトルなど)に応じて予測動作を実行し、再構成された予測残差を予測に加算して、中間再構成画素データを取得する。
4.中間再構成画素データに応じて、フィルタリング動作(例えば、デブロッキング、サンプル適応オフセットSAO)を実行して、最終再構成画素データを生成する。
以下の説明中、デコーダにおけるインター予測動作及びイントラ予測動作の適用並びに中間画素データ及び最終再構成画素データの生成を「動き補償再構成」と呼ぶ。
計算の複雑さに関して、通常符号化は復号より著しく負担が大きい。その理由は、高い圧縮効率を実現するために、エンコーダはブロックごとに符号化モード、ブロック分割、動きベクトルなどの多くの異なる符号化パラメータを試行する必要があるからである。通常エンコーダは規格化されないので、エンコーダは若干の異なるエンコーダパラメータを試行することを選択してもよいが、それにより圧縮効率が低下するという不都合が生じる。
適応ビデオ配信の上述の問題に対処するためのいくつかのビデオ符号化/配信概念が存在する。それらの符号化/配信概念は、(1)サイマルキャスト配信、(2)スケーラブルビデオ符号化及び(3)トランスコーディングに分類できる。
サイマルキャスト配信の場合、送信側はビデオをいくつかの異なるビデオ表現で、すなわち異なるビデオ解像度などの異なる符号化パラメータで符号化し、その結果生成された圧縮ビットストリームはアップリンクを介して同時に送信される。次に適応モードで、ダウンリンク特性及び受信機特性を考慮して、最も適切なビデオストリームが選択される。同一のコンテンツに関していくつかのビットストリームを送信しなければならないので、サイマルキャストは、アップリンクの使用に関して非効率的である。サイマルキャストは、最も適切なビデオ表現を選択的に転送するだけであるので、適応における複雑さは相対的に低い。ダウンリンクに関しては、サイマルキャストは、各圧縮ビデオビットストリームを完全に最適化できるか又は画面の解像度などの受信機能力を少なくとも考慮するので、ダウンリンク利用に関しては効率的である。適応ノードは、ダウンリンクに関して1つの選択されたビットストリームを転送し、これは、オーバヘッドなしでダウンリンクを利用することになる。
スケーラブル符号化の場合、送信側はサイマルキャストと同様に、いくつかの異なるビデオ表現を符号化する。サイマルキャストとの主な相違点は、圧縮効率を改善し、それによりアップリンクにおける帯域幅利用を改善するために、表現が従属方式で圧縮されることである。スケーラブル符号化の一例は、空間的スケーラブル符号化である。空間的スケーラブル符号化は少なくとも2つのレイヤで実行され、レイヤの1つは低い解像度を有し、通常はベースレイヤと呼ばれ、他方のレイヤは通常はエンハンスメントレイヤと呼ばれる。ベースレイヤを復号した後、エンハンスメントレイヤデータは以前のエンハンスメントレイヤ画像から予測されるのに加えて、アップサンプリング/補間によってベースレイヤの画素データ又は他のデータ(動きベクトルなど)から予測されることが可能である。従って、高解像度表現は低解像度に従属している。この従属性は多くの場合に、解像度を個別に符号化するときより高い符号化効率を容易に実現する。従って、スケーラブル符号化は一般にアップリンクではサイマルキャストより帯域幅に関して効率が高い。しかし、従属性があるために最高解像度におけるシングルレイヤ符号化と比較して最高解像度における符号化効率は大幅に損なわれるが、これは高解像度ビデオの復号を可能にするためにデコーダがベースレイヤ及びエンハンスメントレイヤの双方を受信しなければならないからである。
SHVC「高効率ビデオ符号化(HEVC)スケーラブル拡張ドラフト3」、JTVC−1008_v3(2013年7月)では、高解像度(エンハンスメントレイヤ)の符号化効率を改善するために、レイヤ間予測の2つの方法により、ベースレイヤと呼ばれる低解像度の符号化レイヤを再利用できる。一方の方法は、低解像度から高解像度の画素データの領域をアップサンプリングする。他方の方法は、高解像度ビデオのいくつかの領域に関して動き情報を予測するために、低解像度ビデオからの動き情報を再利用する。
SHVCの開発で考慮されたいわゆる基準指数(refldx)方式では、レイヤ間画素予測は、アップサンプリングされた追加の基準ピクチャをエンハンスメントレイヤの基準ピクチャバッファに挿入することにより実行される。追加の基準ピクチャは、高解像度レイヤの解像度にアップサンプリングされた低解像度レイヤから構成される。符号化低解像度レイヤからの動き情報の再利用は、低解像度レイヤからの動きベクトルをアップサンプリングし、聴視覚サービス−動画の符号化のHEVC ITU−T H.265(04/2013) SERIES H:AUDIOVISUAL AND MULTIMEDIA SYSTEMSインフラ構成で指定される「時間的動きベクトル予測」方法(TMVP)を使用して、それらの動きベクトルを予測に使用することにより実行される。
スケーラブル符号化の場合の高解像度に関する符号化効率の重大な損失に対処する方法の1つは、高解像度を符号化する場合に低い解像度がより効率よく使用されるようにレイヤの符号化を合同して最適化する。これにより、低解像度ビデオ表現及び高解像度ビデオ表現の圧縮効率を互いにトレードオフすることができる。
最新のトランスコーディング方法は、符号化ステップの速度を向上させるために、アップリンクビットストリームで使用される符号化モード及び動きベクトルに関する情報などのアップリンクビットストリームで利用可能なデータを使用する。このことは、適応ノードの一例を示す図2に示される。図2は、ビデオ解像度又はフレームレートを変更するために必要とされる画素リサンプリングステップを示す。従って、モード及び動きデータもリサンプリングされてよい。モード及び動きデータの再利用により、トランスコーディングの複雑さを軽減できるが、ダウンリンク容量の適切な利用を実現するためには、トランスコーダの符号化ステップが非常に複雑であることは依然として必要である。
一般的な実施形態において、トランスコーディング又は適応は、受信ビデオビットストリーム及び受信サイド情報の双方に基づいて実行される。サイド情報は、トランスコーディング処理における計算の複雑さを軽減し且つダウンリンク資源及びアップリンク資源の双方を最適化するようにトランスコーディング処理を案内するために利用可能である。
符号化デバイスからネットワークノードへ(アップリンク)及びネットワークノードからエンドユーザデバイスへ(ダウンリンク)の双方で高い符号化効率を伴うスケーラビリティを提供できるようにするために、SHVCに新規な機能性を追加することが提案される。高忠実度表現(high fidelity representation)の再構成画素値から低忠実度表現(low fidelty representation)を導出できることが示唆される。これにより、HEVCと比較して損失なく、また、HDVCに匹敵する高い忠実度を表現できる(エンドユーザデバイスに至るダウンリンク)と同時に、サイマルキャストと比較して、アップリンクでの利得を得ることが可能になる。サイマルキャストと比較して更なる利得を提供するために、SHVCからのレイヤ間予測を再利用できる。低忠実度表現を再構成できるようにするために、逆量子化及び逆変換の前に追加復号処理を指定することが必要とされる。VPS以下の構文に変更はない。
この新規な機能性は、トランスコーダにより実現可能な符号化効率より高い符号化効率で、計算の負担が大きいモード及び動き推定を伴わずに、バージョン1適合トランスコーディング済み低忠実度ビットストリームを取得するためにトランスコーダにより使用可能である。
重要なユースケースの1つは、符号化デバイスからネットワークノードに(アップリンク/UL)符号化効率のよいビットストリームを提供し、ネットワークノードからエンドデバイスへの(ダウンリンク/DL)ネットワーク特性に従属するIPベースビデオ配信であり、利用可能帯域幅に適する符号化効率のよいHEVCバージョン1ビットストリームを提供する。最良の場合で、アップリンク及びダウンリンクは、共に単一の表現に関する符号化と同一の符号化効率を有するべきである。
このユースケースを支援するための方式の1つは、ビットストリームをサイマルキャストすること、例えばいくつかの忠実度を独立して符号化し、それらをネットワークノードへ送信する(UL)。そこで、ネットワークノードは、最適のビットストリームをエンドデバイスへ転送できる(DL)。HEVCバージョン1ビットストリームをサイマルキャストすることのすぐれた特徴は、DLに関して各ビットストリームを非常に効率よく符号化でき、従ってそれぞれの品質に対して最小限のサイズを要求できることである。サイマルキャストの欠点は、ULでほぼ同一のコンテンツのいくつかの独立した符号化を実行するという冗長性である。
スケーラブル符号化は、レイヤ符号化の使用によりいくつかの忠実度を表現する能力を有する。忠実度を表現することに関するオーバヘッドを減少させるために、高忠実度は低忠実度に従属する。従って、スケーラブル符号化は、サイマルキャストの場合のようないくつかの忠実度の独立した符号化という冗長性を低減できる。SHVCは、サイマルキャストと比較して、ULでいくつかの忠実度を符号化するためのオーバヘッドをランダムアクセスの場合で21%低減でき、SNRスケーラビリティ共通条件を有する低遅延の場合で12%低減できる。低忠実度ベースレイヤは、非常に効率よく符号化可能であるので、DLでの使用に関して最小限のサイズを要求でき、HEVCバージョン1デコーダにより復号可能である。DLでの使用に関しては、低忠実度への従属性があるため、高忠実度はオーバヘッドを生じる。SHVCは、HEVCバージョン1と比較して、ランダムアクセスの場合で14%、SNRスケーラビリティ共通条件を伴う低遅延の場合で24%のオーバヘッドを有し、HEVCバージョン1デコーダでは復号不可能であるので、このユースケースには適合できない。
SHVCの高度レイヤ、この場合にはレイヤ1に関する復号処理及び符号化処理が、クリッピングの後にあるループフィルタ(デブロッキング及びSAO)を除いて、図4及び図5に示される。図4には、SHVCの従属レイヤに関する復号処理が示され、Qは量子化であり、Tは変換であり、Pは予測であり、Dは遅延であり、Rは再構成画素値である。図5には、SHVCの従属レイヤに関する符号化処理が示され、RDOはレート歪み最適化であり、Oはオリジナルのビデオソースである。
トランスコーディングは、受信された高忠実度HEVCバージョン1ビットストリームをDLで送信する前にULで再符号化することにより、いくつかの低忠実度を提供する能力を有する。ULにおける高忠実度ビットストリームの符号化効率は非常に高く、サイマルキャストと比較して、オーバヘッドの大部分を軽減することができる。DLで高忠実度が要求される場合に、高い符号化効率は保持され、HEVCバージョン1デコーダを使用可能である。低忠実度が要求される場合には、高忠実度ビットストリームを復号し、低忠実度で再符号化する必要がある。低忠実度ビットストリームは、HEVCバージョン1デコーダにより復号可能であるが、符号化に際して再構成高忠実度ビデオの品質に依存しなければならないので、サイマルキャストの場合の低忠実度ビットストリームより、符号化効率は悪くなる。低忠実度ビットストリームの可能な限り効率のよい表現を実現するためには、大量の計算を費やすことが要求される。その結果、サイマルキャストの場合の低忠実度と比較して、オーバヘッドは依然として存在する。トランスコーダは、トランスコーディング、例えば動き情報の再利用を速度を上げるために、ショートカットを利用できるが、それに伴って、低忠実度ビットストリームの符号化効率が悪化するという不都合も生じる。トランスコーダはユースケースを実現する可能性があるが、それを実行するためには膨大な量の計算が必要であり、トランスコーダは、ユースケースに適合するための低忠実度ビットストリームの高い符号化効率をまだ備えていない。フルトランスコーディングの一例が図6に示され、この場合、復号からの画素値のみが使用される。
DLのエンドポイントに関して符号化効率のよいHEVCバージョン1ビットストリームのユースケースを支援するために、発明者らはベースレイヤで最高の忠実度を提供し、ULで効率のよい表現を取得するために最高の忠実度への従属性を伴って低忠実度を符号化させることが可能であるように、SHVCを新規な機能性によって拡張することを提案する。
言い換えれば、低忠実度を従属的に符号化し、それによりULで効率のよい表現を提供するために、高忠実度に関連する情報を利用することが示唆される。これにより多数のレイヤの符号化が従属方式で実行されるので、トランスコーダ又はトランスコーダ構成における計算の複雑さは更に軽減される。更に以下に説明されるように、本発明の実施形態によれば、このように符号化されるビットストリームの復号を可能にするサイド情報が生成され、提供される。
従って、低忠実度は高忠実度に従属する。実施形態は、レイヤ化ビットストリームの概念によって実行可能であり、この概念では、ベースレイヤは高忠実度を有し、追加レイヤの各々は、特定の低忠実度に関するサイド情報を定義する。実施形態は、高忠実度ビットストリーム及びそれとは別の1つ以上の低忠実度サイド情報ビットストリームを有することによっても実行可能である。
図7は、高忠実度フォーマットの復号バージョンがRlayer0として示されるトランスコーダを示す(高忠実度フォーマットが低忠実度フォーマットより高い解像度を有する場合に、おそらくはダウンサンプリングの後)。サイド情報の中のパーシングされた予測パラメータ符号化パラメータは、低忠実度フォーマットに関連する予測誤差を取得するためにRlayer0から減算される低忠実度フォーマットに関する予測(図中のP)を取得するために使用される。予測誤差は、変換係数を取得するために、パーシングされた変換パラメータに従って変換され(T)、量子化される(Q)。符号化予測誤差を取得するために、変換係数は逆量子化され(Q-1)、逆変換され(T-1)、符号化予測誤差は、その後、低忠実度フォーマットRlayer1の再構成を生成するために予測(P)に加算される。画素値が確実に許容範囲内に入るようにするために、クリッピング(Clip)が実行される。これはトランスコーダの出力ではないが、変換係数の生成のために使用されるピクチャ間予測を生成できるようにするために使用される。変換係数が生成され終わった時点で(破線のボックスの出力)、低忠実度フォーマットに関連するすべての符号化パラメータを利用可能であり、従って、符号化パラメータを完全な低忠実度フォーマットビットストリームに符号化することができる。このように、正規の復号処理の前に、変換及び量子化が実行される。これにより、後続するトランスコーディングステップ又は適応ステップにおける計算の複雑さは軽減されるので、少なくとも2つの異なるレイヤからの情報に基づいて、変換係数は再生成される。尚、図9にはインループフィルタリングは示されていないが、これも符号化ループの一部である。
図8は、図7に対応する高忠実度ビットストリーム及び低忠実度サイド情報を生成するエンコーダを示す。インループフィルタリングは図から除外されているが、符号化ループの一部である。
高忠実度フォーマットの復号バージョンはRlayer0として示される(高忠実度フォーマットが低忠実度フォーマットより高い解像度を有する場合に、おそらくはダウンサプリングの後)。低忠実度サイド情報は、Rlayer0から減算される予測を導き出すために最良の符号化パラメータ(RDO)を探索することにより生成される。予測誤差は変換され(T)、量子化される(Q)。符号化予測誤差を取得するために、変換係数は逆量子化され(Q-1)、逆変換され(T-1)、符号化予測誤差は、その後低忠実度フォーマットRlayer1の再構成を生成するために予測(P)に加算される。符号化パラメータは、低忠実度フォーマットOlayer1のオリジナルのビデオソースに関して最適化される。これは、Rlayer1が可能な限りOlayer1と類似するように符号化パラメータが選択されることを意味する。次に、低忠実度フォーマットに関してサイド情報を表現するために、符号化パラメータ(変換パラメータ及び予測パラメータ)は符号化される。使用される変換係数は、トランスコーダにより再生成され、従って符号化される必要がない変換係数に対応する。送信される変換係数は、トランスコーダへ送信される低忠実度フォーマットのサイド情報に対応する。1つの方式は、送信された変換係数を可能な限り少ないオーバヘッドで符号化することであり、例えば1つの係数は1に等しく、残りは0に等しい。
本発明の一実施形態によれば、その概念は、パーシング/復号された係数(例えば、TransCoeffLevel)を、図9に示されるような処理の係数生成/予測部分により取得された係数により改善することである。図9は、パーシングされた係数を係数生成/予測により改善するための復号処理を示し、この処理では提案される追加処理は、破線のボックスの中に示される。この場合、逆量子化及び逆変換に適合するように、加算後にクリッピング(ClipC)が必要とされる(他方のクリップ(Clip)は、再構成後の画素値がビデオのビット深度に従って値の許容範囲内に確実に入るように保証する)。
従って、図9は、低忠実度フォーマットサイド情報及び高忠実度フォーマットの復号バージョンの双方に基づいて変換係数を生成するトランスコーダを示す。尚、インループフィルタリングは図から除外されているが、符号化ループの一部であってもよいことに注意すべきである。
高忠実度フォーマットの復号バージョンはRlayer0として指示される(高忠実度フォーマットが低忠実度フォーマットビットストリームより高い解像度を有する場合に、おそらくはダウンサンプリングの後)。この場合、サイド情報の中の変換係数は、Rlayer0と低忠実度フォーマットの予測との差を求めることにより取得される変換係数に加算される(破線のボックスの出力)。係数が許容範囲内に確実に入るように、クリッピングが実行される(ClipC)。次に、組み合わせ変換係数(破線のボックスの出力)は、低忠実度フォーマットビットストリームを生成するために、低忠実度フォーマットサイド情報の他の符号化パラメータによって符号化される。
図3のフローチャートに概略的に示されるように、オリジナルのビデオソースを表すビットストリームを入力フォーマットから出力フォーマットにトランスコーディングするトランスコーダ構成のための方法が提供される。トランスコーダ構成は、入力ビデオフォーマットでビットストリームを受信し(S10)、入力ビデオフォーマットは高忠実度フォーマットである。トランスコーダ構成は、更に、前記ビデオビットストリームに関連するサイド情報を受信する(S20)。前記サイド情報は、低忠実度入力ビデオフォーマットでオリジナルのビデオソースを表すビデオビットストリームと、オリジナルのビデオソースの知識に基づいて最適化された符号化パラメータと、オリジナルのビデオソースと高忠実度フォーマットの復号バージョンとの間の残差を示す変換係数とを少なくとも含む。トランスコーダ構成は、トランスコーディング案内情報を生成するために、前記受信されたサイド情報を復号し(S40)、受信されたビットストリーム及び生成されたトランスコーディング案内情報に基づいて低忠実度出力フォーマットによる前記ビットストリームの表現を推定する(S50)。更に、低忠実度出力フォーマットによる前記ビットストリームの推定表現を改善するために、サイド情報の変換係数は、低忠実度出力フォーマットによる前記ビットストリームの推定表現から生成された変換係数に加算される(S60)。低忠実度出力フォーマットによる前記ビットストリームの改善された推定表現は符号化され(S70)、レンダリングデバイスへ送信される。このようにサイド情報により、サイド情報なしのトランスコーディングと比較して複雑さを低減して適応処理を実行できる一方で、高い圧縮効率を提供するように、サイド情報は適応処理で利用される。従って、ダウンリンク帯域幅の十分な利用を実現できる。適応処理の出力は非スケーラブルビデオビットストリームであり、このことは適応処理からのビットストリームの復号を複雑度の低い非スケーラブルデコーダで実行可能であることを示唆する。
一実施形態によれば、更なるステップが追加され、このステップでは前記受信されたビデオビットストリームの前記表現として画素データを提供するために、前記受信されたビデオビットストリームは復号される。本発明の場合、残差を再生成するために使用される画素データを取得するために、トランスコーダは、常に高忠実度ビットストリームを復号しなければならない。いくつかのトランスコーダ構成は、符号化パラメータ領域でのみ動作してよい。
更なる実施形態によれば、オリジナルのビデオソースと高忠実度フォーマットの復号バージョンとの間の残差は、量子化されたか/又は変換された残差である。
サイド情報は、前記所定の入力ビデオフォーマットに関連する残差情報を更に含んでもよい。
いくつかの実施形態において、方法は前記ビデオビットストリームの中の前記サイド情報の存在に関する指示を識別する更なるステップを含む。
更に、前記所定の入力ビデオフォーマット及び前記所定の出力ビデオフォーマットは、ビデオの異なるカラー表現、又は異なるビデオコーデックを含んでもよい。
サイド情報は、前記ビデオビットストリームとは別に送受信されてもよいが、前記ビデオビットストリームと共に送受信されてもよい。例えばサイド情報及び符号化ビデオビットストリームは、インタリーブビットストリームとして一体に送信可能であるが、1つの搬送波の中の個別のレイヤで、あるいは個別の搬送波又はチャネルで送信されることも可能である。受信側トランスコーディングノードが提供されるサイド情報を利用できるようにするために、提供されるサイド情報の指示並びに提供されるサイド情報の使用の可能性の指示が任意にトランスコーディングノードへ送信されることが可能である。
一例として、サイド情報は、スケーラブルビデオビットストリームの1つのレイヤとして提供されることが可能であり、その場合、1つの高忠実度レイヤは主ビデオを含み、1つ以上の低忠実度レイヤはサイド情報を含む。この場合、スケーラブルビデオビットストリームの中で、1つ又はいくつかのレイヤが第1のレイヤに対してトランスコーディング従属性を有することを示す指示を提供できる。この指示は、ビットストリームの始めに又は別のチャネルでビデオパラメータセット(VPS)及び/又はSEIメッセージの中で定義できる。これに代わる別の方法は、シングルレイヤビットストリーム、例えばHEVCに加えて、別のビデオビットストリーム、例えばHEVCでサイド情報を提供する。その場合、各ビットストリームは、別のチャネルに関して使用可能であること又は別のチャネルで指示を有することができることを示すビットストリームの始めのSEIメッセージを含むことができる。更なる実施形態では、サイド情報は、別のチャネルでまとめて提供される。
場合によっては、ビデオプロバイダ構成の符号化処理に関する情報をトランスコーダ構成に提供することが必要である。そのような特定のケースの1つは、入力ビデオが高解像度を有し、出力ビデオは低解像度を有する場合であると考えられるだろう。その場合、トランスコーダにおける何らかのダウンサンプリング処理に関する情報もサイド情報又は何らかの所定の仕様で提供される必要がある。特に、例えばトランスコーダが高解像度画素データを低解像度画素データに適正にダウンサンプリングすることを可能にする情報を提供することが必要になるだろう。
サイド情報は、少なくとも1つのSEIメッセージとしての送信、モード/動き情報のカプセル化、ビデオビットストリーム中の補助ピクチャとしての送信、主ビデオとは異なるレイヤidを有するスケーラブルレイヤとしての送信を含む複数の異なる方法で送信可能である。
いくつかのケースで、サイド情報は、完全な1つのビットストリーム又はビットストリームの1つのレイヤを含むことが可能だろう。そのような場合、ビデオプロバイダ構成で、提供されるビットストリームのどの部分を修正すべきかをトランスコーダ構成に案内する指示が提供される。
トランスコーダ構成へ送信されるサイド情報で生成又は提供できる案内情報の可能な種類はごくわずかしかない。
図9に関連して説明された例に関しては、これは、次の章の「フォワード変換係数に関するフォワードスケーリング処理」のステップ7に示されるような変形として実現可能である。それに代わる方法は、案内情報をSEIメッセージの中で指定するか又は補助ピクチャに関してサイド情報として指定するというものである。
以下の例は、TransCoeffLevelがサイド情報ビットストリームで復号される変換係数であるような例示的な一実現形態である。intLevelは、高品質ビットストリームの再構成に基づく再生成変換係数である。前述のように、本実施形態の方式は、サイド情報の一部であるTransfCoeffLevelに基づいて再生成変換係数を改善する。
[フォワード変換係数に関するフォワードスケーリング処理]
この処理への入力は、
− 現在ピクチャの左上ルマサンプルに対する現在ルマ変換ブロックの左上サンプルを指定するルマ位置(xTbY,yTbY)、
− 現在変換ブロックのサイズを指定する変数nTbS、
− 現在ブロックの色成分を指定する変数cldx、
− 量子化パラメータを指定する変数qP、
− 要素d[x][y]を有するフォワード変換係数dのアレイ
である。
この処理の出力は、要素TransCoeffLevel[xTby][yTby][cldx][x][y]を有する変換係数の(nTbS)×(nTbS)アレイTransCoeffLevelである。
変換係数は、以下の順序のステップにより修正される。
1.intLevel[x,y]はd[x,y]に等しくなるように設定される。
2.intSign[x,y]は、intLevel[x,y]が0未満である場合に−1に等しくなるように設定され、そうでない場合には1に設定される。
3.fwdScaleFactor=fwdLevelScale[Qp%6]であり、fwdLevelScale={26214,23302,20560,18396,16384,14564}である。
4.int64Level[x,y]は、abs(intLevel[x,y])*fwdScaleFactorに等しくなるように設定される。
5.intLevel[x,y]は、(int64Level[x,y]+intAdd)>>intQBitsに等しくなるように設定される。
ここで、intQBitsは29+Qp/6−bitDepth−log2(nTbS)に等しく、
bitDepthは、cldxが0である場合はbitDethYに等しく、そうでない場合にはbitDepthCに等しく、
intAddは、スライス型がIに等しいか又はレイヤ間画像rsPicがIRAPである場合は171<<(intQBits−9)に等しく、そうでない場合には、intAddは85<<(intQBits−9)に等しい。
6.intLevel[x,y]は、intLevel[x,y]*intSign[x,y]に等しくなるように設定される。
7.TransCoeffLevel[xTbY][yTbY][cldx][x][y]は、Clip3(−32768,32767,TransCoeffLevel[xTbY][yTbY][cldx][x][y]+intLevel[x,y])に等しくなるように設定される。
変形例は、以下の章「フォワード変換係数に関するフォワードスケーリング処理」で説明されるステップ14でオフセットを加算し、それは、変換サイズを完全に再利用するために送信される必要がある最小値を補正することに相当する。これが1のDC値であると指定され、その他の係数が0に設定される場合、デコーダは以下を実行可能である。
If(x==0 && y==0)
TransCoeffLevel[xTbY][yTbY][cIdx][x][y]はClip3(−32768,32767,TransCoeffLevel[xTbY][yTbY][cIdx][x][y]+intLevel[x,y]−1)に等しい
else
TransCoeffLevel[xTbY][yTbY][cIdx][x][y]はClip3(−32768,32767,TransCoeffLevel[xTbY][yTbY][cIdx][x][y]+intLevel[x,y])に等しい
これは、第1の係数位置では1に対応し、そうでない場合には0に対応する係数(TransCoeffLevel)をエンコーダが送信している場合に、エンコーダは、再生成される係数値intLevelを変更しないことを意味する。
提案される復号処理をデコーダが実行すべき時点をデコーダが知ることができるようにするために、発明者らは既存のレイヤ間運動及びサンプルベース従属性の型に加えて、1つの新たな従属型を並行してVPSで提供することを示唆する。従って、SHVCエンコーダは、サイマルキャストと比較してアップリンクにおけるビットレート減少を更に改善するために、既存の従属性を使用できるだろう。
最小限の簡潔な構成とするために、発明者らは使用される変換として逆変換の転置を使用すること及び量子化がRDOQ、符号ビット隠蔽なしで、フラットスケーリングマトリクスを使用して実行されることを示唆する。
以下の章は、SHVCでこれをいかにして実現できるかの例を開示する。下線を引いたテキストを参照。尚、VPS以降の構文に変更はない。
[ビデオパラメータセット拡張意味論]
direct_dep_type_len_minus2プラス2は、direct_dependency_type[i][j]構文要素のビットの数を指定する。この仕様のこのバージョンに準拠するビットストリームでは、diret_dep_type_len_minus2の値は、1に等しくなければならない。この仕様のこのバージョンではdirect_dep_type_len_minus2の値は1に等しくなければならないが、デコーダは、0以上、30以下の範囲の他の値のdirect_dep_type_len_minus2を構文の中に出現させることができる。
direct_dependency_type[i][j]は、layer_id_in_nuh[i]に等しいnuh_layer_idを有するレイヤと、layer_id_in_nuh[j]に等しいnuh_layer_idを有するレイヤとの間の従属性の型を示す。0、2、4又は6に等しいdirect_dependency_type[i][j]は、layer_id_in_nuh[j]に等しいnuh_layer_idを有するレイヤがlayer_id_in_nuh[i]に等しいnuh_layer_idを有するレイヤのレイヤ間サンプル予測に使用されることを示す。1、2、5又は6に等しいdirect_dependency_type[i][j]は、layer_id_nuh[j]に等しいnuh_layer_idを有するレイヤがlayer_id_in_nuh[i]に等しいnuh_layer_idを有するレイヤのレイヤ間運動予測に使用されることを示す。3、4、5又は6に等しいdirec_dependency_type[i][j]は、layer_id_in_nuh[j]に等しいnuh_layer_idを有するレイヤがlayer_id_in_nuh[i]に等しいnuh_layer_idを有するレイヤの残差再生成に使用されることを示す。この仕様のこのバージョンでは、direct_dependency_type[i][j]の値は0以上、6以下の範囲内になければならないが、デコーダは、7以上、232−2以下の範囲内のdirect_dependency_type[i][j]の値を構文中に出現させることができる。
変数NumDirectRefLayers[i]及びRefLeyerld[i][j]SamplePredEnabledFlag[i][j]、MotionPredEnabledFlag[i][j]、ResidualReGenerationEnabledFlag[i][j]及びDirectRefLayerldx[i][j]は、次のようにして導き出される。
for( i = 0; i <= vps_max_layers_minus1; i++ ) {
iNuhLId = layer_id_in_nuh[ i ]
NumDirectRefLayers[ iNuhLId ] = 0
for( j = 0; j < i; j++ )
if( direct_dependency_flag[ i ][ j ] ) {
RefLayerId[ iNuhLId ][ NumDirectRefLayers[ iNuhLId ]++ ] = layer_id_in_nuh[ j ]
SamplePredEnabledFlag[ iNuhLId ][ j ] = ( ( direct_dependency_type[ i ][ j ] + 1 ) & 1 )
MotionPredEnabledFlag[ iNuhLId ][ j ] = ( ( ( direct_dependency_type[ i ][ j ] + 1 ) & 2 ) >> 1 )
ResidualReGenerationEnabledFlag[ iNuhLId ][ j ] = ( ( ( direct_dependency_type[ i ][ j ] + 1 ) & 4 ) >> 2 )

DirectRefLayerIdx[ iNuhLid ][ layer_id_in_nuh[ j ] ] = NumDirectRefLayers[ iNuhLId ] - 1 }
}
[残差従属レイヤに関する復号処理]
発明者らは、新たなResidualReGenerationEnabledFlag及び既存のinter_layer_pred_enable_flagが共に1に等しい場合に、正しい変換係数レベルを再生成するために、ビットストリーム中のパーシングされた変換係数レベルを使用する代わりに、SHVCの既存の復号処理に加えて付加的な復号処理の実施形態を定義する。
[イントラ予測モードで符号化された符号化単位に関する復号処理]
ResidualReGenerationEnabledFlag[currLayerld][rLld]及びinter_layer_pred_enable_flagが共に1に等しい場合に、HEVC/SHVC仕様の「イントラ予測モードで符号化された符号化単位に関する復号処理」の項の仕様は、「スケーリング及び変換処理」に先立って、変換係数レベルTransCoeffLevelが「スケーリング及び変換処理」で指定されるように修正されることを除いて適用される。それ以外の場合には、8.4項の仕様が適用される。
[インター予測モードで符号化された符号化単位の残差信号に関する復号処理]
ResidualReGenerationEnabledFlag[currLayerld][rLld]及びinter_layer_pred_enable_flagが共に1に等しい場合に、HEVC/SHVC仕様の「インター予測モードで符号化された符号化単位の残差信号に関する復号処理」の項の仕様は、「スケーリング及び変換処理」に先立って、変換係数レベルTransCoeffLevelが「スケーリング及び変換処理」で指定されるように修正されることを除いて適用される。それ以外の場合には、「インター予測モードで符号化された符号化単位の残差信号に関する復号処理」の項の仕様が適用される。
[デブロッキングフィルタ処理に先立つスケーリング、変換及びアレイ構成処理]
ResidualReGenerationEnabledFlag[currLayerld][rLld]及びinter_layer_pred_enable_flagが共に1に等しい場合に、HEVC/SHVC仕様の「デブロッキングフィルタ処理に先立つスケーリング、変換及びアレイ構成処理」の項の仕様は、「スケーリング及び変換処理」に先立って、変換係数レベルTransCoeffLevelが「スケーリング及び変換処理」で指定されるように修正されることを除いて適用される。それ以外の0の場合には、「デブロッキングフィルタ処理に先立つスケーリング、変換及びアレイ構成処理」の項の仕様が適用される。
注:HEVCバージョン1適合ビットストリームを符号化するために、ResidualReGenerationEnabledFlag[currLayerld][rLld]が1に等しいか又はinter_layer_pred_enable_flagが0に等しい場合に、トランスコーダは、修正済みTransCoeffLevelを含む現在レイヤからのレイヤ別構文の大部分を再利用できる。
[スケーリング及び変換処理]
この処理への入力は、
− 現在画像の左上ルマサンプルに対する現在ルマ変換ブロックの左上サンプルを指定するルマ位置(xTbY,yTbY)、
− 符号化ブロックに対する現在ブロックの階層深度を指定する変数trafoDepth、
− 現在ブロックの色成分を指定する変数cldx、
− 現在変換ブロックのサイズを指定する変数nTbS、
− レイヤ間基準画像(デブロック及びsaoの後)rsPicからの再構成サンプルのアレイ、
− 予測サンプルpredSamplesのアレイ
である。
この処理の出力は、要素TransCoeffLevel[xTbY][yTbY][cldx][x][y]を有する変換係数レベルの(nTbS)×(nTbS)アレイである。
まず、rlPicSampleとpredSamplesとの差を求めることにより、一時残差サンプル(rT)の(nTbS)×(nTbS)アレイが取得される。
rT[x][y] = rlPicSample[x][y]-predSamples[x][y]
レベルIの(nTbS)×(nTbS)アレイは、次のように導き出される。
− cu_transquant_bypass_flagが1に等しい場合、レベルIの(nTbS)×(nTbS)アレイは、一時残差サンプルrTの(nTbS)×(nTbS)アレイに等しくなるように設定される。
l[x][y] =rT[x][y]
− そうでない場合には、以下の順序のステップが適用される。
1.変換ブロック位置(xTbY,yTbY)、変換ブロックnTbSのサイズ、色成分変数cldx、量子化パラメータqP及び一時残差サンプルrTのアレイを入力として、「一時残差サンプルに関する変換処理」の項で指定されるようなフォワード変換が起動され、その出力は、フォワード変換係数dの(nTbS)×(nTbS)アレイである。
2.変換係数TransCoeffLevelの(nTsB)×(nTbS)アレイは次のように修正される。
− transform_skip_flag[xTbY][yTbY][cldx]が1に等しい場合に、x=0..nTbS−1、y=0..nTbS−1であるサンプルアレイ値TransCoeffLevel[xTbY][yTbY][clds][x][y]は次のように導き出される。
TransCoeffLevel [xTbY][yTbY][cIdx] [ x ][ y ] = ( l[ x ][ y ] << (15-bitDepth-log2(nTbS) ) (H 8-267)
bitDepthがbitDepthYに等しい場合に、cldxは0に等しく、そうでない場合にはbitDepthCに等しい。
− そうでない場合(transform_skip_flag[xTbY][yTby][cldx]が0に等しい場合)には、変換ブロック位置(xTbY,yTbY)、変換ブロックのサイズnTbS、色成分変数cldx及びフォワード変換係数dの(nTbS)×(nTbS)アレイを入力として、「フォワード変換係数に関するフォワードスケーリング処理」の項で指定されるような変換係数に関するフォワードスケーリング処理が起動され、その出力は、変換係数TransCoeffLevelの(nTbS)×(nTbS)アレイである。
[フォワード変換係数に関するフォワードスケーリング処理]
この処理への入力は、
− 現在画像の左上ルマサンプルに対する現在ルマ変換ブロックの左上サンプルを指定するルマ位置(xTbY,yTbY)、
− 現在変換ブックのサイズを指定する変数nTbS、
− 現在ブロックの色成分を指定する変数cldx、
− 量子化パラメータを指定する変数qP、
− 要素d[x][y]を有するフォワード変換係数dのアレイ
である。
この処理の出力は、要素TransCoeffLevel[xTbY][yTbY][clds][x][y]を有する変換係数の(nTbS)×(nTbS)アレイTransCoeffLevelである。
変換係数は、以下の順序のステップにより修正される。
8.intLevel[x,y]はd[x,y]に等しくなるように設定される。
9.intSign[x,y]は、intLevel[x,y]が0未満である場合に−1に等しくなるように設定され、そうでない場合には1に設定される。
10.fwdScaleFactor=fwdLevelScale[Qp%6]であり、fwdLevelScale={26214,23302,20560,18396,16384,14564}である。
11.int64Level[xy]は、abs(intLevel[x,y])*fwdScaleFactorに等しくなるように設定される。
12.intLevel[x,y]は、(int64Level[x,y]+intAdd)>>intQBitsに等しくなるように設定される。
ここで、 intQBitsは29+Qp/6−bitDepth−log2(nTbS)に等しく、
bitDepthは、cldxが0に等しい場合にbitDepthYに等しく、そうでない場合にはbitDepthCに等しく、
intAddは、スライス型がIに等しいか又はレイヤ間画像rsPicがIRAPである場合に171<<(intQBits−9)に等しく、そうでない場合には、intAddは85<<(intQBits−9)に等しい。
13.intLevel[x,y]は、intLevel[x,y]*intSign[x,y]に等しくなるように設定される。
14.TransCoeffLevel[xTbY][yTbY][cldx][x][y]は、Clip3(−32768,32767,intLevel[x,y])に等しくなるように設定される。
[一時残差サンプルに関する変換処理]
[概要]
この処理への入力は、
− 現在画像の左上ルマサンプルに対する現在ルマ変換ブロックの左上サンプルを指定するルマ位置(xTbY,YTbY)、
− 現在変換ブロックのサイズを指定する変数nTbS、
− 現在ブロックの色成分を指定する変数cldx、
− 要素rT[x][y]を有する一時残差サンプルの(nTbS)×(nTbS)アレイrT
である。
この処理の出力は、要素d[x][y]を有するフォワード変換係数の(nTsB)×(nTbS)アレイdである。
CuPredMode[xTbY][yTbY]、nTbS及びcldxの値に応じて、変数trTypeは次のように導き出される。
− CuPredMode[xTbY][yTbY]がMODE INTRAに等しく、nTbSが4に等しく且つcldxが0に等しい場合に、trTypeは1に等しくなるように設定される。
− そうでない場合には、trTypeは0に等しくなるように設定される。
変換係数の(nTbS)×(nTbS)アレイdは、次のように導き出される。
1.x=0..nTbS−1、y=0..nTbS−1の一時残差サンプルrT[x][y]の各(縦)列は、列x=0..nTbS−1ごとに、変換ブロックのサイズnTbS、y=0..nTbS−1のリストr[x][y]及び変換型変数trTypeを入力として、「フォワード変換処理」の項で指定されるような1次元変換処理を起動することにより、x=0..nTbS−1、y=0..nTbS−1であるe[x][y]に変換され、その出力は、y=0..nTbS−1のリストe[x][y]である。
2.x=0..nTbS−1、y=0..nTbS−1である中間サンプル値g[x][y]は、次のように導き出される。
shift1はlog2(nTbS)−1+bitDepth−8に等しい。
ここで、bitDepthは、cldxが0に等しい場合にbitDepthYに等しく、そうでない場合にはbitDepthCに等しい。
g[ x ][ y ] = (e[ x ][ y ] + (1<<(shift1-1) ) >> shift1
3.取得されるx=0..nTbS−1、y=0..nTbS−1のアレイg[x][y]の各(横)行は、行y=0..nTbS−1ごとに、変換ブロックのサイズnTbS、x=0..nTbS−1のリストg[x][y]及び変換型変数trTypeを入力として、「フォワード変換処理」の項で指定されるような1次元変換処理を起動することにより、x=0..nTbS−1、y=0..nTbS−1のh[x][y]に変換され、その出力は、x=0..nTbS−1のリストh[x][y]である。
4.フォワード変換係数dは次のように導き出される。
shift2はlog2(nTbS)+8に等しい。
d[ x ][ y ] = (h[ x ][ y ] + (1<<(shift2-1)) ) >> shift2
[フォワード変換処理]
この処理への入力は、
− 残差サンプルのサンプルサイズを指定する変数nTbS、
− j=0..nTbS−1である要素x[j]を有する変換係数xのリスト、
− 変換型変数trType
である。
この処理の出力は、i=0..nTb−1である要素y[i]の変換済みサンプルyのリストである。
trTypeの値に応じて、次のことが適用される。
− trTypeが1に等しい場合、次の変換行列乗算が適用される。
Figure 0006416992
式中、変換係数アレイtransMatrixは、HEVC/SHVC仕様の式H8−277で定義されている。
− そうでない場合(trTypeが0に等しい場合)には、次の変換行列乗算が適用される。
Figure 0006416992
式中、変換係数アレイtransMatrixは、HEVC/SHVC仕様の式H8−279及びH8−281で定義されている。
SHVC、サイマルキャスト及びフルトランスコーディングと比較した場合の本開示による符号化の効果を以下に示す。
SHVC、サイマルキャスト及びフルトランスコーディングは、すべて、RDOQ及び符号データ隠蔽を使用するが、本開示の提案はレイヤ0に関してはそれらを使用し、レイヤ1に関しては使用しない。
低遅延構成:
サイマルキャストと比較して−11.6%(SHVCに対しては+1.5%)、高忠実度と比較して0%(SHVCでは24.3%の損失)、低忠実度及びSHVCと比較して8.7%の損失(フルトランスコーディングは+12.9%を有する)。
ランダムアクセス構成:
サイマルキャストと比較して−12.9%(SHVCに対しては+10.3%)、高忠実度と比較して0%(SHVCでは14.4%の損失)、低忠実度及びSHVCと比較して10.4%の損失(フルトランスコーディングは+12.1%を有する)。
このように、SHVCがダウンリンクでバージョン1HEVCと同じ性能で、同様にバージョン1HEVCに準拠して高忠実度ビットストリームを提供できることを発明者らは示した。低忠実度レイヤは、サイマルキャストと比較してオーバヘッドを減少させるためにアップリンクで高忠実度ベースレイヤを利用する。低忠実度レイヤを再構成するために、高忠実度レイヤから残差が再生成される。トランスコーダは、このSHVCビットストリームを使用して、トランスコーディングで実現可能な符号化効率より高い符号化効率で、モード及び運動の推定なしで低忠実度ビットストリームを導き出すことができる。VPS以降の構文に変更はない。
以下に、トランスコーダの例示的な代替例の説明を開示する。エンコーダは、通常デコーダと同一の復号処理を実行する必要があるので、ここで指定されることはエンコーダ及びデコーダの双方に適用される。代替例は一例としてSHVCに関連して説明されるが、説明は一般にHEVC並びにスケーラブルビデオ/画像符号化方式及び非スケーラブルビデオ/画像符号化方式にも適用される。
[代替例1]
代替例1は、図7及び図8を参照した先の説明、並びにVPS(ビデオパラメータセット)拡張及び復号処理に関連する。
尚、説明は残差の生成のためにレイヤ間基準画像を使用する。別の方式はレイヤ0のインループフィルタリングの後に再構成が使用されることを定義するものになるだろう。それらの画像は通常同一である。この場合、RPS(基準画像セット)でレイヤ間基準画像の指示を送信することは必要とされない。これによりHEVCバージョン1により類似する高レベルのレイヤが形成されるだろうが、RPSを修正する必要はなく、レイヤ間基準画像が基準画像リストの最終位置にない場合に基準索引を修正する必要はなく、シングルレイヤビットストリームにトランスコーディングするときに、レイヤ間基準画像がイントラ符号化される場合にスライス型を修正する必要もない。
また、図7〜図8は、予測Pに関してレイヤ0からの運動が利用可能になることを示すことがわかる。そのような情報が使用されない場合、レイヤ0からの運動を利用可能にする必要はない。
更に、図7〜図8は、変換及び逆変換が使用されることを示すことがわかる。ブロック又はビットストリームが変換を使用しないと指示される場合、変換及び逆変換を省略できる。この例は、変換スキップtransform_skip_flagに関して本例の提案の復号処理でも説明される。ロスレス符号化が使用される場合に、図に示される変換、量子化、逆量子化及び逆変換を同様に省略できる。この一例は、cu_transquant_bypass_flagに関して本例の提案の復号処理で説明される。
[代替例2]
更なる代替例によれば、サイド情報は、SHVCに関するSEI(補助エンハンスメント情報)メッセージの付加的な変換及び量子化のためのレイヤ間の特定の従属性及び復号処理の仕様を含む。従属性の一例は、代替例1のVPS拡張で示され、従属性情報を使用する復号処理の一例は、代替例1の復号処理で示される。デコーダがSEIメッセージを受信すると、デコーダは高次のレイヤに関してエンコーダ/デコーダ整合(同一の再構成画素値)を取得するために基準レイヤを使用することにより、スケーラブルビットストリームの高次レイヤをどのようにして復号すべきかに関する知識を得る。
[代替例3]
別の代替例によれば、サイド情報は、SHVCに対する補助画像に関して付加的な変換及び量子化のためのレイヤ間の特定の従属性及び復号処理の仕様を含む。従属性の一例は、代替例1のVPS拡張で示され、従属性情報を使用する復号処理の一例は、代替例1の復号処理で示される。デコーダが補助画像を受信すると、デコーダは、高次のレイヤに関してエンコーダ/デコーダ整合(同一の再構成画素値)を取得するためにビットストリームの基準レイヤを使用することにより、補助画像をどのようにして復号すべきかに関する知識を得る。
[代替例4]
ビットストリームが変換及び量子化のために残差再生成、追加復号処理を使用することをデコーダが理解しやすくするために、新たなスケーラビリティの型を更に指定できる。一例は、新たなスケーラビリティの型を代替例1に追加することである。
1に等しいscalability_mask_flag[I]は、以下の表2のi番目のスケーラビリティ次元に対応するdimension_id構文要素が存在することを示す。0に等しいscalability_mask_flag[I]は、i番目のスケーラビリティ次元に対応するdimension_id構文要素が存在しないことを示す。
Figure 0006416992
これは、例えばVPSにおいてサイド情報として信号伝達することができる。
[代替例5]
代替例1は、主にSNRスケーラビリティに関して指定される。基準画像(レイヤ0)の解像度が現在画像(例えば、レイヤ1)より高い場合、ダウンサンプリング処理を定義し、どのフィルタ係数を使用すべきかを指定することが必要とされる。ダウンサンプリングは、低解像度の残差再生成で使用される前に高解像度出力に対して適用される。
これを実行するための1つの方法は、レイヤ間基準画像を生成するときにエンハンスメントレイヤで解像度が基準レイヤより低い場合に代替フィルタが使用されるように、SHVCにおけるリサンプリング処理を修正する。0.5×スケーラビリティの場合の一例は、フルペル位置(位相0)に関するルマフィルタ及びクロマフィルタが低域フィルタに対応し、現在定義されているようなオールパスフィルタ(dirac)には対応しないように、それらのフィルタを修正するだけである。
SHVCに関しては、ResidualRegenerationFlag[curLayer][rld]が1である場合にリサンプリングが実行されるように、レイヤ間基準画像に関するリサンプリング処理を修正することが要求される。
[レイヤ間基準画像に関するリサンプリング処理]
SamplePredEnabledFlag[currLayerId][rLld]又はResidualRegenerationFlag[currLayerId][rLld]が1に等しい場合、基準レイヤ画像rIPicのサンプルアレイを入力とし、リサンプリング画像rsPicのサンプルアレイを出力として、画像サンプルリサンプリング処理が起動される。
どのフィルタ係数を使用すべきかをVPS、SPS、PPS又はスライスレベルで指定するか、あるいはSEIメッセージで指定するか又は新たな補助画像型に関して定義することができる。そこで、デコーダは、この情報を低解像度の復号に使用する前に、高解像度の適切なダウンサンプリングを実行するためにこの情報を使用することができる。
[代替例6]
上述の代替例のうちいくつかにおいて、パーシング/復号された変換係数は、追加復号処理(変換及び量子化)により上書き又は改善される。
どの色成分を適用するかをビットストリームでサイド情報として指示できる。例えばルマ又は各クロマチャネルに適用されるか、あるいはすべての色成分に適用される場合である。その場合、「正規の」復号処理は、適用されると指示された色成分に関して追加の変換及び量子化により前処理されるだけである。
これは、VPS、SPS、PPS、スライスヘッダレベル又は符号化単位レベルでサイド情報として信号伝達できるか、あるいはSEIメッセージで信号伝達できる。
以上説明した実施形態及び代替例は、同様に説明されたトランスコーディング方法及びトランスコーディング構成を支援するためにエンコーダ又はデコーダ構成で利用されてもよい。符号化及び/又は復号構成及び方法により、ビデオビットストリームを符号化できると共に、符号化ビデオビットストリームを復号するために必要なサイド情報を生成することができる。
図10を参照すると、エンコーダでビデオビットストリームが符号化され、ビデオビットストリームに関連するサイド情報が生成されることが概略的に示される。符号化ビデオビットストリーム及び生成されたサイド情報は、共に、アップリンクを介して、ビデオビットストリームが適応される適応ノードへ送信される。続いて、適応後のビデオビットストリームは、ダウンリンクを介して送信され、デコーダで受信され、デコーダにおいて出力ビデオビットストリームに復号される。図10は、適応処理に適用された場合の提案されるシステムの全体ブロック図を示す。エンコーダは、通常HEVCメインプロファイルエンコーダなどの非スケーラブルビデオエンコーダである。更に、サイド情報は入力ビデオ及びエンコーダからの入力に基づいて生成される。
生成されたサイド情報は、主符号化ビデオビットストリームに加えて、すなわちアップリンクを介して送信される。サイド情報の送信に使用されるビットレートは、通常主ビデオデータのビットレートよりはるかに低く、例えば主ビデオデータの10%程度である(以下の更に詳細な性能の説明を参照)。サイド情報は、主ビデオとは別に、例えば異なる物理チャネル又は論理チャネルを介して送信されてもよい。しかし、通常サイド情報は、主ビデオデータとインタリーブされた形で送信される。サイド情報を送信する方法の1つは、主ビットストリームにインタリーブされるHEVC補助エンハンスメント情報メッセージ(SEI)を使用する。別の方法は、他のHEVC NALユニット(ネットワーク適応レイヤ)を使用し、それらはスケーラブルビデオレイヤがSHVCで区別されるのと同様に、例えばNALユニットヘッダのnuh_layer_idの値により主ビットストリームから区別されてもよい。
サイド情報は、主ビデオデータに加えて、適応ノードに提供され、適応ノードにより適応処理で利用される。
例えば図11によるトランスコーダは、その後この情報を使用して、スケーラブルビットストリームで部分的に符号化された低解像度のうち1つへのトランスコーディングの速度を次のように増加させることができる。
サイド情報生成により効率のよいRDOを実行するためには、適応ノード、例えば画素及び/又は動きのリサンプリングに使用されるフィルタで実行される動作、並びにトランスコーダのエンコーダ段で実行される動作(動き補償予測、イントラ予測、変換、量子化、再構成、ループフィルタリングなどを含む動き補償再構成)の正確な知識を得ることが必要であり、すなわちトランスコーダのエンコーダ段でサイド情報が実際にどのように適用されるかを正確に知ることが必要である。サイド情報生成でその知識を得るためのオプションの1つは、サイド情報生成及びトランスコーダが「閉じた解」として、すなわち完全な解を提供する単一のベクトルにより提供されるだろうということである。別のオプションは、トランスコーダの動作の一部又はすべてがHEVC仕様の付録などの標準仕様で規格化されるだろうということである。
HEVCを使用する一例として、本実施形態は、エンコーダにより次のステップによって実行可能である。
1.エンコーダ又は別のエンティティは、低解像度のピクチャを構成するためにダウンサンプリングを使用する。ダウンサンプリング方法は、エンコーダと適応ノードとの間で、好ましくは規格化されて合意される必要がある。
2.エンコーダは、最高解像度のピクチャを符号化し、HEVCビデオ符号化規格に適合するビットストリームを出力する。ブロック構成、ブロックモード、イントラモード、動きベクトル及び動き補償に使用される基準ピクチャが記憶される。
3.エンコーダは、ブロック構成を決定し、ピクチャ中のすべてのブロックに関して動き推定及びモード選択を実行することにより、低解像度の各ピクチャを符号化する。以下のものを含んでもよいサイド情報が生成される。
a.符号化単位(CU)、予測単位(PU)及び変換単位(TU)のブロック区切りサイズ。これらは、高解像度ピクチャからのサイズの予測を伴って又は伴わずに符号化されてもよい。例えば高解像度が特定のブロックに関して64×64符号化単位を選択し、低解像度が2倍低い場合に、解像度32×32及び64×64は、対応するピクチャ領域に関して起こる尤度が高いと予測されるので、他のブロックサイズより小さく見られる。同様に、変換サイズが8×8である場合に、変換サイズ8×8及び4×4は、他の変換サイズより小さく見られる。これは、例えば現在解像度のブロックサイズを符号化するときに対応する高解像度からのブロックサイズをCABACコンテクストに含めることにより実現可能である。この場合本明細書においては、特定の情報をCABACコンテクストに含めることは、その情報に基づいてCABACコンテクストを選択することとして理解されるべきである。
b.符号化単位に関するブロックモード。同様にブロックモードは、高次のレイヤからの予測を伴って又は伴わずに符号化されてもよい。予測される場合、現在ブロックのモードを予測するために、高次レイヤの対応する画素領域のブロックモードが使用される。例えば高解像度ピクチャ中の対応するブロックがイントラ符号化される場合に、低解像度ブロックに関してイントラモードは低く見られる。ブロックサイズと同様に、予測はモードを符号化する場合に並列ブロックモードをCABACコンテクストに含めることにより実現可能である。
c.先に説明したのと同様に、高品質レイヤから予測されるか否かにかかわらず、モードがイントラであるブロックに関するイントラ予測モード。
d.先に説明したのと同様に、高品質レイヤから予測されるか否かにかかわらず、モードがイントラであるブロックに関する動き補償のための動きベクトル及び基準ピクチャ。動きベクトルの予測は、低品質レイヤで動きベクトルを符号化するために高品質レイヤの動きベクトルに関する情報をCABACコンテクストに含めることにより実現可能であるか、あるいは適応動きベクトル予測(AMVP)又は時間的動きベクトル予測(TNVP)などの技術を使用する予測動きベクトル符号化によって動きベクトルの予測は可能であり、その場合、動きベクトル予測子は、高品質レイヤの動きベクトルに基づいて導き出され、低品質レイヤの動きベクトルを符号化する場合に、実際の低品質ベクトルと動きベクトル予測子との差が符号化される。
e.すべてのブロックに関する量子化パラメータ。
f.先に説明したのと同様に、高品質レイヤから予測されるか否かにかかわらず、ピクチャに関するSAOパラメータ。
以上のサイド情報a〜fの選択は、レート歪み最適化(RDO)技術を採用することにより実行可能である。そのような技術では、通常符号化モード又はパラメータ決定の影響は、ビデオを再構成した後の結果として発生するビデオ歪み(D)及び符号化に必要とされるビットレート(R)の双方に対する決定の影響を考慮することにより評価される。この場合、Dは通常再構成ビデオ及び対応するオリジナルの(歪みのない)ビデオの関数、例えば平均二乗誤差(MSE)又は信号対雑音比(SNR)又はピーク信号対雑音比(PSNR)の関数である。D及びRの双方の影響は、通常費用関数D+lambda*R、すなわち重み付け係数ラムダを使用する歪みとビットレートの加重和を最小限に抑えることにより考慮される。費用関数は、通常いくつかの異なるパラメータ選択肢に関して評価され、費用関数を最小にする選択肢がエンコーダにより選択される。サイド情報符号化の場合、考慮する歪みDtranscodedは、トランスコーディング処理でサイド情報を使用し、その後トランスコーディングされたビデオを復号した後に観測されると考えられる歪みである。更に、2つのビットレート、アップリンクで(すなわち、エンコーダからトランスコーダへビデオを送信する場合に)サイド情報を符号化するために要求されるビットレートRsideinformationと、トランスコーディング後のビデオを表現するために要求されるビットレートRtransodedとが考慮されてもよい。サイド情報が高品質ビデオとは無関係に符号化される場合、サイド情報はトランスコーディング後のビデオでそのまま使用されてもよく、従って、Rsideinformationは、Rtranscodedで直接線形寄与を有すると考えることができ、その場合Dtranscoded+lambda*Rsideinformationを費用関数として使用可能である。サイド情報が高品質ビデオに対する従属性を伴って符号化される場合には、RsideinformationとRtranscodedとの間にそのような関係は存在しないと考えられるので、2つのレートは、2つの重み付け係数lambdasideinformation及びlambdatanscodedを使用して、費用関数においてDtranscoded+lambdasideinformation*Rsideinformation+lambdatranscoded*Rtranscodedのように個別の項を介して考慮されてもよい。
4.エンコーダは、サイド情報で送信されたサイズ/モード/ベクトル/QP/SAOを使用することにより低解像度ピクチャを再構成する。
a.ブロックがイントラであるか又はインターであるかに応じて、ブロックモードと、イントラ予測モード又は動きベクトル及び基準ピクチャのいずれかを適用することにより、残差ブロックを構成する。
b.既知の量子化方法に従って残差ブロックを量子化する。尚、量子化方法は一般に規格化されないので、この方法は、エンコーダと適応ノードとの間で合意されるか、あるいは規格化される(好適)ことが必要である。
c.ブロックを逆量子化し、それを予測に加算し、HEVC仕様に従った再構成ブロックを形成する。
d.ピクチャに関してデブロッキングフィルタ及びSAOを適用する。そこで、再構成ピクチャは、適応ノードの後にストリームを復号するデコーダが復号するものに対してビットパーフェクトとなる。
同一の例に従って、これらのステップは、入力高解像度ビットストリーム及びサイド情報から単一レイヤ低解像度ビットストリームを生成するために適応ノードにより実行されてもよい。
1.高解像度ビットストリームを復号する。ブロック構成、ブロックモード、イントラモード、動き補償正に使用される動きベクトル及び基準ピクチャを記憶する。
2.合意/規格化されたダウンサンプリング方法を使用することにより、高解像度ピクチャはダウンサンプリングされる。
3.適応ノードは、ブロックサイズ、ブロックモード、イントラ予測モード、動きベクトル及び動き補償正のための基準ピクチャ、量子化パラメータ及びSAOパラメータをサイド情報ビットストリームから復号する。尚、それらのパラメータの一部又はすべては、高解像度ビットストリームの復号中に記憶されたパラメータから予測されてもよい。それらの復号パラメータは、出力ビットストリームに含められる。
4.ブロックごとに、ブロックサイズ、モード(イントラモード及びインターモード並びにパラメータを含む)及びQPが残差ブロックを形成するために使用される。次に、それらの残差ブロックは、先に説明した既知の量子化方法により量子化される。その結果取得される係数は、出力ビットストリームに含められる。
5.各ブロックを逆量子化し、それを予測に加算し、HEVC仕様に従った再構成ブロックを形成する。
6.ピクチャに関してデブロッキングフィルタ及びSAOを適用する。再構成ピクチャは、出力ストリームを復号する結果に対してビットパーフェクトとなる。出力ストリームは、シングルレイヤHEVCストリームに適合する。
上記の適応ステップ4及び5は、ブロックごとのレベルで実行されなければならず、従って、ステップ5でブロックを再構成する場合に、同一のピクチャで以前に復号されたブロックの再構成処理の結果が考慮に入れられる。これは通常イントラ予測モードが使用される場合であり、イントラ予測モードが近傍ブロックの復号画素に基づいて予測信号を発生するからである。復号処理が画素レベルでのみ影響を受ける場合には、新たな方式を実現するために既存のデコーダ実現形態を使用するほうが簡単であると思われるので、そのようなブロックごとの処理を回避することが望ましいだろう。これはイントラ予測ブロックがまったく使用されない場合に所定のピクチャに関して実現可能である。あるいは、再構成インター予測ブロックに基づくイントラ予測ブロックに関する予測が無効化される場合(「制約付きイントラ予測」と呼ばれる)にこれを実現可能であり、更に例えばイントラ符号化ブロックを互いに隣接させることを回避することにより、イントラ予測ブロック間の予測が回避される。エンコーダはそのような制約を満たす選択肢を有する。しかし、例えば既存のトランスコーダ又はデコーダの実現形態を使用して、画素レベル処理のみを実行する場合など、トランスコーダ又はデコーダがこのことを利用するためには、トランスコーダ又はデコーダはそのような制約がエンコーダにより満たされていることを認知する必要がある。従って、エンコーダは例えば制約が満たされたか否かを示すフラグ又は標識を使用することにより、エンコーダがそのような制約に従っていたことを信号伝送してもよい。トランスコーダ又はデコーダがフラグを受信し、制約が満たされていることをそのフラグが示す場合に、トランスコーダ又はデコーダはピクチャレベル処理、あるいはブロックレベル処理を実行できる。トランスコーダ又はデコーダがフラグを受信し、制約は満たされていないことをそのフラグが示す場合に、トランスコーダ又はデコーダはブロックレベル処理を実行でき、あるいはトランスコーダ又はデコーダがブロックレベル処理の使用を支援できない場合には、ビデオを復号できないことを指示することが可能である。
先の案内付きトランスコーディングアーキテクチャの利点は、図2に示されるような既知のトランスコーディングアーキテクチャと比較して、追加のサイド情報が最適化モード/動き情報をトランスコーダの符号化側に提供でき、それによりトランスコーダにおける符号化段が通常はトランスコーディングを非常に複雑にする主な理由であるモード/動き推定を含む必要がなくなる一方で、トランスコーディングされるビットストリームに関して非常に高い圧縮効率を実現できることである。尚、サイド情報の生成はシステムの送信側に位置しているので、圧縮ビットストリームしか利用できない図2による従来のトランスコーダが実行可能な生成の場合とは異なり、低解像度モード/動き情報の生成にオリジナルのビデオデータを利用できる。提案されるシステムは、モード/動きの最適化でオリジナルのビデオデータを利用可能であることにより、従来のトランスコーディングと比較して、トランスコーディングされるビットストリームのわずかに高い圧縮効率、すなわちわずかによいダウンリンク帯域幅利用度を実現することができる。
図12を参照して、サイド情報の多重利用の一例を説明する。この場合、残差改善のために、サイド情報による案内付きトランスコーディングが実行される。図12に示されるように、サイド情報はモード/動き情報(図12の下部に示される)及び低解像度ビデオに関する係数情報(図12の上部に示される)の双方を含む。2種類のサイド情報は、例えばレイヤ識別子のNAL単位型により区別される異なるNAL単位を使用して、アップリンクで送信される単一のストリームとしてインタリーブされるのが好ましい(図示せず)。
2つの個別のサイド情報入力及び2つのサイド情報利用ユニット120、140として示されるが、単一のサイド情報ビットストリームとしてインタリーブされた2つの個別のサイド情報ビットストリームの受信を可能にする単一のサイド情報利用ユニット120、140を有することも同等に可能である。
低解像度係数データは、従来のシングルレイヤビデオ又はスケーラブルビデオの場合と同様に予測残差データを含んでもよい。低解像度係数データは、スケーラブル符号化(例えば、SHVC)と同様の予測メカニズムを使用して、ダウンサンプリング高解像度画素データへの従属性を伴って符号化されてもよく、相違点は、レイヤ間予測のためにダウンサンプリング動作が含まれることである。「残差デコーダ」の出力は、低解像度残差データである。「残差デコーダ」は、動き補償再構成メカニズムを実行することなく低解像度残差データを再構成してもよい。
トランスコーダのエンコーダ段は、動き補償残差生成と、その後に続く残差調整(結果は調整済み残差データである)、変換係数(結果は変換係数及びビットストリーム生成である)を含む。動き補償残差生成は、目標解像度までダウンサンプリングされた主ビデオ画素データを入力データとして使用し、動き補償残差生成は、サイド情報として受信された低解像度モード/動きデータを利用することにより実行される(データは、主ビデオからのダウンサンプリング済みモード/動きデータに応じて任意に符号化される)。残差調整段では、動き補償残差生成で生成された残差データは、残差デコーダにより復号された低解像度残差データに基づいて調整される。残差調整動作は、例えば2つの残差信号を加算すること又は2つの残差信号を互いに減算することを含むことが可能だろう。その結果取得される調整済み残差データは変換され、量子化され、低解像度モード/動きデータと共にエントロピー符号化される。
尚、図12に示される例の代替例として、動き補償残差生成に入力される画素データ又は変換・量子化段から出力される変換係数に対して、残差調整動作に類似する調整動作が実行されることも可能だろう。
尚、図12には示されないが、本例で利用されるサイド情報は、変換・量子化段及び残差調整段を更に制御することも可能だろう。
先に示したように、トランスコーディングを更に向上させるために、サイド情報は、所定の入力ビデオフォーマットに関連する残差情報、並びに又はあるいは符号化パラメータの探索範囲を含むことができる。サイド情報及び符号化ビデオビットストリームは、インタリーブビットストリームとして共に送信可能であるか、あるいは1つの搬送波の中で個別のレイヤとして送信されるか又は個別の搬送波又はチャネルで送信されることが可能である。提供されるサイド情報を受信側トランスコーディング構成100が利用できるようにするために、任意に提供されるサイド情報の指示並びに提供されるサイド情報の使用の可能性の指示がトランスコーディングノードへ送信され、トランスコーディングノードにより受信される。従って、トランスコーダ構成100はそのような指示の存在を検出し、提供されるサイド情報をどのように解釈すべきかを検出するように動作可能な指示識別ユニットを備える。
前述のように、サイド情報は、案内付きトランスコーダの可能な目標出力解像度又は目標出力動作ポイントに関連するモード/動き情報及び/又は変換係数を含んでもよい。サイド情報は、画素リサンプリング及び/又は動きリサンプリングに関するパラメータ(例えば、使用されるフィルタ)、目標出力解像度に関するループフィルタパラメータ(例えば、デブロッキングパラメータ又はSAO、サンプル適応オフセット、パラメータ)、トランスコーダの符号化段で使用されるべき量子化パラメータ又は他の符号化パラメータに関する情報を更に含んでもよい。サイド情報中のパラメータは、主ビデオビットストリーム中の関連パラメータへの従属性を伴って符号化可能であり、例えばスケーラブル符号化と同様に、差分符号化が適用されることが可能である。
前述の適応方法は、時間の経過に伴って変更される可能性があり、例えばビデオの異なるピクチャに対して異なる方法が適用されてもよい。従って、サイド情報の種類及び量は変更されてもよい。例えばいくつかのピクチャに関しては案内付きトランスコーディングのためのサイド情報が送信されてもよいが、他のいくつかのピクチャ(例えば、非基準ピクチャ)に関しては、サイド情報は送信されなくてもよい。そのような変更を使用して、送信されるサイド情報の量と、トランスコーディングの複雑さとのトレードオフを選択できる。
図13を参照して、一実施形態に従ってビデオビットストリームをトランスコーディングするトランスコーダ構成100の一般的実施形態を説明する。構成は、先に説明したトランスコーディング方法の実施形態のブロック図又は系統図を参照して説明されたすべての機能を実行するように適応されるか、構成されるか又は動作可能である。
トランスコーディング構成は、高忠実度フォーマットである入力ビデオフォーマットでビットストリームを受信し、前記ビデオビットストリームに関連するサイド情報を受信するように構成される。サイド情報は、少なくとも、
低忠実度入力ビデオフォーマットでオリジナルのビデオソースを表すビデオビットストリームと、
オリジナルのビデオソースの知識に基づいて最適化された符号化パラメータと、
オリジナルのビデオソースと高忠実度フォーマットの復号バージョンとの間の残差を示す変換係数と
を含む。
トランスコーダ構成は、
トランスコーディング案内情報を生成するために、前記受信されたサイド情報を復号し、
受信されたビットストリーム及び生成されたトランスコーディング案内情報に基づいて低忠実度出力フォーマットによる前記ビットストリームの表現を推定し、
低忠実度出力フォーマットによる前記ビットストリームの推定表現を改善するために、サイド情報の変換係数を低忠実度出力フォーマットによる前記ビットストリームの推定表現から生成された変換係数に加算するように更に構成される。トランスコーダは、低忠実度出力フォーマットによる前記ビットストリームの表現の改善された推定を符号化するように更に構成される。
一実施形態によれば、オリジナルのビデオソースと、高忠実度フォーマットの復号バージョンとの間の残差は、量子化残差である。
トランスコーダ構成は、前記受信されたビデオビットストリームの前記表現として画素データを提供するために、前記受信されたビデオビットストリームを復号するように更に構成される。更に、前記サイド情報は前記所定の入力ビデオフォーマットに関連する残差情報を更に含んでもよい。
トランスコーダ構成は、前記サイド情報を前記ビデオビットストリームとは別に受信するか又は前記ビデオビットストリームと共に受信するように更に構成されてもよい。
更なる実施形態によれば、トランスコーダ構成は前記ビデオビットストリームの中の前記サイド情報の存在に関する指示を識別するように更に構成される。前記所定の入力ビデオフォーマット及び前記所定の出力ビデオフォーマットは、ビデオの異なる色表現、又は異なるビデオコーデックを含んでもよい。
トランスコーディング構成100は、基地局ノード又はビデオプロバイダノードなどのネットワークノード(固定又は無線)、あるいは携帯電話又はラップトップなどのユーザ機器で実現可能である。
図13に示されるような1つの態様によれば、トランスコーディング構成は、入力ビデオフォーマットでビットストリームを受信するように構成されたビデオ受信機110と、前記ビデオビットストリームに関連するサイド情報を受信するように構成されたサイド情報受信機120とを備える。
トランスコーダ構成は、ビットストリームを復号するためのビデオデコーダ130と、トランスコーディング案内情報を生成するために前記受信されたサイド情報を復号するように構成されたサイド情報デコーダ140とを更に備える。トランスコーダ構成は、受信されたビットストリーム及び生成されたトランスコーディング案内情報に基づいて、低忠実度出力フォーマットによる前記ビットストリームの表現を推定し、低忠実度出力フォーマットによる前記ビットストリームの推定表現を改善するために、サイド情報の変換係数を低忠実度出力フォーマットによる前記ビットストリームの推定表現から生成された変換係数に加算するように構成されたプロセッサ145を備える。サイド情報受信機120、サイド情報デコーダ140及びプロセッサ145は、サイド情報(SI)利用部155として示される。
トランスコーダ構成は、低忠実度出力フォーマットによる前記ビットストリームの表現の改善された推定を符号化するように構成されたエンコーダ150を更に備える。
図14を参照して、ビデオプロバイダ構成200を説明する。ビデオプロバイダ構成200は、先に説明したような案内付きトランスコーディングを支援するために、先に説明した実施形態に従って動作し、符号化を可能にするように効果的に構成される。
ビデオプロバイダ構成200は、ビットストリームを符号化するビデオビットストリームエンコーダ210と、サイド情報を生成するサイド情報生成器220とを備える。更に、高忠実度フォーマットである入力ビデオフォーマットでビットストリームを送信し、前記ビデオビットストリームに関連するサイド情報を送信するビデオプロバイダ送信機230。サイド情報は、少なくとも、
低忠実度入力ビデオフォーマットでオリジナルのビデオソースを表すビデオビットストリームと、
オリジナルのビデオソースの知識に基づいて最適化された符号化パラメータと、
オリジナルのビデオソースと高忠実度フォーマットの復号バージョンとの間の残差を示す変換係数と
を含む。
ビデオプロバイダ構成200は、ネットワークノード又はユーザ機器に含まれることが可能である。
以下に、図15を参照して、トランスコーダ構成300の一実現形態の例を説明する。トランスコーダ構成300は、1つ以上のプロセッサ310などの処理回路と、メモリ320とを備える。この特定の例では、先に説明したステップ、機能、手順、モジュール及び/又はブロックのうち少なくともいくつかは、処理回路により実行するためにメモリにロードされるコンピュータプログラムで実現される。処理回路及びメモリは、通常のソフトウェア実行を有効化するために互いに接続される。メモリ320は、ビデオビットストリームを受信するためのソフトウェア321、サイド情報を受信するためのソフトウェア322、トランスコーディング案内情報を生成するためのソフトウェア323及び符号化のためのソフトウェア324などの異なるソフトウェアモジュールを備えてもよい。入力パラメータ及び/又は結果として得られる出力パラメータなどの関連データの入力及び/又は出力を可能にするために、オプションの入出力デバイス330が処理回路及び/又はメモリに相互接続されてもよい。
以下に、図16を参照して、ビデオプロバイダ構成400の一実現形態の例を説明する。トランスコーダ構成400は、1つ以上のプロセッサ410などの処理回路と、メモリ420とを備える。この特定の例では、先に説明したステップ、機能、手順、モジュール及び/又はブロックのうち少なくともいくつかは、処理回路により実行するためにメモリにロードされるコンピュータプログラムで実現される。処理回路及びメモリは、通常のソフトウェア実行を有効化するために互いに接続される。メモリ420は、ビデオビットストリームを符号化するためのソフトウェア421、サイド情報を生成するためのソフトウェア422、符号化ビデオ及びサイド情報を送信するためのソフトウェア423などの異なるソフトウェアモジュールを備えてもよい。入力パラメータ及び/又は結果として得られる出力パラメータなどの関連データの入力及び/又は出力を可能にするために、オプションの入出力デバイス430が処理回路及び/又はメモリに相互接続されてもよい。
「コンピュータ」という用語は、特定の処理タスク、判定タスク又は計算タスクを実行するためにプログラムコード又はコンピュータプログラム命令を実行可能な何らかのシステム又はデバイスとして一般的な意味で解釈されるべきである。
特定の一実施形態において、コンピュータプログラムは、処理回路又はコンピュータにより実行された場合に、先に説明したトランスコーディング方法及びビデオ提供方法の実施形態に関連して説明されたようなステップ及び機能を処理回路又はコンピュータに実行させるプログラムコードを備える。
プログラムコードは、処理回路により実行された場合に、先に説明したステップ及び/又はタスクの少なくとも一部を実行するように構成された適切な機能モジュールとして編成されてもよい。
ソフトウェア又はコンピュータプログラムは、通常はコンピュータ可読媒体で搬送されるか又はコンピュータ可読媒体に記憶されるコンピュータプログラムとして実現されてもよい。コンピュータ可読媒体は、読み取り専用メモリROM、ランダムアクセスメモリRAM、コンパクトディスクCD、デジタルバーサタイルディスクDVD、ユニバーサルシリアルバスUSBメモリ、ハードディスクドライブHDDストレージデバイス、フラッシュメモリ又は他の何らかの従来のメモリデバイスを含むが、それらに限定されない1つ以上の取り外し可能な又は取り外し不可能なメモリデバイスを含んでもよい。コンピュータプログラムは、コンピュータ又は同等の処理デバイスの処理回路により実行するために、コンピュータ又は同等の処理デバイスの動作メモリにロードされてもよい。
例えばメモリに記憶されるコンピュータプログラムは、先に説明したステップ、機能、手順及び/又はブロックを処理回路が実行することができるか又は実行するために動作するように処理回路により実行可能なプログラム命令を含む。
従って、ビデオプロバイダ構成及びトランスコーディング構成並びに符号化構成及び復号構成は、コンピュータプログラムを実行する場合に、先に説明したような明確に定義された処理タスクを実行するように構成される。
コンピュータ又は処理回路は、先に説明したステップ、機能、手順及び/又はブロックのみを実行するような専用のコンピュータ又は処理回路である必要はなく、他のタスクを実行してもよい。
実施形態による案内付きトランスコーディングは、そのようなトランスコーディングが実行されない場合にはサイマルキャストが採用されるような環境(例えば、ビデオオンデマンド配信又はビデオ会議)で実行可能な代替構成であり、適応の複雑さを適度に抑えてアップリンクでの節約を提供することができる。更に、案内付きトランスコーディングは、そのようなトランスコーディングが実行されない場合にはスケーラブル符号化が採用されるような環境(例えば、ビデオ会議)で実行可能な代替構成を提供し、アップリンク及びダウンリンクの双方で節約を提供すると共に、復号時の複雑さを低減するが、その一方で、適応時の中程度の複雑さは損なわれるだろう。案内付きトランスコーディングは、そのようなトランスコーディングが実行されない場合には従来のトランスコーディングが採用されるような環境(例えば、ビデオオンデマンド配信)で実行可能な代替構成を更に提供し、特に高効率符号化(N>>1)が使用される場合に、従来のトランスコーディングより適応時の複雑さは低減されるが、符号化の複雑さは増し、アップリンクビットレートはわずかに増加する。送信側が1つであり且つ多くの適応ノードが存在する状況(例えば、ビデオオンデマンド配信)では、適応時の複雑さを低減することは特に適切であると思われる。
先に説明した方法及び装置を多様に組み合わせ、再構成できることは理解されるだろう。
例えば実施形態は、適切な処理回路により実行するためにハードウェア又はソフトウェアで実現されてもよく、あるいはハードウェアとソフトウェアの組み合わせで実現されてもよい。
先に説明したステップ、機能、手順、モジュール及び/又はブロックは、汎用電子回路及び特定アプリケーション向け回路を含めて、ディスクリート回路技術又は集積回路技術などの何らかの従来の技術を使用してハードウェアで実現されてもよい。
特定の例は、1つ以上の適切に構成されたデジタルシグナルプロセッサ及び他の既知の電子回路、例えば特殊化機能を実行するように相互接続されたディスクリート論理ゲート又は特定アプリケーション向け集積回路(ASIC)を含む。
あるいは、先に説明したステップ、機能、手順、モジュール及び/又はブロックは、1つ以上の処理ユニットを含む適切な処理回路により実行するためにコンピュータプログラムなどのソフトウェアで実現されてもよい。
従って、先に提示した系統図は、1つ以上のプロセッサにより実行される場合のコンピュータ系統図としてみなされてもよい。対応する装置は、機能モジュール群として定義されてもよく、プロセッサにより実行される各ステップは、1つの機能モジュールに対応する。この場合、機能モジュールは、プロセッサで実行されるコンピュータプログラムとして実現される。
処理回路の例は、1つ以上のマイクロプロセッサ、1つ以上のデジタルシグナルプロセッサDSP、1つ以上の中央処理装置CPU、ビデオ高速化ハードウェア及び/又は1つ以上のフィールドプログラマブルゲートアレイFPGA又は1つ以上のプログラマブルロジックコントローラPLCなどの何らかの適切なプログラマブル論理回路を含むが、それらに限定されない。
提案される技術が実現される何らかの従来のデバイス又はユニットの一般処理能力を再利用することが可能だろうということも理解すべきである。また、例えば既存のソフトウェアの再プログラミングにより又は新規ソフトウェアコンポーネントを追加することにより、既存のソフトウェアを再利用することも可能だろう。
本開示の実施形態をソースとしてのネットワークノード、適応ノード及びシンクとしてのユーザ機器に関連して説明したが、ユーザ機器又は基地局ノードで適応又はトランスコーディングが実行されることも同等に適用可能である。

Claims (12)

  1. オリジナルのビデオソースに対応するビットストリームを入力ビデオフォーマットから出力ビデオフォーマットにトランスコーディングする、ネットワーク上のネットワークノードとしてのトランスコーダ装置を制御する方法であって、
    前記入力ビデオフォーマットの第1のビットストリームを、前記ネットワーク上のソースノードから受信すること(S10)、
    ここで、前記第1のビットストリームは前記オリジナルのビデオソースに対応し、且つ、前記入力ビデオフォーマットは高忠実度フォーマットである;
    前記第1のビットストリームに関連するサイド情報を、前記ネットワーク上の前記ソースノードから受信すること(S20)、
    ここで、前記サイド情報は符号化されたトランスコーディング案内情報であって、当該トランスコーディング案内情報は少なくとも、
    (i)前記オリジナルのビデオソースに対応し、低忠実度ビデオフォーマットの第2のビットストリームと、
    (ii)前記オリジナルのビデオソースから前記第1のビットストリームが生成された時に決定した符号化パラメータと、
    (iii)前記オリジナルのビデオソースを周波数変換して得た係数と前記高忠実度フォーマットの復号ビデオの量子化後の係数との間の残差を示す周波数変換係数とを含み、
    前記受信されたサイド情報を復号して、前記トランスコーディング案内情報を生成すること(S40)、
    受信された第1のビットストリーム及び生成された前記トランスコーディング案内情報に基づいて低忠実度出力フォーマットによる前記第2のビットストリームを復号して周波数変換係数を生成すること(S50)、
    前記低忠実度出力フォーマットによる前記第2のビットストリーム改善するために、前記トランスコーディング案内情報に含まれる符号化パラメータに基づいて決定される、前記トランスコーディング案内情報内の前記周波数変換係数を前記低忠実度出力フォーマットによる前記第2のビットストリームの復号により生成された周波数変換係数に加算すること(S60)、
    前記低忠実度出力フォーマットによる前記改善された前記第2のビットストリーム符号化することと(S70)、
    前記符号化で得られたビットストリームを前記ネットワーク上の目標ノードに転送すること
    を有することを特徴とする方法。
  2. 前記受信された前記第1のビットストリームを画素データを提供するために復号する更なるステップ(S30)を含むことを特徴とする請求項1に記載の方法。
  3. 前記サイド情報は前記第1のビットストリームとは別に受信されることを特徴とする請求項1乃至2のいずれか1項に記載の方法。
  4. 前記サイド情報は前記第1のビットストリームと共に受信されることを特徴とする請求項1乃至2のいずれか1項に記載の方法。
  5. 前記方法は、前記第1のビットストリームの中の前記サイド情報の存在に関する指示を識別する更なるステップを含むことを特徴とする請求項1乃至4のいずれか1項に記載の方法。
  6. 前記入力ビデオフォーマット及び前記出力ビデオフォーマットは、ビデオの異なるカラー空間を表す情報又はどのビデオコーデックを用いるかを示す情報を含むことを特徴とする請求項1乃至5のいずれか1項に記載の方法。
  7. オリジナルのビデオソースに対応するビットストリームを、入力ビデオフォーマットから出力ビデオフォーマットにトランスコーディングする、ネットワーク上のネットワークノードとしてのトランスコーダ装置(100)であって、前記トランスコーダ装置(100)は、
    前記入力ビデオフォーマットの第1のビットストリームを、前記ネットワーク上のソースノードから受信するように構成され、
    ここで、前記第1のビットストリームは前記オリジナルのビデオソースに対応し、且つ、前記入力ビデオフォーマットは高忠実度フォーマットである;

    前記第1のビットストリームに関連するサイド情報を、前記ネットワーク上の前記ソースノードから受信するように構成され、
    ここで、前記サイド情報は符号化されたトランスコーディング案内情報であって、当該トランスコーディング案内情報は、少なくとも、
    (i)前記オリジナルのビデオソースに対応し、低忠実度ビデオフォーマットの第2のビットストリームと、
    (ii)前記オリジナルのビデオソースから前記第1のビットストリームが生成された時に決定した符号化パラメータと、
    (iii)前記オリジナルのビデオソースを周波数変換して得た係数と前記高忠実度フォーマットの復号ビデオの量子化後の係数との間の残差を示す周波数変換係数とを含む、
    前記トランスコーダ装置は、
    前記受信されたサイド情報を復号してトランスコーディング案内情報を生成し、前記受信された第1のビットストリーム及び前記生成されたトランスコーディング案内情報に基づいて低忠実度出力フォーマットによる前記第2のビットストリームを復号して周波数変換係数を生成し、前記低忠実度出力フォーマットによる前記第2のビットストリーム改善するために、前記トランスコーディング案内情報に含まれる符号化パラメータに基づいて決定される、前記トランスコーディング案内情報内の前記周波数変換係数を前記低忠実度出力フォーマットによる前記第2のビットストリームの復号により生成された周波数変換係数に加算し、前記低忠実度出力フォーマットによる前記改善された前記第2のビットストリーム符号化し、前記符号化で得られたビットストリームを前記ネットワーク上の目標ノードに転送するように更に構成されることを特徴とするトランスコーダ装置(100)。
  8. 前記トランスコーダ装置は、前記受信された前記第1のビットストリームを、画素データを提供するために復号するように更に構成されることを特徴とする請求項7に記載のトランスコーダ装置(100)。
  9. 前記トランスコーダ装置は、前記サイド情報を前記第1のビットストリームとは別に受信するように更に構成されることを特徴とする請求項7乃至8のいずれか1項に記載のトランスコーダ装置(100)。
  10. 前記トランスコーダ装置は、前記サイド情報を前記第1のビットストリームと共に受信するように更に構成されることを特徴とする請求項7乃至8のいずれか1項に記載のトランスコーダ装置(100)。
  11. 前記トランスコーダ装置は、前記第1のビットストリームの中の前記サイド情報の存在に関する指示を識別するように更に構成されることを特徴とする請求項7乃至10のいずれか1項に記載のトランスコーダ装置(100)。
  12. 前記入力ビデオフォーマット及び前記出力ビデオフォーマットは、ビデオの異なるカラー空間を表す情報又はどのビデオコーデックを用いるかを示す情報を含むことを特徴とする請求項7乃至11のいずれか1項に記載のトランスコーダ装置(100)。
JP2017131446A 2013-10-11 2017-07-04 ビデオビットストリームをトランスコーディングする方法及び構成 Active JP6416992B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201361889647P 2013-10-11 2013-10-11
US61/889,647 2013-10-11

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2016522099A Division JP2016539540A (ja) 2013-10-11 2014-10-07 ビデオビットストリームをトランスコーディングする方法及び構成

Publications (2)

Publication Number Publication Date
JP2017216698A JP2017216698A (ja) 2017-12-07
JP6416992B2 true JP6416992B2 (ja) 2018-10-31

Family

ID=52813415

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2016522099A Pending JP2016539540A (ja) 2013-10-11 2014-10-07 ビデオビットストリームをトランスコーディングする方法及び構成
JP2017131446A Active JP6416992B2 (ja) 2013-10-11 2017-07-04 ビデオビットストリームをトランスコーディングする方法及び構成

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2016522099A Pending JP2016539540A (ja) 2013-10-11 2014-10-07 ビデオビットストリームをトランスコーディングする方法及び構成

Country Status (5)

Country Link
US (3) US9930351B2 (ja)
EP (1) EP3022927A4 (ja)
JP (2) JP2016539540A (ja)
KR (1) KR101670208B1 (ja)
WO (1) WO2015053697A1 (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9819984B1 (en) 2007-03-26 2017-11-14 CSC Holdings, LLC Digital video recording with remote storage
US9510001B2 (en) 2013-07-09 2016-11-29 Electronics And Telecommunications Research Institute Video decoding method and apparatus using the same
EP3055998A1 (en) 2013-10-11 2016-08-17 Telefonaktiebolaget LM Ericsson (publ) Method and arrangement for video transcoding using mode or motion or in-loop filter information
EP3022927A4 (en) 2013-10-11 2016-05-25 Ericsson Telefon Ab L M METHOD AND ARRANGEMENT FOR TRANSCODING A VIDEO BIT TRAIN
US10284858B2 (en) * 2013-10-15 2019-05-07 Qualcomm Incorporated Support of multi-mode extraction for multi-layer video codecs
US20160205398A1 (en) * 2015-01-08 2016-07-14 Magnum Semiconductor, Inc. Apparatuses and methods for efficient random noise encoding
US10410398B2 (en) * 2015-02-20 2019-09-10 Qualcomm Incorporated Systems and methods for reducing memory bandwidth using low quality tiles
JP6632638B2 (ja) * 2015-06-23 2020-01-22 テレフオンアクチーボラゲット エルエム エリクソン(パブル) トランスコーディングのための方法および構成
WO2017020021A1 (en) * 2015-07-29 2017-02-02 Vid Scale, Inc. Scalable high efficiency video coding to high efficiency video coding transcoding
CN105163124B (zh) * 2015-08-28 2019-01-18 京东方科技集团股份有限公司 一种图像编码方法、图像解码方法及装置
US10880566B2 (en) 2015-08-28 2020-12-29 Boe Technology Group Co., Ltd. Method and device for image encoding and image decoding
US10582206B2 (en) 2016-04-06 2020-03-03 Telefonaktiebolaget Lm Ericsson (Publ) Methods, encoder, and transcoder for transcoding
EP4300968A1 (en) * 2016-05-13 2024-01-03 Sony Group Corporation Image processing device and method
US20170347138A1 (en) * 2016-05-24 2017-11-30 Arris Enterprises Llc Efficient transcoding in a network transcoder
EP3322187B1 (en) * 2016-11-10 2020-01-29 Alcatel Lucent Method and transcoder for video transcoding
EP3322189B1 (en) * 2016-11-10 2019-12-25 Alcatel Lucent Method and system for controlling video transcoding
EP3322188B1 (en) * 2016-11-10 2019-12-25 Alcatel Lucent Method and device for generating a signal comprising video transcoding hints
US10904329B1 (en) * 2016-12-30 2021-01-26 CSC Holdings, LLC Virtualized transcoder
MX2019008023A (es) 2017-01-03 2019-11-12 Lg Electronics Inc Metodo de procesamiento de imagen, y aparato para el mismo.
KR20180092774A (ko) 2017-02-10 2018-08-20 삼성전자주식회사 샘플 적응적 오프셋 처리를 수행하는 영상 처리 장치 및 영상 처리 방법
US11082720B2 (en) 2017-11-21 2021-08-03 Nvidia Corporation Using residual video data resulting from a compression of original video data to improve a decompression of the original video data
CN110198474B (zh) 2018-02-27 2022-03-15 中兴通讯股份有限公司 一种码流处理方法及装置
EP3777201A1 (en) * 2018-04-03 2021-02-17 Universiteit Gent Creating different video stream representations
WO2019208677A1 (ja) * 2018-04-27 2019-10-31 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、復号装置、符号化方法および復号方法
CN110545452B (zh) * 2018-05-28 2022-04-12 阿里巴巴集团控股有限公司 网络直播方法、装置、终端及服务器
US11363306B2 (en) * 2019-04-05 2022-06-14 Comcast Cable Communications, Llc Methods, systems, and apparatuses for processing video by adaptive rate distortion optimization
WO2020244661A1 (en) * 2019-06-06 2020-12-10 Beijing Bytedance Network Technology Co., Ltd. Implicit selection of transform candidates
EP3984215A4 (en) * 2019-07-14 2022-08-24 Beijing Bytedance Network Technology Co., Ltd. TRANSFORM BLOCK SIZE RESTRICTION IN VIDEO CODING
KR20220032520A (ko) 2019-07-20 2022-03-15 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 팔레트 모드 사용 지시의 조건 종속적인 코딩
JP2023506220A (ja) * 2019-12-12 2023-02-15 エルジー エレクトロニクス インコーポレイティド ループフィルタリングを制御するための映像コーディング装置及び方法
US11451811B2 (en) * 2020-04-05 2022-09-20 Tencent America LLC Method and apparatus for video coding
US20200269133A1 (en) * 2020-05-11 2020-08-27 Intel Corporation Game and screen media content streaming architecture
US11310504B2 (en) 2020-07-30 2022-04-19 Tencent America LLC Complexity reduction for 32-p and 64-p LGT
US11284165B1 (en) 2021-02-26 2022-03-22 CSC Holdings, LLC Copyright compliant trick playback modes in a service provider network
WO2023229481A1 (ru) * 2022-05-27 2023-11-30 Александр Валерьевич ИВАНОВ Эстафетное представление целочисленных данных

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU777595B2 (en) * 2000-03-13 2004-10-21 Sony Corporation Content supplying apparatus and method, and recording medium
KR100735274B1 (ko) * 2004-11-18 2007-07-03 삼성전자주식회사 트랜스코더를 구비한 분산형 멀티미디어 전송 네트워크의트랜스코딩 방법 및 장치
US20070009024A1 (en) * 2005-03-15 2007-01-11 Nero Ag Apparatus and method for producing a picture data stream and for processing a picture data stream
US20060245491A1 (en) * 2005-04-28 2006-11-02 Mehrban Jam Method and circuit for transcoding transform data
JP4523522B2 (ja) * 2005-09-06 2010-08-11 三菱電機株式会社 階層的画像符号化装置、トランスコーダ、階層的画像符号化方法およびトランスコーディング方法
US8320450B2 (en) 2006-03-29 2012-11-27 Vidyo, Inc. System and method for transcoding between scalable and non-scalable video codecs
US8073052B1 (en) 2006-07-27 2011-12-06 The Texas A&M University System Layered Wyner-Ziv video coding for transmission over unreliable channels
CN101001371B (zh) 2007-01-19 2010-05-19 华为技术有限公司 视频转码的方法及其装置
EP1962513A1 (en) * 2007-02-26 2008-08-27 Vestel Elektronik Sanayi ve Ticaret A.S. Methods and apparatus for processing of a digital image
US8107571B2 (en) * 2007-03-20 2012-01-31 Microsoft Corporation Parameterized filters and signaling techniques
US8457958B2 (en) * 2007-11-09 2013-06-04 Microsoft Corporation Audio transcoder using encoder-generated side information to transcode to target bit-rate
US8204325B2 (en) * 2008-01-18 2012-06-19 Sharp Laboratories Of America, Inc. Systems and methods for texture synthesis for video coding with side information
KR101467790B1 (ko) * 2008-09-08 2014-12-03 엘지전자 주식회사 디지털 텔레비전 수신기 및 이 수신기에서 멀티 모드 서비스의 방송을 처리하는 방법
US20100229206A1 (en) * 2009-03-03 2010-09-09 Viasat, Inc. Space shifting over forward satellite communication channels
US20110142129A1 (en) * 2009-12-11 2011-06-16 General Instrument Corporation Mpeg video resolution reduction system
WO2011153194A1 (en) * 2010-06-02 2011-12-08 Onmobile Global Limited Method and apparatus for adapting media
US20150312575A1 (en) * 2012-04-16 2015-10-29 New Cinema, LLC Advanced video coding method, system, apparatus, and storage medium
US20140098883A1 (en) * 2012-10-09 2014-04-10 Nokia Corporation Method and apparatus for video coding
WO2014056150A1 (en) 2012-10-09 2014-04-17 Nokia Corporation Method and apparatus for video coding
EP3022927A4 (en) * 2013-10-11 2016-05-25 Ericsson Telefon Ab L M METHOD AND ARRANGEMENT FOR TRANSCODING A VIDEO BIT TRAIN

Also Published As

Publication number Publication date
US10334261B2 (en) 2019-06-25
US20190268614A1 (en) 2019-08-29
EP3022927A1 (en) 2016-05-25
US20160212438A1 (en) 2016-07-21
US10812816B2 (en) 2020-10-20
JP2016539540A (ja) 2016-12-15
US9930351B2 (en) 2018-03-27
KR101670208B1 (ko) 2016-10-27
US20180167626A1 (en) 2018-06-14
KR20160035096A (ko) 2016-03-30
WO2015053697A1 (en) 2015-04-16
EP3022927A4 (en) 2016-05-25
JP2017216698A (ja) 2017-12-07

Similar Documents

Publication Publication Date Title
JP6416992B2 (ja) ビデオビットストリームをトランスコーディングする方法及び構成
US10757429B2 (en) Method and arrangement for video transcoding using mode or motion or in-loop filter information
AU2015230740B2 (en) Method and apparatus of scalable video coding
US9860528B2 (en) Method and apparatus of scalable video coding
KR20140121355A (ko) 영상 부호화/복호화 방법 및 장치
US11025931B2 (en) Methods, encoder, and transcoder for transcoding
KR20210022598A (ko) 비디오 부호화 방법 및 비디오 복호화 방법과 이를 이용하는 장치
KR20210013254A (ko) 영상 부호화/복호화 방법 및 장치

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180914

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181004

R150 Certificate of patent or registration of utility model

Ref document number: 6416992

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250