JP6416992B2

JP6416992B2 - ビデオビットストリームをトランスコーディングする方法及び構成

Info

Publication number: JP6416992B2
Application number: JP2017131446A
Authority: JP
Inventors: ケネスアンデション，; トマスルザート，; ヨナタンサムエルション，; リカードスイェベルイ，
Original assignee: テレフオンアクチーボラゲットエルエムエリクソン（パブル）
Priority date: 2013-10-11
Filing date: 2017-07-04
Publication date: 2018-10-31
Anticipated expiration: 2034-10-07
Also published as: US10334261B2; US20190268614A1; EP3022927A1; US20160212438A1; US10812816B2; JP2016539540A; US9930351B2; KR101670208B1; US20180167626A1; KR20160035096A; WO2015053697A1; EP3022927A4; JP2017216698A

Description

本発明は、一般にオリジナルのビデオソースを表すビットストリームを入力フォーマットから出力フォーマットにトランスコーディングする方法及び構成に関する。

固定通信システム又は無線通信システムでビデオメディアが送信される場合、通常ビデオメディアは、ソース(source)とシンク(sink)との間の何らかの中間ノードで適応又はトランスコーディングされる。ソースは、例えばメディアプロバイダにより表されてもよく、シンクは、例えばモバイルデバイスなどの視聴デバイスにより表されてもよい。適応中、ビデオメディアは通常圧縮され、そのため、ソースノードで選択する複数のビットレートが必要とされる。アップリンク及びダウンリンクを最も効率よく利用するために、最適ビットレートは、ネットワーク能力及びシンク能力の双方を考慮に入れるだろう。ソースでビデオを符号化する時点で、ソースノードは、エンドユーザ能力及びネットワーク能力の知識を持っていないので、中間ノードは、ビデオを所望のフォーマット又は必要なフォーマットでシンクに提供するためにビデオを適応させる必要がある。ダウンリンク能力の使用を最適化するために、ソースからの高い品質と、適応ノード又はトランスコーディングノードにおける高いレベルの複雑な計算とが要求される。ダウンリンク帯域幅又は受信側の能力に適合するようにトランスコーダでの再符号化が必要になるので、ソースは高い品質を有していなければならない。

以上のことを考慮して、アップリンク資源及びダウンリンク資源の利用を最適化するために、ビデオメディアの適応又はトランスコーディングを改善された方式で可能にする改善された符号化のための手段及び方法が必要とされている。

目的は、先に説明した欠点のいくつか又はすべてを排除する解決方法を提供することである。

この目的及び他の目的は、本発明の実施形態により達成される。

第１の態様によれば、ビットストリームをトランスコーディングするトランスコーダ構成のための方法が提供される。ビットストリームはオリジナルのビデオソースを表現しており、入力フォーマットから出力フォーマットにトランスコーディングされる。方法において、入力ビデオフォーマットでビットストリームが受信され、入力ビデオフォーマットは高忠実度フォーマットである。更に、前記ビデオビットストリームに関連するサイド情報が受信される。このサイド情報は、低忠実度入力ビデオフォーマットでオリジナルのビデオソースを表現するビデオビットストリームと、オリジナルのビデオソースの知識に基づいて最適化された符号化パラメータと、オリジナルのビデオソースと高忠実度フォーマットの復号バージョンとの間の残差を示す変換係数とを少なくとも含む。受信されたサイド情報は、トランスコーディング案内情報を生成するために復号され、受信されたビットストリーム及び生成されたトランスコーディング案内情報に基づいて、低忠実度出力フォーマットによる前記ビットストリームの表現が推定される。低忠実度出力フォーマットによる前記ビットストリームの推定表現を改善するために、サイド情報の変換係数は、低忠実度出力フォーマットによる前記ビットストリームの推定表現から生成された変換係数に加算される。更に、前記ビットストリームの改善された推定表現は、低忠実度出力フォーマットによって符号化される。

第２の態様によれば、オリジナルのビデオソースを表現するビットストリームを入力フォーマットから出力フォーマットにトランスコーディングするトランスコーディング構成が提供される。前記トランスコーダ構成は、入力ビデオフォーマットでビットストリームを受信するように構成され、入力ビデオフォーマットは高忠実度フォーマットである。トランスコーダ構成は、前記ビデオビットストリームに関連するサイド情報を受信するように更に構成され、前記サイド情報は、
低忠実度入力ビデオフォーマットでオリジナルのビデオソースを表現するビットストリームと、
オリジナルのビデオソースの知識に基づいて最適化された符号化パラメータと、
オリジナルのビデオソースと高忠実度フォーマットの復号バージョンとの間の残差を示す変換係数とを少なくとも含む。前記トランスコーダ構成は、トランスコーディング案内情報を生成するために前記受信されたサイド情報を復号し、受信されたビットストリーム及び生成されたトランスコーディング案内情報に基づいて低忠実度出力フォーマットによる前記ビットストリームの表現を推定し、低忠実度出力フォーマットによる前記ビットストリームの推定表現を改善するために、サイド情報の変換係数を低忠実度出力フォーマットによる前記ビットストリームの推定表現から生成された変換係数に加算し、低忠実度出力フォーマットによる前記ビットストリームの改善された推定表現を符号化するように更に構成される。

これらの実施形態による利点は、適応処理又はトランスコーディング処理の計算の複雑さの軽減を可能にすることである。

他の利点は、詳細な説明を読むことにより理解されるだろう。

実施形態は、その更なる目的及び利点と共に、添付の図面と共に以下の説明を参照することにより最もよく理解されるだろう。
従来の技術による基本適応方式を示す図である。従来の技術によるトランスコーディング方式を示す図である。本発明の実施形態による方法を示すフローチャートである。本発明の実施形態の異なる態様を概略的に示す図である。本発明の実施形態の異なる態様を概略的に示す図である。更なる実施形態を示す図である。本発明の実施形態の異なる態様を概略的に示す図である。発明の実施形態の異なる態様を概略的に示す図である。本発明の一実施形態を概略的に示す図である。本発明の実施形態の態様を概略的に示す図である。本発明の実施形態の態様を概略的に示す図である。サイド情報の多重利用の一例を示す図である。本発明の一実施形態によるトランスコーディング構成を概略的に示す図である。本発明の一実施形態によるビデオプロバイダ構成を概略的に示す図である。本発明によるトランスコーディング構成の一実現形態を示す図である。本発明によるビデオプロバイダ構成の一実現形態を示す図である。

図面を通して、同様の又は対応する要素に対して同一の図中符号が使用される。

本明細書において使用される場合の用語「ユーザ機器(User Equipment)」（ＵＥ）は、携帯電話、ビデオカメラ、パーソナルデジタルアシスタント、スマートフォン、例えば内部モバイルブロードバンドモデム又は外部モバイルブロードバンドモデムを備えるラップトップ又はパーソナルコンピュータＰＣ、通信能力を有するタブレットＰＣ、ポータブル電子通信デバイス、無線通信能力を備えるセンサデバイスなどの何らかの装置を表してもよい。特に、用語「ＵＥ」は、ビデオデコーダを備えるあらゆるデバイスを含む非限定的な用語として解釈されるべきである。

本明細書において使用される場合の用語、トランスコーダ構成は、ネットワークノードに配置されるトランスコーディングデバイス又は適応デバイスを表してもよい。ネットワークノードの一例は、ビデオメディア（ＹｏｕＴｕｂｅ（登録商標）、Ｎｅｔｆｌｉｘ）及びエンドユーザ（モバイルデバイス、ＰＣ、ＴＶ）の双方と接続するサーバである。トランスコーダは、通常、ビデオデコーダ及びビデオエンコーダから構成される。ビデオは画素値に復号され、次に別のフォーマット／ビットレートに再符号化される。

提案される技術は、ビデオプロバイダなどのソースノードが入力ビデオ信号としての符号化ビデオビットストリーム及びサイド情報の双方をトランスコーディングノード又は適応ノードなどの中間ノードに提供し、中間ノードは、出力ビデオ信号として符号化ビデオビットストリームを提供するようなシステムに関連して最もよく理解される。出力ビデオ信号は、その後ユーザ機器などのシンクノードで受信され、表示されることが可能である。

提案される技術を更によく理解するために、現在の適応／トランスコーディング方法及びその利点の概要を簡単に説明することから始めるのが有用だろう。

図１は、入力ビデオ信号が送信側デバイス（エンコーダ）で符号化（圧縮）され、次に、ネットワークを介して送信され及び／又は記憶され（以下に説明されるアップリンク、適応及びダウンリンクにより示されるように）、次に受信側デバイス（デコーダ）により受信され、復号（解凍）される状況を示す。その後出力ビデオは、例えば受信側デバイスのエンドユーザに対して表示可能である。

通常ビデオ符号化の場合、使用する符号化アルゴリズム（例えば、使用するビデオ符号化規格及びプロファイル）、ビデオ解像度、フレームレート、画質、ビットレートなどの符号化パラメータが符号化の時点で決定されなければならない。最適の符号化パラメータは、受信側デバイスの能力（計算能力及びメモリ）並びに関連するネットワークリンクの容量、例えば利用可能帯域幅によって決まる。多くの状況において、例えばネットワーク特性が時間又は受信機の場所に伴って変化する場合、あるいはビデオが２つ以上の受信側デバイスへ送信され、各受信側デバイスが異なる能力又は異なる関連ネットワークアクセス特性を有する場合に、それらのパラメータは符号化の時点でわかっていない。そのような場合、利用可能ネットワーク資源、デバイス特性及びコンテンツを消費するときのユーザ体験に最適に対応するためには、図１に「適応」により示されるように、ネットワークでの送信中に圧縮ビデオ信号を適応させることが要求される。

送信側（エンコーダ）から適応ノードに向かうネットワークリンクは「アップリンク」として示される。適応ノードから受信側（デコーダ）に向かうネットワークリンクは「ダウンリンク」として示される。アップリンク帯域幅及びダウンリンク帯域幅は、通常共に希少資源である。送信側及び受信側が共に固定ネットワーク又は移動ネットワークに接続されたエンドユーザデバイス（例えば、スマートフォン又はラップトップ）である場合、アップリンク帯域幅は、通常ダウンリンク帯域幅より狭いので（例えば、ＡＤＳＬネットワーク又は携帯電話網の場合）、アップリンクは、通常ボトルネックとなる。送信側がストリーミングサーバ又はビデオオンデマンドサーバ又はビデオキャッシュ）などのビデオサーバであり、受信側がエンドユーザデバイス（例えば、スマートフォン、タブレット又はＴＶ）である場合、ダウンリンク帯域幅は、多くの場合に、ユーザに供給可能なビデオ品質を決定するボトルネックである（例えば、エンドユーザがＤＳＬ又は携帯電話アクセスを介して接続される場合）。更に、例えば送信側（例えば、ビデオオンデマンドサーバ）からエンドユーザへ多くの異なるコンテンツを配信しなければならない場合に（この場合、アップリンクはコンテンツ配信ネットワークＣＤＮになることが可能だろう）、アップリンクも不経済な資源になりうる。

ネットワーク容量に加えて、他の希少資源には送信側及び受信側の、特に適応ノード又はトランスコーディングノードの計算能力及びメモリ能力がある。

解決されるべき問題は、アップリンクビットレート及びダウンリンクビットレートを最小限に抑え、それと同時にエンコーダ、適応ノード及びデコーダにおける計算／メモリの複雑さを最小限に抑えることにより、ネットワーク利用を最適化するためのビデオ符号化／適応／復号の方式を提供することである。

Ｈ．２６４／ＡＶＣ及びＨ．２６５／ＨＥＶＣなどのビデオ符号化方法は、通常いわゆるハイブリッド符号化方式に基づく。

ハイブリッドビデオ符号化方式では、図１に例示されるようなエンコーダは、通常ビデオシーケンスのピクチャごとに適用される以下の基本ステップをブロックごとに実行する。

１．以前に符号化され、再構成された画素データに基づいてオリジナルのビデオ信号（例えば、画素データ）を予測することと、オリジナルのビデオ信号と予測との差を計算することとを含む予測動作が実行される。この差は、「残差データ」又は「残差信号」又は「残差」と呼ばれる。特定のブロックの予測動作は、現在符号化されているブロックと同一のピクチャの画素に基づくことが可能であり、これは「イントラ予測」と呼ばれ、あるいは以前に符号化されたピクチャの画素に基づくことも可能であり、これは「インター予測」と呼ばれる。予測に使用されるソースデータは「予測基準」と呼ばれる。インター予測の有効性を改善するために、通常いわゆる動き補償動作が適用され、この動作は基準ピクチャに対する現在符号化中のブロックの変位を示す動きベクトルに基づく。

高い圧縮効率を実現するために、エンコーダはブロックごとに、符号化モード、ブロック分割、動きベクトルなどの多くの異なる符号化パラメータを試行する必要があり、これはモード／運動推定及び／又はレート歪み最適化（rate-distortion optimization;ＲＤＯ）と呼ばれる場合もある処理である。この処理は、予測ステップに先立つ更なるステップとして解釈されることも可能だろう。

２．予測残差信号を周波数領域に変換するために、空間変換動作が実行される。

３．その結果得られる変換係数が量子化され、例えばコンテクスト適応２進算術符号化ＣＡＢＡＣを使用してエントロピー符号化される。ブロック分割、予測モード（インター／イントラ）、動きベクトルなどの指示のような更なるデータも同様にエントロピー符号化される。エントロピー符号化段の出力は、「ビットストリーム」と呼ばれる。

４．エンコーダは、後続ブロックを符号化するために使用される基準情報を生成するために復号処理の各部分（以下を参照）を実行する。

以下の説明中、エンコーダにおけるインター予測動作及びイントラ予測動作並びに残差データの生成の適用（先のステップ１）を「動き補償残差生成」と呼ぶ。

図１のデコーダは、通常ブロックごとに、ビデオシーケンスのどのピクチャにも適用される以下の基本ステップを実行する。

１．復号／画素再構成処理を制御するために、量子化変換係数及び他のデータをエントロピー復号する。

２．再構成予測残差を取得するために、復号された量子化変換係数の逆変換を実行する。

３．ビットストリームで信号伝送された予測モード及び動き情報（インター／イントラモード、動きベクトルなど）に応じて予測動作を実行し、再構成された予測残差を予測に加算して、中間再構成画素データを取得する。

４．中間再構成画素データに応じて、フィルタリング動作（例えば、デブロッキング、サンプル適応オフセットＳＡＯ）を実行して、最終再構成画素データを生成する。

以下の説明中、デコーダにおけるインター予測動作及びイントラ予測動作の適用並びに中間画素データ及び最終再構成画素データの生成を「動き補償再構成」と呼ぶ。

計算の複雑さに関して、通常符号化は復号より著しく負担が大きい。その理由は、高い圧縮効率を実現するために、エンコーダはブロックごとに符号化モード、ブロック分割、動きベクトルなどの多くの異なる符号化パラメータを試行する必要があるからである。通常エンコーダは規格化されないので、エンコーダは若干の異なるエンコーダパラメータを試行することを選択してもよいが、それにより圧縮効率が低下するという不都合が生じる。

適応ビデオ配信の上述の問題に対処するためのいくつかのビデオ符号化／配信概念が存在する。それらの符号化／配信概念は、（１）サイマルキャスト配信、（２）スケーラブルビデオ符号化及び（３）トランスコーディングに分類できる。

サイマルキャスト配信の場合、送信側はビデオをいくつかの異なるビデオ表現で、すなわち異なるビデオ解像度などの異なる符号化パラメータで符号化し、その結果生成された圧縮ビットストリームはアップリンクを介して同時に送信される。次に適応モードで、ダウンリンク特性及び受信機特性を考慮して、最も適切なビデオストリームが選択される。同一のコンテンツに関していくつかのビットストリームを送信しなければならないので、サイマルキャストは、アップリンクの使用に関して非効率的である。サイマルキャストは、最も適切なビデオ表現を選択的に転送するだけであるので、適応における複雑さは相対的に低い。ダウンリンクに関しては、サイマルキャストは、各圧縮ビデオビットストリームを完全に最適化できるか又は画面の解像度などの受信機能力を少なくとも考慮するので、ダウンリンク利用に関しては効率的である。適応ノードは、ダウンリンクに関して１つの選択されたビットストリームを転送し、これは、オーバヘッドなしでダウンリンクを利用することになる。

スケーラブル符号化の場合、送信側はサイマルキャストと同様に、いくつかの異なるビデオ表現を符号化する。サイマルキャストとの主な相違点は、圧縮効率を改善し、それによりアップリンクにおける帯域幅利用を改善するために、表現が従属方式で圧縮されることである。スケーラブル符号化の一例は、空間的スケーラブル符号化である。空間的スケーラブル符号化は少なくとも２つのレイヤで実行され、レイヤの１つは低い解像度を有し、通常はベースレイヤと呼ばれ、他方のレイヤは通常はエンハンスメントレイヤと呼ばれる。ベースレイヤを復号した後、エンハンスメントレイヤデータは以前のエンハンスメントレイヤ画像から予測されるのに加えて、アップサンプリング／補間によってベースレイヤの画素データ又は他のデータ（動きベクトルなど）から予測されることが可能である。従って、高解像度表現は低解像度に従属している。この従属性は多くの場合に、解像度を個別に符号化するときより高い符号化効率を容易に実現する。従って、スケーラブル符号化は一般にアップリンクではサイマルキャストより帯域幅に関して効率が高い。しかし、従属性があるために最高解像度におけるシングルレイヤ符号化と比較して最高解像度における符号化効率は大幅に損なわれるが、これは高解像度ビデオの復号を可能にするためにデコーダがベースレイヤ及びエンハンスメントレイヤの双方を受信しなければならないからである。

ＳＨＶＣ「高効率ビデオ符号化（ＨＥＶＣ）スケーラブル拡張ドラフト３」、ＪＴＶＣ−１００８＿ｖ３（２０１３年７月）では、高解像度（エンハンスメントレイヤ）の符号化効率を改善するために、レイヤ間予測の２つの方法により、ベースレイヤと呼ばれる低解像度の符号化レイヤを再利用できる。一方の方法は、低解像度から高解像度の画素データの領域をアップサンプリングする。他方の方法は、高解像度ビデオのいくつかの領域に関して動き情報を予測するために、低解像度ビデオからの動き情報を再利用する。

ＳＨＶＣの開発で考慮されたいわゆる基準指数（ｒｅｆｌｄｘ）方式では、レイヤ間画素予測は、アップサンプリングされた追加の基準ピクチャをエンハンスメントレイヤの基準ピクチャバッファに挿入することにより実行される。追加の基準ピクチャは、高解像度レイヤの解像度にアップサンプリングされた低解像度レイヤから構成される。符号化低解像度レイヤからの動き情報の再利用は、低解像度レイヤからの動きベクトルをアップサンプリングし、聴視覚サービス−動画の符号化のＨＥＶＣＩＴＵ−ＴＨ．２６５（０４／２０１３）ＳＥＲＩＥＳＨ：ＡＵＤＩＯＶＩＳＵＡＬＡＮＤＭＵＬＴＩＭＥＤＩＡＳＹＳＴＥＭＳインフラ構成で指定される「時間的動きベクトル予測」方法（ＴＭＶＰ）を使用して、それらの動きベクトルを予測に使用することにより実行される。

スケーラブル符号化の場合の高解像度に関する符号化効率の重大な損失に対処する方法の１つは、高解像度を符号化する場合に低い解像度がより効率よく使用されるようにレイヤの符号化を合同して最適化する。これにより、低解像度ビデオ表現及び高解像度ビデオ表現の圧縮効率を互いにトレードオフすることができる。

最新のトランスコーディング方法は、符号化ステップの速度を向上させるために、アップリンクビットストリームで使用される符号化モード及び動きベクトルに関する情報などのアップリンクビットストリームで利用可能なデータを使用する。このことは、適応ノードの一例を示す図２に示される。図２は、ビデオ解像度又はフレームレートを変更するために必要とされる画素リサンプリングステップを示す。従って、モード及び動きデータもリサンプリングされてよい。モード及び動きデータの再利用により、トランスコーディングの複雑さを軽減できるが、ダウンリンク容量の適切な利用を実現するためには、トランスコーダの符号化ステップが非常に複雑であることは依然として必要である。

一般的な実施形態において、トランスコーディング又は適応は、受信ビデオビットストリーム及び受信サイド情報の双方に基づいて実行される。サイド情報は、トランスコーディング処理における計算の複雑さを軽減し且つダウンリンク資源及びアップリンク資源の双方を最適化するようにトランスコーディング処理を案内するために利用可能である。

符号化デバイスからネットワークノードへ（アップリンク）及びネットワークノードからエンドユーザデバイスへ（ダウンリンク）の双方で高い符号化効率を伴うスケーラビリティを提供できるようにするために、ＳＨＶＣに新規な機能性を追加することが提案される。高忠実度表現(high fidelity representation)の再構成画素値から低忠実度表現(low fidelty representation)を導出できることが示唆される。これにより、ＨＥＶＣと比較して損失なく、また、ＨＤＶＣに匹敵する高い忠実度を表現できる（エンドユーザデバイスに至るダウンリンク）と同時に、サイマルキャストと比較して、アップリンクでの利得を得ることが可能になる。サイマルキャストと比較して更なる利得を提供するために、ＳＨＶＣからのレイヤ間予測を再利用できる。低忠実度表現を再構成できるようにするために、逆量子化及び逆変換の前に追加復号処理を指定することが必要とされる。ＶＰＳ以下の構文に変更はない。

この新規な機能性は、トランスコーダにより実現可能な符号化効率より高い符号化効率で、計算の負担が大きいモード及び動き推定を伴わずに、バージョン１適合トランスコーディング済み低忠実度ビットストリームを取得するためにトランスコーダにより使用可能である。

重要なユースケースの１つは、符号化デバイスからネットワークノードに（アップリンク／ＵＬ）符号化効率のよいビットストリームを提供し、ネットワークノードからエンドデバイスへの（ダウンリンク／ＤＬ）ネットワーク特性に従属するＩＰベースビデオ配信であり、利用可能帯域幅に適する符号化効率のよいＨＥＶＣバージョン１ビットストリームを提供する。最良の場合で、アップリンク及びダウンリンクは、共に単一の表現に関する符号化と同一の符号化効率を有するべきである。

このユースケースを支援するための方式の１つは、ビットストリームをサイマルキャストすること、例えばいくつかの忠実度を独立して符号化し、それらをネットワークノードへ送信する（ＵＬ）。そこで、ネットワークノードは、最適のビットストリームをエンドデバイスへ転送できる（ＤＬ）。ＨＥＶＣバージョン１ビットストリームをサイマルキャストすることのすぐれた特徴は、ＤＬに関して各ビットストリームを非常に効率よく符号化でき、従ってそれぞれの品質に対して最小限のサイズを要求できることである。サイマルキャストの欠点は、ＵＬでほぼ同一のコンテンツのいくつかの独立した符号化を実行するという冗長性である。

スケーラブル符号化は、レイヤ符号化の使用によりいくつかの忠実度を表現する能力を有する。忠実度を表現することに関するオーバヘッドを減少させるために、高忠実度は低忠実度に従属する。従って、スケーラブル符号化は、サイマルキャストの場合のようないくつかの忠実度の独立した符号化という冗長性を低減できる。ＳＨＶＣは、サイマルキャストと比較して、ＵＬでいくつかの忠実度を符号化するためのオーバヘッドをランダムアクセスの場合で２１％低減でき、ＳＮＲスケーラビリティ共通条件を有する低遅延の場合で１２％低減できる。低忠実度ベースレイヤは、非常に効率よく符号化可能であるので、ＤＬでの使用に関して最小限のサイズを要求でき、ＨＥＶＣバージョン１デコーダにより復号可能である。ＤＬでの使用に関しては、低忠実度への従属性があるため、高忠実度はオーバヘッドを生じる。ＳＨＶＣは、ＨＥＶＣバージョン１と比較して、ランダムアクセスの場合で１４％、ＳＮＲスケーラビリティ共通条件を伴う低遅延の場合で２４％のオーバヘッドを有し、ＨＥＶＣバージョン１デコーダでは復号不可能であるので、このユースケースには適合できない。

ＳＨＶＣの高度レイヤ、この場合にはレイヤ１に関する復号処理及び符号化処理が、クリッピングの後にあるループフィルタ（デブロッキング及びＳＡＯ）を除いて、図４及び図５に示される。図４には、ＳＨＶＣの従属レイヤに関する復号処理が示され、Ｑは量子化であり、Ｔは変換であり、Ｐは予測であり、Ｄは遅延であり、Ｒは再構成画素値である。図５には、ＳＨＶＣの従属レイヤに関する符号化処理が示され、ＲＤＯはレート歪み最適化であり、Ｏはオリジナルのビデオソースである。

トランスコーディングは、受信された高忠実度ＨＥＶＣバージョン１ビットストリームをＤＬで送信する前にＵＬで再符号化することにより、いくつかの低忠実度を提供する能力を有する。ＵＬにおける高忠実度ビットストリームの符号化効率は非常に高く、サイマルキャストと比較して、オーバヘッドの大部分を軽減することができる。ＤＬで高忠実度が要求される場合に、高い符号化効率は保持され、ＨＥＶＣバージョン１デコーダを使用可能である。低忠実度が要求される場合には、高忠実度ビットストリームを復号し、低忠実度で再符号化する必要がある。低忠実度ビットストリームは、ＨＥＶＣバージョン１デコーダにより復号可能であるが、符号化に際して再構成高忠実度ビデオの品質に依存しなければならないので、サイマルキャストの場合の低忠実度ビットストリームより、符号化効率は悪くなる。低忠実度ビットストリームの可能な限り効率のよい表現を実現するためには、大量の計算を費やすことが要求される。その結果、サイマルキャストの場合の低忠実度と比較して、オーバヘッドは依然として存在する。トランスコーダは、トランスコーディング、例えば動き情報の再利用を速度を上げるために、ショートカットを利用できるが、それに伴って、低忠実度ビットストリームの符号化効率が悪化するという不都合も生じる。トランスコーダはユースケースを実現する可能性があるが、それを実行するためには膨大な量の計算が必要であり、トランスコーダは、ユースケースに適合するための低忠実度ビットストリームの高い符号化効率をまだ備えていない。フルトランスコーディングの一例が図６に示され、この場合、復号からの画素値のみが使用される。

ＤＬのエンドポイントに関して符号化効率のよいＨＥＶＣバージョン１ビットストリームのユースケースを支援するために、発明者らはベースレイヤで最高の忠実度を提供し、ＵＬで効率のよい表現を取得するために最高の忠実度への従属性を伴って低忠実度を符号化させることが可能であるように、ＳＨＶＣを新規な機能性によって拡張することを提案する。

言い換えれば、低忠実度を従属的に符号化し、それによりＵＬで効率のよい表現を提供するために、高忠実度に関連する情報を利用することが示唆される。これにより多数のレイヤの符号化が従属方式で実行されるので、トランスコーダ又はトランスコーダ構成における計算の複雑さは更に軽減される。更に以下に説明されるように、本発明の実施形態によれば、このように符号化されるビットストリームの復号を可能にするサイド情報が生成され、提供される。

従って、低忠実度は高忠実度に従属する。実施形態は、レイヤ化ビットストリームの概念によって実行可能であり、この概念では、ベースレイヤは高忠実度を有し、追加レイヤの各々は、特定の低忠実度に関するサイド情報を定義する。実施形態は、高忠実度ビットストリーム及びそれとは別の１つ以上の低忠実度サイド情報ビットストリームを有することによっても実行可能である。

図７は、高忠実度フォーマットの復号バージョンがＲｌａｙｅｒ０として示されるトランスコーダを示す（高忠実度フォーマットが低忠実度フォーマットより高い解像度を有する場合に、おそらくはダウンサンプリングの後）。サイド情報の中のパーシングされた予測パラメータ符号化パラメータは、低忠実度フォーマットに関連する予測誤差を取得するためにＲｌａｙｅｒ０から減算される低忠実度フォーマットに関する予測（図中のＰ）を取得するために使用される。予測誤差は、変換係数を取得するために、パーシングされた変換パラメータに従って変換され（Ｔ）、量子化される（Ｑ）。符号化予測誤差を取得するために、変換係数は逆量子化され（Ｑ^-1）、逆変換され（Ｔ^-1）、符号化予測誤差は、その後、低忠実度フォーマットＲｌａｙｅｒ１の再構成を生成するために予測（Ｐ）に加算される。画素値が確実に許容範囲内に入るようにするために、クリッピング（Ｃｌｉｐ）が実行される。これはトランスコーダの出力ではないが、変換係数の生成のために使用されるピクチャ間予測を生成できるようにするために使用される。変換係数が生成され終わった時点で（破線のボックスの出力）、低忠実度フォーマットに関連するすべての符号化パラメータを利用可能であり、従って、符号化パラメータを完全な低忠実度フォーマットビットストリームに符号化することができる。このように、正規の復号処理の前に、変換及び量子化が実行される。これにより、後続するトランスコーディングステップ又は適応ステップにおける計算の複雑さは軽減されるので、少なくとも２つの異なるレイヤからの情報に基づいて、変換係数は再生成される。尚、図９にはインループフィルタリングは示されていないが、これも符号化ループの一部である。

図８は、図７に対応する高忠実度ビットストリーム及び低忠実度サイド情報を生成するエンコーダを示す。インループフィルタリングは図から除外されているが、符号化ループの一部である。

高忠実度フォーマットの復号バージョンはＲｌａｙｅｒ０として示される（高忠実度フォーマットが低忠実度フォーマットより高い解像度を有する場合に、おそらくはダウンサプリングの後）。低忠実度サイド情報は、Ｒｌａｙｅｒ０から減算される予測を導き出すために最良の符号化パラメータ（ＲＤＯ）を探索することにより生成される。予測誤差は変換され（Ｔ）、量子化される（Ｑ）。符号化予測誤差を取得するために、変換係数は逆量子化され（Ｑ^-1）、逆変換され（Ｔ^-1）、符号化予測誤差は、その後低忠実度フォーマットＲｌａｙｅｒ１の再構成を生成するために予測（Ｐ）に加算される。符号化パラメータは、低忠実度フォーマットＯｌａｙｅｒ１のオリジナルのビデオソースに関して最適化される。これは、Ｒｌａｙｅｒ１が可能な限りＯｌａｙｅｒ１と類似するように符号化パラメータが選択されることを意味する。次に、低忠実度フォーマットに関してサイド情報を表現するために、符号化パラメータ（変換パラメータ及び予測パラメータ）は符号化される。使用される変換係数は、トランスコーダにより再生成され、従って符号化される必要がない変換係数に対応する。送信される変換係数は、トランスコーダへ送信される低忠実度フォーマットのサイド情報に対応する。１つの方式は、送信された変換係数を可能な限り少ないオーバヘッドで符号化することであり、例えば１つの係数は１に等しく、残りは０に等しい。

本発明の一実施形態によれば、その概念は、パーシング／復号された係数（例えば、ＴｒａｎｓＣｏｅｆｆＬｅｖｅｌ）を、図９に示されるような処理の係数生成／予測部分により取得された係数により改善することである。図９は、パーシングされた係数を係数生成／予測により改善するための復号処理を示し、この処理では提案される追加処理は、破線のボックスの中に示される。この場合、逆量子化及び逆変換に適合するように、加算後にクリッピング（ＣｌｉｐＣ）が必要とされる（他方のクリップ（Ｃｌｉｐ）は、再構成後の画素値がビデオのビット深度に従って値の許容範囲内に確実に入るように保証する）。

従って、図９は、低忠実度フォーマットサイド情報及び高忠実度フォーマットの復号バージョンの双方に基づいて変換係数を生成するトランスコーダを示す。尚、インループフィルタリングは図から除外されているが、符号化ループの一部であってもよいことに注意すべきである。

高忠実度フォーマットの復号バージョンはＲｌａｙｅｒ０として指示される（高忠実度フォーマットが低忠実度フォーマットビットストリームより高い解像度を有する場合に、おそらくはダウンサンプリングの後）。この場合、サイド情報の中の変換係数は、Ｒｌａｙｅｒ０と低忠実度フォーマットの予測との差を求めることにより取得される変換係数に加算される（破線のボックスの出力）。係数が許容範囲内に確実に入るように、クリッピングが実行される（ＣｌｉｐＣ）。次に、組み合わせ変換係数（破線のボックスの出力）は、低忠実度フォーマットビットストリームを生成するために、低忠実度フォーマットサイド情報の他の符号化パラメータによって符号化される。

図３のフローチャートに概略的に示されるように、オリジナルのビデオソースを表すビットストリームを入力フォーマットから出力フォーマットにトランスコーディングするトランスコーダ構成のための方法が提供される。トランスコーダ構成は、入力ビデオフォーマットでビットストリームを受信し（Ｓ１０）、入力ビデオフォーマットは高忠実度フォーマットである。トランスコーダ構成は、更に、前記ビデオビットストリームに関連するサイド情報を受信する（Ｓ２０）。前記サイド情報は、低忠実度入力ビデオフォーマットでオリジナルのビデオソースを表すビデオビットストリームと、オリジナルのビデオソースの知識に基づいて最適化された符号化パラメータと、オリジナルのビデオソースと高忠実度フォーマットの復号バージョンとの間の残差を示す変換係数とを少なくとも含む。トランスコーダ構成は、トランスコーディング案内情報を生成するために、前記受信されたサイド情報を復号し（Ｓ４０）、受信されたビットストリーム及び生成されたトランスコーディング案内情報に基づいて低忠実度出力フォーマットによる前記ビットストリームの表現を推定する（Ｓ５０）。更に、低忠実度出力フォーマットによる前記ビットストリームの推定表現を改善するために、サイド情報の変換係数は、低忠実度出力フォーマットによる前記ビットストリームの推定表現から生成された変換係数に加算される（Ｓ６０）。低忠実度出力フォーマットによる前記ビットストリームの改善された推定表現は符号化され（Ｓ７０）、レンダリングデバイスへ送信される。このようにサイド情報により、サイド情報なしのトランスコーディングと比較して複雑さを低減して適応処理を実行できる一方で、高い圧縮効率を提供するように、サイド情報は適応処理で利用される。従って、ダウンリンク帯域幅の十分な利用を実現できる。適応処理の出力は非スケーラブルビデオビットストリームであり、このことは適応処理からのビットストリームの復号を複雑度の低い非スケーラブルデコーダで実行可能であることを示唆する。

一実施形態によれば、更なるステップが追加され、このステップでは前記受信されたビデオビットストリームの前記表現として画素データを提供するために、前記受信されたビデオビットストリームは復号される。本発明の場合、残差を再生成するために使用される画素データを取得するために、トランスコーダは、常に高忠実度ビットストリームを復号しなければならない。いくつかのトランスコーダ構成は、符号化パラメータ領域でのみ動作してよい。

更なる実施形態によれば、オリジナルのビデオソースと高忠実度フォーマットの復号バージョンとの間の残差は、量子化されたか／又は変換された残差である。

サイド情報は、前記所定の入力ビデオフォーマットに関連する残差情報を更に含んでもよい。

いくつかの実施形態において、方法は前記ビデオビットストリームの中の前記サイド情報の存在に関する指示を識別する更なるステップを含む。

更に、前記所定の入力ビデオフォーマット及び前記所定の出力ビデオフォーマットは、ビデオの異なるカラー表現、又は異なるビデオコーデックを含んでもよい。

サイド情報は、前記ビデオビットストリームとは別に送受信されてもよいが、前記ビデオビットストリームと共に送受信されてもよい。例えばサイド情報及び符号化ビデオビットストリームは、インタリーブビットストリームとして一体に送信可能であるが、１つの搬送波の中の個別のレイヤで、あるいは個別の搬送波又はチャネルで送信されることも可能である。受信側トランスコーディングノードが提供されるサイド情報を利用できるようにするために、提供されるサイド情報の指示並びに提供されるサイド情報の使用の可能性の指示が任意にトランスコーディングノードへ送信されることが可能である。

一例として、サイド情報は、スケーラブルビデオビットストリームの１つのレイヤとして提供されることが可能であり、その場合、１つの高忠実度レイヤは主ビデオを含み、１つ以上の低忠実度レイヤはサイド情報を含む。この場合、スケーラブルビデオビットストリームの中で、１つ又はいくつかのレイヤが第１のレイヤに対してトランスコーディング従属性を有することを示す指示を提供できる。この指示は、ビットストリームの始めに又は別のチャネルでビデオパラメータセット（ＶＰＳ）及び／又はＳＥＩメッセージの中で定義できる。これに代わる別の方法は、シングルレイヤビットストリーム、例えばＨＥＶＣに加えて、別のビデオビットストリーム、例えばＨＥＶＣでサイド情報を提供する。その場合、各ビットストリームは、別のチャネルに関して使用可能であること又は別のチャネルで指示を有することができることを示すビットストリームの始めのＳＥＩメッセージを含むことができる。更なる実施形態では、サイド情報は、別のチャネルでまとめて提供される。

場合によっては、ビデオプロバイダ構成の符号化処理に関する情報をトランスコーダ構成に提供することが必要である。そのような特定のケースの１つは、入力ビデオが高解像度を有し、出力ビデオは低解像度を有する場合であると考えられるだろう。その場合、トランスコーダにおける何らかのダウンサンプリング処理に関する情報もサイド情報又は何らかの所定の仕様で提供される必要がある。特に、例えばトランスコーダが高解像度画素データを低解像度画素データに適正にダウンサンプリングすることを可能にする情報を提供することが必要になるだろう。

サイド情報は、少なくとも１つのＳＥＩメッセージとしての送信、モード／動き情報のカプセル化、ビデオビットストリーム中の補助ピクチャとしての送信、主ビデオとは異なるレイヤｉｄを有するスケーラブルレイヤとしての送信を含む複数の異なる方法で送信可能である。

いくつかのケースで、サイド情報は、完全な１つのビットストリーム又はビットストリームの１つのレイヤを含むことが可能だろう。そのような場合、ビデオプロバイダ構成で、提供されるビットストリームのどの部分を修正すべきかをトランスコーダ構成に案内する指示が提供される。

トランスコーダ構成へ送信されるサイド情報で生成又は提供できる案内情報の可能な種類はごくわずかしかない。

図９に関連して説明された例に関しては、これは、次の章の「フォワード変換係数に関するフォワードスケーリング処理」のステップ７に示されるような変形として実現可能である。それに代わる方法は、案内情報をＳＥＩメッセージの中で指定するか又は補助ピクチャに関してサイド情報として指定するというものである。

以下の例は、ＴｒａｎｓＣｏｅｆｆＬｅｖｅｌがサイド情報ビットストリームで復号される変換係数であるような例示的な一実現形態である。ｉｎｔＬｅｖｅｌは、高品質ビットストリームの再構成に基づく再生成変換係数である。前述のように、本実施形態の方式は、サイド情報の一部であるＴｒａｎｓｆＣｏｅｆｆＬｅｖｅｌに基づいて再生成変換係数を改善する。

［フォワード変換係数に関するフォワードスケーリング処理］
この処理への入力は、
− 現在ピクチャの左上ルマサンプルに対する現在ルマ変換ブロックの左上サンプルを指定するルマ位置（ｘＴｂＹ，ｙＴｂＹ）、
− 現在変換ブロックのサイズを指定する変数ｎＴｂＳ、
− 現在ブロックの色成分を指定する変数ｃｌｄｘ、
− 量子化パラメータを指定する変数ｑＰ、
− 要素ｄ［ｘ］［ｙ］を有するフォワード変換係数ｄのアレイ
である。
この処理の出力は、要素ＴｒａｎｓＣｏｅｆｆＬｅｖｅｌ［ｘＴｂｙ］［ｙＴｂｙ］［ｃｌｄｘ］［ｘ］［ｙ］を有する変換係数の（ｎＴｂＳ）×（ｎＴｂＳ）アレイＴｒａｎｓＣｏｅｆｆＬｅｖｅｌである。
変換係数は、以下の順序のステップにより修正される。
１．ｉｎｔＬｅｖｅｌ［ｘ，ｙ］はｄ［ｘ，ｙ］に等しくなるように設定される。
２．ｉｎｔＳｉｇｎ［ｘ，ｙ］は、ｉｎｔＬｅｖｅｌ［ｘ，ｙ］が０未満である場合に−１に等しくなるように設定され、そうでない場合には１に設定される。
３．ｆｗｄＳｃａｌｅＦａｃｔｏｒ＝ｆｗｄＬｅｖｅｌＳｃａｌｅ［Ｑｐ％６］であり、ｆｗｄＬｅｖｅｌＳｃａｌｅ＝｛２６２１４，２３３０２，２０５６０，１８３９６，１６３８４，１４５６４｝である。
４．ｉｎｔ６４Ｌｅｖｅｌ［ｘ，ｙ］は、ａｂｓ（ｉｎｔＬｅｖｅｌ［ｘ，ｙ］）＊ｆｗｄＳｃａｌｅＦａｃｔｏｒに等しくなるように設定される。
５．ｉｎｔＬｅｖｅｌ［ｘ，ｙ］は、（ｉｎｔ６４Ｌｅｖｅｌ［ｘ，ｙ］＋ｉｎｔＡｄｄ）＞＞ｉｎｔＱＢｉｔｓに等しくなるように設定される。
ここで、ｉｎｔＱＢｉｔｓは２９＋Ｑｐ／６−ｂｉｔＤｅｐｔｈ−ｌｏｇ２（ｎＴｂＳ）に等しく、
ｂｉｔＤｅｐｔｈは、ｃｌｄｘが０である場合はｂｉｔＤｅｔｈＹに等しく、そうでない場合にはｂｉｔＤｅｐｔｈＣに等しく、
ｉｎｔＡｄｄは、スライス型がＩに等しいか又はレイヤ間画像ｒｓＰｉｃがＩＲＡＰである場合は１７１＜＜（ｉｎｔＱＢｉｔｓ−９）に等しく、そうでない場合には、ｉｎｔＡｄｄは８５＜＜（ｉｎｔＱＢｉｔｓ−９）に等しい。
６．ｉｎｔＬｅｖｅｌ［ｘ，ｙ］は、ｉｎｔＬｅｖｅｌ［ｘ，ｙ］＊ｉｎｔＳｉｇｎ［ｘ，ｙ］に等しくなるように設定される。
７．ＴｒａｎｓＣｏｅｆｆＬｅｖｅｌ［ｘＴｂＹ］［ｙＴｂＹ］［ｃｌｄｘ］［ｘ］［ｙ］は、Ｃｌｉｐ３（−３２７６８，３２７６７，ＴｒａｎｓＣｏｅｆｆＬｅｖｅｌ［ｘＴｂＹ］［ｙＴｂＹ］［ｃｌｄｘ］［ｘ］［ｙ］＋ｉｎｔＬｅｖｅｌ［ｘ，ｙ］）に等しくなるように設定される。
変形例は、以下の章「フォワード変換係数に関するフォワードスケーリング処理」で説明されるステップ１４でオフセットを加算し、それは、変換サイズを完全に再利用するために送信される必要がある最小値を補正することに相当する。これが１のＤＣ値であると指定され、その他の係数が０に設定される場合、デコーダは以下を実行可能である。
Ｉｆ（ｘ＝＝０＆＆ｙ＝＝０）
ＴｒａｎｓＣｏｅｆｆＬｅｖｅｌ［ｘＴｂＹ］［ｙＴｂＹ］［ｃＩｄｘ］［ｘ］［ｙ］はＣｌｉｐ３（−３２７６８，３２７６７，ＴｒａｎｓＣｏｅｆｆＬｅｖｅｌ［ｘＴｂＹ］［ｙＴｂＹ］［ｃＩｄｘ］［ｘ］［ｙ］＋ｉｎｔＬｅｖｅｌ［ｘ，ｙ］−１）に等しい
ｅｌｓｅ
ＴｒａｎｓＣｏｅｆｆＬｅｖｅｌ［ｘＴｂＹ］［ｙＴｂＹ］［ｃＩｄｘ］［ｘ］［ｙ］はＣｌｉｐ３（−３２７６８，３２７６７，ＴｒａｎｓＣｏｅｆｆＬｅｖｅｌ［ｘＴｂＹ］［ｙＴｂＹ］［ｃＩｄｘ］［ｘ］［ｙ］＋ｉｎｔＬｅｖｅｌ［ｘ，ｙ］）に等しい

これは、第１の係数位置では１に対応し、そうでない場合には０に対応する係数（ＴｒａｎｓＣｏｅｆｆＬｅｖｅｌ）をエンコーダが送信している場合に、エンコーダは、再生成される係数値ｉｎｔＬｅｖｅｌを変更しないことを意味する。

提案される復号処理をデコーダが実行すべき時点をデコーダが知ることができるようにするために、発明者らは既存のレイヤ間運動及びサンプルベース従属性の型に加えて、１つの新たな従属型を並行してＶＰＳで提供することを示唆する。従って、ＳＨＶＣエンコーダは、サイマルキャストと比較してアップリンクにおけるビットレート減少を更に改善するために、既存の従属性を使用できるだろう。

最小限の簡潔な構成とするために、発明者らは使用される変換として逆変換の転置を使用すること及び量子化がＲＤＯＱ、符号ビット隠蔽なしで、フラットスケーリングマトリクスを使用して実行されることを示唆する。

以下の章は、ＳＨＶＣでこれをいかにして実現できるかの例を開示する。下線を引いたテキストを参照。尚、ＶＰＳ以降の構文に変更はない。

［ビデオパラメータセット拡張意味論］
ｄｉｒｅｃｔ＿ｄｅｐ＿ｔｙｐｅ＿ｌｅｎ＿ｍｉｎｕｓ２プラス２は、ｄｉｒｅｃｔ＿ｄｅｐｅｎｄｅｎｃｙ＿ｔｙｐｅ［ｉ］［ｊ］構文要素のビットの数を指定する。この仕様のこのバージョンに準拠するビットストリームでは、ｄｉｒｅｔ＿ｄｅｐ＿ｔｙｐｅ＿ｌｅｎ＿ｍｉｎｕｓ２の値は、１に等しくなければならない。この仕様のこのバージョンではｄｉｒｅｃｔ＿ｄｅｐ＿ｔｙｐｅ＿ｌｅｎ＿ｍｉｎｕｓ２の値は１に等しくなければならないが、デコーダは、０以上、３０以下の範囲の他の値のｄｉｒｅｃｔ＿ｄｅｐ＿ｔｙｐｅ＿ｌｅｎ＿ｍｉｎｕｓ２を構文の中に出現させることができる。

ｄｉｒｅｃｔ＿ｄｅｐｅｎｄｅｎｃｙ＿ｔｙｐｅ［ｉ］［ｊ］は、ｌａｙｅｒ＿ｉｄ＿ｉｎ＿ｎｕｈ［ｉ］に等しいｎｕｈ＿ｌａｙｅｒ＿ｉｄを有するレイヤと、ｌａｙｅｒ＿ｉｄ＿ｉｎ＿ｎｕｈ［ｊ］に等しいｎｕｈ＿ｌａｙｅｒ＿ｉｄを有するレイヤとの間の従属性の型を示す。０、２、４又は６に等しいｄｉｒｅｃｔ＿ｄｅｐｅｎｄｅｎｃｙ＿ｔｙｐｅ［ｉ］［ｊ］は、ｌａｙｅｒ＿ｉｄ＿ｉｎ＿ｎｕｈ［ｊ］に等しいｎｕｈ＿ｌａｙｅｒ＿ｉｄを有するレイヤがｌａｙｅｒ＿ｉｄ＿ｉｎ＿ｎｕｈ［ｉ］に等しいｎｕｈ＿ｌａｙｅｒ＿ｉｄを有するレイヤのレイヤ間サンプル予測に使用されることを示す。１、２、５又は６に等しいｄｉｒｅｃｔ＿ｄｅｐｅｎｄｅｎｃｙ＿ｔｙｐｅ［ｉ］［ｊ］は、ｌａｙｅｒ＿ｉｄ＿ｎｕｈ［ｊ］に等しいｎｕｈ＿ｌａｙｅｒ＿ｉｄを有するレイヤがｌａｙｅｒ＿ｉｄ＿ｉｎ＿ｎｕｈ［ｉ］に等しいｎｕｈ＿ｌａｙｅｒ＿ｉｄを有するレイヤのレイヤ間運動予測に使用されることを示す。３、４、５又は６に等しいｄｉｒｅｃ＿ｄｅｐｅｎｄｅｎｃｙ＿ｔｙｐｅ［ｉ］［ｊ］は、ｌａｙｅｒ＿ｉｄ＿ｉｎ＿ｎｕｈ［ｊ］に等しいｎｕｈ＿ｌａｙｅｒ＿ｉｄを有するレイヤがｌａｙｅｒ＿ｉｄ＿ｉｎ＿ｎｕｈ［ｉ］に等しいｎｕｈ＿ｌａｙｅｒ＿ｉｄを有するレイヤの残差再生成に使用されることを示す。この仕様のこのバージョンでは、ｄｉｒｅｃｔ＿ｄｅｐｅｎｄｅｎｃｙ＿ｔｙｐｅ［ｉ］［ｊ］の値は０以上、６以下の範囲内になければならないが、デコーダは、７以上、２３２−２以下の範囲内のｄｉｒｅｃｔ＿ｄｅｐｅｎｄｅｎｃｙ＿ｔｙｐｅ［ｉ］［ｊ］の値を構文中に出現させることができる。

変数ＮｕｍＤｉｒｅｃｔＲｅｆＬａｙｅｒｓ［ｉ］及びＲｅｆＬｅｙｅｒｌｄ［ｉ］［ｊ］ＳａｍｐｌｅＰｒｅｄＥｎａｂｌｅｄＦｌａｇ［ｉ］［ｊ］、ＭｏｔｉｏｎＰｒｅｄＥｎａｂｌｅｄＦｌａｇ［ｉ］［ｊ］、ＲｅｓｉｄｕａｌＲｅＧｅｎｅｒａｔｉｏｎＥｎａｂｌｅｄＦｌａｇ［ｉ］［ｊ］及びＤｉｒｅｃｔＲｅｆＬａｙｅｒｌｄｘ［ｉ］［ｊ］は、次のようにして導き出される。

for( i = 0; i ＜= vps_max_layers_minus1; i++ ) {
iNuhLId = layer_id_in_nuh[ i ]
NumDirectRefLayers[ iNuhLId ] = 0
for( j = 0; j ＜ i; j++ )
if( direct_dependency_flag[ i ][ j ] ) {
RefLayerId[ iNuhLId ][ NumDirectRefLayers[ iNuhLId ]++ ] = layer_id_in_nuh[ j ]
SamplePredEnabledFlag[ iNuhLId ][ j ] = ( ( direct_dependency_type[ i ][ j ] + 1 ) & 1 )
MotionPredEnabledFlag[ iNuhLId ][ j ] = ( ( ( direct_dependency_type[ i ][ j ] + 1 ) & 2 ) ＞＞ 1 )
ResidualReGenerationEnabledFlag[ iNuhLId ][ j ] = ( ( ( direct_dependency_type[ i ][ j ] + 1 ) & 4 ) ＞＞ 2 )

DirectRefLayerIdx[ iNuhLid ][ layer_id_in_nuh[ j ] ] = NumDirectRefLayers[ iNuhLId ] - 1 }
}

［残差従属レイヤに関する復号処理］
発明者らは、新たなＲｅｓｉｄｕａｌＲｅＧｅｎｅｒａｔｉｏｎＥｎａｂｌｅｄＦｌａｇ及び既存のｉｎｔｅｒ＿ｌａｙｅｒ＿ｐｒｅｄ＿ｅｎａｂｌｅ＿ｆｌａｇが共に１に等しい場合に、正しい変換係数レベルを再生成するために、ビットストリーム中のパーシングされた変換係数レベルを使用する代わりに、ＳＨＶＣの既存の復号処理に加えて付加的な復号処理の実施形態を定義する。

［イントラ予測モードで符号化された符号化単位に関する復号処理］
ＲｅｓｉｄｕａｌＲｅＧｅｎｅｒａｔｉｏｎＥｎａｂｌｅｄＦｌａｇ［ｃｕｒｒＬａｙｅｒｌｄ］［ｒＬｌｄ］及びｉｎｔｅｒ＿ｌａｙｅｒ＿ｐｒｅｄ＿ｅｎａｂｌｅ＿ｆｌａｇが共に１に等しい場合に、ＨＥＶＣ／ＳＨＶＣ仕様の「イントラ予測モードで符号化された符号化単位に関する復号処理」の項の仕様は、「スケーリング及び変換処理」に先立って、変換係数レベルＴｒａｎｓＣｏｅｆｆＬｅｖｅｌが「スケーリング及び変換処理」で指定されるように修正されることを除いて適用される。それ以外の場合には、８．４項の仕様が適用される。

［インター予測モードで符号化された符号化単位の残差信号に関する復号処理］
ＲｅｓｉｄｕａｌＲｅＧｅｎｅｒａｔｉｏｎＥｎａｂｌｅｄＦｌａｇ［ｃｕｒｒＬａｙｅｒｌｄ］［ｒＬｌｄ］及びｉｎｔｅｒ＿ｌａｙｅｒ＿ｐｒｅｄ＿ｅｎａｂｌｅ＿ｆｌａｇが共に１に等しい場合に、ＨＥＶＣ／ＳＨＶＣ仕様の「インター予測モードで符号化された符号化単位の残差信号に関する復号処理」の項の仕様は、「スケーリング及び変換処理」に先立って、変換係数レベルＴｒａｎｓＣｏｅｆｆＬｅｖｅｌが「スケーリング及び変換処理」で指定されるように修正されることを除いて適用される。それ以外の場合には、「インター予測モードで符号化された符号化単位の残差信号に関する復号処理」の項の仕様が適用される。

［デブロッキングフィルタ処理に先立つスケーリング、変換及びアレイ構成処理］
ＲｅｓｉｄｕａｌＲｅＧｅｎｅｒａｔｉｏｎＥｎａｂｌｅｄＦｌａｇ［ｃｕｒｒＬａｙｅｒｌｄ］［ｒＬｌｄ］及びｉｎｔｅｒ＿ｌａｙｅｒ＿ｐｒｅｄ＿ｅｎａｂｌｅ＿ｆｌａｇが共に１に等しい場合に、ＨＥＶＣ／ＳＨＶＣ仕様の「デブロッキングフィルタ処理に先立つスケーリング、変換及びアレイ構成処理」の項の仕様は、「スケーリング及び変換処理」に先立って、変換係数レベルＴｒａｎｓＣｏｅｆｆＬｅｖｅｌが「スケーリング及び変換処理」で指定されるように修正されることを除いて適用される。それ以外の０の場合には、「デブロッキングフィルタ処理に先立つスケーリング、変換及びアレイ構成処理」の項の仕様が適用される。

注：ＨＥＶＣバージョン１適合ビットストリームを符号化するために、ＲｅｓｉｄｕａｌＲｅＧｅｎｅｒａｔｉｏｎＥｎａｂｌｅｄＦｌａｇ［ｃｕｒｒＬａｙｅｒｌｄ］［ｒＬｌｄ］が１に等しいか又はｉｎｔｅｒ＿ｌａｙｅｒ＿ｐｒｅｄ＿ｅｎａｂｌｅ＿ｆｌａｇが０に等しい場合に、トランスコーダは、修正済みＴｒａｎｓＣｏｅｆｆＬｅｖｅｌを含む現在レイヤからのレイヤ別構文の大部分を再利用できる。

［スケーリング及び変換処理］
この処理への入力は、
− 現在画像の左上ルマサンプルに対する現在ルマ変換ブロックの左上サンプルを指定するルマ位置（ｘＴｂＹ，ｙＴｂＹ）、
− 符号化ブロックに対する現在ブロックの階層深度を指定する変数ｔｒａｆｏＤｅｐｔｈ、
− 現在ブロックの色成分を指定する変数ｃｌｄｘ、
− 現在変換ブロックのサイズを指定する変数ｎＴｂＳ、
− レイヤ間基準画像（デブロック及びｓａｏの後）ｒｓＰｉｃからの再構成サンプルのアレイ、
− 予測サンプルｐｒｅｄＳａｍｐｌｅｓのアレイ
である。

この処理の出力は、要素ＴｒａｎｓＣｏｅｆｆＬｅｖｅｌ［ｘＴｂＹ］［ｙＴｂＹ］［ｃｌｄｘ］［ｘ］［ｙ］を有する変換係数レベルの（ｎＴｂＳ）×（ｎＴｂＳ）アレイである。

まず、ｒｌＰｉｃＳａｍｐｌｅとｐｒｅｄＳａｍｐｌｅｓとの差を求めることにより、一時残差サンプル（ｒＴ）の（ｎＴｂＳ）×（ｎＴｂＳ）アレイが取得される。
rT[x][y] = rlPicSample[x][y]-predSamples[x][y]
レベルＩの（ｎＴｂＳ）×（ｎＴｂＳ）アレイは、次のように導き出される。
− ｃｕ＿ｔｒａｎｓｑｕａｎｔ＿ｂｙｐａｓｓ＿ｆｌａｇが１に等しい場合、レベルＩの（ｎＴｂＳ）×（ｎＴｂＳ）アレイは、一時残差サンプルｒＴの（ｎＴｂＳ）×（ｎＴｂＳ）アレイに等しくなるように設定される。
l[x][y] =rT[x][y]
− そうでない場合には、以下の順序のステップが適用される。
１．変換ブロック位置（ｘＴｂＹ，ｙＴｂＹ）、変換ブロックｎＴｂＳのサイズ、色成分変数ｃｌｄｘ、量子化パラメータｑＰ及び一時残差サンプルｒＴのアレイを入力として、「一時残差サンプルに関する変換処理」の項で指定されるようなフォワード変換が起動され、その出力は、フォワード変換係数ｄの（ｎＴｂＳ）×（ｎＴｂＳ）アレイである。
２．変換係数ＴｒａｎｓＣｏｅｆｆＬｅｖｅｌの（ｎＴｓＢ）×（ｎＴｂＳ）アレイは次のように修正される。
− ｔｒａｎｓｆｏｒｍ＿ｓｋｉｐ＿ｆｌａｇ［ｘＴｂＹ］［ｙＴｂＹ］［ｃｌｄｘ］が１に等しい場合に、ｘ＝０．．ｎＴｂＳ−１、ｙ＝０．．ｎＴｂＳ−１であるサンプルアレイ値ＴｒａｎｓＣｏｅｆｆＬｅｖｅｌ［ｘＴｂＹ］［ｙＴｂＹ］［ｃｌｄｓ］［ｘ］［ｙ］は次のように導き出される。
TransCoeffLevel [xTbY][yTbY][cIdx] [ x ][ y ] = ( l[ x ][ y ] ＜＜ (15-bitDepth-log2(nTbS) ) (H 8-267)
ｂｉｔＤｅｐｔｈがｂｉｔＤｅｐｔｈＹに等しい場合に、ｃｌｄｘは０に等しく、そうでない場合にはｂｉｔＤｅｐｔｈＣに等しい。
− そうでない場合（ｔｒａｎｓｆｏｒｍ＿ｓｋｉｐ＿ｆｌａｇ［ｘＴｂＹ］［ｙＴｂｙ］［ｃｌｄｘ］が０に等しい場合）には、変換ブロック位置（ｘＴｂＹ，ｙＴｂＹ）、変換ブロックのサイズｎＴｂＳ、色成分変数ｃｌｄｘ及びフォワード変換係数ｄの（ｎＴｂＳ）×（ｎＴｂＳ）アレイを入力として、「フォワード変換係数に関するフォワードスケーリング処理」の項で指定されるような変換係数に関するフォワードスケーリング処理が起動され、その出力は、変換係数ＴｒａｎｓＣｏｅｆｆＬｅｖｅｌの（ｎＴｂＳ）×（ｎＴｂＳ）アレイである。

［フォワード変換係数に関するフォワードスケーリング処理］
この処理への入力は、
− 現在画像の左上ルマサンプルに対する現在ルマ変換ブロックの左上サンプルを指定するルマ位置（ｘＴｂＹ，ｙＴｂＹ）、
− 現在変換ブックのサイズを指定する変数ｎＴｂＳ、
− 現在ブロックの色成分を指定する変数ｃｌｄｘ、
− 量子化パラメータを指定する変数ｑＰ、
− 要素ｄ［ｘ］［ｙ］を有するフォワード変換係数ｄのアレイ
である。
この処理の出力は、要素ＴｒａｎｓＣｏｅｆｆＬｅｖｅｌ［ｘＴｂＹ］［ｙＴｂＹ］［ｃｌｄｓ］［ｘ］［ｙ］を有する変換係数の（ｎＴｂＳ）×（ｎＴｂＳ）アレイＴｒａｎｓＣｏｅｆｆＬｅｖｅｌである。
変換係数は、以下の順序のステップにより修正される。
８．ｉｎｔＬｅｖｅｌ［ｘ，ｙ］はｄ［ｘ，ｙ］に等しくなるように設定される。
９．ｉｎｔＳｉｇｎ［ｘ，ｙ］は、ｉｎｔＬｅｖｅｌ［ｘ，ｙ］が０未満である場合に−１に等しくなるように設定され、そうでない場合には１に設定される。
１０．ｆｗｄＳｃａｌｅＦａｃｔｏｒ＝ｆｗｄＬｅｖｅｌＳｃａｌｅ［Ｑｐ％６］であり、ｆｗｄＬｅｖｅｌＳｃａｌｅ＝｛２６２１４，２３３０２，２０５６０，１８３９６，１６３８４，１４５６４｝である。
１１．ｉｎｔ６４Ｌｅｖｅｌ［ｘｙ］は、ａｂｓ（ｉｎｔＬｅｖｅｌ［ｘ，ｙ］）＊ｆｗｄＳｃａｌｅＦａｃｔｏｒに等しくなるように設定される。
１２．ｉｎｔＬｅｖｅｌ［ｘ，ｙ］は、（ｉｎｔ６４Ｌｅｖｅｌ［ｘ，ｙ］＋ｉｎｔＡｄｄ）＞＞ｉｎｔＱＢｉｔｓに等しくなるように設定される。
ここで、ｉｎｔＱＢｉｔｓは２９＋Ｑｐ／６−ｂｉｔＤｅｐｔｈ−ｌｏｇ２（ｎＴｂＳ）に等しく、
ｂｉｔＤｅｐｔｈは、ｃｌｄｘが０に等しい場合にｂｉｔＤｅｐｔｈＹに等しく、そうでない場合にはｂｉｔＤｅｐｔｈＣに等しく、
ｉｎｔＡｄｄは、スライス型がＩに等しいか又はレイヤ間画像ｒｓＰｉｃがＩＲＡＰである場合に１７１＜＜（ｉｎｔＱＢｉｔｓ−９）に等しく、そうでない場合には、ｉｎｔＡｄｄは８５＜＜（ｉｎｔＱＢｉｔｓ−９）に等しい。
１３．ｉｎｔＬｅｖｅｌ［ｘ，ｙ］は、ｉｎｔＬｅｖｅｌ［ｘ，ｙ］＊ｉｎｔＳｉｇｎ［ｘ，ｙ］に等しくなるように設定される。
１４．ＴｒａｎｓＣｏｅｆｆＬｅｖｅｌ［ｘＴｂＹ］［ｙＴｂＹ］［ｃｌｄｘ］［ｘ］［ｙ］は、Ｃｌｉｐ３（−３２７６８，３２７６７，ｉｎｔＬｅｖｅｌ［ｘ，ｙ］）に等しくなるように設定される。

［一時残差サンプルに関する変換処理］
［概要］
この処理への入力は、
− 現在画像の左上ルマサンプルに対する現在ルマ変換ブロックの左上サンプルを指定するルマ位置（ｘＴｂＹ，ＹＴｂＹ）、
− 現在変換ブロックのサイズを指定する変数ｎＴｂＳ、
− 現在ブロックの色成分を指定する変数ｃｌｄｘ、
− 要素ｒＴ［ｘ］［ｙ］を有する一時残差サンプルの（ｎＴｂＳ）×（ｎＴｂＳ）アレイｒＴ
である。
この処理の出力は、要素ｄ［ｘ］［ｙ］を有するフォワード変換係数の（ｎＴｓＢ）×（ｎＴｂＳ）アレイｄである。
ＣｕＰｒｅｄＭｏｄｅ［ｘＴｂＹ］［ｙＴｂＹ］、ｎＴｂＳ及びｃｌｄｘの値に応じて、変数ｔｒＴｙｐｅは次のように導き出される。
− ＣｕＰｒｅｄＭｏｄｅ［ｘＴｂＹ］［ｙＴｂＹ］がＭＯＤＥＩＮＴＲＡに等しく、ｎＴｂＳが４に等しく且つｃｌｄｘが０に等しい場合に、ｔｒＴｙｐｅは１に等しくなるように設定される。
− そうでない場合には、ｔｒＴｙｐｅは０に等しくなるように設定される。

変換係数の（ｎＴｂＳ）×（ｎＴｂＳ）アレイｄは、次のように導き出される。
１．ｘ＝０．．ｎＴｂＳ−１、ｙ＝０．．ｎＴｂＳ−１の一時残差サンプルｒＴ［ｘ］［ｙ］の各（縦）列は、列ｘ＝０．．ｎＴｂＳ−１ごとに、変換ブロックのサイズｎＴｂＳ、ｙ＝０．．ｎＴｂＳ−１のリストｒ［ｘ］［ｙ］及び変換型変数ｔｒＴｙｐｅを入力として、「フォワード変換処理」の項で指定されるような１次元変換処理を起動することにより、ｘ＝０．．ｎＴｂＳ−１、ｙ＝０．．ｎＴｂＳ−１であるｅ［ｘ］［ｙ］に変換され、その出力は、ｙ＝０．．ｎＴｂＳ−１のリストｅ［ｘ］［ｙ］である。
２．ｘ＝０．．ｎＴｂＳ−１、ｙ＝０．．ｎＴｂＳ−１である中間サンプル値ｇ［ｘ］［ｙ］は、次のように導き出される。
ｓｈｉｆｔ１はｌｏｇ２（ｎＴｂＳ）−１＋ｂｉｔＤｅｐｔｈ−８に等しい。
ここで、ｂｉｔＤｅｐｔｈは、ｃｌｄｘが０に等しい場合にｂｉｔＤｅｐｔｈＹに等しく、そうでない場合にはｂｉｔＤｅｐｔｈＣに等しい。
g[ x ][ y ] = (e[ x ][ y ] + (1＜＜(shift1-1) ) ＞＞ shift1
３．取得されるｘ＝０．．ｎＴｂＳ−１、ｙ＝０．．ｎＴｂＳ−１のアレイｇ［ｘ］［ｙ］の各（横）行は、行ｙ＝０．．ｎＴｂＳ−１ごとに、変換ブロックのサイズｎＴｂＳ、ｘ＝０．．ｎＴｂＳ−１のリストｇ［ｘ］［ｙ］及び変換型変数ｔｒＴｙｐｅを入力として、「フォワード変換処理」の項で指定されるような１次元変換処理を起動することにより、ｘ＝０．．ｎＴｂＳ−１、ｙ＝０．．ｎＴｂＳ−１のｈ［ｘ］［ｙ］に変換され、その出力は、ｘ＝０．．ｎＴｂＳ−１のリストｈ［ｘ］［ｙ］である。
４．フォワード変換係数ｄは次のように導き出される。
ｓｈｉｆｔ２はｌｏｇ２（ｎＴｂＳ）＋８に等しい。
d[ x ][ y ] = (h[ x ][ y ] + (1＜＜(shift2-1)) ) ＞＞ shift2

［フォワード変換処理］
この処理への入力は、
− 残差サンプルのサンプルサイズを指定する変数ｎＴｂＳ、
− ｊ＝０．．ｎＴｂＳ−１である要素ｘ［ｊ］を有する変換係数ｘのリスト、
− 変換型変数ｔｒＴｙｐｅ
である。
この処理の出力は、ｉ＝０．．ｎＴｂ−１である要素ｙ［ｉ］の変換済みサンプルｙのリストである。
ｔｒＴｙｐｅの値に応じて、次のことが適用される。
− ｔｒＴｙｐｅが１に等しい場合、次の変換行列乗算が適用される。

式中、変換係数アレイｔｒａｎｓＭａｔｒｉｘは、ＨＥＶＣ／ＳＨＶＣ仕様の式Ｈ８−２７７で定義されている。
− そうでない場合（ｔｒＴｙｐｅが０に等しい場合）には、次の変換行列乗算が適用される。

式中、変換係数アレイｔｒａｎｓＭａｔｒｉｘは、ＨＥＶＣ／ＳＨＶＣ仕様の式Ｈ８−２７９及びＨ８−２８１で定義されている。

ＳＨＶＣ、サイマルキャスト及びフルトランスコーディングと比較した場合の本開示による符号化の効果を以下に示す。

ＳＨＶＣ、サイマルキャスト及びフルトランスコーディングは、すべて、ＲＤＯＱ及び符号データ隠蔽を使用するが、本開示の提案はレイヤ０に関してはそれらを使用し、レイヤ１に関しては使用しない。
低遅延構成：
サイマルキャストと比較して−１１．６％（ＳＨＶＣに対しては＋１．５％）、高忠実度と比較して０％（ＳＨＶＣでは２４．３％の損失）、低忠実度及びＳＨＶＣと比較して８．７％の損失（フルトランスコーディングは＋１２．９％を有する）。
ランダムアクセス構成：
サイマルキャストと比較して−１２．９％（ＳＨＶＣに対しては＋１０．３％）、高忠実度と比較して０％（ＳＨＶＣでは１４．４％の損失）、低忠実度及びＳＨＶＣと比較して１０．４％の損失（フルトランスコーディングは＋１２．１％を有する）。

このように、ＳＨＶＣがダウンリンクでバージョン１ＨＥＶＣと同じ性能で、同様にバージョン１ＨＥＶＣに準拠して高忠実度ビットストリームを提供できることを発明者らは示した。低忠実度レイヤは、サイマルキャストと比較してオーバヘッドを減少させるためにアップリンクで高忠実度ベースレイヤを利用する。低忠実度レイヤを再構成するために、高忠実度レイヤから残差が再生成される。トランスコーダは、このＳＨＶＣビットストリームを使用して、トランスコーディングで実現可能な符号化効率より高い符号化効率で、モード及び運動の推定なしで低忠実度ビットストリームを導き出すことができる。ＶＰＳ以降の構文に変更はない。

以下に、トランスコーダの例示的な代替例の説明を開示する。エンコーダは、通常デコーダと同一の復号処理を実行する必要があるので、ここで指定されることはエンコーダ及びデコーダの双方に適用される。代替例は一例としてＳＨＶＣに関連して説明されるが、説明は一般にＨＥＶＣ並びにスケーラブルビデオ／画像符号化方式及び非スケーラブルビデオ／画像符号化方式にも適用される。

［代替例１］
代替例１は、図７及び図８を参照した先の説明、並びにＶＰＳ（ビデオパラメータセット）拡張及び復号処理に関連する。

尚、説明は残差の生成のためにレイヤ間基準画像を使用する。別の方式はレイヤ０のインループフィルタリングの後に再構成が使用されることを定義するものになるだろう。それらの画像は通常同一である。この場合、ＲＰＳ（基準画像セット）でレイヤ間基準画像の指示を送信することは必要とされない。これによりＨＥＶＣバージョン１により類似する高レベルのレイヤが形成されるだろうが、ＲＰＳを修正する必要はなく、レイヤ間基準画像が基準画像リストの最終位置にない場合に基準索引を修正する必要はなく、シングルレイヤビットストリームにトランスコーディングするときに、レイヤ間基準画像がイントラ符号化される場合にスライス型を修正する必要もない。

また、図７〜図８は、予測Ｐに関してレイヤ０からの運動が利用可能になることを示すことがわかる。そのような情報が使用されない場合、レイヤ０からの運動を利用可能にする必要はない。

更に、図７〜図８は、変換及び逆変換が使用されることを示すことがわかる。ブロック又はビットストリームが変換を使用しないと指示される場合、変換及び逆変換を省略できる。この例は、変換スキップｔｒａｎｓｆｏｒｍ＿ｓｋｉｐ＿ｆｌａｇに関して本例の提案の復号処理でも説明される。ロスレス符号化が使用される場合に、図に示される変換、量子化、逆量子化及び逆変換を同様に省略できる。この一例は、ｃｕ＿ｔｒａｎｓｑｕａｎｔ＿ｂｙｐａｓｓ＿ｆｌａｇに関して本例の提案の復号処理で説明される。

［代替例２］
更なる代替例によれば、サイド情報は、ＳＨＶＣに関するＳＥＩ（補助エンハンスメント情報）メッセージの付加的な変換及び量子化のためのレイヤ間の特定の従属性及び復号処理の仕様を含む。従属性の一例は、代替例１のＶＰＳ拡張で示され、従属性情報を使用する復号処理の一例は、代替例１の復号処理で示される。デコーダがＳＥＩメッセージを受信すると、デコーダは高次のレイヤに関してエンコーダ／デコーダ整合（同一の再構成画素値）を取得するために基準レイヤを使用することにより、スケーラブルビットストリームの高次レイヤをどのようにして復号すべきかに関する知識を得る。

［代替例３］
別の代替例によれば、サイド情報は、ＳＨＶＣに対する補助画像に関して付加的な変換及び量子化のためのレイヤ間の特定の従属性及び復号処理の仕様を含む。従属性の一例は、代替例１のＶＰＳ拡張で示され、従属性情報を使用する復号処理の一例は、代替例１の復号処理で示される。デコーダが補助画像を受信すると、デコーダは、高次のレイヤに関してエンコーダ／デコーダ整合（同一の再構成画素値）を取得するためにビットストリームの基準レイヤを使用することにより、補助画像をどのようにして復号すべきかに関する知識を得る。

［代替例４］
ビットストリームが変換及び量子化のために残差再生成、追加復号処理を使用することをデコーダが理解しやすくするために、新たなスケーラビリティの型を更に指定できる。一例は、新たなスケーラビリティの型を代替例１に追加することである。

１に等しいｓｃａｌａｂｉｌｉｔｙ＿ｍａｓｋ＿ｆｌａｇ［Ｉ］は、以下の表２のｉ番目のスケーラビリティ次元に対応するｄｉｍｅｎｓｉｏｎ＿ｉｄ構文要素が存在することを示す。０に等しいｓｃａｌａｂｉｌｉｔｙ＿ｍａｓｋ＿ｆｌａｇ［Ｉ］は、ｉ番目のスケーラビリティ次元に対応するｄｉｍｅｎｓｉｏｎ＿ｉｄ構文要素が存在しないことを示す。

これは、例えばＶＰＳにおいてサイド情報として信号伝達することができる。

［代替例５］
代替例１は、主にＳＮＲスケーラビリティに関して指定される。基準画像（レイヤ０）の解像度が現在画像（例えば、レイヤ１）より高い場合、ダウンサンプリング処理を定義し、どのフィルタ係数を使用すべきかを指定することが必要とされる。ダウンサンプリングは、低解像度の残差再生成で使用される前に高解像度出力に対して適用される。

これを実行するための１つの方法は、レイヤ間基準画像を生成するときにエンハンスメントレイヤで解像度が基準レイヤより低い場合に代替フィルタが使用されるように、ＳＨＶＣにおけるリサンプリング処理を修正する。０．５×スケーラビリティの場合の一例は、フルペル位置（位相０）に関するルマフィルタ及びクロマフィルタが低域フィルタに対応し、現在定義されているようなオールパスフィルタ（ｄｉｒａｃ）には対応しないように、それらのフィルタを修正するだけである。

ＳＨＶＣに関しては、ＲｅｓｉｄｕａｌＲｅｇｅｎｅｒａｔｉｏｎＦｌａｇ［ｃｕｒＬａｙｅｒ］［ｒｌｄ］が１である場合にリサンプリングが実行されるように、レイヤ間基準画像に関するリサンプリング処理を修正することが要求される。

［レイヤ間基準画像に関するリサンプリング処理］
ＳａｍｐｌｅＰｒｅｄＥｎａｂｌｅｄＦｌａｇ［ｃｕｒｒＬａｙｅｒＩｄ］［ｒＬｌｄ］又はＲｅｓｉｄｕａｌＲｅｇｅｎｅｒａｔｉｏｎＦｌａｇ［ｃｕｒｒＬａｙｅｒＩｄ］［ｒＬｌｄ］が１に等しい場合、基準レイヤ画像ｒＩＰｉｃのサンプルアレイを入力とし、リサンプリング画像ｒｓＰｉｃのサンプルアレイを出力として、画像サンプルリサンプリング処理が起動される。

どのフィルタ係数を使用すべきかをＶＰＳ、ＳＰＳ、ＰＰＳ又はスライスレベルで指定するか、あるいはＳＥＩメッセージで指定するか又は新たな補助画像型に関して定義することができる。そこで、デコーダは、この情報を低解像度の復号に使用する前に、高解像度の適切なダウンサンプリングを実行するためにこの情報を使用することができる。

[代替例６］
上述の代替例のうちいくつかにおいて、パーシング／復号された変換係数は、追加復号処理（変換及び量子化）により上書き又は改善される。

どの色成分を適用するかをビットストリームでサイド情報として指示できる。例えばルマ又は各クロマチャネルに適用されるか、あるいはすべての色成分に適用される場合である。その場合、「正規の」復号処理は、適用されると指示された色成分に関して追加の変換及び量子化により前処理されるだけである。

これは、ＶＰＳ、ＳＰＳ、ＰＰＳ、スライスヘッダレベル又は符号化単位レベルでサイド情報として信号伝達できるか、あるいはＳＥＩメッセージで信号伝達できる。

以上説明した実施形態及び代替例は、同様に説明されたトランスコーディング方法及びトランスコーディング構成を支援するためにエンコーダ又はデコーダ構成で利用されてもよい。符号化及び／又は復号構成及び方法により、ビデオビットストリームを符号化できると共に、符号化ビデオビットストリームを復号するために必要なサイド情報を生成することができる。

図１０を参照すると、エンコーダでビデオビットストリームが符号化され、ビデオビットストリームに関連するサイド情報が生成されることが概略的に示される。符号化ビデオビットストリーム及び生成されたサイド情報は、共に、アップリンクを介して、ビデオビットストリームが適応される適応ノードへ送信される。続いて、適応後のビデオビットストリームは、ダウンリンクを介して送信され、デコーダで受信され、デコーダにおいて出力ビデオビットストリームに復号される。図１０は、適応処理に適用された場合の提案されるシステムの全体ブロック図を示す。エンコーダは、通常ＨＥＶＣメインプロファイルエンコーダなどの非スケーラブルビデオエンコーダである。更に、サイド情報は入力ビデオ及びエンコーダからの入力に基づいて生成される。

生成されたサイド情報は、主符号化ビデオビットストリームに加えて、すなわちアップリンクを介して送信される。サイド情報の送信に使用されるビットレートは、通常主ビデオデータのビットレートよりはるかに低く、例えば主ビデオデータの１０％程度である（以下の更に詳細な性能の説明を参照）。サイド情報は、主ビデオとは別に、例えば異なる物理チャネル又は論理チャネルを介して送信されてもよい。しかし、通常サイド情報は、主ビデオデータとインタリーブされた形で送信される。サイド情報を送信する方法の１つは、主ビットストリームにインタリーブされるＨＥＶＣ補助エンハンスメント情報メッセージ（ＳＥＩ）を使用する。別の方法は、他のＨＥＶＣＮＡＬユニット（ネットワーク適応レイヤ）を使用し、それらはスケーラブルビデオレイヤがＳＨＶＣで区別されるのと同様に、例えばＮＡＬユニットヘッダのｎｕｈ＿ｌａｙｅｒ＿ｉｄの値により主ビットストリームから区別されてもよい。

サイド情報は、主ビデオデータに加えて、適応ノードに提供され、適応ノードにより適応処理で利用される。

例えば図１１によるトランスコーダは、その後この情報を使用して、スケーラブルビットストリームで部分的に符号化された低解像度のうち１つへのトランスコーディングの速度を次のように増加させることができる。

サイド情報生成により効率のよいＲＤＯを実行するためには、適応ノード、例えば画素及び／又は動きのリサンプリングに使用されるフィルタで実行される動作、並びにトランスコーダのエンコーダ段で実行される動作（動き補償予測、イントラ予測、変換、量子化、再構成、ループフィルタリングなどを含む動き補償再構成）の正確な知識を得ることが必要であり、すなわちトランスコーダのエンコーダ段でサイド情報が実際にどのように適用されるかを正確に知ることが必要である。サイド情報生成でその知識を得るためのオプションの１つは、サイド情報生成及びトランスコーダが「閉じた解」として、すなわち完全な解を提供する単一のベクトルにより提供されるだろうということである。別のオプションは、トランスコーダの動作の一部又はすべてがＨＥＶＣ仕様の付録などの標準仕様で規格化されるだろうということである。

ＨＥＶＣを使用する一例として、本実施形態は、エンコーダにより次のステップによって実行可能である。
１．エンコーダ又は別のエンティティは、低解像度のピクチャを構成するためにダウンサンプリングを使用する。ダウンサンプリング方法は、エンコーダと適応ノードとの間で、好ましくは規格化されて合意される必要がある。
２．エンコーダは、最高解像度のピクチャを符号化し、ＨＥＶＣビデオ符号化規格に適合するビットストリームを出力する。ブロック構成、ブロックモード、イントラモード、動きベクトル及び動き補償に使用される基準ピクチャが記憶される。
３．エンコーダは、ブロック構成を決定し、ピクチャ中のすべてのブロックに関して動き推定及びモード選択を実行することにより、低解像度の各ピクチャを符号化する。以下のものを含んでもよいサイド情報が生成される。
ａ．符号化単位（ＣＵ）、予測単位（ＰＵ）及び変換単位（ＴＵ）のブロック区切りサイズ。これらは、高解像度ピクチャからのサイズの予測を伴って又は伴わずに符号化されてもよい。例えば高解像度が特定のブロックに関して６４×６４符号化単位を選択し、低解像度が２倍低い場合に、解像度３２×３２及び６４×６４は、対応するピクチャ領域に関して起こる尤度が高いと予測されるので、他のブロックサイズより小さく見られる。同様に、変換サイズが８×８である場合に、変換サイズ８×８及び４×４は、他の変換サイズより小さく見られる。これは、例えば現在解像度のブロックサイズを符号化するときに対応する高解像度からのブロックサイズをＣＡＢＡＣコンテクストに含めることにより実現可能である。この場合本明細書においては、特定の情報をＣＡＢＡＣコンテクストに含めることは、その情報に基づいてＣＡＢＡＣコンテクストを選択することとして理解されるべきである。
ｂ．符号化単位に関するブロックモード。同様にブロックモードは、高次のレイヤからの予測を伴って又は伴わずに符号化されてもよい。予測される場合、現在ブロックのモードを予測するために、高次レイヤの対応する画素領域のブロックモードが使用される。例えば高解像度ピクチャ中の対応するブロックがイントラ符号化される場合に、低解像度ブロックに関してイントラモードは低く見られる。ブロックサイズと同様に、予測はモードを符号化する場合に並列ブロックモードをＣＡＢＡＣコンテクストに含めることにより実現可能である。
ｃ．先に説明したのと同様に、高品質レイヤから予測されるか否かにかかわらず、モードがイントラであるブロックに関するイントラ予測モード。
ｄ．先に説明したのと同様に、高品質レイヤから予測されるか否かにかかわらず、モードがイントラであるブロックに関する動き補償のための動きベクトル及び基準ピクチャ。動きベクトルの予測は、低品質レイヤで動きベクトルを符号化するために高品質レイヤの動きベクトルに関する情報をＣＡＢＡＣコンテクストに含めることにより実現可能であるか、あるいは適応動きベクトル予測（ＡＭＶＰ）又は時間的動きベクトル予測（ＴＮＶＰ）などの技術を使用する予測動きベクトル符号化によって動きベクトルの予測は可能であり、その場合、動きベクトル予測子は、高品質レイヤの動きベクトルに基づいて導き出され、低品質レイヤの動きベクトルを符号化する場合に、実際の低品質ベクトルと動きベクトル予測子との差が符号化される。
ｅ．すべてのブロックに関する量子化パラメータ。
ｆ．先に説明したのと同様に、高品質レイヤから予測されるか否かにかかわらず、ピクチャに関するＳＡＯパラメータ。

以上のサイド情報ａ〜ｆの選択は、レート歪み最適化（ＲＤＯ）技術を採用することにより実行可能である。そのような技術では、通常符号化モード又はパラメータ決定の影響は、ビデオを再構成した後の結果として発生するビデオ歪み（Ｄ）及び符号化に必要とされるビットレート（Ｒ）の双方に対する決定の影響を考慮することにより評価される。この場合、Ｄは通常再構成ビデオ及び対応するオリジナルの（歪みのない）ビデオの関数、例えば平均二乗誤差（ＭＳＥ）又は信号対雑音比（ＳＮＲ）又はピーク信号対雑音比（ＰＳＮＲ）の関数である。Ｄ及びＲの双方の影響は、通常費用関数Ｄ＋ｌａｍｂｄａ＊Ｒ、すなわち重み付け係数ラムダを使用する歪みとビットレートの加重和を最小限に抑えることにより考慮される。費用関数は、通常いくつかの異なるパラメータ選択肢に関して評価され、費用関数を最小にする選択肢がエンコーダにより選択される。サイド情報符号化の場合、考慮する歪みＤ_transcodedは、トランスコーディング処理でサイド情報を使用し、その後トランスコーディングされたビデオを復号した後に観測されると考えられる歪みである。更に、２つのビットレート、アップリンクで（すなわち、エンコーダからトランスコーダへビデオを送信する場合に）サイド情報を符号化するために要求されるビットレートＲ_{sideinformation}と、トランスコーディング後のビデオを表現するために要求されるビットレートＲ_transodedとが考慮されてもよい。サイド情報が高品質ビデオとは無関係に符号化される場合、サイド情報はトランスコーディング後のビデオでそのまま使用されてもよく、従って、Ｒ_{sideinformation}は、Ｒ_transcodedで直接線形寄与を有すると考えることができ、その場合Ｄ_transcoded＋ｌａｍｂｄａ＊Ｒ_{sideinformation}を費用関数として使用可能である。サイド情報が高品質ビデオに対する従属性を伴って符号化される場合には、Ｒ_{sideinformation}とＲ_transcodedとの間にそのような関係は存在しないと考えられるので、２つのレートは、２つの重み付け係数ｌａｍｂｄａ_{sideinformation}及びｌａｍｂｄａ_tanscodedを使用して、費用関数においてＤ_transcoded＋ｌａｍｂｄａ_{sideinformation}＊Ｒ_{sideinformation}＋ｌａｍｂｄａ_transcoded＊Ｒ_transcodedのように個別の項を介して考慮されてもよい。
４．エンコーダは、サイド情報で送信されたサイズ／モード／ベクトル／ＱＰ／ＳＡＯを使用することにより低解像度ピクチャを再構成する。
ａ．ブロックがイントラであるか又はインターであるかに応じて、ブロックモードと、イントラ予測モード又は動きベクトル及び基準ピクチャのいずれかを適用することにより、残差ブロックを構成する。
ｂ．既知の量子化方法に従って残差ブロックを量子化する。尚、量子化方法は一般に規格化されないので、この方法は、エンコーダと適応ノードとの間で合意されるか、あるいは規格化される（好適）ことが必要である。
ｃ．ブロックを逆量子化し、それを予測に加算し、ＨＥＶＣ仕様に従った再構成ブロックを形成する。
ｄ．ピクチャに関してデブロッキングフィルタ及びＳＡＯを適用する。そこで、再構成ピクチャは、適応ノードの後にストリームを復号するデコーダが復号するものに対してビットパーフェクトとなる。

同一の例に従って、これらのステップは、入力高解像度ビットストリーム及びサイド情報から単一レイヤ低解像度ビットストリームを生成するために適応ノードにより実行されてもよい。
１．高解像度ビットストリームを復号する。ブロック構成、ブロックモード、イントラモード、動き補償正に使用される動きベクトル及び基準ピクチャを記憶する。
２．合意／規格化されたダウンサンプリング方法を使用することにより、高解像度ピクチャはダウンサンプリングされる。
３．適応ノードは、ブロックサイズ、ブロックモード、イントラ予測モード、動きベクトル及び動き補償正のための基準ピクチャ、量子化パラメータ及びＳＡＯパラメータをサイド情報ビットストリームから復号する。尚、それらのパラメータの一部又はすべては、高解像度ビットストリームの復号中に記憶されたパラメータから予測されてもよい。それらの復号パラメータは、出力ビットストリームに含められる。
４．ブロックごとに、ブロックサイズ、モード（イントラモード及びインターモード並びにパラメータを含む）及びＱＰが残差ブロックを形成するために使用される。次に、それらの残差ブロックは、先に説明した既知の量子化方法により量子化される。その結果取得される係数は、出力ビットストリームに含められる。
５．各ブロックを逆量子化し、それを予測に加算し、ＨＥＶＣ仕様に従った再構成ブロックを形成する。
６．ピクチャに関してデブロッキングフィルタ及びＳＡＯを適用する。再構成ピクチャは、出力ストリームを復号する結果に対してビットパーフェクトとなる。出力ストリームは、シングルレイヤＨＥＶＣストリームに適合する。

上記の適応ステップ４及び５は、ブロックごとのレベルで実行されなければならず、従って、ステップ５でブロックを再構成する場合に、同一のピクチャで以前に復号されたブロックの再構成処理の結果が考慮に入れられる。これは通常イントラ予測モードが使用される場合であり、イントラ予測モードが近傍ブロックの復号画素に基づいて予測信号を発生するからである。復号処理が画素レベルでのみ影響を受ける場合には、新たな方式を実現するために既存のデコーダ実現形態を使用するほうが簡単であると思われるので、そのようなブロックごとの処理を回避することが望ましいだろう。これはイントラ予測ブロックがまったく使用されない場合に所定のピクチャに関して実現可能である。あるいは、再構成インター予測ブロックに基づくイントラ予測ブロックに関する予測が無効化される場合（「制約付きイントラ予測」と呼ばれる）にこれを実現可能であり、更に例えばイントラ符号化ブロックを互いに隣接させることを回避することにより、イントラ予測ブロック間の予測が回避される。エンコーダはそのような制約を満たす選択肢を有する。しかし、例えば既存のトランスコーダ又はデコーダの実現形態を使用して、画素レベル処理のみを実行する場合など、トランスコーダ又はデコーダがこのことを利用するためには、トランスコーダ又はデコーダはそのような制約がエンコーダにより満たされていることを認知する必要がある。従って、エンコーダは例えば制約が満たされたか否かを示すフラグ又は標識を使用することにより、エンコーダがそのような制約に従っていたことを信号伝送してもよい。トランスコーダ又はデコーダがフラグを受信し、制約が満たされていることをそのフラグが示す場合に、トランスコーダ又はデコーダはピクチャレベル処理、あるいはブロックレベル処理を実行できる。トランスコーダ又はデコーダがフラグを受信し、制約は満たされていないことをそのフラグが示す場合に、トランスコーダ又はデコーダはブロックレベル処理を実行でき、あるいはトランスコーダ又はデコーダがブロックレベル処理の使用を支援できない場合には、ビデオを復号できないことを指示することが可能である。

先の案内付きトランスコーディングアーキテクチャの利点は、図２に示されるような既知のトランスコーディングアーキテクチャと比較して、追加のサイド情報が最適化モード／動き情報をトランスコーダの符号化側に提供でき、それによりトランスコーダにおける符号化段が通常はトランスコーディングを非常に複雑にする主な理由であるモード／動き推定を含む必要がなくなる一方で、トランスコーディングされるビットストリームに関して非常に高い圧縮効率を実現できることである。尚、サイド情報の生成はシステムの送信側に位置しているので、圧縮ビットストリームしか利用できない図２による従来のトランスコーダが実行可能な生成の場合とは異なり、低解像度モード／動き情報の生成にオリジナルのビデオデータを利用できる。提案されるシステムは、モード／動きの最適化でオリジナルのビデオデータを利用可能であることにより、従来のトランスコーディングと比較して、トランスコーディングされるビットストリームのわずかに高い圧縮効率、すなわちわずかによいダウンリンク帯域幅利用度を実現することができる。

図１２を参照して、サイド情報の多重利用の一例を説明する。この場合、残差改善のために、サイド情報による案内付きトランスコーディングが実行される。図１２に示されるように、サイド情報はモード／動き情報（図１２の下部に示される）及び低解像度ビデオに関する係数情報（図１２の上部に示される）の双方を含む。２種類のサイド情報は、例えばレイヤ識別子のＮＡＬ単位型により区別される異なるＮＡＬ単位を使用して、アップリンクで送信される単一のストリームとしてインタリーブされるのが好ましい（図示せず）。

２つの個別のサイド情報入力及び２つのサイド情報利用ユニット１２０、１４０として示されるが、単一のサイド情報ビットストリームとしてインタリーブされた２つの個別のサイド情報ビットストリームの受信を可能にする単一のサイド情報利用ユニット１２０、１４０を有することも同等に可能である。

低解像度係数データは、従来のシングルレイヤビデオ又はスケーラブルビデオの場合と同様に予測残差データを含んでもよい。低解像度係数データは、スケーラブル符号化（例えば、ＳＨＶＣ）と同様の予測メカニズムを使用して、ダウンサンプリング高解像度画素データへの従属性を伴って符号化されてもよく、相違点は、レイヤ間予測のためにダウンサンプリング動作が含まれることである。「残差デコーダ」の出力は、低解像度残差データである。「残差デコーダ」は、動き補償再構成メカニズムを実行することなく低解像度残差データを再構成してもよい。

トランスコーダのエンコーダ段は、動き補償残差生成と、その後に続く残差調整（結果は調整済み残差データである）、変換係数（結果は変換係数及びビットストリーム生成である）を含む。動き補償残差生成は、目標解像度までダウンサンプリングされた主ビデオ画素データを入力データとして使用し、動き補償残差生成は、サイド情報として受信された低解像度モード／動きデータを利用することにより実行される（データは、主ビデオからのダウンサンプリング済みモード／動きデータに応じて任意に符号化される）。残差調整段では、動き補償残差生成で生成された残差データは、残差デコーダにより復号された低解像度残差データに基づいて調整される。残差調整動作は、例えば２つの残差信号を加算すること又は２つの残差信号を互いに減算することを含むことが可能だろう。その結果取得される調整済み残差データは変換され、量子化され、低解像度モード／動きデータと共にエントロピー符号化される。

尚、図１２に示される例の代替例として、動き補償残差生成に入力される画素データ又は変換・量子化段から出力される変換係数に対して、残差調整動作に類似する調整動作が実行されることも可能だろう。

尚、図１２には示されないが、本例で利用されるサイド情報は、変換・量子化段及び残差調整段を更に制御することも可能だろう。

先に示したように、トランスコーディングを更に向上させるために、サイド情報は、所定の入力ビデオフォーマットに関連する残差情報、並びに又はあるいは符号化パラメータの探索範囲を含むことができる。サイド情報及び符号化ビデオビットストリームは、インタリーブビットストリームとして共に送信可能であるか、あるいは１つの搬送波の中で個別のレイヤとして送信されるか又は個別の搬送波又はチャネルで送信されることが可能である。提供されるサイド情報を受信側トランスコーディング構成１００が利用できるようにするために、任意に提供されるサイド情報の指示並びに提供されるサイド情報の使用の可能性の指示がトランスコーディングノードへ送信され、トランスコーディングノードにより受信される。従って、トランスコーダ構成１００はそのような指示の存在を検出し、提供されるサイド情報をどのように解釈すべきかを検出するように動作可能な指示識別ユニットを備える。

前述のように、サイド情報は、案内付きトランスコーダの可能な目標出力解像度又は目標出力動作ポイントに関連するモード／動き情報及び／又は変換係数を含んでもよい。サイド情報は、画素リサンプリング及び／又は動きリサンプリングに関するパラメータ（例えば、使用されるフィルタ）、目標出力解像度に関するループフィルタパラメータ（例えば、デブロッキングパラメータ又はＳＡＯ、サンプル適応オフセット、パラメータ）、トランスコーダの符号化段で使用されるべき量子化パラメータ又は他の符号化パラメータに関する情報を更に含んでもよい。サイド情報中のパラメータは、主ビデオビットストリーム中の関連パラメータへの従属性を伴って符号化可能であり、例えばスケーラブル符号化と同様に、差分符号化が適用されることが可能である。

前述の適応方法は、時間の経過に伴って変更される可能性があり、例えばビデオの異なるピクチャに対して異なる方法が適用されてもよい。従って、サイド情報の種類及び量は変更されてもよい。例えばいくつかのピクチャに関しては案内付きトランスコーディングのためのサイド情報が送信されてもよいが、他のいくつかのピクチャ（例えば、非基準ピクチャ）に関しては、サイド情報は送信されなくてもよい。そのような変更を使用して、送信されるサイド情報の量と、トランスコーディングの複雑さとのトレードオフを選択できる。

図１３を参照して、一実施形態に従ってビデオビットストリームをトランスコーディングするトランスコーダ構成１００の一般的実施形態を説明する。構成は、先に説明したトランスコーディング方法の実施形態のブロック図又は系統図を参照して説明されたすべての機能を実行するように適応されるか、構成されるか又は動作可能である。

トランスコーディング構成は、高忠実度フォーマットである入力ビデオフォーマットでビットストリームを受信し、前記ビデオビットストリームに関連するサイド情報を受信するように構成される。サイド情報は、少なくとも、
低忠実度入力ビデオフォーマットでオリジナルのビデオソースを表すビデオビットストリームと、
オリジナルのビデオソースの知識に基づいて最適化された符号化パラメータと、
オリジナルのビデオソースと高忠実度フォーマットの復号バージョンとの間の残差を示す変換係数と
を含む。

トランスコーダ構成は、
トランスコーディング案内情報を生成するために、前記受信されたサイド情報を復号し、
受信されたビットストリーム及び生成されたトランスコーディング案内情報に基づいて低忠実度出力フォーマットによる前記ビットストリームの表現を推定し、
低忠実度出力フォーマットによる前記ビットストリームの推定表現を改善するために、サイド情報の変換係数を低忠実度出力フォーマットによる前記ビットストリームの推定表現から生成された変換係数に加算するように更に構成される。トランスコーダは、低忠実度出力フォーマットによる前記ビットストリームの表現の改善された推定を符号化するように更に構成される。

一実施形態によれば、オリジナルのビデオソースと、高忠実度フォーマットの復号バージョンとの間の残差は、量子化残差である。

トランスコーダ構成は、前記受信されたビデオビットストリームの前記表現として画素データを提供するために、前記受信されたビデオビットストリームを復号するように更に構成される。更に、前記サイド情報は前記所定の入力ビデオフォーマットに関連する残差情報を更に含んでもよい。

トランスコーダ構成は、前記サイド情報を前記ビデオビットストリームとは別に受信するか又は前記ビデオビットストリームと共に受信するように更に構成されてもよい。

更なる実施形態によれば、トランスコーダ構成は前記ビデオビットストリームの中の前記サイド情報の存在に関する指示を識別するように更に構成される。前記所定の入力ビデオフォーマット及び前記所定の出力ビデオフォーマットは、ビデオの異なる色表現、又は異なるビデオコーデックを含んでもよい。

トランスコーディング構成１００は、基地局ノード又はビデオプロバイダノードなどのネットワークノード（固定又は無線）、あるいは携帯電話又はラップトップなどのユーザ機器で実現可能である。

図１３に示されるような１つの態様によれば、トランスコーディング構成は、入力ビデオフォーマットでビットストリームを受信するように構成されたビデオ受信機１１０と、前記ビデオビットストリームに関連するサイド情報を受信するように構成されたサイド情報受信機１２０とを備える。

トランスコーダ構成は、ビットストリームを復号するためのビデオデコーダ１３０と、トランスコーディング案内情報を生成するために前記受信されたサイド情報を復号するように構成されたサイド情報デコーダ１４０とを更に備える。トランスコーダ構成は、受信されたビットストリーム及び生成されたトランスコーディング案内情報に基づいて、低忠実度出力フォーマットによる前記ビットストリームの表現を推定し、低忠実度出力フォーマットによる前記ビットストリームの推定表現を改善するために、サイド情報の変換係数を低忠実度出力フォーマットによる前記ビットストリームの推定表現から生成された変換係数に加算するように構成されたプロセッサ１４５を備える。サイド情報受信機１２０、サイド情報デコーダ１４０及びプロセッサ１４５は、サイド情報（ＳＩ）利用部１５５として示される。

トランスコーダ構成は、低忠実度出力フォーマットによる前記ビットストリームの表現の改善された推定を符号化するように構成されたエンコーダ１５０を更に備える。

図１４を参照して、ビデオプロバイダ構成２００を説明する。ビデオプロバイダ構成２００は、先に説明したような案内付きトランスコーディングを支援するために、先に説明した実施形態に従って動作し、符号化を可能にするように効果的に構成される。

ビデオプロバイダ構成２００は、ビットストリームを符号化するビデオビットストリームエンコーダ２１０と、サイド情報を生成するサイド情報生成器２２０とを備える。更に、高忠実度フォーマットである入力ビデオフォーマットでビットストリームを送信し、前記ビデオビットストリームに関連するサイド情報を送信するビデオプロバイダ送信機２３０。サイド情報は、少なくとも、
低忠実度入力ビデオフォーマットでオリジナルのビデオソースを表すビデオビットストリームと、
オリジナルのビデオソースの知識に基づいて最適化された符号化パラメータと、
オリジナルのビデオソースと高忠実度フォーマットの復号バージョンとの間の残差を示す変換係数と
を含む。

ビデオプロバイダ構成２００は、ネットワークノード又はユーザ機器に含まれることが可能である。

以下に、図１５を参照して、トランスコーダ構成３００の一実現形態の例を説明する。トランスコーダ構成３００は、１つ以上のプロセッサ３１０などの処理回路と、メモリ３２０とを備える。この特定の例では、先に説明したステップ、機能、手順、モジュール及び／又はブロックのうち少なくともいくつかは、処理回路により実行するためにメモリにロードされるコンピュータプログラムで実現される。処理回路及びメモリは、通常のソフトウェア実行を有効化するために互いに接続される。メモリ３２０は、ビデオビットストリームを受信するためのソフトウェア３２１、サイド情報を受信するためのソフトウェア３２２、トランスコーディング案内情報を生成するためのソフトウェア３２３及び符号化のためのソフトウェア３２４などの異なるソフトウェアモジュールを備えてもよい。入力パラメータ及び／又は結果として得られる出力パラメータなどの関連データの入力及び／又は出力を可能にするために、オプションの入出力デバイス３３０が処理回路及び／又はメモリに相互接続されてもよい。

以下に、図１６を参照して、ビデオプロバイダ構成４００の一実現形態の例を説明する。トランスコーダ構成４００は、１つ以上のプロセッサ４１０などの処理回路と、メモリ４２０とを備える。この特定の例では、先に説明したステップ、機能、手順、モジュール及び／又はブロックのうち少なくともいくつかは、処理回路により実行するためにメモリにロードされるコンピュータプログラムで実現される。処理回路及びメモリは、通常のソフトウェア実行を有効化するために互いに接続される。メモリ４２０は、ビデオビットストリームを符号化するためのソフトウェア４２１、サイド情報を生成するためのソフトウェア４２２、符号化ビデオ及びサイド情報を送信するためのソフトウェア４２３などの異なるソフトウェアモジュールを備えてもよい。入力パラメータ及び／又は結果として得られる出力パラメータなどの関連データの入力及び／又は出力を可能にするために、オプションの入出力デバイス４３０が処理回路及び／又はメモリに相互接続されてもよい。

「コンピュータ」という用語は、特定の処理タスク、判定タスク又は計算タスクを実行するためにプログラムコード又はコンピュータプログラム命令を実行可能な何らかのシステム又はデバイスとして一般的な意味で解釈されるべきである。

特定の一実施形態において、コンピュータプログラムは、処理回路又はコンピュータにより実行された場合に、先に説明したトランスコーディング方法及びビデオ提供方法の実施形態に関連して説明されたようなステップ及び機能を処理回路又はコンピュータに実行させるプログラムコードを備える。

プログラムコードは、処理回路により実行された場合に、先に説明したステップ及び／又はタスクの少なくとも一部を実行するように構成された適切な機能モジュールとして編成されてもよい。

ソフトウェア又はコンピュータプログラムは、通常はコンピュータ可読媒体で搬送されるか又はコンピュータ可読媒体に記憶されるコンピュータプログラムとして実現されてもよい。コンピュータ可読媒体は、読み取り専用メモリＲＯＭ、ランダムアクセスメモリＲＡＭ、コンパクトディスクＣＤ、デジタルバーサタイルディスクＤＶＤ、ユニバーサルシリアルバスＵＳＢメモリ、ハードディスクドライブＨＤＤストレージデバイス、フラッシュメモリ又は他の何らかの従来のメモリデバイスを含むが、それらに限定されない１つ以上の取り外し可能な又は取り外し不可能なメモリデバイスを含んでもよい。コンピュータプログラムは、コンピュータ又は同等の処理デバイスの処理回路により実行するために、コンピュータ又は同等の処理デバイスの動作メモリにロードされてもよい。

例えばメモリに記憶されるコンピュータプログラムは、先に説明したステップ、機能、手順及び／又はブロックを処理回路が実行することができるか又は実行するために動作するように処理回路により実行可能なプログラム命令を含む。

従って、ビデオプロバイダ構成及びトランスコーディング構成並びに符号化構成及び復号構成は、コンピュータプログラムを実行する場合に、先に説明したような明確に定義された処理タスクを実行するように構成される。

コンピュータ又は処理回路は、先に説明したステップ、機能、手順及び／又はブロックのみを実行するような専用のコンピュータ又は処理回路である必要はなく、他のタスクを実行してもよい。

実施形態による案内付きトランスコーディングは、そのようなトランスコーディングが実行されない場合にはサイマルキャストが採用されるような環境（例えば、ビデオオンデマンド配信又はビデオ会議）で実行可能な代替構成であり、適応の複雑さを適度に抑えてアップリンクでの節約を提供することができる。更に、案内付きトランスコーディングは、そのようなトランスコーディングが実行されない場合にはスケーラブル符号化が採用されるような環境（例えば、ビデオ会議）で実行可能な代替構成を提供し、アップリンク及びダウンリンクの双方で節約を提供すると共に、復号時の複雑さを低減するが、その一方で、適応時の中程度の複雑さは損なわれるだろう。案内付きトランスコーディングは、そのようなトランスコーディングが実行されない場合には従来のトランスコーディングが採用されるような環境（例えば、ビデオオンデマンド配信）で実行可能な代替構成を更に提供し、特に高効率符号化（Ｎ＞＞１）が使用される場合に、従来のトランスコーディングより適応時の複雑さは低減されるが、符号化の複雑さは増し、アップリンクビットレートはわずかに増加する。送信側が１つであり且つ多くの適応ノードが存在する状況（例えば、ビデオオンデマンド配信）では、適応時の複雑さを低減することは特に適切であると思われる。

先に説明した方法及び装置を多様に組み合わせ、再構成できることは理解されるだろう。

例えば実施形態は、適切な処理回路により実行するためにハードウェア又はソフトウェアで実現されてもよく、あるいはハードウェアとソフトウェアの組み合わせで実現されてもよい。

先に説明したステップ、機能、手順、モジュール及び／又はブロックは、汎用電子回路及び特定アプリケーション向け回路を含めて、ディスクリート回路技術又は集積回路技術などの何らかの従来の技術を使用してハードウェアで実現されてもよい。

特定の例は、１つ以上の適切に構成されたデジタルシグナルプロセッサ及び他の既知の電子回路、例えば特殊化機能を実行するように相互接続されたディスクリート論理ゲート又は特定アプリケーション向け集積回路（ＡＳＩＣ）を含む。

あるいは、先に説明したステップ、機能、手順、モジュール及び／又はブロックは、１つ以上の処理ユニットを含む適切な処理回路により実行するためにコンピュータプログラムなどのソフトウェアで実現されてもよい。

従って、先に提示した系統図は、１つ以上のプロセッサにより実行される場合のコンピュータ系統図としてみなされてもよい。対応する装置は、機能モジュール群として定義されてもよく、プロセッサにより実行される各ステップは、１つの機能モジュールに対応する。この場合、機能モジュールは、プロセッサで実行されるコンピュータプログラムとして実現される。

処理回路の例は、１つ以上のマイクロプロセッサ、１つ以上のデジタルシグナルプロセッサＤＳＰ、１つ以上の中央処理装置ＣＰＵ、ビデオ高速化ハードウェア及び／又は１つ以上のフィールドプログラマブルゲートアレイＦＰＧＡ又は１つ以上のプログラマブルロジックコントローラＰＬＣなどの何らかの適切なプログラマブル論理回路を含むが、それらに限定されない。

提案される技術が実現される何らかの従来のデバイス又はユニットの一般処理能力を再利用することが可能だろうということも理解すべきである。また、例えば既存のソフトウェアの再プログラミングにより又は新規ソフトウェアコンポーネントを追加することにより、既存のソフトウェアを再利用することも可能だろう。

本開示の実施形態をソースとしてのネットワークノード、適応ノード及びシンクとしてのユーザ機器に関連して説明したが、ユーザ機器又は基地局ノードで適応又はトランスコーディングが実行されることも同等に適用可能である。

Claims

オリジナルのビデオソースに対応するビットストリームを入力ビデオフォーマットから出力ビデオフォーマットにトランスコーディングする、ネットワーク上のネットワークノードとしてのトランスコーダ装置を制御する方法であって、
前記入力ビデオフォーマットの第１のビットストリームを、前記ネットワーク上のソースノードから受信すること（Ｓ１０）、
ここで、前記第１のビットストリームは前記オリジナルのビデオソースに対応し、且つ、前記入力ビデオフォーマットは高忠実度フォーマットである；
前記第１のビットストリームに関連するサイド情報を、前記ネットワーク上の前記ソースノードから受信すること（Ｓ２０）、
ここで、前記サイド情報は符号化されたトランスコーディング案内情報であって、当該トランスコーディング案内情報は少なくとも、
(i)前記オリジナルのビデオソースに対応し、低忠実度ビデオフォーマットの第２のビットストリームと、
(ii)前記オリジナルのビデオソースから前記第１のビットストリームが生成された時に決定した符号化パラメータと、
(iii)前記オリジナルのビデオソースを周波数変換して得た係数と前記高忠実度フォーマットの復号ビデオの量子化後の係数との間の残差を示す周波数変換係数とを含み、
前記受信されたサイド情報を復号して、前記トランスコーディング案内情報を生成すること（Ｓ４０）、
受信された第１のビットストリーム及び生成された前記トランスコーディング案内情報に基づいて低忠実度出力フォーマットによる前記第２のビットストリームを復号して周波数変換係数を生成すること（Ｓ５０）、
前記低忠実度出力フォーマットによる前記第２のビットストリームを改善するために、前記トランスコーディング案内情報に含まれる符号化パラメータに基づいて決定される、前記トランスコーディング案内情報内の前記周波数変換係数を前記低忠実度出力フォーマットによる前記第２のビットストリームの復号により生成された周波数変換係数に加算すること（Ｓ６０）、
前記低忠実度出力フォーマットによる前記改善された前記第２のビットストリームを符号化することと（Ｓ７０）、
前記符号化で得られたビットストリームを前記ネットワーク上の目標ノードに転送すること
を有することを特徴とする方法。
前記受信された前記第１のビットストリームを、画素データを提供するために、復号する更なるステップ（Ｓ３０）を含むことを特徴とする請求項１に記載の方法。
前記サイド情報は前記第１のビットストリームとは別に受信されることを特徴とする請求項１乃至２のいずれか１項に記載の方法。
前記サイド情報は前記第１のビットストリームと共に受信されることを特徴とする請求項１乃至２のいずれか１項に記載の方法。
前記方法は、前記第１のビットストリームの中の前記サイド情報の存在に関する指示を識別する更なるステップを含むことを特徴とする請求項１乃至４のいずれか１項に記載の方法。
前記入力ビデオフォーマット及び前記出力ビデオフォーマットは、ビデオの異なるカラー空間を表す情報又はどのビデオコーデックを用いるかを示す情報を含むことを特徴とする請求項１乃至５のいずれか１項に記載の方法。
オリジナルのビデオソースに対応するビットストリームを、入力ビデオフォーマットから出力ビデオフォーマットにトランスコーディングする、ネットワーク上のネットワークノードとしてのトランスコーダ装置（１００）であって、前記トランスコーダ装置（１００）は、
前記入力ビデオフォーマットの第１のビットストリームを、前記ネットワーク上のソースノードから受信するように構成され、
ここで、前記第１のビットストリームは前記オリジナルのビデオソースに対応し、且つ、前記入力ビデオフォーマットは高忠実度フォーマットである；

前記第１のビットストリームに関連するサイド情報を、前記ネットワーク上の前記ソースノードから受信するように構成され、
ここで、前記サイド情報は符号化されたトランスコーディング案内情報であって、当該トランスコーディング案内情報は、少なくとも、
(i)前記オリジナルのビデオソースに対応し、低忠実度ビデオフォーマットの第２のビットストリームと、
(ii)前記オリジナルのビデオソースから前記第１のビットストリームが生成された時に決定した符号化パラメータと、
(iii)前記オリジナルのビデオソースを周波数変換して得た係数と前記高忠実度フォーマットの復号ビデオの量子化後の係数との間の残差を示す周波数変換係数とを含む、
前記トランスコーダ装置は、
前記受信されたサイド情報を復号してトランスコーディング案内情報を生成し、前記受信された第１のビットストリーム及び前記生成されたトランスコーディング案内情報に基づいて低忠実度出力フォーマットによる前記第２のビットストリームを復号して周波数変換係数を生成し、前記低忠実度出力フォーマットによる前記第２のビットストリームを改善するために、前記トランスコーディング案内情報に含まれる符号化パラメータに基づいて決定される、前記トランスコーディング案内情報内の前記周波数変換係数を前記低忠実度出力フォーマットによる前記第２のビットストリームの復号により生成された周波数変換係数に加算し、前記低忠実度出力フォーマットによる前記改善された前記第２のビットストリームを符号化し、前記符号化で得られたビットストリームを前記ネットワーク上の目標ノードに転送するように更に構成されることを特徴とするトランスコーダ装置（１００）。
前記トランスコーダ装置は、前記受信された前記第１のビットストリームを、画素データを提供するために、復号するように更に構成されることを特徴とする請求項７に記載のトランスコーダ装置（１００）。
前記トランスコーダ装置は、前記サイド情報を前記第１のビットストリームとは別に受信するように更に構成されることを特徴とする請求項７乃至８のいずれか１項に記載のトランスコーダ装置（１００）。
前記トランスコーダ装置は、前記サイド情報を前記第１のビットストリームと共に受信するように更に構成されることを特徴とする請求項７乃至８のいずれか１項に記載のトランスコーダ装置（１００）。
前記トランスコーダ装置は、前記第１のビットストリームの中の前記サイド情報の存在に関する指示を識別するように更に構成されることを特徴とする請求項７乃至１０のいずれか１項に記載のトランスコーダ装置（１００）。
前記入力ビデオフォーマット及び前記出力ビデオフォーマットは、ビデオの異なるカラー空間を表す情報又はどのビデオコーデックを用いるかを示す情報を含むことを特徴とする請求項７乃至１１のいずれか１項に記載のトランスコーダ装置（１００）。