JP5913542B2

JP5913542B2 - 動画像符号化のための方法および構成

Info

Publication number: JP5913542B2
Application number: JP2014249599A
Authority: JP
Inventors: ジヤン−フランソワ・マツク
Original assignee: アルカテル−ルーセント
Priority date: 2009-12-21
Filing date: 2014-12-10
Publication date: 2016-04-27
Anticipated expiration: 2030-12-20
Also published as: KR20120096591A; EP2355510A1; KR101353214B1; JP2015084559A; WO2011076722A1; US20120269265A1; CN102783148B; JP2013515416A; CN102783148A

Description

本発明は、動画像符号化のための方法に関する。

音声ストリームまたはビデオストリームなどのマルチメディアストリームの符号化は文献に広く記載されており、いくつかの規格によって標準化されている。ほとんどの動画像符号化規格は、より低いビットレートでのビデオ信号または音声信号の送信を可能にするために開発された高度な圧縮技術について記載しており、一般に、ビデオストリームのシンタックス（ｓｙｎｔａｘ）および復号処理のみを指定する。符号化処理そのものは標準化されていないが、ほとんどの既存の符号化器は、処理の大半が符号化関連シンタックス要素を計算することからなるおおよそ同じ参照アーキテクチャに従う。これらは、残余データではなく、イントラ符号化された、それぞれのインター符号化されたマクロブロックのための、イントラ予測モードそれぞれの動きベクトルなどを含む、スライス内の各マクロブロックのスライスヘッダおよびヘッダデータを含むことがあるシンタックス要素を含む。たとえばＨ．２６４／ＡＶＣ動画像符号化規格では、これらのシンタックス要素はカテゴリ２のシンタックス要素と示され、したがって、基礎をなす符号化ストリームの符号化構造を説明するためのシンタックス要素のみを含むが、画素値に関するさらなる情報はない。

ほとんどの従来の符号化器は、さらに、受信した入力ビデオデータから、およびこれらの計算された符号化関連シンタックス要素から、予測された画素ブロックのシーケンスを構築する。これらの予測された画素ブロックは、たとえば入力ビデオストリームの対応するブロックからこれらを減算するかまたはこれらから入力ビデオストリームの対応するブロックを減算することによって処理され、それによって残余画素ブロックのシーケンスを得る。この残余画素ブロックのシーケンスは、通常、処理済みの残余画素データのシーケンスを得るために、さらに変換され、量子化される。たとえばＨ．２６４符号化器では、これらの処理済みの残余画素データは、カテゴリ３および４のシンタックス要素に相当する。

これらの処理済みの残余画素データはさらに、符号化関連シンタックス要素と共に、結合されたエントロピー符号化ステップに供される。その結果得られる、符号化済みの残余画素データと符号化済みの符号化関連シンタックス要素を結合することにより、従来の符号化済みのビデオストリームが形成される。

このような符号化方法が普及しているが、符号化器は入力ストリームごとに符号化構造関連シンタックス要素を計算する必要があり、それには大量の処理作業が必要であるので、大量の処理能力が必要とされることに変わりはない。

Ｊ．Ｓ．ＭｃＶｅｉｇｈおよびＳ．−Ｗ．Ｗｕ、「ＰａｒｔｉａｌｃｌｏｓｅｄｌｏｏｐｖｅｒｓｕｓｏｐｅｎｌｏｏｐｍｏｔｉｏｎｅｓｔｉｍａｔｉｏｎｆｏｒＨＤＴＶｃｏｍｐｒｅｓｓｉｏｎ」、ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＩｍａｇｉｎｇＳｙｓｔｅｍｓａｎｄＴｅｃｈｎｏｌｏｇｙ、第５巻、第４号、１９９４年、２６８−２７５ページ

本発明の目的は、必要な処理能力がより少なく、符号化器の能力効率の向上をもたらす、少なくとも１つのビデオストリームを符号化するための代替の符号化方法について説明することである。

本発明によれば、この目的は、前記少なくとも１つの入力ビデオストリームを受信するステップと、予測された画素ブロックのシーケンスを構築するステップと、処理済みの残余画素データのシーケンスを得るために、前記予測された画素ブロックのシーケンスおよび前記少なくとも１つの入力ビデオストリームの対応するブロックを処理するステップとを含み、
前記予測された画素ブロックのシーケンスが、参照入力データからの入力符号化構造データから構築され、前記入力符号化構造データが、さらに、前記処理済みの残余画素データと共に結合されたエントロピー符号化ステップに供され、それによって少なくとも１つの符号化済みのビデオストリームを得る方法によって達成される。

このようにして、入力符号化構造が単に導出または抽出できる参照入力データを提供し、それから予測された画素ブロックを構築することによって、簡単かつ改良された方法が得られる。これは、この符号化構造が符号化器自体によって計算される必要がなくなり、その代わりに符号化器に直接的に提供されるか、または簡単な抽出または導出を可能にする形で提供されるかのいずれかとなるからである。

結合されたエントロピー符号化ステップは、入力符号化構造および処理済みの残余データのエントロピー符号化ステップと、これに続く、符号化済みの符号化構造と符号化済みの残余データの結合されたステップを含んでもよいし、入力符号化構造と処理済みの残余データの結合されたステップと、これに続く、結合された入力符号化構造および処理済みの残余データのエントロピー符号化ステップを含んでもよいし、このようなアクションの一部の考えられ得る結合からなる他の任意のシーケンスを含んでもよい。

残余画素ブロックの処理は、前記予測された画素ブロックと前記少なくとも１つの入力ビデオストリームの対応するブロックとの差分から残余画素ブロックのシーケンスを生成するステップと、前記残余画素ブロックのシーケンスを変換および量子化し、それによって、前記処理済みの残余画素データのシーケンスを得るステップとを含むことができる。

あるいは、残余画素ブロックの処理は、前記予測された画素ブロック（ＰＰＢ１、ＰＰＢ２）と前記少なくとも１つの入力ビデオストリーム（ＩＶ１、ＩＶ２）の対応するブロックとの差分から残余画素ブロックのシーケンスを生成するステップと、前記処理済みの残余画素データのシーケンスを得るために、残余画素ブロックをフィルタ処理するステップとを含むことができる。

いくつかの実施形態では、参照入力データは、前記参照入力データをエントロピー復号することによって入力符号化構造データが前記参照入力データから導出されるように、符号化済みの入力符号化構造データを含む。

さらに別の変形実施形態は、少なくとも１つの入力ビデオストリームの構成データを入力符号化構造データと比較するステップをさらに含み、データが一致しない場合、前記少なくとも１つの入力ビデオストリームがさらに前処理され、それによって、残余画素ブロックが前記予測された画素ブロックと前記少なくとも１つの更新済みのビデオストリームの対応するブロックとの差分から決定されるように、少なくとも１つの更新済みの入力ビデオストリームを生成する。

これにより、説明の部分でさらに説明されるように、これらの任意選択の構成データが入力ビデオストリーム内に含まれるいくつかの場合では、符号化処理をさらに改良することができる。

さらなる代替方法は、前記予測された画素ブロックの構築中にさらに使用するための、処理済みの残余画素ブロックの逆量子化および逆変換の追加のステップを含む。

これにより、符号化の精度をさらに向上させることができる。

方法は、参照符号化済みのストリームから参照入力データを生成するステップをさらに含むことができる。

この参照符号化済みのストリームは、参照ビデオ入力ストリームを従来の方法で符号化することによって得られることができる。

さらに別の代替方法では、少なくとも１つの入力ストリームは、このような参照ビデオストリームおよび何らかの入力修正データから生成されることができる。これは、１つの参照ストリームからの１つの符号化構造が、このような参照ストリームとそれぞれの入力修正データの結合によってこの参照ストリームから導出された大量のストリームを符号化するために共通して使用できるという利点を有する。結果として得られるこのようなビデオストリームごとに、完全な符号化処理が実施されなければならない従来技術による方法とは対照的に、この方法では、符号化されなければならない参照ストリームは１つのみであり、その符号化構造は、この単一の参照ストリームから導出されるすべてのビデオストリームの符号化に再使用されることができる。これによって、かなりの量の符号化処理能力が節約され、符号化済みのストリームの可能な伝送中には、大量の伝送帯域幅も節約される。結果として得られるこれらの符号化済みのストリームが格納されなければならない場合、必要とされる記憶容量も低減される。

いくつかのビデオストリームを並列で符号化するためのさらに別の変形法では、これらのストリームのうちの１つが参照ストリームとして選択でき、次に、符号化構造がこの参照ストリームから決定され、他のビデオストリームを符号化するためにさらに再使用される。

この場合も、この変形形態は、これらのビデオストリームのそれぞれを別個に符号化する従来技術による解決策に対して処理能力を減少させるという利点を有する。帯域幅および記憶容量の減少という類似の考慮すべき事柄は、前の変形形態と同様に有効である。

本発明は、前述の方法を実施するための符号化器、装置、および構成にも関する。

他の実施形態は、添付の特許請求の範囲に記載される。

特許請求の範囲において使用される用語「結合される（ｃｏｕｐｌｅｄ）」は、直接的な接続のみに限定されると解釈されるべきではないことに留意されたい。したがって、表現「デバイスＢに結合されたデバイスＡ」の範囲は、デバイスＡの出力がデバイスＢの入力に直接的に接続されるデバイスまたはシステムに限定されるべきではない。これは、Ａの出力とＢの入力の間に経路が存在し、その経路は他のデバイスまたは手段を含む経路であってよいことを意味する。

特許請求の範囲で使用される用語「を備える、を含む（ｃｏｍｐｒｉｓｉｎｇ）」は、その後に列挙される手段に限定されると解釈されるべきではないことに留意されたい。したがって、表現「手段ＡとＢとを備えるデバイス」の範囲は、構成要素ＡおよびＢのみからなるデバイスに限定されるべきではない。これは、本発明に関しては、デバイスの関連する構成要素がＡおよびＢだけであることを意味する。

以下の一実施形態の説明を添付の図面と併せ読めば、本発明の上記およびその他の目的および特徴がより明らかとなり、本発明そのものが最もよく理解されるであろう。

従来技術による符号化器の一実施形態の基本的スキームを示す図である。本発明による符号化器の一実施形態を示す図である。本発明による符号化器の一実施形態を示す図である。本発明による符号化器の一実施形態を示す図である。本発明による符号化器の一実施形態を示す図である。本発明による符号化器の別の実施形態を示す図である。複数の入力ビデオを受信する、本発明による符号化器の他の実施形態を示す図である。複数の入力ビデオを受信する、本発明による符号化器の他の実施形態を示す図である。本発明による符号化器の別の実施形態を示す図である。前の図２から５の実施形態に対する入力として使用され得る参照入力データＩＲＥＦを生成するための装置の一実施形態Ａを示す図である。図６ａに示す装置であるが、たとえばＨ．２６４規格による符号化済みのビットストリームが追加のデータ分割機能を使用する特定の場合のための装置の特定の実施形態Ｂを示す図である。図５に示す装置Ａの一実施形態と図４ｂに示される符号化器などの符号化器の一実施形態とを含む第１の構成Ａ１の一実施形態を示す図である。図７に示される第１の構成Ａ１を備える第２の構成Ａ２そのものの一実施形態を示す図である。図８に示される第２の構成Ａ２を備える第３の構成Ａ３の一実施形態を示す図である。図７に示される第１の構成Ａ１を備える第４の構成Ａ４の一実施形態を示す図である。このような第４の構成の代替実施形態Ａ４ｂを示す図である。

以下は、本発明の原理を例示するに過ぎないことに注目されたい。したがって、本明細書において明示的に説明または図示されていなくても本発明の原理を実施する種々の構成を当業者が考案できることは理解されるであろう。本明細書において記載されるすべての例および条件付きの表現は、主に、本発明の原理と、技術の進歩に対して本発明者が貢献する発想とを読者が理解する助けとなるための教育的な目的となることのみが明確に意図されており、具体的に記載したそれらの例および条件に限定されることなく解釈されるべきである。さらに、本発明の原理、態様、および実施形態、ならびに本発明の具体例に関して述べている本明細書のすべての記載は、本発明の構造的等価物および機能的等価物のいずれをも包含することが意図されている。加えて、そのような等価物は、現在知られている等価物、ならびに将来開発される等価物、すなわち構造に関係なく同じ機能を実施する、開発されるあらゆる要素のいずれをも含むことが意図されている。

本明細書におけるいずれのブロック図も本発明の原理を実施する例示的な回路の概念図を表すことが当業者には理解されよう。同様に、あらゆるフローチャート、流れ図、状態遷移図、擬似コードなどが、コンピュータまたはプロセッサが明示的に示されているかどうかを問わず、コンピュータ可読媒体で実質的に表され、したがってこのようなコンピュータまたはプロセッサにより実行される種々の処理を表すことが理解されるであろう。

本明細書を通して、表記「入力ビデオストリーム」および「出力ビデオストリーム」が、リアルストリーミングビデオの形態を有することができるが（格納された）データファイルに関連することもできる入力データおよび出力データ、またはこれらのあらゆる結合を指すことも理解されよう。したがって、本明細書に記載される実施形態は、オンラインとオフラインの両方でのこれらのビデオデータの符号化およびそれらのあらゆる結合を指す。

本発明による符号化器の実施形態について説明する前に、Ｈ．２６４の従来技術による符号化方法について簡単に説明する。この規格によれば、各ビデオフレームは、それによりさらに分割され、それぞれが１６×１６画素のブロックであるマクロブロックレベルで符号化される。

マクロブロックは、スライスにグループ化され、並列化または誤り耐性を可能にすることができる。マクロブロックごとに、符号化済みのビットストリームは、第１に、そのマクロブロックの予測を、既に復号済みのマクロブロックに基づいてどのように計算するかを復号器に知らせるデータと、第２に、マクロブロックの画素値を再構成するために復号されて予測に追加される残余データとを含む。各マクロブロックは、マクロブロックの予測が現在のスライス内の再構成済みのマクロブロックに基づいて形成される「イントラ予測」モードか、またはマクロブロックの予測が、参照フレームと呼ばれる既に復号済みのフレームの画素のブロックに基づいて形成される「インター予測」モードのいずれかで符号化される。イントラ予測符号化モードは、現在のスライス内で空間的予測を適用する。このモードでは、符号化されるマクロブロックは、既に符号化され、復号され、および再構成された、現在のスライス内の近傍のサンプルから予測される。イントラ予測モードで符号化されるマクロブロックは、Ｉタイプのマクロブロックと呼ばれる。インター予測符号化モードは、時間的予測に基づく。このモードでは、符号化されるマクロブロックは、前の参照フレームおよび／または将来の参照フレーム内のサンプルから予測される。インター予測モードで符号化されるマクロブロックは、各サブブロックが単一の参照フレームから予測される場合はＰタイプのマクロブロックとすることができ、または各サブブロックが１つまたは２つの参照フレームから予測される場合はＢタイプのマクロブロックとすることができる。

デフォルトのＨ．２６４の挙動は、ラスタスキャン順（すなわち左から右に線を走査する）にマクロブロックをスライスにグループ化することである。しかし、Ｈ．２６４規格では、さらに、柔軟なマクロブロック順序（以下ではＦＭＯと略される）と呼ばれる別の機能が導入された。ＦＭＯは、１つのビデオフレームを複数のスライスグループに分割し、各スライスグループは１組のマクロブロックを含む。このマクロブロックは非連続的な位置にあってよく、フレーム内のどこにあってもよい。

伝送（ｔｒａｎｓｐｏｒｔ）に関しては、各スライスは、ネットワーク抽象レイヤ（以下ではＮＡＬと略される）の１つのユニット内で、デフォルトのモードを使用して伝送されることができる。しかし、Ｈ．２６４／ＡＶＣ規格には、さらに、スライスの伝送中の誤り耐性を向上させるために、いくつかのＮＡＬユニットにまたがる各スライスのデータ分割という追加の機能が記載されている。

いくつかのパーティションにまたがる１つのスライスのデータ分割を行うこの機能によれば、１つのスライスの符号化済みの内容は、３つのＮＡＬユニット、すなわちＮＡＬユニットパーティションＡ、ＮＡＬユニットパーティションＢ、およびＮＡＬユニットパーティションＣにわたって分散されることになる。この規格によれば、ＮＡＬユニットパーティションＡは、残余データでないスライス関連シンタックス要素のすべてを表す、そのスライスのカテゴリ２のシンタックス要素を含む。これらのカテゴリ２のシンタックス要素は、イントラ符号化された、それぞれインター符号化されたマクロブロックのための、イントラ予測モードそれぞれの動きベクトルなどを含む、スライス内の各マクロブロックのスライスヘッダおよびヘッダデータを含む。ＮＡＬユニットパーティションＢは、イントラ予測符号化が使用された場合に、対象となるスライスのマクロブロックのイントラ符号化済みの残余データであるカテゴリ３のシンタックス要素を含み、ＮＡＬユニットパーティションＣは、インター符号化が使用された場合に、インター符号化済みの残余データであるカテゴリ４のシンタックス要素を含む。

Ｈ．２６４規格によれば、このデータ分割メカニズムは、復号器復号動作の瞬時リフレッシュ（ＩＤＲ）ピクチャのスライスを除く、ストリームのいずれのスライスにも適用されることができる。ＩＤＲピクチャは、イントラ符号化済みのスライスのみからなり、かつすべての前の参照ピクチャがストリームの以降のピクチャにおけるインターフレーム予測で使用されなくなることを保証するピクチャである。ＩＤＲピクチャは、通常、符号化済みのストリームへのアクセスポイントを提供するために、または誤り耐性を増加させるために使用される。

これらのＮＡＬユニットは、さらに、元のフレームが表示のために再構成されることを可能にするように、受信したパケットを再び復号するための復号器を含む受信機に向けたネットワーク上での伝送のために、パケットにカプセル化される。

データ分割を使用しない出力ストリームの場合は、符号化規格によって規定されるように、所与のスライスのカテゴリ２、３、および４のシンタックス要素は、同じＮＡＬユニットにグループ化される。したがって、同じＮＡＬユニットにおいて、符号化構造に関係するシンタックス要素と残余データに関係するシンタックス要素が混在する。データ分割を使用する出力ビットストリームの場合は、所与のスライスでは、カテゴリ２、３、および４のシンタックス要素はそれぞれ、パーティションＡのＮＡＬユニット、パーティションＢのＮＡＬユニット、およびパーティションＣのＮＡＬユニットとそれぞれ識別される異なるＮＡＬユニットに入れられる。したがって、符号化済みの残余画素データは、パーティションＢのＮＡＬユニットおよびパーティションＣのＮＡＬユニットに含まれ、符号化済みのカテゴリ２のシンタックス要素はパーティションＡに含まれる。

図１は、典型的な従来技術による動画像符号化器の主な構成要素を示す。入力ビデオストリームは、未加工の入力ビデオデータ、すなわち画素の色値そのもの、ならびに場合によっては、水平方向および垂直方向の画素数で表現されるフレームサイズ、フレームレート、たとえばＹＵＶまたはＲＧＢの色空間、たとえばＹＵＶが使用される場合に４：２：０または４：４：４と表現されるクロマサンプリングのタイプなどのいくつかの追加入力データを含む。一方、この入力ビデオストリームは、符号化そのものに関連するシンタックス要素を提供するなどのために符号化の判定を行うように構成された「符号化の判定を行う」と示されるモジュールに転送される。Ｈ．２６４ではカテゴリ２のシンタックス要素とも示される、これらのシンタックス要素は、典型的には、シーケンスおよびピクチャのパラメータセット、スライスおよびマクロブロックのヘッダ、ならびにビデオの既に復号済みの部分に基づいて画素データのイントラ予測およびインター予測をどのように構築するかについて後で復号器に知らせるすべての情報のようなデータを含む。これらのシンタックス要素は、さらに、符号化済みのシンタックス要素を提供する、エントロピー符号化と似たような名前のブロックでエントロピー符号化される。他方、入力ビデオストリームは、予測構築モジュールによって提供される予測された画素ブロックと入力ビデオからの対応するブロックとの差分を決定するためのユニットにも転送される。図１で「予測を構築する」と示されるこの予測構築モジュール自体は、これらのシンタックス要素からの予測された画素ブロックの生成を可能にするために、「符号化の判定を行う」モジュールに結合される。

次に、その結果生成される残余画素ブロックが、処理済みの残余画素データを生成するなどのために、変換および量子化と似たような名前のモジュールでさらに変換されて量子化される。

Ｈ．２６４符号化器では、これらの残余画素データは、カテゴリ３および４のシンタックス要素に相当する。

ほとんどの従来技術による符号化器では、ブロックの変換および量子化の計算は順方向に実施されるが、通常は、図１のフィードバックによって示されるように逆方向でも実施される。これらのフィードバックステップは、通常、予測を行う目的で符号化器が同じ組の復号済みのフレームを復号器として必ず使用するために追加される。このような符号化器は、「クローズドループ」符号化器と呼ばれる。この反対は「オープンループ」符号化器であり、これらのフィードバックステップは存在しない。

従来技術による符号化器間での主な差別化要因は、通常、その基盤となる符号化構造を生成するために符号化の判定を行う方法である。その理由は、これが、フレームのタイプ、スライシング、イントラ予測対インター予測の選択、イントラ予測モードの選択、および動きベクトルの計算などを意味するからである。したがって、これらのステップは、一般に、「符号化の判定を行う」ブロック内で実施され、通常、符号化器の複雑さが著しく増す。

符号化に関連するシンタックス要素ならびに符号化済みの残余画素データの両方は、最終的に、入力ビデオストリームから単一の符号化済みのビデオストリームを生成するためにエントロピー符号化されることができる。この結合されたエントロピー符号化（ｃｏｍｂｉｎｅｄｅｎｔｒｏｐｙｅｎｃｏｄｉｎｇ）は、通常エントロピー符号化器と結合器Ｃとを備えるモジュールで実施される。エントロピー符号化は、シンタックス要素ならびに残余画素ブロックの両方を圧縮するための演算を含むものとして理解されたい。これらの演算は、たとえばＨ．２６４規格で規定されるような、予測符号化ステップ、可変長符号化（指数ゴロム、ＣＡＶＬＣ）ステップ、または算術符号化（ＣＡＢＡＣ）ステップを含む。これは、シンタックス要素と残余画素ブロックの結合の前または後に実施されることができる。図１に示される実施形態では、エントロピー符号化は結合の前に実施されるが、従来技術による他の符号化器では、この順番は逆である。

Ｈ．２６４符号化器では、この結合されたステップは、前に説明したように、ＮＡＬユニットへのパケット化をさらに含むことができる。

従来技術によるこれらのかなり複雑な符号化器に対して、本発明による符号化器の一実施形態が図２ａに示されている。この実施形態Ｅ１は、入力ビデオストリームを受信するための第１の入力端子ＩＮ１を含み、したがって、入力ビデオストリームはリアルストリームであってよいが、前に説明したように格納されたファイルであってもよい。この入力ビデオはＩＶ１と示される。図１に関して説明したように、この入力ビデオは、画素の色値そのもの、ならびに場合によっては、水平方向および垂直方向の画素数で表現されるフレームサイズ、フレームレート、たとえばＹＵＶまたはＲＧＢの色空間、たとえばＹＵＶが使用される場合に４：２：０または４：４：４と表現されるクロマサンプリングのタイプなどのいくつかの追加の入力データなどの、同じ未加工のビデオデータを含むことができる。この実施形態Ｅ１は、ＰＰＢ１と示される予測された画素ブロックのシーケンスを構築し、前記予測された画素ブロックのシーケンスを、到来するビデオストリームの対応するブロックと共に処理するようにさらに構成される。実施形態Ｅ１では、この処理は、予測された画素ブロックからおよび到来するビデオストリームの対応するブロックからの、ＲＰＢ１と示される残余画素ブロックのシーケンスの生成と、処理済みの残余画素データのシーケンスを得るための残余画素ブロックの変換および量子化とを含む。しかし、予測された画素ブロックおよび入力ビデオストリームの対応するブロックから処理済みの残余画素データを得るための他の方法が可能である。従来技術による符号化器との違いは、この実施形態Ｅ１はここで、ＩＲＥＦと示される参照入力データを受信するための、ＩＮＲｅｆと示される追加の入力端子を備え、ＩＲＥＦから、ＩＥＳＤと示される入力符号化構造データが導出または取得されることである。図２ａの実施形態では、ＩＲＥＦは、入力されたＩＲＥＦがＩＥＳＤを得るためにさらなる処理に供される必要がないように、このような入力符号化構造を含んでいるに過ぎない。この入力符号化構造データは次に、予測された画素ブロックの構築に使用されるが、これにより、前に説明した従来技術による符号化器の複雑さと比較して複雑さがかなり低減する。符号化構造は、予測画素ブロックが解釈される基礎となる追加の入力と見なされるので、従来技術による「符号化の判定を行う」ブロックで実施されるビデオシーケンスの詳細な解析は必要なくなる。それによって、符号化処理の複雑さが著しく低減される。

図２ａに示されるように、残余画素ブロックＲＰＢ１は、フィルタ処理ステップまたは変換および量子化ステップにさらに供されることができる。次に、処理済みの残余画素データＱＲＰＤ１が、入力符号化構造データＩＥＳＤと共に、ＣＥＥと示される結合されたエントロピー符号化モジュールに提供される。ＣＥＥは、図２ａの実施形態では、後に結合されたモジュールＣが続くエントロピー符号化モジュールを備える。ただし、ＣＥＥの他の実施形態が可能であり、後にエントロピー符号化モジュールが続く結合されたモジュールを備えてもよいし、エントロピー符号化がたとえばデータの別個の部分に対して順次または並列に実施される場合、このようなモジュールのシーケンスまたはセットを備えてもよい。

図１に関して前に言及したように、エントロピー符号化は、シンタックス要素ならびに残余画素ブロックの両方を圧縮するための演算を含むものとして理解されたい。これらの演算は、たとえばＨ．２６４規格で規定されるような、予測符号化ステップ、可変長符号化（指数ゴロム、ＣＡＶＬＣ）ステップ、または算術符号化（ＣＡＢＡＣ）ステップを含む。これは、符号化構造データと残余画素ブロックの結合の前または後に実施されることができる。

処理済みの残余画素データのエントロピー符号化は、ＥＲＰＤ１と示される符号化済みの残余画素データを生じ、入力符号化済みの構造データＩＥＳＤのエントロピー符号化は、ＥＩＥＳＤと示される符号化済みの入力符号化済みの構造データを生じる。両者の結合により、符号化済みの出力ビデオストリームＩＶ１が最終的に得られる。

参照入力データＩＲＥＦは、データのストリームとして、または単独のデータファイルとして、またはこれらの結合として提供されることができる。このような参照入力データの例も、本明細書の後述の段落で提示され、説明される。

さらに、本明細書で説明されるすべての実施形態では、すべての図面において「バッファリングされた画素データ」で示されるバッファへの画素データの格納およびこのバッファからの画素データの提供を制御するために、適切なバッファ管理回路および制御が存在することが理解されることに注目されたい。バッファ管理技術は当業者によく知られており、これらの技術は本発明の実施形態を理解するためには必要でないので、これらの制御モジュールは、不必要に図面を複雑にしないようにするために図示されない。

前述のように、符号化済みのビデオストリームＥＶ１を最終的に得るための入力ビデオストリームＩＶ１の符号化のすべてのステップは、単一のプロセッサによって実施されることもできる。

図１の従来技術による符号化器と比較すると、図２ａの実施形態は、逆量子化および逆変換の復号フィードバックループをもはや備えていない。このオープンループアーキテクチャは、復号器における品質変動をもたらすことがあるが、符号化が十分に高いビットレート／品質動作点で実施されるとき、品質に対する影響は小さいことが示されている（たとえばＪ．Ｓ．ＭｃＶｅｉｇｈおよびＳ．−Ｗ．Ｗｕ、「ＰａｒｔｉａｌｃｌｏｓｅｄｌｏｏｐｖｅｒｓｕｓｏｐｅｎｌｏｏｐｍｏｔｉｏｎｅｓｔｉｍａｔｉｏｎｆｏｒＨＤＴＶｃｏｍｐｒｅｓｓｉｏｎ」、ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＩｍａｇｉｎｇＳｙｓｔｅｍｓａｎｄＴｅｃｈｎｏｌｏｇｙ、第５巻、第４号、１９９４年、２６８−２７５ページを参照されたい）。さらに、インターフレーム予測連鎖（ｉｎｔｅｒ−ｆｒａｍｅｐｒｅｄｉｃｔｉｏｎｃｈａｉｎ）を破壊するので、ビットストリームに定期的に挿入されるＩＤＲピクチャは、符号化側および復号側で使用される参照フレームの再同期点として使用されることもでき、したがって、連続するフレームにわたる品質変動の伝播を制限する。

図２ｂおよび図２ｃは、符号化器Ｅ２およびＥ３といういくつかの変形実装形態を示す。この両方の実施形態では、参照入力データＩＲＥＦは、ＥＩＥＳＤと示される、符号化済みの形態をとる入力符号化構造を含み、したがって、ＩＲＥＦは、予測された画素ブロックの構築に使用できる入力符号化構造データＩＥＳＤを得るためにエントロピー復号されなければならない。両方の変形形態では、このエントロピー復号は、ＥＤＩと示されるモジュールによって実施される。復号済みの入力符号化構造データＩＥＳＤは、図２ｃの実施形態に示されるように、処理済みの残余画素データＱＲＰＤ１と共に追加の結合されたエントロピー符号化に供されてもよく、または符号化済みの符号化入力構造ＥＩＥＳＤを含む参照データは、図２ｂの実施形態に示されるように、このような結合されたエントロピー符号化モジュールＣＥＥの結合されたモジュールＣに直接に提供されることができる。

図２ｄは、代替の結合されたエントロピー符号化モジュールＣＥＥを有する一実施形態Ｅ４を示す。したがって、まず、入力符号化構造データＩＥＳＤが処理済みの残余画素ブロックＱＲＰＢ１と結合されてから、結合されたデータのエントロピー符号化を行うことができる。

図３は、逆量子化および逆変換というフィードバックステップを実施するためのモジュールを有する符号化器Ｅ５の一実施形態を示す。これらは、等価な復号済みの残余画素ブロックを生成するように構成され、この復号済みの残余画素ブロックは、次に、予測された画素ブロックＰＰＢに追加され、復号済みの画素データＤＰＤを生成し、ＤＰＤは一時的にバッファリングまたは格納される。図３のこのクローズドループの実施形態は、品質変動をさらに防ぐので、図２ａ−図２ｃのオープンループの実施形態より堅牢である。

図４ａおよび図４ｂは、それぞれの入力端子ＩＮ１およびＩＮ２で受信されるＩＶ１およびＩＶ２と示される２つの入力ビデオストリームを符号化するための符号化器の実施形態を示す。図４ａに示される実施形態Ｅ６では、参照入力データＩＲＥＦは、入力符号化構造データＩＥＳＤを得るために最初にエントロピー復号されるべきエントロピー符号化済みの入力構造データＥＩＥＳＤを含む。このデータは、入力ビデオストリームＩＶ１とＩＶ２の両方のための予測された画素ブロックの構築に共通して使用され、それから抽出された量子化パラメータも共通して使用される。ビデオストリームＩＶ１およびＩＶ２のためのそれぞれの符号化済みの残余画素データＥＲＰＤ１およびＥＲＰＤ２は、それぞれの出力端子ＯＵＴ１およびＯＵＴ２に提供する目的でそれぞれの符号化済みの出力ビデオストリームＥＶ１およびＥＶ２を得るなどのために、それぞれの結合されたモジュールＣ１およびＣ２において入力符号化構造データＩＥＳＤと結合される。

図４ｂに示される実施形態Ｅ７では、参照入力データＩＲＥＦは、符号化されていない入力符号化構造データＩＥＳＤを含み、したがってＩＥＳＤは、さらに復号しなくても容易に使用されることができる。図２ａの実施形態Ｅ１と同様に、この入力符号化構造ＩＥＳＤは、それぞれの符号化済みの残余画素データＥＲＰＤ１およびＥＲＰＤ２と結合される前にエントロピー符号化される必要がある。しかし、結合されたエントロピー符号化モジュールＣＥＥの他の実施形態では、エントロピー符号化と結合の順序を逆転させてもよい。

入力ビデオストリームごとに符号化の判定を事前に行わなければならず、かつ、それから予測された画素ブロックが構築可能な従来技術の状況と比較して、説明した実施形態Ｅ１からＥ７は、入力符号化構造が外部から提供され、それぞれの入力ビデオストリームの予測された画素ブロックを構築するために共通して使用されるということによって著しく簡略化されている。

参照入力データＩＲＥＦは、たとえば既に符号化済みのビデオストリームから推測または導出可能な符号化構造を含むこともできるし、入力ビデオストリーム構造の先験的知識に基づくデータを含むこともできる。何らかの形態で入力符号化構造データを含む参照入力データの生成については、後述の段落で説明する。

図５に示される実施形態Ｅ８などのいくつかの実施形態では、符号化品質は、任意選択で入力ビデオストリーム内に含まれるビデオメタデータのすべてまたは一部が入力符号化構造データと一致するかどうかの確認をまず実施することによってさらに改善されることができる。比較されるべきメタデータは、たとえば水平方向および垂直方向の画素数で表現されるフレームサイズ、フレームレート、色空間、クロマサンプリングのタイプ、および符号化されるべき入力ビデオシーケンスのフレームの数などの構成データを含むことができる。これらのデータが入力ビデオストリームに存在する場合、これらのデータは、好ましくは、ＩＲＥＦによって提供される入力符号化構造データに埋め込まれるデータに類似していなければならない。そうでない場合、これらの制約を満たすために、空間スケーリング、色空間変換、クロマフォーマット変換、およびフレームレートの変換、またはいくつかのサブシーケンスにおける細分化（ｆｒａｃｔｉｏｎｉｎｇ）（いずれもよく知られている最新技術による）などの特殊な前処理演算は、今まで通り前処理ステップとして入力ビデオストリームＩＶ１に対して行われることができる。したがって、実施形態Ｅ８は、入力ビデオストリームＩＶ１内で提供されるこれらの構成パラメータまたはその一部が入力符号化構造データと矛盾しないことを検証するように構成された、「比較」と示される比較モジュールを備える。この実施形態は、このようなメタデータが提供される場合に好ましいことがあり、そうでない場合は符号化器の前述の実施形態も使用できることに注目されたい。構成データが入力符号化構造データと一致する場合、たとえば図２ａ−図２ｄの実施形態に示されるように、入力ビデオストリームは、さらに符号化される。そうでない場合、「前処理」と示される追加の前処理モジュールが使用される。この前処理モジュールでは、入力ビデオストリームが、まず、前処理済みまたは更新済みのビデオストリームを得るために前述の最新の変換を使用して画素領域で前処理され、次に、図２ａ−図２ｄに示される他の演算に投入される。図５に示される実施形態では、比較モジュールから前処理モジュールへの矢印によって示される制御信号ｃ１は、プリプロセッサに、入力ビデオＩＶ１に対してこれらの演算を実施するかどうかを通知する。前処理が必要とされない場合、したがってこれは入力ビデオストリームがこのような構成データのいずれも含まない場合でもあり得るが、プリプロセッサは、したがって、入力ビデオストリームを出力するだけである。前処理が必要な場合は、それに応じて前処理が実施される。前処理済みのビデオストリームまたは元のビデオストリームそのもののいずれかを表すこの前処理モジュールからの出力は、ＵＩＶ１と示される。この更新済みのビデオストリームからの更新済みの画素データは、次に、予測された画素ブロックＰＰＢ１を構築するために、入力符号化構造データと共に使用される。

もちろん、この変形法を実現するための多数の他の実施形態が可能である。

前述のように、本発明による符号化器の実施形態は、符号化済みのまたは符号化されていない符号化構造入力データを含む参照入力データに対し機能することができ、入力ＩＮＲｅｆにおいて、参照データＩＲＥＦが既に符号化されているかどうかを確認するために、さらに解析に基づいてＩＲＥＦから適切な符号化構造ＩＥＳＤを選択、抽出、または導出するために、いくつかの追加の解析手段を備えてもよい。

性能をさらに向上させるために、入力参照ストリームＩＲＥＦがＩ＿ＰＣＭマクロブロックを含まないことが推奨される場合がある。これはまた、これらの特定の符号化器実施形態では、追加の解析および補正モジュールによって必要に応じて確認および補正されることができる。当業者であれば、このようなモジュールを用意することができる。

本発明による符号化器のさらに別の実施形態は、前述の実施形態のうちの１つを、図１に関して説明したような最新の符号化メカニズムと結合させることができる。一例として、このような一実施形態は、スライスごとに、たとえば図３に関して説明した方法によりそのスライスの残余データをまず計算し、そのスライスの予測された画素ブロックに加えた後、フィードバックステップによって計算された、得られた復号済みのスライスを、入力ビデオ内の同じスライスと比較するように構成されることができる。たとえばピーク信号対雑音比（ＰＳＮＲ）を使用して測定された、元のスライスに対する復号済みのスライスの品質が特定のしきい値を下回る場合、元のスライスは、品質のより優れた符号化済みのスライスを生じる新しい符号化構造を計算するために、図１の符号化器などの最新の符号化器にリダイレクトされることができる。この場合、そのスライスのための出力符号化構造は、入力として提供された符号化構造ではなく、この新しい符号化構造からなる。最新の符号化器と前の実施形態に示される符号化器の間のこの切り換えの判定は、より粗い粒度たとえばフレームレベルもしくはシーケンスレベルにおいて、または、より細かい粒度たとえばマクロブロックレベルにおいて、行われることもできることに留意されたい。後者の場合、マクロブロックの符号化構造が修正されると、同じスライス内のそれ以降のすべてのマクロブロックでは、この修正されたマクロブロックに依存するすべてのシンタックス要素も再計算および再符号化される必要があることに留意されたい。これは、たとえば量子化パラメータＱＰ、動きベクトル、およびイントラ符号化モードの予測符号化により、またはコンテキストベースの適応型符号化方式により符号化されるシンタックス要素のためのコンテキストの変化により、生じることがある。

符号化構造データを含む参照入力データＩＲＥＦは、多数の方法で生成され、符号化器に提供されることができる。本明細書では、３つの可能性について説明するが、多くの他の可能性を想定することが可能である。

第１の可能性は、以前に符号化済みの参照ビデオストリームの符号化構造データを使用することである。好ましくは、この参照ストリームの空間的および時間的な構造が、符号化されるべき１つまたは複数のビデオストリームの空間的および時間的な構造と類似していなければならない。しかし、そうでない場合であっても、入力ビデオストリームの符号化は、機能上の問題が発生することなく依然として行われることができ、圧縮率またはＰＳＮＲ忠実度（ｆｉｄｅｌｉｔｙ）が最適でないことがあり得る。このような符号化済みの参照ビデオストリームＥＶＲＥＦから符号化構造データを導出するための装置Ａの一実施形態が図６ａに示されている。この装置Ａは、この符号化済みの参照ビデオストリームＥＶＲＥＦを受信し、さらにエントロピー復号するように構成され、さらに符号化済みのデータをパースまたは解析し、その結果、フィルタは、その後、符号化構造に関するシンタックス要素を残余画素データから分離するなどのために、これらのすべてのシンタックス要素を抽出することができる。パーシングまたは解析は、フィルタそのものによって実施されることもでき、したがって、このための別個のモジュールは示されていない。次に、このようにフィルタ処理された入力符号化構造データまたはストリームＩＥＳＤが、前に説明した符号化器の実施形態のための入力参照データＩＲＥＦとして容易に使用されることができる。任意選択で、これらのデータのこのような圧縮または符号化が他の目的で必要である場合、入力符号化構造データＩＥＳＤは、エントロピー符号化の追加のステップによって再び圧縮されることができる。その結果得られるデータは、ＥＩＥＳＤと示される。

図６ｂは、以前に符号化済みの参照ビデオストリームＥＶＲＥＦｈから参照入力データＩＲＥＦを導出するために使用するのに適切なこのような装置のための代替実施形態Ｂを示す。この以前の符号化は、たとえばＨ．２６４規格による追加のデータ分割機能を使用して実施された。以前にデータ分割を行っているので、符号化済みの参照ビデオストリームＥＶＲＥＦｈは、ＮＡＬパーティションＢおよびＣからＮＡＬパーティションＡのパケットを分離するために、ＮＡＬユニットレベルでフィルタ処理されるだけでよい。フィルタ演算の前にエントロピー復号が必要とされないが、ＮＡＬユニットＡパーティションは、ＥＩＥＳＤｈと示される符号化済みの入力符号化構造データを依然として含んでいることに注目されたい。したがって、参照入力データＩＲＥＦは、符号化済みの入力符号化構造データを含み、この符号化済みの入力符号化構造データは、好ましくは次に、図２ｂおよび図２ｃに示される符号化器などの符号化器の実施形態に提供される。これは、これらの符号化器が、ＩＲＥＦから入力符号化構造データＩＥＳＤを導出するための追加のエントロピー復号器を備えているからである。

別の可能性は、符号化されるべき入力ビデオストリームの構造の先験的知識から入力符号化構造データＩＥＳＤを直接的にさらに作成することである。この知識そのものは、符号化済みのビデオを使用する応用例に関連する。たとえば、このような応用例が、たとえば明確に定義された窓において画素がどのようにピクチャにグループ化されるか、およびこれらのグループがそれ以降のピクチャ内でどのように空間的に変化するかに関する何らかの知識を既に提供する場合、この情報は、応用例によって与えられるビデオモデルの精度に応じてビデオストリームそのものの圧縮に使用できる符号化構造データまたはストリームに容易に変換されることができる。これは、所与の応用例でビデオが均等色の背景上を移動するロゴであると仮定される単純な例によって説明されることができる。さらに、このロゴは、画像の縁と平行な矩形の形状を有し、１６の倍数である幅と高さとを有すると仮定される。さらに、ピクチャ内におけるロゴの経時的な変位が知られており、ロゴは、どの時点においても、完全な（ｆｕｌｌ）マクロブロックにまたがるように位置すると仮定されるが、これは、１６の倍数である寸法が仮定されているので可能である。最後に、ロゴは第１行のマクロブロックまたは第１列のマクロブロックを決して覆わないと仮定される。したがって、ロゴまたは背景色そのものとは無関係に、ビデオ構造のこの仮定される知識をこの符号化構造に次のように変換する符号化構造データが生成されることができる：
− 第１のピクチャでは、第１（左上）のマクロブロック色の背景色を背景の残りに伝播するためにイントラ符号化モードが使用され、ロゴによって覆われるセットマクロブロックでは、任意のイントラ符号化モードおよびＱＰ値が使用される。ロゴの画素値が前もって知られていないので、この段階では、ロゴマクロブロックの圧縮効率は低い可能性が高い。
− 以降のピクチャでは、前のピクチャに対するロゴの動きが知られており、常に１６の倍数と表現できるので、各マクロブロックは、完全に、背景またはロゴの初期マクロブロックのうち１つのいずれかの中にある。したがって、各マクロブロック全体に対して単一のＰ−スライスおよびすべての動きベクトルが前もって計算できるので、第２のフレームからの各フレームは符号化されることができる。

本発明による符号化器の実施形態は、多数の応用例を有する。第１の応用例は図７に示されており、符号化済みの参照ストリームＥＶＲＥＦに基づいて１つまたはいくつかの入力ビデオストリームＩＶ１およびＩＶ２を符号化するための構成Ａ１を示す。この参照符号化済みのストリームは、まず、これから参照入力符号化構造ＩＥＳＤを抽出するための図５に示される装置の一実施形態に提供される。ＩＥＳＤは、たとえば図４ｂに示される符号化器などの符号化器Ｅ７の一実施形態に入力参照データＩＲＥＦとして提供される。図４ｂに関して説明したように、この符号化器の実施形態は、ＩＶ１およびＩＶ２に対するそれぞれの符号化済みの残余データを生成するように構成され、その後、それぞれの符号化済みの出力ビデオストリームＩＶ１およびＩＶ２を生成および提供するなどのために、符号化済みの残余データを符号化済みの入力符号化構造とそれぞれ結合させる。

別の応用例は、第２の構成Ａ２を示す図８に示されており、第２の構成Ａ２は、前の段落で説明した第１の構成Ａ１と、ＥＴと示される追加の従来の符号化器とを含む。この従来技術による従来の符号化器は、従来技術による符号化方法により参照ビデオストリームまたは参照ビデオデータＶＲＥＦを符号化し、符号化済みの参照ビデオストリームＥＶＲＥＦを第１の構成Ａ１に提供するように構成される。Ａ１は、次に、２つの入力ビデオストリームＩＶ１およびＩＶ２を符号化し、それぞれＥＶ１およびＥＶ２と示される符号化済みの出力ストリームを最終的に提供することができる。

図９は、前の図に示される第２の構成の一実施形態Ａ２そのものを組み込む、第３の構成の一実施形態Ａ３を示す。この第３の構成は、参照入力ビデオストリームＶＲＥＦ、ならびにそれぞれデルタ１およびデルタ２と示されるそれぞれの入力修正データ入力を受信するように構成される。これらの軽微な修正は、画素レベルで参照ストリームＶＲＥＦに追加または結合されると、それぞれの入力ビデオストリームＩＶ１およびＩＶ２となる。デルタ１およびデルタ２は、ＩＶ１およびＩＶ２において導出するなどのためにＶＲＥＦの画素値をどのように変更するかを説明すると考えられることができる。典型的には、デルタ１およびデルタ２は、ＶＲＥＦのどの画素の位置が修正されるべきかおよびＩＶ１およびＩＶ２を得るためにＶＲＥＦの対応する画素値がどのように変更されるべきかを説明する、事前に指定された形式による命令のリストを含むことができる。これらの命令は、たとえば、修正されるべきＶＲＥＦの画素のリストとして表現されてよく、このリストでは、このような画素ごとに、たとえば元の画素値に追加される（またはこれから減算される）べき画素値によって、または元の画素値と置換する必要がある新しい画素値によって、修正が説明される。あるいは、他のいくつかの場合では、画素の位置は、リストより簡潔な方法で表現されることができる。たとえば、修正されるべき画素が、画像の辺と平行な辺を有する方形領域にグループ化されている場合、それらの画素の位置は、その方形の左上および右下の画素の位置によって説明されることができる。同様に、さらに別の場合では、画素値を修正する命令は、何らかの画素範囲またはフレーム全体に対して適用されるべきコントラスト、照度などの変化に関連する情報をフィルタ処理する何らかの全体像として表現でき、または、定義された画素範囲を、その画素範囲に一致する解像度を有する所与の動画像または静止画像で置換することを意味してもよい。この動画像または画像のデータはまた、その場合、デルタ１またはデルタ２に含まれる。前述の可能性の結合も可能である。このような状況は、たとえば、たとえば小さなロゴ、ピクチャインピクチャ（ＰｉＰ）ビデオ、またはアニメーション化されたオブジェクトが元のビデオシーケンスの上に個別に追加される軽度のパーソナライゼーションの応用例で生じ、元のビデオシーケンスはこの場合、参照ビデオストリームと考えられることができる。その結果生成されるビデオストリームＩＶ１およびＩＶ２は、参照ストリームＶＲＥＦと大きく異なることはないので、ＥＶＲＥＦからの符号化構造ＩＥＳＤは、生成されるＩＶ１およびＩＶ２ビデオストリームを符号化するために効率的な圧縮を提供することに変わりはない可能性が高い。

変形の応用例は、たとえば何らかの商標名またはロゴの外観を見えないようにするためのビデオシーンの小さな一部の追加またはマスキングに関する。どのような参照入力ビデオであるかに応じて、デルタは、参照ビデオがロゴを含まない場合はロゴ、または別のロゴなどの何らかの隠蔽情報、または他の場合ではロゴを明示的に見えないようにするためにロゴが存在した画素値をどのように隠すかを詳細に示す命令のいずれかを含む。

ウォータマーキングは、画素領域に適用できる軽度かつ原理上は視覚的に知覚できない修正の別の例である。たとえばＩＰＴＶのシナリオでは、ウォータマーキングによって、セットトップボックスで受信されたビデオストリームに基づいて加入者を一意に識別することが可能である。しかし、この場合は、加入者ごとにパーソナライズされたバージョンのビデオストリームを再符号化することは必要でない。少なくともバージョンを使用することにより、個々のストリームのパーソナライゼーションは、一意の時間的なパターンに従ってあるバージョンから別のバージョンに切り換えることによって得られることができる。ＩＤＲピクチャは、そのような切り換え点の当然の候補である。

図１０ａおよび図１０ｂは、さらに、別の応用例を実現するための第４の構成の実施形態Ａ４およびＡ４ｂをそれぞれ示す。この構成は、複数の入力ビデオストリームを受信するように構成される。図１０ａおよび図１０ｂに示される両方の実施形態では、簡単にするため、かつ不必要に図面を複雑にしないようにするために、２つの入力ビデオストリームＩＶ１およびＩＶ２のみが示されているが、この構成はまた、３つ以上の入力ビデオストリームを受信するのに特に適している。これらの実施形態は、入力ビデオストリームのうち１つを参照ストリームとして選択するために、Ｓと示される選択モジュールを備え、この参照ストリームは、次に、従来の符号化器ＥＴによって従来の方法で符号化される。示された両方の実施形態では、第１の入力ビデオＩＶ１が参照ストリームとして選択される。ＥＶ１Ｔと示される参照符号化済みのストリームは、次に、他のストリームＩＶ２のように、第１の構成Ａ１に提供される。図１０ｂの実施形態では、符号化済みの参照ストリームＥＶ１Ｔは、構成の出力符号化済みのストリームＥＶ１として直接的に提供される。図１０ａの実施形態では、ＥＶ１Ｔはまた、本明細書で説明する方法に従ってモジュールＣＥＥで結合されたエントロピー符号化に再び供される前に、エントロピー復号される。

このような第４の構成の実施形態は、たとえばステレオビューまたはマルチビューの映像の圧縮に使用されることができる。たとえば立体視に基づく３次元映像または自由視点映像を使用する応用例では、典型的には、同じ物体またはシーンのいくつかのビューを取り込まなければならない。たとえば、立体視では、２つの映像は、典型的には、互いに非常に近い。広範囲の視点にわたる複数のビデオストリームを取り込むとき、種々のストリームは、典型的には、互いに近い視点を有するストリームのクラスタにグループ化されることができる。近い視点を有する２つ以上のビデオストリームを格納または伝送するとき、従来技術による方法では、種々のビューを個別に圧縮および格納／伝送し、その結果、複雑さおよび格納／伝送コストは符号化されるべきビューの数に対して直線的に変化するので、コストは高額になる。この第４の構成は、まずビデオストリームのうち１つのみを符号化し、次に選択された符号化済みのストリームの符号化構造を再使用して、他のビデオストリームを効率的に符号化するステップを含む代替形態を提供する。これにより、後者のストリームの符号化の複雑さが大幅に減少し、すべてのストリームが格納／伝送媒体上で同じ符号化構造を共有することが可能になる。特に、ＮＡＬユニットＡパーティションが共有できるＨ．２６４の応用例では、これは、非常にコスト効果の高い解決策である。

本発明の原理を特定の装置に関して上記で説明してきたが、本明細書は例として挙げられているに過ぎず、添付の特許請求の範囲において定義される本発明の範囲を限定するものではないことを明確に理解されたい。

Claims

少なくとも１つのビデオストリーム（ＩＶ１、ＩＶ２）を符号化するための方法であって、
前記少なくとも１つの入力ビデオストリーム（ＩＶ１、ＩＶ２）を受信するステップと、
予測された画素ブロックのシーケンス（ＰＰＢ１、ＰＰＢ２）を構築するステップと、
処理済みの残余画素データのシーケンス（ＱＲＰＤ１、ＱＲＰＤ２）を得るために、前記予測された画素ブロックのシーケンス（ＰＰＢ１、ＰＰＢ２）および前記少なくとも１つの入力ビデオストリーム（ＩＶ１、ＩＶ２）の対応するブロックを処理するステップと
を含み、
前記予測された画素ブロックのシーケンス（ＰＰＢ１、ＰＰＰ２）が、参照入力データ（ＩＲＥＦ）からの入力符号化構造データ（ＩＥＳＤ）から構築され、前記入力符号化構造データが符号化構造データを含むが、残余画素データを含まず、前記入力符号化構造データ（ＩＥＳＤ）が、さらに、前記処理済みの残余画素データ（ＱＲＰＤ１、ＱＲＰＤ２）と共に結合されたエントロピー符号化ステップに供され、それによって少なくとも１つの符号化済みのビデオストリーム（ＥＶ１、ＥＶ２）を得る、方法。
前記処理が、前記予測された画素ブロック（ＰＰＢ１、ＰＰＢ２）と前記少なくとも１つの入力ビデオストリーム（ＩＶ１、ＩＶ２）の対応するブロックとの差分から残余画素ブロックのシーケンス（ＲＰＢ１、ＲＰＢ２）を生成するステップと、前記残余画素ブロックのシーケンス（ＲＰＢ１、ＲＰＢ２）を変換および量子化し、それによって、前記処理済みの残余画素データのシーケンス（ＱＲＰＤ１、ＱＲＰＤ２）を得るステップとを含む、請求項１に記載の方法。
前記参照入力データ（ＩＲＥＦ）をエントロピー復号することによって入力符号化構造データ（ＩＥＳＤ）が前記参照入力データ（ＩＲＥＦ）から導出されるように、前記参照入力データ（ＩＲＥＦ）が、符号化済みの入力符号化構造データ（ＥＩＥＳＤ）を含む、請求項１または２のいずれかに記載の方法。
前記少なくとも１つの入力ビデオストリーム（ＩＶ１）の構成データを前記入力符号化構造データ（ＩＥＳＤ）と比較するステップをさらに含み、データが一致しない場合、前記少なくとも１つの入力ビデオストリーム（ＩＶ１）がさらに前処理され、それによって、残余画素ブロックが前記予測された画素ブロック（ＰＰＢ１）と前記少なくとも１つの更新済みのビデオストリームの対応するブロックとの差分から決定されるように、少なくとも１つの更新済みの入力ビデオストリーム（ＵＩＶ１）を生成する、請求項１から３のいずれかに記載の方法。
前記参照入力データ（ＩＲＥＦ）を符号化済みの参照ビデオストリーム（ＥＶＲＥＦ、ＥＶＲＥＦｈ）から抽出するステップをさらに含む、請求項１から４のいずれかに記載の方法。
前記符号化済みの参照ビデオストリーム（ＥＶＲＥＦ）を提供するために、参照ビデオストリーム（ＶＲＥＦ）を符号化するステップをさらに含む、請求項５に記載の方法。
前記少なくとも１つの入力ビデオストリーム（ＩＶ１、ＩＶ２）が、前記参照ビデオストリーム（ＶＲＥＦ）および入力修正データ（デルタ１、デルタ２）から生成される、請求項６に記載の方法。
複数のビデオストリーム（ＩＶ１、ＩＶ２）を符号化するための方法であって、前記符号化済みの参照ビデオストリームを得るためにさらに符号化される前記参照ビデオストリーム（ＶＲＥＦ）として前記ビデオストリーム（ＩＶ１、ＩＶ２）のうちの１つを選択し、それによって他のビデオストリームが請求項５に従ってさらに符号化されるステップを含む、方法。
少なくとも１つのビデオストリーム（ＩＶ１、ＩＶ２）を符号化するための符号化器（Ｅ１−Ｅ８）であって、前記少なくとも１つの入力ビデオストリーム（ＩＶ１、ＩＶ２）を受信するための少なくとも１つの入力端子（ＩＮ１、ＩＮ２）を含み、予測された画素ブロックのシーケンス（ＰＰＢ１、ＰＰＢ２）を構築し、前記予測された画素ブロックのシーケンス（ＰＰＢ１、ＰＰＢ２）および前記少なくとも１つの入力ビデオストリーム（ＩＶ１、ＩＶ２）の対応するブロックを処理し、それによって処理済みの残余画素データのシーケンス（ＱＰＲＤ１、ＱＰＲＤ２）を得るようにさらに構成され、
参照入力データ（ＩＲＥＦ）を受信するための追加の入力端子（ＩＮＲｅｆ）をさらに含み、前記参照入力データ（ＩＲＥＦ）からの入力符号化構造データ（ＩＥＳＤ）から前記予測された画素ブロックのシーケンス（ＰＰＢ１、ＰＰＢ２）を構築し、前記入力符号化構造データが符号化構造データを含むが、残余画素データを含まず、前記参照入力データ（ＩＲＥＦ）を前記処理済みの残余画素データ（ＱＰＲＤ１、ＱＰＲＤ２）と結合してエントロピー符号化し、それによって、自らの少なくとも１つの出力端子（ＯＵＴ１、ＯＵＴ２）に提供するための少なくとも１つの符号化済みのビデオストリーム（ＥＶ１、ＥＶ２）を生成するようにさらに構成された、符号化器。
エントロピー符号化器と結合器（Ｃ；Ｃ１、Ｃ２）とをさらに備える、請求項９に記載の符号化器（Ｅ１−Ｅ８）。
前記予測された画素ブロック（ＰＰＢ１、ＰＰＢ２）と前記少なくとも１つの入力ビデオストリーム（ＩＶ１、ＩＶ２）の対応するブロックとの差分から残余画素ブロックのシーケンス（ＲＰＢ１、ＲＰＢ２）を生成することによって、前記予測された画素ブロック（ＰＰＢ１、ＰＰＢ２）および前記少なくとも１つの入力ビデオストリーム（ＩＶ１、ＩＶ８）の対応するブロックを処理し、前記残余画素ブロックのシーケンス（ＲＰＢ１、ＲＰＢ２）を変換および量子化し、それによって前記処理済みの残余画素データのシーケンス（ＱＲＰＤ１、ＱＲＰＤ２）を得るようにさらに構成される、請求項９または１０に記載の符号化器（Ｅ１−Ｅ８）。
前記参照入力データ（ＩＲＥＦ）が、符号化済みの入力符号化構造データ（ＥＩＥＳＤ）を含み、前記符号化器（Ｅ２）が、前記入力符号化構造データ（ＩＥＳＤ）を生成する目的で前記参照入力データ（ＩＲＥＦ）をエントロピー復号するためのエントロピー復号器（ＥＤ１）をさらに備える、請求項９に記載の符号化器（Ｅ２、Ｅ３、Ｅ４、Ε６）。
前記少なくとも１つの入力ビデオストリーム（ＩＶ１）の構成データを前記入力符号化構造データ（ＩＥＳＤ）と比較し、データが一致しない場合、前記少なくとも１つの入力ビデオストリーム（ＩＶ１）を前処理し、それによって、前記残余画素ブロック（ＰＰＢ１）が前記予測された画素ブロックと前記少なくとも１つの更新済みの入力ビデオストリーム（ＵＩＶ１）の対応するブロックとの差分から決定されるように少なくとも１つの更新済みの入力ビデオストリーム（ＵＩＶ１）を生成するようにさらに構成される、請求項９から１１のいずれかに記載の符号化器（Ｅ８）。
請求項９から１３に記載の符号化器（Ｅ１−Ｅ８）と、前記符号化器（Ｅ１−Ｅ８）に提供するための符号化済みの参照ビデオストリーム（ＥＶＲＥＦ、ＥＶＲＥＦｈ）から前記参照入力データ（ＩＲＥＦ）を抽出するように構成された装置（Ａ、Ｂ）とを含む、第１のシステム（Ａ１）。
請求項１４に記載の第１のシステム（Ａ１）と、参照ビデオストリーム（ＶＲＥＦ）を符号化して、そのようにして得られた符号化済みの参照ストリーム（ＥＶＲＥＦ）を前記第１のシステム（Ａ１）に提供するなどするための符号化器（ＥＴ）とを備える、第２のシステム（Ａ２）。
請求項１５に記載の第２のシステム（Ａ２）を備え、前記入力参照ビデオストリーム（ＶＲＥＦ）から、および前記第２のシステム（Ａ２）に提供するための入力修正データ（デルタ１、デルタ２）から、前記少なくとも１つの入力ビデオストリーム（ＩＶ１、ＩＶ２）を生成するための少なくとも１つのビデオ結合手段（ＶＣＭ１、ＶＣＭ２）を備える、第３のシステム（Ａ３）。
複数の入力ビデオストリーム（ＩＶ１、ＩＶ２）を受信するように構成された第４のシステム（Ａ４；Ａ４ｂ）であって、前記複数の入力ビデオストリーム（ＩＶ１、ＩＶ２）のうちの一方の入力ビデオストリーム（ＩＶ１）を参照ビデオストリームとして選択するための選択手段（Ｓ）を備え、前記参照ビデオストリームを符号化し、それによって、前記第４のシステム（Ａ４、Ａ４ｂ）の第１の出力に提供する目的で、および前記第４のシステム内に備えられた請求項１４に記載の第１のシステム（Ａ１）に提供する目的で、符号化済みの参照ビデオストリーム（ＥＶ１）を生成するための符号化器（ＥＴ）をさらに備え、前記第１のシステムが、前記複数の入力ビデオストリーム（ＩＶ１、ＩＶ２）のうちの他方の入力ビデオストリーム（ＩＶ２）を符号化して、他の符号化済みのビデオストリーム（ＥＶ２）を前記第４のシステム（Ａ４、Ａ４ｂ）の他の出力に提供するようにさらに構成されている、第４のシステム（Ａ４；Ａ４ｂ）。