JP5947218B2

JP5947218B2 - 複数のビデオストリームを結合符号化するための方法および構成

Info

Publication number: JP5947218B2
Application number: JP2012545263A
Authority: JP
Inventors: マツク，ジヤン−フランソワ
Original assignee: アルカテル−ルーセント
Priority date: 2009-12-21
Filing date: 2010-12-20
Publication date: 2016-07-06
Anticipated expiration: 2030-12-20
Also published as: WO2011076713A1; KR20120096585A; CN102668564A; KR101353165B1; EP2355511A1; CN102668564B; JP2013515415A; US20120257674A1

Description

本発明は、複数の入力ビデオストリームを結合符号化するための方法に関する。

いくつかの用途では、送信または記憶する前に、いくつかのビデオストリームを同時に圧縮する必要がある。１つの明確な解決策は、各ストリームを独立して符号化することである。大部分の既存の符号器は、多かれ少なかれ、処理の大部分が符号化に関連するシンタックス要素の計算を含んでいる同じ基準のアーキテクチャに従うので、こうすることは、概して非常に処理電力を消費する。大部分の従来の符号器は、受信した入力ビデオデータから、かつこれらの計算された符号化に関連するシンタックス要素から、一連の予測画素ブロックをさらに構成する。これらの予測画素ブロックは次いで処理されるが、一般に、入力ビデオストリームの対応するブロックから予測画素ブロックを減算するステップ、あるいはその反対の減算するステップを含み、それにより一連の残差画素ブロックを得る。処理は、この一連の残差画素ブロックの変換をさらに含み、その後に続いて、符号化に関連するシンタックス要素と組み合わせて量子化およびエントロピー符号化を行い、従来の符号化されたビデオストリームを得る。

このような符号化法は、現在広く普及しているが、符号器が各入力ストリームに対して符号化に関連するシンタックス要素を計算する必要があるため、なお、多くの処理電力を必要とする。これには多くの処理作業が必要になる。特にいくつかの入力ストリームが結合符号化される場合は、この処理作業は、次いで、符号化される入力ストリーム数が掛け算されることになる。

他方で、入力ストリームの全体の組の圧縮効率を最大化する目的で、すべての入力ストリームを結合符号化するなど、代替の符号化機構が開発されてきた。例として、以下でＭＶＣと略記される「マルチビュービデオ符号化（ＭｕｌｔｉｖｉｅｗＶｉｄｅｏＣｏｄｉｎｇ）」拡張が、Ｈ．２６４／ＡＶＣビデオ符号化規格のＡｎｎｅｘＨとして最近標準化された。ＭＶＣの目的は、これらのビデオストリーム間の類似性を利用することにより、１組の入力ビデオストリームを結合符号化することに良好な圧縮性能を提供することである。その名前が示唆するように、１つの可能な用途は、いくつかのカメラにより取得された所与のシーンのいくつかのビューを符号化することである。これらのカメラ間の距離が短くなればなるほど、複数のビューを結合して圧縮するためにＭＶＣを用いて良好な圧縮が得られるようになる。しかし、ＭＶＣ手法の欠点は、符号化されたストリーム間に、強い符号化の相互依存性を生ずることである。これは、特に複数の符号化されたストリームのうちの１つのビデオストリームを復号化するためには、ビュー間予測ステップで必要な他のすべてのビューからすべてのデータを同様に復号する必要があるので、復号器側で欠点が生ずる。同様に、所与のビデオストリームを表示することを望む場合、復号器は、ＭＶＣ符号化法に従って、表示されるストリームが依存するすべての符号化されたストリームを復号する必要がある。

本発明の目的は、符号器側と復号器側の両方で、処理電力をあまり必要としない、複数のビデオストリームを符号化するための代替的な符号化および復号法を述べることである。

本発明によれば、この目的は、複数のビデオストリームを符号化するための方法を提供することにより達成され、前記方法は、前記複数のビデオストリームを受信するステップと、予測画素ブロックの複数のシーケンスを構成するステップと、前記複数のビデオストリームの対応するブロックと共に予測画素ブロックの前記複数のシーケンスの前記予測画素ブロックを処理し、かつエントロピー符号化して、符号化された残差画素データの複数のシーケンスを生成するステップとを含み、予測画素ブロックの前記複数のシーケンスが、前記複数のビデオストリームから生成された符号化構造データから構成され、また符号化された残差画素データの前記複数のシーケンスが、前記複数のビデオストリームの符号化されたデータとして、前記符号化構造データを含む参照データと共に提供される。

この方法では、符号化された残差画素データストリームの複数のシーケンスは、符号化構造データを含む参照データと共に生成されることになる。これは、複数のうちの個々のストリームごとに行われるのではなく、符号化構造データは、１回決定される必要があるに過ぎないので、結合符号化プロセスそれ自体をはるかに容易にする。

実施形態では、前記処理およびエントロピー符号化は、予測画素ブロックの前記複数シーケンスの予測画素ブロックと、前記複数のビデオストリームの対応するブロックとの間の差から、残差画素ブロックの複数のシーケンスを生成して、前記各シーケンスの前記残差画素ブロックを変換し、量子化し、かつエントロピー符号化し、それにより符号化された残差画素データの前記複数のシーケンスを得るステップを含む。

他の実施形態では、前記符号化構造データは、さらにエントロピー符号化されて、前記参照データとして、符号化された符号化構造データを提供する。

符号化構造データは、前記複数のうちの少なくとも１つのビデオストリームから導出された中間ストリームから生成することができる。

この中間ストリームは、例えば、前記複数のうちの少なくとも２つのビデオストリームを平均することにより得ることができるが、それはまた、複数のうちの１つのストリームを選択することでもありうる。

符号化構造データはまた、前記少なくとも２つのビデオストリームに対する符号化判断を解析することにより、かつ前記符号化構造データ中に含まれるように単一の予測選択を選ぶことにより、前記複数のうちの少なくとも２つのビデオストリームから生成することができる。

実施形態では、前記解析は、前記符号化判断を、所定の最適化基準と比較することに基づく。

本発明は、符号化された残差画素データの少なくとも１つのシーケンスを含む少なくとも１つの符号化されたビデオストリームと、入力符号化構造データを含む参照データとを復号するための方法についても同様に関係しており、前記方法は、符号化された残差画素データの複数のシーケンス、および前記入力符号化構造データを含む前記参照データの複数のシーケンスを受信するステップと、前記少なくとも１つの符号化されたビデオストリームに関する符号化された残差画素データの少なくとも１つのシーケンス、および前記符号化構造データを含む前記参照データを選択して、前記符号化構造データと共に前記少なくとも１つの符号化されたビデオストリームに関する符号化された残差画素データの前記少なくとも１つのシーケンスをエントロピー符号化し、かつ処理し、少なくとも１つの復号されたビデオストリームとして、復号された画素ブロックの少なくとも１つのシーケンスを提供するステップを含む。

この方法では、符号化構造データを含む参照ストリームと共に、このような複数の符号化された残差画素ブロックを受信する復号器は、復号されるビデオに関する参照ストリームと、符号化された残差画素データの適切なシーケンスとを選択する必要があるだけである。復号または再構成は、例えば、最終的に復号された画素ブロックが得られる予測構成を含む、エントロピー復号および処理のステップを行うことにより、比較的簡単に行うことができる。いくつかのビデオストリームが復号される必要がある場合、本方法の実施形態は、符号化構造が、復号されるすべてのストリームに対して同じであり、かつ例えば、予測構成などを含む処理が、同じ演算を、各ストリームの一部である復号された残差画素ブロックに適用することを示唆することができるので、より興味深いものとなる。これらの処理ステップは、復号されるすべてのストリームに対して同じであるため、それらは、例えば、ＳＩＭＤと略記される単一命令多重データ処理（ＳｉｎｇｌｅＩｎｓｔｒｕｃｔｉｏｎ、ＭｕｌｔｉｐｌｅＤａｔａ）手法を用いて、並列実装で効率的に実行することができる。同じ符号構造がすべてのストリームにより共用され、かつ予測構成が結合並列処理で効率的に実施されうるので、いくつかの符号化されたストリームを結合復号するためのはるかに簡単な復号器が、それにより得られる。

実施形態では、前記少なくとも１つの符号化されたビデオストリームに関する符号化された残差画素データの前記少なくとも１つのシーケンスが、逆量子化および逆変換を受けて、それにより、復号された残差画素ブロックの少なくとも１つのシーケンスを取得し、画素ブロックの少なくとも１つの予測が、前記符号化構造データから、かつバッファされた画素ブロックから構成され、前記少なくとも１つの復号された残差画素ブロックと組み合わされて、それにより復号された画素ブロックの前記少なくとも１つのシーケンスを取得する。

他の変形形態では、前記符号化構造データは、前記参照入力データから抽出され符号化された符号化構造データをエントロピー復号することにより、前記参照データから導出される。

本発明は、同様に、主題の方法を実施するための符号器および復号器に関する。

さらなる実施形態は、添付の特許請求の範囲で述べられる。

本特許請求の範囲で使用される用語「結合された（ｃｏｕｐｌｅｄ）」は、直接接続だけに限定されるものと解釈されるべきではないことに留意されたい。したがって、「装置Ｂに結合された装置Ａ」という表現の範囲は、装置Ａの出力が、装置Ｂの入力に直接的に接続される装置またはシステムに限定されるべきではない。それは、Ａの出力とＢの入力の間に経路が存在し、その経路は、他の装置または手段を含むものでありうることを意味する。特許請求の範囲で使用される「備える／含む（ｃｏｍｐｒｉｓｉｎｇ）」という用語は、その後に列挙される手段に限定されるものと解釈されるべきではないことに留意されたい。したがって、「手段ＡおよびＢを備える装置」という表現の範囲は、構成要素ＡおよびＢだけからなる装置に限定されるべきではない。それは、本発明に対して単に関連するだけの装置の構成要素がＡとＢであることを意味する。

添付の図面と併せて実施形態の以下の記述を参照することにより、本発明の上記の、また他の目的および特徴がさらに明らかとなり、本発明それ自体を最もよく理解するようになろう。

従来技術の符号器の実施形態の基本的な方式を示す図である。従来技術のＭＶＣ符号器の基本的な実施形態を示す図である。結合符号器、中間ノード、および個々の、もしくは結合復号器を備えるエンドツーエンドの符号化および送信方式を示す図である。伝統的なＡＶＣおよびＭＶＣの従来技術手法、および本発明による実施形態に従う手法を用いて得られた符号化の相互依存性の概要を示す図である。本発明による結合符号器の第１の実施形態ＪＥ１を示す図である。図３ａの結合符号器ＪＥ１の第１の実施形態に含まれる単一のビデオ符号器モジュールＥ１の実施形態を示す図である。本発明による結合符号器の第２の実施形態ＪＥ２を示す図である。図３ｃの結合符号器ＪＥ２の第２の実施形態に含まれる他の単一のビデオ符号器モジュールＥ２の実施形態を示す図である。本発明による結合符号器の第３の実施形態ＪＥ３を示す図である。本発明による結合符号器の第４の実施形態ＪＥ４を示す図である。図５ａの「結合符号化の判断を行う」モジュールＪＥＤの第１の実施形態ＪＥＤ１の細部を示す図である。図５ａの「結合符号化の判断を行う」モジュールＪＥＤの第２の実施形態ＪＥＤ２の細部を示す図である。本発明による復号器ＪＤ１の第１の実施形態を示す図である。本発明による復号器ＪＤ２の第２の実施形態を示す図である。

以下のものは、単に本発明の原理を説明しているに過ぎないことに留意されたい。したがって、当業者であれば、本明細書で明示的に記述または示されていないが、本発明の原理を実施する様々な構成を考案できることが理解されよう。本明細書に記載されたすべての例、および条件付き言語は、主として、読者が本発明の原理と、本発明者により本技術を促進することに寄与する概念とを理解するのを支援する教育目的のために過ぎないことが明確に意図されており、またこのように具体的に記述された例および条件に限定されるものではないと解釈されるべきである。さらに、本発明の原理、態様、および実施形態を記載する本明細書のすべての記述、ならびにその特有の例は、その構造的および機能的に均等物を共に包含することが意図されている。さらにこのような均等物は、現在知られている均等物と、将来開発される均等物、すなわち、構造に関係なく同じ機能を行うように開発された要素とを共に含むことが意図される。

本明細書のどのブロック図も、本発明の原理を実施する例示的な回路の概念図を表していることを当業者であれば理解すべきである。同様に、どのフローチャート、流れ図、状態遷移図、図、疑似コード、および同様のものは、このようなコンピュータまたはプロセッサが明示的に示されているかどうかにかかわらず、コンピュータ可読媒体中で実質的に表すことができ、かつそのようにコンピュータまたはプロセッサにより実行されうる様々なプロセスを表していることが理解されよう。

この文書を通して、「入力ビデオストリーム」、および「出力ビデオストリーム」という表記は、実際のストリーミングビデオの形態を有することができるが、（記憶された）データファイル、またはそれらの任意の組合せにも関係しうる入力および出力データを指すことも理解すべきである。したがって、本記述で述べられる本実施形態は、これらのビデオデータのオンラインとオフラインの符号化の両方、およびその任意の組合せを指す。

多くの用途では、画素単位で完全に同一ではないが同じコンテンツを表すいくつかのビデオストリームは、送信または記憶される前に同時に圧縮される、または符号化されることが必要である。典型的な例は、しばしば、マルチビュービデオとして示される、互いに近接して位置するいくつかのカメラを用いてシーンを取り込むときに得られる１組のビデオストリームである。これらの用途の場合、カメラから最大の距離に存在する対象物に対応するシーンの部分に、通常、類似性が生ずる。これらの対象物の場合、異なるカメラ間の不一致は、通常、最小である。例えば、これらの変形形態に対して適用される色値、照度値などに関して異なる後処理を行うために、または各バージョンが特有の透かしを有しているためになど互いにわずかに異なる、同じビデオコンテンツのいくつかの変形形態を同時に符号化することを望む場合、この状況がさらに生ずる可能性がある。

従来技術の解決策は、これらの入力ビデオストリームのそれぞれを別個に符号化し、それにより、符号化される各ビデオストリームに対して、図１ａで示すものなど、標準の符号器を使用する。この図１ａは、典型的なビデオ符号器ＥＴの主要な構成要素を示している。符号化プロセスそれ自体は標準化されていないが、大部分の既存の符号器は、同じ基準アーキテクチャに従っており、その場合、処理の大部分は、通常、ビットレートまたは品質による一定の制約下で最良の圧縮を行う符号化に関連するシンタックス要素を計算することを含む。これらのシンタックス要素は、符号化される入力ビデオストリームから計算される。このような入力ビデオストリームは、画素の色値などの画素ビデオデータ、ならびに何らかのさらなる入力データを含むことができる。後者は、例えば、画素の幅および高さで表されるフレームサイズ、フレームレート、色空間、クロマサンプリングのタイプなどを含むことができる。この入力ビデオストリームは、一方で、これらの符号化判断を行うように構成されたブロックへと転送され、それは、シーケンスおよびピクチャのパラメータセットなどのデータ、スライス、およびマクロブロックヘッダ、ならびにビデオのすでに復号された部分に基づいて、画素データのイントラ予測およびインター予測をどのように構成すべきかを復号器に後に説明するすべての情報を通常含む、これらの符号化に関連するシンタックス要素を生成する。例として、Ｈ．２６４符号化規格を用いると、その中で規定されたカテゴリ２のシンタックス要素は、おそらく、シーケンス、ピクチャのパラメータセットに対する、カテゴリ０、１のシンタックス要素など、いわゆる非ＶＣＬＮＡＬユニットの何らかの他のシンタックス要素と併せて、このような符号化に関連するシンタックス要素に対応するものと考えることができる。

この特許出願で述べられるいくつかの実施形態をよく理解できるようにするために、データを区分する機能を有するこのＨ．２６４符号化規格の簡単な説明を以下で行う。

このＨ．２６４符号化規格によれば、各ビデオフレームは、マクロブロックレベルに分割され、かつ符号化されるが、各マクロブロックは、画素の１６×１６ブロックである。

並列化またはエラー耐性を可能にするために、マクロブロックは、一緒にグループ化してスライスにすることができる。各マクロブロックに対して、符号化されたビットストリームは、第１に、すでに復号されたマクロブロックに基づき、そのマクロブロックの予測をどのように計算すべきかを復号器に送信するデータを含み、第２に、復号され、予測に加えられてマクロブロックの画素値が再構成される残差データを含む。各マクロブロックは、マクロブロックの予測が、現在のスライス中で再構成されたマクロブロックに基づいて形成される「イントラ予測」モードで、または参照フレームと呼ばれるすでに復号されたフレーム中の画素のブロックに基づいてマクロブロックの予測が形成される「インター予測」モードで符号化される。イントラ予測符号化モードは、現在のスライス内で空間予測を適用するが、その場合、前に符号化され、復号され、かつ再構成された現在のスライス中の隣接するサンプルから、符号化されるマクロブロックが予測される。イントラ予測モードで符号化されるマクロブロックは、Ｉタイプのマクロブロックと呼ばれる。インター予測符号化モードは、符号化されるマクロブロックが、前の、かつ／または将来の参照フレーム中のサンプルから予測される時間予測に基づく。インター予測モードで符号化されたマクロブロックは、各サブブロックが、単一の参照フレームから予測された場合、Ｐタイプのマクロブロックであり、あるいは各サブブロックが、１つまたは２つの参照フレームから予測された場合、Ｂタイプのマクロブロックとすることができる。

デフォルトのＨ．２６４の挙動は、ラスター走査の順序（すなわち、左から右への走査線）でマクロブロックをスライスへとグループ化することである。しかし、Ｈ．２６４規格は、以降ではＦＭＯと略記されるフレキシブルなマクロブロックの順序付け（ｆｌｅｘｉｂｌｅｍａｃｒｏｂｌｏｃｋｏｒｄｅｒｉｎｇ）と呼ばれる他の機能をさらに導入した。ＦＭＯは、ビデオフレームを複数のスライスグループへと区分し、その場合、各スライスグループは、場合によっては順不動の位置にあり、かつフレーム中のどこにでも存在できる１組のマクロブロックを含む。

移送に関しては、各スライスは、デフォルトモードを用いて、以降ではＮＡＬと略記される１つのネットワーク抽象化層（ｎｅｔｗｏｒｋａｂｓｔｒａｃｔｉｏｎｌａｙｅｒ）ユニット内で移送されうる。しかし、Ｈ．２６４／ＡＶＣ規格はさらに、スライスの移送中のエラー耐性を向上するために、いくつかのＮＡＬユニットにわたって各スライスのデータを区分するさらなる機能を述べている。

いくつかの区分にわたって１つのスライスのデータを区分するこの機能によれば、１つのスライスの符号化されたコンテンツは、３ＮＡＬユニットにわたって分散されることになる。すなわち、ＮＡＬユニット区分Ａ、ＮＡＬユニット区分Ｂ、およびＮＡＬユニット区分Ｃである。規格によれば、ＮＡＬユニット区分Ａは、そのスライスのカテゴリ２のシンタックス要素を含むことになり、残差データではないすべてのスライスに関連するシンタックス要素を表す。これらのカテゴリ２のシンタックス要素は、イントラ符号化されたマクロブロック、インター符号化されたマクロブロックに対する、イントラ予測モード、動きベクトルを含むスライスヘッダ、およびスライス内の各マクロブロックに対するヘッダデータを含む。ＮＡＬユニット区分Ｂは、カテゴリ３のシンタックス要素を含むことになるが、それは、イントラ予測符号化が使用された場合、考慮中のスライスのマクロブロックのイントラ符号化された残差データであり、またＮＡＬユニット区分Ｃは、カテゴリ４のシンタックス要素を含むことになるが、それは、このタイプの符号化が使用された場合、インター符号化された残差データである。

図１ａに戻ると、入力ビデオはまた、いくつかのモジュールへと転送され、モジュールは共に、入力ビデオストリームの対応するブロックと併せて、予測画素ブロックを処理するように構成されている。図１ａの実施形態では、第１のモジュールは、予測構成ブロックにより提供される予測画素ブロックを、入力ビデオからの対応する画素ブロックから減算するように構成されており、その逆も同様である。得られた残差画素ブロックは、次いで、さらに変換され、量子化される。他の実施形態では、それらには、フィルタリング演算を行うことができる。Ｈ．２６４で得られる残差画素データは、カテゴリ３および４のシンタックス要素に対応する。それらには、Ｈ．２６４のカテゴリ２のシンタックス要素など、関連するシンタックス要素と共に、組み合わせたエントロピー符号化を受けることになる。組み合わせたエントロピー符号化は、図１ａで示すものなど、最初にエントロピー符号化を行い、その後に組合せステップを行うことができるが、あるいは逆に、データをエントロピー符号化する前にそれらをまず組み合わせることにより実施できることに留意されたい。「エントロピー符号化」は、例えば、イントラ予測モード、または動きベクトルなどの予測符号化、ならびに規格で指定されている可変長符号化（Ｅｘｐ−Ｇｏｌｏｍｂ、ＣＡＶＬＣ）、または算術符号化（ＣＡＢＡＣ）ステップを含む、シンタックス要素を圧縮するために適用される１組の演算を含むものとして理解されるべきである。

大部分の従来の符号器では、ブロックの変換および量子化の計算は、前方（ｆｏｒｗａｒｄ）で行われるが、通常、逆方向のフィードバックステップも存在する。これらのフィードバックステップは、通常、復号器が予測を行うものと同じ復号フレームの組を用いることを確認するために追加される。このような符号器は、これらのフィードバックステップが存在しない「開ループ」符号器とは反対の「閉ループ」符号器と呼ばれる。他方で、符号器間の主微分器は、符号化に関連するシンタックス要素を規定する途中に存在しており、フレームのタイプ、スライス、イントラ予測対インター予測の選択、イントラ予測モードと動きベクトル計算の選択を行うことを示唆する。これらのステップは、したがって、概して「符号化判断を行う」ブロック内で行われ、また通常、復号器に対して符号器に大幅なさらなる複雑さを加える。

上記で述べたように、複数のビデオストリームの符号化は、符号化すべき各ビデオシーケンスに対して、このような最新の符号器を用いてこれらの個々のビデオストリームを別個に符号化することにより達成することができる。しかし、これは多くの処理作業を必要とする。

代替的なＭＶＣ符号化が、圧縮を向上させるために導入されており、それは、現在のＨ．２６４／ＡＶＣ規格に関して提案された拡張である。図１ｂで概略的に示すように、ＭＶＣ符号器は、図１ａのものなど、通常のＨ．２６４／ＡＶＣ符号器ＥＴに存在するものと同様の構成要素を再使用することにより実施することができる。ＭＶＣでは、複数の入力ビデオからのビデオフレームの全体の組は、ビデオフレームの単一のシーケンスとして見なされ、フレームの再順序付けステップが、通常のＨ．２６４／ＡＶＣ符号化の前に行われる。複数の入力を結合符号化するこのＭＶＣ法は、したがって、符号化の相互依存性を生ずる。これは、ビデオシーンが、各ビデオストリームのビュー１、ビュー２、およびビュー３を生成する３つのカメラで取り込まれた場合の以下の例により理解することができる。３つのビューを共に効率よく圧縮または符号化するために、典型的なＭＶＣ符号化構造は、ビュー１を、標準のＨ．２６４／ＡＶＣフレーム間予測機構を用いて、通常の（単一の）ビデオストリームとして符号化し、ビュー２を、ビュー２内の標準のフレーム間予測と組み合わせて、ビュー１からの予測画素ブロックを用いて符号化し、かつビュー３を、ビュー３内の標準のフレーム間予測と組み合わせて、ビュー１およびビュー２からの予測を用いて符号化することになり、それを図２ｂ（Ｉ）で示しており、各矢印は、参照として使用されるフレームから出て、フレーム間予測のためにその参照フレームを使用するフレームを指している。したがって、ビュー２を復号するためには、ビュー１およびビュー２に関するデータが、復号器に送信される必要がある。ビュー３を復号するためには、ビュー１、ビュー２、およびビュー３に関するデータが復号器に送信されなくてはならない。したがって、単一のビュー、またはビデオストリームを表示するために必要なデータおよび処理資源は、どのビューが要求されるかに応じて大きく異なる可能性がある。

したがって、ＭＶＣは圧縮効率を向上させることができるが、それは、なお、計算量が非常に大きくなるという欠点を有する。

図２ｂ（ＩＩ）は、通常のＨ．２６４／ＡＶＣ符号器を用いてビューを別個に符号化するための相互依存性を示している。この場合、３つの符号化されたビューは、符号化の相互依存性を示していないが、前に述べたように、各ビューは、別個に圧縮される必要があり、計算作業が増加するという欠点がある。

従来技術の方法のこれらの欠点は、本発明による結合符号器および復号器の実施形態により克服される。任意選択の中間ノードＩＭを介していくつかの復号器ＪＤおよびＪＤ’に結合されたこのような結合符号器ＪＥの高レベルの方式が図２ａで示されている。この実施形態では、３つのビデオ入力ストリームＩＶ１からＩＶ３が、結合符号器ＪＥに供給される。これは、共通の符号化構造データをそこから抽出するように構成される。これは、任意選択でエントロピー符号化され、かつ符号化された、または符号化されない符号化構造データとして提供することができ、参照データＩＲＥＦに含まれて、この結合符号器ＪＥのＯＵＴＲＥＦで示される参照出力に提供される。結合符号器ＪＥは、入力ビデオストリームのそれぞれに対して、符号化された残差画素データのシーケンスを決定するようにもさらに構成される。符号化された残差画素データのこれらのシーケンスは、それぞれ、ＩＶ１に対してＥＲＰＤ１、ＩＶ２に対してＥＲＰＤ２、およびＩＶ３に対してＥＲＰＤ３で示される。この実施形態では、これらのデータはまた、各出力端子ＯＵＴ１、ＯＵＴ２、およびＯＵＴ３で、別個の出力ストリームまたはデータとして供給される。しかし、他の実施形態では、これらの各出力データは、多重化または時分割する方法で送達することができ、したがって、それらは、１つの出力端子だけで供給することができる。その場合、任意選択の中間ノードは、そこから適切なものを抽出し、おそらく、１つのストリームへと再度組み合わせて正しい宛先へと転送する必要がある。このような中間ノードで行われるデータを抽出し、さらにデータをカプセル化し、かつ再送信するプロセスは当業者にはよく知られており、したがって、これ以上説明しないものとする。

中間ノードＩＭは、したがって、その宛先にさらに転送するために、適切なデータを識別し、かつ抽出するようにさらに構成される。これは、複数の符号化された残差データストリームをフィルタすることにより、かつ図２ａの２つの復号器ＪＤおよびＪＤ’であるその最終的な宛先にさらに送信するために、必要なビデオデータをトランスポートストリームへとカプセル化することにより行うことができる。この図２ｓでは、復号器ＪＤ’は、第３のビデオＩＶ３の符号化データを受信することが必要であるに過ぎず、したがって、中間ノードＩＭは、このビューに関する符号化された残差画素データＥＲＰＤ３を有する参照データだけを抽出し、これを共通の参照データＩＲＥＦと結合復号器ＪＤ’に提供することになる。この復号器は、これらの入力データに基づいて第３のビデオストリームを復号することができる。復号されたビデオストリームは、ＤＶ３で示され、出力端子ＤＯＵＴに提供される。

復号器ＪＤは、第１および第２のビデオストリームの符号化データを受信するように構成され、また中間ノードは、したがって、参照符号化構造データＩＲＥＦと共に、ＩＶ１およびＩＶ２の符号化された残差画素データＥＲＰＤ１およびＥＲＰＤ２を提供することになる。この符号器ＪＤでは、すべてのこの情報は、元のビデオストリームＩＶ１およびＩＶ２を可能な限り良好に再構成する目的で、正しく復号されたビデオデータを得るためなど、復号するために使用されることになる。復号ストリームは、ＤＶ１およびＤＶ２で示され、また各出力端子ＤＯＵＴ１およびＤＯＵＴ２に提供される。中間ノードが存在しない場合、すべての符号化された残差画素データは、直接送信され、復号器に送信されうることに留意されたい。その場合、このような復号器は、入力データから、参照符号化構造データ、ならびに復号される必要のあるビデオに関する符号化された残差画素データを抽出するように構成される。復号または再構成は、最終的に復号された画素ブロックになる予測構成を通常含むエントロピー復号および処理のステップを行うことにより、比較的容易に行うことができる。符号化構造は、復号されるすべてのストリームに対して同じであるので、予測構成は、同じ演算を、各ストリームのすでに復号された部分に適用することにある。これらの処理ステップは、復号されるすべてのストリームに対して同じであるので、それらは、例えば、ＳＩＭＤと略記される単一命令複数データ手法を使用して、並列実装で効率的に実行することができる。したがって、同じ符号化構造がすべてのストリームにより共用され、かつ予測構成が結合並列プロセスで効率的に実施できるので、いくつかの符号化されたストリームを結合復号する非常に簡単な復号器が得られる。

すべてのビューが、共通の符号化構造ＩＲＥＦから符号化されることになるので、符号化されたビュー間で生じた相互依存性は、図２ｂ（ＩＩＩ）で示すように簡単なままである。

このような結合符号器と、これらの結合符号器により符号化された符号化ビデオストリームを復号するように構成された復号器とのいくつかの実施形態を次に述べるものとする。

図３ａで示されている結合符号器ＪＥ１の第１の実施形態は、ＩＶ１およびＩＶ２で示される２つの入力ビデオストリームを、各入力端子ＩＮ１およびＩＮ２で受信するように構成されている。符号化構造データＥＳＤは、中間的な参照ストリームとして選択された両方のビデオストリームの一方をまず従来方法で符号化することにより決定される。この選択は、Ｓで示される選択モジュールで行われる。この選択はいくつかの方法で行うことができる。例えば、入力ストリームの１つを、中間ストリームとしてランダムに選択することができる。代替的には、入力ストリームは、何らかの特定の基準に従って、またはヒューリスティックな方法で選択することができる。これらの基準は、すべての入力ストリームからの平均画素値ストリームの計算に基づくことができ、したがって、この平均ストリームを最もよく近似する入力ストリームを、中間ストリームとして選択することができる。この選択／近似は、例えば、ＰＳＮＲまたはＳＳＩＭ値を用いる何らかのメトリックに基づくこともできる。あるシーンのマルチビュービデオの捕捉に対応する入力ストリームの場合、例えば、カメラが直線的に位置合せされている場合の中間ビューなど最も中心のビューに最もよく一致するストリームは、中間ストリームとして選択することができる。互いに関する制御パラメータのいくつかの値を用いて、わずかに異なる画像フィルタリングを適用することにより得られた入力ストリームの場合、中央の制御パラメータ値に対応するストリーム、または入力ストリームを作成するために使用されるすべての制御パラメータ値の平均の最も近くにある制御パラメータ値に対応するストリームを選択することができる。このようなフィルタリングは、例えば、色変更、照度、コントラスト、不鮮明化などのために異なる値を適用することを含むことができ、その場合、制御パラメータを変えることは、したがって、この色変更、または照度、またはコントラストを指す。この制御パラメータの平均値を計算すること、次いで、この平均値に最もよく一致するストリームを選択することは、中間ストリームを得ることになる。

代替的には、得られた符号化構造が、入力ストリームの全体的な圧縮に対して、最もよい平均の圧縮率−歪み（ｒａｔｅ−ｄｉｓｔｏｒｔｉｏｎ）性能を提供する入力ビデオがさらに選択されて、参照ストリームになることができる。

当業者は、前述の選択手順を実現するための詳細な実施形態を生成することに適応している。したがって、図３ａで示されたものなど、このような選択モジュールＳの詳細な実施形態は、これ以上詳細に述べないものとする。

図３ａで示された結合符号器の実施形態ＪＥ１では、第１のビデオストリームが中間ストリームとして選択され、図３ａの選択モジュールＳのＳＲＥＦ出力端子上に供給される。この中間ストリームは、次いで、例えば、図１ａで示されたものなど、従来の符号器ＥＴにより従来方法で符号化される。ＥＶ１Ｔで示される符号化されたストリームは、符号化データをエントロピー復号するためにエントロピー復号器にさらに送信されて、フィルタが、その後に、構文解析または解析を行うことができ、符号化構造それ自体に関するすべてのシンタックス要素を抽出することができる。こうすることは、符号化構造データＥＳＤ１を、残差画素データＲＰＤ１から分離することを可能にする。解析は、概して、フィルタ演算それ自体の一部であるが、また何らかの専用モジュールにより実施することもできる。このフィルタリング演算の結果は、一方で符号化構造データもしくはストリームＥＳＤ１であり、他方では、ＲＰＤ１で示される残差画素データである。ＥＳＤ１は次いで、モジュールＥ１などで示される符号器モジュールの実施形態に対する入力参照データとして使用することができ、またそれは、同一出願人および発明者による、「ｍｅｔｈｏｄａｎｄａｒｒａｎｇｅｍｅｎｔｆｏｒｖｉｄｅｏｃｏｄｉｎｇ」で示される同時係属の特許出願の主題である符号器と強い類似性を示している。

この符号器モジュールの実施形態Ｅ１は、図３ｂで示されている。この実施形態は、入力ビデオストリームを受信するための第１の入力端子ＩＮＥ１を含み、それは、したがって、実際のストリームとすることができるが、また前に説明したように、記憶されたファイルとすることもできる。図３ａ−ｂの実施形態では、この入力ビデオはＩＶ２である。この実施形態Ｅ１は、ＰＰＢ２で示される一連の予測画素ブロックを構成し、かつその予測画素ブロックから、および到来するビデオストリームＩＶ２の対応するブロックから、ＲＰＢ２で示される一連の残差画素ブロックを生成するようにさらに構成される。従来技術の符号器との差は、この実施形態Ｅ１は、現在、フィルタにより提供されたＥＳＤ１などの符号化構造データを含む参照データを受信するために、ＩＮＲｅｆで示されるさらなる入力端子を備えていることである。この入力符号化構造データＥＳＤ１は、次に、ＩＶ２の予測画素ブロックの構成のために使用される。こうすることは、前に述べた図１ａの従来技術の符号器ＥＴのものと比較して、はるかに複雑さの低いＥ１が得られる。符号化構造は、予測画素ブロックがそれに基づいて構成されるさらなる入力として使用されるので、従来技術の「符号化判断を行う」ブロックで実施されるビデオシーケンスの詳細な解析はこれ以上必要がない。Ｅ１により行われる符号化プロセスの複雑さは、それにより大幅に低減される。

残差画素ブロックＲＰＢ２は、従来技術の符号器と同様に名付けられたモジュールで実施される図３ｂの実施形態で変換、量子化、およびエントロピー符号化がさらに行われて、ＥＲＰＤ２で示される符号化された残差画素データを得る。しかし、他の実施形態では、すべての処理は、単一のプロセッサで行うことができ、したがって、様々なモジュール間に明確な区別はない。

符号化された残差画素データＥＲＰＤ２は、図３ｂのモジュールＥ１の第１の出力端子ＯＵＴＥ１に出力データとして送信される。この実施形態では、符号化構造データＥＳＤ１は、参照出力端子ＯＵＴｒｅｆＥ１に符号化された符号化構造ＥＥＳＤ１を提供するためなど、さらにエントロピー符号化される。

図３ａに戻って参照すると、フィルタにより提供される残差画素データＲＰＤ１は、同様に名付けられたモジュールで再度エントロピー符号化される。符号化された残差画素データＥＲＰＤ１は、結合符号器ＪＥ１の第１の出力端子ＯＵＴ１に送信される。第２の入力ビデオのＩＶ２の、またＥ１により提供される符号化された残差画素データＥＲＰＤ２は、この結合符号器ＪＥ１の第２の出力端子ＯＵＴ２にさらに提供される。符号化された符号化構造データＥＥＳＤ１は、この結合符号器ＪＥ１の参照出力端子ＯＵＴＲＥＦ上に参照データＩＲＥＦとして送信される。

他の代替的な実施形態ＪＥ２が図３ｃで示される。この実施形態では、第１の入力ビデオストリームが、従来方法で符号化される中間ストリームとして、選択モジュールＳにより再度選択される。従来の符号化は、ここでは、ＮＡＬユニット区分を有するＨ．２６４規格に従うものであり、１つのスライスの符号化されたコンテンツは、３つのＮＡＬユニット、すなわち、ＮＡＬユニット区分Ａ、ＮＡＬユニット区分Ｂ、およびＮＡＬユニット区分Ｃにわたって分散されることを意味する。規格によれば、ＮＡＬユニット区分Ａは、そのスライスのカテゴリ２のシンタックス要素を含むことになり、残差データではなく、符号化構造データに関係するすべてのスライスに関連するシンタックス要素を表す。これらのカテゴリ２のシンタックス要素は、イントラ符号化されたマクロブロック、およびインター符号化されたマクロブロックなど対する、イントラ予測モード、および動きベクトルを含む、スライス内の各マクロブロックに対するスライスヘッダおよびヘッダデータを含む。ＮＡＬユニット区分Ｂは、カテゴリ３のシンタックス要素を含むことになり、それは、イントラ予測符号化が使用された場合、考慮中のスライスのマクロブロックのイントラ符号化された残差データであり、またＮＡＬユニット区分Ｃは、カテゴリ４のシンタックス要素を含むことになり、それは、このタイプの符号化が使用された場合、インター符号化された残差データである。この従来の符号器は、ＥＴＨで示され、また符号化された中間ストリームは、ＥＶ１Ｈｈで示される。これはＮＡＬユニットへの区分を含むので、フィルタは符号化された符号化構造データＥＥＳＤ１を含むＮＡＬユニット区分Ａを、符号化された残差データＥＲＰＤ１を含む他の区分ＢおよびＣから容易に分離することができる。区分は共に、結合符号器ＪＥ２の第１の出力端子ＯＵＴ１に、符号化された残差画素データＥＲＰＤ１として容易に提供することができる。

ＥＥＳＤ１は、他の単一のビデオ符号器モジュールＥ２への入力データとして働くことになり、それは、参照入力としてＥＥＳＤ１を用いて、ＥＶ２の残差画素データを決定するようにさらに構成される。このモジュールＥ２の実施形態は、図３ｄでより詳細に示されている。この実施形態は、図３ｂで示されたＥ１とは、符号化されない構造データに代えて、参照データＩＲＥＦとして、符号化された符号化構造データを受信するように構成された点でのみ異なる。したがって、Ｅ２は、符号化されない符号化構造データＥＳＤ１をＥＥＳＤ１から決定するように構成されたエントロピー復号器ＥＤ１をさらに備える。この符号化構造データは、ＩＶ２に対する残差画素データＲＰＤ２を決定するために、符号器Ｅ１が実施するものと同様の方法で使用されることになる。これらはさらに処理され、エントロピー符号化されて、符号化された残差画素データＥＲＰＤ２が得られ、出力端子ＯＵＴＥ２に提供される。結合符号器ＪＥ２には、出力参照端子ＯＵＴＲＥＦ上で参照データＩＲＥＦとしてすでにＥＥＳＤ１が提供されているので、Ｅ２でＥＳＤ１を再度エントロピー符号化する必要はない。しかし、異なる結合符号器では、Ｅ２のこのような変形形態を含むことができ、その場合、ＥＳＤは、再度エントロピー符号化されて、ＪＥ２の出力端子に提供される。

このような結合符号器は、したがって、例えば、ステレオ−ビデオ、またはマルチビュー−ビデオの圧縮に対して特に有用である。例えば、立体視ベースの３Ｄビデオ、または自由視点ビデオを用いる用途では、通常、何らかのオブジェクトまたはシーンのいくつかのビューを取り込む必要がある。例えば、立体視では、２つのビデオは、通常、互いに非常に近接している。広範囲の視点にわたる複数のビデオストリームを取り込むとき、様々なストリームは、通常、互いに近接する視点を有するストリームのクラスタにグループ化することができる。近接した視点を有する２つ以上のビデオストリームを記憶し、または送信するために、従来技術の方法は、様々なビューを独立して圧縮し、かつ記憶し／送信することになる。この従来技術の場合、複雑さおよび記憶／送信コストは、符号化するビューの数と共に直線的に増加することになる。この結合符号器ＪＥ１およびＪＥ２は代替形態を提供し、ビデオストリームの１つだけをまず符号化し、さらに例えば、ＪＥ２におけるように、ＮＡＬユニットの区分を有するＨ．２６４規格符号化法を用いて符号化する場合、得られたストリームの区分Ａに関係する符号化構造を再使用して、他の同様のビデオストリームを効率的に符号化する。こうすることは、後者のストリームに対する符号化の複雑さを激減させ、この符号化規格が従来の符号器で使用される場合、すべてのストリームは、記憶／送信媒体上の同じ区分Ａを共用することが可能になる。

図４で示す結合符号器の第３の実施形態ＪＥ３では、共通の符号化構造データＥＥＳＤが、すべての、またはいくつかの入力ストリームから得られた、ＩＳで示される中間ストリームから作成される。これは、やはりいくつかの方法で行うことができる。例えば、すべての入力ストリームのすべての画素値を平均することにより、または用途に応じた一定の基準を満たすストリームを平均するだけで、またはさらに、入力ストリームの全体的な圧縮に対する圧縮率−歪み性能を最適化する、ストリームの画素データに対する他の操作による。

この実施形態ＪＥ３では、この中間ストリームＩＳは、画素レベルで入力ストリームを平均化することにより作成されるが、そのステップでは再度、例えば、規格Ｈ．２６４符号化など、従来の符号化がこの中間ストリームに対して適用される。従来の符号器は、再度、ＥＴＨで指定される。その結果の符号化された中間ストリームは、ＥＩＳＴｈで示される。この符号化されたストリームは、次いで、区分Ａをフィルタするために再度フィルタされうるが、それは、これだけが入力ビデオストリームＩＶ１およびＩＶ２の符号化中にさらに必要になるからである。符号化構造データＥＥＳＤを含む区分Ａは、次いで、結合符号器ＪＥ３の参照出力端子ＯＵＴＲＥＦ上に参照データＩＲＥＦとして送信され、またＪＥ３内に含まれる２つの単一の符号器モジュールＥ２でさらに使用される。これらの単一の符号器モジュールＥ２の動作は、図３ｄを参照して以前の段落で述べられている。

図４で左端の符号器モジュールＥ２は、したがって、ＩＶ１およびＥＥＤＳを受信し、またＩＶ１に対する符号化された残差画素データＥＲＰＤ１をそこから生成するように構成される。右端の符号器モジュールＥ２は、ＩＶ２およびＥＥＳＤを受信するように構成され、またＩＶ２に対する符号化された残差画素データＥＲＰＤ２をそこから生成するように構成される。ＥＲＰＤ１、ＥＲＰＤ２、およびＥＥＳＤは、ＪＥ３の各出力端子ＯＵＴ１、ＯＵＴ２、およびＯＵＴＲＥＦ上に送信される。

図５ａで示されている結合符号器ＪＥ４のさらに他の実施形態では、符号化構造データは、符号化アルゴリズムを共にすべての入力ストリームに適用することにより、入力ストリームＩＶ１とＩＶ２の両方から決定される。この結合符号器ＪＥ４のアーキテクチャは、図１ａの最新の符号器ＥＴといくつかの類似性を示しているが、主な差異は、「符号化判断を行う」ブロックＪＥＤにあり、それは、ここでは、単一の結合符号化構造データストリームＪＥＳＤを出力するためになど、複数の入力ビデオストリーム、ならびにすべてのストリームのバッファされた画素データを共に処理するように構成されている。しかし、単一の結合符号化構造データストリームが、バッファされた画素データをさらに考慮することなく、２つ以上の入力ビデオストリームだけから導出される他の実施形態も可能である。

この結合符号化構造は、次いで、ＩＶ１およびＩＶ２に対して、それぞれ、一連の予測画素ブロックＰＰＢ１およびＰＰＢ２を構成するために、結合符号器ＪＥ４内でさらに使用される。残差画素ブロックＲＰＢ１およびＲＰＢ２の各シーケンスは、予測画素ブロックＰＰＢ１およびＰＰＢ２のこれらの各シーケンスと、各入力ビデオストリームＩＶ２およびＩＶ１からの対応するブロックとの間の差から生成されることになる。残差画素ブロックのこれらの各シーケンスは、次いで、例えば、変換され、量子化されるなどさらに処理されて、量子化された残差画素データＱＲＰＤ１およびＱＲＰＤ２の各シーケンスを取得し、それは、この結合符号器ＪＥ４の各出力端子ＯＵＴ１およびＯＵＴ２に提供されるＥＲＰＤ１およびＥＲＰＤ２で示される符号化された残差画素データの各シーケンスを取得するためになど、その後にエントロピー符号化さる。符号化構造データＪＥＳＤはまた、この実施形態では、符号化された符号化構造データＥＪＥＳＤとして送達される前にエントロピー符号化ステップを受けることになるが、ＥＪＥＳＤは、結合符号器ＪＥ４の参照出力端子ＯＵＴＲＥＦ上で参照データＩＲＥＦとして提供される。

このような「結合符号化の判断を行う」ブロックＪＥＤの２つの実施形態が、次に図５ｂおよび５ｃを参照して述べられる。多くの他のものも可能であることに留意されたい。

図５ｂで示す第１の実施形態ＪＥＤ１は、ＩＶ１に対する「符号化判断を行う１」、およびＩＶ２に対する「符号化判断を行う２」で示された、いくつかの知られた「単一の符号化判断を行う」ブロックを備える。これらのものは、各入力ビデオストリームＩＶ１およびＩＶ２、ならびに各バッファされた画素データ１およびバッファされた画素データ２からＥＳＤ１およびＥＳＤ２で示される符号化構造データを独立して構成するように構成される。得られた符号化構造データＥＳＤ１およびＥＳＤ２は、次いで、その結合符号化性能に関して、すべての入力ビデオストリームＩＶ１およびＩＶ２と比較される。この比較は、スライスの粒度（ｇｒａｎｕｌａｒｉｔｙ）レベルで行うことができる。しかし、当業者であれば、これを、さらにマクロブロックで、またはフレームレベルでなど、他の粒度レベルに一般化することもできる。

結合符号化データ構造ＪＥＳＤは、独立して計算された符号化構造データＥＳＤ１およびＥＳＤ２ごとに、ＥＳＤ１およびＥＳＤ２に固有の対応する予測および残差量子化ステップを、入力ビデオＩＶ１とＩＶ２の両方に対するその特定のスライスに適用することにより、スライスレベルで計算することができる。次いで、この特定の符号化構造データＥＳＤ１、ＥＳＤ２結合性能が、何らかのメトリックにより評価される。このメトリックは、例えば、圧縮率−歪み品質を判定することに基づくことができる。この圧縮率−歪み性能に関して最良の品質メトリック値を生ずる符号化構造データが次いで選択されて、結合符号化構造データＪＥＳＤとなる。このような品質メトリック値は、例えば、元のスライスと、この特定のＥＳＤ１またはＥＳＤ２を用いて符号化されたスライスとの間のＰＳＮＲのすべての入力ストリームにわたる合計を測定することを含むことができる。この場合、最大のメトリック値は、この比較ステップにより求められる。代替的には、この特定のＥＳＤ１、ＥＳＤ２にそれぞれ必要な符号化サイズの合計を、この特定の符号化構造を用いることにより得られたすべての入力ビデオの残差と共に決定することができる。この場合、このメトリックに対して最小の値を生ずるＥＳＤが選択されることになる。

図５ｃで示す第２の実施形態ＪＥＤ２では、入力ビデオストリームＩＶ１およびＩＶ２は、単一の結合符号化構造データストリームを生成するために結合して解析される。各マクロブロックに対して、イントラ予測またはインター予測である、予測モードの選択、ならびにイントラ予測の場合はイントラ符号化モード、およびインター予測の場合は動きベクトルの対応する決定など、符号化判断が行われる。この符号化判断は、符号器のすべての符号化された出力ストリーム、すなわち、ＥＪＥＳＤ、ＥＲＰＤ２、およびＥＲＰＤ１の圧縮率−歪み性能を結合して最適化する目的で行われる。この最適化は、例えば、所与のビットレートバジェットの下で、符号器のすべての出力ストリームの復号された画像品質を最大化することにより行うことができる。代替的には、すべてのストリームに対して必要な画像品質を保証するのに必要なビットレートが最小化されうる。例として、すべての入力ビデオ対するＰスライス中の所与のマクロブロックを結合して処理する手順が次に述べられる。各入力ビデオストリームＩＶ１およびＩＶ２の各マクロブロック、および参照として使用されうるすでに符号化された画素値のバッファからの対応するブロックに対して、イントラ予測モード、および可能なイントラ符号化モード（図５ｃでｉによりインデックスが付されている）を用いて、１組の予測ブロックが計算される、あるいはインター予測の場合、１組の可能な対の動きベクトル（ｘ、ｙ）、および参照フレーム（ｎ）が計算される。入力ビデオＩＶ１に対する１組の可能な予測選択は、Ｐｒｅｄ１、ｉでイントラ符号化モードをインデックス付けしたｉと、Ｐｒｅｄ１、（ｘ、ｙ）−ｎとで示されるが、ただし、ｘ、ｙは、２次元の動きベクトルを示し、ｎはこの動きベクトルを決定するために使用される参照フレームの数を示す。同様に、入力ビデオ２の場合、１組の可能な予測選択は、ｉでイントラ符号化モードをインデックス付けしたＰｒｅｄ２、ｉと、Ｐｒｅｄ２、（ｘ、ｙ）−ｎとで示される。これらのすべての予測モードは、次いで、すべての入力ストリームに対して結合メトリックを用いて比較される。この比較に基づいて、単一の予測モードが選択されることになり、また図５ｃで、選択された予測モードとして示されているこの選択された予測は、そのマクロブロックに対する結合符号化構造ＪＳＥＤの一部となる。各入力ビデオストリームに対して、それぞれ、ＭＢｐｒｅｄ１およびＭＢｐｒｅｄ２で示されたこの特定のマクロブロックに対する対応する予測ブロックは、次いで、このようにして得られる結合符号化構造データストリームＪＥＳＤに含まれる量子化パラメータＱＰを決定するために、おそらく、入力ストリームＪＶ１およびＪＶ２の対応するブロックと併せてさらに処理される。

他の実施形態ＪＥＤ１に関するものと同様に、予測を比較するモジュールにより行われる予測の比較に適用されるメトリックを規定するためには、やはり多くの可能性が存在する。例えば、すべての残差の全エネルギーを最小化することを目指すことも可能である。この全エネルギーは、元の画素値と予測画素値の間の差の二乗の、ブロックのすべての画素にわたる和の、すべての入力ビデオにわたる和として計算することができる。

量子化パラメータＱＰそれ自体の選択は、例えば、固定された選択に基づくことができるが、あるいは符号化されたマクロブロックの合計サイズが、所与のサイズ（ビットで）バジェットに適合するように選択することができる。

この実施形態ＪＥＤ２では、予測モードの選択、および量子化パラメータＱＰの選択は、分離されていることに留意されたい。最新の符号器におけるように、当業者は、符号化ループ（エントロピー符号化を含むことができる）のフィードバックに基づいて、予測モードと量子化パラメータＱＰの両方を選択することに関する手法を一般化することができるはずであり、その場合、パラメータが、例えば、合計のビットバジェットの下で、符号化されたマクロブロックの（すべての入力ビデオストリームにわたる）合計品質を最大化するように選択される、または例えば、必要な最小の品質の下に、すべての入力ビデオストリームに対して符号化されたＭＢの合計サイズを最小化することにより圧縮を最大化するように選択される。

さらに、前の段落で述べた原理はまた、量子化パラメータＱＰの選択を最適化するために改善することができる。これは、大域的な（スライス、フレーム、またはシーケンスレベルにおける）圧縮率−歪性能を最適化するために、ＱＰマクロブロック値を最適化できるようにするラグランジュの最適化法などの最新の技法を用いることを含むことができる。

示された実施形態ＪＥ１からＪＥ４の大部分は、したがって、符号化されたストリームの符号化構造（データ区分が使用される場合、区分Ａにパッケージされる可能性が高い）が、符号器により行われるすべての重要な符号化判断、すなわち、イントラおよびインター予測モード、ピクチャバッファ管理、動きベクトルなどを含むことを利用している。この符号化構造が固定されると、データ区分が使用される場合、区分ＢおよびＣなどの残差データの符号化プロセスは、単に、選択された予測モードを適用すること、残差データを計算すること、整数ブロック変換および量子化を適用すること、ならびに得られた結果の最終的なエントロピー符号化を行うことで構成されるに過ぎない。最も簡単な形態では、Ｎ個の入力ストリームの符号化は、したがって、共通の区分Ａと、それぞれが入力ストリームの１つに対応するＮ個の（共用されない）区分とからなる出力が得られる。所与の１つの符号化ストリームは、その専用の区分を共通の区分と組み立てることによるＮ＋１個の作成された区分から抽出されうる。復号器は、次いで、これらの２つの区分を処理して必要なビューを表示することができる。

本発明の好ましい使用事例は、強い類似性を有する入力ストリームに適用されるため、特有の符号化構造は、すべての入力ストリームに対して効率的な符号化判断を含むことができる。したがって、いくつかの入力された生のビデオストリームの結合符号化に関して、すべてのストリームに使用される特有の符号化構造からなる共用の区分と、その符号化された残差データからなる個々のストリームごとの専用の区分とを提供することは、簡単であるが、なお非常に有効な方法を提供する。

中間ストリームの選択または作成に基づく実施形態では、本発明による符号器のさらに他の実施形態は、前に述べた実施形態の１つを、図１ａを参照して述べた最新の符号化機構と組み合わせることができる。例として、このような実施形態は、中間ストリームの符号化構造を用いて符号化される各入力ストリームの各スライスに対して、例えば、図３ｃを参照して説明した方法に従ってそのスライスの残差データをまず計算し、そのスライスの予測画素ブロックを加えた後、フィードバックステップにより計算され、得られた復号スライスを、入力ビデオの同じスライスと比較するように構成することができる。元のスライスに対して復号されたスライスの品質、例えば、ＰＳＮＲと略記されるピーク信号対雑音比を用いて測定された品質が一定の閾値に満たない場合、元のスライスは、良好な品質の符号化スライスが得られる新しい符号化構造を計算するために、図１ａのものなど、最新の符号器へと転送されうる。この場合、そのスライスに対して計算された符号化構造は、対応する入力ストリームに関係する符号化ストリームに加えられることになる。同様に、復号プロセス中に、そのスライスに対して計算された符号化構造が、共通の符号化構造に代えて使用される必要がある。

ビデオピクチャそれ自体をスライスすることはまた、複数の入力ビデオストリームにわたるその類似性に応じてマクロブロックをＦＭＯスライスにグループ化するように、符号化プロセス中に選択することもできる。ビュー間で非常に類似しているマクロブロックのスライスは、次いで、共通の符号化構造を用いて符号化されるが、異なる入力ビデオにわたって多くの差があるマクロブロックのスライスは、ビデオ入力ごとのそのＦＭＯスライスに関連する専用の符号化構造を出力する最新の符号化プロセスを用いて独立して符号化される。

最新の符号器と、前の実施形態で示した符号器との間のこの切換え判断はまた、より粗い粒度で、例えば、フレームレベルで、またはシーケンスレベルで行えることにさらに気付くはずである。

前述の結合符号器と協動するための復号器の２つの実施形態が、次に図６ａおよび６ｂを参照して述べられる。

図６ａの復号器ＪＤ１は、各入力端子ＩＮＲ１、ＩＮＲ２、およびＩＮＲ３上でＥＲＰＤ１、ＥＲＰＤ２、およびＥＲＰＤ３で示される、符号化された残差画素データの複数のシーケンスを受信するように構成される。この実施形態は、入力符号化構造データＥＳＤを含む参照入力データＩＲＥＦを受信するための参照入力端子ＩＮＥをさらに含む。この復号器は、ＥＳＤを含む参照符号化構造データＩＲＥＦと共に、この復号器が復号する必要のある符号化されたビデオストリームに関する符号化された残差画素データの１つまたは複数のシーケンスを選択するようにさらに構成される。図６ａの実施形態では、復号器ＪＤ１は、符号化されたビデオストリームＥＶ１およびＥＶ２（この図では示されていない）を復号することが必要なだけであり、したがって、この復号器は、すべての到来したデータから、参照符号化構造データＥＳＤと、符号化された残差画素データＥＲＰＤ１およびＥＲＰＤ２とを抽出する、またはフィルタするように構成される。このフィルタリングまたは抽出演算は、図６ａのフィルタリングモジュールＦにより行われているが、他の実施形態も同様に可能である。

図６ａの実施形態では、参照入力データＩＲＥＦは、符号化されない形で符号化構造データＥＳＤを含み、したがって、この復号器は、そこから符号化構造データＥＳＤを抽出することなど、ＩＲＥＦに対してさらなる処理ステップを行う必要はない。ＪＤ１は、残差画素データＥＲＰＤ１およびＥＲＰＤ２をエントロピー復号し、かつ符号化された残差画素データの前記少なくとも１つのシーケンスを処理して、それにより符号化ビデオＥＶ１およびＥＶ２に対してＤＲＰＢ１およびＤＲＰＢ２で示された少なくとも１つのシーケンスの復号された残差画素ブロックが得られるようにさらに構成される。このような処理は、図６ａで示すように、逆量子化ステップを行い、その後に逆ブロック変換を行うことを含むことができるが、他の実施形態もまた可能である。復号器ＪＤ１は、符号化構造データＥＳＤから、また各バッファされた画素データから、それぞれ、画素ブロックの各予測ＥＰＰＢ１、およびＥＰＰＢ２を構成するようにさらに構成される。これらの各予測ＥＤＰＢ１、ＥＤＰＢ２は、各復号された残差画素ブロックＤＲＰＢ１、ＤＲＰＢ２と組み合わされて、復号された画素ブロックの各シーケンスを生成する。これらは、ＤＰＢ１およびＤＰＢ２で示され、また各出力端子ＤＯＵＴ１およびＤＯＵＴ２に、各復号されたビデオストリームＤＶ１およびＤＶ２として提供されることになる。

図６ｂで示す実施形態ＪＤ２は、図６ａのＪＤ１と同様のものであるが、参照データが、符号化された符号化構造データとして提供され、それはさらに、復号器ＪＤ２内でエントロピー復号化される点で異なる。

本発明の原理が、特定の装置と共に上記で述べられてきたが、この記述は、例として行われたものに過ぎず、添付の特許請求の範囲で定義される本発明の範囲に対する限定として行われたものではないことを明確に理解すべきである。

Claims

複数のビデオストリーム（ＩＶ１、ＩＶ２、ＩＶ３）を結合符号化するための方法であって、
前記複数のビデオストリーム（ＩＶ１、ＩＶ２、ＩＶ３）を受信するステップと、
前記複数のビデオストリーム（ＩＶ１、ＩＶ２、ＩＶ３）のそれぞれについてイントラ予測及び／またはインター予測を実行して予測画素ブロック（ＰＰＢ１、ＰＰＢ２、ＰＰＢ３）の複数のシーケンスを構成するステップと、
前記複数のビデオストリーム（ＩＶ１、ＩＶ２、ＩＶ３）の対応するブロックと予測画素ブロックの前記複数のシーケンスの前記予測画素ブロック（ＰＰＢ１、ＰＰＢ２、ＰＰＢ３）を処理し、かつエントロピー符号化して、符号化された残差画素データ（ＥＲＰＤ１、ＥＲＰＤ２、ＥＲＰＤ３）の複数のシーケンスを生成するステップとを含み、
予測画素ブロック（ＰＰＢ１、ＰＰＢ２、ＰＰＢ３）の前記複数のシーケンスが、前記複数のビデオストリーム（ＩＶ１、ＩＶ２、ＩＶ３）からマクロブロックレベルにおいて生成された符号化構造データ（ＥＳＤ、ＥＳＤ１、ＪＥＳＤ）から構成され、また符号化された残差画素データ（ＥＲＰＤ１、ＥＲＰＤ２、ＥＲＰＤ３）の前記複数のシーケンスが、前記複数のビデオストリームの符号化されたデータとして、前記符号化構造データ（ＥＳＤ、ＥＳＤ１、ＪＥＳＤ）を含む参照データ（ＩＲＥＦ）と共に提供される、方法。
前記符号化構造データ（ＥＳＤ、ＪＥＳＤ、ＥＳＤ１）が、前記参照データ（ＩＲＥＦ）として符号化された符号化構造データ（ＥＥＳＤ、ＥＪＥＳＤ、ＥＥＳＤ１）を提供するためにさらにエントロピー符号化される、請求項１に記載の方法。
前記符号化構造データ（ＥＳＤ、ＥＳＤ１）が、前記複数のうちの少なくとも１つのビデオストリームから導出された中間ストリームから生成される、請求項１から２のいずれかに記載の方法。
前記中間ストリームが、前記複数のうちの少なくとも２つのビデオストリームを平均することにより、または前記中間ストリームとして前記複数のうちの１つのストリーム（ＩＶ１）を選択することにより得られる、請求項３に記載の方法。
前記少なくとも２つのビデオストリームに対する符号化判断を解析し、かつ前記符号化構造データに含まれるように単一の予測モードを選ぶことにより、前記符号化構造データ（ＪＥＳＤ）が、前記複数のうちの少なくとも２つのビデオストリームから生成される、請求項１に記載の方法。
前記解析が、前記符号化判断を、所定の最適化基準と比較することに基づく、請求項５に記載の方法。
符号化された残差画素データ（ＥＲＰＤ１、ＥＲＰＤ２）の少なくとも１つのシーケンスを含む少なくとも１つの符号化されたビデオストリーム（ＥＶ１、ＥＶ２）、およびマクロブロックレベルにおける入力符号化構造データ（ＥＳＤ）を含む参照データ（ＩＲＥＦ）を復号するための方法であって、符号化された残差画素データ（ＥＲＰＤ１、ＥＲＰＤ２、ＥＲＰＤ３）の複数のシーケンス、および入力符号化構造データ（ＥＳＤ）を含む前記参照データ（ＩＲＥＦ）の複数のシーケンスを受信するステップと、前記少なくとも１つの符号化されたビデオストリーム（ＥＶ１、ＥＶ２）に関する符号化された残差画素データ（ＥＲＰＤ１、ＥＲＰＤ２）の少なくとも１つのシーケンス、および前記符号化構造データ（ＥＳＤ）を含む前記参照データを選択して、前記符号化構造データ（ＥＳＤ）と共に前記少なくとも１つの符号化されたビデオストリーム（ＥＶ１、ＥＶ２）に関する符号化された残差画素データ（ＥＲＰＤ１、ＥＲＰＤ２）の前記少なくとも１つのシーケンスをエントロピー復号し、かつ処理し、イントラ予測及び／またはインター予測を使用して、少なくとも１つの復号されたビデオストリーム（ＤＶ１、ＤＶ２）として、復号された画素ブロック（ＤＰＢ１、ＤＰＢ２）の少なくとも１つのシーケンスを提供するステップとを含む、方法。
前記少なくとも１つの符号化されたビデオストリームに関する符号化された残差画素データの前記少なくとも１つのシーケンスが、逆量子化および逆変換を受けて、それにより復号された残差画素ブロック（ＤＲＰＢ１、ＤＲＰＢ２）の少なくとも１つのシーケンスを取得し、また画素ブロックの少なくとも１つの予測（ＥＰＰＢ１、ＥＰＰＢ２）が、前記符号化構造データ（ＥＳＤ）から、かつバッファされた画素ブロックから構成され、前記少なくとも１つの復号された残差画素ブロック（ＤＲＰＢ１、ＤＲＰＢ２）と組み合わされて、それにより、復号された画素ブロック（ＤＰＢ１、ＤＰＢ２）の前記少なくとも１つのシーケンスを取得する、請求項７に記載の方法。
複数のビデオストリーム（ＩＶ１、ＩＶ２、ＩＶ３）を符号化するための符号器（ＪＥ；ＪＥ１；ＪＥ２；ＪＥ３；ＪＥ４）であって、前記ビデオストリーム（ＩＶ１、ＩＶ２、ＩＶ３）を受信し、前記複数のビデオストリーム（ＩＶ１、ＩＶ２、ＩＶ３）のそれぞれについてイントラ予測及び／またはインター予測を実行して予測画素ブロック（ＰＰＢ１、ＰＰＢ２、ＰＰＢ３）の複数のシーケンスを生成し、予測画素ブロックの前記複数のシーケンス、および前記ビデオストリーム（ＩＶ１、ＩＶ２、ＩＶ３）の対応するブロックを処理し、かつエントロピー符号化して、符号化された残差画素データ（ＥＲＰＤ１、ＥＲＰＤ２、ＥＲＰＤ３）の複数のシーケンスを生成するようにさらに構成されており、
前記符号器（ＪＥ；ＪＥ１；ＪＥ２；ＪＥ３；ＪＥ４）が、さらに、前記複数のビデオストリームからマクロブロックレベルにおける符号化構造データ（ＥＳＤ、ＥＳＤ１、ＪＥＳＤ）を生成し、前記符号化構造データ（ＥＳＤ、ＥＳＤ１、ＪＥＳＤ）から予測画素ブロック（ＰＰＢ１、ＰＰＢ２、ＰＰＢ３）の前記複数のシーケンスを構成し、かつ符号化された残差画素データ（ＥＲＰＤ１、ＥＲＰＤ２、ＥＲＰＤ３）の前記複数のシーケンス、および前記符号化構造データ（ＥＥＳＤ）を含む参照データ（ＩＲＥＦ）を、前記複数のビデオストリームの符号化されたデータとして、各出力端子（ＯＵＴ１、ＯＵＴ２、ＯＵＴ３、ＯＵＴＲＥＦ）に提供するようにさらに構成される、符号器（ＪＥ；ＪＥ１；ＪＥ２；ＪＥ３；ＪＥ４）。
予測画素ブロックの前記複数のシーケンスの予測画素ブロック（ＰＰＢ１、ＰＰＢ２、ＰＰＢ３）と、前記複数のビデオストリーム（ＩＶ１、ＩＶ２、ＩＶ３）の対応するブロックとの間の差から、残差画素ブロック（ＲＰＢ１、ＲＰＢ２、ＲＰＢ３）の複数のシーケンスを生成し、前記各シーケンスの前記残差画素ブロック（ＲＰＢ１、ＲＰＢ２、ＲＰＢ３）を変換、量子化し、かつエントロピー符号化して、それにより符号化された残差画素データ（ＥＲＰＤ１、ＥＲＰＤ２、ＥＲＰＤ３）の前記複数のシーケンスを取得するようにさらに構成される、請求項９に記載の符号器（ＪＥ；ＪＥ１；ＪＥ２；ＪＥ３；ＪＥ４）。
前記参照データを、符号化された符号化構造データ（ＥＥＳＤ）として提供するためになど、前記符号化構造データ（ＥＳＤ）をエントロピー符号化するようにさらに構成される、請求項１０に記載の符号器（ＪＥ；ＪＥ１；ＪＥ２；ＪＥ３；ＪＥ４）。
前記複数のうち少なくとも１つのビデオストリーム（ＩＶ１、ＩＶ２）から導出された中間ストリームから前記符号化構造データ（ＥＳＤ）を生成するようにさらに構成される、請求項１０または１１に記載の符号器（ＪＥ；ＪＥ１；ＪＥ２；ＪＥ３）。
前記複数のうちの少なくとも２つのビデオストリーム（ＩＶ１、ＩＶ２）を平均することにより、または前記中間ストリームとして、前記複数のうちの１つのストリーム（ＩＶ１）を選択することにより前記中間ストリームを生成するようにさらに構成される、請求項１１に記載の符号器（ＪＥ；ＪＥ３）。
前記少なくとも２つのビデオストリームに対する符号化判断を解析することにより、かつ前記符号化構造データに含まれるように単一の予測モードを選ぶことにより、前記符号化構造データが、前記複数のうちの少なくとも２つのビデオストリームから生成される、請求項９に記載の符号器（ＪＥ；ＪＥ４）。
符号化された残差画素データ（ＥＲＰＤ１、ＥＲＰＤ２）の少なくとも１つのシーケンス、およびマクロブロックレベルにおける入力符号化構造データ（ＥＳＤ）を含む参照データを含む少なくとも１つの符号化されたビデオストリームを復号するための復号器（ＪＤ；ＪＤ１；ＪＤ２）であって、符号化された残差画素データ（ＥＲＰＤ１、ＥＲＰＤ２、ＥＲＰＤ３）の複数のシーケンス、および入力符号化構造データ（ＥＳＤ）を含む参照入力データ（ＩＲＥＦ）を受信するように構成され、かつ前記少なくとも１つの符号化されたビデオストリーム（ＥＶ１、ＥＶ２）に関する符号化された残差画素データ（ＥＲＰＤ１、ＥＲＰＤ２）の少なくとも１つのシーケンスを選択し、かつ前記参照入力データ（ＩＲＥＦ）から前記符号化構造データ（ＥＳＤ）を導出し、前記符号化構造データと結合符号化された残差画素データ（ＥＲＰＤ１、ＥＲＰＤ２）の前記少なくとも１つのシーケンスをエントロピー復号し、かつ処理して、イントラ予測及び／またはインター予測を使用して、前記少なくとも１つの復号されたビデオストリーム（ＤＶ１、ＤＶ２）として、復号された画素ブロック（ＤＰＢ１、ＤＰＢ２）の少なくとも１つのシーケンスを提供するようにさらに構成される、復号器（ＪＤ；ＪＤ１；ＪＤ２）。
前記少なくとも１つの符号化されたビデオストリームに関する符号化された残差画素データの前記少なくとも１つのシーケンスに対して逆量子化、および逆変換を実施し、それにより復号された残差画素ブロック（ＤＲＰＢ１、ＤＲＰＢ２）の少なくとも１つのシーケンスを取得するようにさらに構成され、画素ブロックの少なくとも１つの予測（ＥＰＰＢ１、ＥＰＰＢ２）が、前記符号化構造データ（ＥＳＤ）から、かつバッファされた画素ブロックから構成され、前記少なくとも１つの復号された残差画素ブロック（ＤＲＰＢ１、ＤＲＰＢ２）と組み合わされて、それにより復号された画素ブロック（ＤＰＢ１、ＤＰＢ２）の前記少なくとも１つのシーケンスを取得する、請求項１５に記載の復号器。
前記参照入力データ（ＩＲＥＦ）から抽出された符号化された符号化構造データ（ＥＥＳＤ）をエントロピー復号することにより、前記符号化構造データ（ＥＳＤ）を導出するようにさらに構成される、請求項１５または１６に記載の復号器（ＪＤ２）。