JP2021520741A

JP2021520741A - フレームレベル超解像ベースビデオ符号化

Info

Publication number: JP2021520741A
Application number: JP2020555473A
Authority: JP
Inventors: ダ・シルヴァ・プラタス・ガブリエル，アレクサンダー; トーマス，エマニュエル
Original assignee: コニンクリーケ・ケイピーエヌ・ナムローゼ・フェンノートシャップ; ネダーランゼ・オルガニサティ・フォーア・トゥーゲパスト−ナトゥールヴェテンシャッペリーク・オンデルゾエク・ティーエヌオー
Priority date: 2018-04-13
Filing date: 2019-04-12
Publication date: 2021-08-19
Anticipated expiration: 2039-04-12
Also published as: US20210099722A1; US11330280B2; US11438610B2; WO2019197661A1; EP3777166A1; US20210211643A1; CN111937401A; WO2019197674A1; CN111937385A; JP7269257B2; CN111937401B; CN111937385B; EP3777189A1

Abstract

ビデオフレームをビットストリームへ符号化する方法が説明される。本方法は、第１の低解像度（ＬＲ）元フレーム及び１つ又は複数の第２の元ＬＲフレームを判断するためのダウンサンプル方式を第１の解像度の元のビデオフレームに適用することであって、第１のＬＲ元フレーム及び１つ又は複数の第２のＬＲ元フレームは第１の解像度より低い第２の解像度である、適用すること；第１のＬＲ元フレームを第１の元ブロックへ区分化し、１つ又は複数の第２のＬＲフレームを第２の元ブロックへ区分化すること；第１のＬＲ元フレームの第１の元ブロックの予測を定義する第１の予測ブロックを判断する予測方法を使用すること；第１の予測ブロック及び第１の元ブロックに基づき第１の残りブロックを判断し、その後、第１の残りブロック及び第１の予測ブロックに基づき第１の再構成ブロックを判断すること；１つ又は複数の第２のＬＲ元フレームの第２の元ブロックの予測を定義する第２の予測ブロックを第１の再構成ブロックに基づき判断すること；第２の予測ブロック及び第２の元ブロックに基づき第２の残りブロックを判断すること；並びに第１の残りブロック及び第２の残りブロックをビットストリームへ変換することであって、ビットストリームは「符号化中にダウンサンプリング方式がビデオフレームのダウンサンプルに使用された」ということを復号器装置へシグナリングするためのメタデータを含む、変換することを含む。

Description

本発明は、ビデオ符号化のための超解像（ｓｕｐｅｒ−ｒｅｓｏｌｕｔｉｏｎ）ベース予測に関し、具体的には、限定しないが、ビデオ符号化のための超解像ベース予測の方法及びシステム、超解像ベース予測ビデオ符号化のためのモジュールを含む符号器装置及び復号器装置、並びにこのような方法を実行するためのコンピュータプログラム製品に関する。

ビデオ符号化標準化では、ＭＰＥＧ及びＩＴＵジョイントグループはハイブリッドビデオ符号化システム（例えばＡＶＣ及びＨＥＶＣ）を伝統的に採用してきた。このハイブリッドシステムは運動予測とビデオブロックベース変換符号化との組み合わせを含む。ここで、ビデオブロック（手短に言えばブロック）はビデオ標準規格の基本処理ユニットを指す。ビデオブロックは様々な符号化標準規格において異なるやり方で名付けられており、例えばＨ．２６４／ＡＶＣではブロックはマクロブロックと呼ばれ、ＨＥＶＣではブロックは符号化ツリーユニット（ＣＴＵ：ＣｏｄｉｎｇＴｒｅｅＵｎｉｔ）と呼ばれ、ＶＰ９及びＡＶ１では符号化ブロックはスーパーブロックを呼ばれる。ハイブリッドビデオ符号化システムはビデオフレーム内のビデオサンプルの冗長性を活用することを目的とする。特に、運動予測は連続フレームと所与のフレーム内の画素の空間的相関との間の時間的冗長性を活用する一方で、所謂「変換符号化」は信号成分を無相関化する。ＨＥＶＣ、ＡＶ１及び現在開発されているＶＶＣ（汎用ビデオ符号化：ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ）などの従来技術符号化標準仕様の現在状態は、Ｈ．２６４／ＡＶＣ（ＭＰＥＧ−４、パート１０）などの前世代の他の符号化標準と比較すると著しく高い圧縮効率を有する。

時間的予測は、いくつかの状況（例えば、ビデオシーケンスの第１のフレームの場合、フレームがキーフレーム（すなわち復号化が圧縮ビットストリームの中央において開始され得るフレーム）の場合、又は２つのフレーム間の相関が余りに小さい場合（例えば突然の場面変化など））では使用することができない。これらの場合、イントラ予測方式がビデオシーケンスの当該位置においてフレームを圧縮するために使用され得る。イントラ予測は、現フレーム内の以前に符号化されたブロックと隣接画素間の想定される強い相関すなわち画素間の「空間的冗長性」とに基づく。この空間的冗長性はビデオフレームの輝度情報と色度情報との両方において存在し得る。例えば、サッカーゲーム画像では、緑色画素の隣接画素もまた主に緑色となる。また、一般的に、暗い画素に隣接する画素も暗くなる（例えば影領域内で）。

通常、ビデオフレーム内のブロックは、ビデオフレームの左上角のブロックから始まるラスタ走査順序で（すなわち行毎に）処理される。したがって、現在のブロックの予測画素は隣接ブロック（通常は、現在のブロックの上及び／又は左側に位置するブロック）の以前に符号化されたサンプルに基づくことになる。ＨＥＶＣ及びＡＶ１はマクロブロックに利用可能なそれぞれがそれ自身のモードを有する様々なタイプのイントラ予測方法を有する。例えば、輝度情報に関し、以下の様々なタイプのイントラ予測が存在する：１６×１６ブロック（マクロブロック全体）の予測方法、８×８ブロック（マクロブロック当たり４）の予測方法、又は４×４ブロック（マクロブロック当たり１６）の予測方法。色度情報に関し、予測が当該マクロブロックの１つのブロックに基づき行われる方法が存在する。

さらに、予測方法のタイプに依存して、利用可能な以下の様々なモードが存在する：８×８又は４×４輝度予測のための様々なモード、及び１６×１６輝度予測及び色度情報のための様々なモード。各モードは、どのように現在のブロック内の画素の値が、符号化される必要がある現在のブロックの隣のブロック内の先に符号化された画素値に基づき予測されるかを正確に判断する。（マクロ）ブロックが符号化される順序により、現在のブロックの左又は上に位置するブロックの画素だけが利用可能である。符号器がイントラ予測に基づき現在のブロックを予測することを判断する場合、符号器は、あるタイプのイントラ予測とこのイントラ予測タイプに属するモードのうちの１つのモードとを選択することになる。符号器は、残りブロックを判断するために予測ブロックを使用することになる。この予測ブロックはイントラ予測タイプ及び関連モードに関する情報と一緒に符号器により復号器へ送信される。どのタイプのイントラ予測を選択しそしてどのモードを使用すべきかは符号器次第である。

予測処理におけるより小さなブロックサイズの使用はより精確な予測を多分生じることになるが、符号器はビットストリーム内のより多くのブロックの選択されたモードをシグナリングする必要があるのでより大きなオーバーヘッドもある。通常、より均質な領域に関し、予測は通常、より大きなブロック（１６×１６、６４×６４又はさらには１２８×１２８ブロックなど）に基づき行われることになり、より詳細な領域に関し、予測は通常、より小さなブロックに基づくことになる。

しかし、いくつかの状況では、隣接画素間のビデオ信号の強い相関の仮定はもはや成り立たない。これは例えば、このような空間的相関が幾何学的継ぎ目（すなわちグリッドで配置された立体面）などの２Ｄ面（ＥＰＲ又は立方）への投影の影響に起因してもはや存在しない又は少なくとも大幅に低減される３６０°ビデオの場合であり得る。また、従来の２Ｄビデオ符号化では、ビデオ信号（例えばビデオ内に大きなテクスチャ（草、砂、植物など）及び雑音を有する自然場面、２つの隣接画素間の相関を低減するあらゆる現象）は本来的に低い相関を有し得る。したがって、この場合、（ビデオブロックの）Ｉフレームは正確に予測されなく、したがって効率的に圧縮され得ない。これは、Ｉフレームがビットストリーム内の全データのかなりの部分（時に最大８０％すら）を表し得るので、ビデオ信号の全体的圧縮効率をひどく劣化させ得る。

より一般的には、圧縮される必要があるビデオフレームの領域内のビデオ信号のある相関に関し、イントラ予測は、２つの画素間の距離が増加すると相関が低下するので、当該領域内のビデオ信号の予測ビデオブロックの一定サイズまで効率的圧縮を提供することになる。

したがって、上記から、効率的ビデオブロック符号化を可能にする改善された符号化方式（具体的には高解像度ビデオのための効率的ビデオブロック符号化）の必要性が当該技術領域においてあるということになる。

当業者により理解されるように、本発明の態様はシステム、方法又はコンピュータプログラム製品として具現化され得る。したがって、本発明の態様は、完全にハードウェア実施形態、完全にソフトウェア実施形態（ファームウェア、常駐ソフトウェア、マイクロコードなどを含む）_、又は本明細書ではソフトウェア態様と「回路」、「モジュール」又は「システム」とすべて一般的に呼ばれ得るハードウェア態様とを組み合わせる実施形態の形式を取り得る。本開示において説明される機能は、コンピュータのマイクロプロセッサにより実行されるアルゴリズムとして実装され得る。さらに、本発明の態様は、具現化される（例えば、その上に格納される）コンピュータ可読プログラムコードを有する１つ又は複数のコンピュータ可読媒体内に具現化されるコンピュータプログラム製品の形式を取り得る。

１つ又は複数のコンピュータ可読媒体の任意の組み合わせが利用され得る。コンピュータ可読媒体はコンピュータ可読信号媒体であってもよいしコンピュータ可読ストレージ媒体であってもよい。コンピュータ可読ストレージ媒体は例えば、限定しないが、電子、磁気、光、電磁気、赤外線、又は半導体システム、装置、デバイス又はこれらの任意の組み合わせであり得る。コンピュータ可読ストレージ媒体のより具体的な例（非網羅的リスト）は以下のものを含むだろう：１つ又は複数のワイヤを有する電子的接続、携帯型コンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、携帯型コンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、光学的ストレージデバイス、磁気的ストレージデバイス、又はこれらの任意の好適な組み合わせ。本文書の文脈では、「コンピュータ可読ストレージ媒体」は命令実行システム、装置又はデバイスにより使用するための又はそれに関連して使用するためのプログラムを含み得る又は格納し得る任意の有形媒体であり得る。

コンピュータ可読信号媒体は、コンピュータ可読プログラムがその上に具現化された伝搬されたデータ信号を含み得る（例えばベースバンド内の又は搬送波の一部として）。このような伝播された信号は、限定しないが、電磁気、光、又はそれらの任意の好適な組み合せを含む多様な形式のうちの任意の形式を取り得る。コンピュータ可読信号媒体は、コンピュータ可読ストレージ媒体でない任意のコンピュータ可読媒体であって、命令実行システム、装置又はデバイスによる使用のための又はそれに関連する使用のためのプログラムを伝達、伝搬、又は輸送し得る任意のコンピュータ可読媒体であり得る。

コンピュータ可読媒体上に具現化されるプログラムコードは、限定しないが、無線、有線、光ファイバ、ケーブル、ＲＦなど又は上述したものの任意の好適な組み合わせを含む任意の適切な媒体を使用して送信され得る。本発明の態様の操作を行うためのコンピュータプログラムコードは、Ｊａｖａ（ＴＭ）、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、「Ｃ」プログラミング言語又は同様なプログラミング言語などの従来の手順プログラミング言語を含む１つ又は複数のプログラミング言語の任意の組み合わせで書かれ得る。プログラムコードは、ユーザのコンピュータ上で完全に、スタンドアロンソフトウェアパッケージとしてのユーザのコンピュータ上で部分的に、ユーザのコンピュータ上で部分的に、リモートコンピュータ上で部分的に、又はリモートコンピュータ又はサーバ上で完全に実行し得る。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）又は広域ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介しユーザのコンピュータへ接続され得る、又は、この接続は外部コンピュータに対しなされ得る（例えばインターネットサービスプロバイダを使用してインターネットを介し）。

本発明の態様は、本発明の実施形態による方法、装置（システム）及びコンピュータプログラム製品のフローチャート図及び／又はブロック図を参照して以下に説明される。フローチャート図及び／又はブロック図の各ブロック並びにフローチャート図及び／又はブロック図内のブロックの組み合わせはコンピュータプログラム命令により実施され得るということが理解されることになる。これらのコンピュータプログラム命令は、コンピュータ又は他のプログラマブルデータ処理装置又は他のデバイスのプロセッサを介し実行する命令がフローチャート及び／又はブロック図ブロック又はブロック群において規定された機能／行為を実施する手段を生成するように、マシンを製造するために汎用コンピュータ、特殊用途コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ（特に、マイクロプロセッサ又は処理ユニット（ＣＰＵ））へ提供され得る。

これらのコンピュータプログラム命令はまた、フローチャート及び／又はブロック図ブロック又はブロック群内に規定された機能／行為を実施する命令を含むコンピュータ可読媒体内に格納された命令が製品を生成するようにコンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスに特定のやり方で機能するように指示し得るコンピュータ可読媒体内に格納され得る。

コンピュータプログラム命令はまた、コンピュータ又は他のプログラマブル装置上で実行する命令が、フローチャート及び／又はブロック図ブロック又はブロック群において規定された機能／行為を実施するための処理を提供するように、コンピュータ、他のプログラマブルデータ処理装置上に、又は一連の操作工程がコンピュータ上で行われるようにさせる他のデバイス上に、コンピュータ実施処理を生成するための他のプログラマブル装置又は他のデバイス上にロードされ得る。

添付図面内のフローチャート及びブロック図は、本発明の様々な実施形態によるシステム、方法及びコンピュータプログラム製品の可能な実施形態のアーキテクチャ、機能及び動作を示す。この点に関し、フローチャート又はブロック図内の各ブロックは、規定された論理機能を実施するための１つ又は複数の実行可能命令を含むモジュール、セグメント、又はコードの一部分を表し得る。いくつかの代替実施形態ではブロック内に示された機能が添付図面において示された順番から外れて発生し得るということにも注意すべきである。例えば、連続して示された２つのブロックは実際にはほぼ同時に実行され得る、又はこれらのブロックは時に、関与する機能に依存して逆順で実行され得る。ブロック図及び／又はフローチャート図の各ブロック及びブロック図及び／又はフローチャート図内のブロックの組み合わせは、規定機能若しくは行為、又は特殊用途ハードウェアとコンピュータ命令との組み合わせを行う特殊用途ハードウェアベースシステムにより実施され得るということにも注意する必要があるだろう。

一態様では、本発明はビデオフレームをビットストリームへ符号化する方法に関する。本方法は、復号器装置のプロセッサが、第１の低解像度（ＬＲ）（ｌｏｗ−ｒｅｓｏｌｕｔｉｏｎ）元フレーム及び１つ又は複数の第２の元ＬＲフレームを判断するためのダウンサンプル方式を第１の解像度の元のビデオフレームに適用することであって、第１のＬＲ元フレーム及び１つ又は複数の第２のＬＲ元フレームは第１の解像度より低い第２の解像度である、適用すること；プロセッサが第１のＬＲ元フレームを第１の元ブロックへ区分化し、１つ又は複数の第２のＬＲフレームを第２の元ブロックへ区分化すること；第１のＬＲ元フレームの第１の元ブロックの予測を定義する第１の予測ブロックを判断する予測方法をプロセッサが使用すること；プロセッサが第１の予測ブロック及び第１の元ブロックに基づき第１の残りブロックを判断し、その後、第１の再構成ブロックを第１の残りブロック及び第１の予測ブロックに基づき判断すること；１つ又は複数の第２のＬＲ元フレームの第２の元ブロックの予測を定義する第２の予測ブロックをプロセッサが第１の再構成ブロックに基づき判断すること；プロセッサが第２の予測ブロック及び第２の元ブロックに基づき第２の残りブロックを判断すること；及びプロセッサが第１の残りブロック及び第２の残りブロックを、「符号化中にダウンサンプリング方式がビデオフレームをダウンサンプリングするために使用された」ということを復号器装置へシグナリングするためのメタデータを含むビットストリームへ変換すること、を含む。

したがって、本発明は、元のビデオフレームを空間的に複数の低解像度バージョンへサブサンプリングするための超解像技術がフレームレベルにおいて使用される符号化方法に関する。低解像度バージョンの１つは、他の低解像度バージョンの予測を判断するための基準フレームとして使用される再構成された低解像度フレームを判断するために符号化及び復号化され得る。本符号化方法はビデオフレームが低い空間的相関を有する画素値を含む場合に特に効率的である。

一実施形態では、ビデオフレームはＩフレームであり得、第１の予測ブロックを判断することは、第１の予測ブロックを判断するイントラ予測方法を使用することを含み得る。一実施形態では、ビデオフレームはＰフレーム又はＢフレームであり得、第１の予測ブロックを判断することは、第１の予測ブロックを判断するインター予測（ｉｎｔｅｒ−ｐｒｅｄｉｃｔｉｏｎ）方法を使用することを含み得る。したがって、符号化方法はＩフレーム又はＰ若しくはＢフレームの両方に適用され得る。

一実施形態では、第１の再構成ブロックは、第２の予測ブロックを判断するための基準フレームを定義する第１のＬＲ再構成フレームを定義し得る。

一実施形態では、ブロックマッチング予測方法が第２の予測ブロックを判断するために使用され得る。一実施形態では、ブロックマッチング予測方法はイントラ領域ベース（ｉｎｔｒａｒｅｇｉｏｎ−ｂａｓｅｄ）テンプレートマッチング方法又はイントラコピーブロック（ｉｎｔｒａｃｏｐｙｂｌｏｃｋ）方法に基づき得る。したがって、ブロックマッチング技術として知られたフレーム間予測に通常使用される技術がこれらの予測を判断するために使用され得る。イントラブロックコピー（ＩＢＣ：ＩｎｔｒａＢｌｏｃｋＣｏｐｙ）予測モードがＨＥＶＣＳｃｒｅｅｎＣｏｎｔｅｎｔＣｏｄｉｎｇｅｘｔｅｎｓｉｏｎから知られる。使用され得る別のブロックマッチング技術はイントラ領域ベース（ＩｎｔｒａＲｅｇｉｏｎ−ｂａｓｅｄ）テンプレートマッチング技術である。

一実施形態では、第１のＬＲ元フレームに関連付けられた第１の残りブロックと１つ又は複数の第２のＬＲ元フレームに関連付けられた第２の残りブロックはデータ構造（好適にはピクチャのサブグループ（ｓｕｂＧｒｏｕｐｏｆＰｉｃｔｕｒｅｓ）「サブＧＯＰ」）を定義し得、好適にはデータ構造はサブＧＯＰのメタデータと関連付けられる。サブＧＯＰは、同じスーパーフレームのピクチャを参照するピクチャのグループである。この場合、サブＧＯＰは様々なＬＲフレームを様々なフレームとして定義する。第１のＬＲフレームはＩフレームを表し、他のＬＲフレームは既知タイプ（例えばＰ又はＢ）又は定義される新しいタイプのものであり得る。

一実施形態では、ダウンサンプリング方式は、複数（好適には４つ）の空間的ダウンサンプリング格子を含む多相ダウンサンプリング方式であり得る。いかなるダウンサンプリングフィルタも、高解像度フレームの再構成が最適化され得るように、行われるダウンサンプリング操作が復号器へ知らされる限り使用され得る。特定ケースでは、ダウンサンプリングフィルタは多相ダウンサンプルであり得る。多相ダウンサンプルは、高解像度の元のビデオフレームから生成される４フレームが全ソース情報を含むという利点を与える。この操作はデータ損失を生じない。

一実施形態では、第１のＬＲ元フレームと１つ又は複数の第２のＬＲ元フレームは第１の解像度の多重化ビデオフレームへ空間的に多重化され得る。ＬＲフレームは、ブロック区分化に関するメタデータが第１のＬＲフレームに対応する領域（例えば多相ダウンサンプルの場合の左上部ブロック）に帰着し得るように１つのフレームへ空間的に多重化され得る。他のＬＲフレームのブロック区分化が第１のＬＲフレームと同様に考えられ得る。

したがって、多相ダウンサンプリングされた元のビデオフレームの４つのＬＲフレームはその解像度がＨＲフレームに等しい単一フレームとして処理され得る又はその解像度がＨＲフレームの１／４である４つの（低解像度）フレームとして処理され得るかのいずれかであり得る。

一実施形態では、メタデータは、符号器装置により使用されたダウンサンプリング方式のタイプを復号器装置へシグナリングするための１つ又は複数の第１のパラメータを含み得る。一実施形態では、メタデータは、第１の予測ブロックを予測するために使用された予測のタイプを復号器装置へシグナリングするための１つ又は複数の第２のパラメータを含み得る。一実施形態では、メタデータは、第２の予測ブロックを予測するために使用された予測のタイプを復号器装置へシグナリングするための１つ又は複数の第３のパラメータを含み得る。元のビデオフレームが様々な低解像度フレームへ分解されるということとそれがどのように分解されるかということとがフレーム毎にビットストリーム内でシグナリングされ得る。例えば、一実施形態では、スライスセグメントヘッダ（ＨＥＶＣ）又はタイルグループヘッダ（ＶＶＣ）内のフラグが、ダウンサンプルを４つの多相化された位相で表現するために定義され得る。他の実施形態では、このシグナリングは、復号器が操作を元に戻し得るようにダウンサンプリングのタイプと生成された相の数とを表し得る。

一態様では、本発明はビットストリームをビデオフレームへ復号化する方法に関し得る。本方法は、復号装置のプロセッサが、第１の低解像度（ＬＲ）元フレームに関連付けられた第１の符号化された残りブロックと１つ又は複数の第２のＬＲ元フレームに関連付けられた第２の符号化された残りブロックとを含むビットストリームを受信すること；プロセッサが第１及び第２の符号化された残りブロックに関連付けられたメタデータを受信することであって、メタデータは、第１の解像度の元フレームを第１のＬＲ元フレームと１つ又は複数の第２のＬＲの元のフレームとへダウンサンプリングするダウンサンプリング方式を符号器装置が使用したということを復号器装置へシグナリングし、第１のＬＲ元フレーム及び１つ又は複数の第２のＬＲ元フレームは第１の解像度より低い第２の解像度である、受信すること；第１のＬＲ元フレームの第１の元ブロックの予測を定義する第１の予測ブロックを判断する予測方法をプロセッサが使用すること；プロセッサが、第１の符号化された残りブロックを第１の残りブロックへ変換し、そして第１のＬＲ再構成フレームを定義する第１の再構成ブロックを第１の残りブロック及び第１の予測ブロックに基づき判断すること；１つ又は複数の第２のＬＲ元フレームの第２の元ブロックの予測を定義する第２の予測ブロックをプロセッサが第１の再構成ブロックに基づき判断すること；プロセッサが、第２の符号化された残りブロックを第２の残りブロックへ変換し、そして１つ又は複数の第２のＬＲ再構成フレームを定義する第２の再構成ブロックを第２の残りブロック及び第２の予測ブロックに基づき判断すること；及び、プロセッサが、再構成された元のビデオフレームを第１のＬＲ再構成フレームと１つ又は複数の第２のＬＲ再構成フレームとに基づき判断すること、を含み得る。

一実施形態では、再構成ブロックを判断することは：第１のＬＲ再構成フレームと１つ又は複数の第２のＬＲ再構成フレームとをアップサンプリングすることであって、好適には、アップサンプリングすることはダウンサンプリング方式に関連付けられたアップサンプリング方式に基づく、アップサンプリングすること；及び、アップサンプリングされた第１のＬＲ再構成フレームとアップサンプリングされた第２のＬＲ再構成フレームとを、再構成された元のビデオフレームへ合成することを含み得る。

一実施形態では、ブロックマッチング予測方法は第２の予測ブロックを判断するために使用され得、好適にはブロックマッチング予測方法はイントラ領域ベーステンプレートマッチング方法又はイントラコピーブロック方法に基づく。

一実施形態では、ビットストリームは、高効率ビデオ符号化（ＨＥＶＣ：ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ）ベースビットストリーム、ＡｌｌｉａｎｃｅｆｏｒＯｐｅｎＭｅｄｉａＶｉｄｅｏ（ＡＶ１）ベースビットストリーム、又は汎用ビデオ符号化（ＶＶＣ：ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ）ベースビットストリームであり得る。

一態様では、本発明はビデオフレームをビットストリームへ符号化するための装置に関し得る。本装置は：プログラムの少なくとも一部がその中に具現化されたコンピュータ可読ストレージ媒体と；コンピュータ可読プログラムコードがその中に具現化されたコンピュータ可読ストレージ媒体と、コンピュータ可読ストレージ媒体へ結合されたプロセッサ（好適にはマイクロプロセッサ）とを含み得、コンピュータ可読プログラムコードを実行することに応答して、プロセッサは、以下のことを含み得る実行可能操作を行うように構成される：第１の低解像度（ＬＲ）元フレーム及び１つ又は複数の第２の元ＬＲフレームを判断するためのダウンサンプル方式を第１の解像度の元のビデオフレームに適用することであって、第１のＬＲ元フレーム及び１つ又は複数の第２のＬＲ元フレームは第１の解像度より低い第２の解像度である、適用すること；第１のＬＲ元フレームを第１の元ブロックへ区分化し、１つ又は複数の第２のＬＲフレームを第２の元ブロックへ区分化すること；第１のＬＲ元フレームの第１の元ブロックの予測を定義する第１の予測ブロックを判断する予測方法を使用すること；第１の予測ブロック及び第１の元ブロックに基づき第１の残りブロックを判断し、その後、第１の残りブロック及び第１の予測ブロックに基づき第１の再構成ブロックを判断すること；１つ又は複数の第２のＬＲ元フレームの第２の元ブロックの予測を定義する第２の予測ブロックを第１の再構成ブロックに基づき判断すること；第２の予測ブロック及び第２の元ブロックに基づき第２の残りブロックを判断すること；及び第１の残りブロック及び第２の残りブロックを「符号化中にダウンサンプリング方式がビデオフレームをダウンサンプリングするために使用された」ということを復号器装置へシグナリングするためのメタデータを含むビットストリームへ変換すること。

一態様では、本発明はビットストリームをビデオフレームへ復号化するための装置に関し得る。本装置は：プログラムの少なくとも一部がその中に具現化されたコンピュータ可読ストレージ媒体と；コンピュータ可読プログラムコードがその中に具現化されたコンピュータ可読ストレージ媒体と、コンピュータ可読ストレージ媒体へ結合されたプロセッサ（好適にはマイクロプロセッサ）とを含み得、コンピュータ可読プログラムコードを実行することに応答して、プロセッサは、以下のことを含む実行可能操作を行うように構成される：第１の低解像度（ＬＲ）元フレームに関連付けられた第１の符号化された残りブロックと１つ又は複数の第２のＬＲ元フレームに関連付けられた第２の符号化された残りブロックとを含むビットストリームを受信すること；第１及び第２の符号化された残りブロックに関連付けられたメタデータを受信することであって、メタデータは「第１の解像度の元フレームを第１のＬＲ元フレームと１つ又は複数の第２のＬＲの元のフレームとへダウンサンプリングするダウンサンプリング方式を符号器装置が使用した」ということを復号器装置へシグナリングし、第１のＬＲ元フレーム及び１つ又は複数の第２のＬＲ元フレームは第１の解像度より低い第２の解像度である、受信すること；第１のＬＲ元フレームの第１の元ブロックの予測を定義する第１の予測ブロックを判断する予測方法を使用すること；第１の符号化された残りブロックを第１の残りブロックへ変換し、そして第１のＬＲ再構成フレームを定義する第１の再構成ブロックを第１の残りブロック及び第１の予測ブロックに基づき判断すること；１つ又は複数の第２のＬＲ元フレームの第２の元ブロックの予測を定義する第２の予測ブロックを第１の再構成ブロックに基づき判断すること；第２の符号化された残りブロックを第２の残りブロックへ変換し、そして１つ又は複数の第２のＬＲ再構成フレームを定義する第２の再構成ブロックを第２の残りブロック及び第２の予測ブロックに基づき判断すること；及び再構成された元のビデオフレームを第１のＬＲ再構成フレームと１つ又は複数の第２のＬＲ再構成フレームとに基づき判断すること。

一態様では、本発明は、本出願に記載される実施形態を参照して説明されるようにビデオデータをビットストリームへ符号化する方法を実行するように構成された符号器装置に関する。

一態様では、本発明は、本出願に記載される実施形態を参照して説明されるようにビットストリームをビデオデータへ復号化する方法を実行するように構成された復号器装置に関する。

本発明はさらに、コンピュータのメモリ内で実行されると上述の方法工程の任意の方法工程に従って方法工程を実行するように構成されたソフトウェアコード部分を含むコンピュータプログラム製品に関する。

本発明はさらに、本発明による実施形態を概略的に示す添付図面を参照して示されることになる。本発明はこれらの特定実施形態へいかなるやり方でも制約されないということが理解されることになる。

本開示において説明される実施形態において使用され得る空間サブサンプリング方式の例を描写する。本開示において説明される実施形態において使用され得る多相サブサンプリング方式の例である。本発明の一実施形態による符号化処理の一部分を描写する。本発明の一実施形態による低解像度再構成ビデオブロックの形成を概略的に描写する。本発明の一実施形態によるサブＧＯＰ構造を含むＧＯＰ構造を概略的に描写する。本発明の一実施形態による空間サンプリング方式に基づきビデオフレームを符号化するための符号化処理の一部分を描写する。本発明の一実施形態によるブロックベース符号化処理を描写する。本発明の一実施形態によるブロックベース復号化処理を描写する。本発明の一実施形態による符号器装置を示すブロック図を描写する。本発明の一実施形態による復号器装置を示すブロック図を描写する。本開示において説明される実施形態において使用され得る解像度成分フォーマットの例を描写する。本出願において説明される実施形態を使用し得るビデオ符号化及び復号化システムの概略図を描写する。

ビデオフレームを圧縮し符号化するために超解像技術を使用することが本出願における実施形態の目的である。超解像技術は、符号器が元のビデオフレームのダウンサンプリングされたフレームを符号化し得るようにインループ符号化処理中に使用され得る。したがって、インループ符号化処理中、符号器は、元のビデオフレームより低い解像度のフレームを符号化し得る。超解像技術を使用すべきかどうかを符号器により判断することは、符号器の速度歪最適化（ＲＤＯ：ｒａｔｅｄｉｓｔｏｒｔｉｏｎｏｐｔｉｍｉｓａｔｉｏｎ）ループ内の費用関数に基づき評価され得る。このようにして、高解像度ビデオフレーム（特に高解像度イントラ符号化（Ｉ）ビデオフレーム）及びビデオフレームの効率的符号化は従来の圧縮を使用して圧縮するのが困難であるいくつかの場面を表すビデオサンプルを含む。このようなビデオは例えば３６０°ビデオを含む。超解像技術の活性化は、復号器がビットストリームを正しく復号化し、復号化された低解像度ビデオブロックに基づき元のビデオフレームを再構成し得るようにビットストリーム内でシグナリングされ得る。

本開示では、超解像処理は通常、一組の低解像度（ＬＲ：ｌｏｗｒｅｓｏｌｕｔｉｏｎ）観察（例えば画像）に基づき高解像度（ＨＲ：ｈｉｇｈｒｅｓｏｌｕｔｉｏｎ）画像又は一系列のＨＲ画像を取得する画像処理方式を指し得る。これらの画像は時間においてコヒーレントであってもなくてもよい。例えば、一系列のビデオフレーム内で、第１の解像度（例えば標準精細度又は高解像度）の前後のビデオフレームは、ビデオシーケンスにおいて第２の解像度（例えば超解像又は４Ｋ）のビデオフレームの画像を再構成するために使用され得る。超解像処理は主として、ＬＲ観察がそれらの世代に関する極僅かの予備的知識でもって生成される場合に空間的及び時間的解像度向上を得るために使用されてきた。例えば、２つのＬＲ観察間の空間的移動量は知られていないかもしれなくしたがって推定される必要がある。しかし、超解像処理はまた、制御され精確に定義された環境において使用され得る。例えば、符号化中、ビデオフレームは所定ダウンサンプリング方式（例えば多相ダウンサンプリング）を使用してダウンサンプリングされ得、超解像技術は、低解像度フレームをアップサンプリングすることとアップサンプリングされた低解像度フレームを高解像度ビデオフレームへ合成することとを使用することにより高解像度画像を構築するために使用され得る。この場合、超解像処理は、ＬＲ観察の特徴及びそれらの空間的及び時間的関係が知られており推定される必要がないので最適に働き得る。

図１と図２は本開示において説明される実施形態において使用され得る空間サブサンプリング方式の例を描写する。図１は、（規則的）サンプリング格子（例えば、高解像度格子すなわちビデオサンプルのアレイ）に基づき連続画像の一部分をサンプリングすることにより形成され得るビデオフレーム１０２（例えばビデオブロック）の一部分を描写する。ここで、サンプリング格子内の各サンプリング点は高解像度ビデオフレーム内のビデオサンプルを形成し得る。ビデオサンプルはＲＧＢ又はＹＣｂＣｒカラー方式における特定カラー成分を表し得る。例えば、３つのＲＧＢビデオサンプルがビデオフレーム内の１つのカラー画素を形成し得る。様々なタイプの低解像度ビデオフレームが、様々な低解像度サンプリング格子１０４_１−４を使用することにより高解像度ビデオ信号の高解像度フレームに基づき形成され得る。一般的に、低解像度サンプリング格子は高解像度ビデオフレームのサンプリング格子より低いサンプリング密度を有する。例えばＡＶＣのＳｃａｌａｂｌｅＶｉｄｅｏＣｏｄｉｎｇ（ＳＶＣ）及びＳｃａｌａｂｌｅＨＥＶＣ（ＳＨＶＣ）などのスケーリング可能ビデオ符号化標準規格から知られるダウンサンプリング操作において、ダウンサンプリングされたビデオ信号のビデオフレームの新しい画素値は元の高解像度ビデオ信号のビデオフレーム内の画素値の組に基づき計算され得る。

しかし、いくつかのダウンサンプリング方式は画素値を変更しない。このような方式は以降、空間サブサンプリング方式と呼ばれ得る。このような空間サブサンプリング方式は、画像フレームを形成する一組の画素値から画素値のサブセットだけを選択する。空間サブサンプリング方式は、元のビデオ信号又はその低解像度バージョンの非常に効率的な再構成を可能にする。加えて、解像度成分の空間的にサブサンプリングされたビデオフレームは、高解像度ビデオフレームを構築するための超解像技術の使用を可能にする。図１に示すサンプリング格子は本開示の実施形態において使用され得る多数の様々なサンプリング格子の一例と考えるべきであるということに注意すべきである。

このような低解像度サンプリング格子により生成されるビデオフレームは解像度成分のビデオフレームを表し得る。様々な解像度成分は、様々なサンプリング格子に基づき高解像度ビデオフレームをサブサンプリングすることにより形成され得る。サンプリング格子のグループは、このサンプリング格子のグループに基づき生成される解像度成分が元の高解像度ビデオ信号を再構成する（すなわち、元の高解像度ビデオ信号と同一又はほぼ同一であるビデオ信号を再構成する）ために使用され得るように選択され得る。さらに、１つ又は複数の空間サンプリング格子は、１つ又は複数のサンプリング格子に基づき生成された解像度成分が、高解像度ビデオ信号の低解像度バージョンを構築するために使用され得るように選択され得る。

いくつかの実施形態では、高解像度ビデオフレームをサブサンプリングするために使用されるサンプリング格子は同じサンプリング密度を有し得る。このようなサンプリング格子上に生成される解像度成分は同じ解像度を有する。他の実施形態では、サンプリング格子（のいくつか）は様々なサンプリング密度を有し得る。この場合、解像度成分（のいくつか）は様々な解像度を有する。さらに、図１に示すように、いくつかの実施形態では、サンプリング格子は重畳部分（すなわち共通の１つ又は複数のサンプリング点）を有し得る。他の実施形態では、サンプリング格子間の重畳部分は無い。

したがって、解像度成分のグループは図１に描写するように空間サブサンプリングに基づき生成され得る。グループ内のすべての解像度成分は元の高解像度ビデオ信号を再構成するために使用され得、そしてグループ内の解像度成分のうちのいくつかは高解像度ビデオ信号の１つ又は複数の低解像度バージョンを構築するために使用され得る。

図２は空間サブサンプリング方式の例を描写する。特に、同図は第２の解像度のビデオフレームの画素２０２に基づき第１の解像度の多く（この例では４つ）のビデオフレームを生成する多相サブサンプリング方式を描写し、第２の解像度は第１の解像度より高い。多相サブサンプリングでは、４×４画素行列は４つの２×２解像度成分２０３_１−４へサブサンプリングされ得、４×４画素行列では、各解像度成分は空間的にシフトされた２×２画素行列２０６_１−４を表す。４つの解像度成分は元（高解像度）のビデオ信号を再構成するために復号器により使用され得る解像度成分のグループ（解像度成分グループ）を形成し得る。

高解像度ビデオは、それぞれが１９２０×１０８８画素解像度及び毎秒２４フレーム（ｆｐｓ）のフレーム速度を有するＹＵＶ型カラーフォーマット（例えばＹＵＶ４：２：０カラーフォーマット）を有し得る。この高解像度ビデオフレームを係数２（Ｙ、Ｕ及びＶへ適用される）でもって多相空間サブサンプリング処理へ付すことは、ＹＵＶ４：２：０カラーフォーマットの４つの低解像度ビデオフレームを生じるだろう。ここで、各フレームは９６０×５４４画素解像度及び２４ｆｐｓのフレーム速度を有する。

図２に描写する多相サブサンプリング方式は、符号器側と復号器側との両方において非常に速い操作を可能にするという利点を提供する。ここで、画素値は変更されない。しかし、この多相サブサンプリング方式は、元の信号がサブサンプリング周波数の２倍より高い周波数を含めば空間的エイリアシング効果により視覚アーチアファクトを導入し得る。この場合、４つの低解像度成分のいずれかが描画のために適切でないかもしれない。この効果を軽減するために、ポストフィルタリング操作が、解像度成分の出力フレームを強化し、これらの視覚的アーチアファクトを可能な限り多く相殺するために適用され得る。また、プリフィルタリングが、適用され、プリフィルタリング工程において適用された劣化の知識が効率的に適用され得るポストフィルタリング操作においてある程度元に戻され得る。

例えば、一実施形態では、多相サブサンプリングは高解像度フレームの低域通過フィルタリング後に行われ得る。このようにして、エイリアシング効果に起因する視覚的アーチアファクトは除去され得る。低域通過フィルタリングの際、後処理工程が、描画する前に元画像を復元するために必要である。そうでなければ、せいぜい、再構成された信号は入力信号の低域通過バージョンである。無損失符号化では、低域通過フィルタを元に戻してＨＲ画像を復元することは逆Ｗｉｅｎｅｒフィルタなどの技術によりある程度実行可能である。損失符号化では、低域通過フィルタリングは、特に再構成信号が圧縮により既に激しく損傷された場合に低ビットレート符号化においていくつかの困難を導入し得る。このような後処理復元方式は、低域通過フィルタにより除去されたが元の信号を真には復元しない高周波数の推定だけを提供し得る。すなわち、このような後処理復元方式は劣化を画素という観点で元に戻さない。

空間成分の生成は多相サブサンプリングを参照して説明されたが、他のタイプの空間サブサンプリング方式も使用され得る。このような方式の例は５の目（ｑｕｉｎｃｕｎｘ）及び六角（ｈｅｘａｇｏｎａｌ）サブサンプリング又はこれらの派生物を含む。このような空間サブサンプリング方式に基づき、解像度成分が形成され、そして高解像度ビデオを再構成するために使用され得る。

Ｎ個の画素（行列Ｎ×１）を有する高解像度フレームｘから、それぞれがＭ個の画素（行列Ｍ×１）を有する（ここでＭ＜Ｎ）一組Ｋ個の低解像度フレームｙ^（ｋ）。各ｋ番目の低解像度フレームｙ^（ｋ）に関し、ＨＲフレームのフィルタリングは行列Ｈ（次元Ｎ×Ｎ）により記述され、サブサンプリングは行列Ａ（次元Ｍ×Ｎ）により定義される。したがって、生成モデルは次のように表され得る：
ｙ^（ｋ）＝Ａ^（ｋ）Ｈｘ

ここで、同じプリフィルタリングが上述のようにＨＲフレームへ適用されるということが想定され得る。別の実施形態では、各ｋ番目分解部は行列Ｈを有し得る。さらに別の実施形態では、１つの解像度成分はＨＲフレームの低域通過フィルタである行列Ｈ_ＬＰを有し得（したがって、モアレ効果としての視覚的アーチアファクトを回避する）、一方、他の解像度成分は単位行列である同じ行列Ｈ_Ｉを有する（ＨＲフレームはフィルタリングされなく、純粋な多相サブサンプリングが行われるということを意味する）。

上述の生成モデルに基づき、多くの再構成方法が、例えば参照により本明細書に援用する非特許文献ＳｕｎｇＣｈｅｏｌＰａｒｋｅｔ_．ａｌ．，“Ｓｕｐｅｒ−Ｒｅｓｏｌｕｔｉｏｎｉｍａｇｅｒｅｃｏｎｓｔｒｕｃｔｉｏｎ：ａｔｅｃｈｎｉｃａｌｏｖｅｒｖｉｅｗ“_，ＩＥＥＥｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇｍａｇａｚｉｎｅ_，Ｍａｙ２００３_，ｐｐ_．２１−３６に記載されるような公知の超解像技術を使用することにより

（ＨＲフレームｘの推定）を生成するために適用され得る。ＨＲビデオフレームを再構成するために使用され得るこの記事に記載される超解像画像再構成アルゴリズムの例は、非一様補間、周波数領域における再構成、規則化超解像再構成、凸射影法再構成、ＭＬ−ＰＯＣＳハイブリッド再構成、反復逆投影再構成、適応フィルタリング再構成及びモーションレス超解像再構成を含む。

一実施形態では、元の高解像度ビデオフレームは、図１と図２において説明した多相サブサンプリング操作を使用して複数の低解像度フレームへ分解され得る。この場合、サブサンプリングされた低解像度ビデオフレームを再合成する処理はより一般的な場合より単純である。再合成処理は、低解像度ビデオフレームが元の高解像度信号内に持っていた位置に従って各低解像度ビデオフレームを再合成画像上へマッピングすることに帰する。この再合成処理は、零詰め（ｚｅｒｏｐａｄｄｉｎｇ）により低解像度ビデオフレームのそれぞれをアップサンプリングすることと、元の高解像度ビデオフレームのビデオフレーム内のアップサンプリングされた低解像度ビデオフレームの位置に整合するように行列要素を空間的にシフトすることにより、アップサンプリングされた低解像度ビデオフレームを組み合わせることと、を含む。

図１と図２を参照して上に説明したサブサンプリング方式はビデオフレーム全体又はその一部を含む（が限定しない）様々なビデオ信号（例えば、ビデオ符号化中に使用される例えば１つ又は複数のブロックのビデオサンプル、ビデオブロック）へ適用され得るということに注意すべきである。

本出願では、ビデオフレームを超解像方法に基づき符号化するための新しい符号化モードについて説明する。ここで、ビデオブロックは、ビデオ符号器又は復号器内の機能要素により１つのユニットとして処理されるビデオサンプルのブロックである。本出願では、用語「ビデオブロック」と「ブロック」は別途明記しない限り同じ意味を有する。符号化中、符号器が超解像モードに従ってビデオフレームを圧縮し符号化することを判断すれば、復号器はいつこれらのモードが活性化されるべきかを知る必要がある。超解像モードの活性化は、ビットストリーム内のメタデータとしてシグナリングされ得、多くの形式を取り得る。例えば、一実施形態では、ビデオフレームに関連付けられたフラグが「超解像モードがビデオフレームに関して活性化されるかどうか」を復号器へシグナリングし得る。

伝統的符号器では、ビデオのあるフレームへ与えられるフレームタイプはピクチャグループ（ＧＯＰ：ｇｒｏｕｐｏｆｐｉｃｔｕｒｅ）データ構造（例えばＩＰＢＢＰなど）内の位置に依存する。ＧＯＰ内の所定系列の様々なフレームタイプはコンテンツ分析に基づき符号器（特にプロ級の）によりオーバーライドされ得る。例えば、場面遷移が発生する場合、Ｉフレームで開始することは、場面が変わると以前のフレームが著しく異なるようになるので、Ｐ又はＢフレームは符号化するのがより高価になり得るので、好ましい。

従来のフレームタイプはＩ、Ｐ及びＢタイプフレームを含み、ここで、Ｉフレームがイントラ符号化され、Ｐタイプ及びＢタイプはそれぞれ後方だけへそして前方及び後方へ時間的に予測される。各ビデオフレーム内部で、各ビデオブロックはさらに２つのタイプ（イントラブロック及びインターブロック）へ定義される。イントラブロックは空間的予測方式（フレーム内の）を使用して符号化され、一方インターブロックは様々なビデオフレームに基づく予測方式を使用して符号化される。Ｉフレーム内部では、すべてのビデオブロックがイントラ符号化される。Ｐ及びＢのフレーム内部では、「基準フレーム内のいかなる他の領域も効率的に予測しないということが分かったので、ビデオブロックがイントラ符号化される」ということが起こり得る。これは、例えば、ビデオ内で物体が突然現われる場合、又は３６０°ビデオ（又は、より一般的には球状ビデオデータ）の投影されたビデオフレームの場合であり得る。

球状ビデオデータに基づく２Ｄ矩形画像フレーム又はピクチャの形成は通常、幾何学的物体（直線状縁を有する物体）の表面上への球状ビデオデータの投影と投影された表面の矩形上へのマッピングとを含み得る。球状ビデオコンテンツを符号化することに関し、２Ｄ矩形ビデオフレームは、既存ビデオ符号化標準規格に対する修正を必要としないので符号器装置への入力としての使用に最も好都合な形式である。エクイレクタングラー投影（ＥＲＰ：ｅｑｕｉｒｅｃｔａｎｇｕｌａｒｐｒｏｊｅｃｔｉｏｎ）、立体又はピラミッド投影モデルなどの様々な投影モデルが知られている。ＥＲＰの場合、球が、水平及び垂直座標として極角度を使用することにより矩形上へ投影される。この場合、マッピングは、ＥＰＲ投影が矩形を直接生じるので投影工程に取り込まれる。エクイレクタングラーと他の投影フォーマットとの両方はＨ．２６４／ＡＶＣ、ＨＥＶＣ、ＡＶ１又はＶＶＣなどの符号化方式を使用して直接符号化され得る。

超解像モードのビデオフレーム全体（すなわちビデオフレーム（超解像方法を使用して符号化されるＩフレームだけでなくＰ及びＢフレームも）のすべてのブロック）への適用がさらに提示される（速度歪最適化（ＲＤＯ）解析が「このようなモードが符号化効率の観点で有益である」ということを示せば）。

図３は本発明の一実施形態による符号化処理の一部分を描写する。本処理は符号器装置により実行され得る。この図に示すように、本処理は空間サブサンプリング方式３０４（例えば多相ダウンサンプリング方式）を第１の解像度（例えば超高解像度又は４Ｋ解像度などの高解像度（ＨＲ）タイプ）の元のビデオフレーム３０２へ適用することを開始し得る。ここで、元のビデオフレームは、限定しないがＩフレーム、Ｐフレーム、Ｂフレーム又は超フレームを含む任意のタイプのフレームであり得る。

空間サブサンプリングの適用は第１の解像度より低い第２の解像度の複数の低解像度（ＬＲ）元のビデオフレーム３０６を生じ得る。複数のＬＲ元フレームは第１のＬＲ元フレームと１つ又は複数の第２のＬＲ元フレームとを含み得る。次に、複数のＬＲ元ビデオフレームの第１のＬＲ元ビデオフレームの予測３１０が判断され得る。この予測工程は、公知の予測方法（例えばＩフレームの場合はイントラ予測方法、又はＰ若しくはＢフレームの場合はインター予測方法）を使用して第１のＬＲ元フレームの元ブロックの予測ブロックを判断することを含み得る。

一実施形態では、元ブロックは別個に処理され得る。一実施形態では、第１のＬＲ元フレーム及び１つ又は複数の第２のＬＲ元フレームは第１の解像度の多重化ビデオフレームへ空間的に多重化され得る。この結果、多重化ビデオフレームは、元のビデオフレームの解像度と同一である第１の解像度を有することになる。多重化ビデオフレームは４つの部分に分割され得、左上部分は第１の元ブロックのサンプルを含み得、他の部分（右上、左下、右下）は３つの（多相ダウンサンプリングの場合）第２の元ブロックのサンプルを含み得る。

予測ブロック及び元ブロックは、ＬＲ再構成フレーム３１２の再構成ブロック３１４を判断するために使用され得る。再構成ブロックは、元ブロック及び予測ブロックに基づき残りブロックを判断することにより、そしてＬＲ再構成残りブロックを生成するために逆変換及び量子化工程が後に続く量子化及び変換工程を適用することにより、判断され得る。再構成された残りブロックと予測されたブロックは、ＬＲ再構成フレーム３１２の再構成ブロックを判断するために使用される。このフレームの再構成は符号器装置内の復号器ループにより実現され得る。

次に、ＬＲ再構成フレーム３１２は、１つ又は複数の第２のＬＲ元フレームの予測の判断の際にＬＲ基準フレームとして使用され得る。この場合、ブロックマッチング予測方式３１６が１つ又は複数の第２のＬＲ元フレーム（この場合、ＬＲ予測フレーム３１８）の予測を判断するために使用され得る。ブロックマッチング予測方法は、基準フレーム（又は基準フレーム群）からの現在のブロックに密に整合するブロック（又はブロック群）に基づき現在のブロックが予測される任意のブロックベース予測方法を指す。このようなブロックマッチング予測方式は、１つ又は複数の第２のＬＲ元フレームの予測ブロックを、ＬＲ再構成フレーム（基準フレーム）の再構成ブロック３１４と、任意選択的に、既に復号化された１つ又は複数の第２のＬＲ元フレームのうちの１つからの再構成ブロックとに基づき判断するために使用され得る。

一実施形態では、ブロックマッチング予測方式は、参照により本出願に援用する非特許文献Ｇ_．Ｖｅｎｕｇｏｐａｌ_，Ｈ_．Ｓｃｈｗａｒｚ_，Ｄ_．ＭａｒｐｅａｎｄＴ_．Ｗｉｅｇａｎｄによる“ＩｎｔｒａＲｅｇｉｏｎ−ｂａｓｅｄＴｅｍｐｌａｔｅＭａｔｃｈｉｎｇ_，ＪＶＥＴ−Ｊ００３９，”ＳａｎＤｉｅｇｏ_，ＵＳ_，２０１８に記載の所謂イントラ領域ベーステンプレートマッチング（ＩｎｔｒａＲｅｇｉｏｎ−ｂａｓｅｄＴｅｍｐｌａｔｅＭａｔｃｈｉｎｇ）技術に基づき得る。別の実施形態では、ブロックマッチング予測方式は、元ブロックのサンプルを予測するためのイントラブロックコピー技術に基づき得る。このようなイントラコピーブロックモードの例は、参照により本出願に援用する非特許文献Ｘ_．Ｘｕｅｔａｌ．，“ＩｎｔｒａＢｌｏｃｋＣｏｐｙｉｎＨＥＶＣＳｃｒｅｅｎＣｏｎｔｅｎｔＣｏｄｉｎｇＥｘｔｅｎｓｉｏｎｓ，”ｉｎＩＥＥＥＪｏｕｒｎａｌｏｎＥｍｅｒｇｉｎｇａｎｄＳｅｌｅｃｔｅｄＴｏｐｉｃｓｉｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓ_，ｖｏｌ_．６_，ｎｏ_．４_，ｐｐ_．４０９−４１９_，Ｄｅｃ_．２０１６．_，ｄｏｉ：１０．１１０９／ＪＥＴＣＡＳ．２０１６．２５９７６４５に記載されている。

ＬＲ元フレーム３０６のこのように生成されたＬＲ予測３１２、３１８は、量子化され、ビットストリームへ変換され、そしてエントロピー符号化される残りブロックを判断するために使用され得る。図３に示すように、ＬＲ再構成フレーム及び１つ又は複数のＬＲ予測フレームは、サブグループのピクチャ３２０（サブＧＯＰ）と呼ばれ得るデータ構造を形成し得る。サブＧＯＰに関連付けられたメタデータは、空間サブサンプリングのタイプ、サブＧＯＰ内のＬＲフレームの数、第１のＬＲ元フレームのブロック区分化、第１のＬＲ元フレームの予測を判断するために使用される予測方法、及び１つ又は複数の第２のＬＲ元フレームの予測を判断するために使用されるブロックマッチング予測方法を含み得る。これらのメタデータはビットストリーム内に含まれ得る。

図３を参照して説明した予測処理は超解像予測モード（特には、フレームレベル超解像予測モード）と呼ばれ得、ダウンサンプリング方式が元のビデオフレームをＬＲフレーム内へダウンサンプリングするために符号化処理において使用されるということと、アップサンプリング方式が復号化ＬＲフレームをアップサンプルしそしてアップサンプリングされた復号化ＬＲフレームを、再構成された元のビデオフレームへ合成するために復号化処理において使用されるということとを指示する。超解像予測モードは、従来の予測処理を使用して圧縮するのが困難であるフレームの効率的圧縮に使用され得る。

図４Ａ〜４Ｃは、図３を参照してさらに詳細に説明したＬＲ再構成フレームの再構成ブロックの形成を概略的に描写する。図４ＡはＬＲ元フレームの元ブロックとＬＲ予測フレームの予測ブロックとを描写する。図３を参照して説明したように、元ブロックのサンプルは公知の予測方法を使用して予測され得る。例えば、これらのサンプルは、既に符号化されたブロックの基準サンプル（すなわち再構成サンプル）に基づき予測され得る。例えば、元のビデオフレームがＩフレームである場合、既に符号化されたブロック（通常は、現在のブロックの近くに位置する又はそれと境界を接するブロック）の基準サンプル（再構成サンプル）に基づき現在のブロック４１８が予測され得るイントラ予測方法が図４Ｂに示すように使用され得る。任意のタイプのイントラ予測方法（例えばビデオ符号化標準規格（ＨＥＶＣ、ＡＶ１又は任意の他の公知の又は将来のビデオ符号化標準規格などの）から知られるイントラ予測モード）が使用され得る。代替的に、元のビデオフレームがＰ又はＢフレームである場合、元のビデオフレーム４２２の現在のブロック４２４が１つ又は複数の既に符号化された基準フレームの１つ又は複数のブロック（例えば基準フレーム４２６のブロック４２８）の再構成サンプルに基づき予測される公知のインター予測方法が図４Ｃに示すように使用され得る。運動ベクトル４３０が基準フレーム内のブロックの位置を判断するために使用される。図４Ｃは１つの基準フレームが現在のブロックを予測するために使用される状況を描写するが、複数の基準ブロック内の複数ブロックが現在のブロックの予測を判断するために使用され得るということが知られている。

残りブロック４０６は元ブロック４０２の元のサンプルと予測ブロック４０４の予測サンプルとの差として判断され得る。量子化及び変換工程は、ＬＲ量子化され変換された残りブロック４０８のサンプルを判断するために残りのサンプルへ適用され得、再構成された残りブロック４１０のサンプルを判断する逆量子化及び変換工程が後に続く。一実施形態では、インループフィルタリング工程が、ブロックベース変換工程から生じ得るアーチアファクトを除去する又は少なくとも低減するために、ＬＲ再構成された残りブロックへ適用され得る。次に、再構成ブロック４１４のサンプルが、再構成された残りブロックのサンプルと予測ブロックのサンプルとに基づき判断され得る。この方式をＬＲ元フレームのすべてのブロックへ適用することは、図３を参照して説明したように１つ又は複数の第２のＬＲ元フレームを予測するための基準フレームとして使用され得るＬＲ再構成フレームを生じる。

図５は本発明の一実施形態によるサブＧＯＰ構造を含むＧＯＰ構造を概略的に描写する。この図に示すように、従来のＧＯＰ構造５００は、所定数のＢ及びＰフレームの基準フレームとして使用されるＩフレームを含み得る。Ｉ、Ｐ、及び／又はＢフレームのうちの１つ又は複数のフレームは本出願で説明したように超解像予測モードに基づき符号化され得る。図５に提示される例では、Ｉフレームは、低解像度基準フレームと低解像度基準フレームに基づき構築される複数の低解像度フレームとを生じ得る超解像予測モードに基づき符号化される。図３と図４を参照して説明したように、低解像度基準フレームは、元（現在）のフレームを複数のＬＲ元フレームへダウンサンプリングすること、予測方法（この場合、イントラ予測方法）に基づきＬＲ予測フレームを判断すること、そしてＬＲ予測フレームとＬＲ元フレームとに基づきＬＲ再構成フレームを判断することに基づき判断され得る。ＬＲ再構成フレームは、ブロックマッチング予測方法に基づき１つ又は複数の第２のＬＲ元フレームの予測を判断するための基準フレームとして使用される。これらの予測は１つ又は複数の第２のＬＲ予測フレームを形成し得る。

したがって、低解像度再構成フレームはサブＧＯＰの低解像度Ｉフレームを定義し得、低解像度Ｉフレームに基づき予測される１つ又は複数の第２の低解像度予測フレームは低解像度サブＧＯＰのＰ及び／又はＢフレームを定義し得る。多相ダウンサンプリング方式の場合、サブＧＯＰはサブＧＯＰの低解像度Ｉフレームに基づき導出される３つの低解像度フレームを含む。図５に示すように、ブロックマッチング予測方法に依存して、様々なサブＧＯＰ構造が構築され得る。一実施形態では、サブＧＯＰ５０４は１つの低解像度Ｉフレームと複数の低解像度Ｂフレームとを含み得、各Ｂフレームは、低解像度Ｉフレームと他の低解像度Ｂフレームの（少なくとも）１つとに依存し得る（差し込み図５１０矢印５０８により示すように）。別の実施形態では、サブＧＯＰ５０６は１つの低解像度Ｉフレームと複数の低解像度Ｐフレームとを含み得、各低解像度Ｐフレームは低解像度Ｉフレームだけに依存する（同図の特徴５１０により示すように）。図５のサブＧＯＰ構造は１つ又は複数の低解像度Ｉフレーム並びに１つ又は複数のＰ及び／又はＢフレームを含むサブＧＯＰ構造を含む本発明から逸脱することなく存在し得る多くの異なるサブＧＯＰ構造の非限定的例であるということが提示される。

図６は、本発明の一実施形態による空間サンプリング方式（複数の空間サンプリング格子に基づく空間ダウンサンプリング及び空間アップサンプリングを含む）に基づきビデオフレームを符号化するための符号化処理の一部を描写する。この処理は、符号器装置が高解像度ビデオフレームを第１の低解像度（ＬＲ）フレーム及び１つ又は複数の第２のＬＲフレーム（第１及び第２のＬＲフレームの解像度）へダウンサンプリングすること（工程６０２）を含み得る。この工程では、低分解能ビデオブロックに基づく１つ又は複数の元（高解像度）のビデオブロックの再構成が達成され得るように、符号器装置により使用されるダウンサンプリング操作が復号器装置へ知らされる（明示的にシグナリング又は導出される）かぎり、任意の空間ダウンサンプリングフィルタ（例えば図１と図２を参照して説明した空間ダウンサンプリング方式）が使用され得る。一実施形態では、空間ダウンサンプリングフィルタが多相ダウンサンプリングを行うように構成され得る。このような場合、４つの低解像度フレームが周知の多相分解操作（ｐｏｌｙｐｈａｓｅｄｅｃｏｍｐｏｓｉｔｉｏｎｏｐｅｒａｔｉｏｎ）を適用することにより生成され得る。この実施形態は、高解像度ビデオブロックから生成される４つの低解像度ビデオブロックが全ソース情報を含むという利点を提供する。換言すれば、多相ダウンサンプリングはいかなるデータ損失も引き起こさない。

その後、第１のＬＲフレームは精密な予測を判断するために使用され得る。そのために、第１のＬＲフレームの第１の（初期）予測は、図３と図４を参照して詳細に説明したようにイントラ予測又はインター予測（工程６０４）に基づき判断され得る。その後、第１の（初期）予測は、初期予測に基づき第１のＬＲ再構成フレームを判断することにより改善され得る。第１のＬＲ再構成フレームは１つ又は複数の第２のＬＲビデオフレームの予測を判断するための基準としてその後使用され得る（工程６０６）。図６に描写される予測処理は、従来の予測方法が十分に高い符号化効率を生じないようなほとんど相関の無い大量の画素値を有するビデオフレームに特に好適である。

図３〜６を参照して説明した符号化処理はブロックベースビデオ符号化方式を使用して実施され得る。したがって、高解像度ビデオフレームをダウンサンプルした後、第１のＬＲ元フレームはブロック（例えば、ＨＥＶＣから知られる符号化ツリーブロック又は他の符号化標準規格から知られる類似ブロック）へ区分化され得る。この処理中、アルゴリズムがフレームの最良のブロック区分化を見出すために使用される。１つ又は複数の第２のＬＲ元フレームは同じ高解像度の元フレームから導出されるので、これらのフレームのブロック区分化は第１のＬＲ元フレームのブロック区分化と同じであるということが予想される。したがって、復号器装置へビットストリームで送信されるメタデータにおいて、第１のＬＲ元フレームに関するブロック区分化が、シグナリングされ、そしてサブＧＯＰ内の他のＬＲフレームのために再使用され得る。これは、サブＧＯＰのＬＲフレーム毎にこのメタデータを判断し次にシグナリングすることと比較して、著しいビット節約及び符号化時間を生じることになる。サブＧＯＰ構造内のＬＲフレーム間の密な関係により、他のタイプのメタデータもまたサブＧＯＰ内のＬＲフレームに使用され得る。例えば、量子化情報は、残りブロックの残りサンプルの量子化工程に関係する、又は第１のＬＲ再構成フレームを判断するために使用される予測方法及び１つ又は複数の第２のＬＲフレームの予測を判断するために使用される予測方法に関する情報に関係する。

図３〜６に示す符号化方法はビデオフレームを効率的に符号化及び復号化するために使用され得る。以下では、このような符号化及び復号化処理及びこのような処理を実行するための装置の例がより詳細に説明される。

図７は本発明の一実施形態によるブロックベース符号化処理を描写する。本処理は、ダウンサンプリング方式を、第１のＬＲ元フレーム及び１つ又は複数の第２のＬＲ元フレームを判断するための第１の解像度の元のビデオフレームへ適用する工程（工程７０２）を含み得る。ダウンサンプリング方式は図１と図２を参照して説明したような複数の空間ダウンサンプリング格子を含み得る。第１のＬＲ元フレームはブロック区分化アルゴリズムに基づき第１の元ブロックへ区分化され得る。さらに、１つ又は複数の第２のＬＲ元フレーム（のそれぞれ）は第２の元ブロック（工程７０４）へ区分化され得る。予測方法（好適にはイントラ予測又はインター予測）が第１のＬＲ元フレームの第１の元ブロックを予測するための第１の予測ブロックを判断するために使用され得る（工程７０６）。次に、第１の残りブロックが第１の予測ブロック及び第１の元ブロックに基づき判断される。次に、第１の再構成ブロックが第１の残りブロック及び第１の予測ブロックに基づき判断され得る（工程７０８）。第１の再構成ブロックは、１つ又は複数の第２のＬＲ元フレームの第２の元ブロックの予測を定義する第２の予測ブロックを判断するための基準として使用され得る（工程７１０）。第２の残りブロックは第２の予測ブロック及び第２の元ブロックに基づき判断され得る（工程７１２）。第１の残りブロック及び第２の残りブロックはビットストリームへ変換され得、ダウンサンプリング方式がビデオフレームの符号化中に使用されたということを復号器装置へシグナリングするためのメタデータがビットストリーム内に挿入され得る（工程７１４）。

図８は本発明の一実施形態によるブロックベース復号化処理を描写する。本処理は、第１のＬＲ元フレームに関連付けられた符号化された第１の残りブロックと１つ又は複数の第２のＬＲ元フレームに関連付けられた第２の残りブロックとを含むビットストリーム（の一部）を受信する工程（工程８０２）を含み得る。符号化された第１及び第２の残りブロックは、本出願の様々な実施形態において説明されたサブＧＯＰ構造の一部分であり得る。さらに、元フレームを第１のＬＲ元フレーム及び１つ又は複数の第２のＬＲフレームへ（符号化中に）ダウンサンプリングするためのダウンサンプリング方式が使用されたということを復号器装置へシグナリングするためのメタデータが受信され得る（工程８０４）。したがって、この場合、復号器は、元のビデオフレームを再構成するために低解像度フレームをアップサンプリングするためにアップサンプリング方式を使用する必要があるということとアップサンプリングされた低解像度フレームを元のビデオフレームの再構成フレームへ合成する必要があるということを通知される。

第１のＬＲ元フレームの第１の元ブロックの予測を定義する第１の予測ブロックを判断するイントラ予測方法が使用され得る（工程８０６）。その後、符号化された第１の残りブロックは第１の残りブロックへ変換され、第１の再構成ブロックは第１の残りブロック及び第１の予測ブロックに基づき判断される（工程８０８）。

次に、第１の再構成ブロックは、１つ又は複数の第２のＬＲ元フレームの第２の元ブロックの予測を定義する第２の予測ブロックを判断するために使用される（工程８１０）。符号化された第２の残りブロックは第２の残りブロックへ変換され、第２の再構成ブロックが第２の残りブロック及び第２の予測ブロックに基づき判断される（工程８１２）。最後に、再構成された元のビデオフレームは、第１の再構成ブロックにより定義された第１のＬＲ再構成フレームと第２の再構成ブロックにより定義された１つ又は複数の第２のＬＲ再構成フレームとに基づき判断される（工程８１４）。この工程では、再構成された元のビデオフレームはアップサンプリング方式を使用して判断され得、第１のＬＲ再構成フレーム及び１つ又は複数の第２のＬＲ再構成フレームは、アップサンプリングされ、第１の解像度の再構成された元のビデオフレームへ合成される。

図９は本発明の一実施形態による符号器装置を示すブロック図を描写する。符号器装置９００は、ビデオフレーム又はその一部分（例えばビデオスライス）内のブロックのイントラ予測及びインター予測を行い得る。イントラ予測は、所与のピクチャ又はビデオフレーム内のビデオ内の空間的冗長性を低減又は除去するために空間的予測に依存する。本出願では、インター予測は、ビデオシーケンスの隣接ピクチャ又は複数のピクチャ内のビデオの冗長性を低減又は除去する予測に依存する。インター予測は、ＧＯＰ内のブロック予測に依存する従来のブロックベースインター予測方法を含む。加えて、インター予測はまた、本出願の実施形態において説明したようにサブＧＯＰ内のＬＲフレームのブロックを予測するために使用され得るブロックマッチング予測方法を含む。イントラモード（Ｉモード）は、イントラ予測に基づくいくつかの圧縮モードの任意のものを指し得る。単方向予測（Ｐモード）又は両方向予測（Ｂモード）などのインターモードはインター予測に基づくいくつかの圧縮モードの任意のものを指し得る。

ビデオ符号器は、符号化される必要がある一系列のビデオフレームの形式でビデオデータを受信するための入力９０１を含み得る。図９の例では、符号器装置はダウンサンプリングユニット９０２、区分化ユニット９０４、モード選択ユニット９０４、加算器９０６、変換ユニット９０８、量子化ユニット９１０、エントロピー符号化ユニット９１２及び基準ピクチャメモリ９１４を含み得る。モード選択ユニット９０４は、運動推定ユニット９１６、インター予測ユニット９２０及びイントラ予測ユニット９２２を含み得る。ビデオブロック再構成のために、符号器装置はまた、逆量子化ユニット９２４、逆変換ユニット９２６及び加算器９２８を含み得る。デブロッキングフィルタ９１８などのフィルタもまた、再構成ビデオフレームからアーチアファクトを除去するために含まれ得る。追加ループ（ループ内又はループ後）フィルタがまた、デブロッキングフィルタに加えて使用され得る。

図９に示すように、符号器は、符号化処理を制御するとともに関連メタデータ（符号器装置により生成されるビットストリームへ符号化される必要がある）を収集するコントローラ９１０を含み得る。コントローラにより制御される選択器９０５はダウンサンプリングユニット９０２が使用されるか否かを判断し得る。これが使用されなければ、符号器装置の入力におけるビデオデータは、ブロック内のビデオフレームを区分化するための区分化ユニットへ送信されることになる。

モード選択ユニットは、イントラ予測又はインター予測などの符号化モードの１つを（例えばエラー結果に基づき）選択するように構成され得、結果のイントラ又はインター符号化ブロックを、残りビデオデータのブロックを生成するために加算器９０６へ、そして基準ピクチャとしての使用のための符号化されたブロックを再構成するために加算器９２８へ提供する。符号化処理中、符号器装置は符号化されるべきピクチャ又はスライスを受信し得る。ピクチャ又はスライスは複数のビデオブロックへ分割され得る。モード選択ユニット内のインター予測ユニットは、時間圧縮を提供するために１つ又は複数の基準ピクチャ内の１つ又は複数のブロックに対する受信されたブロックのインター予測符号化を行い得る。さらに、モード選択ユニット内のイントラ予測ユニットは、空間圧縮を提供するために符号化されるべきブロックと同じピクチャ又はスライス内の１つ又は複数の隣接ブロックに対する受信されたビデオブロックのイントラ予測符号化を行い得る。符号器装置は、ビデオデータの各ブロックの適切な符号化モードを選択するために（例えば速度歪最適化（ＲＤＯ）方式において）複数の符号化パスを行い得る。

区分化ユニットは、以前の符号化パス内の以前の区分化方式の評価に基づき、ビデオデータのブロックをサブブロックへ区分化し得る。例えば、区分化ユニットは、ピクチャ又はスライスをＬＣＵへ当初区分化し、そして速度歪解析（例えば速度歪最適化）に基づきＬＣＵのそれぞれをサブＣＵへ区分化し得る。区分化ユニットはさらに、ＬＣＵのサブＣＵへの区分化を指示する４分木（ｑｕａｄｔｒｅｅ）データ構造を生成し得る。４分木のリーフノードＣＵは１つ又は複数のＰＵ及び１つ又は複数のＴＵを含み得る。

運動ベクトル（ＭＶ：ｍｏｔｉｏｎｖｅｃｔｏｒ）推定ユニット９１６はビデオブロックの運動ベクトルを計算する処理を実行し得る。運動ベクトルは、例えば、現在のピクチャ内で符号化されている現在のブロックに対する基準ピクチャ（又は他の符号化ユニット）内の予測ブロックに対する現在のピクチャ内のビデオブロックの予測ブロック（予測ユニットすなわちＰＵ：ｐｒｅｄｉｃｔｉｏｎｕｎｉｔ）の移動量を指示し得る。運動ベクトル推定ユニットは、ＰＵの位置とビデオブロックの画素値を近似する基準ピクチャの予測ブロックの位置とを比較することによりインター符号化スライス内のビデオブロックのＰＵの運動ベクトルを判断し得る。したがって、一般的に、運動ベクトルのデータは基準ピクチャリスト、基準ピクチャリストへの指標（ｒｅｆ＿ｉｄｘ）、水平成分及び垂直成分を含み得る。基準ピクチャは、それぞれが基準ピクチャメモリ９１４内に格納された１つ又は複数の基準ピクチャを識別する第１の基準ピクチャリスト（リスト０）及び第２の基準ピクチャリスト（リスト１）から選択され得る。

ＭＶ運動推定ユニットは、基準ピクチャの予測ブロックを識別する運動ベクトルを生成し、エントロピー符号化ユニット９１２及びインター予測ユニット９２０へ送信し得る。すなわち、運動推定ユニットは、予測ブロックを含む基準ピクチャリストを識別する運動ベクトルデータ、予測ブロックのピクチャを識別する基準ピクチャリストへの指標、そして識別されたピクチャ内の予測ブロックを定位するための水平方向及び垂直成分を生成し送信し得る。

いくつかの例では、現在のＰＵの実際の運動ベクトルを送信するのではなく、運動ベクトル予測ユニット（図示せず）は運動ベクトルを伝達するために必要とされるデータ量をさらに低減する運動ベクトルを予測し得る。この場合、運動ベクトル自体を符号化し伝達するのではなく、運動ベクトル予測ユニットは既知の（又は知ることのできる）運動ベクトルに対する運動ベクトル差（ＭＶＤ：ｍｏｔｉｏｎｖｅｃｔｏｒｄｉｆｆｅｒｅｎｃｅ）を生成し得る。

運動ベクトル予測ユニットは、ＭＶＰの候補として空間的及び／又は時間的方向のいくつかの隣接ブロックを含む運動ベクトル予測子（ｍｏｔｉｏｎｖｅｃｔｏｒｐｒｅｄｉｃｔｏｒ）候補リストを構築し得る。複数の運動ベクトル予測子候補が（複数の候補ブロックから）利用可能な場合、運動ベクトル予測ユニットは所定選択基準に従って現在のブロックの運動ベクトル予測子を判断し得る。例えば、運動ベクトル予測ユニットは、符号速度及び歪みの解析に基づき候補セットから最も正確な予測子を選択し得る（例えば、速度歪最適化方式又は他の符号化効率解析を使用して）。他の例では、運動ベクトル予測ユニット９１６は運動ベクトル予測子候補の平均値を生成し得る。運動ベクトル予測子を選択する他の方法も可能である。

運動ベクトル予測子を選択すると、運動ベクトル予測ユニットは、ＭＶＰの候補ブロックを含む基準ピクチャリスト内のＭＶＰをどこで見出すべきかをビデオ復号器に通知するために使用され得る運動ベクトル予測子指標（ｍｖｐ＿ｆｌａｇ）を判断し得る。運動ベクトル予測ユニット９１６はまた、現在のブロックと選択されたＭＶＰとの間のＭＶＤを判断し得る。ＭＶＰ指標及びＭＶＤは運動ベクトルを再構成するために使用され得る。

通常、区分化ユニットとモード選択ユニット（イントラ予測ユニット及びインター予測ユニット及び運動ベクトル推定ユニットを含む）は、高度に一体化され得るが、概念目的のために別個に示される。

符号器装置の加算器９０６は、モード選択ユニット９０４から受信される予測ビデオブロック（運動ベクトルにより識別される）を、符号化される元のビデオブロックから減じることにより、残りのビデオブロックを形成するために使用され得る。

変換処理ユニット９０８は、残りの変換係数値のブロックを形成するために、離散コサイン変換（ＤＣＴ：ｄｉｓｃｒｅｔｅｃｏｓｉｎｅｔｒａｎｓｆｏｒｍ）又は概念的に同様な変換などの変換を残りのビデオブロックへ適用するために使用され得る。変換処理ユニットはＤＣＴと概念的に同様である他の変換を行うために使用され得る。ウェーブレット変換、整数変換、サブバンド変換又は他のタイプの変換が使用される可能性がある。いずれにせよ、変換処理ユニットは上記変換を残りブロックへ適用し得、残りの変換係数のブロックを生成する。この変換は、残り情報を画素値領域から周波数領域などの変換領域へ変換し得る。変換処理ユニットは、結果の変換係数を、ビットレートをさらに低減するために変換係数を量子化する量子化ユニットへ送信し得る。量子化処理は係数のいくつか又はすべてに関連付けられたビット深さを低減し得る。量子化の程度は量子化パラメータを調整することにより修正され得る。

コントローラ９１０は、運動ベクトル、イントラモード指示子、区分化情報及び他のこのような構文情報などの構文要素（メタデータ）をエントロピー符号化ユニット９１２へ提供し得る。次に、エントロピー符号化ユニットは量子化された変換係数及び構文要素を符号化し得る。例えば、エントロピー符号化ユニットは、文脈適応可変長符号化（ＣＡＶＬＣ：ｃｏｎｔｅｘｔａｄａｐｔｉｖｅｖａｒｉａｂｌｅｌｅｎｇｔｈｃｏｄｉｎｇ）、文脈適応２進演算符号化（ＣＡＢＡＣ：ｃｏｎｔｅｘｔａｄａｐｔｉｖｅｂｉｎａｒｙａｒｉｔｈｍｅｔｉｃｃｏｄｉｎｇ）、構文ベース文脈適応２進演算符号化（ＳＢＡＣ：ｓｙｎｔａｘ−ｂａｓｅｄｃｏｎｔｅｘｔ−ａｄａｐｔｉｖｅｂｉｎａｒｙａｒｉｔｈｍｅｔｉｃｃｏｄｉｎｇ）、確率間隔区分化エントロピー（ＰＩＰＥ：ｐｒｏｂａｂｉｌｉｔｙｉｎｔｅｒｖａｌｐａｒｔｉｔｉｏｎｉｎｇｅｎｔｒｏｐｙ）符号化、又は別のエントロピー符号化技術を行い得る。文脈ベースエントロピー符号化の場合、文脈は隣接ブロックに基づき得る。エントロピー符号化ユニットによるエントロピー符号化に続いて、符号化されたビットストリームは、別のデバイス（例えばビデオ復号器）へ送信されてもよいし、後の送信又は検索のために格納されてもよい。

逆量子化及び逆変換ユニット９１６は、画素領域内で残りブロックを再構成するために（例えば基準ブロックとして後の使用のために）逆量子化と逆変換とをそれぞれ適用する。インター予測ユニットは、残りブロックを基準ピクチャメモリ９１４のピクチャのうちの１つのピクチャの予測ブロックへ加えることにより基準ブロックを計算し得る。インター予測ユニットはまた、運動推定における使用のためのサブ整数画素値を計算するために１つ又は複数の補間フィルタを再構成された残りブロックへ適用し得る。再構成された残りブロックは、基準ピクチャメモリ９１４内に格納するための再構成ビデオブロックを生成するために、インター予測ユニット９２０により生成された予測ブロックへ加えられる。再構成されたビデオブロックは、以降のピクチャ内のブロックをインター符号化するための基準ブロックとして運動ベクトル推定ユニット及びインター予測ユニットにより使用され得る。

符号器装置を超解像モードで使用する場合、符号器装置のコントローラは、図７を参照して説明した処理工程に従ってビデオフレームを符号化するように構成される。したがって、この場合、符号器装置は、元のビデオフレームのダウンサンプリングされたＬＲフレームを符号化することができる。

符号器装置の入力におけるビデオフレームは、ダウンサンプリングユニットにより第１のＬＲ元フレーム及び１つ又は複数の第２のＬＲ元フレームへダウンサンプリングされ得る。第１のＬＲ元フレームはブロック内の区分化のために区分化ユニットへ転送され得る。第１のＬＲ元フレームの区分化は１つ又は複数の第２のＬＲ元フレームへ適用され得るので、いくつかの実施形態では、１つ又は複数の第２のＬＲフレームは区分化ユニットにより処理されない（点線９０３により概略的に描写されるように）。次に、ビデオフレームがＩフレーム又はＰ若しくはＢフレームかに依存して、第１の元フレームの第１の元ブロックの予測を形成する第１の予測ブロックはイントラ予測ユニットのイントラ予測方法又はインター予測ユニットのインター予測方法により判断され得る。

第１の予測ブロック及び第１の元ブロックは、第１の再構成された残りのブロックを判断するために変換及び量子化ユニットと逆量子化及び変換ユニットとにより処理され得る第１の残りブロックを判断するために使用され得る。次に、第１の再構成ブロックは、第１の再構成された残りブロックを第１の予測ブロックへ加える加算器９２８を使用することにより判断され得る。第１の再構成ブロックは、１つ又は複数の第２のＬＲ元フレームの予測を判断するための基準フレームとして格納され得る第１のＬＲ再構成ビデオフレームを定義する。

図８を参照して上に既に説明したように、１つ又は複数の第２のＬＲ元フレームの第２の元ブロックを予測するための第２の予測ブロックは、インター予測ユニットにおいて実施され得る好適なブロックマッチング予測方法を使用して判断され得る。１つ又は複数の第２のＬＲ元フレームの第２の元ブロックの予測は、第１のＬＲ再構成フレームの第１の再構成ブロックを基準として使用して判断され得る。第１及び第２の予測ブロック並びに第１及び第２の元ブロックは、エントロピー符号器によりビットストリームへ変換される前に変換され量子化されるサブＧＯＰデータ構造の第１及び第２の残りブロックを判断するために使用され得る。コントローラは、サブＧＯＰデータ構造に関連付けられたメタデータ（ダウンサンプリング方式、区分化、第１のＬＲ元フレームの第１の元ブロックを予測するための第１の予測ブロックを判断するために使用された予測タイプ_、そして１つ又は複数の第２の元のＬＲフレームの第２の元ブロックを予測するための第２の予測ブロックを判断するために使用された予測タイプに関する情報を含み得る）を収集する。エントロピー符号化処理中、メタデータは符号化され、ビットストリーム内へ挿入される。

符号器は、ピクチャ内ブロックを符号化するための最良符号化パラメータを見出すために既知の速度歪最適化（ＲＤＯ）処理を行い得る。ここで、最良符号化パラメータ（モード決定；イントラ予測モード；インター予測モード又は超解像モード；及び量子化を含む）は、ブロックを符号化するために使用されるビットの数と、符号化のためにこの数のビットを使用することにより導入される歪みとの間の最良トレードオフを提供する一組のパラメータを指す。用語「速度歪最適化」は時にＲＤ最適化又は単純に「ＲＤＯ」とも呼ばれる。ＡＶＣ及びＨＥＶＣタイプ符号化標準規格に好適なＲＤＯ方式は知られている。例えばＳｚｅ_，Ｖｉｖｉｅｎｎｅ_，ＭａｄｈｕｋａｒＢｕｄａｇａｖｉ_，ａｎｄＧａｒｙＪ_．Ｓｕｌｌｉｖａｎ．“Ｈｉｇｈｅｆｆｉｃｉｅｎｃｙｖｉｄｅｏｃｏｄｉｎｇ（ＨＥＶＣ）．”ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔａｎｄＳｙｓｔｅｍｓ_，ＡｌｇｏｒｉｔｈｍｓａｎｄＡｒｃｈｉｔｅｃｔｕｒｅｓ_．Ｓｐｒｉｎｇｅｒ（２０１４）：１−３７５；Ｓｅｃｔｉｏｎ：９．２．７ＲＤＯｐｔｉｍｉｚａｔｉｏｎなどを参照。ＲＤＯは多くのやり方で実施され得る。１つのよく知られた実施形態では、ＲＤＯ問題はラグランジュ乗数λに関するラグランジュ費用関数Ｊの最小化として表され得る：ｍｉｎ_{（符号化パラメータ）}Ｊ＝（Ｄ＋λ＊Ｒ）。ここで、パラメータＲは速度（すなわち符号化に必要なビットの数）を表し、パラメータＤは一定速度Ｒに関連付けられたビデオ信号の歪みを表す。歪みＤはビデオ品質の測度と見做され得る。品質を客観的に（メトリックがコンテンツ不可知であるという意味で客観的に）判断するための知られたメトリックは、平均２乗誤差（ＭＳＥ：ｍｅａｎｓ−ｓｑｕａｒｅｄｅｒｒｏｒ）、ピーク信号対雑音（ＰＳＮＲ）及び絶対差の合計（ＳＡＤ：ｓｕｍｏｆａｂｓｏｌｕｔｅｄｉｆｆｅｒｅｎｃｅｓ）を含む。

ＨＥＶＣの文脈では、速度歪費用は、ビデオ符号器が利用可能予測モード（本出願で説明したような超解像モードを含む）のそれぞれを使用して予測ビデオブロックを計算するということを必要とし得る。次に、符号器装置は、予測ブロックのそれぞれと現在のブロック（すなわち残りビデオフレームの残りブロック）との差を判断し、残りブロックのそれぞれを空間領域から周波数領域へ変換する。次に、符号器装置は、対応符号化ビデオブロックを生成するために、変換された残りブロックのそれぞれを量子化し得る。符号器装置は、符号化ビデオブロックを復号化し、そして、歪みメトリックＤを判断するために復号化ビデオブロックのそれぞれと現在のブロックとを比較し得る。さらに、この全速度歪解析は、予測モードのそれぞれのモードの速度Ｒ（すなわち、符号化されたビデオブロックのそれぞれをシグナリングするために使用されるビットの数）を計算することを含む。次に、このようにして判断されたＲＤ費用は、ブロックを符号化するために使用されるビットの数と、符号化のためにこの数のビットを使用することにより導入される歪みとの間の最良トレードオフを提供するブロックを選択するために使用される。

図１０は本発明の一実施形態による復号器装置を示すブロック図を描写する。図１０の例では、復号器装置はエントロピー復号化ユニット１００４、構文解析器（ｐａｒｓｅｒ）１００６、予測ユニット１０１８、逆量子化及び逆変換ユニット１００８、加算器１００９及び基準ピクチャメモリ１０１６を含み得る。予測ユニットは運動ベクトル（ＭＶ）推定ユニット１０２０、インター予測ユニット１０２２及びイントラ予測ユニット１０２４を含み得る。

復号化処理中、ビデオ復号器１０００は、符号器装置からの符号化ビデオスライスのビデオブロック及び関連構文要素を表す符号化ビデオビットストリーム１００２を受信する。エントロピー復号ユニットは、量子化係数、運動ベクトル及び他の構文要素を生成するためにビットストリームを復号化し得る。構文解析器ユニット１００６は運動ベクトル及び他の構文要素（メタデータ）を予測ユニット１０１８へ転送する。

構文要素はビデオスライスレベル及び／又はビデオブロックレベルで受信され得る。例えば、バックグラウンドにより、ビデオ復号器１０００は、所謂ネットワーク抽出層（ＮＡＬ：ｎｅｔｗｏｒｋａｂｓｔｒａｃｔｉｏｎｌａｙｅｒ）ユニットへのネットワークを介した送信のための圧縮されたビデオデータを受信し得る。各ＮＡＬユニットは、ＮＡＬユニットへ格納されるデータのタイプを識別するヘッダを含み得る。ＮＡＬユニットへ共通に格納される２つのタイプのデータが存在する。ＮＡＬユニットへ格納される第１のタイプのデータは、圧縮されたビデオデータを含むビデオ符号化層（ＶＣＬ：ｖｉｄｅｏｃｏｄｉｎｇｌａｙｅｒ）データである。ＮＡＬユニットへ格納される第２のタイプのデータは、非ＶＣＬデータと呼ばれ、多数のＮＡＬユニットに共通なヘッダデータと補助的強化情報（ＳＥＩ：ｓｕｐｐｌｅｍｅｎｔａｌｅｎｈａｎｃｅｍｅｎｔｉｎｆｏｒｍａｔｉｏｎ）とを定義するパラメータセットなどの追加情報を含む。

ビデオフレームのブロックがイントラ符号化（Ｉ）ブロックとして符号化されるということを復号器がシグナリングされると、イントラ予測ユニットは、シグナリングされたイントラ予測モードと現在のピクチャの以前に復号化されたブロックからのデータ（例えば元ブロックの近くに位置する以前に復号化されたブロックからの基準画素）とに基づき、元（現在）のビデオフレームの元ブロックの予測データ、予測ブロックを生成し得る。

同様に、ビデオフレームのブロックが超解像モードに基づき符号化されるということを復号器装置がシグナリングされると、復号器はビットストリーム内のサブＧＯＰ構造（空間ダウンサンプリング方式に基づき符号化される元フレームに関連付けられた）を判断し得る。メタデータに基づき、復号器装置は、ダウンサンプリング方式が元フレームを第１のＬＲ元フレーム及び１つ又は複数の第２のＬＲ元フレームへ（符号化中に）ダウンサンプリングするために使用されるということを判断し得る。さらに、この場合、復号器装置は、再構成された元のビデオフレームへＬＲ再構成フレームをアップサンプリングするためのアップサンプリング方式を使用する必要があるということを知る。

メタデータに基づき、復号器装置は、サブＧＯＰを表すビットストリーム部分を、第１のＬＲ元フレームに関連付けられた第１の残りブロックの第１の量子化係数と１つ又は複数の第２のＬＲ元フレームに関連付けられた１つ又は複数の第２の残りブロックの第２の量子化係数とへエントロピー復号化し得る。これらの量子化係数はその後、第１のＬＲ元フレームに関連付けられた第１の残りブロックと１つ又は複数の第２のＬＲ元フレームに関連付けられた第２の残りブロックとへ逆変換され逆量子化され得る。さらに、予測方法は、第１のＬＲ元フレームの第１の元ブロックの予測を定義する第１の予測ブロックを判断するために使用され得る。第１の予測ブロック及び第１の残りブロックに基づき、第１の再構成ブロックは判断され得る。第１の再構成ブロックは、１つ又は複数の第２のＬＲ元フレームの第２の元ブロックの予測を定義する第２の予測ブロックを判断するためのインター予測ユニットにより実行されるブロックマッチング予測方法における基準として使用され得る第１のＬＲ再構成フレームを定義し得る。次に、第１及び第２の予測ブロック並びに第１及び第２の残りブロックは、再構成された元のビデオフレームを判断するためにその後使用される第１のＬＲ再構成フレームと１つ又は複数の第２のＬＲ再構成フレームとを判断するために使用され得る。再構成された元のビデオフレームの生成は復号器装置のアップサンプリング及び合成ユニット１０１３により実行され得る。本処理は、第１のＬＲ再構成フレーム及び第２のＬＲ再構成フレームをアップサンプリングすることと、アップサンプリングされた第１のＬＲ再構成フレームと第２のＬＲ再構成フレームとを合成することとを含み得る。ここで、アップサンプリング処理は、符号化中に使用されたダウンサンプリング処理を逆にし得る。

ピクチャがインター予測に基づき符号化されると、予測ユニットのインター予測ユニット１０２２は、現在のビデオスライスのビデオブロックの予測ブロックを運動ベクトルとエントロピー復号化ユニット１００４から受信される他の構文要素とに基づき生成する。予測ブロックは、基準ピクチャリストのうちの１つのリスト内の基準ピクチャの１つから生成され得る。ビデオ復号器は、基準ピクチャメモリ１０１６内に格納された基準ピクチャに基づき周知の構築技術を使用して基準ピクチャを構築し得る。

インター予測ユニットは、運動ベクトル及び他の構文要素を解析することにより現在のビデオスライスのビデオブロックの予測情報を判断し得、復号化される現在のビデオブロックの予測ブロックを生成するためにこの予測情報を使用する。例えば、インター予測ユニットは、ビデオスライスのビデオブロックを符号化するために使用される予測モード（例えばイントラ又はインター予測）、インター予測スライスタイプ（例えばＢスライス、Ｐスライス又はＧＰＢスライス）、スライスの基準ピクチャリストのうちの１つ又は複数の基準ピクチャリストの構成情報、スライスの各インター符号化ビデオブロックの運動ベクトル、スライスの各インター符号化ビデオブロックのインター予測ステータス、及び現在のビデオスライス内のビデオブロックを復号化するための他の情報を判断するために、受信された構文要素のうちのいくつかを使用し得る。いくつかの例では、インター予測ユニットは運動ベクトル予測ユニット（図示せず）から運動情報を受信し得る。

運動ベクトル予測ユニットは、現在のブロックの運動ベクトルを予測するために使用される運動情報を識別するためにＭＶＰ又は指標を使用し得る。運動ベクトル予測ユニットは、現在のブロックの運動ベクトルを判断するために、識別されたＭＶＰと受信されたＭＶＤとを合成し得る。現在のブロックの運動情報を判断した後、運動ベクトル予測ユニットは現在のブロックの予測ブロックを生成し得る。

逆量子化及び逆変換ユニット１００８は、ビットストリーム内に提供されエントロピー復号化ユニットにより復号化された量子化された変換係数を逆量子化する（すなわち量子化解除する）。逆量子化処理は、量子化の程度そして同様に適用されるべき逆量子化の程度を判断するためにビデオスライス内のビデオブロック毎にビデオ符号器により計算される量子化パラメータの使用を含み得る。逆量子化処理はさらに、画素領域内の残りブロックを生成するために逆変換（例えば逆ＤＣＴ）、逆整数変換、又は概念的に同様な逆変換処理を変換係数へ適用し得る。

インター予測ユニット１０２２が運動ベクトル及び他の構文要素に基づき現在のビデオブロックの予測ブロックを生成した後、ビデオ復号器は、逆変換処理により判断された残りブロックとインター予測ユニット１０２０により生成された対応予測ブロックとを加算することにより復号化ビデオブロックを形成する。加算器１００９はこの加算操作を行う部品又は部品群を表す。必要に応じ、デブロッキングフィルタもまた、ブロッキングアーチアファクトを除去するために、復号化されたブロックをフィルタリングするように適用され得る。他のループフィルタ（符号化ループ内の、又は符号化ループ後のいずれか）もまた、画素遷移を滑らかにする又はそうでなければビデオ品質を改善するために使用され得る。次に、所与のピクチャ内の復号化されたビデオブロックは、以降の運動予測に使用される基準ピクチャを格納する基準ピクチャメモリ１０１６内に格納される。基準ピクチャメモリ１０１６もまたディスプレイデバイス上の後の提示のために復号化ビデオを格納する。

したがって、図９及び図１０の符号器装置及び復号器装置はそれぞれ、元のビデオフレームを低解像度ビデオフレームへダウンサンプルしそして低解像度ビデオフレームを元のビデオフレームへアップサンプリングするためのダウンサンプリング方式を使用し得る超解像予測モードを支援し得る。

第１のパラメータ（例えばフラグ）は超解像モードをシグナリングするために使用され得る。第２のパラメータはダウンサンプリング方式が使用される場合だけ存在し得る。この第２のパラメータは使用されるダウンサンプリングのタイプ方式（例えば多相ダウンサンプリング）を定義し得る。構文は単に一例であるということと、例えば、ただ１つのフラグ、より長い又は短いビット深さなど多くの他の代替案が使用され得るということとに注意すべきである。加えて及び／又は代替的に、シグナリングはまた、新しいＳＥＩメッセージ内に挿入され得る。

図１１は本開示において説明される実施形態において使用され得る解像度成分タイプの例を描写する。例えば、４：２：０フォーマットは、解像度成分の１つのサンプルが高解像度ビデオブロックの最大４（適用されるダウンサンプリング操作に依存して１〜４、例えば多相は１）画素に寄与し得る多相サブサンプリング方式に対応する。同様に、４：４：４フォーマットは、解像度成分と高解像度ビデオブロックとが同じ解像度を有する状況に対応する。この場合、空間サブサンプリングは無い。ビットストリームが４：４：４フォーマットを有する複数の解像度成分を含めば、これは、再構成された出力フレームがより高い解像度ではなくより良いＰＳＮＲから恩恵を受けるＳＮＲスケーラビリティと同様なものである。解像度成分フォーマットによって、空間サブサンプリング（４：４：４）が無い場合と同様に所与の数の解像度成分が同じ全ビデオ信号を運ぶと期待される。

上記表は、元（高解像度）のビデオ信号を再構成するために使用され得る解像度成分のグループを形成し得る期待数の解像度成分を与える。ビットストリームによって代表されるビデオソースは復号順の一系列のピクチャであり、ソースピクチャと復号化されたピクチャはそれぞれ１つの解像度成分アレイを含み得、各解像度成分アレイは、次の１つ又は複数のカラーサンプルアレイ：輝度（Ｙ）だけ（モノクロ）；輝度及び２つの色度（ＹＣｂＣｒ又はＹＣｇＣｏ）；緑、青、赤（ＧＢＲ、ＲＧＢとしても知られる）；又は他の不特定モノクロサンプリング又は三刺激（ｔｒｉ−ｓｔｉｍｕｌｕｓ）カラーサンプリングを表すアレイ（例えばＹＺＸ、ＸＹＺとしても知られる）を含み得る。

別の実施形態では、空間サブサンプリング方式は予め定義されない又は完全には予め定義されない。この場合、アップスケーリングフィルタ、ＬＲビデオフレームからの画素の位置、及びＨＲビデオフレーム内の画素を計算するためのアルゴリズムが復号器へシグナリングされる必要がある。一般的やり方では、この情報は、例えば解像度成分当たりベクトルに基づき復号器情報内でシグナリングされ得る。一実施形態では、この情報は、サブ画素精度で定義され得、原点（例えば左上原点（０_，０））に対する解像度成分の移動量を画素単位で指示するとともに、低解像度成分のビデオフレームの再合成に基づきＨＲフレームからあらゆる画素値を計算するためのアルゴリズムを指示する。この場合、再合成処理は本開示において参照された超解像画像再構成技術であり得る。

図１２は本出願において説明される実施形態を使用し得るビデオ符号化及び復号化システムの概略図を描写する。図１２に示すように、システム１２００は、第２のビデオ処理デバイス１２０４（例えばビデオプレイアウトデバイス）により復号化され得る符号化ビデオデータを生成するように構成された第１のビデオ処理デバイス１２０２（例えばビデオキャプチャデバイスなど）を含み得る。第１及び第２のビデオ処理デバイスは、デスクトップコンピュータ、ノートブック（すなわちラップトップ）コンピュータ、タブレットコンピュータ、セットトップボックス、所謂「スマート」フォンなどの電話送受信器、所謂「スマート」パッド、テレビ、カメラ、ディスプレイデバイス、ディジタルメディアプレーヤ、ビデオゲームコンソール、ビデオストリーミングデバイスなどを含む広範囲のデバイスのうちの任意のものを含み得る。いくつかのケースでは、ビデオ処理デバイスは無線通信のために装備され得る。

第２のビデオ処理デバイスは、送信チャネル１２０６を介し、又は第１のビデオ処理デバイスから第２のビデオ処理デバイスへ符号化ビデオデータを移動することができる任意のタイプの媒体又はデバイスを介し復号化される符号化ビデオデータを受信し得る。一例では、送信チャネルは、第１のビデオ処理デバイスが符号化ビデオデータを第２のビデオ処理デバイスへ直接リアルタイムに送信することを可能にする通信媒体を含み得る。符号化ビデオデータは、無線通信プロトコルなどの通信標準規格に基づき第２のビデオ処理デバイスへ送信され得る。通信媒体は、無線周波数（ＲＦ）スペクトル又は１つ又は複数の物理的伝送路などの任意の無線又は有線通信媒体を含み得る。通信媒体は、ローカルエリアネットワーク、広域ネットワークなどのパケットベースネットワーク、又はインターネットなどのグローバネットワークの一部分を形成し得る。通信媒体は、第１のビデオ処理デバイスと第２のビデオ処理デバイスとの間の通信を容易にするために有用であり得るルータ、スイッチ、基地局、サーバ又は任意の他の機器を含み得る。

代替的に、符号化データは、第１のビデオ処理デバイスのＩ／Ｏインターフェース１２０８を介しストレージデバイス１２１０へ送信され得る。符号化データは第２のビデオ処理デバイスのＩ／Ｏインターフェース１２１２によりアクセスされ得る。ストレージデバイス１２１０は、ハードドライブ、ブルーレイディスク、ＤＶＤ、ＣＤ−ＲＯＭ、フラッシュメモリ、揮発性又は不揮発性メモリ、又は符号化ビデオデータを格納するための任意の他の好適なデジタルストレージ媒体などの多様な分散された又は局所的にアクセスされるデータストレージ媒体のうちの任意のものを含み得る。別の例では、ストレージデバイスは、第１のビデオ処理デバイスにより生成された符号化ビデオを保持し得るファイルサーバ又は別の中間ストレージデバイスに対応し得る。第２のビデオ処理デバイスは、ストリーミング又はダウンロードを介しストレージデバイスから、格納されたビデオデータにアクセスし得る。ファイルサーバは符号化ビデオデータを格納してこの符号化ビデオデータを第２のビデオ処理デバイスへ送信することができる任意のタイプのサーバであり得る。例示的ファイルサーバはウェブサーバ（例えばウェブサイトの）、ＦＴＰサーバ、ネットワーク接続ストレージ（ＮＡＳ：ｎｅｔｗｏｒｋａｔｔａｃｈｅｄｓｔｏｒａｇｅ）デバイス又はローカルディスクドライブを含む。第２のビデオ処理デバイスはインターネット接続を含む任意の標準データ接続を介し符号化ビデオデータにアクセスし得る。これは、ファイルサーバ上に格納された符号化ビデオデータにアクセスするのに好適な無線チャネル（例えばＷｉ−Ｆｉ接続）、有線接続（例えばＤＳＬ、ケーブルモデムなど）、又は両方の組み合わせを含み得る。ストレージデバイス３６からの符号化ビデオデータの送信は、ストリーミング送信、ダウンロード送信、又は両方の組み合わせであり得る。

本開示の技術は無線アプリケーション又はセッティングに必ずしも制限されない。これらの技術は、無線のテレビ放送、ケーブルテレビ送信、衛星テレビ送信、ストリーミングビデオ送信（例えばインターネットを介した）、データストレージ媒体上の格納のためのデジタルビデオの符号化、データストレージ媒体上に格納されたデジタルビデオの復号化、又は他のアプリケーションなどの多様なマルチメディアアプリケーションの任意のアプリケーションを支援するビデオ符号化へ適用され得る。いくつかの例では、システム１２００は、ビデオストリーミング、ビデオ再生、ビデオ放送、及び／又はビデオ電話などのアプリケーションを支援するために一方向又は双方向ビデオ送信を支援するように構成され得る。

図１２の例では、第１のビデオ処理デバイスはビデオソース１２１４及びビデオ符号器１２１６をさらに含み得る。いくつかのケースでは、Ｉ／Ｏインターフェース１２０８は変調器／復調器（モデム）及び／又は送信器を含み得る。ビデオソースは、ビデオキャプチャデバイス（例えばビデオカメラ）、以前に捕捉されたビデオを含むビデオアーカイブ、ビデオコンテンツ供給者からビデオを受信するためのビデオ配信インターフェース、及び／又はソースビデオとしてコンピュータグラフィックデータを生成するためのンピュータグラフィックシステム、又はこのようなソースの組み合わせなどの任意のタイプのソースを含み得る。ビデオソース１２１４がビデオカメラであれば、第１と第２のビデオ処理デバイスは所謂カメラフォン又はビデオフォンを形成し得る。しかし、本開示において説明される技術は、ビデオ符号化全般へ適用可能であり得、無線及び／又は有線アプリケーションへ適用され得る。

捕捉された、予め捕捉された、又はコンピュータ生成されたビデオはビデオ符号器１２１６により符号化され得る。符号化ビデオデータは、Ｉ／Ｏインターフェース１２０８を介し第２のビデオ処理デバイスへ直接送信され得る。符号化ビデオデータはまた（又は、代替的に）、復号及び／又は再生のための第２のビデオ処理デバイス又は他のデバイスによる後のアクセスのためにストレージデバイス１２１０上に格納され得る。

第２のビデオ処理デバイスはビデオ復号器１２１８及びディスプレイデバイス１２２０をさらに含み得る。いくつかのケースでは、Ｉ／Ｏインターフェース１２１２は受信器及び／又はモデムを含み得る。第２のビデオ処理デバイスのＩ／Ｏインターフェース１２１２は符号化ビデオデータを受信し得る。通信チャネル上で伝達される符号化ビデオデータ又はストレージデバイス１２１０上に提供される符号化ビデオデータは、ビデオデータを復号化する際にビデオ復号器１２１８などのビデオ復号器による使用のためのビデオ符号器１２１６により生成された多様な構文要素を含み得る。このような構文要素は、通信媒体上で送信された、ストレージ媒体上に格納された、又はファイルサーバ上に格納された符号化ビデオデータと共に含まれ得る。

ディスプレイデバイス１２２０は第２のビデオ処理デバイスと一体化されてもよいし第２のビデオ処理デバイスの外に在ってもよい。いくつかの例では、第２のビデオ処理デバイスは、一体化されたディスプレイデバイスを含み得、外部ディスプレイデバイスとインターフェースするように構成され得る。他の例では、第２のビデオ処理デバイスはディスプレイデバイスであり得る。一般的に、ディスプレイデバイスは復号化ビデオデータをユーザへ表示する。ディスプレイデバイスは液晶ディスプレイ（ＬＣＤ：ｌｉｑｕｉｄｃｒｙｓｔａｌｄｉｓｐｌａｙ）、プラズマディスプレイ、有機発光ダイオード（ＯＬＥＤ：ｏｒｇａｎｉｃｌｉｇｈｔｅｍｉｔｔｉｎｇｄｉｏｄｅ）ディスプレイ又は別のタイプのディスプレイデバイスなどの多様なディスプレイデバイスのうちの任意のものを含み得る。

ビデオ符号器１２１６及びビデオ復号器１２１８は、高効率ビデオ符号化（ＨＥＶＣ：ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ）、ＶＰ９又はＡＶ１などのビデオ圧縮標準規格に従って動作し得る。代替的に、ビデオ符号器１２１６及びビデオ復号器１２１８は、ＩＴＵ−ＴＨ．２６４標準規格（代替的にＭＰＥＧ−４，Ｐａｒｔ１０と呼ばれる）、高度ビデオ符号化（ＡＶＣ：ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ）、又はこのような標準規格の拡張版などの他の独自仕様の規格又は工業規格に従って動作し得る。しかし、本開示の技術はいかなる特定の符号化標準規格へも制限されない。

図１２には示さないが、いくつかの態様では、ビデオ符号器１２１６及びビデオ復号器１２１８はそれぞれ、オーディオ符号器及び復号器と一体化され得、そして共通データストリーム又は別個のデータストリーム内のオーディオとビデオとの両方の符号化を扱うために、適切なＭＵＸ−ＤＥＭＵＸユニット、又は他のハードウェア及びソフトウェアを含み得る。妥当な場合、いくつかの例では、ＭＵＸ−ＤＥＭＵＸユニットは、ＩＴＵＨ．２２３マルチプレクサプロトコル、又はユーザデータグラムプロトコル（ＵＤＰ：ｕｓｅｒｄａｔａｇｒａｍｐｒｏｔｏｃｏｌ）などの他のプロトコルに準拠し得る。

ビデオ符号器１２１６及びビデオ復号器１２１８はそれぞれ、１つ又は複数のマイクロプロセッサ、デジタルシグナルプロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、ディスクリートロジック、ソフトウェア、ハードウェア、ファームウェア又はそれらの任意の組み合せなどの多様な好適な符号器回路系のうちの任意の回路系として実装され得る。これらの技術が部分的にソフトウェアで実装される場合、１つのデバイスが、ソフトウェアのための指示を好適な非一時的コンピュータ可読媒体内に格納し、そして、本開示の技術を行うために１つ又は複数のプロセッサを使用してハードウェア内の指示を実行し得る。ビデオ符号器１２１６及びビデオ復号器１２１８のそれぞれは、そのうちのいずれかがデバイス内の組み合わせられた符号器／復号器（ＣＯＤＥＣ）の一部として一体化され得る１つ又は複数の符号器又は復号器内に含まれ得る。

本開示は概して、ある情報をビデオ復号器などの別のデバイスへ「シグナリングする」ビデオ符号器を指し得る。用語「シグナリング」は通常、構文要素及び／又は圧縮されたビデオデータを復号化するために使用される他のデータ（メタデータ）の伝達を指し得る。このような伝達がリアルタイム又はほぼリアルタイムに発生し得る。代替的に、このような伝達は、一定期間にわたって発生し得、例えば、符号化時に符号化されたビットストリーム内の構文要素をコンピュータ可読ストレージ媒体へ格納する際に発生する可能性がある。この構文要素は、この媒体へ格納された後の任意の時点に復号化デバイスにより取り出され得る。

本開示の技術は、無線送受信器、集積回路（ＩＣ）又は１組のＩＣ（例えばチップセット）を含む広い多様なデバイス又は装置内に実装され得る。様々な部品、モジュール又はユニットは、開示された技術を実行するように構成されたデバイスの機能的態様を強調するために本開示に記載されるが必ずしも様々なハードウェアユニットにより実現されることを必要としない。むしろ、上述のように、様々なユニットは、好適なソフトウェア及び／又はファームウェアと共に、コーデックハードウェアユニット内に組み合わせられ得る、又は上述のように１つ又は複数のプロセッサを含む相互動作可能なハードウェアユニットの集合により提供され得る。

本明細書で使用される専門用語は、特定の実施形態だけを説明する目的のためだけのものであり、本発明を制限するようには意図されていない。本明細書で使用されるように、文脈が明示しない限り単数形の定冠詞「ａ」、「ａｎ」と不定冠詞「ｔｈｅ」は複数形も同様に含むように意図されている。用語「含む（ｃｏｍｐｒｉｓｅｓ）」又は「含んでいる（ｃｏｍｐｒｉｓｉｎｇ）」は本明細書で使用される場合、述べられた機能、完全体、工程、動作、要素、及び／又は部品の存在を明示するが、１つ又は複数の他の機能、完全体、工程、動作、要素、構成部品、及び／又はこれらのグループの存在又は追加を排除するものではないということもさらに理解されることになる。

以下の特許請求の範囲内のすべての手段又は工程プラス機能要素の対応構造、材料、行為及び等価物は具体的に請求される他の請求された要素と組み合わせて機能を行うための任意の構造、材料、又は行為を含むように意図されている。本発明の説明は、例示及び説明の目的のために提示されたが、網羅的であるように意図されていない、又は開示された形式の本発明へ制限されるように意図されていない。多くの修正及び変形形態は本発明の範囲及び精神から逸脱することなく当業者に明らかになる。実施形態は、本発明の原理及びその実際のアプリケーションについて最も良く説明するために、そしてこれにより当業者が、企図される特定使用に適するような様々な修正を伴う様々な実施形態の本発明を理解できるようにするために、選択され説明された。

Claims

ビデオフレームをビットストリームへ符号化する方法であって、
符号化装置のプロセッサが、第１の低解像度（ＬＲ）元フレーム及び１つ又は複数の第２の元ＬＲフレームを判断するためのダウンサンプル方式を第１の解像度の元のビデオフレームに適用することであって、前記第１のＬＲ元フレーム及び前記１つ又は複数の第２のＬＲ元フレームは前記第１の解像度より低い第２の解像度である、受信すること；
前記プロセッサが前記第１のＬＲ元フレームを第１の元ブロックへ区分化し、前記１つ又は複数の第２のＬＲフレームを第２の元ブロックへ区分化すること；
前記第１のＬＲ元フレームの前記第１の元ブロックの予測を定義する第１の予測ブロックを判断する予測方法を前記プロセッサが使用すること；
前記プロセッサが前記第１の予測ブロック及び前記第１の元ブロックに基づき第１の残りブロックを判断し、その後、前記第１の残りブロック及び前記第１の予測ブロックに基づき第１の再構成ブロックを判断すること；
前記１つ又は複数の第２のＬＲ元フレームの前記第２の元ブロックの予測を定義する第２の予測ブロックを前記プロセッサが前記第１の再構成ブロックに基づき判断すること；
前記プロセッサが前記第２の予測ブロック及び前記第２の元ブロックに基づき第２の残りブロックを判断すること；及び
前記プロセッサが前記第１の残りブロック及び前記第２の残りブロックをビットストリームへ変換することであって、前記ビットストリームは「前記符号化中にダウンサンプリング方式が前記ビデオフレームをダウンサンプリングするために使用された」ということを復号器装置へシグナリングするためのメタデータを含む、変換すること、を含む方法。
前記ビデオフレームはＩフレームであり、前記第１の予測ブロックを判断することは前記第１の予測ブロックを判断するイントラ予測方法を使用することを含む；又は前記ビデオフレームはＰフレーム又はＢフレームであり、前記第１の予測ブロックを判断することは前記第１の予測ブロックを判断するインター予測方法を使用することを含む、請求項１に記載の方法。
前記第１の再構成ブロックは第１のＬＲ再構成フレームを定義し、前記第１のＬＲ再構成フレームは前記第２の予測ブロックを判断するための基準フレームを定義する、請求項１又は２に記載の方法。
ブロックマッチング予測方法が前記第２の予測ブロックを判断するため使用され得、好適には前記ブロックマッチング予測方法はイントラ領域ベーステンプレートマッチング方法又はイントラコピーブロック方法に基づく、請求項３に記載の方法。
前記第１のＬＲ元フレームに関連付けられた前記第１の残りブロックと前記１つ又は複数の第２のＬＲ元フレームに関連付けられた前記第２の残りブロックは、データ構造（好適にはピクチャのサブグループ（サブＧＯＰ））を定義し、好適には前記データ構造は前記サブＧＯＰのメタデータに関連付けられる、請求項１乃至３のいずれか一項に記載の方法。
前記ダウンサンプリング方式は多相ダウンサンプリング方式であり、前記ダウンサンプリング方式は複数の空間ダウンサンプリング格子（好適には４つのダウンサンプリング格子）を含む、請求項１乃至５のいずれか一項に記載の方法。
前記第１のＬＲ元フレーム及び前記１つ又は複数の第２のＬＲ元フレームは前記第１の解像度の多重化ビデオフレームへ空間的に多重化される、請求項１乃至６のいずれか一項に記載の方法。
前記メタデータは前記符号器装置により使用されたダウンサンプリング方式のタイプを前記復号器装置へシグナリングするための１つ又は複数の第１のパラメータを含む；及び／又は、
前記メタデータは前記第１の予測ブロックを予測するために使用された予測のタイプを前記復号器装置へシグナリングするための１つ又は複数の第２のパラメータを含む；及び／又は、
前記メタデータは前記第２の予測ブロックを予測するために使用された予測のタイプを前記復号器装置へシグナリングするための１つ又は複数の第３のパラメータを含む、請求項１乃至７のいずれか一項に記載の方法。
ビットストリームをビデオフレームへ復号化する方法であって、
復号装置のプロセッサが、第１の低解像度（ＬＲ）元フレームに関連付けられた第１の符号化された残りブロックと１つ又は複数の第２のＬＲ元フレームに関連付けられた第２の符号化された残りブロックとを含むビットストリームを受信すること；
前記プロセッサが、前記第１及び第２の符号化された残りブロックに関連付けられたメタデータを受信することであって、前記メタデータは、第１の解像度の元フレームを前記第１のＬＲ元フレームと前記１つ又は複数の第２のＬＲの元のフレームとへダウンサンプリングするダウンサンプリング方式を前記符号器装置が使用したということを復号器装置へシグナリングし、前記第１のＬＲ元フレーム及び前記１つ又は複数の第２のＬＲ元フレームは前記第１の解像度より低い第２の解像度である、受信すること；
前記第１のＬＲ元フレームの前記第１の元ブロックの予測を定義する前記第１の予測ブロックを判断する予測方法を前記プロセッサが使用すること；
前記プロセッサが、前記第１の符号化された残りブロックを第１の残りブロックへ変換し、第１のＬＲ再構成フレームを定義する第１の再構成ブロックを前記第１の残りブロックと前記第１の予測ブロックとに基づき判断すること；
前記１つ又は複数の第２のＬＲ元フレームの前記第２の元ブロックの予測を定義する第２の予測ブロックを前記プロセッサが前記第１の再構成ブロックに基づき判断すること；
前記プロセッサが、前記第２の符号化された残りブロックを第２の残りブロックへ変換し、１つ又は複数の第２のＬＲ再構成フレームを定義する第２の再構成ブロックを前記第２の残りブロックと前記第２の予測ブロックに基づき判断すること；及び、
前記プロセッサが再構成された元のビデオフレームを前記第１のＬＲ再構成フレームと前記１つ又は複数の第２のＬＲ再構成フレームとに基づき判断すること、を含む方法。
前記再構成ブロックを判断することは：
前記第１のＬＲ再構成フレームと前記１つ又は複数の第２のＬＲ再構成フレームとをアップサンプリングすることであって、好適には前記ダウンサンプリング方式に関連付けられたアップサンプリング方式に基づく、アップサンプリングすること；及び、
前記アップサンプリングされた第１のＬＲ再構成フレームと前記アップサンプリングされた第２のＬＲ再構成フレームとを前記再構成された元のビデオフレームへ合成すること、を含む請求項９に記載の方法。
ブロックマッチング予測方法が前記第２の予測ブロックを判断するため使用され、好適には、前記ブロックマッチング予測方法はイントラ領域ベーステンプレートマッチング方法又はイントラコピーブロック方法に基づく、請求項９又は１０に記載の方法。
前記ビットストリームは、高効率ビデオ符号化（ＨＥＶＣ）ベースビットストリーム、ＡｌｌｉａｎｃｅｆｏｒＯｐｅｎＭｅｄｉａＶｉｄｅｏ（ＡＶ１）ベースビットストリーム、又は汎用ビデオ符号化（ＶＶＣ）ベースビットストリームである、請求項１乃至１１のいずれか一項に記載の方法。
ビデオフレームをビットストリームへ符号化するための装置であって、
プログラムの少なくとも一部分がその中に具現化されたコンピュータ可読ストレージ媒体と；
コンピュータ可読プログラムコードがその中に具現化されたコンピュータ可読ストレージ媒体と、
前記コンピュータ可読ストレージ媒体へ結合されたプロセッサ（好適にはマイクロプロセッサ）を含む装置において、
前記コンピュータ可読プログラムコードを実行することに応答して、前記プロセッサは、以下のことを含む実行可能操作を行うように構成される：
第１の低解像度（ＬＲ）元フレーム及び１つ又は複数の第２の元ＬＲフレームを判断するためのダウンサンプル方式を第１の解像度の元のビデオフレームに適用することであって、前記第１のＬＲ元フレーム及び前記１つ又は複数の第２のＬＲ元フレームは前記第１の解像度より低い第２の解像度である、適用すること；
前記第１のＬＲ元フレームを第１の元ブロックへ区分化し、前記１つ又は複数の第２のＬＲフレームを第２の元ブロックへ区分化すること；
前記第１のＬＲ元フレームの前記第１の元ブロックの予測を定義する第１の予測ブロックを判断する予測方法を使用すること；
前記第１の予測ブロック及び前記第１の元ブロックに基づき第１の残りブロックを判断し、その後、前記第１の残りブロック及び前記第１の予測ブロックに基づき第１の再構成ブロックを判断すること；
前記１つ又は複数の第２のＬＲ元フレームの前記第２の元ブロックの予測を定義する第２の予測ブロックを前記第１の再構成ブロックに基づき判断すること；
前記第２の予測ブロック及び前記第２の元ブロックに基づき第２の残りブロックを判断すること；及び
前記第１の残りブロック及び第２の残りブロックをビットストリームへ変換することであって、前記ビットストリームは「前記符号化中にダウンサンプリング方式が前記ビデオフレームをダウンサンプリングするために使用された」ということを復号器装置へシグナリングするためのメタデータを含む、変換すること、装置。
ビットストリームをビデオフレームへ復号化するための装置であって、
プログラムの少なくとも一部分がその中に具現化されたコンピュータ可読ストレージ媒体と；
コンピュータ可読プログラムコードがその中に具現化されたコンピュータ可読ストレージ媒体と、
前記コンピュータ可読ストレージ媒体へ結合されたプロセッサ（好適にはマイクロプロセッサ）と、を含む装置において、
前記コンピュータ可読プログラムコードを実行することに応答して、前記プロセッサは以下のことを含む実行可能操作を行うように構成される：
第１の低解像度（ＬＲ）元フレームに関連付けられた第１の符号化された残りブロックと１つ又は複数の第２のＬＲ元フレームに関連付けられた第２の符号化された残りブロックとを含むビットストリームを受信すること；
前記第１及び第２の符号化された残りブロックに関連付けられたメタデータを受信することであって、前記メタデータは、第１の解像度の元フレームを前記第１のＬＲ元フレームと前記１つ又は複数の第２のＬＲの元のフレームとへダウンサンプリングするダウンサンプリング方式を前記符号器装置が使用したということを復号器装置へシグナリングし、前記第１のＬＲ元フレーム及び前記１つ又は複数の第２のＬＲ元フレームは前記第１の解像度より低い第２の解像度である、受信すること；
前記第１のＬＲ元フレームの前記第１の元ブロックの予測を定義する第１の予測ブロックを判断する予測方法を使用すること；
前記第１の符号化された残りブロックを第１の残りブロックへ変換し、第１のＬＲ再構成フレームを定義する第１の再構成ブロックを前記第１の残りブロック及び前記第１の予測ブロックに基づき判断すること；
前記１つ又は複数の第２のＬＲ元フレームの前記第２の元ブロックの予測を定義する第２の予測ブロックを第１の再構成ブロックに基づき判断すること；
前記第２の符号化された残りブロックを第２の残りブロックへ変換し、１つ又は複数の第２のＬＲ再構成フレームを定義する第２の再構成ブロックを前記第２の残りブロック及び前記第２の予測ブロックに基づき判断すること；
再構成された元のビデオフレームを前記第１のＬＲ再構成フレームと前記１つ又は複数の第２のＬＲ再構成フレームとに基づき判断すること、装置。
コンピュータの前記メモリ内で実行されると請求項１乃至１２のいずれか一項に記載の方法に従って方法工程を実行するように構成されたソフトウェアコード部分を含むコンピュータプログラム製品。