JP2011527553A

JP2011527553A - フィルタ選択によるビデオ符号化

Info

Publication number: JP2011527553A
Application number: JP2011517469A
Authority: JP
Inventors: モッタ、ジョバンニ; カークゼウィックズ、マルタ; イエ、ヤン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2008-07-07
Filing date: 2009-06-26
Publication date: 2011-10-27
Anticipated expiration: 2029-06-26
Also published as: US20100002770A1; RU2011104078A; EP2311263A1; TWI401961B; KR20110026020A; JP5280531B2; CA2729287A1; KR101269334B1; WO2010005808A1; CN102084655A; BRPI0914218A2; CN102084655B; TW201008291A; RU2491758C2; US8811484B2

Abstract

低い誤差および歪みレートを有するフレームを提供するために、符号器内の複数の利用可能なフィルタから選択する方法およびデバイスが記述される。フルピクセル位置およびサブピクセル位置の各々について、各フィルタを使用したときのレート歪み利得を推定し、フルピクセル位置およびサブピクセル位置の各々に適用される最適なフィルタを復号器に信号送信することによって、補間の間にデフォルトフィルタではなく代替フィルタを使用するか否かを決定する。一実施形態において、参照フレームおよび現行フレームを識別し、デフォルト補間フレームを作成するためにデフォルトフィルタを使用して参照フレームを補間し、代替補間フレームを作成するために代替フィルタを使用して参照フレームを補間し、最後の参照フレームを生成するために、最小コストに基づいて、デフォルトフィルタを使用するか代替フィルタを使用するかを、各ピクセル位置に対して決定する。
【選択図】図3

Description

関連出願

本出願は、内容が全体として参照によって本明細書に組み込まれる、2008年7月7日に出願された米国仮出願番号61/078,642の優先権を主張する。

本出願はビデオ符号化に関し、さらに詳細には、ビデオ圧縮システムにおいて参照フレームを補間するための技術に関する。

デジタルビデオ性能は、デジタルテレビ、デジタルダイレクト放送システム、無線通信デバイス、携帯情報端末（PDA）、ラップトップコンピュータ、デスクトップコンピュータ、デジタルカメラ、デジタル記録装置、携帯または衛星無線電話、およびその様なものを含む広範囲のデバイスに組み込まれることができる。これらの、および別のデジタルビデオデバイスは、従来のアナログビデオシステムに較べて、フルモーションビデオシーケンスを作成、修正、伝送、記憶、記録および再生することにおいて重要な進歩を提供することができる。

多くの異なるビデオ符号化の標準が、デジタルビデオシーケンスを通信するために確立された。例えば、MPEG（Moving Picture Experts Group）は、MPEG-1、MPEG-2、およびMPEG-4を含む多くの標準を開発した。別の標準は、ITU H.263、カリフォルニア州クパティーノのアップルコンピュータ社によって開発されたQuickTime（登録商標）技術、ワシントン州レッドモンドのマイクロソフト社によって開発されたVFW（Video for Windows（登録商標））、インテル社によって開発されたIndeo（登録商標）、ワシントン州シアトルのRealNetworks社のRealVideo（登録商標）、およびSuperMac社によって開発されたCinepak（登録商標）を含む。これらの、および別の標準（まだ開発されていない標準を含めて）は進化し続けるであろう。

ビデオ符号化の標準は、圧縮様式でデータを符号化することによって、増加された送信速度を達成する。圧縮は、画像フレームの効果的な伝送のために、送信される必要のあるデータの全体の量を削減することができる。例えば、MPEG標準は、圧縮せずに達成されうる帯域幅よりも狭い帯域幅を通る、ビデオおよび画像送信を容易にするように設計されたグラフィックおよびビデオ圧縮技術を利用する。特に、MPEG標準は、インターフレーム（inter-frame）圧縮を提供するために、連続的画像フレーム間の類似点（時間的またインターフレーム相関と呼ばれる）を利用するビデオ符号化技術を組み込む。インターフレーム圧縮技術は、動き補償予測（motion compensated prediction）を使用することによって（すなわち、場面の動きを推測した後に、別のフレームからフレームを予測することによって）、フレームにわたるデータ冗長性（data redundancy）を活用する。加えて、ビデオ符号化技術は、画像フレーム内の類似性（空間的またはイントラフレーム相関と呼ばれる）を利用する。フレーム圧縮は、典型的に、離散コサイン変換（DCT）符号化のような、静止画像を圧縮するための従来プロセスに基づく。離散コサイン変換（DCT）符号化は、また、動き補償予測を圧縮するために使用される。

1つのDCT技術は、適応ブロックサイズ離散コサイン変換（Adaptive Block Size Discrete Cosine Transform：ABSDCT）方法として知られている。この技術は、本発明の譲受人に譲渡され、参照により本明細書に組み込まれる「適応ブロックサイズ画像圧縮の方法およびシステム（Adaptive Block Size Image Compression Method And System）」と題する米国特許番号5,021,891に開示されている。DCT技術は、また、本発明の譲受人に譲渡され、参照により本明細書に組み込まれる「適応ブロックサイズ画像圧縮の方法およびシステム（Adaptive Block Size Image Compression Method And System）」と題する米国特許番号5,107,345で開示されている。さらに、差分クワッドツリー変換（Differential Quadtree Transform）技術と共にABSDCT技術を使用することは、これもまた、本発明の譲受人に譲渡され、参照により本明細書に組み込まれる「適応ブロックサイズ画像圧縮の方法およびシステム（Adaptive Block Size Image Compression Method And System）」と題する米国特許番号5,452,104において論じられている。これらの特許に開示されるシステムは、画像データの各フレームが任意の別のフレームのコンテンツに関係なく符号化される、いわゆる「イントラフレーム」符号化と呼ばれるものを利用する。ABSDCT技術を使用すると、達成可能なデータ速度は、画像品質の認識できる劣化なく、毎秒約15億ビットから毎秒約5000万ビットに低下する。

ABSDCT技術は、白黒またはカラー画像、あるいは画像を表す信号のいずれかを圧縮するために使用される。カラー入力信号はYIQ形式であり、それは、4×4のピクセルブロックの各々に対してYは輝度（luminance）（すなわち、明度（brightness））サンプルであり、IおよびQは色度（chrominance）（すなわち、色彩）サンプルである。YUV、YC.sub.bC.sub.yまたはRGB形式などの別の知られた形式も、また、使用されうる。色彩に対する目の空間低感度のため、ほとんどの研究は、水平方向および垂直方向における4つのファクタによる色彩コンポーネントのサブサンプルが合理的であることを示している。従って、ビデオ信号は、4つの輝度コンポーネントおよび2つの色度コンポーネントによって表される。

この圧縮技術を支援するために、多くのデジタルビデオデバイスは、デジタルビデオシーケンスを圧縮するための符号器と、そのデジタルビデオシーケンスを復元するための復号器とを含む。多くの場合、符号器および復号器は、ビデオ画像のシーケンスを定義するフレーム内のピクセルブロック上で動作する統合符号器／復号器（CODEC）を備える。例えば、MPEG-4標準において、送信デバイスの符号器は、典型的に、送信されるべきビデオ画像フレームを、より小さい画像ブロックを備えるマクロブロック（macroblock）に分割する。画像フレーム内の各マクロブロックについて、符号器は、最も類似したマクロブロックを識別するために、直前のビデオフレームのマクロブロックを探索し、前のフレームのどのマクロブロックが符号化に使用されたかを示す動きベクトルに加えて、伝送のためのマクロブロック間の差分を符号化する。受信デバイスの復号器は動きベクトル、符号化された差分を受信し、ビデオシーケンスを生成するために動き補償を実行する。動きベクトルは、符号器によって選択される精度のレベルに依存して、フルピクセル精度、1/2ピクセル精度、または1/4ピクセル精度を有する。分数のピクセル値を有する動きベクトルが使用される時、より良い予測ブロックが獲得される。補間は、分数のピクセル（サブピクセル）値を決定するために実行される。ある例において、ピクセル値は、輝度、色度、または色彩コンポーネントの強度を表すビットを含む。

ビデオ符号化プロセスは計算集約的である。特に、ビデオブロックを以前に送信されたビデオブロックと比較するプロセスは多くの計算を要求する。改善された符号化技術は、特に、計算リソースがより限られており、電力消費が心配される無線デバイスまたは別のポータブルビデオデバイスで使用するために非常に望まれる。

一実施形態は、デジタルビデオを符号化する方法であって、その方法は、参照フレームおよび現行フレームを識別することと、デフォルト補間フレームを作成するためにデフォルトフィルタを使用して参照フレームを補間することと、代替補間フレームを作成するために代替フィルタを使用して参照フレームを補間することと、最後の参照フレームを生成するために、より低い合計誤差に基づいて、デフォルトフィルタを使用するか、代替フィルタを使用するかを、各サブピクセル位置に対して決定することとを含む。

別の実施形態は、デフォルト補間フレームを作成するためにデフォルトフィルタを使用して第1の参照フレームを補間するように構成され、代替補間フレームを作成するために代替フィルタを使用して第2の参照フレームを補間するように構成された動き補償ユニットと、デフォルト補間フレームを記憶し、代替補間フレームを記憶するように構成された参照フレーム記憶装置と、現行フレームを受信し、デフォルト補間フレームを受信し、代替補間フレームを受信し、最後のフレームにおいてデフォルトフィルタを使用するか代替フィルタを使用するかを、フルピクセル位置およびサブピクセル位置の各々に対して決定し、最後のフレームを生成するように構成されたフィルタ決定ユニットとを含むビデオ符号化デバイスである。

さらに別の実施形態は、現行フレームを受信するための手段と、複数の補間参照フレームを参照フレーム記憶装置に記憶するための手段と、複数の補間参照フレームを参照フレーム記憶装置から受信するための手段と、最後のフレームを作り出すための手段と、デフォルトフィルタを使用するか代替フィルタを使用するかを、最後のフレームにおいてフルピクセル位置およびサブピクセル位置の各々に対して決定するための手段とを含むビデオ符号化デバイスである。

ある別の実施形態は、デフォルト補間フレームを作成するためにデフォルトフィルタを使用して第1の参照フレームを補間するように構成され、代替補間フレームを作成するために代替フィルタを使用して第2の参照フレームを補間するように構成された動き補償ユニットと、現行フレームを受信し、デフォルト補間フレームを受信し、代替補間フレームを受信し、最後のフレームにおいてデフォルトフィルタを使用するか代替フィルタを使用するかを、フルピクセル位置およびサブピクセル位置の各々に対して決定し、最後のフレームを生成するように構成されたフィルタ決定ユニットを含むビデオ符号化デバイスである。

別の実施形態は、現行フレームを受信するための手段と、複数の補間参照フレームを受信するための手段と、最後のフレームを作り出すための手段と、最後のフレームにおいてフルピクセル位置およびサブピクセル位置の各々に対して、デフォルトフィルタを使用するか代替フィルタを使用するかを決定するための手段とを含むビデオ符号化デバイスである。

本明細書の前述の態様および付随する利点の多くは、それには限定されない例として、添付の図に示される。

図1は、ビデオ符号化および復号システムを示すブロック図である。図2は、ビデオ符号器を示すブロック図である。図3は、参照フレーム記憶装置およびフィルタ決定ユニットを示すブロック図である。図4は、フィルタの最良の組み合わせを決定するプロセスを記述するフロー図である。図5は、補間のための分数のピクセル位置を示すビデオフレームのブロック図である。図6は、ビデオ動き推定を示すブロック図である。図7は、イントラフレーム、予測フレーム、および双方向フレームを含むビデオフレームを示すブロック図である。図8は、2つの動きベクトルを備えるBスライスを備えるビデオフレームを示すブロック図である。図9は、最後の参照フレームを作成するプロセスを記述するフロー図である。

発明の詳細な説明

本出願の特定の実施形態が、図に関連して記述される。本明細書で提示される記述に使用される用語は、それが本出願の特定の実施形態の詳細な説明に関して利用されているという理由だけで、任意の限定または制限された方法で解釈されることを意図しない。

一実施形態において、システムは、複数の参照フレームを作成するために、複数のフィルタを使用してビデオの所与のブロックまたはフレームを補間する。各フィルタについて、システムは、次に、所与の参照フレームから動きベクトルを計算する。計算は、次に、各ピクセルに対して、どのフィルタが最も低い誤差および歪みレートを提供したかを決定するために行われる。いくつかの実施形態において、ビデオフレーム内のサブピクセルおよび整数ピクセルの各々に対して、1つのフィルタまたはフィルタの組み合わせの期待されるパフォーマンスが検査される。次に、サブピクセルおよび整数ピクセル値を符号化するための最良のフィルタが、ビデオフレーム内の各位置に対して選択される。

一実施形態において、システムは、複数のフィルタを使用して、単一のフレームの全ての利用可能な位置に対して、誤差絶対値和（sum of absolute difference：SAD）の誤差測定を累算する。SADを測定することによって、システムは、その位置に対応する適応フィルタ（例えば、適応補間フィルタ（AIF））を使用することが有益であるか、または、デフォルト補間フィルタを使用することが（SADおよび加重ビットコストの観点から）より適切であるか、または、ピクセル値を符号化するためにフィルタを全く使用しないかを決定することができる。

別の実施形態において、最適の選択基準を使用するプロセスが、最小計算コスト（すなわち、SADおよび、非デフォルト補間フィルタによって使用される加重符号化ビット）に結びつく利用可能なフィルタの組み合わせに対して使用される。行列およびベクトルを仮定すると、決定ベクトルの各々に対応する誤差を計算し、最小計算コストを示すサブピクセル位置の各々に対してフィルタを選択することが可能である。

さらに別の実施形態において、反復プロセスが利用される。このプロセスは、可能な解法（任意の有効な決定ベクトル）から開始すること、および、代替フィルタが最も誤差の減少を提供する位置を見つけることを含む。この新しい位置は、次に、新しいフィルタ選択の値で更新され、プロセスは、さらなる改善が不可能になるまで、改善がわずか（既定の閾値よりも低い）になるまで、または反復の最大数に達するまで繰り返えされる。

さらに別の実施形態において、単純化された発見的方法が、対称クラス（symmetry class）を使用して最小コストの近似を見つけるために使用される。この方法は、2つの参照ブロックの位置が同一のフィルタを使用する誤差寄与（error contribution）のみを考慮する。これは、位置が同一である時、またはそれらが対称クラスに属する時に生じる。

別の実施形態において、フルピクセル位置に使用されるフィルタ係数の符号化を改善する量子化テーブルが使用される。ここで、量子化精度は、不均等な量子化プロセスを使用する係数位置に依存する。

ブロックマッチングは、動き推定の最も一般的な方法である。典型的に、ビデオフレーム内の各マクロブロック（すなわち、16×16ピクセル）は、前のフレームからシフトされた同一のサイズの領域と比較され、最小誤差に帰着するシフトが、そのマクロブロックに対する最良の動きベクトルとして選択される。

イントラフレーム（または、Iフレーム）は、任意の別のフレームに関係なく符号化されるフレームであり、ランダムアクセスポイントを作成するために符号器によって生成される。イントラフレームは、典型的に、他のピクチャタイプよりも多くの符号化すべきビットを要求する。しばしば、Iフレームは、ランダムアクセスに使用され、別のフレームの復号のための参照として使用される。

予測フレーム（または、Pフレーム）は、復号されるためにいくつかの別のフレームの事前の復号を要求し、画像データおよび動きベクトル変位の両方を含む。H.264において、予測フレームは、復号の間、複数の以前に復号されたフレームを参照として使用することができ、その予測に使用されるフレームに関係する任意のディスプレイ順序関係を有する。また、典型的に、予測フレームは、イントラフレームよりも少ないビットを符号化ために要求する。

双方向予測フレーム（または、Bフレーム）は、復号されるために、いくつかの別のフレームの事前の復号を要求し、画像データおよび動きベクトル変位の両方を含み、2つの異なる以前に復号された参照領域を使用して獲得された予測を平均化することによって予測を形成するいくつかの予測モードを含む。H.264において、双方向予測フレームは、別のピクチャの復号のために参照として使用され、または使用されない。Bフレームは、典型的に、イントラフレームまたは予測フレームのいずれかが要求するよりも少ないビットを、符号化するために要求する。

図1は、ビデオ符号化および復号システム10を示すブロック図である。図1に示されるように、システム10は、通信チャネル16を介して、符号化ビデオを受信デバイス14に送信するソースデバイス12を含む。ソースデバイス12は、ビデオソース18、ビデオ符号器20、および送信機22を含む。送信機22は有線／無線送信機である。受信デバイス14は、受信機24、ビデオ復号器26、およびビデオディスプレイデバイス28を含む。いくつかの態様において、受信機24は、無線通信デバイスハンドセット内の無線受信機などの無線受信機である。システム10は、ビジュアル品質および処理効率の両方を改善するために、動き補償予測ブロックの代替フィルタリング（または、適応フィルタリング）をサポートするように構成される。

図1の例において、通信チャネル16は、無線周波数（RF）スペクトル、または1つ以上の物理送信ラインなどの任意の無線または有線通信媒体、すなわち無線および有線媒体のあらゆる組み合わせを備える。チャネル16は、ローカルエリアネットワーク、広域ネットワーク、またはインターネットのようなグローバルネットワークなどのパケットベースのネットワークの一部を形成する。通信チャネル16は、一般的に、ビデオデータをソースデバイス12から受信デバイス14に送信するための任意の適切な通信媒体または異なる通信媒体の集合体を表す。

ソースデバイス12は、宛先デバイス14への送信のためにビデオを生成する。しかし、いくつかの場合、デバイス12、14は、実質的に対称的な方法で動作する。例えば、デバイス12および14の各々は、ビデオ符号化および復号コンポーネントを含む。このように、システム10は、例えば、ビデオストリーミング、ビデオ放送、またはビデオ電話のために、ビデオデバイス12と14との間で一方向または双方向のビデオ送信をサポートする。

ビデオソース18は、1つ以上のビデオカメラ、以前にキャプチャされたビデオを含むビデオアーカイブ、または、ビデオコンテンツプロバイダから供給されたライブビデオなどのビデオキャプチャデバイスを含む。さらなる代替として、ビデオソース18は、ソースビデオ、またはライブビデオとコンピュータ生成ビデオとの組み合わせとして、コンピュータグラフィックベースのデータを生成する。いくつかの場合、ビデオソース18がカメラであるとすると、ソースデバイス12および受信デバイス14は、いわゆるカメラ電話またはビデオ電話（衛星またはモバイル無線電話を含む）、または別の無線通信デバイスを形成する。このように、いくつかの態様において、本出願に記述される技術は、モバイル電話ハンドセットなどのモバイル無線通信デバイスハンドセット内で実施されうる。それぞれの場合において、キャプチャされたビデオ、以前にキャプチャされたビデオ、またはコンピュータ生成ビデオは、送信機22、チャネル16、および受信機24を介して、ビデオソースデバイス12からビデオ受信デバイス14のビデオ復号器26に送信するために、ビデオ符号器20によって符号化される。ディスプレイデバイス28は、液晶ディスプレイ（LCD）、プラズマディスプレイ、または有機発光ダイオード（OLED）ディスプレイなど、様々なディスプレイデバイスのいずれかを含む。

ビデオ符号器20およびビデオ復号器26は、本出願のいくつかの態様において、空間、時間および／または信号対雑音比（SNR）スケーラビリティに対してスケーラブルなビデオ符号化をサポートするように構成される。符号器20および復号器26は、基本層および1つ以上のスケーラブルな高位層の符号化、送信、および復号をサポートすることによって、多様な度合いのスケーラビリティをサポートする。スケーラブルな符号化については、基本層は、最低限レベルの品質でビデオデータを伝達する。1つ以上の高位層は、より高い、空間、時間、またはSNRレベルをサポートするために、付加的なビットストリームを伝達する。

ビデオ符号器20およびビデオ復号器26は、MPEG-2、MPEG-4、ITU-T H.263、またはITU-T H.264/MPEG-4 パート10（AVC）などのビデオ圧縮標準に従って動作する。図1には示されないが、いくつかの態様において、ビデオ符号器20およびビデオ復号器22は、それぞれ、オーディオ符号器および復号器と一体化され、共通データストリームまたは離間データストリームにおいてオーディオおよびビデオの両方の符号化を処理するために、適切なMUX-DEMUXユニット、または別のハードフェアおよびソフトウェアを含む。適応可能な場合、MUX-DEMUXユニットは、ITU H.223マルチプレクサプロトコル、またはユーザーデータグラムプロトコル（UDP）などの別のプロトコルに準拠する。

H.264標準は、ITU-Tビデオ符号化エキスパートグループ（ITU-T Video Coding Experts Group）およびISO/IE MPEG（Moving Picture Experts Group）によって、JVT（Joint Video Team）として知られる共同の成果物として開発された。H.264標準は、本明細書においてH.264標準またはH.264仕様あるいはH.264/AVC標準または仕様と称される、2005年3月の「ITU-T推奨H.264、包括的音声映像サービスのための拡張ビデオ符号化（ITU-T Recommendation H.264, Advanced Video coding for Generic Audiovisual Services）」に記述されている。いくつかの態様において、本出願に記述される技術は、一般にH.264標準に準拠するデバイス、または、一般にH.264標準に準拠しない別のデバイスに適用される。

JVT（Joint Video Team）は、H.264/MPEG-4 AVCへのスケーラブルなビデオ符号化（SVC）拡張に取り組み続けている。H.264/MPEG-4AVCおよび進化型SVC拡張の両方の仕様は、JD（Joint Draft）形式である。JVTによって作成されたJSVM（Joint Scalable Video Model）は、本出願で記述される様々な符号化タスクのためにシステム10内で使用される、スケーラブルなビデオに使用するためのツールを実装する。

いくつかの態様のビデオ放送について、実施形態は、技術標準TIA-1099（「FLO仕様」）として発行されるべき、順方向リンク専用（FLO）無線インターフェース仕様「（地上モバイルマルチメディアマルチキャストのための順方向リンク専用無線インターフェース仕様）Forward Link Only Air Interface Specification for Terrestrial Mobile Multimedia Multicast」を使用して、地上モバイルマルチメディアマルチキャスト（TM3）システムにおいて、リアルタイムビデオサービスを配信するための拡張H.264ビデオ符号化へのアプリケーションに関係する。FLO仕様は、ビットストリーム構文（syntax）および語義（semantic）、およびFLO無線インターフェースに適した復号プロセスを定義する例を含む。あるいは、ビデオは、DVB-H（デジタルビデオハンドヘルド放送）、ISDB-T（統合デジタル地上放送）、またはDMB（デジタルメディア放送）などの別の標準に従って放送される。このように、いくつかの場合において、ソースデバイス12は、無線通信デバイスハンドセット、ビデオストリーミングサーバ、またはビデオブロードキャストサーバなどのモバイル無線端末である。しかし、本出願に記述される技術は、任意の特定のタイプのブロードキャスト、マルチキャスト、またはポイント・ツー・ポイントシステムに限定されない。

ビデオ符号器20およびビデオ復号器26は、各々、1つ以上のマイクロプロセッサ、デジタル信号プロセッサ（DSP）、特定用途向けIC（ASIC）、フィールドプログラマブルゲートアレイ（FPGA）、ディスクリート論理、ソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組み合わせとして実装される。このように、本明細書に記述される技術は、集合的に集積回路デバイスと呼ばれる1つ以上の集積回路デバイス内に実装される。そのような集積回路デバイスは、無線通信デバイスハンドセットなどの通信デバイス内に提供される。ビデオ符号器20およびビデオ復号器26の各々は、1つ以上の符号器または復号器に含まれ、それらのいずれかは、複合型符号器／復号器（CODEC）の一部として、それぞれのモバイルデバイス、加入者デバイス、ブロードキャストデバイス、サーバ、またはそのようなものに一体化される。加えて、ビデオソースデバイス12およびビデオ受信デバイス14は、各々、符号化ビデオの送信および受信のために、適切な変調、復調、周波数変換、フィルタリング、および増幅器コンポーネント（適用可能な場合、無線周波数（RF）無線コンポーネントを含む）、および無線通信をサポートするのに十分なアンテナを含む。しかし、例示の容易さのために、そのようなコンポーネントは図1には示されない。

上に記述されたように、ビデオは一連のビデオフレームを含む。ビデオ符号器20は、ビデオデータを符号化するために、個々のビデオフレーム内のピクセルのブロック上で動作する。ビデオブロックは、固定サイズまたは可変サイズであり、特定された符号化標準に従って異なるサイズを有する。例として、ITU-T H.264標準は、ルマ（lumaコンポーネントの場合、16×16、8×8、4×4およびクロマ（chroma）コンポーネントの場合、8×8など、様々なブロックサイズにおいてイントラ予測をサポートする。ITU-T H.264標準は、また、ルマコンーネントの場合、16×16、16×8、8×16、8×8、8×4、4×8およびクロマコンポーネントの場合、対応するスケールサイズなど、様々なブロックサイズにおいてインター予測をサポートする。より小さいビデオブロックは、より良い解像度を提供することができ、より高いレベルの詳細を含むビデオフレームのロケーションに対して使用される。一般に、マクロブロックおよび様々なより小さいブロックは、ビデオブロックであると考えられる。いくつかの場合において、より小さいブロックはサブブロックと呼ばれる。予測の後、8×8残差ブロックまたは4×4残差ブロック上で変換が実行される。また、イントラサブ16×16予測モードが使用される場合、クロマコンポーネントまたはルマコンポーネントの4×4ブロックのDC係数にさらなる変換が適用される。

図2は、ビデオ符号器20のより詳細を示すブロック図である。ビデオ符号器20は、ビデオフレーム内のブロックのイントラ符号化およびインター符号化を実行する。イントラ符号化は、所与のビデオフレームにおいて空間的冗長を削減または除去するために空間予測に依存する。インター符号化は、隣接フレーム内のビデオにおいて時間的冗長を削減または除去するために時間予測に依存する。インター符号化の場合、ビデオ符号器20は、2つ以上の隣接するフレーム間のマッチングビデオブロックの動作を追跡するために、動き推定を実行する。

図2に示されるように、ビデオ符号器20は、符号化されるべきビデオフレーム内の現行ビデオブロック21を受信する。図2の例において、ビデオ符号器20は、動き推定ユニット23、参照フレーム記憶装置25、動き補償ユニット27、ブロック変換ユニット29、量子化ユニット31、逆量子化ユニット33、逆変換ユニット35、およびエントロピー符号化ユニット37を含む。ビデオ符号器20は、また、加算器39および加算器41を含む。図2は、ビデオブロックのインター符号化のためのビデオ符号器20の時間予測コンポーネントを示す。例示の容易さのために図2に示されないが、ビデオ符号器20は、また、いくつかのビデオブロックのイントラ符号化のために、空間予測コンポーネントを含む。

動き推定ユニット23は、1つ以上の動きベクトルを生成するために、ビデオブロック21と1つ以上の隣接ビデオフレーム内のブロックとを比較する。隣接する1つのフレームまたは複数のフレームは、参照フレーム記憶装置25から検索される。動き推定は、可変サイズ（例えば、16×16、16×8、8×16、8×8、またはより小さいブロックサイズ）のブロックに対して実行される。動き推定ユニット23は、例えば、レート歪みモデルに基づいて、現行ビデオブロック21に最も密接にマッチする隣接フレーム内のブロックを識別し、ブロック間の変位を決定する。このようにして、動き推定ユニット23は、変位の大きさおよび軌跡を示す動きベクトルを作り出す。

動きベクトルは、1/2ピクセル精度または1/4ピクセル精度、またはいっそう細かい精度を有し、それは、ビデオ符号器20が、整数ピクセルロケーションよりも高い精度で動きを追跡し、より良い予測ブロックを獲得することを可能にする。分数のピクセル値を有する動きベクトルが使用される場合、補間動作が動き補償ユニット27において実行される。例えば、H.264/AVC標準において、1/2ピクセル位置でルマ信号を獲得するために、係数（1、-5、20、20、-5、1）／32を有する6タップのウェイナーフィルタ（Wiener filter）が使用される。1/4ピクセルロケーションでルマ信号を獲得するために、整数ピクセルロケーションの値および1/2ピクセルロケーションの補間値上での双一次フィルタリング（bilinear filtering）が利用される。双一次フィルタは、また、最大で1/8のピクセル精度を有するクロマコンポーネントのための分数のピクセル補間に使用される。

動き推定ユニット23は、レート歪みモデルを使用してビデオブロックに対して最良の動きベクトルを識別する。結果として得られる動きベクトルを使用して、動き補償ユニット27は、動き補償によって予測ビデオブロックを形成する。ビデオ符号器20は、加算器39で、動き補償ユニット27によって作り出された予測ビデオブロックをオリジナルの現行ビデオブロック21から差し引くことによって、残差ビデオブロック（residual video block）を形成する。ブロック変換ユニット29は、変換を残差ブロックに適用する。量子化ユニット31は、ビットレートをさらに削減するために、変換係数を量子化する。エントロピー符号化ユニット37は、ビットレートをよりいっそう削減するために、量子化された係数をエントロピー符号化する。ビデオ復号器26は、符号化ビデオを復元するために逆の動作を実行する。

逆量子化ユニット33および逆変換ユニット35は、残差ブロックを復元するために、逆量子化および逆変換をそれぞれ適用する。加算器41は、復元された残差ブロックを動き補償ユニット27によって作り出された動き補償予測ブロックに加算し、参照フレーム記憶装置25に記憶するための復元されたビデオブロック（または、現行フレームに対するフィルタ決定）を作り出す。フィルタ決定ユニット44を備える動き補償ユニットは、参照フレーム記憶装置25から参照フレームを受信し、現行フレームを受信し、フィルタ参照フレーム記憶装置25に記憶されるべき復元されたビデオブロックを作り出すように構成される。ために、動き推定ユニット23および動き補償ユニット27によって使用される。

現行ビデオフレーム21の所与のブロックに対して動き補償を実行する場合、動き補償ユニット27は、参照フレームからの参照ブロックを補間するために、フィルタの固定セットを使用する。現行ブロックが一方向に予測される場合、1つの参照ブロックが必要とされ、現行ブロックが双方向に予測される場合、2つの参照ブロックが必要とされる。H.264において、順方向および逆方向における複数の参照フレームが、いくつかの場合に使用される。動き補償ユニット27によって使用される実際のフィルタは、動きベクトルの分数の部分に依存する。例えば、動きベクトルが、所与の次元で参照フレーム内の1/2ピクセルロケーションを指す場合、1/2ピクセルロケーションの値を獲得するために、デフォルト補間フィルタが1/2ピクセル動きベクトルでその次元において使用される。両方の動きベクトルコンポーネントが整数ロケーションを指す場合、参照フレーム記憶装置25の参照フレームからのピクセル値は、いかなる補間フィルタリング動作も実行することなく直接使用される。

図3は、図2に示されるような参照フレーム記憶装置25およびフィルタ決定ユニット44を示すブロック図である。図3の参照フレーム記憶装置25およびフィルタ決定ユニット44の例示的なブロック図は、現行フレーム30、参照フレーム記憶装置25、およびフィルタ決定ユニット44を含む。現行フレーム30は、参照フレーム記憶装置25に記憶されるべき最後の（または、復元された）参照フレームを作成するために、使用されるべきフィルタ決定ユニット44に送信される。参照フレーム記憶装置25は、参照フレームのセットを保存し、保存された参照フレームを動き補償ユニット27に送信する。一実施形態において、デフォルトフィルタ32、34、および36で補間された参照フレームのセットは、参照フレーム記憶装置25に記憶され、フィルタ決定ユニット44に送信される。別の実施形態において、代替フィルタ（または、非デフォルトフィルタ）38、40、42で補間された参照フレームのセットは、参照フレーム記憶装置25に記憶され、フィルタ決定ユニット44に送信される。別の実施形態において、メモリ容量が制限されている場合、補間フレームは、必要に応じて実行中に生成される。一実施形態において、補間フレームは、オリジナルの（非補間）フレーム、補間フィルタおよびフィルタ選択が利用可能な限り、リアルタイムで生成される。ビデオ符号器20に存在する代替フィルタ（図示されない）は、適応補間フィルタ、分離可能な適応補間フィルタ、固定フィルタである。別の実施形態において、代替フィルタは、特に、高解像度（例えば、720p）を有するビデオシーケンス上で大きい符号化利得を提供する適応補間フィルタ（AIF）である。ビデオ符号器20は、参照フレーム中のブロックを補間するために代替フィルタの固定のセットを有する。さらに別の実施形態において、ビデオ符号器20は、2Dの分離不可能な適応補間フィルタ、分離可能な適応補間フィルタ、方向性の適応補間フィルタ、および強化された適応補間フィルタをサポートする。2Dの分離不可能な適応補間フィルタは、フレームを補間するために二次元行列を使用する。分離可能な適応補間フィルタは、フレームを補間するために、水平走査を使用し、次に垂直走査を使用する。方向性の適応補間フィルタは、フレームを補間するために対角走査を使用する。

別の実施形態において、強化された適用補間フィルタ（E-AIF）は、フルピクセル位置フィルタおよびフィルタオフセットをフルピクセル位置およびサブピクセル位置の各々に加えることによって使用される。フルピクセル位置および各サブピクセル位置について、E-AIFは、また、デフォルト補間の間、代替フィルタの期待されるレート歪み利得を推定し、代替のフィルタを使用して復号器に信号送信するか否かを決定する。

フィルタ決定ユニット44は、デフォルトフィルタ32、34、36で補間された参照フレーム、および代替フィルタ38、40、42で補間された参照フレームを使用して、受信された現行フレーム30の符号化の合計ビットオーバーヘッド（またはコスト）を比較する。一実施形態において、フィルタ決定ユニット44は、ピクセル位置を復元するためにスケーリングファクタ（図示されない）を使用し、デフォルトフィルタまたは代替フィルタのいずれかの使用に対応する絶対誤差を決定する。別の実施形態において、フィルタ決定ユニット44は、各ピクセルに対する絶対誤差値を比較し、利用可能なフィルタから選択し、ビット誤差レートおよび歪みを最小化する決定ベクトルを作り出す。

フィルタ決定ユニット44は、また、動きベクトル（または、動きベクトルデータ）48を受信する。一実施形態において、フィルタ決定ユニットは、参照フレーム記憶装置25に記憶されるべき最後の（または復元された）参照フレーム45、46、47を作成するために、現行フレーム30、動きベクトル48、補間参照フレーム（デフォルトフィルタ32、34、36で補間された参照フレームおよび代替フィルタ38、40、42で補間された参照フレームなど）を受信する。結果として、フィルタ決定ユニット44は、補間参照フレーム45、46、および47を提供する。ここで、フルピクセルまたはサブピクセルの各々は、デフォルトフィルタまたは代替フィルタのいずれかを使用して補間される。別の実施形態において、フィルタ決定ユニット44は、決定アレイ（図示されない）を参照フレーム記憶装置25に出力する。決定アレイ（図示されない）は、復元された参照フレーム45、46、47を示す決定値を提供する。一実施形態において、決定アレイ（図示されない）によって提供される決定値は、例えば、［a（1）、b（0）、c（1）、d（0）…］である。ここで、サブピクセル位置はアルファベットによって識別され、フィルタ選択決定は、ビデオ符号器20に利用可能なデフォルトフィルタを使用するか、代替フィルタを使用するかに従って2値（0または1）形式で識別される。別の実施形態において、決定アレイによって提供される決定値は、例えば、［a（1）、b（0）、c（1）、d（0）…］である。ここで、サブピクセル位置はアルファベットによって識別され、フィルタ選択決定は、サブピクセル位置ごとに使用されるべき実際のフィルタタイプを識別するために使用される数字を使用して識別される。一実施形態において、複数のデフォルト補間フィルタおよび複数の適応補間フィルタは、各サブピクセル位置を符号化するために最も効率的なフィルタを決定するために互いに比較される。別の実施形態において、複数の適応補間フィルタは、各サブピクセル位置に対して符号化する間に、適用されるべき最も効率的な適応フィルタを決定するために、互いに比較される。

図4は、図3に示されるシステムを使用してフィルタの最良の組み合わせを決定するための例示的なプロセス50を描写する。プロセスはブロック51で開始し、ビデオ符号器20が、参照フレームから現行フレームへのフレームの動きベクトルを計算する。参照フレームは、イントラフレームまたは予測フレームである。現行フレーム30は、双方向予測フレームである。一実施形態において、現行フレームは以前のイントラフレームを参照し、ブロックマッチングを使用した制限された探索が、以前の変位を示す動きベクトルを計算するために適用される。別の実施形態において、現行フレームは、将来の予測フレームを参照し、ブロックマッチングを使用した制限された探索が、予測変位を示す動きベクトルを計算するために適用される。動きベクトルデータが計算された後、それは、図3に記述されるように、フィルタ決定ユニット44に送信される。

プロセス50は、次に、ブロック52に移動し、代替フィルタの係数を計算する。一実施形態において、適応補間フィルタが選択され、係数（典型的に、係数ベクトルとオフセットベクトルを備える2つのベクトル）が送信される。例えば、6つの係数を備える係数ベクトルは、［1、0、1、0、1、1、］であり、対応オフセットベクトルは［-1、0、2、1、3、0］である。1つのオフセット値は、各サブピクセル位置に対して送信され、さらに、1つのオフセットがフルピクセル位置に対して送信される。従って、一方はフィルタ選択用であり、もう一方（同一の長さを有する）はオフセット用である2つのベクトルが存在する。別の実施形態において、各フレームに対する係数を適応的に決定することの代わりに、事前に計算された固定フィルタのセットが使用される。

次に、プロセス50はブロック53に移動し、代替フィルタを使用して参照フレームが生成される。一実施形態において、強化された適応補間フィルタを使用して参照フレームが生成され、参照フレーム記憶装置25に記憶される。参照フレームは、適応補間フィルタ、強化された適応補間フィルタ、または非デフォルトフィルタの組み合わせを使用して補間される。

次に、プロセス50はブロック54に移動し、利用可能なフィルタの全ての組み合わせを用いて、各ブロックに対する誤差を計算する。一実施形態において、現行フレーム30は、代替補間フィルタを使用して補間参照フレームと比較され、レートおよび歪み誤差が決定される。別の実施形態において、現行フレーム30は、デフォルトH.264フィルタを使用して補間参照フレームと比較され、レートおよび歪み誤差が決定される。

次に、プロセス50はブロック55に移動し、フィルタ係数の符号化のコストを決定する。一実施形態において、図3のフィルタ決定ユニット44は、デフォルト補間フィルタを使用した場合と代替補間フィルタを使用した場合の、各サブピクセル位置に対するフィルタ係数の符号化コストを決定する。ここで、コストはビットオーバーヘッドにおいて決定される。

いくつかの位置が対称であると考えられる場合、単一のフィルタが2つ以上のサブピクセル位置から決定および選択されることができる。例えば、サブピクセル位置「a」および「c」は、他方の鏡像であるフィルタを使用することができるであろう。

次に、プロセス50はブロック56に移動し、フィルタの最良の組み合わせを決定する。一実施形態において、最後のフレームのフルピクセル位置およびサブピクセル位置の各々について、デフォルトフィルタを使用するか代替フィルタを使用するかに関する決定が、比較した場合に、より低い誤差およびより低い歪みレートを有するフィルタに基づいて行われる。

各ピクセルに対する歪みレートを決定するために使用される数学的計算が以下に記述される。

―デフォルト補間フィルタに基づく動き補償予測誤差の誤差絶対値和が計算される；

―代替補間フィルタに基づく動き補償予測誤差が計算される；

−フィルタ係数を符号化するために必要なサイド情報のコスト（ビットで）が
計算され、スケーリングファクタ

によって乗算され、

に加算される。

最後に、

および

が比較され、小さい方の値が、代替補間フィルタが使用されるべきかデフォルト補間フィルタが使用されるべきかを決定するために使用される。

一実施形態において、フィルタ選択が既定および事前に計算されたフィルタを使用する場合、符号器は、フィルタ選択に関係のある情報のみを受信する。例えば、最適コストへの局所最小近似であるコストを見つける反復方法を使用する場合は、コスト（ビットで）などのサイド情報が送信される必要はない。

図5は、補間のための分数のピクセル位置を示すビデオフレームのブロック図である。また、図5は、ビデオフレーム内の分数のピクセル（または、サブピクセル）位置のセットを示す。図5において、「a」〜「o」とラベル付けされた、全部で15個のサブピクセル位置が存在する。さらに、このブロック図は対称データ（symmetry data）を提供するために使用され、計算オーバーヘッドを削減することにつながる。例えば、1/2ピクセル位置「a」61および「c」63は対称的であり、補間処理に必要とされる計算オーバーヘッドを削減する。さらに別の例において、サブピクセル位置「C3」65はサブピクセル「C4」69と対称的であり、補間処理の間の計算オーバーヘッドを削減することに帰着する。

単純化された発見的方法は、2つの参照ブロックの位置が同一のフィルタを使用する場合に、誤差寄与のみを考慮する。これは、位置が同一である場合、またはそれらが同一の対称クラス（例えば、図5のe、g、mおよびo）に属する場合に生じる。

このアプローチの場合、ベクトル

における誤差を累算することが可能であり、問題は以下のように示される：

決定の独立性のため、解法は各

を別々に最小化することによって見つけられる。

図6は、動き推定を示すブロック図である。一般的に、動き推定は、参照フレームとべて、現行フレームの各マクロブロックに対して動きベクトルを決定するために使用される。動きベクトルを計算するプロセスは、現行フレームのマクロブロックと参照フレームからのピクセルブロックとの間で、最良のマッチを決定する探索アルゴリズムを実行することを備える。探索アルゴリズムは、一般に、当技術分野で周知の誤差絶対値和（Sum of Absolute Difference：SAD）計算を使用して実行される。特に、動き推定は、現行フレームの各マクロブロックと、以前のフレームのその周りのエリアとを比較し、最小SADによって示されるマッチを見つけようと試みる。

さらに、図6は、一連のビデオフレーム間の関係を示す。図6は、参照フレームとしてイントラフレーム（または、Iフレーム）60を描写し、現行フレームとして予測フレーム（またはPフレーム）62を描写する。予測フレーム（Pフレーム）62は第1のマクロブロック66を定義し、イントラフレーム60（または、参照フレーム）内の第2のマクロブロック64を定義することによって動き推定を実行する。第1のマクロブロック66および第2のマクロブロック64内のピクセルが比較され、誤差絶対値和（SAD）が計算され、結果として、動きベクトル68が決定される。

図7は、イントラフレーム、予測フレーム、および双方向予測フレームを含むビデオフレームを示すブロック図である。示されるように、イントラフレーム70は、それ自体を除き、他のフレームを参照しない。一実施形態において、イントラフレームは、一連のフレームにおいて受信される第1のフレームである。一般的に、イントラフレームは、任意の以前のフレームを参照せず、将来のフレームを参照する性能を有さない。一方で、予測フレームは、以前のイントラフレームまたは将来の予測フレームを参照する。図に示されるように、第1の予測フレーム76はイントラフレーム70を参照し、第1のBフレーム72または第2のBフレーム74を参照しない。Bフレームは、典型的に、過去および未来の両方において、イントラフレームまたは予測フレームのいずれかを参照する。図7に示されるように、第1のBフレーム72は、最良の動きベクトルを決定するために、第1のイントラフレーム70および第1の予測フレーム76の両方を参照する。図7に示されるように、第2のBフレーム74は、第1のイントラフレーム70および第1の予測フレーム76の両方を参照する。

図8は、2つの動きベクトルを備える双方向予測スライスを備えるビデオフレームを示すブロック図である。一実施形態において、16×16のサイズを有する第1の双方向予測マクロブロック814を定義する第1の双方向予測フレーム72は、16×16のサイズを有する第2のイントラフレームマクロブロック806を定義するイントラフレーム70（以前のフレーム）、および16×16のサイズを有する第3の予測マクロブロック810を定義する第1の予測フレーム76（将来のフレーム）を参照する。別の実施形態において、参照フレームは、また、2つの双方向予測フレーム、2つの予測フレーム、または予測フレームと双方向予測フレームとの組み合わせである。第1の双方向予測フレーム72は、図8に示されるように、2つの動きベクトル（第1の動きベクトル820および第2の予測動きベクトル822）を計算および識別する。イントラフレーム70は、第1の双方向予測フレーム72に関して、最小の誤差絶対値和を有する第1のイントラピクセル808を識別する。図8に示されるように、第1の予測フレーム76は、第1の予測フレーム72に関して、最小の誤差絶対値和を有する第1の予測ピクセル812を識別する。

第1のイントラピクセル808および第1の予測ピクセル812を識別すると、以下に示されるように行列が構成される；ここで、「a」は第1のイントラピクセル808を表し、「b」は第1の予測ピクセル812を表す。

行列Cは、予測の間に累算された誤差を含み、「a」および「b」はサブピクセル位置である。そのため、図8において、第1のイントラ動きベクトル820は、サブピクセル位置「a」を指し、第2の予測動きベクトル822はサブピクセル位置「b」を指す。行列C＝［0、0、a、b］の場合、符号器は、デフォルトフィルタを、第1のイントラピクセル808および第1の予測ピクセル812の両方に適用することによって（選択0）計算された予測誤差を加算するであろう。行列C＝［1、0、a、b］の場合、符号器は、第1のイントラピクセル808を適応フィルタで、第1の予測ピクセル812をデフォルトフィルタで補間することによって（選択1 0）獲得された予測誤差を加算することによって更新されるであろう。行列C＝［0、1、a、b］の場合、符号器は、第1のイントラピクセル808をデフォルトフィルタで、第1の予測ピクセル812を適応フィルタで補間することによって（選択0 1）獲得された予測誤差を加算するであろう。最後に、行列C＝［1、1、a、b］の場合、符号器は、両方のピクセルを適応フィルタで補間することによって（選択1 1）獲得された予測誤差で更新されるであろう。

フルピクセル位置およびサブピクセル位置の各々について、決定ベクトル

が計算される。ここで

および

である。

各サブピクセル位置に対するフィルタフラッグ「1」または「0」は、サブピクセル位置に対してデフォルトフィルタが使用されるか代替フィルタが使用されるかを示すために送信される一意的なフィルタ係数セットを表す。フィルタフラッグが「1」に設定されると、このサブピクセル位置に対する代替フィルタ係数が予測され、量子化され、符号化され、対応するサブピクセル位置に適用される。フィルタフラッグが「0」に設定されると、デフォルト補間フィルタが、このサブピクセル位置およびその対称的なサブピクセル位置を補間するために使用される。

発見的解法においては、対称クラスを使用して、イントラピクセル808および予測ピクセル812の両方が同一のサブピクセル位置を指している場合に、誤差が累算される。例えば、行列は以下のように簡単化される：

双予測ブロック（bi-predicted block）において、予測に使用される2つの参照ブロックに対するフルピクセル位置およびサブピクセル位置は異なり、そのため、SAD誤差が、位置の各組み合わせに対して集められる必要がある。これは全てのブロックを通して繰り返すことが可能であり、単一の経路において、オリジナルピクセルと補間ピクセルとの間の誤差絶対値を4次行列に累算することができる。ここで、

は、フィルタ決定が

である場合に、位置

のために累算された誤差絶対値和を表す。

符号化されている各ブロックについて、位置iおよびjは、第2のイントラフレームマクロブロック806（A）および第3の予測マクロブロック810（B）を指す。次に、ブロック814の各ピクセルについて、デフォルトフィルタで補間されたピクセルpixStdXおよび代替フィルタで補間されたピクセルpixAifXを使用することによって、4つの予測が計算される：

復元されたピクセルは、最後に以下のように計算され：

それは、デフォルト補間フィルタまたは代替補間フィルタの使用に対応する誤差絶対値を決定するために使用される。誤差は、以下の行列で累算されるであろう：

スケーリングファクタ（b-スケーリング）は、0.5であるか、または、現行フレームおよび参照フレームのシーケンスに従って計算されるかのいずれかである。この第2の方法は、時間的により近い参照フレームから発生した予測の寄与をさらに重み付けするために使用される。

2つの参照ブロックの1つが無い場合、誤差寄与は、2つの位置の1つに対してのみ累算される。さらに、C[0][1]およびC[1][0]への誤差寄与は、

の場合および位置が両方の参照ブロックに対して同一の場合は累算されない。

使用された代替フィルタの各々について、フィルタ係数は、明示的に信号送信され、そのため、各位置

（フルピクセルであれサブピクセルであれ）は、重み係数がレート歪みパフォーマンスへのビットの寄与を反映する形で、関連加重コスト

を有する。フィルタが予め決定され、または事前に計算され、さらに符号器に利用可能である場合、コスト（ビットで）などの情報は送信される必要はない。

この形式論の場合、アプリケーションは、以下を最小化する2値決定ベクトル

を見つけることから構成される：

行列

およびベクトル

を仮定すると、2ⁿ決定ベクトル各々に対応する誤差を徹底的に計算し、最小値を選択することが可能である。

最適なストラテジに密接に近い反復方法は、可能な解法（任意の有効な決定ベクトル）から開始すること、および代替フィルタが最も誤差を減少させる位置を見つけることを含む。この位置は、次に、新しいフィルタ選択の値で更新され、プロセスは、改善ができなくなるまで、改善がわずか（既定の閾値よりも低い）になるまで、または反復の最大数に達するまで繰り返される。3つの停止基準は共に組み合わされる。

方法の擬似コード記述は以下の通りである：

この方法は、多くの場合、8回から10回の繰り返しで、局所極小に収束することができる。nが位置の数であり、kが各位置に対して利用可能な選択（フィルタ）の数である場合、各反復は

の可能性（n個の位置の各々の残りのk-1個のフィルタ）を有する。反復の最大数を多くてもc回に限定すると、この方法は位置およびフィルタの数において線形である計算的複雑性を有するであろう。

一様でない量子化を使用する方法（すなわち、量子化精度）は係数位置に依存する。より小さい大きさを有する係数（これらは、フィルタの中心からより離れた係数である）について、より大きい大きさを有する係数（これらは、フィルタの中心により近い係数である）と比較して、より良い精度が必要とされることが分かった。

行列

は、整数ピクセルフィルタの係数の量子化精度を特定するために使用される。行列内のビットの数は正負符号のための1ビットを含み、そのため、例えば、中心の係数は、9ビット（1ビットが正負符号に使用され、8ビットが誤差の大きさに使用される）で量子化されるであろう。

がPフレームに対して最良の量子化を提供し、Bフレームは、

によって記述されるより細かい量子化を使用することによって、よりうまく符号化されることが経験に基づいて判明した。

図9は、図3に示されるシステムを使用したフィルタ選択決定に基づいて最後の参照フレームを作成するためのプロセス92を記述するフロー図である。プロセスは、参照フレームのセットおよび現行フレームを識別することによってブロック93で開始する。例えば、参照フレームのセットは参照フレーム記憶装置25に記憶され、現行フレームは、ビデオ符号器26の動き補償ユニット27に送信される。一実施形態において、参照フレームのセットは、イントラフレームおよび予測フレームを備える。

次に、プロセス92はプロセス94に移動し、デフォルト補間フレームを作成するために、デフォルトフィルタを使用して参照フレームのセットを補間する。以前に識別された参照フレーム記憶装置25内の参照フレームのセットは、デフォルトフィルタを使用して補間され、記憶して後で検索するために参照フレーム記憶装置25に送信される。デフォルトフィルタは、標準団体によって標準的（normative）であると宣言されたビデオ符号器20内に存在する任意のデフォルトフィルタ（すなわち、H.264フィルタ）である。一実施形態において、参照フレームのセットは、デフォルトH.264フィルタを使用して補間され、ビデオ符号器26内の参照フレーム記憶装置25に記憶される。

プロセス92は、次に、ブロック95に移動し、代替補間フレームを作成するために、代替フィルタを使用して参照フレームのセットを補間する。参照フレーム記憶装置25中の以前に識別された参照フレームのセットは、代替フィルタを使用して補間され、記憶して後で検索するために参照フレーム記憶装置25に送信される。代替フィルタは動き補償ユニット27に存在し、または、符号器内の別のコンポーネントに存在しうる。代替フィルタは、ビデオ符号器26に常駐する任意の適応フィルタ（すなわち、2Dの適応補間フィルタ、E-AIFなど）である。換言すると、代替フィルタは、デフォルトフィルタとしてラベル付けされていないビデオ符号器20において利用可能な任意のフィルタである。一実施形態において、参照フレームのセットは改善された適応補間フィルタを使用して補間され、ビデオ符号器26内の参照フレーム記憶装置25に記憶される。

プロセス92は次にブロック96に移動し、各サブピクセル位置に対して、デフォルトフィルタを使用する補間参照フレームが代替フィルタを使用する補間参照フレームよりも低い合計誤差を有するか否かを比較する；ここで、より低い合計誤差は誤差レートおよび歪みの最も低い組み合わせに基づく。サブピクセル位置は、1/2ピクセル、1/4ピクセル、1/8ピクセル、または1よりも小さい任意の分数である。一実施形態において、サブピクセル位置は、両方の補間参照フレームを比較した後に、代替フィルタを使用するよりもデフォルトフィルタを使用した合計誤差がより低いと決定される。

プロセス92は次にプロセス97に移動し、代替フィルタは、それがより低い合計誤差値を有する場合に選択される。一実施形態において、最後のフレームで生成されるべきサブピクセル位置の各々について、代替フィルタ（例えば、適応補間フィルタ）がより低い誤差レートおよび歪みレートを有すると決定される場合に、代替フィルタが選択される。

そうでない場合、プロセス92は、デフォルトフィルタが、代替フィルタがより低い合計誤差の値を有さない場合に選択されるブロック98に移動する。一実施形態において、最後のフレームで生成されるべきサブピクセル位置の各々について、デフォルトフィルタがより低い誤差および歪みレートを有すると決定される場合に、デフォルトフィルタが選択される。

プロセス92は次にブロック99に移動し、サブピクセル位置の各々に対して、デフォルトフィルタまたは代替フィルタのいずれかの最良の組み合わせが、最後の参照フレームを生成するために選択される。一実施形態において、最後の参照フレームは、サブピクセル位置の各々に対してデフォルトフィルタのみを使用して生成される。別の実施形態において、最後の参照フレームは、より低い合計誤差レートを有すると決定された代替フィルタを使用して生成される。別の実施形態において、最後の参照フレームは、サブピクセル位置につき、より低い合計誤差レートを有すると決定された代替フィルタおよびデフォルトフィルタの組み合わせを使用して生成される。

とりわけ、「できる」、「できるであろう」、「しうる」、「可能である」などの条件付き言語は、そうでないと特に記述されない限り、または使用されるコンテキストにおいてそうでないと理解されない限り、一般的に、ある実施形態はある特徴、エレメントおよび／またはステップを含み、別の実施形態はそれらを含まないことを伝えることを意図される。このように、そのような条件付き言語は、一般的に、特徴、エレメントおよび／またはステップが任意の方法において1つ以上の実施形態に要求されること、または、1つ以上の実施形態が、これらの特徴、エレメントおよび／またはステップが特定の実施形態において含まれるべきか、あるいは実行されるべきかを、ユーザー入力またはプロンプティングの有無にかかわらず決定するための論理を必ず含むことを暗に意味するように意図されない。

本明細書に記述された、および／または、添付の図において描写されたフロー図における任意のプロセス記述、エレメント、またはブロックは、モジュール、セグメント、または、プロセスにおいて特定の論理的機能またはステップを実施するための1つ以上の実行可能な命令を含むコードの一部を潜在的に表すことを理解されるべきである。代替の実施は、当業者によって理解されるように、エレメントまたは機能が削除され、含まれる機能性に依存して、提示または議論されたものとは異なる順序（実質的に同時または逆の順序を含む）で実行されることができ、それらは本明細書に記述される実施形態の範囲内に含まれる。

本明細書に記述された技術は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの組み合わせにおいて実施される。ソフトウェアで実施された場合、その技術はコンピュータ読み取り可能媒体上の1つ以上の記憶または送信される命令またはコードによって少なくとも部分的に認識される。コンピュータ読み取り可能媒体は、コンピュータ記憶媒体、通信媒体、またはその両方、および、ある箇所から別の箇所へのコンピュータプログラム移送を容易にする任意の媒体を含む。記憶媒体はコンピュータによりアクセスされることができる任意の利用可能な媒体である。

それに制限されない例として、そのようなコンピュータ読み取り可能媒体は同期動的ランダムアクセスメモリ（SDRAM）などのRAM、読み取り専用メモリ（ROM）、不揮発性ランダムアクセスメモリ（NVRAM）、ROM、電気的消去可能PROM（EEPROM）、EEPROM、FLASHメモリ、CD-ROMまたは他の光学ディスク記憶装置、磁気ディスク記憶装置または他の磁気記憶デバイス、もしくはコンピュータによってアクセスされることができ、命令やデータ構造形で所望のプログラムコードを伝達または記憶するために使われうる任意の別媒体を備えることができる。

また、任意の接続は適切にコンピュータ読み取り可能媒体と呼ばれる。例えば、同軸ケーブル、光ファイバーケーブル、撚線対、デジタル加入者回線（DSL）、または赤外線、無線、マイクロ波などの無線テクノロジーを使用してウェブサイト、サーバ、または他のリモートソースからソフトウェアが送信されると、同軸ケーブル、光ファイバーケーブル、撚線対、DSL、または赤外線、無線、マイクロ無線などの無線テクノロジーは媒体の定義に含まれる。ディスク（disk）とディスク（disc）は、本明細書で使用されているように、コンパクトディスク（CD）、レーザディスク、光ディスク、デジタルビデオディスク（DVD）、フロッピー（登録商標）ディスク、ブルーレイ（登録商標）ディスクを含む。ディスク（disk）は通常磁気作用によってデータを再生し、ディスク（disc）はレーザーで光学的にデータを再生する。上記の組み合わせもコンピュータ読み取り可能媒体の範囲内に含まれるべきである。

コンピュータプログラム製品のコンピュータ読み取り可能媒体に関連付けられたコードは、1つ以上のデジタル信号プロセッサ（DSP）、汎用マイクロプロセッサ、特定用途向けIC（ASIC）、フィールドプログラマブル論理アレイ（FPGA）、または一体化された別の等化物またはディスクリート論理回などのコンピュータ（例えば、1つ以上のプロセッサ）によって実行される。いくつかの態様において、本明細書に記述された機能は、符号化および復号するため、あるいは複合型ビデオ符号器復号器（CODEC）に組み込まれるように構成された専用ソフトウェアモジュールまたはハードウェアモジュール中で提供される。

様々な態様が記述された。これらの、および別の態様は以下の請求項の範囲内である。

Claims

デジタルビデオを符号化する方法であって：
参照フレームおよび現行フレームを識別することと；
デフォルト補間フレームを作成するために、デフォルトフィルタを使用して前記参照フレームを補間することと；
代替補間フレームを作成するために、代替フィルタを使用して前記参照フレームを補間することと；
最後の参照フレームを生成するために、より低い合計誤差に基づいて、前記デフォルトフィルタを使用するか前記代替フィルタを使用するかを、サブピクセル位置の各々について決定することと；
を備える方法。
前記参照フレームは予測フレームである、請求項1の方法。
前記参照フレームは双方向予測フレームである、請求項1の方法。
前記デフォルトフィルタはH.264フィルタである、請求項1の方法。
前記代替フィルタは適応補間フィルタである、請求項1の方法。
前記より低い合計誤差は、誤差レートと歪みとの最も低い組み合わせに基づく、請求項1の方法。
デフォルト補間フレームを作成するためにデフォルトフィルタを使用して第1の参照フレームを補間し、代替補間フレームを作成するために代替フィルタを使用して第2の参照フレームを補間するように構成された動き補償ユニットと；
前記デフォルト補間フレームおよび前記代替補間フレームを記憶するように構成された参照フレーム記憶装置と；
現行フレーム、前記デフォルト補間フレーム、および前記代替補間フレームを受信し、最後のフレームにおいて、デフォルトフィルタを使用するか代替フィルタを使用するかを、フルピクセル位置およびサブピクセル位置の各々に対して決定し、前記最後のフレームを生成するように構成されたフィルタ決定ユニットと；
を備えるビデオ符号化デバイス。
前記補間参照フレームはH.264フィルタを使用して生成される、請求項7のビデオ符号化デバイス。
前記最後の参照フレームは、低い誤差レートおよび低い歪みレートを有すると決定されたフィルタの組み合わせを使用して作成される、請求項7のビデオ符号化デバイス。
前記ピクセル位置は、1/2ピクセル、1/4ピクセル、または1/8ピクセルである、請求項7のビデオ符号化デバイス。
前記デフォルトフィルタはH.264フィルタである、請求項7のビデオ符号化デバイス。
前記代替フィルタは適応補間フィルタである、請求項7のビデオ符号化デバイス。
現行フレームを受信するための手段と；
複数の補間参照フレームを参照フレーム記憶装置に記憶するための手段と；
前記複数の補間参照フレームを前記参照フレーム記憶装置から受信するための手段と；
最後のフレームを作り出すための手段と；
デフォルトフィルタを使用するか代替フィルタを使用するかを、前記最後のフレームにおいて、フルピクセル位置およびサブピクセル位置の各々に対して決定するための手段と；
を備えるビデオ符号化デバイス。
前記複数の補間参照フレームはH.264フィルタを使用して生成される、請求項13のビデオ符号化デバイス。
前記最後の参照フレームは、低い誤差レートおよび低い歪みレートを有すると決定されたフィルタの組み合わせを使用して作成される、請求項13のビデオ符号化デバイス。
前記サブピクセル位置は、1/2ピクセル、1/4ピクセル、または1/8ピクセルである、請求項13のビデオ符号化デバイス。
前記デフォルトフィルタはH.264フィルタである、請求項13のビデオ符号化デバイス。
前記代替フィルタは適応補間フィルタである、請求項13のビデオ符号化デバイス。
命令を備えるコンピュータ読み取り可能媒体であって、前記命令はプロセッサに：
参照フレームおよび現行フレームを識別させ；
デフォルト補間フレームを作成するためにデフォルトフィルタを使用して前記参照フレームを補間させ；
代替補間フレームを作成するために、代替フィルタを使用して前記参照フレームを補間させ；
最後の参照フレームを生成するために、より低い合計誤差に基づいて、前記デフォルトフィルタを使用するか前記代替フィルタを使用するかを、サブピクセル位置の各々に対して決定させる；
コンピュータ読み取り可能媒体。
前記参照フレームはイントラフレームである、請求項19の方法。
前記参照フレームは予測フレームである、請求項19の方法。
前記デフォルトフィルタはH.264デフォルトフィルタである、請求項19の方法。
前記代替フィルタは適応補間フィルタである、請求項19の方法。
前記より低い合計誤差は、誤差レートおよび歪みの最も低い組み合わせに基づく、請求項19の方法。
デフォルト補間フレームを作成するためにデフォルトフィルタを使用して第1の参照フレームを補間し、代替補間フレームを作成するために代替フィルタを使用して第2の参照フレームを補間するように構成された動き補償ユニットと；
現行フレーム、前記デフォルト補間フレーム、および前記代替補間フレームを受信するように構成されたフィルタ決定ユニットと；
を備え、
前記フィルタ決定ユニットは、最後のフレームにおいてデフォルトフィルタを使用するか代替フィルタを使用するかを、フルピクセル位置およびサブピクセル位置の各々に対して決定し、前記最後のフレームを生成するようにさらに構成される；
ビデオ符号化デバイス。
前記代替フィルタは複数の事前に計算されたフィルタの1つである、請求項25のビデオ符号化デバイス。
現行フレームを受信するための手段と；
複数の補間参照フレームを受信するための手段と；
最後のフレームを作り出すための手段と；
デフォルトフィルタを使用するか代替フィルタを使用するかを、前記最後のフレームにおいてフルピクセル位置およびサブピクセル位置の各々について決定するための手段と；
を備えるビデオ符号化デバイス。
前記代替フィルタは複数の事前に計算された補間フィルタの1つである、請求項27のビデオ符号化デバイス。