JP5303470B2

JP5303470B2 - 歪みの推定

Info

Publication number: JP5303470B2
Application number: JP2009541295A
Authority: JP
Inventors: ホアヤン; マクドナルドボイスジル; シャオホイウェイ
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2006-12-15
Filing date: 2007-06-27
Publication date: 2013-10-02
Anticipated expiration: 2027-06-27
Also published as: EP2105029A2; BRPI0719564A2; CN101595736A; WO2008076148A2; CN101595736B; US8731070B2; US20100278275A1; WO2008076148A3; JP2010514263A

Description

本発明は、歪みの推定に関する。

良好なビデオストリーミング性能を達成するために、対処される１つの問題は、典型的に、ネットワーク送信が不完全であることに起因するパケットロスの影響をどのように緩和するかということである。この問題に対して、利用されてきた典型的で有効なフレームワークとしては、エンドツーエンド歪み（ＥＤ：ｅｎｄ−ｔｏ−ｅｎｄｄｉｓｔｏｒｔｉｏｎ）ベースのレート歪み（ＲＤ：ｒａｔｅ−ｄｉｓｔｏｒｔｉｏｎ）の最適化（ＥＤ−ＲＤＯ）があげられる。ビデオの符号化に関するエラー回復力を改善するために、様々なＥＤ−ＲＤＯベースの技術が提案されてきた。ビデオ転送モジュールでは、ＥＤ−ＲＤＯを適用して、パケット配信ポリシーの選択を最適化してきた。良好なＥＤ−ＲＤＤ性能を達成するためには、どのようにＥＤを正確に推定するかということが１つの問題である。

典型的なＥＤ推定スキーマは、サブフレームレベルで動作し、過去の全フレームから現在のフレームまでのエラー伝播を考慮することによって、現在のフレームのＥＤを推定している。エラーは、例えば、先行フレームを基準フレームとして使用して現在のフレームが圧縮されるインターフレーム（ｉｎｔｅｒ−ｆｒａｍｅ）の符号化が原因で伝播する。したがって、基準フレーム内にエラーが存在する場合、現在のフレームもエラーを反映することになる。フレームレベルで動作する他のＥＤ推定スキーマは、現在のフレームのエラーに起因する後のフレームにおけるエラーを考慮することによって、現在のフレームのＥＤを推定する。

一般的な態様にしたがって歪みの値を判断する。その値は、一連のピクチャ内の特定ピクチャの少なくとも一部分に関連付けられる。その値は特定ピクチャ内の歪みに基づいており、この歪みはその一連のピクチャ内の特定ピクチャまたは先行ピクチャ内のエラーに起因する。また、その値は、一連のピクチャ内の後続ピクチャ内の歪みに基づいており、その歪みはピクチャ内の後続ピクチャ内の歪みは特定ピクチャまたは先行ピクチャ内のエラーに起因している。

１つまたは複数の実施形態の詳細が、添付の図面および以下の詳細な説明に説明されている。ある特定の手法について説明される場合であっても、実施形態を、種々の手法で構成し、具体化することができるは明らかであろう。例えば、実施形態は、方法として実行することができ、あるいは一組の動作を実行するように構成された装置、または一組の動作を実行するための命令を格納した装置として具現化することができる。他の態様および特徴は、添付の図面および特許請求の範囲とともに、以下に示す本発明の詳細な説明から明らかになるであろう。

歪みの推定を含むシステムの実施形態を示すブロック図である。先行フレーム内のエラーを考慮する歪み推定技術の実施形態を示すブロック図である。後続フレーム内のエラーを考慮する歪み推定技術の実施形態を示す図である。先行フレームと後続フレームのエラーを考慮する歪み推定技術の実施形態を示す図である。図４と関連付けられた実施形態に使用される重みの判断を示す図である。歪みを推定するためのプロセスの実施形態を示すフロー図である。歪みを推定するための別のプロセスの実施形態を示すフロー図である。図１のエンコーダの実施形態を示すブロック図である。

本開示において説明される少なくとも１つの実施形態は、計算量（ｃｏｍｐｌｅｘｉｔｙ）がスケーラブルなエラー回復ビデオ符号化のための新規なハイブリッドエンドツーエンド歪み（ＥＤ：ｅｎｄ−ｔｏ−ｅｎｄｄｉｓｔｏｒｔｉｏｎ）推定スキーマを提示する。本願発明者は、典型的なシステムは、ＥＤを推定するアプローチにおいて制限されており、「ルック・バック・オンリー（ｌｏｏｋ−ｂａｃｋ−ｏｎｌｙ）」または「ルック・アヘッド・オンリー（ｌｏｏｋ−ａｈｅａｄ−ｏｎｌｙ）」のいずれかとして特徴付けられることが可能であることを認識している。そのようなルック・バック・オンリーおよびルック・アヘッド・オンリーＥＤ推定システムでは、典型的に、算出計算量が多くなるか、または推定精度が低くなる。このようなシステムとは異なり、提案する解決方法は、「ルック・バック」推定および「ルック・アヘッド」推定の両方を含む一般的なハイブリッドパラダイムである。「ルック・バック」推定においては、前に符号化された特定の数のフレームからのエラー伝播（ＥＰ：ｅｒｒｏｒｐｒｏｐａｇａｔｉｏｎ）歪みは、ピクセルレベルで正確に計算される。この部分的なルック・バックにより、所望の推定精度が得られる。「ルック・バック」が無視されたフレームのロスの影響は、算出計算量が極めて少ない「ルック・アヘッド」フレームレベルのＥＰ近似を使用することによって、補償される。「ルック・バック」フレームの数を変更することによって、算出計算量よび推定精度を異なるレベルとすることができる。提案するスキーマは、計算量のスケーラビリティを提供することによって、実用的なビデオストリーミングシステムにおいてより適切なものとなり得る。

良好なビデオストリーミング性能を達成するために、ネットワーク送信が不完全であることに起因するパケットロスの影響を緩和することは、一般的に、重要な課題である。この問題に対して、一般的で有効なフレームワークは、ＥＤベースのＲＤ最適化（ＥＤ−ＲＤＯ：ＥＤｂａｓｅｄＲＤｏｐｔｉｍｉｚａｔｉｏｎ）であり、該ＥＤ−ＲＤＯは、ビデオストリーミングシステム全体のエラー回復（ｅｒｒｏｒｒｅｓｉｌｉｅｎｃｅ）を改善するために、ビデオエンコーダモジュールおよびビデオ転送モジュールに適用されている。ビデオ符号化のエラー回復を改善するために、予測基準、モーションベクトル（ＭＶ：ｍｏｔｉｏｎｖｅｃｔｏｒ）、定量化パラメータ（ＱＰ：ｑｕａｎｔｉｚａｔｉｏｎｐａｒａｍｅｔｅｒ）、マクロブロック（ＭＢ：ｍａｃｒｏｂｌｏｃｋ）符号化モードなど、様々なＥＤ−ＲＤＯベースの技術が提案して、様々な符号化決定を最適化している。ビデオ転送モジュールでは、ＥＤ−ＲＤＯは、パケット配信ポリシーの選択を最適化するのに広く適用されてきた。ＥＤ−ＲＤＯは併せて、ソース符号化とチャネル符号化の間のビット割当てを最適化するのにも使用されることがある。良好なＥＤ−ＲＤＤ性能を達成するために、重要な課題は、含まれるＥＤを正確に推定することであり、これは大抵の場合、非常に大変な作業である。

本開示における少なくとも１つの実施形態は、ＥＤ−ＲＤＯベースのエラー回復ビデオ符号化のシナリオに焦点を当てる。本実施形態は、ＨＥＥＤ（ＥＤのハイブリッド推定：ｈｙｂｒｉｄｅｓｔｉｍａｔｉｏｎｏｆＥＤ）と呼ばれる、計算量がスケーラブルなＥＤ推定の解決法を提示し、該ＨＥＥＤは、ピクセルレベルの「ルック・バック」推定とフレームレベルの「ルック・アヘッド」推定の両方を含む。一般に既存のＥＤ推定スキーマよりも柔軟性がある本実施形態は、推定精度と計算量とのトレードオフを提供する。「ルック・バック」フレームの数を変更することによって、異なるレベルの算出計算量および推定精度を達成することができ、これにより、ＨＥＥＤは、典型的な実用的ビデオストリーミングシステムにおいてより適切なものとなる。

図１を参照すると、実施形態を説明するためのフレームワークを提供するシステム１００が示されている。システム１００は、エンコーダ１１０、トランスミッタ／ストレージユニット１２０、ネットワーク１３０、およびデコーダ１４０を含む。エンコーダ１１０は、例えば、ビデオデータ、オーディオデータ、マルチモデルデータ、または歪みを推定するための他のデータなどの、入力データを受信する。エンコーダ１１０は、ＨＥＥＤの実施形態にしたがって入力データを符号化し、符号化されたデータをトランスミッタ／ストレージユニット１２０に提供する。

トランスミッタ／ストレージユニット１２０は、符号化されたデータを送信または格納する１つまたは複数の処理を実行する。符号化されたデータが送信される場合、その送信には、例えば、インターネット、（例えば、地上放送または衛星放送の）フリースペース、またはプライベートネットワークを含む、ネットワーク１３０が使用される。明らかに、例えば、単一のデバイス内にある専用送信路など、他の実施形態も想定される。

デコーダ１４０は、例えば、ネットワーク１３０から送信されたデータを受信すること、または（破線で示されるように）トランスミッタ／ストレージユニット１２０から記憶データを取り出すことによって、符号化されたデータにアクセスする。「アクセスする」という用語は広義の用語として使用されおり、例えば、様々な手法において、取得すること（ｏｂｔａｉｎｉｎｇ）、取り出すこと（ｒｅｔｒｉｅｖｉｎｇ）、受信すること（ｒｅｃｅｉｖｉｎｇ）、操作すること（ｍａｎｉｐｕｌａｔｉｎｇ）、または処理すること（ｐｒｏｃｅｓｓｉｎｇ）を含む。デコーダ１４０は、アクセスされたデータを復号化し、復号化されたデータを出力データとして提供する。

既存のＥＤ推定方法は、おおまかには、ピクセルベースのアプローチ、ブロックベースのアプローチ、またはフレームベースのアプローチに分類することができる。この分類によって示されるように、これらの相違点は、主に処理の細かさに関連している。

正確なＥＤ推定を、ピクセルベースのＲＯＰＥ方法によって達成することができ、該ピクセルベースのＲＯＰＥ方法は、元々、整数ピクセル（ｉｎｔｅｇｅｒ−ｐｉｘｅｌ）予測について提案されたものであり、後に、サブピクセル予測も網羅するように進歩したものである。しかしながら、推定精度が高いことに加えて、ＲＯＰＥは、典型的に、デコーダが各ピクセルを再構成する第１および第２の時間について、浮動小数点の再帰的計算を必要し、これにより、非常に大量の算出計算量が発生することになる。従って、ＲＯＰＥは通常、実用的なリアルタイムビデオストリーミングシステムでは望ましくない。

別のピクセルベースのアプローチは、ＪＭ（ＪＶＴＪｏｉｎｔＭｏｄｅｌ）Ｈ．２６４／ＡＶＣ基準のエンコーダで実装され、このアプローチでは、１ピクセルあたりの歪みは、復号化するプロシージャの完全なシミュレーションと、多数の（例えば、３０の）パケットロスパターンを平均化することとによって計算される。しかしながら、その計算量はＲＯＰＥ方法よりもはるかに多くなる。

計算量を少なくするには、最も可能性の高い２つのロスイベント（すなわち、最後の２つフレームの各々のロス）のみを考慮する、単純化なピクセルベースの歪み推定（ＳＰＤＥ：ｓｉｍｐｌｉｆｉｅｄｐｉｘｅｌ−ｂａｓｅｄｄｉｓｔｏｒｔｉｏｎｅｓｔｉｍａｔｉｏｎ）アプローチを使用することができる。しかしながら、発生し得る他のロスイベントを全て無視することは、典型的に、推定の性能を著しく低下させる。

代替的に、ブロックベースのアプローチは、フレーム毎にブロックレベルの歪みマップを生成して、再帰的に更新するため、ピクセルベースのＲＯＰＥ推定の推定計算量は、およそブロックサイズ（例えば、４×４のブロックに対しては１６）だけ減少する。しかしながら、フレーム間の置換はサブブロックのモーションベクトルを必要とするので、モーションが補償されたブロックは、前のフレーム内の複数ブロックから伝播されたエラーを継承することがある。したがって、ブロックベースの技術は多少大雑把な近似となることがあり（例えば、伝播されたブロック歪みまたはモーションベクトル近似の加重平均）、推定精度をかなり低下させることがある。

フレームレベルのＥＤ推定では、全フレームのＥＤが再帰的に計算される。この場合、典型的に、イントラ符号化されたＭＢ、サブピクセル予測、非ブロック化フィルタリングなどの複雑な問題の全てを、異なる個々のファクタでフレーム毎にそれぞれモデル化することができる。したがって、推定全体は、典型的に、無視できるほどの計算量しか必要としない。しかしながら、実際には、フレームレベルの推定は一般に、フレームレベルのＥＤ−ＲＤＯの問題にのみ適用可能であり、ＥＤ−ＲＤＯのモーション推定（ＭＥ：ｍｏｔｉｏｎｅｓｔｉｍａｔｉｏｎ）およびモード選択（ＭＳ：ｍｏｄｅｓｅｌｅｃｔｉｏｎ）などの関連するＭＢレベルＥＤ−ＲＤＯのシナリオに対しては、ピクセルベースまたはブロックベースのＥＤ推定のいずれかが必要とされる。

上述のＥＤ推定スキーマは、典型的に「ルック・バック・オンリー」アプローチであることに留意されたい。このアプローチでは、現在のフレーム（ｃｕｒｒｅｎｔｆｒａｍｅ）のＥＤは、通常は図２に図示されるように、過去のフレームからのエラー伝搬を考慮することによって計算される。

図２を参照すると、ダイアグラム２００は、ＧＯＰスタート２１０と、ＧＯＰエンド２１５と、垂直な破線２２５で示されているフレームｉ２２０とを有する複数のフレームのグループ（ＧＯＰ）を示している。示されたＧＯＰは、フレームｉ２２０の前（フレームｉ２２０の左側）に発生するように示されているフレーム０，１，２，および３を含む。ダイアグラム２００は、フレームｉ２２０およびＧＯＰの残りのフレームに与えるフレーム０，１，２，３の各々のロス（ｌｏｓｓ）の影響を、別々に図示している。フレームｉ２２０に対する影響は、例えば、フレーム間の符号化を使用したことにより生じる。

フレーム０のロスは「０＿ｌｏｓｓ」２３０で示されており、その後にフレームｉ２２０の破線２２５まで実線２３２が続いている。実線２３２は、典型的なルック・バックスキーマが、フレームｉ２２０と関連付けられた歪みを推定するときに、フレーム０のロスの影響を考慮していることを示す。実線２３２は、フレームｉ２２０の後は、ＧＯＰエンド２１５まで伸びる破線２３４に続く。破線２３４は、フレーム０のロスの影響が、（場合によって）ＧＯＰ内の後続フレーム（ｓｕｂｓｅｑｕｅｎｔｆｒａｍｅｓ）全てに対して影響を与え続けることはあるが、この影響は、フレームｉ２２０に関連付けられた歪みを推定するときに考慮されないことを示している。これら「将来（ｆｕｔｕｒｅ）」の影響は、ＧＯＰ内の将来のフレームの歪みを推定するときに考慮される。破線２３４は、Ｄ’_{0_loss}で示される符号２３６に続き、Ｄ’_{0_loss}は、フレームｉ２２０の後続のフレームを含めＧＯＰ全体に対するフレーム０のロスの影響を示している。

同様の分析がフレーム１，２，および３のロスについて当てはまる。これらの各々を以下で説明する。

フレーム１のロスは、「１＿ｌｏｓｓ」２４０で示されており、フレーム０のロスよりも後の時点（フレーム０の右側で）発生している。１＿ｌｏｓｓ２４０の後に、フレームｉ２２０の破線２２５までの実線２４２が続いている。実線２４２は、典型的なルック・バックスキーマが、フレームｉ２２０に関連付けられた歪みを推定するときにフレーム１のロスの影響を考慮していることを示す。実線２４２は、フレームｉ２２０の後は、ＧＯＰエンド２１５まで伸びる破線２４４に続く。破線２４４は、フレーム１のロスの影響が（場合によって）ＧＯＰ内の後続フレームの全てに影響を与え続けることはあるが、この影響は、フレームｉ２２０に関連付けられた歪みを推定するときに考慮されないことを示している。これら「将来」の影響は、ＧＯＰ内の将来のフレームについて歪みを推定するときに考慮される。破線２４４は、Ｄ’_{1_loss}で示される符号２３６に続き、Ｄ’_{1_loss}は、フレームｉ２２０の後続フレームを含めＧＯＰ全体に対するフレーム１のロスの影響を示す。

フレーム２のロスは、フレーム１のロスより後に発生する「２＿ｌｏｓｓ」２５０で示されている。２＿ｌｏｓｓ２５０の後に、フレームｉ２２０の破線２２５までの実線２５２が続く。実線２５２は、典型的なルック・バックスキーマが、フレームｉ２２０に関連付けられた歪みを推定するときにフレーム２のロスの影響を考慮していることを示す。実線２５２は、フレームｉ２２０の後、ＧＯＰエンド２１５まで伸びる破線２５４に続く。破線２５４は、フレーム２のロスの影響が、（場合によって）ＧＯＰ内の後続フレームの全てに影響を与え続けることはあるが、この影響は、フレームｉ２２０に関連付けられた歪みを推定するときに考慮されないことを示す。これらの「将来」の影響は、ＧＯＰ内の将来のフレームについて歪みを推定するときに考慮される。単純にするために、対応する符号Ｄは、ＧＯＰ全体に対するフレーム２のロスの影響について示していない。

フレーム３のロスは、フレーム２のロスより後の時点に発生する「３＿ｌｏｓｓ」２６０で示されている。３＿ｌｏｓｓ２６０の後に、フレームｉ２２０の破線２２５までの実線２６２が続く。実線２６２は、典型的なルック・バックスキーマが、フレームｉ２２０と関連付けられた歪みを推定するときに、フレーム３のロスの影響を考慮していることを示す。実線２６２は、フレームｉ２２０の後は、ＧＯＰエンド２１５まで伸びる破線２６４に続く。破線２６４は、フレーム３のロスの影響が、（場合によって）ＧＯＰ内の後続フレームの全てに影響を与え続けることはあるが、この影響は、フレームｉ２２０と関連付けられた歪みを推定するときには考慮されないことを示す。これらの「将来」の影響は、ＧＯＰ内の将来のフレームについて歪みを推定するときに考慮される。単純にするために、対応する符号Ｄは、ＧＯＰ全体に対するフレーム３のロスの影響については示されていない。

フレームｉ２２０のロスが、ＧＯＰにおけるフレームｉ２２０および全ての後続フレームに対して影響を及ぼすことも、予想されるであろう。分析される特定のルック・バックスキーマは、フレームｉ２２０と関連付けられた歪みを推定する際に、現在のフレーム（フレームｉ２２０）のロスの影響は考慮するが、後続フレームのロスの影響は考慮しない。（既に使用された実線および破線と区別するために点で示される）線２８０は、フレームｉ２２０についての歪み推定は、前および現在の（後ではない）ロスイベントからフレームｉ２２０に与える影響のみを考慮する。しかしながら、ＧＯＰ内の後続フレームに与える影響は、フレームｉ２２０からＧＯＰエンド２１５まで伸びる破線２７４で示されている。符号Ｄ’_{i_loss}２７６は、残りのＧＯＰに対するフレームｉ２２０のロスによる累積された影響を示す。

分析される典型的なルック・バックスキーマでは、前および現在のロスイベントの影響は、連続したフレームのそれぞれについて考慮される。従って、ＧＯＰ内の各フレームを考慮した後に、各ロスイベントの完全な影響が考慮されることになり、推定された歪みの全ての合計が、符号２３６などの（ＧＯＰ内の全てのｊに対する）すべてのＤ’_{j_loss}の合計に等しいであろう。

少ない計算量の知覚的な（ｐｅｒｃｅｐｕｔｕａｌ）ＥＤメトリック、ならびに対応するＥＤ−ＲＤＯＭＥおよびＭＳによって、パケットロスの場合における知覚的なビデオの品質の全体が改善される。少ない計算量のＥＤメトリックは、ヒト視覚システム（ＨｕｍａｎＶｉｓｕａｌＳｙｓｔｅｍ）の何らかのプリファレンス／特性を構成し、したがって、「知覚的」と呼ばれることがある。このようなメトリックは、ＭＳＥ（平均二乗誤差）歪みを計算する典型的なＥＤメトリックとは異なるであろう。このような知覚的メトリックの１つは、（“Concealment-aware motion estimation and mode selection for error resilient video coding、”Proc.ICIP 2006,Atlanta、October 2006に説明されている）「ルック・アヘッド・オンリー」ＥＤ推定スキーマであり、この「ルック・アヘッド・オンリー」ＥＤ推定スキーマでは、（以下で説明する）図３に示されるように、発生したエラーの、同じＧＯＰの全後続フレーム内での伝搬は、現在のフレームのＥＤ計算で説明される。しかしながら、完全に無視された先行フレームからのエラー伝搬では、過去のエラー伝搬を停止する際のイントラ符号化の利点も無視される。ヒューリスティックなスキーマを使用して、イントラ符号化の利点を無視することによる影響を補償することができるが、全体としては、この課題は、典型的に、「ルック・アヘッド・オンリー」アプローチの推定精度および得られるＥＤ−ＲＤＯ性能を低下させる。

図３を参照すると、ダイアグラム３００は、ＧＯＰエンド３１５と、垂直の破線３２５で示されるフレームｉ３２０とを有するフレームのグループ（ＧＯＰ）を図示している。また、図示されたＧＯＰは、フレームｉ３２０の後に生じるフレームｉ＋１３３０を含む。ダイアグラム３００は、ＧＯＰの残りのフレームに対する、前のエラーの全てとフレームｉ３２０のロスとの両方による影響を示している。この影響はフレームｉ＋１３３０で始まり、（場合によって）ＧＯＰ内の全ての後続フレームに続く。この影響は、フレームｉ＋１３３０からＧＯＰエンド３１５まで伸びている線３４０によって、示されている。（既に使用された実線および破線とそれを区別するために点線として示された）線３８０は、フレームｉ３２０に対する歪み推定は、ＧＯＰ内の後のフレームに対する影響のみが考慮されることを示す。

さらに、典型的なルック・アヘッドスキーマは、ブルートフォース完全計算（ｂｒｕｔｅ−ｆｏｒｃｅｃｏｍｐｌｅｔｅｃａｌｃｕｌａｔｉｏｎ）を利用して、歪みを推定する。本発明者は、近似による利点を認識し、少なくとも１つの実施形態において近似を提供する。

本開示における少なくとも１つの実施形態においては、ＥＤ−ＲＤＯベースのエラー回復ビデオ符号化のシナリオに焦点を当てる。既存の研究の多くは、第１のフレームのみをＩ−フレームとして符号化し、残りの全てのフレームは、Ｐ−フレームとして符号化されることを想定している。対照的に、本実施形態では、各ＧＯＰの第１のフレームをＩ−フレームとして符号化する、ＧＯＰベースのビデオ符号化フレームワークを想定する。エラーの回復の改善の他に、このＧＯＰ構造は、例えば高速早送り、高速巻き戻し、または高速チャネル変更などの多くの有用な機能を可能することも助け、実用的なビデオストリーミングシステムにおいて一般に利用される。

提案するＨＥＥＤアプローチのきっかけを提供するために、Ｅ｛Ｄ_GoP｝によって示されるＧＯＰ全体のＥＤ推定から始める。一次歪み推定（ＦＯＤＥ：ｆｉｒｓｔｏｒｄｅｒｄｉｓｔｏｒｔｉｏｎｅｓｔｉｍａｔｅ）と呼ばれるスキーマは、一次のテイラー展開を用いてＥ｛Ｄ_GoP｝を近似する。実際には、エラー回復ビデオ符号化によって対処されるパケットロスのレートｐは、大きくなく、例えば、ｐ＜１０％である。それを超えると、効率的にｐ自体を低減させるために、ＦＥＣまたは他の技術を使用しなければならない。小さいｐの場合、ＦＯＤＥモデルは典型的にかなり正確である。ＭＳＥＥ｛Ｄ_GoP｝は以下の通り推定される。

ここで、ＮはＧＯＰのサイズであり、Ｄ_{no_loss}はパケットロスが全くないＧＯＰ歪み、すなわち、ソース符号化歪みのみを示している。本開示の全体を通じて、単純にするために、１つのフレームのデータは１つのパケットにパケット化されると仮定する。γ_iはフレームｉの一次テイラー展開の係数であり、以下のように表すことができる。

ＦＯＤＥは、本来、符号化されたビデオの最適化の問題に対処するために提案されたが、Ｅ｛Ｄ_GoP｝の単純な線形表現は、符号化プロセスにおいて関連するＭＢレベルの最適化のタスクに対しても同様に有用な洞察を与えることが分かっている。この場合、特定のフレームを符号化することとなると、それらがどのようにＥ｛Ｄ_GoP｝に影響するかということに関して、それらのそれぞれの重要性を各ＭＢについて特定する必要がある。このため、既存のＥＤ推定アプローチの全てではないが、そのほとんどは、「ルック・バック・オンリー」方法であり、この「ルック・バック・オンリー」方法では、現在のフレームについて、自身のＥＣ歪み以外に、図２に示されるように、ＧＯＰ内の前のフレームの各々１つに対するそれぞれのロスに起因する過去のＥＰ歪みの全てが、基本的には推定される。最適ＲＯＰＥアプローチは、過去の個々のフレームのロスイベントの全てからのＥＰ歪みを正確に示すが、計算量を減少させるために、ＳＰＤＥアプローチは最後の２つのフレームのうち各々１つのロスからのＥＰ歪みのみを考慮する。我々は、フレームの最適符号化の決定に適用されるときに、この「ルック・バック・オンリー」パラダイムが、最適なＲＯＰＥ推定の場合のように各フレームが過去のＥＰ歪みを正確に推定することができるという条件下において、良好なフレーム間に相乗効果をもたらすことを向上させる。この場合においては、現在のフレームの符号化決定を最適化するとき、発生する将来のＥＰ歪みを気にする必要は全くないので、後に続くフレームの最適化に際して、それは正確に考慮されるだろう。しかしながら、ＳＰＤＥの場合においては、各フレームは、最後の２つのフレームからの限られたＥＰ効果を考慮するにすぎず、これは、後に続く２つのフレームを過ぎると、現在のフレームからのＥＰ歪みは、残りのフレームを最適化する際には完全に無視されることになるということを意味する。この場合、「ルック・バック・オンリー」パラダイムは、信頼され得ないので、良好なフレーム間に相乗効果をそれ以上与えることができない。他方、図３に示された「ルック・アヘッド・オンリー」アプローチは、有用であるものの、後に続くフレーム内のＥＰ歪みのみを考慮している。したがって、過去のＥＰを停止することに対するイントラ符号化の利点はあまり明らかではなく、全体的なＥＤ−ＲＤＯ性能を低下させる。

上記分析およびＦＯＤＥ歪みモデルから動機付けの観点において、我々は、ＨＥＥＤとして設計した新規なハイブリッドの少ない計算量ＥＤ推定アプローチを提案する。ＳＰＤＥアプローチと同様に、ＨＥＥＤは、各ピクセルに対して、ある特定の数の過去の符号化されたフレームからの正確な過去のＥＰ歪みも考慮する。しかしながら、ＨＥＥＤにおいて他のフレームロスイベントの全ての影響を完全に無視する代わりに、ＧＯＰ内の現在のフレームから残りの全フレームに至るまでのＥＰ歪みを明確に明らかにするために、フレームレベルのＥＰ因数近似を導入する。これにより、図４に示すように、ピクセルレベルの「ルック・バック」推定およびフレームレベルの「ルック・アヘッド」推定の両方を含むハイブリッドパラダイムが得られる。

図４を参照すると、ダイアグラム４００は、ＧＯＰエンド４１０を有するフレームのグループ（ＧＯＰ）であって、ＧＯＰ内にフレームｉ−２４１５、フレームｉ−１４２０、フレームｉ４２５、およびフレームｉ＋１４３０を含む一連のフレームを含む、ＧＯＰを表している。これら４つのフレーム４１５−４３０はそれぞれ、垂直な破線４３５、４４０、４４５、および４５０で示されている。

フレームｉ４２５が考慮中である。すなわち、フレームｉ４２５に対して歪みが推定されている。この実施形態における歪みの推定は、歪みの３つ異なる原因を考慮する。第１に、フレームｉ４２５（およびＧＯＰ内の後続フレーム）に対するフレームｉ−２４１５のロスの影響が考慮される。第２に、フレームｉ４２５（およびＧＯＰ内の後続フレーム）に対するフレームｉ−１４２０のロスの影響が考慮される。第３に、フレームｉ＋１４３０（およびＧＯＰ内の後続フレーム）に対するフレームｉ＋１４３０のロスの影響が考慮される。

歪みの第１の原因に関して、実線４６０は、フレームｉ４２５までのフレームｉ−２４１５のロスからの歪みの伝播を表している。さらに、（不確かな範囲を示すために中間は破線で示されている）実線４６２は、ＧＯＰエンド４１０までのその歪みの継続的な伝播を示している。以下でより十分に説明するように、ｗ_2、i-2は、フレームｉ４２５および後続フレームにおけるフレームｉ−２４１５のロスからの歪みに割り当てられた、重み係数である。この重みを使用して、フレームｉ４２５における歪みを重み付けし、フレームｉ４２５の後の歪みの継続的な伝播に重み付けする。

歪みの第２の原因に関して、実線４７０は、フレームｉ４２５までのフレームｉ−２４１５のロスからの歪みの伝播を表している。さらに、（不確かな範囲を示すために中間は破線で示されている）実線４７２は、ＧＯＰエンド４１０までのその歪みの継続的な伝播を表している。以下でより十分に説明するように、いくつかの重み係数を示す。「１−ｗ_0、i-1」を使用して、フレームｉ４２５におけるフレームｉ−１４２０のロスからの歪みに重み付けする。「ｗ_1、i-1」は、フレームｉ＋１４３０におけるフレームｉ−１４２０のロスにからの歪みに対して割り当てられた重み係数であり、フレームｉ＋１４３０における歪みに重み付けをすること、ならびにフレームｉ＋１４３０の後の歪みの継続的な伝播に重み付けすることに使用される。

歪みの第３の原因に関して、（不確かな範囲を示すために中間は破線で示されている）実線４８２は、フレームｉ＋１４３０のロスからの歪み、およびＧＯＰエンド４１０までのその歪みの伝播を示す。以下でより十分に説明するように、いくつかの重み係数を示す。「１」は、フレームｉ＋１４３０におけるフレームｉ＋１４３０のロスからの歪みに割り当てられる。「ｗ_0、i+1」は、フレームｉ＋１４３０のロスからの歪みに割り当てられた重み係数であり、この重みは、ＧＯＰ内のフレームｉ＋１４３０の後の全ての後続フレームにおける歪みに重み付けすることに使用される。ゼロは、フレームｉ４２５において考慮から除外された歪みの項に対するダイアグラム４００の重みとして示されていることに留意されたい。

本実施形態において、歪みの第３の原因は、フレームｉ＋１４３０のエラー隠蔽（ｅｒｒｏｒｃｏｎｃｅａｌｍｅｎｔ）におけるフレームｉ４２５の使用から生じることに留意されたい。特に、この実施形態は、モーションコピーを使用するエラー隠蔽アルゴリズムが、フレームｉ＋１４３０のロスを隠蔽するのに使用されることを想定している。したがって、フレームｉ４２５の符号化の結果（すなわち、モーションベクトルおよび再構成）は、フレームｉ＋１４３０のロスのＥＰブランチ（ｂｒａｎｃｈ）に影響することになる。したがって、フレームｉのＥＤ推定を計算するとき、フレームｉ＋１のロスのＥＰブランチを考慮する。しかしながら、実施形態は他の形態のエラー隠蔽を使用してもよく、歪みのこの第３の原因は、異なる隠蔽アルゴリズムを説明するために単に調整される。例えば、フレームコピーなどの別のＥＣを想定する場合、フレームｉ＋１のロスのＥＰブランチの代わりに、フレームｉのＥＤ計算において、フレームｉのロスのＥＰブランチを考慮してもよい。

前述したように、図４の実施形態では、２つの「ルック・バック」フレームを想定している。その導出は、全ての他の数の「ルック・バック」フレームに適合するように、容易に一般化することが可能であり、したがって、計算量はスケーラブルである。ｗ_0、iは、フレームｉのロスの右側のフレームｉロスＥＰブランチを考慮するための重み係数を表しており、ｗ_1、iおよびｗ_2、iはそれぞれ、フレームｉのロスの後の１つのフレームまたは２つのフレームにおけるフレームｉロスＥＰブランチを考慮するための重み係数を表している。この実施形態における同じｉの３つの重み係数は、１になるまで合計され、各特定フレームのロスの完全なＥＰブランチが、ＧＯＰ内の全フレームのＥＤ推定において同等に正確に一度にカウントされる。その場合、全フレームにわたって推定されたＥＤを合計することによって、ＧＯＰ全体のＥＤについて正確な推定を得ることになる（明らかに、全ＧＯＰについてのＥＤの合計が明らかに対象ではない場合、実施形態は合計して１になる重みを有する必要はない）。これは図５に図示されている。

図５を参照すると、図６００は、フレームｉ＋１のロスのＥＰブランチが、フレームｉ、フレームｉ＋２、およびフレームｉ＋３のＥＤ推定に含まれていることを示しており、図６００では、対応する全ての重みは図４の説明に従う。実際には、説明図６００は、単に説明された制約を反映しており、特定フレームそれぞれのロスの完全なＥＰブランチは、ＧＯＰ内の全フレームのＥＤ推定において同等に正確に一度にカウントされる。

図５の３つの１は、フレームｉ＋１のロスのＥＰブランチにおける各フレームの歪みの項に対して、合計された重みは常に１であることを示している。これは、ＧＯＰ内の全フレームのＥＤ計算を考慮する際に、フレームｉ＋１のロスＥＰブランチが全体的に同等に一度に考慮されることを意味する。これはまさに、我々がこのモデルに対して求める特性である。数式１は全ＧＯＰに対するＥＤを表し、数式２は各ＥＰブランチに関するＥＤの寄与を表していることを思い出して頂きたい。ｐを除いて、数式１におけるγ_i（すなわち、フレームｉのロスのＥＰブランチ）の重みは常に１である。ｐに関しては、それはモデルにおいて常に明確に現れ、いわゆる重みからは既に分離されている。

図５を再び参照すると、重み係数ｗ_0、i+1は、フレームｉのＥＤ計算において最初に現れ、フレームｉ＋１のロスのＥＰブランチを明らかにする。そして、重み係数「（ｌ−ｗ_0,i+1）」は、フレームｉ＋２のＥＤ計算に現れ、フレームｉ＋１のロスの同じＥＰブランチを明らかにする。フレームｉ＋１のロスのＥＰブランチにおけるフレームｉ＋２の歪みの項は、２度考慮される、すなわち、最初にフレームｉのＥＤ計算において考慮され、次にフレームｉ＋２のＥＤ計算において考慮されることがわかる。全ＧＯＰのＥＤ計算の観点から、フレームｉ＋１のロスの同一ＥＰブランチ内の全フレームの歪みの項は、望ましくは、一度だけ考慮されるべきである（すなわち、合計の重みが１であるべきである）。フレームｉ＋１のロスのＥＰブランチ内のフレームｉ＋２の歪みの項は、フレームｉのＥＤ計算ではｗ_0、i+1で最初に重み付けされ、フレームｉ＋２のＥＤ計算では１−ｗ_0、i+1で重み付けされる。したがって、その合計された全ての重みは１である。これはモデルに対して必要な設計制約である。

他の（異なる）の設計制約が他の実施形態によって使用される。例えば、重みは合計した数が１以外となるように想定されてもよい。さらに、諸実施形態において、重み係数の使用は必ずしも必要ではない。

次に、各特定のフレームにおけるＨＥＥＤＥＤ推定を行う方法を説明する。本明細書において、単純にするために、デコーダにおけるモーションコピーのエラー隠蔽を想定しており、この場合、フレームがロスすると、先行フレーム内に配置されたＭＢからのモーションベクトル（ＭＶ：ｍｏｔｉｏｎ−ｖｅｃｔｏｒｓ）は、公知であるように、モーションの補償を介して現在のフレームを隠すのに使用される。したがって、現在のフレームＭＢのＭＶまたは符号化モードは、次のフレームに配置されたＭＢのＥＣ歪みにも影響を与えるであろう。提案されるＨＥＥＤアプローチ自体は、ＥＣスキーマに対する特定の制限はない。

フレームｉ内にピクセルｋを含むＭＢが、インター符号化されると想定すると、ＨＥＥＤ方法はピクセルのＥＤを以下のように推定する。

（４）の３つの右手側の項は、図４で考慮された３つのＥＰブランチにそれぞれ対応し、この３つの項を以下の数式５−７で表すことができる。数式５−７は、先の説明、特に図４および５の説明に従う。

ここで、

であり、

数式５−７における「アルファ」の項は「ルック・アヘッド」の部分を表している。数式５−７の「ルック・アヘッド」の態様について以下にさらに述べる。

数式５は、現在のフレームｉの歪みの計算において、フレームｉ−２のロスのＥＰブランチの影響を考慮しており、現在のフレームｉからＧＯＰエンドまでのフレームの歪みの項を含む。後続フレームの歪みの項の考慮は、いわゆる「ルック・アヘッド」の態様を表している。

数式５と同様に、数式６は現在のフレームｉの歪み計算において、フレームｉ−１のロスのＥＰブランチの影響を考慮しており、現在のフレームｉからＧＯＰエンドまでのフレームの歪みの項を含む。後続フレームの歪みの項の関係もまた「ルック・アヘッド」の態様を表している。

数式７は、現在のフレームｉの歪み計算におけるフレームｉ＋１のロスのＥＰブランチの影響を考慮しており、次のフレームｉ＋１からＧＯＰエンドまでのフレームの歪みの項を含む。また、後続フレームの歪みの項の関係もまた「ルック・アヘッド」の態様を表している。

様々な実施形態において、デコーダによって再構成された所与のフレーム（ｉ）の値は、先行フーム（ｉ−１）に基づいている。一実施形態において、先行フレーム（ｉ−１）がロスされた場合には、デコーダは、エラー隠蔽アルゴリズムを使用して既に先行フレームを再構成している。現在のフレームを再構成するために、デコーダは次いで現在のフレームのモーションベクトルを先行フレームの再構成に適用する。同一の実施形態において、ｉ−２フレームがロスされた場合、デコーダはｉ−２フレームを既に再構成し、再構成されたｉ−２フレームに基づいて先行フレーム（ｉ−１）を既に再構成している。このようにして、デコーダは、現在のフレームのモーションベクトルを、再構成されたｉ−１フレームに適用する。

ここで、αはフレームのＥＰ係数を表している。計算量の少なさのために、１つの単一の係数でフレームのＥＤ効果をモデル化することは、既存のフレームレベルＥＤ推定スキーマにおいては一般的に実際に適用されていることであり、この場合、係数αの全体が、例えばイントラＭＢ、サブピクセル予測、イントラ予測、およびデブロッキングフィルタリングなどを明らかにする、様々な係数を含むことがある。一例として、単純なスキーマは、α＝１−βに設定され、ここでβはフレームのイントラＭＢの割合である。

ＨＥＥＤにおいて、重要な課題はしばしば、重み係数ｗ₀、ｗ₁、およびｗ₂を決定する方法である。第１に、実際の複雑なＥＰ処理をモデル化するために単一のＥＰ係数αを使用することは、正確でないことがあることに留意されたい。したがって、典型的には、重みを３つの係数に均等に割り当てることが望ましい。その場合、全モデル化エラーを、３つのアイテムにわたって平均することを介して減少させる。第２に、ＨＥＥＤ推定を、関連するＥＤ−ＲＤＯＭＥおよびＭＳの課題に適用する。デコーダで想定されたモーションコピーＥＣを用いて、先行フレームが配置されたＭＢがイントラＭＢである場合、Ｓｋｉｐ−ＭＢと同じものとして取り扱わることになり、隣接するＭＶからの中央ＭＶが隠蔽のために使用されることになる。この場合、現在のフレームＭＢのイントラ符号化は既存のＥＰを過去のＥＰから有効に停止させるが、それは、インター−モード符号化よりも、次のフレームＥＣ歪みをさら招き、したがって、後続フレームのＥＰ歪みをさらに招くことがあるが、これは、インターモードはより柔軟性が高いので、良好なＭＶを見つけ、次のフレームのＥＣ歪みを低下させるからである。したがって、ｗ₀とｗ₁＋ｗ₂との間の比は、重大なイントラ／インターモード選択と、ＥＤ−ＲＤＯ性能全体に直接影響するだろう。経験から、効果的な方法は、ＧＯＰ内の最初のフレームのｗ₀に対してより大きい重みを与え、最後のフレームに対してより小さい重みを与えることである。他の効果的な重み付けの方法も可能であることに留意されたい。最後に、我々が採用した重み係数設定は以下の通りである。

歪みを推定する、特定の実施形態について説明してきたが、ここで図６を参照すると、ブロックの歪みを推定する一般的な方法７００が示されている。本開示において既に説明された特定の実施形態、および説明される他の特定の実施形態は、一般的な方法７００の実施形態を提供する。方法７００は、デジタルイメージの現在ブロックの歪み測定を推定するステップ（７１０）を含む。推定（７１０）は、少なくとも２つの入力７２０および７３０に基づいている。入力７２０は、先行ブロックのエラーに起因する現在ブロックの歪みである。入力７３０は、先行ブロックのエラーに起因する現在ブロックの歪みである。したがって、推定（７１０）は、現在ブロックに対するものであり、先行ブロックのエラーに基づいている。さらに、推定（７１０）は、（１）現在ブロックに対する先行ブロックのエラーの影響を判断するための、先行ブロックエラーに対するルック・バックに基づいており、（２）後続ブロックに対する先行ブロックのエラーの影響に対する、ルック・アヘッドに基づいている。

モーション推定について：

モード選択について：

ここで、ｍｖ＊およびｍｏｄｅ＊はそれぞれ、フレームｎ内のブロック／ＭＢｉに対する、選択された最良モーションベクトルおよび符号化モードを表している。（ここで、ｉはブロックインデックスを表し、ｎはフレームインデックスを表す。）Ｒ_mvおよびＲ（ｍｏｄｅ）は、対応する符号化のレートを表している。例えば、Ｒ_mvは、モーションベクトルのみを符号化するのに必要とされるビットを示し、Ｒ（ｍｏｄｅ）はマクロブロック全体を符号化するのに使用される全体のビットを示す。λ_MVおよびλ_MODEは、関連するラグランジュ乗数（Ｌａｇｒａｎｇｉａｎｍｕｌｔｉｐｌｉｅｒｓ）である。Ｄ_DFD、iは、置換されたフレーム差（ＤＦＤ：ｄｉｓｐｌａｃｅｄｆｒａｍｅｄｉｆｆｅｒｅｎｃｅ）を示している。推定されたＤ_EP、iがＭＳＥ歪みであるので、Ｄ_DFD、iは以下に示されるようにＭＳＥの形態を有する。

一実施形態において、数式１２および１３は、数式１４および１５を使用して計算される。数式１４は、数式３−９、および数式９に関して説明した近似的な推定を使用して同様に計算される。

示したように、各マクロブロックの符号化モードについて、（必要ならば）最良モーションベクトルが式１２に応じて選択される。その後に、全ての符号化モードについて、最良モードが式１３に応じて選択される。

さらなる見識を与えるために、我々は、提案する一般的ハイブリッドパラダイムに存在するピクセルベースの「ルック・バック・オンリー」アプローチと「ルック・アヘッド・オンリー」アプローチとを比較することは、単に、過去の符号化されたフレームの全てに及ぶかまたはそれら個々には全く及ばない「ルック・バック」フレームにおける、その２つの特別な場合であることを理解している。明らかに、ハイブリッドパラダイムは、「ルック・バック」推定において異なる数の過去のフレームを含むことを介して、算出計算量と推定精度との間のトレードオフを制御する方法を提供し、したがって、そのハイブリッドパラダイムは、一般に、互いに全く異なる計算量の制約を有することがある実用的なビデオストリーミングシステムにより適切に利用される。２つの「ルック・バック」フレームの場合の上記歪みのすべてを、あらゆる数の「ルック・バック」フレームを蓄積するのに容易に一般化することができる。

最後に重要なこととして、（３）は統計的なＥＤの推定を与え、（３）において、ＥＰ歪みの重みがパケットロスレートｐであることを強調する。パケットロスの場合、より効果的に知覚ビデオ品質を測定するためには、より大きい重みを、ｐよりもＥＰ歪みに課すべきである。ＨＥＥＤ推定はＦＯＤＥ近似に基づいているので、ＥＤに対して単一フレームのロスイベントからの影響だけが考慮され、これは、計算量が少ない知覚的ＥＤメトリックと同一である。したがって、（３）のパケットロスレートｐを、すべての適切な知覚的重みに容易に置き換えて、提案するＨＥＥＤメトリックを一般化し、知覚的ロスビデオ品質とより密接して相関させることができる。「ルック・アヘッド・オンリー」知覚的歪みメトリックよりも、提案されたＨＥＥＤメトリックの方が、「ルック・バック」推定と「ルック・アヘッド」推定の両方を含むより良好なハイブリッド解決方法である。したがって、それは過去のフレームからＥＰをより正確に明らかにし、その結果、より良好なイントラ／インターモード選択の性能が得られる。

広範囲のシミュレーション結果は、ＨＥＥＤが、ＧＯＰ‐レベルＥＤに対する高い推定精度を実現することを示している。さらに、ＥＤ−ＲＤＯＭＥとＭＳにおいて利用されると、ＨＥＥＤは、他の既存の計算量の少ない解決方法よりも極めて優れている。

本開示で説明された少なくとも１つの実施形態は、マクロブロック（または他のユニット）について予想された歪みが、異なる符号化方法で計算または推定されることがあることを認識することによって、少なくとも部分的に動機づけられる。予想された歪みは、符号化方法のレートとともに、レート歪み式に使用されて、その符号化方法のコストが計算され、種々の異なる符号化方法のコストが、マクロブロックに使用するための符号化方法を選択するために使用され得る。

マクロブロックについて言及したが、ＥＤは様々なレベルの評価で推定され得る。異なるレベルの評価の例には、全体としてのフレーム、個々のブロック、個々のピクセル、またはサブピクセルレベルが含まれる。

ＥＤ推定は、ＧＯＰ内の個々のフレームの各々に対するＥＤの合計として考慮され得る。各フレームに対して、ＥＤ推定が様々な方法で計算され得る。

フレームのＥＤ推定の第１の例において、各フレームのＥＤ推定は、先行フレームについて、すべての可能性のあるロスイベントを考慮する。従って、ＥＤ推定は次の２つの原因、すなわち、（ｉ）現在のフレーム自身をロスする可能性と、（ii）任意の先行フレームのロスが現在のフレームの予想された歪みに対して与える影響と、に基づいている。第２の係数は、モーション補償を使用して現在のフレームを符号化する場合、先行フレームのロスが現在のフレームの復号化に影響を与え得るという事実に基づいている。また、この２つの原因は、現在のフレームがロスされた場合、先行フレームが、現在のフレームの復号化の誤り隠蔽プロセスの一部として使用され得るという事実を示す。これはルック・バック実装である。

フレームのＥＤ推定の第２の例では、フレームに対するＥＤ推定は、（ｉ）次のフレームをロスする可能性と、（ii）全ての後のフレームの予想された歪みに対するロス（次のフレームをロスする）等の影響とを考慮している。第２の原因は、モーション補償を使用して後のフレームを符号化する場合、次のフレームのロスは後のフレームの復号化に影響を与え得るという事実に基づいている。これはルック・アヘッド実装である。

フレームのＥＤ推定の第３の例では、フレームに対するＥＤ推定は、３つの原因を考慮する。すなわち、（ｉ）次のフレームをロスする可能性と、（ii）限られた数の先行フレームのみをロスする可能性と、（iii）次のフレームと限られた数の先行フレーム（ロスイベント）のロスが、全ての後続フレームに与える影響とである。この第３の例は、上の数式によって説明された実施形態を概ね特徴付ける。

図７を参照すると、フレームを符号化するための方法８００が提供されている。方法８００の一実施形態においては、方法８００は、ビデオ信号を受信するステップと、一連のネストされたループにおいてビデオを、各ＧＯＰに対しては１つのループで、ＧＯＰ内の各フレームに対しては更なるループで、フレーム内の各マクロブロックに対しては更なるループで処理するステップとを含む。従って、方法８００はＧＯＰを選択するステップ（８０５）と、選択されたＧＯＰからフレームを選択するステップ（８１０）と、選択されたフレームからＭＢを選択するステップ（８１５）とを含む。マクロブロックの処理においては、各モードに対して１つのループが使用される。従って、方法８００は、選択されたＭＢに対してモードを選択するステップ（８２０）を含む。

選択されたモードに対して実施形態を用いて続行する際に、モードがインターモードである場合、ＭＢの各サブブロックに対する最良のＭＶが数式１２を用いて測定される（８２５）。一実施形態においては、ＭＢは１６×１６であり、モードはＭＢを８×８のサイズ（モード１，４サブブロック／ＭＢ）または４×４（モード２，１６サブブロック／ＭＢ）を有する一連のサブブロックに分割する。そして、数式１３の括弧で囲まれた部分を使用して、ＲＤコストが各サブブロックに対して計算され、これらのサブブロックＲＤ値がＭＢに対して合計されて、ＭＢに対する総ＲＤコストが得られる（８３０）。動作８３０は、インターモード（Ｉｎｔｅｒ−ｍｏｄｅ）のモードとイントラモード（Ｉｎｔｒａ−ｍｏｄｅ）のモードの両方に対して実行される。

方法８００は、次いで、ＭＢに対する総ＲＤコストがＭＢに対する最低ＲＤであるかどうかを判断する（８４０）。もしそうである場合、最良モードが、現在選択されているモードに設定される（８４０）。

方法８００は、選択され、処理されるべき他のモードがあるかどうかを判断することによって、可能性のあるモードを繰りかえす（８４０）。その結果、全てのモードを選択し、処理した後に操作８４０を終了する際に、方法８００は、そのＭＢに対して最低総計ＲＤコストを判断して、関連する（最良）モードを判断する。方法８００は、次いで最良モードおよび最良ＭＶを用いて現在のＭＢを符号化する（８４５）。

実施形態を用いて続行するとき、選択されたＭＢを符号化した後に（８４５）、方法８００は、選択されたフレーム（８５０）内の残りのＭＢを繰り返す。そして、方法８００は、次のフレーム（ｉ＋１）を符号化する際に使用されることになる複数の変数を計算する（８６０）。変数は、（数式９の説明で先に説明したように）デコーダによって再構成された２つの中間の値および現在（フレームｉ）のアルファ値を含む。一実施形態において、フレームｉ＋１を符号化する際に、フレームｉのアルファは、フレーム（ｉ＋１）とこれを超えたフレームとのアルファの推定値として使用される。これらの変数は、変数を使用する方法８００の他の操作に対して与えられる。一実施形態においては、図７に示されているように、変数は操作８２５および８３０に対して与えられる。方法８００は、次いで残りのすべてのフレームを繰り返し（８６５）、終了前に残りのすべてのＧＯＰを繰り返す（８７０）。

図８を参照すると、図１のＨＥＥＤエンコーダ１１０の実施形態であるシステム９００が示されている。システム９００は入力データをオプティマイザ（ｏｐｔｉｍｉｚｅｒ）９１０に提供し、該オプティマイザ９１０は、モード選択およびコード（例えば、ＭＶ）選択、ならびに入力データを、選択されたモードおよび符号に応じてデータを符号化するエンコーダ９２０に、提供する。オプティマイザ９１０は、コントローラ９１２，モード／コードセレクタ９１４，およびＲ−Ｄコスト・エスティメータ９１６を含み、それらすべては相互に通信する。

一実施形態においては、システム９００は（図７の）方法８００を実行する。エンコーダ９２０は、各ＭＢに対して操作８４５を実行し、各フレームに対して操作８６０を実行し（そして、出力情報をオプティマイザ９１０に提供し）、オプティマイザ９１０は残りの操作を実行する。オプティマイザ９１０内では、（１）モード／コードセレクタ９１４が操作８２５および８３５を実行し、（２）Ｒ−Ｄコストエスティメータ９１６が操作８３０を実行し、（３）コントローラ９１２は操作８０５−８２０，８４０，８５０，および８６５−８７０を実行する。

したがって、各フレームの各ＭＢに対して、コントローラ９１２は、モード／コードセレクタ９１４によって選択されたモード／符号を評価する。評価は、Ｒ−Ｄコストエスティメータ９１６によって提供されたレート／歪み推定に基づいており、より一般的には、評価は上述の歪み推定に基づいている。この評価によって、各ＭＢに対する最適なモード／符号が選択され、最適モード／符号情報がエンコーダ９２０に提供されることになる。エンコーダ９２０はフレームのＭＢを符号化し、次のフレームについてオプティマイザ９１０にフィードバック情報を提供する。

説明された実施形態の機能と態様を様々なアプリケーションに適用することができる。アプリケーションは、先に説明したように、例えば、エンコーダのプリプロセッサを含む。もちろん、プリプロセッサを実際のエンコーダに組み込むことができる。しかしながら、本明細書に記載された機能と態様を、他のアプリケーション分野にも適合させることができる。

本明細書に記載した実施形態は、例えば、方法もしくはプロセス、装置、またはソフトウェアプログラムにおいて実装され得る。単一の形態の実施形態のコンテキストで単に説明された（例えば、方法としてのみ議論された）場合であっても、説明された実施形態の特徴を他の形態（例えば、装置またはプログラム）で実装することができる。装置は、例えば、適切なハードウェア、ソフトウェア、およびファームウエアにおいて実装され得る。方法は、例えば、コンピュータ、マイクロプロセッサ、集積回路、またはプログラム可能な論理デバイスを含む典型的なプロセス装置などを示すプロセッサ等の装置において実装され得る。

本明細書に記載された様々なプロセスと機能の実施形態は、様々な異なる装置またはアプリケーション、特に、例えば、ビデオ転送に関連する装置またはアプリケーションにおいて具体化され得る。装置の例には、ビデオコーダ、ビデオデコーダ、ビデオコーデック、ウェブサーバ、携帯電話、パーソナルデジタルアシスタント（「ＰＤＡ」）、セットトップボックス、ラップトップ、およびパーソナルコンピュータが含まれる。これら例から明らかであるように、符号化は、例えば、無線または有線、インターネット、ケーブルテレビ回線、電話回線、およびイーサネット（登録商標）接続を含む様々なパス上で送信され得る。さらに、明らかなように、装置は携帯型であってもよく、携帯型伝達手段にもインストールされてもよい。

さらに、方法はプロセッサによって実行される命令によって実装され、そのような命令は、例えば、集積回路、ソフトウェアキャリヤー、または、例えばハードディスク、小型ディスク、ランダム・アクセス・メモリ（「ＲＡＭ」）、もしくはリードオンリーメモリ（「ＲＯＭ」）等の他の記憶装置など、プロセッサ読取可能媒体に記録され得る。プロセッサは、例えばプロセスを実行するための命令などを有するプロセッサ読取可能媒体を含み得る。

当業者にとって明らかであるように、実施形態は、フォーマットされた信号を生成して、例えば、記憶または送信された情報を伝えることができる。情報は、例えば方法を実行するための命令、または説明された実施形態の１つによって生成されたデータを含み得る。

多くの実施形態について説明してきた。それでもなお様々な変形形態も可能であることが理解されるだろう。例えば、異なる実施形態の要素が、他の実施形態を生成するために、結合され、補われ、変更され、または除去され得る。さらに、当業者には、他の構造とプロセスを、開示されたものと置換し、その結果得られる実施形態は、開示された実施形態と少なくとも実質的に同じ機能を、少なくとも実質的に同一の方法で実行して、少なくとも実質的に同一の結果が得られることが理解されよう。従って、これら実施形態および他の実施形態も本出願において想定されており、添付の特許請求の範囲の範囲内にある。

Claims

一連のピクチャ内の特定ピクチャの少なくとも一部分と関連付けられたエンドツーエンド歪みの値を判断するステップであって、前記値は、（１）前記一連のピクチャ内の先行ピクチャから伝播されるエラーに起因する、前記特定ピクチャの歪みと、（２）前記特定ピクチャから伝播されるエラーに起因する、前記一連のピクチャ内の全ての後続ピクチャの歪みとに基づいている、ステップと、
前記エンドツーエンド歪みの値に応じて、符号化決定を判断するステップと
を含む、方法。
前記一連のピクチャは、イントラ符号化されたピクチャによって表される、請求項１に記載の方法。
前記特定ピクチャの歪み、および前記後続ピクチャの歪みは、同じエラーに起因している、請求項１に記載の方法。
前記全ての後続ピクチャの前記歪みに基づいて前記値を判断することは、前記特定ピクチャの前記歪みの少なくとも一部をスケーリングすることによって前記全ての後続ピクチャ内の前記歪みを近似することを含む、請求項１に記載の方法。
前記スケーリングすることは、前記一連のピクチャ内のインター符号化されたピクチャの割合に基づいて判断される係数を使用することを含む、請求項４に記載の方法。
前記係数は、インター符号化された前記特定ピクチャの割合に基づいて判断される、請求項５に記載の方法。
前記値を判断することは、前記一連のピクチャ内の複数ピクチャに対して当該方法を実行することによって各歪みが複数回カウントされず、かつ前記複数ピクチャの歪みに対する重みの合計が１となるように、各歪みに１未満の重みで重み付けすることを含む、請求項１に記載の方法。
前記値を判断することは、前記一連のピクチャ内のあるピクチャにおける歪みであって、当該ピクチャのロスと、前記ロスを隠蔽するための前記特定ピクチャの使用とから生じる歪みにさらに基づいている、請求項１に記載の方法。
前記特定ピクチャにおける前記歪みは、前記一連のピクチャ内の先行ピクチャから伝播されるエラーに起因し、
前記特定ピクチャにおける前記歪みは、前記先行ピクチャを基準ピクチャとして使用して前記特定ピクチャをインター符号化することから生ずる、請求項１に記載の方法。
前記値は、前記特定ピクチャの前記少なくとも一部分に対して使用される特定のコードに基づいて判断され、
前記方法は、前記判断された値に基づいて前記特定のコードを評価するステップ
をさらに含む、請求項１に記載の方法。
前記特定ピクチャの前記少なくとも一部分と関連付けられた第２の値を判断するステップであって、前記値と前記第２の値は、前記特定ピクチャの前記少なくとも一部分に適用されている異なるコードに基づいている、ステップと、
前記値と前記第２の値との比較に基づいて異なるコードを評価するステップと
を含む、請求項１に記載の方法。
一連のピクチャ内のあるピクチャの少なくとも一部分のエンドツーエンド歪みを推定するように構成されたレート歪みコストエスティメータを備えた装置であって、
前記推定は、（１）前記一連のピクチャ内の先行ピクチャから伝播されるエラーから生ずる、前記ピクチャにおける歪みと、（２）前記ピクチャから伝播されるエラーから生ずる、前記一連のピクチャ内の全ての後続ピクチャにおける歪みとに基づいており、
前記ピクチャの少なくとも一部分に対する前記エンドツーエンド歪みに応じて符号化決定を判断する、前記装置。
前記ピクチャの少なくとも一部分を符号化する際に使用するためのコードを、前記推定されたエンドツーエンド歪みに基づいて選択するコントローラをさらに含む、請求項１２に記載の装置。
一連のピクチャ内のあるピクチャの少なくとも一部分に対してコードを判断するための手段と、
前記判断されたコードを使用して前記ピクチャの前記少なくとも一部分を符号化することに基づいて、前記ピクチャの少なくとも一部分のエンドツーエンド歪みを推定するための手段であって、前記推定は、（１）前記一連のピクチャ内の先行ピクチャから伝播されるエラーに起因する、前記ピクチャにおける歪みと、（２）前記ピクチャから伝播されるエラーに起因する、前記一連のピクチャ内の全ての後続ピクチャにおける歪みとに基づいている、前記推定するための手段と、
前記ピクチャの前記少なくとも一部分に対する前記エンドツーエンド歪みに応じて符号化決定を判断するための手段と
を備えた、装置。
前記推定されたエンドツーエンド歪みに基づいて前記判断されたコードを評価するための手段をさらに備えた、請求項１４に記載の装置。
１つまたは複数のデバイスに、少なくとも、
一連のピクチャ内のあるピクチャの少なくとも一部分に関連付けられたエンドツーエンド歪みの量の指標を判断することであって、（１）前記一連のピクチャ内の先行ピクチャから伝播されるエラーに起因する、前記ピクチャにおける歪みと、（２）前記ピクチャから伝播されるエラーに起因する、前記一連のピクチャ内の全ての後続ピクチャにおける歪みと基づいて、前記エンドツーエンド歪みの量の指標を判断することと、
前記エンドツーエンド歪みの量に応じて符号化決定を判断することと
を実行させる命令を記録したことを特徴とするプロセッサ読取可能媒体。