JP5303470B2 - 歪みの推定 - Google Patents

歪みの推定 Download PDF

Info

Publication number
JP5303470B2
JP5303470B2 JP2009541295A JP2009541295A JP5303470B2 JP 5303470 B2 JP5303470 B2 JP 5303470B2 JP 2009541295 A JP2009541295 A JP 2009541295A JP 2009541295 A JP2009541295 A JP 2009541295A JP 5303470 B2 JP5303470 B2 JP 5303470B2
Authority
JP
Japan
Prior art keywords
distortion
picture
frame
pictures
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009541295A
Other languages
English (en)
Other versions
JP2010514263A (ja
Inventor
ホア ヤン
マクドナルド ボイス ジル
シャオホイ ウェイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of JP2010514263A publication Critical patent/JP2010514263A/ja
Application granted granted Critical
Publication of JP5303470B2 publication Critical patent/JP5303470B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/164Feedback from the receiver or from the transmission channel
    • H04N19/166Feedback from the receiver or from the transmission channel concerning the amount of transmission errors, e.g. bit error rate [BER]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/19Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding using optimisation based on Lagrange multipliers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/567Motion estimation based on rate distortion criteria

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Description

本発明は、歪みの推定に関する。
良好なビデオストリーミング性能を達成するために、対処される1つの問題は、典型的に、ネットワーク送信が不完全であることに起因するパケットロスの影響をどのように緩和するかということである。この問題に対して、利用されてきた典型的で有効なフレームワークとしては、エンドツーエンド歪み(ED: end−to−end distortion)ベースのレート歪み(RD:rate−distortion)の最適化(ED−RDO)があげられる。ビデオの符号化に関するエラー回復力を改善するために、様々なED−RDOベースの技術が提案されてきた。ビデオ転送モジュールでは、ED−RDOを適用して、パケット配信ポリシーの選択を最適化してきた。良好なED−RDD性能を達成するためには、どのようにEDを正確に推定するかということが1つの問題である。
典型的なED推定スキーマは、サブフレームレベルで動作し、過去の全フレームから現在のフレームまでのエラー伝播を考慮することによって、現在のフレームのEDを推定している。エラーは、例えば、先行フレームを基準フレームとして使用して現在のフレームが圧縮されるインターフレーム(inter−frame)の符号化が原因で伝播する。したがって、基準フレーム内にエラーが存在する場合、現在のフレームもエラーを反映することになる。フレームレベルで動作する他のED推定スキーマは、現在のフレームのエラーに起因する後のフレームにおけるエラーを考慮することによって、現在のフレームのEDを推定する。
一般的な態様にしたがって歪みの値を判断する。その値は、一連のピクチャ内の特定ピクチャの少なくとも一部分に関連付けられる。その値は特定ピクチャ内の歪みに基づいており、この歪みはその一連のピクチャ内の特定ピクチャまたは先行ピクチャ内のエラーに起因する。また、その値は、一連のピクチャ内の後続ピクチャ内の歪みに基づいており、その歪みはピクチャ内の後続ピクチャ内の歪みは特定ピクチャまたは先行ピクチャ内のエラーに起因している。
1つまたは複数の実施形態の詳細が、添付の図面および以下の詳細な説明に説明されている。ある特定の手法について説明される場合であっても、実施形態を、種々の手法で構成し、具体化することができるは明らかであろう。例えば、実施形態は、方法として実行することができ、あるいは一組の動作を実行するように構成された装置、または一組の動作を実行するための命令を格納した装置として具現化することができる。他の態様および特徴は、添付の図面および特許請求の範囲とともに、以下に示す本発明の詳細な説明から明らかになるであろう。
歪みの推定を含むシステムの実施形態を示すブロック図である。 先行フレーム内のエラーを考慮する歪み推定技術の実施形態を示すブロック図である。 後続フレーム内のエラーを考慮する歪み推定技術の実施形態を示す図である。 先行フレームと後続フレームのエラーを考慮する歪み推定技術の実施形態を示す図である。 図4と関連付けられた実施形態に使用される重みの判断を示す図である。 歪みを推定するためのプロセスの実施形態を示すフロー図である。 歪みを推定するための別のプロセスの実施形態を示すフロー図である。 図1のエンコーダの実施形態を示すブロック図である。
本開示において説明される少なくとも1つの実施形態は、計算量(complexity)がスケーラブルなエラー回復ビデオ符号化のための新規なハイブリッドエンドツーエンド歪み(ED:end−to−end distortion)推定スキーマを提示する。本願発明者は、典型的なシステムは、EDを推定するアプローチにおいて制限されており、「ルック・バック・オンリー(look−back−only)」または「ルック・アヘッド・オンリー(look−ahead−only)」のいずれかとして特徴付けられることが可能であることを認識している。そのようなルック・バック・オンリーおよびルック・アヘッド・オンリーED推定システムでは、典型的に、算出計算量が多くなるか、または推定精度が低くなる。このようなシステムとは異なり、提案する解決方法は、「ルック・バック」推定および「ルック・アヘッド」推定の両方を含む一般的なハイブリッドパラダイムである。「ルック・バック」推定においては、前に符号化された特定の数のフレームからのエラー伝播(EP:error propagation)歪みは、ピクセルレベルで正確に計算される。この部分的なルック・バックにより、所望の推定精度が得られる。「ルック・バック」が無視されたフレームのロスの影響は、算出計算量が極めて少ない「ルック・アヘッド」フレームレベルのEP近似を使用することによって、補償される。「ルック・バック」フレームの数を変更することによって、算出計算量よび推定精度を異なるレベルとすることができる。提案するスキーマは、計算量のスケーラビリティを提供することによって、実用的なビデオストリーミングシステムにおいてより適切なものとなり得る。
良好なビデオストリーミング性能を達成するために、ネットワーク送信が不完全であることに起因するパケットロスの影響を緩和することは、一般的に、重要な課題である。この問題に対して、一般的で有効なフレームワークは、EDベースのRD最適化(ED−RDO:ED based RD optimization)であり、該ED−RDOは、ビデオストリーミングシステム全体のエラー回復(error resilience)を改善するために、ビデオエンコーダモジュールおよびビデオ転送モジュールに適用されている。ビデオ符号化のエラー回復を改善するために、予測基準、モーションベクトル(MV:motion vector)、定量化パラメータ(QP:quantization parameter)、マクロブロック(MB:macroblock)符号化モードなど、様々なED−RDOベースの技術が提案して、様々な符号化決定を最適化している。ビデオ転送モジュールでは、ED−RDOは、パケット配信ポリシーの選択を最適化するのに広く適用されてきた。ED−RDOは併せて、ソース符号化とチャネル符号化の間のビット割当てを最適化するのにも使用されることがある。良好なED−RDD性能を達成するために、重要な課題は、含まれるEDを正確に推定することであり、これは大抵の場合、非常に大変な作業である。
本開示における少なくとも1つの実施形態は、ED−RDOベースのエラー回復ビデオ符号化のシナリオに焦点を当てる。本実施形態は、HEED(EDのハイブリッド推定:hybrid estimation of ED)と呼ばれる、計算量がスケーラブルなED推定の解決法を提示し、該HEEDは、ピクセルレベルの「ルック・バック」推定とフレームレベルの「ルック・アヘッド」推定の両方を含む。一般に既存のED推定スキーマよりも柔軟性がある本実施形態は、推定精度と計算量とのトレードオフを提供する。「ルック・バック」フレームの数を変更することによって、異なるレベルの算出計算量および推定精度を達成することができ、これにより、HEEDは、典型的な実用的ビデオストリーミングシステムにおいてより適切なものとなる。
図1を参照すると、実施形態を説明するためのフレームワークを提供するシステム100が示されている。システム100は、エンコーダ110、トランスミッタ/ストレージユニット120、ネットワーク130、およびデコーダ140を含む。エンコーダ110は、例えば、ビデオデータ、オーディオデータ、マルチモデルデータ、または歪みを推定するための他のデータなどの、入力データを受信する。エンコーダ110は、HEEDの実施形態にしたがって入力データを符号化し、符号化されたデータをトランスミッタ/ストレージユニット120に提供する。
トランスミッタ/ストレージユニット120は、符号化されたデータを送信または格納する1つまたは複数の処理を実行する。符号化されたデータが送信される場合、その送信には、例えば、インターネット、(例えば、地上放送または衛星放送の)フリースペース、またはプライベートネットワークを含む、ネットワーク130が使用される。明らかに、例えば、単一のデバイス内にある専用送信路など、他の実施形態も想定される。
デコーダ140は、例えば、ネットワーク130から送信されたデータを受信すること、または(破線で示されるように)トランスミッタ/ストレージユニット120から記憶データを取り出すことによって、符号化されたデータにアクセスする。「アクセスする」という用語は広義の用語として使用されおり、例えば、様々な手法において、取得すること(obtaining)、取り出すこと(retrieving)、受信すること(receiving)、操作すること(manipulating)、または処理すること(processing)を含む。デコーダ140は、アクセスされたデータを復号化し、復号化されたデータを出力データとして提供する。
既存のED推定方法は、おおまかには、ピクセルベースのアプローチ、ブロックベースのアプローチ、またはフレームベースのアプローチに分類することができる。この分類によって示されるように、これらの相違点は、主に処理の細かさに関連している。
正確なED推定を、ピクセルベースのROPE方法によって達成することができ、該ピクセルベースのROPE方法は、元々、整数ピクセル(integer−pixel)予測について提案されたものであり、後に、サブピクセル予測も網羅するように進歩したものである。しかしながら、推定精度が高いことに加えて、ROPEは、典型的に、デコーダが各ピクセルを再構成する第1および第2の時間について、浮動小数点の再帰的計算を必要し、これにより、非常に大量の算出計算量が発生することになる。従って、ROPEは通常、実用的なリアルタイムビデオストリーミングシステムでは望ましくない。
別のピクセルベースのアプローチは、JM(JVT Joint Model)H.264/AVC基準のエンコーダで実装され、このアプローチでは、1ピクセルあたりの歪みは、復号化するプロシージャの完全なシミュレーションと、多数の(例えば、30の)パケットロスパターンを平均化することとによって計算される。しかしながら、その計算量はROPE方法よりもはるかに多くなる。
計算量を少なくするには、最も可能性の高い2つのロスイベント(すなわち、最後の2つフレームの各々のロス)のみを考慮する、単純化なピクセルベースの歪み推定(SPDE:simplified pixel−based distortion estimation)アプローチを使用することができる。しかしながら、発生し得る他のロスイベントを全て無視することは、典型的に、推定の性能を著しく低下させる。
代替的に、ブロックベースのアプローチは、フレーム毎にブロックレベルの歪みマップを生成して、再帰的に更新するため、ピクセルベースのROPE推定の推定計算量は、およそブロックサイズ(例えば、4×4のブロックに対しては16)だけ減少する。しかしながら、フレーム間の置換はサブブロックのモーションベクトルを必要とするので、モーションが補償されたブロックは、前のフレーム内の複数ブロックから伝播されたエラーを継承することがある。したがって、ブロックベースの技術は多少大雑把な近似となることがあり(例えば、伝播されたブロック歪みまたはモーションベクトル近似の加重平均)、推定精度をかなり低下させることがある。
フレームレベルのED推定では、全フレームのEDが再帰的に計算される。この場合、典型的に、イントラ符号化されたMB、サブピクセル予測、非ブロック化フィルタリングなどの複雑な問題の全てを、異なる個々のファクタでフレーム毎にそれぞれモデル化することができる。したがって、推定全体は、典型的に、無視できるほどの計算量しか必要としない。しかしながら、実際には、フレームレベルの推定は一般に、フレームレベルのED−RDOの問題にのみ適用可能であり、ED−RDOのモーション推定(ME:motion estimation)およびモード選択(MS:mode selection)などの関連するMBレベルED−RDOのシナリオに対しては、ピクセルベースまたはブロックベースのED推定のいずれかが必要とされる。
上述のED推定スキーマは、典型的に「ルック・バック・オンリー」アプローチであることに留意されたい。このアプローチでは、現在のフレーム(current frame)のEDは、通常は図2に図示されるように、過去のフレームからのエラー伝搬を考慮することによって計算される。
図2を参照すると、ダイアグラム200は、GOPスタート210と、GOPエンド215と、垂直な破線225で示されているフレームi220とを有する複数のフレームのグループ(GOP)を示している。示されたGOPは、フレームi220の前(フレームi220の左側)に発生するように示されているフレーム0,1,2,および3を含む。ダイアグラム200は、フレームi220およびGOPの残りのフレームに与えるフレーム0,1,2,3の各々のロス(loss)の影響を、別々に図示している。フレームi220に対する影響は、例えば、フレーム間の符号化を使用したことにより生じる。
フレーム0のロスは「0_loss」230で示されており、その後にフレームi220の破線225まで実線232が続いている。実線232は、典型的なルック・バックスキーマが、フレームi220と関連付けられた歪みを推定するときに、フレーム0のロスの影響を考慮していることを示す。実線232は、フレームi220の後は、GOPエンド215まで伸びる破線234に続く。破線234は、フレーム0のロスの影響が、(場合によって)GOP内の後続フレーム(subsequent frames)全てに対して影響を与え続けることはあるが、この影響は、フレームi220に関連付けられた歪みを推定するときに考慮されないことを示している。これら「将来(future)」の影響は、GOP内の将来のフレームの歪みを推定するときに考慮される。破線234は、D’0_lossで示される符号236に続き、D’0_lossは、フレームi220の後続のフレームを含めGOP全体に対するフレーム0のロスの影響を示している。
同様の分析がフレーム1,2,および3のロスについて当てはまる。これらの各々を以下で説明する。
フレーム1のロスは、「1_loss」240で示されており、フレーム0のロスよりも後の時点(フレーム0の右側で)発生している。1_loss240の後に、フレームi220の破線225までの実線242が続いている。実線242は、典型的なルック・バックスキーマが、フレームi220に関連付けられた歪みを推定するときにフレーム1のロスの影響を考慮していることを示す。実線242は、フレームi220の後は、GOPエンド215まで伸びる破線244に続く。破線244は、フレーム1のロスの影響が(場合によって)GOP内の後続フレームの全てに影響を与え続けることはあるが、この影響は、フレームi220に関連付けられた歪みを推定するときに考慮されないことを示している。これら「将来」の影響は、GOP内の将来のフレームについて歪みを推定するときに考慮される。破線244は、D’1_lossで示される符号236に続き、D’1_lossは、フレームi220の後続フレームを含めGOP全体に対するフレーム1のロスの影響を示す。
フレーム2のロスは、フレーム1のロスより後に発生する「2_loss」250で示されている。2_loss250の後に、フレームi220の破線225までの実線252が続く。実線252は、典型的なルック・バックスキーマが、フレームi220に関連付けられた歪みを推定するときにフレーム2のロスの影響を考慮していることを示す。実線252は、フレームi220の後、GOPエンド215まで伸びる破線254に続く。破線254は、フレーム2のロスの影響が、(場合によって)GOP内の後続フレームの全てに影響を与え続けることはあるが、この影響は、フレームi220に関連付けられた歪みを推定するときに考慮されないことを示す。これらの「将来」の影響は、GOP内の将来のフレームについて歪みを推定するときに考慮される。単純にするために、対応する符号Dは、GOP全体に対するフレーム2のロスの影響について示していない。
フレーム3のロスは、フレーム2のロスより後の時点に発生する「3_loss」260で示されている。3_loss260の後に、フレームi220の破線225までの実線262が続く。実線262は、典型的なルック・バックスキーマが、フレームi220と関連付けられた歪みを推定するときに、フレーム3のロスの影響を考慮していることを示す。実線262は、フレームi220の後は、GOPエンド215まで伸びる破線264に続く。破線264は、フレーム3のロスの影響が、(場合によって)GOP内の後続フレームの全てに影響を与え続けることはあるが、この影響は、フレームi220と関連付けられた歪みを推定するときには考慮されないことを示す。これらの「将来」の影響は、GOP内の将来のフレームについて歪みを推定するときに考慮される。単純にするために、対応する符号Dは、GOP全体に対するフレーム3のロスの影響については示されていない。
フレームi220のロスが、GOPにおけるフレームi220および全ての後続フレームに対して影響を及ぼすことも、予想されるであろう。分析される特定のルック・バックスキーマは、フレームi220と関連付けられた歪みを推定する際に、現在のフレーム(フレームi220)のロスの影響は考慮するが、後続フレームのロスの影響は考慮しない。(既に使用された実線および破線と区別するために点で示される)線280は、フレームi220についての歪み推定は、前および現在の(後ではない)ロスイベントからフレームi220に与える影響のみを考慮する。しかしながら、GOP内の後続フレームに与える影響は、フレームi220からGOPエンド215まで伸びる破線274で示されている。符号D’i_loss276は、残りのGOPに対するフレームi220のロスによる累積された影響を示す。
分析される典型的なルック・バックスキーマでは、前および現在のロスイベントの影響は、連続したフレームのそれぞれについて考慮される。従って、GOP内の各フレームを考慮した後に、各ロスイベントの完全な影響が考慮されることになり、推定された歪みの全ての合計が、符号236などの(GOP内の全てのjに対する)すべてのD’j_lossの合計に等しいであろう。
少ない計算量の知覚的な(perceputual)EDメトリック、ならびに対応するED−RDO MEおよびMSによって、パケットロスの場合における知覚的なビデオの品質の全体が改善される。少ない計算量のEDメトリックは、ヒト視覚システム(Human Visual System)の何らかのプリファレンス/特性を構成し、したがって、「知覚的」と呼ばれることがある。このようなメトリックは、MSE(平均二乗誤差)歪みを計算する典型的なEDメトリックとは異なるであろう。このような知覚的メトリックの1つは、(“Concealment-aware motion estimation and mode selection for error resilient video coding、”Proc.ICIP 2006,Atlanta、October 2006に説明されている)「ルック・アヘッド・オンリー」ED推定スキーマであり、この「ルック・アヘッド・オンリー」ED推定スキーマでは、(以下で説明する)図3に示されるように、発生したエラーの、同じGOPの全後続フレーム内での伝搬は、現在のフレームのED計算で説明される。しかしながら、完全に無視された先行フレームからのエラー伝搬では、過去のエラー伝搬を停止する際のイントラ符号化の利点も無視される。ヒューリスティックなスキーマを使用して、イントラ符号化の利点を無視することによる影響を補償することができるが、全体としては、この課題は、典型的に、「ルック・アヘッド・オンリー」アプローチの推定精度および得られるED−RDO性能を低下させる。
図3を参照すると、ダイアグラム300は、GOPエンド315と、垂直の破線325で示されるフレームi 320とを有するフレームのグループ(GOP)を図示している。また、図示されたGOPは、フレームi320の後に生じるフレームi+1 330を含む。ダイアグラム300は、GOPの残りのフレームに対する、前のエラーの全てとフレームi 320のロスとの両方による影響を示している。この影響はフレームi+1 330で始まり、(場合によって)GOP内の全ての後続フレームに続く。この影響は、フレームi+1 330からGOPエンド315まで伸びている線340によって、示されている。(既に使用された実線および破線とそれを区別するために点線として示された)線380は、フレームi 320に対する歪み推定は、GOP内の後のフレームに対する影響のみが考慮されることを示す。
さらに、典型的なルック・アヘッドスキーマは、ブルートフォース完全計算(brute−force complete calculation)を利用して、歪みを推定する。本発明者は、近似による利点を認識し、少なくとも1つの実施形態において近似を提供する。
本開示における少なくとも1つの実施形態においては、ED−RDOベースのエラー回復ビデオ符号化のシナリオに焦点を当てる。既存の研究の多くは、第1のフレームのみをI−フレームとして符号化し、残りの全てのフレームは、P−フレームとして符号化されることを想定している。対照的に、本実施形態では、各GOPの第1のフレームをI−フレームとして符号化する、GOPベースのビデオ符号化フレームワークを想定する。エラーの回復の改善の他に、このGOP構造は、例えば高速早送り、高速巻き戻し、または高速チャネル変更などの多くの有用な機能を可能することも助け、実用的なビデオストリーミングシステムにおいて一般に利用される。
提案するHEEDアプローチのきっかけを提供するために、E{DGoP}によって示されるGOP全体のED推定から始める。一次歪み推定(FODE:first order distortion estimate)と呼ばれるスキーマは、一次のテイラー展開を用いてE{DGoP}を近似する。実際には、エラー回復ビデオ符号化によって対処されるパケットロスのレートpは、大きくなく、例えば、p<10%である。それを超えると、効率的にp自体を低減させるために、FECまたは他の技術を使用しなければならない。小さいpの場合、FODEモデルは典型的にかなり正確である。MSE E{DGoP}は以下の通り推定される。
Figure 0005303470
ここで、NはGOPのサイズであり、Dno_lossはパケットロスが全くないGOP歪み、すなわち、ソース符号化歪みのみを示している。本開示の全体を通じて、単純にするために、1つのフレームのデータは1つのパケットにパケット化されると仮定する。γiはフレームiの一次テイラー展開の係数であり、以下のように表すことができる。
Figure 0005303470
Figure 0005303470
FODEは、本来、符号化されたビデオの最適化の問題に対処するために提案されたが、E{DGoP}の単純な線形表現は、符号化プロセスにおいて関連するMBレベルの最適化のタスクに対しても同様に有用な洞察を与えることが分かっている。この場合、特定のフレームを符号化することとなると、それらがどのようにE{DGoP}に影響するかということに関して、それらのそれぞれの重要性を各MBについて特定する必要がある。このため、既存のED推定アプローチの全てではないが、そのほとんどは、「ルック・バック・オンリー」方法であり、この「ルック・バック・オンリー」方法では、現在のフレームについて、自身のEC歪み以外に、図2に示されるように、GOP内の前のフレームの各々1つに対するそれぞれのロスに起因する過去のEP歪みの全てが、基本的には推定される。最適ROPEアプローチは、過去の個々のフレームのロスイベントの全てからのEP歪みを正確に示すが、計算量を減少させるために、SPDEアプローチは最後の2つのフレームのうち各々1つのロスからのEP歪みのみを考慮する。我々は、フレームの最適符号化の決定に適用されるときに、この「ルック・バック・オンリー」パラダイムが、最適なROPE推定の場合のように各フレームが過去のEP歪みを正確に推定することができるという条件下において、良好なフレーム間に相乗効果をもたらすことを向上させる。この場合においては、現在のフレームの符号化決定を最適化するとき、発生する将来のEP歪みを気にする必要は全くないので、後に続くフレームの最適化に際して、それは正確に考慮されるだろう。しかしながら、SPDEの場合においては、各フレームは、最後の2つのフレームからの限られたEP効果を考慮するにすぎず、これは、後に続く2つのフレームを過ぎると、現在のフレームからのEP歪みは、残りのフレームを最適化する際には完全に無視されることになるということを意味する。この場合、「ルック・バック・オンリー」パラダイムは、信頼され得ないので、良好なフレーム間に相乗効果をそれ以上与えることができない。他方、図3に示された「ルック・アヘッド・オンリー」アプローチは、有用であるものの、後に続くフレーム内のEP歪みのみを考慮している。したがって、過去のEPを停止することに対するイントラ符号化の利点はあまり明らかではなく、全体的なED−RDO性能を低下させる。
上記分析およびFODE歪みモデルから動機付けの観点において、我々は、HEEDとして設計した新規なハイブリッドの少ない計算量ED推定アプローチを提案する。SPDEアプローチと同様に、HEEDは、各ピクセルに対して、ある特定の数の過去の符号化されたフレームからの正確な過去のEP歪みも考慮する。しかしながら、HEEDにおいて他のフレームロスイベントの全ての影響を完全に無視する代わりに、GOP内の現在のフレームから残りの全フレームに至るまでのEP歪みを明確に明らかにするために、フレームレベルのEP因数近似を導入する。これにより、図4に示すように、ピクセルレベルの「ルック・バック」推定およびフレームレベルの「ルック・アヘッド」推定の両方を含むハイブリッドパラダイムが得られる。
図4を参照すると、ダイアグラム400は、GOPエンド410を有するフレームのグループ(GOP)であって、GOP内にフレームi−2 415、フレームi−1 420、フレームi 425、およびフレームi+1 430を含む一連のフレームを含む、GOPを表している。これら4つのフレーム415−430はそれぞれ、垂直な破線435、440、445、および450で示されている。
フレームi425が考慮中である。すなわち、フレームi425に対して歪みが推定されている。この実施形態における歪みの推定は、歪みの3つ異なる原因を考慮する。第1に、フレームi425(およびGOP内の後続フレーム)に対するフレームi−2 415のロスの影響が考慮される。第2に、フレームi425(およびGOP内の後続フレーム)に対するフレームi−1 420のロスの影響が考慮される。第3に、フレームi+1 430(およびGOP内の後続フレーム)に対するフレームi+1 430のロスの影響が考慮される。
歪みの第1の原因に関して、実線460は、フレームi425までのフレームi−2 415のロスからの歪みの伝播を表している。さらに、(不確かな範囲を示すために中間は破線で示されている)実線462は、GOPエンド410までのその歪みの継続的な伝播を示している。以下でより十分に説明するように、w2、i-2は、フレームi425および後続フレームにおけるフレームi−2 415のロスからの歪みに割り当てられた、重み係数である。この重みを使用して、フレームi425における歪みを重み付けし、フレームi425の後の歪みの継続的な伝播に重み付けする。
歪みの第2の原因に関して、実線470は、フレームi425までのフレームi−2 415のロスからの歪みの伝播を表している。さらに、(不確かな範囲を示すために中間は破線で示されている)実線472は、GOPエンド410までのその歪みの継続的な伝播を表している。以下でより十分に説明するように、いくつかの重み係数を示す。「1−w0、i-1」を使用して、フレームi425におけるフレームi−1 420のロスからの歪みに重み付けする。「w1、i-1」は、フレームi+1 430におけるフレームi−1 420のロスにからの歪みに対して割り当てられた重み係数であり、フレームi+1 430における歪みに重み付けをすること、ならびにフレームi+1 430の後の歪みの継続的な伝播に重み付けすることに使用される。
歪みの第3の原因に関して、(不確かな範囲を示すために中間は破線で示されている)実線482は、フレームi+1 430のロスからの歪み、およびGOPエンド410までのその歪みの伝播を示す。以下でより十分に説明するように、いくつかの重み係数を示す。「1」は、フレームi+1 430におけるフレームi+1 430のロスからの歪みに割り当てられる。「w0、i+1」は、フレームi+1 430のロスからの歪みに割り当てられた重み係数であり、この重みは、GOP内のフレームi+1 430の後の全ての後続フレームにおける歪みに重み付けすることに使用される。ゼロは、フレームi425において考慮から除外された歪みの項に対するダイアグラム400の重みとして示されていることに留意されたい。
本実施形態において、歪みの第3の原因は、フレームi+1 430のエラー隠蔽(error concealment)におけるフレームi425の使用から生じることに留意されたい。特に、この実施形態は、モーションコピーを使用するエラー隠蔽アルゴリズムが、フレームi+1 430のロスを隠蔽するのに使用されることを想定している。したがって、フレームi425の符号化の結果(すなわち、モーションベクトルおよび再構成)は、フレームi+1 430のロスのEPブランチ(branch)に影響することになる。したがって、フレームiのED推定を計算するとき、フレームi+1のロスのEPブランチを考慮する。しかしながら、実施形態は他の形態のエラー隠蔽を使用してもよく、歪みのこの第3の原因は、異なる隠蔽アルゴリズムを説明するために単に調整される。例えば、フレームコピーなどの別のECを想定する場合、フレームi+1のロスのEPブランチの代わりに、フレームiのED計算において、フレームiのロスのEPブランチを考慮してもよい。
前述したように、図4の実施形態では、2つの「ルック・バック」フレームを想定している。その導出は、全ての他の数の「ルック・バック」フレームに適合するように、容易に一般化することが可能であり、したがって、計算量はスケーラブルである。w0、iは、フレームiのロスの右側のフレームiロスEPブランチを考慮するための重み係数を表しており、w1、iおよびw2、iはそれぞれ、フレームiのロスの後の1つのフレームまたは2つのフレームにおけるフレームiロスEPブランチを考慮するための重み係数を表している。この実施形態における同じiの3つの重み係数は、1になるまで合計され、各特定フレームのロスの完全なEPブランチが、GOP内の全フレームのED推定において同等に正確に一度にカウントされる。その場合、全フレームにわたって推定されたEDを合計することによって、GOP全体のEDについて正確な推定を得ることになる(明らかに、全GOPについてのEDの合計が明らかに対象ではない場合、実施形態は合計して1になる重みを有する必要はない)。これは図5に図示されている。
図5を参照すると、図600は、フレームi+1のロスのEPブランチが、フレームi、フレームi+2、およびフレームi+3のED推定に含まれていることを示しており、図600では、対応する全ての重みは図4の説明に従う。実際には、説明図600は、単に説明された制約を反映しており、特定フレームそれぞれのロスの完全なEPブランチは、GOP内の全フレームのED推定において同等に正確に一度にカウントされる。
図5の3つの1は、フレームi+1のロスのEPブランチにおける各フレームの歪みの項に対して、合計された重みは常に1であることを示している。これは、GOP内の全フレームのED計算を考慮する際に、フレームi+1のロスEPブランチが全体的に同等に一度に考慮されることを意味する。これはまさに、我々がこのモデルに対して求める特性である。数式1は全GOPに対するEDを表し、数式2は各EPブランチに関するEDの寄与を表していることを思い出して頂きたい。pを除いて、数式1におけるγi(すなわち、フレームiのロスのEPブランチ)の重みは常に1である。pに関しては、それはモデルにおいて常に明確に現れ、いわゆる重みからは既に分離されている。
図5を再び参照すると、重み係数w0、i+1は、フレームiのED計算において最初に現れ、フレームi+1のロスのEPブランチを明らかにする。そして、重み係数「(l−w0,i+1)」は、フレームi+2のED計算に現れ、フレームi+1のロスの同じEPブランチを明らかにする。フレームi+1のロスのEPブランチにおけるフレームi+2の歪みの項は、2度考慮される、すなわち、最初にフレームiのED計算において考慮され、次にフレームi+2のED計算において考慮されることがわかる。全GOPのED計算の観点から、フレームi+1のロスの同一EPブランチ内の全フレームの歪みの項は、望ましくは、一度だけ考慮されるべきである(すなわち、合計の重みが1であるべきである)。フレームi+1のロスのEPブランチ内のフレームi+2の歪みの項は、フレームiのED計算ではw0、i+1で最初に重み付けされ、フレームi+2のED計算では1−w0、i+1で重み付けされる。したがって、その合計された全ての重みは1である。これはモデルに対して必要な設計制約である。
他の(異なる)の設計制約が他の実施形態によって使用される。例えば、重みは合計した数が1以外となるように想定されてもよい。さらに、諸実施形態において、重み係数の使用は必ずしも必要ではない。
次に、各特定のフレームにおけるHEED ED推定を行う方法を説明する。本明細書において、単純にするために、デコーダにおけるモーションコピーのエラー隠蔽を想定しており、この場合、フレームがロスすると、先行フレーム内に配置されたMBからのモーションベクトル(MV:motion−vectors)は、公知であるように、モーションの補償を介して現在のフレームを隠すのに使用される。したがって、現在のフレームMBのMVまたは符号化モードは、次のフレームに配置されたMBのEC歪みにも影響を与えるであろう。提案されるHEEDアプローチ自体は、ECスキーマに対する特定の制限はない。
フレームi内にピクセルkを含むMBが、インター符号化されると想定すると、HEED方法はピクセルのEDを以下のように推定する。
Figure 0005303470
Figure 0005303470
(4)の3つの右手側の項は、図4で考慮された3つのEPブランチにそれぞれ対応し、この3つの項を以下の数式5−7で表すことができる。数式5−7は、先の説明、特に図4および5の説明に従う。
Figure 0005303470
Figure 0005303470
Figure 0005303470
ここで、
Figure 0005303470
であり、
Figure 0005303470
Figure 0005303470
数式5−7における「アルファ」の項は「ルック・アヘッド」の部分を表している。数式5−7の「ルック・アヘッド」の態様について以下にさらに述べる。
数式5は、現在のフレームiの歪みの計算において、フレームi−2のロスのEPブランチの影響を考慮しており、現在のフレームiからGOPエンドまでのフレームの歪みの項を含む。後続フレームの歪みの項の考慮は、いわゆる「ルック・アヘッド」の態様を表している。
数式5と同様に、数式6は現在のフレームiの歪み計算において、フレームi−1のロスのEPブランチの影響を考慮しており、現在のフレームiからGOPエンドまでのフレームの歪みの項を含む。後続フレームの歪みの項の関係もまた「ルック・アヘッド」の態様を表している。
数式7は、現在のフレームiの歪み計算におけるフレームi+1のロスのEPブランチの影響を考慮しており、次のフレームi+1からGOPエンドまでのフレームの歪みの項を含む。また、後続フレームの歪みの項の関係もまた「ルック・アヘッド」の態様を表している。
様々な実施形態において、デコーダによって再構成された所与のフレーム(i)の値は、先行フーム(i−1)に基づいている。一実施形態において、先行フレーム(i−1)がロスされた場合には、デコーダは、エラー隠蔽アルゴリズムを使用して既に先行フレームを再構成している。現在のフレームを再構成するために、デコーダは次いで現在のフレームのモーションベクトルを先行フレームの再構成に適用する。同一の実施形態において、i−2フレームがロスされた場合、デコーダはi−2フレームを既に再構成し、再構成されたi−2フレームに基づいて先行フレーム(i−1)を既に再構成している。このようにして、デコーダは、現在のフレームのモーションベクトルを、再構成されたi−1フレームに適用する。
ここで、αはフレームのEP係数を表している。計算量の少なさのために、1つの単一の係数でフレームのED効果をモデル化することは、既存のフレームレベルED推定スキーマにおいては一般的に実際に適用されていることであり、この場合、係数αの全体が、例えばイントラMB、サブピクセル予測、イントラ予測、およびデブロッキングフィルタリングなどを明らかにする、様々な係数を含むことがある。一例として、単純なスキーマは、α=1−βに設定され、ここでβはフレームのイントラMBの割合である。
Figure 0005303470
Figure 0005303470
Figure 0005303470
HEEDにおいて、重要な課題はしばしば、重み係数w0、w1、およびw2を決定する方法である。第1に、実際の複雑なEP処理をモデル化するために単一のEP係数αを使用することは、正確でないことがあることに留意されたい。したがって、典型的には、重みを3つの係数に均等に割り当てることが望ましい。その場合、全モデル化エラーを、3つのアイテムにわたって平均することを介して減少させる。第2に、HEED推定を、関連するED−RDO MEおよびMSの課題に適用する。デコーダで想定されたモーションコピーECを用いて、先行フレームが配置されたMBがイントラMBである場合、Skip−MBと同じものとして取り扱わることになり、隣接するMVからの中央MVが隠蔽のために使用されることになる。この場合、現在のフレームMBのイントラ符号化は既存のEPを過去のEPから有効に停止させるが、それは、インター−モード符号化よりも、次のフレームEC歪みをさら招き、したがって、後続フレームのEP歪みをさらに招くことがあるが、これは、インターモードはより柔軟性が高いので、良好なMVを見つけ、次のフレームのEC歪みを低下させるからである。したがって、w0とw1+w2との間の比は、重大なイントラ/インターモード選択と、ED−RDO性能全体に直接影響するだろう。経験から、効果的な方法は、GOP内の最初のフレームのw0に対してより大きい重みを与え、最後のフレームに対してより小さい重みを与えることである。他の効果的な重み付けの方法も可能であることに留意されたい。最後に、我々が採用した重み係数設定は以下の通りである。
Figure 0005303470
歪みを推定する、特定の実施形態について説明してきたが、ここで図6を参照すると、ブロックの歪みを推定する一般的な方法700が示されている。本開示において既に説明された特定の実施形態、および説明される他の特定の実施形態は、一般的な方法700の実施形態を提供する。方法700は、デジタルイメージの現在ブロックの歪み測定を推定するステップ(710)を含む。推定(710)は、少なくとも2つの入力720および730に基づいている。入力720は、先行ブロックのエラーに起因する現在ブロックの歪みである。入力730は、先行ブロックのエラーに起因する現在ブロックの歪みである。したがって、推定(710)は、現在ブロックに対するものであり、先行ブロックのエラーに基づいている。さらに、推定(710)は、(1)現在ブロックに対する先行ブロックのエラーの影響を判断するための、先行ブロックエラーに対するルック・バックに基づいており、(2)後続ブロックに対する先行ブロックのエラーの影響に対する、ルック・アヘッドに基づいている。
Figure 0005303470
モーション推定について:
Figure 0005303470
モード選択について:
Figure 0005303470
ここで、mv*およびmode*はそれぞれ、フレームn内のブロック/MB iに対する、選択された最良モーションベクトルおよび符号化モードを表している。(ここで、iはブロックインデックスを表し、nはフレームインデックスを表す。)RmvおよびR(mode)は、対応する符号化のレートを表している。例えば、Rmvは、モーションベクトルのみを符号化するのに必要とされるビットを示し、R(mode)はマクロブロック全体を符号化するのに使用される全体のビットを示す。λMVおよびλMODEは、関連するラグランジュ乗数(Lagrangian multipliers)である。DDFD、iは、置換されたフレーム差(DFD:displaced frame difference)を示している。推定されたDEP、iがMSE歪みであるので、DDFD、iは以下に示されるようにMSEの形態を有する。
Figure 0005303470
Figure 0005303470
一実施形態において、数式12および13は、数式14および15を使用して計算される。数式14は、数式3−9、および数式9に関して説明した近似的な推定を使用して同様に計算される。
示したように、各マクロブロックの符号化モードについて、(必要ならば)最良モーションベクトルが式12に応じて選択される。その後に、全ての符号化モードについて、最良モードが式13に応じて選択される。
さらなる見識を与えるために、我々は、提案する一般的ハイブリッドパラダイムに存在するピクセルベースの「ルック・バック・オンリー」アプローチと「ルック・アヘッド・オンリー」アプローチとを比較することは、単に、過去の符号化されたフレームの全てに及ぶかまたはそれら個々には全く及ばない「ルック・バック」フレームにおける、その2つの特別な場合であることを理解している。明らかに、ハイブリッドパラダイムは、「ルック・バック」推定において異なる数の過去のフレームを含むことを介して、算出計算量と推定精度との間のトレードオフを制御する方法を提供し、したがって、そのハイブリッドパラダイムは、一般に、互いに全く異なる計算量の制約を有することがある実用的なビデオストリーミングシステムにより適切に利用される。2つの「ルック・バック」フレームの場合の上記歪みのすべてを、あらゆる数の「ルック・バック」フレームを蓄積するのに容易に一般化することができる。
最後に重要なこととして、(3)は統計的なEDの推定を与え、(3)において、EP歪みの重みがパケットロスレートpであることを強調する。パケットロスの場合、より効果的に知覚ビデオ品質を測定するためには、より大きい重みを、pよりもEP歪みに課すべきである。HEED推定はFODE近似に基づいているので、EDに対して単一フレームのロスイベントからの影響だけが考慮され、これは、計算量が少ない知覚的EDメトリックと同一である。したがって、(3)のパケットロスレートpを、すべての適切な知覚的重みに容易に置き換えて、提案するHEEDメトリックを一般化し、知覚的ロスビデオ品質とより密接して相関させることができる。「ルック・アヘッド・オンリー」知覚的歪みメトリックよりも、提案されたHEEDメトリックの方が、「ルック・バック」推定と「ルック・アヘッド」推定の両方を含むより良好なハイブリッド解決方法である。したがって、それは過去のフレームからEPをより正確に明らかにし、その結果、より良好なイントラ/インターモード選択の性能が得られる。
広範囲のシミュレーション結果は、HEEDが、GOP‐レベルEDに対する高い推定精度を実現することを示している。さらに、ED−RDO MEとMSにおいて利用されると、HEEDは、他の既存の計算量の少ない解決方法よりも極めて優れている。
本開示で説明された少なくとも1つの実施形態は、マクロブロック(または他のユニット)について予想された歪みが、異なる符号化方法で計算または推定されることがあることを認識することによって、少なくとも部分的に動機づけられる。予想された歪みは、符号化方法のレートとともに、レート歪み式に使用されて、その符号化方法のコストが計算され、種々の異なる符号化方法のコストが、マクロブロックに使用するための符号化方法を選択するために使用され得る。
マクロブロックについて言及したが、EDは様々なレベルの評価で推定され得る。異なるレベルの評価の例には、全体としてのフレーム、個々のブロック、個々のピクセル、またはサブピクセルレベルが含まれる。
ED推定は、GOP内の個々のフレームの各々に対するEDの合計として考慮され得る。各フレームに対して、ED推定が様々な方法で計算され得る。
フレームのED推定の第1の例において、各フレームのED推定は、先行フレームについて、すべての可能性のあるロスイベントを考慮する。従って、ED推定は次の2つの原因、すなわち、(i)現在のフレーム自身をロスする可能性と、(ii)任意の先行フレームのロスが現在のフレームの予想された歪みに対して与える影響と、に基づいている。第2の係数は、モーション補償を使用して現在のフレームを符号化する場合、先行フレームのロスが現在のフレームの復号化に影響を与え得るという事実に基づいている。また、この2つの原因は、現在のフレームがロスされた場合、先行フレームが、現在のフレームの復号化の誤り隠蔽プロセスの一部として使用され得るという事実を示す。これはルック・バック実装である。
フレームのED推定の第2の例では、フレームに対するED推定は、(i)次のフレームをロスする可能性と、(ii)全ての後のフレームの予想された歪みに対するロス(次のフレームをロスする)等の影響とを考慮している。第2の原因は、モーション補償を使用して後のフレームを符号化する場合、次のフレームのロスは後のフレームの復号化に影響を与え得るという事実に基づいている。これはルック・アヘッド実装である。
フレームのED推定の第3の例では、フレームに対するED推定は、3つの原因を考慮する。すなわち、(i)次のフレームをロスする可能性と、(ii)限られた数の先行フレームのみをロスする可能性と、(iii)次のフレームと限られた数の先行フレーム(ロスイベント)のロスが、全ての後続フレームに与える影響とである。この第3の例は、上の数式によって説明された実施形態を概ね特徴付ける。
図7を参照すると、フレームを符号化するための方法800が提供されている。方法800の一実施形態においては、方法800は、ビデオ信号を受信するステップと、一連のネストされたループにおいてビデオを、各GOPに対しては1つのループで、GOP内の各フレームに対しては更なるループで、フレーム内の各マクロブロックに対しては更なるループで処理するステップとを含む。従って、方法800はGOPを選択するステップ(805)と、選択されたGOPからフレームを選択するステップ(810)と、選択されたフレームからMBを選択するステップ(815)とを含む。マクロブロックの処理においては、各モードに対して1つのループが使用される。従って、方法800は、選択されたMBに対してモードを選択するステップ(820)を含む。
選択されたモードに対して実施形態を用いて続行する際に、モードがインターモードである場合、MBの各サブブロックに対する最良のMVが数式12を用いて測定される(825)。一実施形態においては、MBは16×16であり、モードはMBを8×8のサイズ(モード1,4サブブロック/MB)または4×4(モード2,16サブブロック/MB)を有する一連のサブブロックに分割する。そして、数式13の括弧で囲まれた部分を使用して、RDコストが各サブブロックに対して計算され、これらのサブブロックRD値がMBに対して合計されて、MBに対する総RDコストが得られる(830)。動作830は、インターモード(Inter−mode)のモードとイントラモード(Intra−mode)のモードの両方に対して実行される。
方法800は、次いで、MBに対する総RDコストがMBに対する最低RDであるかどうかを判断する(840)。もしそうである場合、最良モードが、現在選択されているモードに設定される(840)。
方法800は、選択され、処理されるべき他のモードがあるかどうかを判断することによって、可能性のあるモードを繰りかえす(840)。その結果、全てのモードを選択し、処理した後に操作840を終了する際に、方法800は、そのMBに対して最低総計RDコストを判断して、関連する(最良)モードを判断する。方法800は、次いで最良モードおよび最良MVを用いて現在のMBを符号化する(845)。
実施形態を用いて続行するとき、選択されたMBを符号化した後に(845)、方法800は、選択されたフレーム(850)内の残りのMBを繰り返す。そして、方法800は、次のフレーム(i+1)を符号化する際に使用されることになる複数の変数を計算する(860)。変数は、(数式9の説明で先に説明したように)デコーダによって再構成された2つの中間の値および現在(フレームi)のアルファ値を含む。一実施形態において、フレームi+1を符号化する際に、フレームiのアルファは、フレーム(i+1)とこれを超えたフレームとのアルファの推定値として使用される。これらの変数は、変数を使用する方法800の他の操作に対して与えられる。一実施形態においては、図7に示されているように、変数は操作825および830に対して与えられる。方法800は、次いで残りのすべてのフレームを繰り返し(865)、終了前に残りのすべてのGOPを繰り返す(870)。
図8を参照すると、図1のHEEDエンコーダ110の実施形態であるシステム900が示されている。システム900は入力データをオプティマイザ(optimizer)910に提供し、該オプティマイザ910は、モード選択およびコード(例えば、MV)選択、ならびに入力データを、選択されたモードおよび符号に応じてデータを符号化するエンコーダ920に、提供する。オプティマイザ910は、コントローラ912,モード/コードセレクタ914,およびR−Dコスト・エスティメータ916を含み、それらすべては相互に通信する。
一実施形態においては、システム900は(図7の)方法800を実行する。エンコーダ920は、各MBに対して操作845を実行し、各フレームに対して操作860を実行し(そして、出力情報をオプティマイザ910に提供し)、オプティマイザ910は残りの操作を実行する。オプティマイザ910内では、(1)モード/コードセレクタ914が操作825および835を実行し、(2)R−Dコストエスティメータ916が操作830を実行し、(3)コントローラ912は操作805−820,840,850,および865−870を実行する。
したがって、各フレームの各MBに対して、コントローラ912は、モード/コードセレクタ914によって選択されたモード/符号を評価する。評価は、R−Dコストエスティメータ916によって提供されたレート/歪み推定に基づいており、より一般的には、評価は上述の歪み推定に基づいている。この評価によって、各MBに対する最適なモード/符号が選択され、最適モード/符号情報がエンコーダ920に提供されることになる。エンコーダ920はフレームのMBを符号化し、次のフレームについてオプティマイザ910にフィードバック情報を提供する。
説明された実施形態の機能と態様を様々なアプリケーションに適用することができる。アプリケーションは、先に説明したように、例えば、エンコーダのプリプロセッサを含む。もちろん、プリプロセッサを実際のエンコーダに組み込むことができる。しかしながら、本明細書に記載された機能と態様を、他のアプリケーション分野にも適合させることができる。
本明細書に記載した実施形態は、例えば、方法もしくはプロセス、装置、またはソフトウェアプログラムにおいて実装され得る。単一の形態の実施形態のコンテキストで単に説明された(例えば、方法としてのみ議論された)場合であっても、説明された実施形態の特徴を他の形態(例えば、装置またはプログラム)で実装することができる。装置は、例えば、適切なハードウェア、ソフトウェア、およびファームウエアにおいて実装され得る。方法は、例えば、コンピュータ、マイクロプロセッサ、集積回路、またはプログラム可能な論理デバイスを含む典型的なプロセス装置などを示すプロセッサ等の装置において実装され得る。
本明細書に記載された様々なプロセスと機能の実施形態は、様々な異なる装置またはアプリケーション、特に、例えば、ビデオ転送に関連する装置またはアプリケーションにおいて具体化され得る。装置の例には、ビデオコーダ、ビデオデコーダ、ビデオコーデック、ウェブサーバ、携帯電話、パーソナルデジタルアシスタント(「PDA」)、セットトップボックス、ラップトップ、およびパーソナルコンピュータが含まれる。これら例から明らかであるように、符号化は、例えば、無線または有線、インターネット、ケーブルテレビ回線、電話回線、およびイーサネット(登録商標)接続を含む様々なパス上で送信され得る。さらに、明らかなように、装置は携帯型であってもよく、携帯型伝達手段にもインストールされてもよい。
さらに、方法はプロセッサによって実行される命令によって実装され、そのような命令は、例えば、集積回路、ソフトウェアキャリヤー、または、例えばハードディスク、小型ディスク、ランダム・アクセス・メモリ(「RAM」)、もしくはリードオンリーメモリ(「ROM」)等の他の記憶装置など、プロセッサ読取可能媒体に記録され得る。プロセッサは、例えばプロセスを実行するための命令などを有するプロセッサ読取可能媒体を含み得る。
当業者にとって明らかであるように、実施形態は、フォーマットされた信号を生成して、例えば、記憶または送信された情報を伝えることができる。情報は、例えば方法を実行するための命令、または説明された実施形態の1つによって生成されたデータを含み得る。
多くの実施形態について説明してきた。それでもなお様々な変形形態も可能であることが理解されるだろう。例えば、異なる実施形態の要素が、他の実施形態を生成するために、結合され、補われ、変更され、または除去され得る。さらに、当業者には、他の構造とプロセスを、開示されたものと置換し、その結果得られる実施形態は、開示された実施形態と少なくとも実質的に同じ機能を、少なくとも実質的に同一の方法で実行して、少なくとも実質的に同一の結果が得られることが理解されよう。従って、これら実施形態および他の実施形態も本出願において想定されており、添付の特許請求の範囲の範囲内にある。

Claims (16)

  1. 一連のピクチャ内の特定ピクチャの少なくとも一部分と関連付けられたエンドツーエンド歪みの値を判断するステップであって、前記値は、(1)前記一連のピクチャ内の先行ピクチャから伝播されるエラーに起因する、前記特定ピクチャの歪みと、(2)前記特定ピクチャから伝播されるエラーに起因する、前記一連のピクチャ内の全ての後続ピクチャの歪みとに基づいている、ステップと、
    前記エンドツーエンド歪みの値に応じて、符号化決定を判断するステップと
    を含む、方法。
  2. 前記一連のピクチャは、イントラ符号化されたピクチャによって表される、請求項1に記載の方法。
  3. 前記特定ピクチャの歪み、および前記後続ピクチャの歪みは、同じエラーに起因している、請求項1に記載の方法。
  4. 前記全ての後続ピクチャの前記歪みに基づいて前記値を判断することは、前記特定ピクチャの前記歪みの少なくとも一部をスケーリングすることによって前記全ての後続ピクチャ内の前記歪みを近似することを含む、請求項1に記載の方法。
  5. 前記スケーリングすることは、前記一連のピクチャ内のインター符号化されたピクチャの割合に基づいて判断され係数を使用することを含む、請求項4に記載の方法。
  6. 記係数は、インター符号化された前記特定ピクチャの割合に基づいて判断される、請求項に記載の方法。
  7. 前記値を判断することは、前記一連のピクチャ内の複数ピクチャに対して当該方法を実行することによって歪みが複数回カウントされず、かつ前記複数ピクチャの歪みに対する重みの合計が1となるように、歪みに1未満の重みで重み付けすることを含む、請求項1に記載の方法。
  8. 前記値を判断することは、前記一連のピクチャ内のあるピクチャにおける歪みであって、当該ピクチャのロスと、前記ロスを隠蔽するための前記特定ピクチャの使用とから生じる歪みにさらに基づいている、請求項1に記載の方法。
  9. 前記特定ピクチャにおける前記歪みは、前記一連のピクチャ内の先行ピクチャから伝播されるエラーに起因し、
    前記特定ピクチャにおける前記歪みは、前記先行ピクチャを基準ピクチャとして使用して前記特定ピクチャをインター符号化することから生ずる、請求項1に記載の方法。
  10. 前記値は、前記特定ピクチャの前記少なくとも一部分に対して使用される特定のコードに基づいて判断され、
    前記方法は、前記判断された値に基づいて前記特定のコードを評価するステップ
    をさらに含む、請求項1に記載の方法。
  11. 前記特定ピクチャの前記少なくとも一部分と関連付けられた第2の値を判断するステップであって、前記値と前記第2の値は、前記特定ピクチャの前記少なくとも一部分に適用されている異なるコードに基づいている、ステップと、
    前記値と前記第2の値との比較に基づいて異なるコードを評価するステップと
    を含む、請求項1に記載の方法。
  12. 一連のピクチャ内のあるピクチャの少なくとも一部分のエンドツーエンド歪みを推定するように構成されたレート歪みコストエスティメータを備えた装置であって、
    前記推定は、(1)前記一連のピクチャ内の先行ピクチャから伝播されるエラーから生ずる、前記ピクチャにおける歪みと、(2)前記ピクチャから伝播されるエラーから生ずる、前記一連のピクチャ内の全ての後続ピクチャにおける歪みとに基づいており、
    前記ピクチャの少なくとも一部分に対する前記エンドツーエンド歪みに応じて符号化決定を判断する、前記装置。
  13. 前記ピクチャの少なくとも一部分を符号化する際に使用するためのコードを、前記推定されたエンドツーエンド歪みに基づいて選択するコントローラをさらに含む、請求項12に記載の装置。
  14. 一連のピクチャ内のあるピクチャの少なくとも一部分に対してコードを判断するための手段と、
    前記判断されたコードを使用して前記ピクチャの前記少なくとも一部分を符号化することに基づいて、前記ピクチャの少なくとも一部分のエンドツーエンド歪みを推定するための手段であって、前記推定は、(1)前記一連のピクチャ内の先行ピクチャから伝播されるエラーに起因する、前記ピクチャにおける歪みと、(2)前記ピクチャから伝播されるエラーに起因する、前記一連のピクチャ内の全ての後続ピクチャにおける歪みとに基づいている、前記推定するための手段と、
    前記ピクチャの前記少なくとも一部分に対する前記エンドツーエンド歪みに応じて符号化決定を判断するための手段と
    を備えた、装置。
  15. 前記推定されたエンドツーエンド歪みに基づいて前記判断されたコードを評価するための手段をさらに備えた、請求項14に記載の装置。
  16. 1つまたは複数のデバイスに、少なくとも、
    一連のピクチャ内のあるピクチャの少なくとも一部分に関連付けられたエンドツーエンド歪みの量の指標を判断することであって、(1)前記一連のピクチャ内の先行ピクチャから伝播されるエラーに起因する、前記ピクチャにおける歪みと、(2)前記ピクチャから伝播されるエラーに起因する、前記一連のピクチャ内の全ての後続ピクチャにおける歪みと基づいて、前記エンドツーエンド歪みの量の指標を判断することと、
    前記エンドツーエンド歪みの量に応じて符号化決定を判断することと
    を実行させる命令を記録したことを特徴とするプロセッサ読取可能媒体。
JP2009541295A 2006-12-15 2007-06-27 歪みの推定 Expired - Fee Related JP5303470B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US87505306P 2006-12-15 2006-12-15
US60/875,053 2006-12-15
PCT/US2007/015112 WO2008076148A2 (en) 2006-12-15 2007-06-27 Distortion estimation

Publications (2)

Publication Number Publication Date
JP2010514263A JP2010514263A (ja) 2010-04-30
JP5303470B2 true JP5303470B2 (ja) 2013-10-02

Family

ID=39536864

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009541295A Expired - Fee Related JP5303470B2 (ja) 2006-12-15 2007-06-27 歪みの推定

Country Status (6)

Country Link
US (1) US8731070B2 (ja)
EP (1) EP2105029A2 (ja)
JP (1) JP5303470B2 (ja)
CN (1) CN101595736B (ja)
BR (1) BRPI0719564A2 (ja)
WO (1) WO2008076148A2 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9743078B2 (en) 2004-07-30 2017-08-22 Euclid Discoveries, Llc Standards-compliant model-based video encoding and decoding
US8902971B2 (en) 2004-07-30 2014-12-02 Euclid Discoveries, Llc Video compression repository and model reuse
WO2010042486A1 (en) * 2008-10-07 2010-04-15 Euclid Discoveries, Llc Feature-based video compression
US9532069B2 (en) 2004-07-30 2016-12-27 Euclid Discoveries, Llc Video compression repository and model reuse
US9578345B2 (en) 2005-03-31 2017-02-21 Euclid Discoveries, Llc Model-based video encoding and decoding
CA2676023C (en) 2007-01-23 2015-11-17 Euclid Discoveries, Llc Systems and methods for providing personal video services
CA2676219C (en) 2007-01-23 2017-10-24 Euclid Discoveries, Llc Computer method and apparatus for processing image data
JP2010517426A (ja) 2007-01-23 2010-05-20 ユークリッド・ディスカバリーズ・エルエルシー オブジェクトアーカイブシステムおよび方法
CN101945275B (zh) * 2010-08-18 2012-10-24 镇江唐桥微电子有限公司 一种基于感兴趣区域的视频编码方法
ES2870332T3 (es) 2010-10-20 2021-10-26 Guangdong Oppo Mobile Telecommunications Corp Ltd Optimización de la distorsión de la tasa resistente a errores para la codificación de imágenes y video
GB2492330B (en) 2011-06-24 2017-10-18 Skype Rate-Distortion Optimization with Encoding Mode Selection
GB2492329B (en) 2011-06-24 2018-02-28 Skype Video coding
GB2492163B (en) 2011-06-24 2018-05-02 Skype Video coding
GB2493777A (en) * 2011-08-19 2013-02-20 Skype Image encoding mode selection based on error propagation distortion map
GB2495468B (en) 2011-09-02 2017-12-13 Skype Video coding
GB2495467B (en) * 2011-09-02 2017-12-13 Skype Video coding
GB2495469B (en) 2011-09-02 2017-12-13 Skype Video coding
KR20140097199A (ko) * 2011-11-24 2014-08-06 톰슨 라이센싱 비디오 품질 측정
EP2786584B1 (en) * 2011-11-28 2018-10-03 Thomson Licensing Distortion/quality measurement
US9026391B2 (en) 2012-02-29 2015-05-05 Intel Mobile Commnications GmbH Distortion estimation apparatus and method
CA2942336A1 (en) 2014-03-10 2015-09-17 Euclid Discoveries, Llc Continuous block tracking for temporal prediction in video encoding
US10091507B2 (en) 2014-03-10 2018-10-02 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
US10097851B2 (en) 2014-03-10 2018-10-09 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
US11363306B2 (en) * 2019-04-05 2022-06-14 Comcast Cable Communications, Llc Methods, systems, and apparatuses for processing video by adaptive rate distortion optimization

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0768007B1 (en) * 1995-04-25 1999-12-08 Koninklijke Philips Electronics N.V. Device and method for coding video pictures
US7639739B2 (en) 2001-11-02 2009-12-29 The Regents Of The University Of California Technique to enable efficient adaptive streaming and transcoding of video and other signals
US7106907B2 (en) 2002-10-18 2006-09-12 Mitsubishi Electric Research Laboratories, Inc Adaptive error-resilient video encoding using multiple description motion compensation
US7042943B2 (en) * 2002-11-08 2006-05-09 Apple Computer, Inc. Method and apparatus for control of rate-distortion tradeoff by mode selection in video encoders
US7349472B2 (en) 2004-02-11 2008-03-25 Mitsubishi Electric Research Laboratories, Inc. Rate-distortion models for error resilient video transcoding
EP1839445A2 (en) 2005-01-18 2007-10-03 Thomson Licensing Method and apparatus for estimating channel induced distortion
JP2009522972A (ja) * 2006-01-09 2009-06-11 ノキア コーポレイション スケーラブルなビデオ符号化におけるエラー耐性を有するモード決定
WO2007084475A2 (en) 2006-01-17 2007-07-26 Thomson Licensing Methods and apparatus for low complexity error resilient motion estimation and coding mode selection

Also Published As

Publication number Publication date
EP2105029A2 (en) 2009-09-30
BRPI0719564A2 (pt) 2014-10-07
CN101595736A (zh) 2009-12-02
WO2008076148A2 (en) 2008-06-26
CN101595736B (zh) 2013-04-24
US8731070B2 (en) 2014-05-20
US20100278275A1 (en) 2010-11-04
WO2008076148A3 (en) 2009-07-16
JP2010514263A (ja) 2010-04-30

Similar Documents

Publication Publication Date Title
JP5303470B2 (ja) 歪みの推定
US9154795B2 (en) Method and apparatus for estimating channel induced distortion
CN102098517B (zh) 用于确定解码视频块中的期望失真的方法及设备
US7653133B2 (en) Overlapped block motion compression for variable size blocks in the context of MCTF scalable video coders
KR102146583B1 (ko) 오류 전파 추적 및 수신기로부터의 오류 피드백을 이용한 비디오 리프레시 기법
EP1980115B1 (en) Method and apparatus for determining an encoding method based on a distortion value related to error concealment
US9060175B2 (en) System and method for motion estimation and mode decision for low-complexity H.264 decoder
US8238421B2 (en) Apparatus and method for estimating compression modes for H.264 codings
JP5957532B2 (ja) ビデオシーケンスにおける知覚品質評価のためのシーン変化検出
US20140301486A1 (en) Video quality assessment considering scene cut artifacts
WO2007084475A2 (en) Methods and apparatus for low complexity error resilient motion estimation and coding mode selection
JP5100658B2 (ja) ビデオ画像符号化方法及び装置
CN102946534A (zh) 视频编码
WO2008079353A1 (en) Scaling the complexity of video encoding
Chen et al. Prediction of transmission distortion for wireless video communication: Algorithm and application
Lee et al. Motion compensation complexity model for decoder-friendly H. 264 system design
CN102946532A (zh) 视频编码
Wang et al. Distortion estimation for compressed video transmission over mobile networks
Lin et al. Coding-residual-based motion vector recovery algorithm
Feng et al. Distortion derivation for different data partitions in H. 264/AVC
Satyan Novel Prediction and End-to-End Estimation Techniques for Error-Resilient Video Coding
Jing Motion compensation and bit-rate control techniques for video encoder optimization
KR20070109556A (ko) 부호화 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100618

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120229

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120302

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120604

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120611

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120903

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121012

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130115

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130122

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130412

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130524

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130624

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees