JP2007525921A

JP2007525921A - ビデオ符号化方法及び装置

Info

Publication number: JP2007525921A
Application number: JP2007501404A
Authority: JP
Inventors: ブラゼロヴィッチ，ゼフデット
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2004-03-01
Filing date: 2005-02-24
Publication date: 2007-09-06
Also published as: EP1723801A1; KR20070007295A; WO2005088980A1; CN1926884A; US20070140349A1; TW200533206A

Abstract

ビデオエンコーダは、複数の基準ブロック１１１及び画像の画像ブロックを生成する。イメージセレクタ１０５は、１つの基準ブロックを選択し、エンコーダ１０３，１０７は、選択された基準ブロックを使用して画像ブロックを符号化する。第一の変換プロセッサ１１３は、結合的な画像変換を基準ブロックのそれぞれに適用することで、変換された基準ブロックを生成し、第二の変換プロセッサ１１５は、結合的な画像変換を第一の画像ブロックに適用することで、変換された画像ブロックを生成する。ビデオエンコーダ１００は、変換された画像ブロックのデータに応答して画像を分析する分析プロセッサ１１７を有する。差のプロセッサ１１９は、変換された画像ブロックと変換された基準ブロックのそれぞれとの間の差として、複数の差の画像ブロックを生成し、これに応答して、適切な基準ブロックが選択される。アダマール変換のような結合的な変換を使用することで、画像分析及び基準ブロック選択の両者に適した変換データは、同じ動作により生成される。

Description

本発明は、ビデオエンコーダ、該エンコーダ用のビデオ符号化方法、並びに、排他するものではないが、Ｈ．２６４／ＡＶＣビデオ符号化規格に準拠したビデオ符号化のシステムに関する。

近年、ビデオ信号のデジタル記憶及び配信の使用は、益々普及している。デジタルビデオ信号を送信するために必要とされる帯域幅を低減するため、ビデオデータ圧縮を含む効率的なデジタルビデオ符号化を使用することが知られており、デジタルビデオ信号データレートは、大幅に低減される場合がある。

相互使用可能性を保証するため、ビデオ符号化規格は、多くのプロフェッショナル及びコンシューマアプリケーションにおけるデジタルビデオの適合を容易にすることにおいて重要な役割を果たしている。最も影響力のある規格は、ＩＴＵ−Ｔ（International Telecommunications Union）、又はＩＳＯ／ＩＥＣ（the international Organization for Standardization/the international Electrotechnical Committee）のＭＰＥＧ（Motion Pictures Experts Group）委員会のいずかにより従来は開発されている。ＩＴＵ−Ｔ規格は、勧告としても知られており、リアルタイム通信（たとえばビデオ会議）を典型的に狙いとしており、大部分のＭＰＥＧ規格は、（たとえばＤＶＤ（Digital Versatile Disc）用の）記憶のために、（たとえばＤＶＢ（Digital Video Broadcast）用の）ブロードキャストのために最適化される。

現在、最も広く使用されているビデオ圧縮技術の１つは、ＭＰＥＧ（Motion Pictures Experts Group）−２規格として知られている。ＭＰＥＧ−２は、ブロックベースの圧縮スキームであり、フレームは、８つの垂直画素及び８つの水平画素からそれぞれなる複数のブロックに分割される。ルミナンスデータの圧縮について、それぞれのブロックは、離散コサイン変換（ＤＣＴ）を使用し、続いて大幅な数の変換されたデータ値をゼロに低減する量子化を使用して個別に圧縮される。クロミナンスデータの圧縮について、クロミナンスデータの量は、通常、それぞれ４つのルミナンスブロックについて、２つのクロミナンスブロックが得られるように（４：２：０）ダウンサンプリングによりはじめに低減され、これらは、ＤＣＴ及び量子化を使用した同様に圧縮される。イントラフレーム圧縮にのみに基づいたフレームは、イントラフレーム（Ｉフレーム）として知られる。

フレーム内圧縮に加えて、ＭＰＥＧ−２は、データレートを更に低減するため、フレーム間圧縮を使用する。フレーム間圧縮は、前にデコード及び再構成されたフレームに基づいて予測されたフレーム（Ｐフレーム）の生成を含む。さらに、ＭＰＥＧ−２は、動き予測を使用し、ここで異なる位置にあるその後のフレームに発見される１つのフレームのマクロブロックの画像は、動きベクトルの使用により伝達される。動き予測データは、一般に、動き予測のプロセスの間に利用されるデータを示す。動き予測は、動き補償、又は等価的に、インタープレディクションのプロセスのパラメータを決定するために実行される。たとえば、ＭＰＥＧ−２及びＨ．２６４のような規格により規定されるブロックベースのビデオ符号化では、動き予測データは、典型的に、所定のマクロブロックについて候補となる動きベクトル、予測ブロックサイズ（Ｈ．２６４）、基準ピクチャ選択、又は等価的に、動き予測タイプ（後方、前方又は双方向）を含み、そのなかで、実際に符号化される動き補償データを形成するために選択が行われる。

これら補償技術の結果として、標準的なＴＶスタジオブロードキャストの品質レベルのビデオ信号は、２−４Ｍｂｐｓ前後のデータレートで送信することができる。
近年、Ｈ．２６Ｌとして知られる新たなＩＴＵ−Ｔ規格が出現している。Ｈ．２６Ｌは、ＭＰＥＧ−２のような既存の規格に比較して、その優れた符号化効率のために広く認識されてきている。Ｈ．２６Ｌのゲインはピクチャサイズに比例して一般に減少するが、広い応用範囲におけるその配置の潜在能力は疑う余地がない。この潜在能力は、ＪＶＴ（ＪｏｉｎｔＶｉｄｅｏＴｅａｍ）フォーラムの形成を通して認識されており、このフォーラムは、Ｈ．２６Ｌを新たなジョイントＩＴＵ−Ｔ／ＭＰＥＧ規格として完成させる役割を果たす。新たな規格は、Ｈ．２６４又はＭＰＥＧ−４ＡＶＣ（Advanced Video Coding）として知られる。さらに、Ｈ．２６４ベースのソリューションは、ＤＶＢ及びＤＶＤフォーラムのような他の標準の本体で考慮されている。

Ｈ．２６４／ＡＶＣ規格は、ＭＰＥＧ−２のような確立された規格から知られているブロックベースの動き補償ハイブリッド変換符号化の同じ原理を利用する。Ｈ．２６４／ＡＶＣシンタックスは、それゆえ、ピクチャヘッダ、スライスヘッダ及びマクロブロックヘッダのようなヘッダ、及び動きベクトル、ブロック変換係数、量子化スケール等のようなデータの通常のヒエラルキーとして編成される。しかし、Ｈ．２６４／ＡＶＣ規格は、ビデオデータのコンテンツを表すＶＣＬ（ＶｉｄｅｏＣｏｄｉｎｇＬａｙｅｒ）、データをフォーマット化し、ヘッダ情報を提供するＮＡＬ（ＮｅｔｗｏｒｋＡｄａｐｔａｔｉｏｎＬａｙｅｒ）を分離する。

さらに、Ｈ．２６４／ＡＶＣは、符号化パラメータの非常に増加された選択を可能にする。たとえば、Ｈ．２６４／ＡＶＣは、マクロブロックの更に精巧な区分及び操作を可能にし、たとえば、動き補償プロセスは、サイズ的に４×４と同様にマクロブロックの１６×１６ルマブロックのセグメント化で実行することができる。別に、更に効率的な拡張は、マクロブロックの予測のために可変のブロックサイズを使用する可能性である。したがって、マクロブロック（なお１６×１６画素）は、多数の小ブロックに区分される場合があり、これらサブブロックのそれぞれは、個別に予測することができる。したがって、異なるサブブロックは、異なる動きベクトルを有することができ、異なる基準ピクチャから検索することができる。また、同じブロックの動き補償された予測の選択プロセスは、隣接するピクチャ（又はフレーム）のみの代わりに、（フレームとも呼ばれる）多数の記憶された、前にデコードされたピクチャを含む場合がある。また、結果的に得られる予測エラーに従う動き補償は、従来の８×８サイズの代わりに、４×４ブロックサイズに基づいて変換及び量子化される場合がある。

Ｈ．２６４により導入される更なるエンハンスメントは、１つのフレーム（又は画像）内での空関予測の可能性である。このエンハンスメントによれば、同じフレームから前にデコードされたサンプルを使用してブロックの予測を形成することができる。

データ及び信号処理における技術的な進展と同様にデジタルビデオ規格の出現は、ビデオ処理及び記憶機器で実現されるべき付加的な機能を許容している。たとえば、近年は、ビデオ信号のコンテンツ分析の分野で著しい研究が行われている。かかるコンテンツ分析は、ビデオ信号のコンテンツの自動的な判定又は予測を可能にする。判定されたコンテンツは、コンテンツアイテムのフィルタリング、カテゴリ化又は編成を含むユーザ機能を提供するために使用される場合がある。たとえば、たとえばＴＶ放送から利用可能なビデオコンテンツにおける可用性及び変異性は、近年において著しく増加してきており、コンテンツ分析は、利用可能なコンテンツを自動的にフィルタリングし、適切なカテゴリに編成するために使用される場合がある。さらに、ビデオ機器の動作は、コンテンツの検出に応答して変更される場合がある。

コンテンツ分析は、ビデオ符号化パラメータに基づく場合があり、著しい研究は、特にＭＰＥＧ−２ビデオ符号化パラメータ及びアルゴリズムに基づいてコンテンツ分析を実行するアルゴリズムに向けられている。ＭＰＥＧ−２は、現在、コンシューマアプリケーションについて最も普及したビデオ符号化規格であり、したがって、ＭＰＥＧ−２ベースにコンテンツ分析は、広く実現される可能性がある。

Ｈ．２６４／ＡＶＣのような新たなビデオ符号化規格は、ロールアウトされるので、コンテンツ分析は、多くの応用で必要とされ、望まれている。したがって、新たなビデオ符号化規格に適したコンテンツ分析アルゴリズムは配置される必要がある。これは、著しい研究及び配置を必要とするが、これは、時間がかかり費用がかかる。したがって、適切なコンテンツ分析アルゴリズムがないことは、新たなビデオ符号化規格の取り込みを遅延又は遅らせるか、この規格のために提供することができる機能を著しく低減する。

さらに、既存のビデオシステムは、新たなコンテンツ分析アルゴリズムを導入するため、置き換えられるか、更新される必要がある。これは、新たなビデオ符号化規格の導入の費用を高くし、遅延させている。代替的に、新たなビデオ符号化規格に従って信号を復号化し、続いてＭＰＥＧ−２ビデオ符号化規格に従って再符号化するのに作用する付加的な機器が導入される必要がある。かかる機器は複雑であり、必要がかかり、高い計算上のリソースの要件を有する。

特に、多くのコンテンツ分析アルゴリズムは、イントラ符号化されたピクチャから得られたＤＣＴ（Discrete Cosine Transform）係数の使用に基づいている。かかるアルゴリズムの例は、J. Wang, Mohan S. Kankanhali, Philippe Mulhem, Hadi Hassan Abdulredhaによる“Face Detection Using DCT Coefficients in MPEG Video”, In Proc. Int. Workshop on Advanced Image Technology (IWAIT 2002), pp60-70, Hualien, Taiwan, January 2002、及びF. Snijder, P.Merloによる“Carlton Detection Using Low-Level AV Features”, 3^rd Int. Workshop on Content-Based Multimedia Indexing (CBMI 2003), Rennes, France, September 2003で開示されている。

特に、画像におけるＤＣＴ画像ブロックのＤＣ（“Direct Current”）係数の統計量は、（たとえば、スキントーン検出について）コンテンツ分析の多くのタイプで使用される、画像ブロックの明るさの局所的な特性を直接示すことができる。さらに、イントラ符号化された画像における画像ブロックのＤＣＴ係数は、画像の符号化及び復号化の間に便利なことに生成されるので、更なる複雑さは、コンテンツ分析により受けない。

しかし、Ｈ．２６４／ＡＶＣ規格に従うイントラフレームの符号化では、画像ブロックと予測されたブロックとの間の差のみがＤＣＴ変換により変換される。用語「ＤＣＴ係数」は、ＤＣＴ変換から導出されたブロック変換を含むＨ．２６４／ＡＶＣの異なる符号化のブロック変換を含むことが意図される。したがって、Ｈ．２６４／ＡＶＣに従うＤＣＴが前の規格におけるような画像ブロックに直接に適用されるよりはむしろ、空関予測の残りに適用されるので、ＤＣ係数は、予測されている画像ブロックのルマ平均よりも予測誤差の平均を示す。これに応じて、ＤＣ値に基づいた既存のコンテンツ分析アルゴリズムは、ＤＣＴ係数に直接適用することができない。

たとえば、オリジナルの画像ブロックにＨ．２６４／ＡＶＣＤＣＴ変換を付加的に実行することで、符号化プロセスから独立かつ個別にルマ平均を生成することが可能な場合がある。しかし、これは、個別の動作を必要とし、増加された複雑さ及び計算上のリソースの要件を生じる。

したがって、改善されたビデオ符号化が有利であって、特に、画像の容易及び／又は増加されたパフォーマンスの分析を可能にするビデオ符号化、及び／又は、ビデオ符号化の容易及び／又は増加されたパフォーマンスを可能にするビデオ符号化が有利である。

したがって、本発明は、上述された問題点又はその何れかの組み合わせの１以上を緩和、軽減又は除去するものである。

本発明の第一の態様では、符号化されるべき画像から第一の画像ブロックを生成する手段、複数の基準画像を生成する手段、関連する画像変換を第一の画像ブロックに適用することで、変換された画像ブロックを生成する手段、関連する画像変換を複数の基準ブロックのそれぞれに適用することで、複数の変換された基準ブロックを生成する手段、変換された画像ブロックと複数の変換された基準ブロックのそれぞれとの間の差を決定することで複数の残差の画像ブロックを生成する手段、複数の残差の画像ブロックに応答して複数の基準ブロックの選択されたブロックを選択する手段、選択された基準ブロックに応答して第一の画像ブロックを符号化する手段、及び、変換された画像ブロックのデータに応答して画像の分析を実行する手段を有するビデオエンコーダが提供される。

本発明は、画像の分析を実行する便利で、実現するのに容易であって、及び／又は低い複雑さのやり方を提供する場合がある。特に、分析の適切なデータの生成は、符号化のための適切な基準ブロックを選択する機能性と統合される場合がある。したがって、符号化機能と分析機能との間の相互依存的な作用が達成される。特に、関連する画像変換を第一の画像ブロックに適用することで変換された画像ブロックを生成する結果は、画像の分析及び画像の符号化の両方のために使用される場合がある。

ある用途では、より簡単及び／又は更に適切な実現が達成される。たとえば、基準ブロックが異なる画像ブロックの間で実質的に変化しない場合、同じ変換された基準ブロックは、複数の画像ブロックのために使用される場合があり、これにより、複雑さ及び／又は必要とされる計算上のリソースが低減される。ある用途では、改善されたデータ及び／又はフロー構造は、はじめに差のブロックを生成し、続いて変換を実行するよりはむしろ、変換されたブロックをはじめに生成し、続いて差のブロックを生成することで達成される。

特に、本発明は、符号化機能を可能にし、特に、残差の画像ブロックの変換よりはむしろ、画像ブロックそれ自身の変換に応答するように、基準ブロックの選択を可能にする。これは、変換の結果が画像の適切な分析のために使用される場合がある画像ブロックを示す情報を保持するのを可能にする。特に、変換された画像ブロックは、対応するＤＣＴ変換のＤＣ係数を表すデータを含む場合があり、これにより、多数の既存のアルゴリズムが生成されたデータを使用するのを可能にする。

残差の画像ブロックは、変換された画像ブロックの個々のコンポーネントと複数の変換された基準ブロックのそれぞれの個々のコンポーネントとの間の差として決定される場合がある。

本発明の特徴によれば、結合的な変換は線形変換である。これは、適切な実現を提供する。本発明の異なる特徴によれば、結合的な変換は、アダマール変換である。アダマール変換は、分析と基準ブロックの選択の両者に適した変換特性を生成する間、変換を要求する比較的低い複雑さ及び計算上のリソースを提供する特に適切な結合的な変換である。特に、アダマール変換は、適切なＤＣ係数（画像ブロックのサンプルの平均データ値を表す係数）を生成し、典型的に、同じ画像ブロックに適用されるＤＣＴ変換の高周波係数を示す係数を生成する。さらに、アダマール変換は、Ｈ．２６４のような有利な符号化スキームの勧告と互換性がある。

本発明の異なる特徴によれば、結合的な変換は、変換された画像ブロックのデータポイントが対応する変換されていない画像ブロックのデータポイントの平均値との予め決定された関係を有するようなものとなる。

画像のデータポイントの平均値は、典型的に、画像分析を実行するための特定の関心である。たとえば、ＤＣＴのＤＣ係数は、多くの分析アルゴリズムで使用される。ＤＣ係数は、画像ブロックのデータポイントの平均値に対応し、この値に（直接的に、又は予め決定された関係を通して）対応するデータポイントを生成する変換を使用することで、これらの分析は、結合的な変換と共に使用される場合がある。

本発明の異なる特徴によれば、画像の分析を実行する手段は、変換された画像ブロックのデータに応答して画像のコンテンツ分析を実行するために作用する。これに応じて、本発明は、結合されたコンテンツ分析と画像符号化を容易にし、これらの機能の間で相互依存的な影響を利用するビデオエンコーダを提供する。

本発明の異なる特徴によれば、画像の分析を実行する手段は、変換された画像ブロックのＤＣ（直流）パラメータに応答して、画像のコンテンツ分析を実行するために作用する。ＤＣパラメータは、画像ブロックのデータの平均値を表すパラメータに対応する。これは、高いパフォーマンスを提供する特に適切なコンテンツ分析を提供する。

本発明の異なる機能によれば、複数の基準ブロックを生成する手段は、画像のみのデータ値に応答して基準ブロックを生成するために作用する。好ましくは、ビデオエンコーダは、イントラ画像として画像を符号化するために作用し、すなわち現在の画像から画像データを使用することのみであって、他の画像からの動き予測を使用することなしに、画像を符号化するために作用する。これは、特定の有利な実現を可能にする。

本発明の異なる特徴によれば、第一の画像ブロックは、ルミナンスデータを含む。好ましくは、第一の画像ブロックは、ルミナンスデータのみを含む。これは、特に有利な実現を提供し、特に、効率的なパフォーマンスを提供しつつ、分析の比較的低い複雑さを可能にする。

好ましくは、第一の画像ブロックは、４×４ルミナンスデータマトリクスからなる。第一の画像ブロックは、たとえば、１６×１６ルミナンスデータマトリクスから構成される場合がある。

本発明の異なる特徴によれば、符号化手段は、第一の画像ブロックと選択された基準ブロックとの間の差のブロックを決定し、非結合的な変換を使用して差のブロックを変換する。これは、たとえばＤＣＴ変換が画像ブロックの画像データを符号化するために使用される場合があるので、改善された符号化品質を提供する。特に、たとえば使用されるべきＤＣＴ変換を必要とする適切なビデオ符号化アルゴリズムとの互換性を提供する場合がある。
好ましくは、ビデオエンコーダは、Ｈ．２６４／ＡＶＣビデオエンコーダである。

本発明の第二の態様によれば、ビデオ符号化方法が提供され、当該方法は、符号化されるべき画像から第一の画像ブロックを生成するステップ、複数の基準ブロックを生成するステップ、結合的な画像変換を第一の画像ブロックに適用することで、変換された画像ブロックを生成するステップ、結合的な画像変換を複数の基準ブロックのそれぞれに適用することで、複数の変換された基準ブロックを生成するステップ、変換された画像ブロックと複数の基準ブロックのそれぞれとの間の差を決定することで、複数の残差の画像を生成するステップ、複数の残差の画像ブロックに応答して、複数の基準ブロックのうちの選択された基準ブロックを選択するステップ、選択された基準ブロックに応答して第一の画像ブロックを符号化するステップ、及び、変換された画像ブロックのデータに応答して画像の分析を実行するステップを含む。

本発明のこれらの態様、特徴及び利点、並びに他の態様、特徴及び利点は、以下に記載される実施の形態を参照して明らかにされるであろう。本発明の実施の形態は、添付図面を参照して、例示により説明される。

以下の説明は、イントラ画像符号化を実行するビデオエンコーダ、特にＨ．２６４／ＡＶＣエンコーダに適用可能な本発明の実施の形態に焦点を当てている。さらに、ビデオエンコーダは、コンテンツ分析を実行する機能性を含む。しかし、本発明はこの用途に限定されず、多くの他のタイプのビデオエンコーダ、ビデオ符号化動作及び他の分析アルゴリズムに適用される場合があることが理解される。

図１は、本発明の実施の形態に係るビデオエンコーダを例示する図である。特に、図１は、画像のイントラ符号化を実行する機能を例示している（すなわち、その画像（又はフレーム）それ自身の画像情報にのみ基づく）。図１のビデオエンコーダは、Ｈ．２６４／ＡＶＣ符号化規格に従って動作する。

ＭＰＥＧ−２のような以前の規格に類似して、Ｈ．２６４／ＡＶＣは、イントラモード、すなわち（隣接する画像のコンテンツに基づいて）時間的な予測を使用することなしで、画像ブロックを符号化する手段を有する。しかし、前の規格とは対照的に、Ｈ．２６４／ＡＶＣは、イントラ符号化のために使用される画像内での空関予測を提供する。したがって、基準又は予測ブロックＰは、同じピクチャにおいて前に符号化され、再構成されたサンプルから生成される場合がある。次いで、基準ブロックは、符号化前の実際の画像ブロックから減算される。したがって、Ｈ．２６４／ＡＶＣでは、差のブロックは、イントラ符号化で生成され、実際の画像ブロックよりはむしろ差のブロックは、ＤＣＴ及び量子化演算を適用することでその後に符号化される。

ルマサンプルについて、Ｐは、１６×１６画素のマクロブロック、又はそれぞれ４×４のサブブロックについて形成される。それぞれ４×４のブロックについて全体で９つの任意の予測モードがあり、１６×１６マクロブロックについて４つの任意のモードが存在し、それぞれ４×４のクロマブロックに常に適用される１つのモードが存在する。

図２は、符号化されるべきルママクロブロックを例示している。図２ａは、オリジナルのマクロブロックを例示しており、図２ｂは、既に符号化された画素の画像サンプルから生成された基準又は予測ブロックを使用して符号化された４×４のサブブロックを示す。例では、サブブロックの左上の画像サンプルは、前もって符号化され、再構成されており、したがって、符号化プロセスにとって利用可能である（マクロブロックをデコードするデコーダにとって利用可能である）。

図３は、４×４の基準ブロックの画像サンプル、及び４×４の基準ブロックの次の画像サンプルを例示している。特に、図３は、予測ブロックＰ（ａ−ｐ）を構成する画像サンプルのラベリング、予測ブロックＰを生成するために使用される画像サンプル（Ａ−Ｍ）の相対的な位置及びラベリングを例示している。

図４は、Ｈ．２６４／ＡＶＣの異なる予測モードの予測方向を例示する図である。モード３−８について、予測サンプルａ−ｐのそれぞれは、サンプルＡ−Ｍの重み付け平均として計算される。モード０−２について、全てのサンプルａ−ｐには、同じ値が与えられ、これらは、サンプルＡ−Ｄ（モード２）、Ｉ−Ｌ（モード１）、又は、Ａ−Ｄ及びＩ−Ｌの全体（モード０）の平均に対応する。類似の予測モードがマクロブロックについてのような他の画像ブロックについて存在することを理解されたい。

エンコーダは、典型的に、そのブロックと対応する予測Ｐとの間の差を最小にするそれぞれ４×４ブロックについて予測モードを選択する。
したがって、従来のＨ．２６４／ＡＶＣエンコーダは、それぞれの予測モードについて予測ブロックを典型的に生成し、これを符号化されるべき画像ブロックから減算して、差のデータブロックを生成し、適切な変換を使用して差のデータブロックを変換し、最も低い値が得られる予測ブロックを選択する。差のデータは、典型的に、符号化されるべき実際の画像ブロックと対応する予測ブロックとの間の画素毎の差として形成される。

なお、それぞれ４×４ブロックのイントラ予測モードの選択は、デコーダに合図される必要があり、その目的のため、Ｈ．２６４は、効率的な符号化手順を定義する。
エンコーダにより使用されるブロック変換は、以下により定義される場合がある。

ここで
（外１）

はＮ×Ｎ画像ブロックであり、
（外２）

はＮ×Ｎ変換係数を含み、
（外３）

は前もって定義されたＮ×Ｎ変換マトリクスである。変換が画像ブロックに適用されたとき、どの位多くのそれぞれの基本機能が原画像に存在するかを示す、変換係数と呼ばれる重み付けされた値のマトリクス
（外４）

が得られる。

たとえば、ＤＣＴ変換について、異なる空間周波数での信号分布を反映する変換係数が生成される。特に、ＤＣＴ変換は、実質的にゼロの周波数に対応するＤＣ（「直流」）係数を生成する。したがって、ＤＣ係数は、変換が適用される画像ブロックの画像サンプルの平均値に対応する。典型的に、ＤＣ係数は、残りの高い空間周波数（ＡＣ）係数よりも非常に大きな値を有する。

Ｈ．２６４／ＡＶＣは予測モードを選択するための基準に従う手順を規定していないが、２次元アダマール変換及びレート歪み（ＲＤ）に基づいた方法が進められる。この方法によれば、それぞれの差の画像ブロック、すなわち原画像ブロックと予測ブロックとの間の差は、選択のために（たとえばＲＤ基準に従って）評価される前に、アダマール変換により変換される。

ＤＣＴと比較して、アダマール変換は、非常にシンプルかつ計算上の要求がない変換である。さらに、ＤＣＴにより達成可能な結果を一般に表すデータが得られる。したがって、フルＤＣＴ変換を必要とするよりはむしろアダマール変換に基づいた予測ブロックの選択に基づくことができる。予測ブロックが選択されると、対応する差のブロックは、次いでＤＣＴ変換により符号化される場合がある。

しかし、本方法は、変換を画像ブロックに直接適用するよりはむしろ、差のデータブロックに適用するので、生成される情報は、原画像のブロックを表さず、予測エラーのみを表す。これは、変換係数に基づいた画像解析を妨げ、少なくとも複雑にする。たとえば、画像ブロックについて変換係数の情報を利用することに基づいた多くの解析アルゴリズムは開発されており、したがって、従来のＨ．２６４／ＡＶＣエンコーダで直接適用することができない。特に、多くのアルゴリズムは、画素ブロックの平均の特性を示すとして、変換のＤＣ係数に基づいている。しかし、典型的なＨ．２６４／ＡＶＣアプローチについて、ＤＣ係数は、原画像ブロックを表さず、予測エラーの平均値を示すのみである。

例として、コンテンツ分析は、ビデオ信号の特性に基づいてビデオコンテンツを自動的に決定することに向けられる画像処理、パターン認識及び人工知能からの方法を含む。使用される特性は、カラー及びテクスチャのような低レベル信号に関連する特性から、顔の存在及び位置のような高水準の情報に変動する。コンテンツ分析の結果は、商業的な検出、ビデオプレビュー、ジャンル分類等の様々な用途向けに使用される。

現在、多くのコンテンツ分析アルゴリズムは、イントラ符号化画像に対応するＤＣＴ（離散コサイン変換）係数に基づいている。特に、ルマブロックのＤＣ（「直流」）係数の統計量は、画像ブロックのルミナンスの局所的な特性を直接的に示すことができ、したがって、（たとえばスキントーン検出といった）コンテンツ分析の多くのタイプにおける重要なパラメータである。しかし、従来のＨ．２６４／ＡＶＣエンコーダでは、このデータは、イントラ予測を使用して画像ブロックにとって利用可能ではない。したがって、これらのアルゴリズムは、使用することができないか、情報は、独立して生成される必要があり、エンコーダの増加された複雑さにつながる。

現在の実施の形態では、予測ブロックの選択に対する異なるアプローチが提案される。結合的な変換は、差のデータブロックよりはむしろ、画像ブロック及び予測ブロックに直接的に適用される。次いで、画像ブロックの変換係数は直接的に使用され、これにより、画像ブロックの変換係数に基づいてアルゴリズムの使用を許容する。たとえば、ＤＣ係数に基づいたコンテンツ分析を適用することができる。さらに、残りのデータブロックは、変換された基準ブロックを変換された画像ブロックから引くことで、変換領域で生成される。変換は結合的であるので、動作の順序は重要ではなく、変換前よりはむしろ変換後に減算を実行することは、結果を変えない。したがって、アプローチは、基準ブロックの選択に関して同じ性能を提供するが（したがって予測モード）、符号化処理の統合された部分として画像分析に適したデータを更に生成する。

更に詳細には、図１のビデオエンコーダ１００は、イントラ符号化（すなわち、Ｈ．２６４／ＡＶＣのＩフレームとしての符号化）のビデオ系列の画像（又はフレーム）を受信するイメージディバイダ１０１を有する。イメージディバイダ１０１は、画像を適切なマクロブロックに分割し、本実施の形態では、符号化されるべき、特定の４×４のルミナンスサンプル画像ブロックを生成する。ビデオエンコーダ１００の動作は、明確さのために、この画像ブロックの処理を特に参照して記載される。

イメージディバイダ１０１は、イメージセレクタ１０５にも結合される差プロセッサ１０３に結合される。差のプロセッサ１０３は、イメージセレクタ１０５から選択された基準ブロックを受信し、これに応じて、選択された基準ブロックを原画像ブロックから減算することで差のブロックを決定する。

差のプロセッサ１０３は、ＤＣＴ変換を実行し、Ｈ．２６４／ＡＶＣ規格に従って係数を量子化することで差のブロックを符号化する符号化ユニット１０７に更に結合される。符号化エレメントは、異なる画像ブロック及びフレームからのデータを更に結合し、当業者にとって公知のＨ．２６４／ＡＶＣビットストリームを生成する場合がある。

符号化ユニット１０７は、符号化ユニット１０７から画像データを受信し、Ｈ．２６４／ＡＶＣ規格に従ってこのデータの復号化を実行する復号化ユニット１０９に更に結合される。したがって、復号化ユニット１０９は、Ｈ．２６４／ＡＶＣデコーダにより生成されるデータに対応するデータを生成する。特に、所与の画像ブロックを符号化するとき、復号化ユニット１０９は、既に符号化された画像ブロックに対応する復号化された画像データを生成する場合がある。たとえば、復号化ユニットは、図３のサンプルＡ−Ｍを生成する場合がある。

復号化ユニット１０９は、復号化されたデータを受信する基準ブロックジェネレータ１１１に結合される。これに応じて、基準ブロックジェネレータ１１１は、現在の画像ブロックの符号化における使用のために複数の可能性のある基準ブロックを生成する。特に、基準ブロックジェネレータ１１１は、それぞれ可能性のある予測モードについて１つの基準ブロックを生成する。したがって、特定の実施の形態では、基準ブロックジェネレータ１１１は、Ｈ．２６４／ＡＶＣ予測モードに従って９つの予測ブロックを生成する。基準ブロックジェネレータ１１１は、イメージセレクタ１０５に結合され、選択のために基準ブロックをこれに供給する。

基準ブロックジェネレータ１１１は、第一の変換プロセッサ１１３に更に結合され、第一の変換プロセッサは、基準ブロックジェネレータ１１１から基準ブロックを受信する。第一の変換プロセッサ１１３は、基準ブロックのそれぞれに結合的な変換を実行し、これにより、変換された基準ブロックを生成する。幾つかの予測モードについて、完全に実現された変換が必要とされない場合があることを理解されたい。たとえば、基準ブロックの全てのサンプル値が同一である予測モードについて、簡単な総和が使用され、全ての他の係数がゼロに設定されているＤＣ係数が決定される場合がある。

実施の形態では、結合的な変換は線形変換であり、特にアダマール変換である。アダマール変換は、実現するのがシンプルであり、更に結合的であるので、これにより、変換前よりはむしろ変換された後に、実行されるべき画像ブロック間の減算を可能となる。この事実は、現在の実施の形態で利用される。

したがって、ビデオエンコーダ１００は、イメージディバイダ１０１に結合される第二の変換プロセッサ１１５を更に有する。第二の変換プロセッサ１１５は、イメージディバイダ１０１から画像ブロックを受信し、結合的な変換を実行して変換された画像ブロックを生成する。特に、第二の変換プロセッサ１１５は、画像ブロックにアダマール変換を実行する。

このアプローチの利点は、符号化プロセスが残余又は差の画像データに対してよりはむしろ、実際の画像ブロックに適用される変換を含むことである。したがって、変換された画像ブロックは、これと基準ブロックの間の予測誤差に対してよりはむしろ、画像ブロックの画像データに直接関連する情報を含む。特に、アダマールは、画像ブロックのサンプルの平均値に関連するＤＣ係数を生成する。

したがって、第二の変換プロセッサ１１５は、画像解析プロセッサ１１７に更に結合される。画像解析プロセッサ１１７は、変換された画像ブロックを使用して画像分析を実行するために作用し、特に、これと他の画像ブロックのＤＣ係数を使用して、コンテンツ分析を実行するために作用する。

１つの例は、ビデオにおけるショットの境界の検出である（ショットは、１つのカメラから撮影された破壊されていない画像系列として定義することができる）。ＤＣ係数は、ＤＣ係数の差の合計の統計量が一連の連続するフレームに沿って測定されるように使用される場合がある。これら統計量における変動は、ショットカットのような、コンテンツにおける潜在的な遷移を示すために使用される。

画像解析の結果は、ビデオエンコーダで内部的に使用されるか、たとえば他のユニットに伝達される場合がある。たとえば、コンテンツ分析の結果は、たとえば、Ｈ．２６４／ＡＶＣのビットストリームの補助的又はユーザデータセクションにデータを含むことで、Ｈ．２６４／ＡＶＣビットストリームにおけるメタデータとして含まれる場合がある。

第一の変換プロセッサ１１３及び第二の変換プロセッサ１１５は、残差のプロセッサ１１９に共に結合され、この残差のプロセッサ１１９は、変換された画像ブロックと複数の変換された基準ブロックのそれぞれとの間の差を決定することで、複数の残差画像ブロックを生成する。したがって、それぞれ可能性のある予測モードについて、残差のプロセッサ１１９は、画像ブロックと対応する基準ブロックとの間の予測エラーの（変換領域における）情報を含む残差のブロックを生成する。

印加された変換の結合的な性質のため、生成された残余の画像ブロックは、変換されていない領域で異なる画像ブロックを始めに生成し、その後にこれらを変換することで得ることができる変換された差のブロックに等価である。しかし、さらに、現在の実施の形態は、符号化プロセスの統合された部分として画像解析に適したデータの生成を可能にする。

差のプロセッサ１１９は、決定された差の画像ブロックを受信するイメージセレクタ１０５に結合される。イメージセレクタ１０５は、これに応じて、画像ブロックの符号化において差のプロセッサ１０３及び符号化ユニット１０７により使用された基準ブロック（及び従って予測モード）を選択する。選択基準は、たとえば、Ｈ．２６４／ＡＶＣ符号化について勧告されるようなレート歪み基準である場合がある。

特に、レート歪みの最適化は、所与のターゲットビットについて良好なデコードされたビデオ品質を効果的に達成することを狙いとする。たとえば、最適な予測ブロックは、必ずしも必要な原画像のブロックとの最小の差を与えるブロックである必要はないが、データの符号化を考慮した、ブロックの差のサイズとビットレートとの間の良好なバランスを達成するブロックである。特に、ビットレートのそれぞれの予測は、符号化プロセス連続するステージを通して対応する差のブロックをパスすることで予測することができる。

明確さ及び簡略さの先の記載は、特定の機能のパーティションを例示しているが、このことは対応するハードウェア又はソフトウェアのパーティショソンを意味するものではなく、適切な機能の実現も同様に評価されることを理解されたい。たとえば、全体の符号化プロセスは、シングルマイクロプロセッサ又はデジタルシグナルプロセッサのファームウェアとして有利にも実現される。さらに、第一の変換プロセッサ１１３及び第二の変換プロセッサ１１５は、パラレルの個別のエレメントとして実現される必要はないが、同じ機能を連続して使用することで実現される場合がある。たとえば、これらは、同じ専用ハードウェア又は同じサブルーチンにより実現される場合がある。

記載された実施の形態によれば、結合的な変換は、予測モードを選択するために使用される。したがって、変換は、以下の基準に特に適合する場合がある。

ここで
（外５）

は変換を示し、
（外６）

は画像ブロック（マトリクス）を示し、
（外７）

は基準ブロック（マトリクス）を示す。したがって、変換は、減算及び加算に関して結合的である。

アダマール変換は、現在の実施の形態に特に適している。アダマール変換は線形変換であり、アダマール係数は、一般に、対応するＤＣＴ係数と同様の特性を有する。特に、アダマール変換は、基本となる画像ブロックにおけるサンプルのスケーリングされた平均を表すＤＣ係数を生成する。さらに、線形特性に基づいて、２つのブロックの差のアダマール変換は、２つのブロックのアダマール変換の差として等価的に計算される。

特に、アダマール変換の結合的な性質は、以下に例示される。
（外８）

を２つのＮ×Ｎマトリクスとし、
（外９）

を
（外１０）

からの対応するエレメントから、
（外１１）

からのそれぞれのエレメントを引くことで得られる差であり、
（外１２）

をＮ×Ｎのアダマール行列とする。これらを変換の式

に置き換えることで、対応するアダマール変換
（外１３）

が計算される場合がある。この狙いは、
（外１４）

が
（外１５）

に同一であることを証明することである。

簡単さのため、Ｎ＝２のケースを考える。次いで、以下を有する。

これにより、以下を得る。

したがって、特定の実施の形態では、アダマール変換のそれぞれのルマブロック及び対応する予測（基準）ブロックのそれぞれに対する適用は、同じ動作がコンテンツ解析及び符号化のために予測モードの選択の両者に適したパラメータを生成することを達成する。

本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらの組み合わせを含む何れかの適切な形式で実現することができる。しかし、好ましくは、本発明は、１以上のデータプロセッサ及び／又はデジタルシグナルプロセッサで実行するコンピュータソフトウェアとして実現される。本発明の実施の形態のエレメント及びコンポーネントは、何れかの適切なやり方で物理的、機能的及び論理的に実現される場合がある。確かに、機能は、単一のユニット、複数のユニット、又は他の機能的なユニットとして実現される場合がある。かかるように、本発明は、単一のユニットで実現される場合があるか、異なるユニット及びプロセッサの間で物理的及び機能的に分散される場合がある。

本発明は、好適な実施の形態と共に記載されたが、本明細書で述べられた特定の形式に制限されることが意図されない。むしろ、本発明の範囲は、特許請求の範囲によってのみ制限される。請求項では、用語「有する“comprising”」は、他のエレメント又はステップの存在を排除するものではない。さらに、個々に列挙されたが、複数の手段、エレメント又は方法ステップは、たとえば単一のユニット又はプロセッサにより実現される場合がある。さらに、個々の特徴が異なる請求項で含まれる場合があるが、これらは、有利に結合される場合があり、異なる請求項に含まれることは、特徴の組み合わせが実施可能及び／又は有効ではないことを意味していない。さらに、単数の参照は、複数を排除するものではない。“ａ”，“ａｎ”，“ｆｉｒｓｔ”，“ｓｅｃｏｎｄ”への参照は、複数を排除するものではない。

本発明の実施の形態に係るビデオエンコーダを例示する図である。図２ａ及び図２ｂは、符号化されるべきルママクロブロックを例示する図である。４×４の基準ブロックの画像サンプル、及び４×４の基準ブロックの次の画像サンプルを例示する図である。Ｈ．２６４／ＡＶＣの異なる予測モードのための予測の方向を例示する図である。

Claims

符号化されるべき画像から第一の画像ブロックを生成する手段と、
複数の基準ブロックを生成する手段と、
結合的な画像変換を前記第一の画像ブロックに適用することで、変換された画像ブロックを生成する手段と、
前記結合的な画像変換を前記複数の基準ブロックのそれぞれに適用することで、複数の変換された基準ブロックを生成する手段と、
前記変換された画像ブロックと前記複数の変換された基準ブロックのそれぞれとの間の差を決定することで、複数の差の画像ブロックを生成する手段と、
前記複数の差の画像ブロックに応答して、前記複数の基準ブロックのうちで選択された基準ブロックを選択する手段と、
選択された基準ブロックに応答して、前記第一の画像ブロックを符号化する手段と、
前記変換された画像ブロックのデータに応答して、前記画像の分析を実行する手段と、
を含むことを特徴とするビデオエンコーダ。
前記結合的な変換は線形変換である、
請求項１記載のビデオエンコーダ。
前記結合的な変換はアダマール変換である、
請求項１記載のビデオエンコーダ。
前記結合的な変換は、変換された画像ブロックのデータポイントが対応する変換されていない画像ブロックのデータポイントの平均値と予め決定された関係を有する、
請求項１記載のビデオエンコーダ。
前期画像の分析を実行する手段は、前記変換された画像ブロックのデータに応答して前記画像のコンテンツ分析を実行するために作用する、
請求項１記載のビデオエンコーダ。
前記画像の分析を実行する手段は、前記変換された画像ブロックの直流パラメータに応答して前記画像のコンテンツ分析を実行するために作用する、
請求項５記載のビデオエンコーダ。
複数の基準ブロックを生成する手段は、前記画像のデータ値に応答して前記基準ブロックを生成するために作用する、
請求項１記載のビデオエンコーダ。
前記第一の画像ブロックは、ルミナンスデータを含む、
請求項１記載のビデオエンコーダ。
前記第一の画像ブロックは、４×４のルミナンスマトリクスからなる、
請求項１記載のビデオエンコーダ。
前記符号化する手段は、前記第一の画像ブロックと前記選択された基準ブロックとの間の差のブロックを決定する手段と、結合的ではない変換を使用して前記差のブロックを変換する手段とを有する、
請求項１記載のビデオエンコーダ。
前記ビデオエンコーダは、Ｈ．２６４／ＡＶＣビデオエンコーダである、
請求項１記載のビデオエンコーダ。
符号化されるべき画像から第一の画像ブロックを生成するステップと、
複数の基準ブロックを生成するステップと、
結合的な画像変換を前記第一の画像ブロックに適用することで変換された画像ブロックを生成するステップと、
前記結合的な画像変換を前記複数の基準ブロックのそれぞれに適用することで、複数の変換された基準ブロックを生成するステップと、
前記変換された画像ブロックと前記複数の変換された基準ブロックのそれぞれとの間の差を決定することで、複数の差の画像ブロックを生成するステップと、
前記複数の差の画像ブロックに応答して前記複数の基準ブロックのうちの選択された基準ブロックを選択するステップと、
選択された基準ブロックに応答して前記第一の画像ブロックを符号化するステップと、
前記変換された画像ブロックのデータに応答して前記画像の分析を実行するステップと、
を含むことを特徴とするビデオ符号化方法。
請求項１２記載の方法を実行するのを可能にするコンピュータプログラム。
請求項１３記載のコンピュータプログラムを含む記録媒体。