JP5797634B2

JP5797634B2 - ビデオエンコーダにおける高速な幾何学的なモードの判定方法及び装置

Info

Publication number: JP5797634B2
Application number: JP2012251512A
Authority: JP
Inventors: ロウジァン; ディヴォラエスコーダオスカー; インペン; インぺン; リュシャオアン
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2007-04-12
Filing date: 2012-11-15
Publication date: 2015-10-21
Anticipated expiration: 2028-04-03
Also published as: JP2013055689A; EP2137982A2; CN103501440A; CN101731012B; US20100118959A1; WO2008127568A3; CN101731012A; JP2015146635A; KR20100015462A; KR101680951B1; KR20140119803A; US9288504B2; JP2013158046A; WO2008127568A2; EP2137982B1; JP2013055690A; JP2010524396A; CN103501440B; KR101658669B1; JP5797635B2

Description

本発明は、ビデオ符号化に関し、より詳細には、ビデオエンコーダにおける高速な幾何学的なモードの判定方法及び装置に関する。
本出願は、2007年4月12日に提出された米国特許出願第60/911,486号の利益を特許請求するものであり、この内容は引用により完全な形で本明細書に盛り込まれる。

ＩＳＯ／ＩＥＣ（International Organization for Standardization/International Electrotechnical Commission）ＭＰＥＧ−４（Moving Picture Experts Group-4）Ｐａｒｔ１０ＡＶＣ（Advanced Video Coding）標準／ＩＴＵ−Ｔ（International Telecommunication Union, Telecommunication Sector）Ｈ．２６４勧告（以下、ＭＰＥＧ−４ＡＶＣ標準）では、インター符号化（inter-coded）１６×１６画素のマクロブロックは、サイズ１６×８，８×１６又は８×８のマクロブロックのパーティションに分割される。８×８画素のマクロブロックのパーティションは、サブマクロブロックとして知られる。サブマクロブロックは、サイズ８×４，４×８及び４×４のサブマクロブロックのパーティションに更に分割される。エンコーダは、圧縮効率及び主観的品質を最大にするため、特定のマクロブロックの特性に基づいて、マクロブロックをどのようにパーティション、サブマクロブロックのパーティションに分割するかを選択する。

さらに、MPEG-4 AVCは、イントラ（INTRA）、スキップ（SKIP）及びダイレクト（DIRECT）モードをサポートする。イントラモードは、イントラ４×４、イントラ１６×１６、及び高忠実度モードのみであるイントラ８×８といった３つのタイプを許容する。イントラ４×４及びイントラ８×８は、垂直、水平、ＤＣ、斜め下／左、斜め下／右、垂直−左、水平−下、垂直−右、及び水平−上の予測といった９つの予測モードをサポートする。イントラ１６×１６は、垂直、水平、ＤＣ及びプレーンの予測といった４つの予測モードをサポートする。

モード判定に関して、イントラピクチャは、イントラモードをサポートし、インターピクチャは、インターモードとイントラモードの両者をサポートする。イントラモードは、イントラ４×４及びイントラ１６×１６を含む。Ｐピクチャについて、インターモードは、スキップ及び１６×１６，１６×８，８×１６及びサブマクロブロックの８×８のパーティションを含む。８×８は、８×８，８×４，４×８及び４×４のパーティションを更にサポートする。Ｂピクチャについて、リスト０及びリスト１の両者の考慮及びダイレクトモードは、マクロブロック及びサブマクロブロックの両者について考慮される。

従来技術では、モード判定のためにレートと歪みの最適化（RDO: Rate-Distortion Optimization）のフレームワークが使用され、すなわち、符号化コストを測定するためにRDcostＪ＝Ｄ＋λＲが使用され、ここでＤは歪みを表し、Ｒはレートを表す。インターモードについて、動き予測は、モード判定から個別に考慮される。動き予測は、はじめに、インターモードの全てのブロックタイプについて実行され、次いで、それぞれのインターモードのコストとイントラモードのコストとを比較することでモード判定が行われる。最小のコストをもつモードが最良のモードとして選択される。

Ｐピクチャ又はＢピクチャにおける１つのマクロブロックを符号化する従来の手順（以下、「従来のマクロブロックの符号化手順」）は、以下のように要約される。

従来のマクロブロックの符号化手順の第一のステップでは、最後にデコードされたピクチャが与えられた場合、ラグランジュ乗数λ_MODE，λ_MOTION、及びマクロブロック量子化器ＱＰが判定される。

従来のマクロブロックの符号化手順の第二のステップでは、動き予測及び参照画像の選択は、可能性のあるマクロブロックモードのそれぞれの参照画像及び動きベクトルについて、以下を最小にすることで実行される。

上式では、Ｊはレートひ歪みのコストを示し、REFは参照画像を示し、ｍは考慮されている現在の動きベクトルを示し、λ_MOTIONはラグランジュ乗数を示し、ｃ（REF，ｍ(REF)）は参照画像を動きベクトルｍと使用した補償演算を示し、ｐは動きベクトルの符号化の間の予測のために使用される動きベクトルを示し、Ｒ(m-p)は動きベクトルを符号化するために使用されるビットを示し、Ｒ(REF)は参照画像を符号化するビットを示す。SADは原信号と動きベクトルにより予測される参照信号との間の絶対差の総和を示す。

従来のマクロブロックの符号化手順の第三のステップでは、マクロブロックの予測モードは、MODEを変化するとき、ＱＰ及びλ_MODEが与えられた場合、以下を最小にすることで選択される。

SSDは原信号と再構成された信号との間の二乗差の総和を示す。Ｒ(s,c,MODE)はマクロブロックのヘッダのビット、動き及び全てのDCT係数を含むMODEを選択することに関連するビット数を示す。MODEは、以下のように潜在的なマクロブロックのモードからなるセットからのモードを示す。

イントラ４×４は、以下のモードを含む。

イントラ１６×１６／イントラ８×８は、以下のモードを含む。

フレームポジショニングは、効率的なビデオ符号化におけるキーとなる重要なプロセスである。MPEG-4 AVC標準のような最近のビデオ圧縮技術は、ツリーに基づいたフレームパーティションを使用する。これは、ＩＳＯ／ＩＥＣ（International Organization for Standardization/International Electrotechnical Commission）ＭＰＥＧ−２（Moving Picture Experts Group-2）標準／ＩＴＵ−Ｔ（International Telecommunication Union, Telecommunication Sector）Ｈ．２６３勧告（以下、H.263勧告）ような、旧式のビデオ符号化標準及び勧告で典型的に使用されるシンプルな一様なブロックパーティションよりも効率的であるように見える。しかし、ツリーベースのフレームパーティションは、２次元（２Ｄ）データの幾何学的構造を効率的に捕捉することができないので、できるだけ効率的にビデオ情報を符号化しない。

幾何学的な領域の分割を使用したインター及びイントラ予測は、ビデオ符号化の効率を改善することに関する見込みのある研究動向として識別される。以前は、（MPEG-4 AVC標準に従って実行されるような）高度ビデオ符号化について、ビデオ符号化効率を改善するためにインター予測及びイントラ予測について幾何学的な分割を導入することが提案されている。最良のパフォーマンスを得るため、最適な幾何学的なパーティションを発見することがエンコーダにとって重要である。これらの提案において強力なフルサーチ方式が使用されるが、複雑さは非常に高い。しかし、モード選択／パーティション選択について幾つかの高速アルゴリズムを有することが望まれ、幾何学的なパーティションについて増加される計算上の複雑さは、実際のシステムにとって障害となる。

インター幾何学的モード（inter geometric mode）について候補となるパーティションを予め選択するため、エッジ検出に基づいて開発された高速アルゴリズムが以前に提案されている。この高速アルゴリズムは、動き補償のための幾何学的なパーティションはオブジェクトの境界に沿って収まるブロックについて良好に機能することが期待されるという仮定に基づく。幾らかの程度にまで、画像のエッジに基づいてパーティションを予め選択することは、満足のいく結果を達成する場合があると仮定することは妥当である。このアプローチの主要な問題点は、非常にシンプルな統計値及び特別のモデリングにより完全に駆動されることである。これにより、幾何学的な分割が実際に考慮されるように役立つ可能性のある状況の一部のみとなり、したがって、複雑さの節約及び圧縮の節約の観点で準最適な結果が達成される。確かに、この高速アルゴリズムの著者は、パーティションは明示的な画像のエッジにのみ関連されることを想定している。しかし、これは、必ずしも真ではない。たとえば、インター予測のケースについて、パーティションは、画像のエッジよりも動きの境界を反映する。幾つかのケースでは、画像のエッジは、動きの境界に一致するが、全てのケースにおいてではない。したがって、この高速アルゴリズムは、フルサーチアルゴリズムに比較されたとき、符号化効率において大幅な落ち込みを生じる場合がある。

従来技術のこれらの課題及び問題、並びに他の課題及び問題は、本発明により対処され、本発明は、ビデオエンコーダにおける高速の幾何学的モード判定（geometric mode decision）のための方法及び装置に向けられる。

本発明の態様によれば、装置が提供され、当該装置は、幾何学的なモデルに基づくパーティショニング（分割）モードを使用して、限定的な幾何学的なモードの判定を実行するエンコーダを含む。エンコーダは、幾何学的なモデルに基づく分割のモードと非幾何学的な分割のモードとの間の相関及び依存の少なくとも１つに基づいて、幾何学的なモデルに基づく分割のモードのテストをスキップする。

本発明の別の態様によれば、方法が提供され、当該方法は、幾何学的なモデルに基づく分割のモードを使用して限定的な幾何学的なモードの判定を実行するステップを含む。実行するステップは、幾何学的なモデルに基づく分割のモードと非幾何学的な分割のモードとの間の相関及び依存の少なくとも１つに基づいて幾何学的なモデルに基づく分割のモードのテストをスキップするステップを含む。

本発明の更に別の態様によれば、装置が提供され、当該装置は、幾何学的なモデルに基づく分割のモードを使用して、限定的な幾何学的なパラメータの選択を実行するエンコーダを含む。エンコーダは、予測的なサーチ及び階層的なサーチとの少なくとも１つを適用することで、限定的な幾何学的なパラメータの選択を実行する。予測的なサーチは、最初の予測子の選択、適応的な早期の終了（early termination）、及び予測子のリファインメント（refinement）の少なくとも１つを含む。

本発明の更に別の態様のよれば、方法が提供され、当該方法は、幾何学的なモデルに基づく分割のモードを使用して、限定的な幾何学的なパラメータの選択を実行するステップを含む。実行するステップは、予測的なサーチと階層的なサーチとの少なくとも１つのを適用するステップを含む。予測的なサーチは、最初の予測子の選択、適応的な早期の終了、及び予測子の改善を含む。

本発明の更なる態様によれば、方法が提供され、当該方法は、幾何学的なモデルに基づく分割のモードを使用して画像のビデオ信号を符号化するステップを含む。符号化ステップは、幾何学的な分割のパラメータ及び画像の少なくとも１部の予測データの交互に行われる最適化（alternate optimization）を使用してビデオ信号データを符号化する。

本発明のこれらの態様、特徴及び利点、並びに他の態様、特徴及び利点は、添付図面と共に読まれる例示的な実施の形態の以下の詳細な説明から明らかとなるであろう。

本発明は、以下の例示的な図面に従って良好に理解される。
本発明の実施の形態に係る、本発明との使用向けに拡張される、MPEG-4 AVC標準に従ってビデオ符号化を実行可能なビデオエンコーダのブロック図である。本発明の実施の形態に係る、２つのパーティション間の例示的な幾何学的な境界の図である。本発明の実施の形態に係る、MPEG-4 AVC標準のモード情報に基づく高速な幾何学的なモード判定の例示的な方法のフローダイアグラムである。本発明の実施の形態に係る、MPEG-4 AVC標準のモード情報に基づく高速な幾何学的なモード判定の例示的な方法のフローダイアグラムである。本発明の実施の形態に係る、近隣の情報に基づく高速の幾何学的なモードの判定の例示的な方法のフローダイアグラムである。本発明の実施の形態に係る、16×16の幾何学的なモードのモード判定の例示的な方法のフローダイアグラムである。本発明の実施の形態に係る、8×8の幾何学的なモードのモード判定の例示的な方法のフローダイアグラムである。本発明の実施の形態に係る、16×16の幾何学的なモードのモード判定の例示的な方法のフローダイアグラムである。本発明の実施の形態に係る、8×8の幾何学的なモードのモード判定の例示的な方法のフローダイアグラムである。本発明の実施の形態に係る、残差情報に基づく高速の幾何学的なモード判定の例示的な方法のフローダイアグラムである。本発明の実施の形態に係る、動きベクトル情報に基づいた高速のモード判定の例示的な方法のフローダイアグラムである。本発明の実施の形態に係る、高速の予測的な幾何学的なパーティションの選択の例示的な方法のフローダイアグラムである。本発明の実施の形態に係る、階層的なサーチを使用した高速の幾何学的なパーティションの選択の例示的な方法のフローダイアグラムである。本発明の実施の形態に係る、高速の幾何学的なモード及びパーティションの選択の例示的な方法のフローダイアグラムである。本発明の実施の形態に係る、高速の交互に行われる予測／パーティションのパラメータの最適化の例示的な方法のフローダイアグラムである。

本発明は、ビデオエンコーダにおける高速の幾何学的なモード判定の方法及び装置に向けられる。
本実施の形態での記載は、本発明の原理を例示するものである。当業者であれば、本実施の形態で明示的に記載又は図示されていないが、本発明を実施し、且つ本発明の精神及び範囲に含まれる様々なアレンジメントを考えることができることを理解されたい。

本実施の形態で引用される全ての例及び条件つきの言語は、本発明及び当該技術分野を促進するために本発明者により寄与されるコンセプトを理解することにおいて読者を支援する教育的な目的が意図され、係る特別に引用される例及び条件への制限がないものとして解釈されるべきではない。

さらに、本発明の特定の例と同様に、本発明の原理、態様及び実施の形態を参照する本実施の形態における全ての説明は、本発明の構造的及び機能的に等価な概念の両者を包含することが意図される。さらに、現在知られている等価な概念と同様に、将来的に開発される等価な概念、すなわち構造に係らず同じ機能を実行する開発されたエレメントの両者を含むことが意図される。

したがって、たとえば、本実施の形態で与えられるブロック図は、本発明を実施する例示的な回路の概念的なビューを表すことを当業者により理解される。同様に、フローチャート、フローダイアグラム、状態遷移図、擬似コード等は、コンピュータ読み取り可能なメディアで実質的に表される様々なプロセスを表し、コンピュータ又はプロセッサが明示的に示されるか否かに係らず、係るコンピュータ又はプロセッサにより実行されることが理解される。

図示される様々なエレメントの機能は、適切なソフトウェアに関連してソフトウェアを実行可能なハードウェアと同様に、専用のハードウェアの使用を通して提供される。プロセッサにより提供されたとき、機能は、単一の専用のプロセッサにより提供されるか、単一の共有されるプロセッサにより提供されるか、又はそのうちの幾つかが共有される複数の個々のプロセッサにより提供される場合がある。さらに、用語「プロセッサ」又は「コントローラ」の明示的な使用は、ソフトウェアを実行可能なハードウェアを排他的に示すように解釈されるべきではなく、限定されることなしに、デジタルシグナルプロセッサ（DSP）ハードウェア、ソフトウェアを記憶するリードオンリメモリ（ROM）、ランダムアクセスメモリ（RAM）、及び不揮発性ストレージを暗黙的に含む。

コンベンショナル及び／又はカスタムである他のハードウェアも含まれる場合がある。同様に、図示されるスイッチは、概念のみである。それらの機能は、プログラムロジックの動作を通して、専用のロジックを通して、プログラム制御と専用ロジックのインタラクションを通して、更に手動的に実行される場合があり、特定の技術は、コンテクストから更に詳細に理解されるように、実現者により選択可能である。

本発明の請求項では、特定の機能を実行する手段として表現されるエレメントは、たとえばａ）その機能を実行する回路エレメントの組み合わせ、又はｂ）機能を実行するソフトウェアを実行する適切な回路と結合されるファームウェア、マイクロコードを含む任意の形式でのソフトウェアを含む機能を実行する任意のやり方を包含することが意図される。

係る請求項により定義される本発明は、様々な引用される手段により提供される機能が結合され、請求項が要求するやり方で纏められるという事実にある。したがって、それらの機能を提供する任意の手段は本実施の形態で示される手段に等価であるとみなされる。

本発明の「１実施の形態」又は「実施の形態」への明細書における参照は、本実施の形態と共に記載される特定の特徴、構造、特徴等が本発明の少なくとも１つの実施の形態に含まれることを意味する。したがって、明細書を通して様々な位置で表れる「１実施の形態において」又は「実施の形態において」のフレーズの出現は、必ずしも、同じ実施の形態を全て参照するものではない。

たとえば「Ａ及び／又はＢ」のケースにおける用語「及び／又は」の使用は、第一の列挙されたオプション（Ａ）の選択、第二の列挙されたオプション（Ｂ）の選択、又はオプション（Ａ及びＢ）の両者の選択を包含することが意図されることを理解されたい。更なる例として、「Ａ、Ｂ及び／又はＣ」のケースでは、係るフレーズは、第一の列挙されたオプション（Ａ）の選択、第二の列挙されたオプション（Ｂ）の選択、第三の列挙されたオプション（Ｃ）の選択、第一及び第二の列挙されたオプション（Ａ及びＢ）の選択、第一及び第三の列挙されたオプション（Ａ及びＣ）の選択、第二及び第三の列挙されたオプション（Ｂ及びＣ）の選択、又は、全ての３つのオプション（Ａ及びＢ及びＣ）の選択を包含することが意図される。これは、列挙された多くのアイテムに関して、この及び関連する技術分野における当業者により容易に明らかであるように拡張される。

さらに、本発明の１以上の実施の形態がMPEG-4 AVC標準に関して本明細書で記載されたが、本発明は、この標準のみに限定されず、本発明の精神を維持する一方で、MPEG-4 AVC標準の拡張を含めて、他のビデオ符号化標準、勧告及びその拡張に関して利用される場合がある。

さらに、本明細書で使用されるように、フレーズ「ウェッジパーティション“wedge partition”」及び「ウェッジパーティショニング“wedge partitioning”」は、任意の線又は曲線により分離される２つの領域への画像のブロックの分割を示す。また、単語「ウェッジ」は、境界の線又は曲線の特定の設定及び／又は選択が与えられた場合、分割の形状を示す。

また、本明細書で使用されるように、たとえばサーチに関して、用語「高速」は、最適なソリューション、又は、集中的なフルサーチアルゴリズムよりも低い計算上の複雑さをもつ最適に近いソリューションを発見することができる効率的なアルゴリズムを示す。

図１を参照して、本発明との使用のために拡張される、MPEG-4 AVC標準に従ってビデオ符号化を実行可能なビデオエンコーダは、参照符号１００により一般的に示される。

ビデオエンコーダ１００は、結合手段１８５の非反転入力と信号通信する出力を有するフレームオーダリングバッファ１１０を含む。結合手段１８５の出力は、幾何学的な拡張（geometric extension）をもつ変換器及び量子化器１２５の第一の入力と信号通信で接続される。幾何学的な拡張１２５をもつ変換器及び量子化器１２５の出力は、幾何学的な拡張をもつエントロピーコーダ１４５の第一の入力、及び幾何学的な拡張をもつ逆変換器及び逆量子化器１５０の第一の入力と信号通信で接続される。幾何学的な拡張をもつエントロピーコーダ１４５の出力は、結合手段１９０の第一の非反転入力と信号通信で接続される。結合手段１９０の出力は、出力バッファ１３５の第一の入力と信号通信で接続される。

幾何学的な拡張をもつエンコーダコントローラ１０５の第一の出力は、フレームオーダリングバッファ１１０の第二の入力、幾何学的な拡張をもつ逆変換器及び逆量子化器１５０の第二の入力、ピクチャタイプ判定モジュール１１５の入力、幾何学的な拡張をもつマクロブロックタイプ（ＭＢタイプ）判定モジュール１２０の入力、幾何学的な拡張をもつイントラ予測モジュール１６０の第二の入力、幾何学的な拡張をもつデブロッキングフィルタ１６５の第二の入力、幾何学的な拡張をもつ動き補償器１７０の第一の入力、幾何学的な拡張をもつ高速動き予測器１７５の第一の入力、及び参照画像バッファ１８０の第二の入力と信号通信で接続される。

幾何学的な拡張をもつエンコーダコントローラ１０５の第二の出力は、ＳＥＩ（Supplemental Enhancement Information）挿入器１３０の第一の入力、幾何学的な拡張をもつ変換器及び量子化器１２５の第二の入力、幾何学的な拡張をもつエントロピーコーダ１４５の第二の入力、出力バッファ１３５の第二の入力、及び、ＳＰＳ（Sequence Parameter Set）及びＰＰＳ（Picture Parameter Set）挿入器１４０の入力に信号通信で接続される。

ピクチャタイプ判定モジュール１１５の第一の出力は、フレームオーダリングバッファ１１０の第三の入力と信号通信で接続される。ピクチャタイプ判定モジュール１１５の第二の出力は、幾何学的な拡張をもつマクロブロック判定モジュール１２０の第二の入力と信号通信で接続される。

ＳＰＳ（Sequence Parameter Set）及びＰＰＳ（Picture Parameter Set）挿入器１４０の出力は、結合器１９０の第三の非反転入力と信号通信で接続される。

幾何学的な拡張をもつ逆量子化器及び逆変換器１５０の出力は、結合器１２７の第一の非反転入力と信号通信で接続される。結合手段１２７の出力は、幾何学的な拡張をもつイントラ予測モジュール１６０の第一の入力及び幾何学的な拡張をもつデブロッキングフィルタ１６５の第一の入力と信号通信で接続される。幾何学的な拡張をもつデブロッキングフィルタ１６５の出力は、参照画像バッファ１８０の第一の入力と信号通信で接続される。参照画像バッファ１８０の出力は、幾何学的な拡張をもつ高速動き予測器１７５の第二の入力と信号通信で接続される。幾何学的な拡張をもつ高速動き予測器１７５の第一の出力は、幾何学的な拡張をもつ動き補償器１７５の第二の入力と信号通信で接続される。幾何学的な拡張をもつ高速動き予測器の第二の出力は、幾何学的な拡張をもつエントロピーコーダ１４５の第三の入力と信号通信で接続される。

幾何学的な拡張をもつ動き補償器１７０の出力は、スイッチ１９７の第一の入力と信号通信で接続される。幾何学的な拡張をもつイントラ予測モジュール１６０の出力は、スイッチ１９７の第二の入力と信号通信で接続される。幾何学的な拡張をもつマクロブロックタイプ判定モジュールの１２０の出力は、スイッチ１９７の第三の入力と信号通信で接続される。スイッチ１９７の出力は、結合器１２７の第二の非反転入力と信号通信で接続される。

フレームオーダリングバッファ１１０及び幾何学的な拡張をもつエンコーダコントローラ１０５の入力は、入力画像１０１を受けるため、エンコーダ１００の入力として利用可能である。さらに、ＳＥＩ（Supplemental Enhancement Information）挿入器１３０の入力は、メタデータを受けるため、エンコーダ１００の入力として利用可能である。出力バッファ１３５の出力は、ビットストリームを出力するため、エンコーダ１００の出力として利用可能である。

幾何学的な領域のパーティショニング（分割）を使用したインター予測及びイントラ予測は、ビデオ符号化効率の改善に関する有望な研究動向として認識されている。これまで、（MPEG-4 AVC標準に従って実行されるような）高度ビデオ符号化について、ビデオ符号化効率を改善するためにインター予測及びイントラ予測について幾何学的なパーティションを導入することが提案されている。最良なパフォーマンスを得るため、最適な幾何学的なパーティションを発見することがエンコーダにとって重要である。これらの提案では、強力なフルサーチの方法が使用されるが、複雑さが非常に高い。しかし、モードの選択／パーティションの選択について幾つかの高速アルゴリズムを有することが望ましく、したがって、幾何学的なパーティションについて増加された計算上の複雑さは、実際のシステムにとって障害とはならない。したがって、本発明によれば、エンコーダでの計算上のリソースを節約するため、高速の幾何学的なアルゴリズムを考える。本発明の１実施の形態では、高速の幾何学的なモード判定は、幾何学的なモデルに基づくパーティショニングモードを使用したビデオエンコーダについて可能にされ、ここで、幾何学的なモードのテストは、標準的な予測モードと幾何学的なパーティションモードとの間で相関と依存性の少なくとも１つに基づいてスキップされる。本発明の別の実施の形態では、高速の幾何学的パラメータの選択は、幾何学的なモデルに基づくパーティショニングモードを使用したビデオエンコーダについて可能にされ、ここで、予測の高速サーチアルゴリズムが適用され、このアルゴリズムは、最初の予測子の選択、適応的な早期終了、及び予測子のリファインメントの少なくとも１つを含む。本発明の更に別の実施の形態では、高速の幾何学的なパラメータの選択は、幾何学的なモデルに基づく分割モードを使用したビデオエンコーダについて可能にされ、ここで、階層的なサーチが使用される。本発明の更に別の実施の形態では、幾何学的なモデルに基づいた分割モードを使用したビデオエンコーダが可能にされ、ここで、幾何学的な分割及び予測データの交互に行われる最適化が使用される。

上述されたように、近年のビデオ圧縮技術は、フレームの分割を使用しており、この技術は、たとえばＩＳＯ／ＩＥＣ（International Organization for Standardization/International Electrotechnical Commission）ＭＰＥＧ−２（Moving Picture Experts Group-2）標準のような旧式のビデオ符号化標準において典型的に使用されたシンプルな一様なブロックの分割よりも効率的である。しかし、MPEG-4 AVC標準で使用されるツリーベースのフレームの分割は、２次元（２Ｄ）データの幾何学的構造を捕捉することができないので、ビデオ情報を十分に効率的に符号化しない。係る制限を解決するため、その２Ｄ幾何学的形状を考慮することで２Ｄビデオデータを良好に表現及び符号化する方法及び装置が提供される。１実施の形態では、インター予測（INTER16×16GEO、INTER8×8GEO）及びイントラ予測（INTRA16×16GEO、INTRA8×8GEO）の両者について新たなモードのセットに関して、ウェッジパーティション（すなわち任意の直線又は曲線により分離される２つの領域へのブロックの分割）が使用される。

実施の形態では、幾何学的な分割のモードを組み込む基礎としてMPEG-4 AVC標準が使用される。ブロック内の幾何学的な分割は、ある直線の暗黙的な式によりモデル化される。したがって、実施の形態では、パーティションは、（図２に示されるように）以下のように定義される。

この場合、ρ，θは、ｆ（ｘ,ｙ）への直角方向における原点から境界線ｆ（ｘ,ｙ）への距離、ｆ（ｘ,ｙ）への直角方向の水平方向の座標軸ｘとの角度をそれぞれ示す。

図２を参照して、画像の例示的な幾何学的な分割は、参照符号２００により一般的に示される。画像ブロックは、参照符号２２０により一般に示される。

その式から直接的に、高次の幾何学的なパラメータによるｆ（ｘ,ｙ）の更に複雑なモデルが考慮される。

それぞれのブロック画素（ｘ,ｙ）は、以下のように分類される。

符号化の目的のため、可能なパーティション（又は幾何学的なモード）の辞書が事前に定義される。これは、以下のように形式的に定義される。

この場合、Δρ及びΔθは、選択された量子化（パラメータ解像度）ステップである。θ及びρの量子化されたインデックスは、エッジを符号化するために送信された情報である。しかし、符号化の手順においてモード16×8及び8×16が使用される場合、ρ＝０のケースについて角度０と９０が可能なエッジのセットから除かれる。

幾何学的に適応的な動き補償モードにおいて、それぞれのパーティションについてρ，θ及び動きベクトルのサーチは、最良のコンフィギュレーションを発見するために実行される。それぞれのρ及びθのペアについて、２つのステージにおいてフルサーチの方法が行われ、この場合、最良の動きベクトルがサーチされる。幾何学的に適応的なイントラ予測モードでは、それぞれのパーティションについてρ，θ及び最良の予測子（方向予測又は統計等）に関するサーチは、最良のコンフィギュレーションを発見するために実行される。

エンコーダサイドで、幾何学的なモードの計算上の複雑さは、フルサーチが使用される場合に非常に高い。したがって、実際の応用についてエンコーダの複雑さを低減する高速アルゴリズムを開発することが非常に重要である。

実施の形態では、MPEG-4 AVC標準及びＰピクチャのインター幾何学的パーティション（inter geometric partition）のフレームワークが使用される。しかし、本明細書で提供される本発明の教示が与えられると、本発明の他の実施の形態は、本発明の精神を維持しつつ、イントラ幾何学的パーティション、他のタイプのピクチャ、及び他のビデオ符号化標準及び勧告、並びに本発明の拡張に当業者により容易に適用される。本発明は、高速動き予測及び／又はMPEG-4 AVC高速モード判定と共に適用される場合がある。符号化コストの測定について、RDcostが１例として使用される。しかし、本発明は、コスト測定を符号化する先のタイプのみに限定されず、本発明の精神を維持しつつ、限定されるものではないが（平均平方誤差等のような）歪みのみの測定等を含む他の符号化コスト測定を適用することができる。

例示及び明確さのため、本発明は、以下の３つのカテゴリに分類される。（１）オリジナルのMPEG-4 AVC標準のインター予測モードと幾何学的な分割のモードとの間の相関に基づく高速なモード判定、（２）幾何学的な分割のモードでの高速の幾何学的なパーティションの選択、（３）幾何学的な分割と予測データとの交互に行われる最適化による高速の幾何学的なパターンの選択。それらのカテゴリは、共に又は独立して適用されることを理解されたい。

１．オリジナルのMPEG-4 AVC標準のインター予測モードと幾何学的な分割のモードとの間の相関に基づく高速なモード判定。

このカテゴリでは、高速のアルゴリズムは、幾何学的なモードのテストを完全にスキップすることができるかを判定するために実行される。幾何学的な分割のモードの前に、エンコーダによりMPEG-4 AVC標準のインター予測モードがテストされると想定する。さらに、第一のカテゴリの下でのアルゴリズムは、以下の５つのサブカテゴリに分類される。（１）MPEG-4 AVCモードの判定、（２）早期停止（early stop）の判定、（３）近傍の判定、（４）残差の判定及び（５）動きベクトルの判定。それらのサブカテゴリは、共に適用されるか又は独立して適用される。

１．１．MPEG-4 AVC標準モードの判定
このサブカテゴリでは、エンコーダによる、最良及び／又は第二の最良（利用可能な場合）の選択されたMPEG-4 AVC標準モデルに基づいて幾何学的なモードの圧縮パフォーマンスのテストをスキップするか否かが判定される。実施の形態では、このカテゴリの判定は、たとえば、エンコーダがあるマクロブロックについて最良のモードとして幾何学的なモードを選択した場合、最良のMPEG-4 AVC標準のインター予測モードはスキップ、１６×１６又はイントラモードとなる可能性は低いという仮説に基づいている。同時に、サブ８×８レベルで、最良のサブマクロブロックモードは８×８幾何学的なモードである場合、最良のMPEG-4 AVC標準のサブマクロブロックのモードは８×８となる可能性は低いと想定される（又はインターＢ予測が考慮される場合、ダイレクト８×８）。マクロブロックサイズのレベルで、これは、スキップ及び／又は１６×１６が、マクロブロックが同じオブジェクト又は動き領域内にあることを意味し、イントラが、マクロブロックが閉塞されたオブジェクトであることを意味するからである。同じことが、サブマクロブロックにも当てはまる。１実施の形態では、最良のMPEG-4 AVC標準モードがスキップモードであるかをチェックする。スキップモードである場合、エンコーダは幾何学的なモードのテストをスキップし、エッジ及び動きのサーチが回避される。スキップがエンコーダにより選択された最良のモードではない場合、エンコーダは、最良のMPEG-4 AVC標準モードがイントラモードであるかがチェックされる。イントラモードである場合、幾何学的なモードがスキップされる。さもなければ、エンコーダは、最良のMPEG-4 AVC標準モードが１６×１６であるかをチェックする。１６×１６である場合、エンコーダは、第二の最良のMPEG-4 AVC標準モードをチェックする。スキップモードである場合、幾何学的モードのテストを更にスキップする。さもなければ、幾何学的なモードをテストする。同様に、サブマクロブロックについて、最良のMPEG-4 AVC標準のサブマクロブロックモードが８×８パーティションサイズからなる場合、エンコーダは、幾何学的なサブマクロブロックのモードのテストをスキップする。

図５Ａを参照して、１６×１６幾何学的なモードのモード判定の例示的な方法は、参照符号５００により一般的に示される。

本方法５００は、開始ブロック５０５を含み、このブロックは、制御を判定ブロック５１０に移す。判定ブロック５１０は、Ｊ_{Best16×16MODE}＜Ｔ_{Best16×16MODE}であるか否かを判定する。そうである場合、制御は機能ブロック５１５に移る。さもなければ、制御は機能ブロック５２０に移る。

機能ブロック５１５は、次のマクロブロックにスキップし、制御を終了ブロック５４９に移す。機能ブロック５２０は、Ｊ_16×16GEOを計算し、制御を終了ブロック５４９に移す。

図５Ｂを参照して、８×８幾何学的モードのモード判定の例示的な方法は、参照符号５５０により一般に示される。

本方法５５０は、開始ブロック５５５を含み、このブロックは、制御を判定ブロック５６０に移す。判定ブロック５６０は、Ｊ_Best8×8MODE＜Ｔ_Best8×8MODEであるか否かを判定する。ここでＴは閾値である。上記が成り立つ場合、制御は機能ブロック５６５に移る。さもなければ、制御は機能ブロック５７０に移る。

機能ブロック５１６は、次のマクロブロックにスキップし、制御を終了ブロック５９９に移す。機能ブロック５７０は、Ｊ_8×8GEOを計算し、制御を終了ブロック５９９に移す。

本明細書で提供される例は、本実施の形態で提供される本発明の原理が与えられた場合、最良のモードの他の組み合わせに当業者により容易に拡張可能であることを理解されたい。さらに、予測を考慮する最大数のエントリは、MPEG-4 AVC標準の予測モードのうち、最良及び第二の最良の選択されたモードに限定されず、本発明の精神を維持しつつ、他の選択されたモード数が利用される場合もあることを理解されたい。

１．２．早期停止判定
このサブカテゴリでは、高速モード判定に到達するために早期の停止基準を使用することを提案する。これら停止基準は、適応的な閾値メカニズムに基づく。閾値は、量子化パラメータの関数、空間／時間近傍のレートと歪みのコスト（RDcost）等とすることができる。基本的なスキームは、１６×１６及び／又は８×８の幾何学的なパーティションのモードのテストをスキップするか否かを判定するため、全ての可能性のあるMPEG-4 AVC標準のマクロブロック／サブマクロブロックのパーティションモードのテスト後に閾値を適用することである。１実施の形態では、１６×１６／８×８幾何学的なパーティションの判定を適用する前に、最良のMPEG-4 AVC標準モードのみがテストされる。最良のMPEG-4 AVC標準モードのRDcostが所定の閾値よりも小さい場合、幾何学的なモードのテストをスキップする。さもなければ、幾何学的なモードがテストされる。

高速の幾何学的なモード判定の閾値は、幾つかのセーフガード又はRDcostからの収集された統計量に基づいて選択される。

図３Ａ及び図３Ｂを参照して、MPEG-4 AVC標準のモード情報に基づく高速の幾何学的なモード判定の例示的な方法は、参照符号３００及び５００のそれぞれにより一般的に示される。

本方法３００は、開始ブロック３０５を含み、このブロックは、機能ブロック３１０に制御を移す。機能ブロック３１０は、最良のMPEG-4 AVC標準のモードをチェックし、制御を判定ブロック３１５に移す。判定ブロック３１５は、最良のMPEG-4 AVC標準のモードがスキップ又はイントラであるか否かを判定する。スキップ又はイントラである場合、制御は判定ブロック３２０に移る。さもなければ、制御は機能ブロック３３５に移る。

判定ブロック３２０は、最良のMPEG-4 AVC標準のモードが１６×１６であるか否かを判定する。そうである場合、制御は判定ブロック３２５に移る。さもなければ、制御は機能ブロック３３０に移る。

判定ブロック３２５は、第二の最良のMPEG-4 AVC標準のモードがスキップであるか否かを判定する。スキップである場合、制御は機能ブロック３３５に移る。さもなければ、制御は機能ブロック３３０に移る。

機能ブロック３３０は、幾何学的なモードをチェックし、制御を機能ブロック３３５に移す。機能ブロック３３５は、最良のモードを選択し、制御を終了ブロック３４９に移す。

本方法３５０は、開始ブロック３５５を含み、このブロックは、機能ブロック３６０に制御を移す。機能ブロック３６０は、最良のMPEG-4 AVC標準のサブマクロブロックのモードをチェックし、制御を判定ブロック３６５に移す。判定ブロック３６５は、最良のMPEG-4 AVC標準のモードが８×８であるか否かを判定する。８×８である場合、制御は機能ブロック３７５に移る。さもなければ、制御が機能ブロック３７０に移る。

機能ブロック３７０は、サブマクロブロックの幾何学的なモードをチェックし、制御を機能ブロック３７５に移す。機能ブロック３７５は、最良のサブマクロブロックのモードを選択し、制御を終了ブロック３９９に移す。

別の実施の形態では、１６×１６／８×８幾何学的なパーティションの判定の前に、最良及び第二の最良（利用可能である場合）のMPEG-4 AVC標準モードからの統計値が使用される。最良のMPEG-4 AVC標準のモードのRDcostが所定の閾値よりも小さい場合、第二の最良のMPEG-4 AVC標準のモードのRDcostが別の閾値よりも小さい場合、幾何学的なモードのテストがスキップされる。さもなければ、幾何学的なモードがテストされる。

図４を参照して、近傍の情報に基づいた高速の幾何学的なモード判定の例示的な方法は、参照符号４００により一般に示される。

方法４００は、開始ブロック４０５を含み、このブロックは、制御を機能ブロック４１０に移す。機能ブロック４１０は、上及び左のマクロブロックのモード判定をチェックし、制御を判定ブロック４１５に移す。判定ブロック４１５は、モード判定がスキップ又は１６×１６であるか否かを判定する。スキップ又は１６×１６である場合、制御は機能ブロック４２５に移る。さもなければ、制御は機能ブロック４２０に移る。機能ブロック４２０は、幾何学的なモードをチェックし、制御を機能ブロック４２５を移す。

機能ブロック４２５は、幾何学的なモードがチェックされた場合、幾何学的なモードとMPEG-4 AVC標準からの最良のモードとの間で最良のモードを選択し、さもなければ、MPEG-4 AVC標準からの最良のモードを選択し、制御を終了ブロック４９９に移す。

別の実施の形態では、第一のカテゴリの第一及び第二のサブカテゴリのアプローチ間の組み合わせが考慮され、この場合、閾値となるコスト基準及び最良の選択された基準の組み合わせが使用される。別の可能性のあるアプローチは、閾値の適合について条件つきのコンテクストとして、最良のモードと第二の最良のモードとの使用である。幾何学的なモードをスキップすること、又は幾何学的なモードをテストしないことについて判定の閾値は、最良及び第二の最良のMPEG-4 AVC標準のモードの組み合わせに依存して設定される。

１．３．近傍の判定
MPEG-4 AVC標準は、ブロック符号化構造を使用する。オブジェクトがブロックの境界にクロスすることがある。このサブカテゴリでは、モード判定を高速にするために近傍の情報が利用される。

空間的及び／又は時間的に近傍のマクロブロックのいずれも、所与の１以上のマクロブロック（たとえば、１６×８，８×１６，８×８，８×４）（又はサブブロック）を分割するモードを含まない場合、ある幾何学的モードとなるべき現在のマクロブロック（又はサブブロック）の最良のモードの可能性は低い。１実施の形態では、エンコーダは、左及び上の近傍のマクロブロックをチェックし、それらが共にスキップ又は１６×１６である場合、エンコーダは現在のマクロブロックにおける幾何学的なモードのテストをスキップする。さもなければ、幾何学的なモードがテストされる。別の実施の形態では、近傍及び現在の最良のMPEG-4 AVC標準のモードを考慮する結合された判定ルールが考慮される。

図６Ａを参照して、１６×１６幾何学的モードのモード判定につて例示的な方法は、参照符号６００により一般的に示される。

本方法６００は、開始ブロック６０５を含み、このブロックは、制御を判定ブロック６１０に移す。判定ブロック６１０は、Ｊ_{Best,SecondBest16×16MODE}＜Ｔ_{Best,Second Best16×16MODE}であるか否かを判定する。この場合Ｔは閾値である。上記が成り立つ場合、制御を機能ブロック６１５に移す。さもなければ、制御は機能ブロック６２０に移る。機能ブロック６１５は、次のマクロブロックにスキップし、制御を終了ブロック６４９に移す。機能ブロック６２０は、Ｊ_16×16GEOを計算し、制御を終了ブロック６４９に移す。

図６Ｂを参照して、８×８の幾何学的モードについてモード判定の例示的な方法は、参照符号６５０により一般的に示される。

本方法６５０は、開始ブロック６５５を含み、このブロックは、制御を判定ブロック６６０に移す。判定ブロック６６０は、Ｊ_{Best,SecondBest8×8MODE}＜Ｔ_{Best,Second Best16×16MODE}であるか否かを判定する。この場合Ｔは閾値である。上記が成り立つ場合、制御は機能ブロック６６５に移る。さもなければ、制御は機能ブロック６７０に移る。

機能ブロック６６５は、次のマクロブロックにスキップし、制御を終了ブロック６９９に移す。機能ブロック６７０は、Ｊ_8×8GEOを計算し、制御を終了ブロック６９９に移す。

１．４．残差判定
残差のエネルギーは、所与のマクロブロックの予測品質のインジケータとすることができる。現在のマクロブロックについて最良のMPEG-4 AVC標準のモードの残差のエネルギーが十分に低い場合、エンコーダは幾何学的なモードのテストをスキップすることができる。同様に、現在のサブマクロブロックについて最良のMPEG-4 AVC標準のサブマクロブロックモードの残差のエネルギーが低い場合、サブマクロブロックの幾何学的なモードのテストをスキップすることができる。１実施の形態では、残差の離散コサイン変換（ＤＣＴ）係数の絶対和を使用して残差のエネルギーが計算される。

図７を参照して、残差情報に基づいた高速の幾何学的なモード判定の例示的な方法は、参照符号７００により一般に示される。

本方法７００は、開始ブロック７０５を含み、このブロックは、制御を機能ブロック７１０に移す。機能ブロック７１０は、最良のMPEG-4 AVC標準のモードの残差をチェックし、制御を判定ブロック７１５に移す。判定ブロック７１５は、残差のエネルギーが閾値Ｔよりも小さいか否かを判定する。小さい場合、制御を機能ブロック７２５に移す。さもなければ、制御を機能ブロック７２０に移す。機能ブロック７２０は、幾何学的なモードをチェックし、制御を機能ブロック７２５に移す。

機能ブロック７２５は、幾何学的なモードがチェックされた場合、幾何学的なモードとMPEG-4 AVC標準からの最良のモードとの間で最良のモードを選択し、さもなければ、MPEG-4 AVC標準から最良のモードを選択し、制御を終了ブロック７９９に移す。

１．５．動きベクトル判定
統計的に、動きのエッジが存在するときに幾何学的なモードの大部分が役に立つという事実のため（すなわち、バックグランドはより静的となる傾向にあり及び／又はグローバルな動きを有する）、フォアグランドは、バックグランドよりも幾何学的なモードを使用する傾向がある。空間的及び／又は時間的に近傍のマクロブロックをもつ最良のMPEG-4 AVC標準のモードの動きフィールドを分析することで、エンコーダは、幾何学的なモードをスキップすることができるか否かを判定する。１実施の形態では、エンコーダは、最良のMPEG-4 AVC標準の動きベクトル及び近傍の動きベクトルの分散を計算する。この分散がある閾値よりも小さい場合、エンコーダは、幾何学的なモードのテストをスキップする。さもなければ、幾何学的なモードがテストされる。

図８を参照して、動きベクトル情報に基づいた高速のモード判定の例示的な方法は、参照符号８００により一般的に示される。

本方法８００は、開始ブロック８０５を含み、このブロックは、制御を機能ブロック８１０に移す。機能ブロック８１０は、最良のMPEG-4 AVC標準モードのマクロブロックと近傍のマクロブロックからの動きの分散を計算し、制御を判定ブロック８１５に移す。判定ブロック８１５は、この分散がある閾値よりも小さいか否かを判定する。小さい場合、制御は機能ブロック８２５に移る。さもなければ、制御は機能ブロック８２０に移る。

機能ブロック８２０は、幾何学的なモードをチェックし、制御を機能ブロック８２５に移す。機能ブロック８２５は、幾何学的なモードとMPEG-4 AVC標準からの最良のモードとの間で最良のモードを選択し、さもなければ、MPEG-4 AVC標準から最良のモードを選択し、制御を終了ブロック８９９に移す。

２．幾何学的なパーティションモードによる高速ウェッジ選択
このカテゴリでは、１つの目的は、幾何学的なパーティションモードについてサーチする必要がある可能なパーティションの数を低減することである。目的は、サーチスペースを低減し、最適化アルゴリズム及び最良の符号化モードの検索及び／又は幾何学的なパーティションが極小値にトラップされる機会を最小にすることである。この第二のカテゴリの下でのアプローチは、以下の２つのカテゴリに分けられる。（１）予測に基づくアルゴリズム、及び（２）階層的なサーチ
２．１予測のアルゴリズム
予測のアルゴリズムは、以下の３つのステップを主に含むことが考慮される。（１）最初の予測子の選択は、潜在的に可能性のあるウェッジのセットから最良のウェッジを選択する。（２）適応的な早期の終了により、幾つかのルールが満たされる場合、所与のステージでのサーチの終了が可能となる。及び（３）予測のリファインメントは、最終的な予測を改善するために最良のウェッジの予測子の周りでリファインメントパターンを利用する。先行する３つのステップは、個々に実行されるか又は一緒に実行される。

２．１．１予測子の選択
目的は、最も可能性のあるウェッジを発見するために予め計算された情報を利用することである。予測子を以下の３つのグループに分割する。（１）空間的及び／又は時間的な相関に基づく予測子、（２）利用可能な場合に最良のMPEG-4 AVC標準に基づく予測子、及び（３）固定された予測子のグリッド。

第一のグループ、すなわち空間及び／時間相関に基づいた予測子に関して、空間的な近傍のウェッジ及び／又は時間的な近傍のウェッジからウェッジのパーティション（又はウェッジ）、及び／又はそれらのウェッジの幾つかの機能を拡張し、予測子としてそれらを使用する。

第二のステップ、すなわち利用可能な場合に最良のMPEG-4 AVC標準のインターモードに基づく予測子に関して、最適な幾何学的なモードと最良のMPEG-4 AVC標準のインターモードとの間の強い相関があることが観察される（たとえば、重要な水平方向による任意の幾何学的なパーティションが実際に最良の可能性のあるパーティションモードである場合、１６×８モードは、第二の最良のモードとなる可能性がある）。

第三のグループ、すなわち固定された予測子のグリッドに関して、最適化が極小値にトラップされる状況を回避するため、更なる予測子をテストすることができる。より詳細には、予測の中央の周りで同程度又はそれ以上に密に配置された予測子のセットを設定することができる。１実施の形態では、Δρ’＝２Δρ及びΔθ’＝４Δθにより固定されたサーチ予測子を設定することができる。なお、全ての上記予測子が必ずしも全てのケースにおけるものではない。特定の条件が満たされた否かに依存して、幾つかの予測子を適応的にディスエーブル／イネーブルすることができる。

２．１．２適応的な早期終了
隣接ブロックの符号化コストは非常に相関される傾向があることがシミュレーションから認識される。これに基づいて、ある閾値が設定され、サーチアルゴリズムは、現在のブロックの符号化コストが係る閾値にクロスする場合に早期に停止することができる。これにより、計算上の複雑さを大幅に低減することができる。２つのタイプの閾値を設計することができる。１つのタイプの閾値は、予測子のセットから最適又は準最適なウェッジを選択するために使用される。別のタイプの閾値は、幾何学的モードが最良のモードとして最終的に選択されるか否かを判定するために使用される。この閾値は、空間的／時間的な近傍のマクロブロックのRDcost、及び／又は利用可能な場合、最良のMPEG-4 AVC標準モードのRDcostを使用して設計される。

１つの実施の形態は、以下のように実現される。全ての空間的／時間的/MPEG-4 AVC標準の予測子をテストした後、RDcostが所定の閾値T0よりも小さいかがチェックされる。小さい場合、停止して、最良の予測子を幾何学的なモードの最終的なウェッジとして選択する。さもなければ、固定された予測子がテストされる。RDcost（又は符号化コスト）がT1よりも小さい場合、停止し、最良の予測子を幾何学的なモードの最終的なウェッジとして選択する。さもなければ、RDcostがT2よりも大きいかがテストされる。大きい場合、停止し、MPEG-4 AVC標準の最良のモードをマクロブロックの最良のモードとして設定する。さもなければ、最良のウェッジの候補がリファインされる。

２．１．３予測の精緻化
ウェッジのサーチは、最良の予測子の近傍で繰り返しのサーチパターンを使用することで更に精緻化される。高速な動き予測から全てのサーチパターンが適用される。一実施の形態では、たとえばダイアモンドサーチに類似するようにサーチパターンが定義される。最良の予測子は（ρ₀，θ₀）であるとする。

ステップ１：サーチスペース内でρ＝ρ₀±Δρ及びθ＝θ₀±Δθでペアをなす全てのウェッジをテストする。
ステップ２：最小のRDcostをもつウェッジが（ρ₀，θ₀）である場合、停止する。さもなければ、（ρ₀，θ₀）を最小のRDcostをもつウェッジに設定することでステップ１に進む。

極小値にトラップされるのを回避するため、第二又は第三の最良の予測子で予測のリファインメントが適用される。また、パラメータスペースの密であって良好な収束のために六角形のサーチを適用することができる。勿論、本発明は、ダイアモンド及び六角形のサーチにのみ限定されず、したがって、本発明の精神を維持しつつ、他のタイプのサーチが使用される。

図９を参照して、高速の予測ウェッジの選択の例示的な方法は、参照符号９００により一般的に示される。

本方法９００は、開始ブロック９０５を含み、このブロックは、制御を機能ブロック９１０に移す。機能ブロック９１０は、ウェッジ予測子のセットを選択し、制御を機能ブロック９１５に移す。機能ブロック９１５は、空間的／時間的な予測子及びMPEG-4 AVC標準のインターモード予測子からの最良のウェッジを選択し、制御を判定ブロック９２０に移す。判定ブロック９２０は、最良の予測子のRDcostが閾値T0よりも小さいか否かを判定する。小さい場合、制御を機能ブロック９５０に移す。さもなければ、制御は機能ブロック９２５に移る。

機能ブロック９２５は、固定された予測子のグリッドをテストし、制御を判定ブロック９３０に移す。判定ブロック９３０は、最良の予測子のRDcostが閾値T1よりも小さいかを判定する。小さい場合、制御は機能ブロック９５０に移る。さもなければ、制御は判定ブロック９３５に移る。

判定ブロック９３５は、最良の予測子のRDcostが閾値T2よりも大きいかを判定する。大きい場合、制御は機能ブロック９４０に移る。さもなければ、制御は判定ブロック９４５に移る。

機能ブロック９４５は、予測子のリファインメントを実行し、制御を機能ブロック９５０に移す。機能ブロック９５０は、幾何学的モードで最良のウェッジを設定し、制御を機能ブロック９５５に移す。機能ブロック９５５は、幾何学的なモードとMPEG-4 AVC標準との間で最良のモードを選択し、制御を終了ブロック９９９に移す。

２．２階層的サーチ
実施の形態では、階層的なウェッジのサーチが適用される。階層的なウェッジのサーチは、ウェッジパラメータからなる階層的なピラミッドを構築することを含む。（2.1.3 予測のリファインメント）におけるフルサーチ又は高速サーチパターンは、最良のウェッジを発見するために最小の画像の解像度でピラミッドの上位レベルではじめに実行される。次いで、ピラミッドの最低レベルが原画像の解像度に到達するまで、ウェッジはリファインされる。別の実施の形態では、パーティションのパラメータに関するピラミッドのサーチは、オリジナルの解像度の画像に適用することができる。これは、パーティションを定義するパラメータは、アルゴリズムのそれぞれのステージでパーティションのパラメータの解像度を改善する（２倍にする）ことで、階層的なやり方で繰り返し定義されることを意味する。

図１０を参照して、階層的なサーチを使用した高速のウェッジ選択の例示的な方法は、参照符号１０００により一般に示される。

本方法１０００は、開始ブロック１００５を含み、このブロックは制御を機能ブロック１０１０に移す。機能ブロック１０１０は、階層的なパラメータのピラミッドを構築し、制御を機能ブロック１０１５に移す。機能ブロック１０１５は、ピラミッドの最高レベルにおける最良のウェッジについてフルサーチ／高速サーチを実行し、制御を機能ブロック１０２０に移す。機能ブロック１０２０は、ピラミッドの最高レベルから最低レベルにウェッジをリファインし、制御を機能ブロック１０２５に移す。機能ブロック１０２５は、幾何学的なモードについて最良のウェッジを選択し、制御を機能ブロック１０３０に移す。機能ブロック１０３０は、幾何学的なモードとMPEG-4 AVC標準モードとの間で最良のモードを選択し、制御を終了ブロック１０９９に移す。

図１１を参照して、高速の幾何学的モードとウェッジ選択の例示的な方法は、参照符号１１００により一般に示される。

本方法１１００は、開始ブロック１１０５を含み、制御を機能ブロック１１１０に移す。機能ブロック１１１０は、MPEG-4 AVC標準モードをテストし、制御を判定ブロック１１１５に移す。判定ブロック１１１５は、幾何学的モードのチェックをスキップすることができるかをチェックするため、高速モード判定を適用するか否かを判定する。適用する場合、制御を機能ブロック１１２０に移す。さもなければ、制御を機能ブロック１１２５に移す。

機能ブロック１１２０は、MPEG-4 AVC標準モードを最良のモードとして選択し、制御を終了ブロック１１９９に移す。機能ブロック１１２５は、幾何学的モードにおいて最良のウェッジを発見するために高速ウェッジ選択を適用し、制御を機能ブロック１１３０に移す。機能ブロック１１３０は、幾何学的モードとMPEG-4 AVC標準との間で最良のモードを選択し、制御を終了ブロック１１９９に移す。

３．幾何学的パーティション及び予測データの代替的な最適化による高速ウェッジ選択
高速の結合された予測−パーティションパラメータの検索の別のアプローチは、代替的な最適化の方式の使用である。代替的な最適化の使用に関連する実施の形態では、エンコーダは、ウェッジパーティションのパラメータを固定しているパーティションについて最良の予測をサーチし、次いで、その後のステップで、エンコーダは、そのポイントまで検索されたパーティションについて最良の予測子を固定し、それぞれのステップで歪み及び／又は符号化コストの測定値が最小にされるようにウェッジのパーティションのパラメータを最適化する。このプロセスは、繰り返し回数による最適化の改善に関する予め固定された値及び測定値の少なくとも１つに依存して所与の回数で実行される。第一の繰り返しのために使用される最初の設定は係るアプローチの最終的な結果に著しく影響することを理解されたい。別の実施の形態では、幾何学的なパーティションと予測データとの交互に行われる最適化のための幾つかの初期条件がテストされる。

初期条件は、幾何学的なパーティションのパラメータ及び／又は予測データのパラメータに適用される。初期条件は、限定されるものではないが、以下の１以上を含む。ウェッジのパーティションのパラメータスペースに関するプレフィックスサンプリング、周囲の近傍に関する利用可能なデータに基づくウェッジパーティションのパラメータの予測、インター予測の高速動きサーチ、及び動き予測。

図１２を参照して、高速の交互の予測／パーティションのパラメータの最適化の例示的な方法は、参照符号１２００により一般に示される。図１２の方法１２００は、本発明の精神を維持しつつ、１以上の先に記載されたアプローチと組み合わせて使用される。

本方法１２００は、開始ブロック１２０５を含み、このブロックは、制御を機能ブロック１２１０に移す。機能ブロック１２１０は、幾何学的パラメータとパーティションの予測について最初の推測を設定し、制御をループ制限ブロック１２１５に移す。ループ制限ブロック１２１５は、Ｎ回の繰り返しを通してループを設定し、制御を機能ブロック１２２０に移す。機能ブロック１２２０は、パーティションの予測のパラメータを保持し、制御を機能ブロック１２２５に移す。機能ブロック１２２５は、全ての可能性（又はそのサンプリング）を通して最良の幾何学的なパラメータのループを発見し、制御を機能ブロック１２３０に移す。機能ブロック１２３０は、新たな幾何学的なパーティションのパラメータを設定し、制御を機能ブロック１２３５に移す。機能ブロック１２３５は、幾何学的なパーティションのパラメータを保持し、制御を機能ブロック１２４０に移す。機能ブロック１２４０は、全ての可能性（又はそのサンプリング）を通した最良のパーティションの予測パラメータのループを発見し、制御を機能ブロック１２４５に移す。機能ブロック１２４５は、新たなパーティションの予測パラメータを設定し、制御を判定ブロック１２５０に移す。判定ブロック１２５０は、安定状態の最適化に到達したか否かを判定する。到達した場合、制御を機能ブロック１２６０に移す。さもなければ、制御をループ制限ブロック１２５５に移す。

ループ制限ブロック１２５５は、Ｎ回の繰り返しを通して終了し、制御を機能ブロック１２６０に移す。機能ブロック１２６０は、最良のパーティションエッジ及びパーティションパラメータを保存し、制御を終了ブロック１２９９に移す。

本発明の付随する利点／特徴の幾つかに関する記載が与えられ、そのうちの幾つかは上述された。たとえば、１つの利点／特徴は、幾何学的なモデルに基づくパーティションモードを使用した限定的な幾何学的なモード判定を実行するステップを含む方法である。実行するステップは、幾何学的なモデルに基づく分割モードと非幾何学的な分割モードとの間の相関及び依存性の少なくとも１つに基づいて、幾何学的なモデルに基づく分割のモードのテストをスキップするステップを含む。

別の利点／特徴は、上述された方法であり、ここで、限定的な幾何学的なモード判定は、非幾何学的なモードの情報、早期停止の閾値、近傍の情報、残差の情報及び動きベクトルの情報の少なくとも１つを使用する。

更に別の利点／特徴は、情報された方法であり、ここで、早期停止の閾値は、量子化パラメータ、空間的に隣接するレートと歪みのコスト、及び時間的に隣接するレートと歪みのコストの少なくとも１つに対応する。

さらに、別の利点／特徴は、幾何学的なモデルに基づく分割のモードを使用した限定的な幾何学的なパラメータの選択を実行するステップを含む方法である。実行するステップは、予測的なサーチ及び階層的なサーチの少なくとも１つを適用するステップを含む。予測的なサーチは、最初の予測子の選択、適応的な早期の終了、及び予測子のリファインメントの少なくとも１つを含む。

さらに、別の利点／特徴は、上述された方法であり、ここで、最初の予測子の選択は、空間的な相関に基づく予測子、時間的な相関に基づく予測子、所与の符号化標準又は所与の符号化勧告の最良のインターモードに基づく予測子、及び固定された予測子のグリッドの少なくとも１つをイネーブルにする。

また、別の利点／特徴は、幾何学的なモデルに基づく分割のモードを使用した画像のビデオ信号データをエンコードするステップを含む方法である。エンコードするステップは、画像の少なくとも１部について幾何学的なパーティションのパラメータと予測データの交互に行われる最適化を使用してビデオ信号データをエンコードする。

本発明のこれらの特徴及び利点、並びに他の特徴及び利点は、本明細書での教示に基づいて当業者により容易に確かめられる。本発明の教示は、ハードウェア、ソフトウェア、ファームウェア、特定用途プロセッサ又はその組み合わせの様々な形式で実現される。

より詳細には、本発明の教示は、ハードウェアとソフトウェアの組み合わせとして実現される。さらに、ソフトウェアは、プログラムストレージユニットで実施されるアプリケーションプログラムとして実現される。アプリケーションプログラムは、適切なアーキテクチャを有するコンピュータにアップロードされ、実行される。好ましくは、コンピュータは、１以上の中央処理装置（ＣＰＵ）、ランダムアクセスメモリ（ＲＡＭ）、及び入力／出力（Ｉ／Ｏ）インタフェースのようなハードウェアを有するコンピュータプラットフォームで実現される。コンピュータプラットフォームは、オペレーティングシステム及びマイクロ命令コードを含む。本明細書で記載される様々なプロセス及び機能は、ＣＰＵにより実行される場合がある、マイクロ命令コードの一部又はアプリケーションプログラムの一部、或いはそれらの組み合わせの何れかである場合がある。さらに、様々な他の周辺ユニットは、更なるデータストレージユニット及びプリンティングユニットのようなコンピュータプラットフォームに接続される。

添付図面に示される構成要素となるコンポーネント及び方法のうちの幾つかはソフトウェアで実現されることが好ましく、システムコンポーネント又はプロセス機能ブロック間の実際のコネクションは、本発明がプログラムされるやり方に依存して異なる場合があることを理解されたい。本明細書の教示が与えられると、当業者であれば、本発明のこれら及び類似の実現又はコンフィギュレーションを考えることができる。

例示的な実施の形態は添付図面を参照して本明細書に記載されたが、本発明はそれら正確な実施の形態に限定されるものではなく、様々な変形及び変更が本発明の範囲又は精神から逸脱することなしに当業者により実施される場合があることを理解されたい。係る変形及び変更は、特許請求の範囲に述べられるように本発明の範囲に含まれる。

Claims

ビデオ符号化標準方式におけるブロック分割のモードのパラメータの選択と、幾何学的なモデルに基づくブロック分割のモードのパラメータの選択とを行うエンコーダを有する装置であって、前記エンコーダは、
現在の領域に対して、前記ビデオ符号化標準方式におけるブロック分割のモードで選択された最良のブロック分割のパラメータの評価値が、所定の第１の閾値よりも小さいかを判定し、
前記判定が肯定的である場合、現在の領域に対して、前記幾何学的なモデルに基づくブロック分割のモードのパラメータの選択をスキップする、
装置。
ビデオ符号化標準方式におけるブロック分割のモードのパラメータの選択と、幾何学的なモデルに基づくブロック分割のモードのパラメータの選択とを行うエンコーダを有する装置であって、前記エンコーダは、
前記ビデオ符号化標準方式におけるブロック分割のモードにおいて現在の領域の左及び上の近傍の領域がいずれも、前記ビデオ符号化標準方式におけるブロック分割のモードにおけるスキップモードであるか又は分割されていないかを判定し、
前記判定が肯定的である場合、前記現在の領域に対して、前記幾何学的なモデルに基づくブロック分割のモードのパラメータの選択をスキップする、
装置。
ビデオ符号化標準方式におけるブロック分割のモードのパラメータの選択と、幾何学的なモデルに基づくブロック分割のモードのパラメータの選択とを行うエンコーダを有する装置であって、前記エンコーダは、
現在の領域に対して、前記ビデオ符号化標準方式におけるブロック分割のモードにおいて選択された最良のビデオ符号化標準方式におけるブロック分割のモードの残差のエネルギーが、所定の第２の閾値よりも小さいかを判定し、
前記判定が肯定的である場合、前記現在の領域に対して、前記幾何学的なモデルに基づくブロック分割のモードのパラメータの選択の実行をスキップする、
装置。
ビデオ符号化標準方式におけるブロック分割のモードのパラメータの選択と、幾何学的なモデルに基づくブロック分割のモードのパラメータの選択とを行うエンコーダを有する装置であって、前記エンコーダは、
現在の領域の最良の動きベクトル、および前記現在の領域の近傍の動きベクトルの分散が、所定の第３の閾値よりも小さいかを判定し、
前記判定が肯定的である場合、前記現在の領域に対して、前記幾何学的なモデルに基づくブロック分割のモードのパラメータの選択の実行をスキップする、
装置。
ビデオ符号化における幾何学的なモデルに基づくブロック分割のモードのパラメータを選択する装置であって、
１）前記幾何学的なモデルに基づくブロック分割のモードのパラメータの初期値を設定し、
２）該設定された初期値を元に、所定のサーチパターンを用いて、該初期値の近傍のサーチスペース内で最良のブロック分割のパラメータの値を探索し、
３）前記最良のブロック分割のパラメータの値を初期値として、より精密化された該サーチパターンを用いて２）の処理を繰り返す、
ことを行う手段を備えた装置。
請求項５の装置において、所定のサーチパターンはピラミッドサーチであることを特徴とする装置。