JP2007511938A

JP2007511938A - ビデオ信号の符号化方法

Info

Publication number: JP2007511938A
Application number: JP2006537455A
Authority: JP
Inventors: ヴィリンスキー，ピョートル; ファーレカンプ，クリスティアーン
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-10-31
Filing date: 2004-10-14
Publication date: 2007-05-10
Also published as: KR20060109448A; EP1683360A1; CN1875634A; WO2005043918A1; US20070140335A1

Abstract

対応する符号化ビデオデータを生成するために画像シーケンスを有するビデオ信号を符号化する方法が提供される。該方法は、（ａ）画像を分析して１つ以上の画像セグメントを識別するステップと、（ｂ）前記１つ以上のセグメントのうち空間的に確率論的性質を大幅には有していないものを識別し、決定論的に符号化し、第１の符号化中間データを生成するステップと、（ｃ）前記１つ以上のセグメントのうち空間的に確率論的性質を大幅に有しているものを識別し、１つ以上の対応する確率論的モデルパラメータにより符号化し、第２の符号化中間データを生成するステップと、（ｄ）第１と第２の中間データを結合して符号化ビデオデータを生成するステップと、を有する。

Description

本発明は、ビデオ信号の符号化方法に関し、特に、ビデオ画像を対応するセグメントに再分割する画像セグメンテーションを用いて、選択されるセグメントのサブグループに確率的テクスチャモデルを適用して符号化及び／または圧縮されたビデオデータを生成する方法に関するが、これに限定されない。また、本発明は、本発明により符号化されたビデオ信号の復号方法にも関する。さらにまた、本発明は、上記方法のうち１つ以上により動作するエンコーダ、デコーダ、及び符号化／復号システムに関する。また、本発明は、本発明によりビデオデータを符号化する上記方法により生成された符号化データを格納したデータ担体にも関する。

画像情報を符号化してから符号化情報を復号する方法は、従来から知られている。このような方法は、ＤＶＤ、移動電話デジタル画像伝送、デジタルケーブルテレビジョン、デジタル衛星テレビジョンにおいて重要である。その結果、いろいろな符号化方法及び対応する復号方法があり、その一部は国際的な標準（例えば、ＭＰＥＧ−２）として認められている。

近年、国際電気通信連合（ＩＴＵ）の新しい標準、すなわちＩＴＵ−Ｔ標準が議論されている。この標準はＨ．２６Ｌとして知られている。この新しい標準は、すでに確立された対応する標準と比較して、符号化効率が高いということで広く知られるようになった。最近の評価では、新しいＨ．２６Ｌ標準は、以前に確立された画像符号化標準と比較して５０％より低い符号化データビットで、ほぼ同じ信号ノイズ比（Ｓ／Ｎ）を達成できることが示されている。

新しい標準Ｈ．２６Ｌによる利益は一般的に画像ピクチャサイズ（すなわち、その画像ピクセル数）と比例して減少するが、広い範囲のアプリケーションに適用される新しい標準Ｈ．２６Ｌの潜在的可能性は疑う余地がない。この潜在的可能性は、標準Ｈ．２６Ｌを普及させるために設立され、新しいジョイントＩＴＵ−Ｔ／ＭＰＥＧ標準としてＩＴＵ−Ｔに認定させたジョイントビデオチーム（ＪＶＴ）の形成により認識された。この新標準は、２００３年にＩＴＵ−ＴＨ．２６４またはＩＳＯ／ＩＥＣＭＰＥＧ−４ＡＶＣ（アドバンスビデオコーディング）として正式に認定される予定である。現在、Ｈ．２６４標準は、例えば、「ＤＶＢ及びＤＶＤフォーラム」等の他の標準化団体でも検討されている。さらにまた、Ｈ．２６４のソフトウェア及びハードウェアの両方による実装が可能となりつつある。

他の形のビデオ符号化・復号も知られている。例えば、米国特許公報第５，９１７，６０９号には、ハイブリッド波形及びモデルベース画像信号エンコーダ及び対応するデコーダが記載されている。対応するエンコーダとデコーダにおいて、圧縮後の波形が元の波形とできるだけ近くなるように、元の画像信号が波形符号化及び復号される。損失を補償するため、信号のノイズ成分（すなわち、波形符号化により失われた信号成分）がモデルベース符号化され、別途伝送または格納される。デコーダにおいては、ノイズが再生され、波形復号された画像信号に加算される。この特許公報第５，９１７，６０９号において説明されているエンコーダとデコーダは、医療用Ｘ線血管造影画像の圧縮に関するものであり、ノイズが失われると、心臓科医や放射線科医は対応する画像が歪んでいると結論する。しかし、上記の対応するエンコーダとデコーダは、スペシャリストのためのもの実装方法と考えるべきであり、確立または今後確立されるだろう画像符号化及び復号標準に必ずしも則っていない。

ビデオ圧縮の目標は、与えられたビジュアル情報を表すために割り当てられるビット量を減らすことである。余弦変換、フラクタル、ウェーブレット等の変換を用いて、ビデオ信号を表す新しくより効率的なアプローチを見つけることが可能であると考えられている。しかし、本願発明者は、ビデオ信号を表すには２通りの方法があることを発見した。すなわち、決定論的方法と確率論的方法である。画像中のテクスチャは、確率論的に表すことができ、最も類似したノイズモデルを見つけることにより実施することができるであろう。ビデオ画像の一部の領域については、人間の視覚的認知はその領域の詳細なパターンには集まらず、テクスチャの非決定論的かつ方向的特徴（directional characteristics）により多く向かう。例えば、医療用画像処理や気象学における衛星画像処理においては、従来の確率論的なテクスチャの記述は、例えば、雲の形成のように、明らかに確率的な性質を有する画像の圧縮に向けられている。

Ｈ．２６４標準、ＭＰＥＧ−２標準、ＭＰＥＧ−４標準、及び構造化及び／または階層化ビデオ等の新しいビデオ圧縮方法等の現在の符号化方法では、技術的には可能なほどデータ圧縮をできないことを、本願発明者は認識した。特に、本願発明者は、ビデオデータ中の一部の画像領域、特に、空間的なノイズ上の外観を有する画像部分は、符号化ビデオデータにおいて確率論的テクスチャモデルにより記述できることを認識した。さらにまた、本願発明者は、動き補償と奥行きプロファイルを利用して、符号化ビデオデータの復号の際に合成されるテクスチャを復号ビデオデータにおいてうまく描画できることを認識した。さらにまた、本願発明者は、セグメンテーションベースのビデオ符号化にも適用可能であることを認識した。

このように、本願発明者は、上記の符号化され圧縮されたビデオデータを後で復号する時に、ビデオ品質を維持しつつ、ビデオデータ符号化の際に問題となるデータ圧縮の問題を解決した。
米国特許公報第５，９１７，６０９号

本発明の第１の目的は、ビデオ信号に対応する符号化ビデオデータにおけるデータ圧縮の程度を高めることができるビデオ信号の符号化方法を提供することである。

本発明の第２の目的は、ビデオデータ中の空間的に確率論的な画像テクスチャのモデル化方法を提供することである。

本発明の第３の目的は、空間的確率論的画像コンテントを記述するパラメータを用いて符号化されたビデオデータの復号方法を提供することである。

本発明の第４の目的は、より大きな圧縮率で符号化された対応するビデオデータを生成する、入力ビデオ信号を符号化するエンコーダを提供することである。

本発明の第５の目的は、確率論的テクスチャモデリングによりビデオ信号から符号化された符号化ビデオデータ用デコーダを提供することである。

本発明の第１の態様によると、対応する符号化ビデオデータを生成するために画像シーケンスを有するビデオ信号を符号化する方法があり、該方法は、
（ａ）画像を分析して１つ以上の画像セグメントを識別するステップと、
（ｂ）前記１つ以上のセグメントのうち空間的に確率論的性質を大幅には有していないものを識別し、決定論的に符号化し、第１の符号化中間データを生成するステップと、
（ｃ）前記１つ以上のセグメントのうち空間的に確率論的性質を大幅に有しているものを識別し、１つ以上の対応する確率論的モデルパラメータにより符号化し、第２の符号化中間データを生成するステップと、
（ｄ）第１と第２の中間データを結合して符号化ビデオデータを生成するステップと、を有する。

本発明は、符号化方法がデータ圧縮の程度をエンハンスできる点において有利である。

ステップ（ｃ）において、空間的に確率論的性質を大幅に有する１つ以上のセグメントを前記１つ以上のセグメント内に生じる時間的動きの特徴に応じて第１または第２の符号化ルーチンを用いて符号化し、前記第１のルーチンは動きが生じたセグメントを処理するように構成され、前記第２のルーチンは時間的に大幅に安定したセグメントを処理するように構成されていることが好ましい。

時間的動きがかなり大きい確率論的詳細に対応する領域を時間的動きが比較的少ない領域と区別することにより、関連づけられたエンハンス（enhance）されたデータ圧縮を用いて符号化を最適化する程度を高くすることができる。

前記方法は、以下の点でさらに異なる。すなわち、
（ｅ）ステップ（ｂ）において、空間的に確率論的性質を大幅には有していない前記１つ以上のセグメントは、Ｉフレーム、Ｂフレーム、及び／またはＰフレームを用いて決定論的に符号化され、前記Ｉフレームは前記１つ以上のセグメントのテクスチャ成分を決定論的に記述する情報を含み、前記Ｂフレーム及び／またはＰフレームは前記１つ以上のセグメントの時間的動きを記述する情報を含み、
（ｆ）ステップ（ｃ）において、テクスチャ成分を有する確率論的な性質を大幅に有する前記１つ以上のセグメントは、前記モデルパラメータ、Ｂフレーム、及び／またはＰフレームを用いて符号化され、前記１つ以上のセグメント及び前記Ｂフレーム及び／またはＰフレームのテクスチャを表す前記モデルパラメータは前記１つ以上のセグメントの時間的動きを記述する情報を含む、ことが好ましい。

上記において、Ｉフレームは、１つ以上の画像の少なくとも一部の空間的レイアウトの記述に対応するデータフィールドと対応するように解釈すべきである。さらにまた、ＢフレームとＰフレームは、時間的動きと変調の奥行きを記述するデータフィールドに対応すると解釈すべきである。このように、本発明は、圧縮の程度をエンハンスすることができるが、その理由は、変換コーディング等により関連する画像詳細の従来の完全な記述を含む必要があるＩフレームではなく、確率論的画像詳細に対応するＩフレームを確率論的モデルパラメータにより、よりコンパクトな形で表すことができるからである。

本発明の第２の態様によると、対応する復号ビデオ信号を再生するために符号化ビデオデータを復号する方法があり、該方法は、
（ａ）符号化ビデオデータを受け取ってその中の１つ以上のセグメントを識別するステップと、
（ｂ）前記１つ以上のセグメントのうち空間的に確率論的な性質を大幅には有さないものを識別して、決定論的方法で復号して第１の復号中間データを生成するステップと、
（ｃ）前記１つ以上のセグメントのうち空間的に確率論的な性質を本幅に有するものを識別して、前記符号化ビデオデータ入力に含まれるモデルパラメータにより駆動される１つ以上の確率論的モデルにより復号して、第２の復号中間データを生成するステップと、
（ｄ）第１と第２の中間データを結合して前記復号ビデオ信号を生成するステップと、
を含む。

好ましくは、前記方法は次の点でさらに区別される。すなわち、ステップ（ｃ）において、空間的に確率論的性質を大幅に有する１つ以上のセグメントを前記１つ以上のセグメント内に生じる時間的動きの特徴に応じて第１または第２の符号化ルーチンを用いて復号し、前記第１のルーチンは動きが生じたセグメントを処理するように構成され、前記第２のルーチンは時間的に大幅に安定したセグメントを処理するように構成されている。

好ましくは、前記方法はさらに次の点で区別される。すなわち、
（ｅ）ステップ（ｂ）において、空間的に確率論的性質を大幅には有していない前記１つ以上のセグメントは、Ｉフレーム、Ｂフレーム、及び／またはＰフレームを用いて決定論的に復号され、前記Ｉフレームは前記１つ以上のセグメントのテクスチャ成分を決定論的に記述する情報を含み、前記Ｂフレーム及び／またはＰフレームは前記１つ以上のセグメントの時間的動きを記述する情報を含み、
（ｆ）ステップ（ｃ）において、テクスチャ成分を有する確率論的な性質を大幅に有する前記１つ以上のセグメントは、前記モデルパラメータ、Ｂフレーム、及び／またはＰフレームを用いて復号され、前記１つ以上のセグメント及び前記Ｂフレーム及び／またはＰフレームのテクスチャを表す前記モデルパラメータは前記１つ以上のセグメントの時間的動きを記述する情報を含む。

本発明の第４の態様によると、対応する符号化ビデオデータを生成するために画像シーケンスを有するビデオ信号を符号化してエンコーダが提供される。該エンコーダは、
（ａ）画像を分析して１つ以上の画像セグメントを識別する分析手段と、
（ｂ）前記１つ以上のセグメントのうち空間的に確率論的性質を大幅には有していないものを識別し、決定論的に符号化し、第１の符号化中間データを生成する第１の識別手段と、
（ｃ）前記１つ以上のセグメントのうち空間的に確率論的性質を大幅に有しているものを識別し、１つ以上の対応する確率論的モデルパラメータにより符号化し、第２の符号化中間データを生成する第２の識別手段と、
（ｄ）第１と第２の中間データを結合して符号化ビデオデータを生成するデータ結合手段と、を有する。

好ましくは、前記エンコーダにおいて、第２の識別手段は、空間的に確率論的性質を大幅に有する１つ以上のセグメントを前記１つ以上のセグメント内に生じる時間的動きの特徴に応じて第１または第２の符号化ルーチンを用いて符号化するように動作可能であり、前記第１のルーチンは動きが生じたセグメントを処理するように構成され、前記第２のルーチンは時間的に大幅に安定したセグメントを処理するように構成されている。

好ましくは、前記エンコーダにおいて、
（ｅ）前記第１の識別手段は、空間的に確率論的性質を大幅には有していない前記１つ以上のセグメントを、Ｉフレーム、Ｂフレーム、及び／またはＰフレームを用いて決定論的に符号化するように動作可能であり、前記Ｉフレームは前記１つ以上のセグメントのテクスチャ成分を決定論的に記述する情報を含み、前記Ｂフレーム及び／またはＰフレームは前記１つ以上のセグメントの時間的動きを記述する情報を含み、
（ｆ）前記第２の識別手段は、テクスチャ成分を有する確率論的な性質を大幅に有する前記１つ以上のセグメントを、前記モデルパラメータ、Ｂフレーム、及び／またはＰフレームを用いて符号化するように動作可能であり、前記１つ以上のセグメント及び前記Ｂフレーム及び／またはＰフレームのテクスチャを表す前記モデルパラメータは前記１つ以上のセグメントの時間的動きを記述する情報を含む。

好ましくは、前記エンコーダは、電子的ハードウェアとコンピュータハードウェア上で動作するソフトウェアのうち少なくとも１つを用いて実施される。

本発明の第５の態様によると、対応する復号ビデオ信号を再生するために符号化ビデオデータを復号するデコーダが提供される。該デコーダは、
（ａ）符号化ビデオデータを受け取ってその中の１つ以上のセグメントを識別する分析手段と、
（ｂ）前記１つ以上のセグメントのうち空間的に確率論的な性質を大幅には有さないものを識別して、決定論的方法で復号して第１の復号中間データを生成する第１の識別手段と、
（ｃ）前記１つ以上のセグメントのうち空間的に確率論的な性質を本幅に有するものを識別して、前記符号化ビデオデータ入力に含まれるモデルパラメータにより駆動される１つ以上の確率論的モデルにより復号して、第２の復号中間データを生成する第２の識別手段と、
（ｄ）第１と第２の中間データを結合して前記復号ビデオ信号を生成する結合手段と、
を含む。

好ましくは、前記デコーダは、空間的に確率論的性質を大幅に有する１つ以上のセグメントを前記１つ以上のセグメント内に生じる時間的動きの特徴に応じて第１または第２の符号化ルーチンを用いて復号するように構成され、前記第１のルーチンは動きが生じたセグメントを処理するように構成され、前記第２のルーチンは時間的に大幅に安定したセグメントを処理するように構成されている点において区別される。

好ましくは、前記デコーダは、さらに次の点において区別される。すなわち、
（ｅ）前記第１の識別手段は、空間的に確率論的性質を大幅には有していない前記１つ以上のセグメントを、Ｉフレーム、Ｂフレーム、及び／またはＰフレームを用いて決定論的に復号するように動作可能であり、前記Ｉフレームは前記１つ以上のセグメントのテクスチャ成分を決定論的に記述する情報を含み、前記Ｂフレーム及び／またはＰフレームは前記１つ以上のセグメントの時間的動きを記述する情報を含み、
（ｆ）前記第２の識別手段は、テクスチャ成分を有する確率論的な性質を大幅に有する前記１つ以上のセグメントを、前記モデルパラメータ、Ｂフレーム、及び／またはＰフレームを用いて復号するように動作可能であり、前記１つ以上のセグメント及び前記Ｂフレーム及び／またはＰフレームのテクスチャを表す前記モデルパラメータは前記１つ以上のセグメントの時間的動きを記述する情報を含む。

好ましくは、前記デコーダは、電子的ハードウェアとコンピュータハードウェア上で動作するソフトウェアのうち少なくとも１つを用いて実施される。

当然のことながら、本発明の特徴は、本発明の範囲から逸脱することなくいかなる組み合わせによって結合することもできる。

本発明の実施形態を、添付した図面を参照して、実施例により説明する。

図１を参照して、ビデオプロセス１０を示した。本プロセス１０は次のステップを含む：対応する符号化ビデオデータVencodeを生成するエンコーダ２０において入力ビデオ信号Vipを符号化する第１のステップと、データ担体３０に符号化ビデオデータVencodeを格納、及び／または好適なブロードキャストネットワーク３０を介して符号化ビデオデータVencodeを伝送する第２のステップと、ブロードキャスト及び／または格納されたビデオデータVencodeをデコーダ４０において復号し、入力ビデオ信号に対応する出力ビデオ信号Vopを再構成する第３のステップ。入力ビデオ信号Vipは、好ましくは、現在知られているビデオ標準に則り、ピクチャまたは画像の時間的シーケンスを有する。エンコーダ２０において、画像はフレームにより表され、フレームにはＩフレーム、Ｂフレーム、及びＰフレームがある。これらのフレームについてはビデオ符号化の技術分野において周知である。

動作中に、入力ビデオ信号Vipは、エンコーダ２０に送られ、入力信号Vip中にある画像にセグメンテーションプロセスが適用される。セグメンテーションプロセスは、画像を空間的にセグメント化される領域に再分割する。セグメント化領域には、次に、確率論的テクスチャを含むかどうかを判断する第１の分析が適用される。さらにまた、セグメント化プロセスにおいて、確率論的テクスチャを有すると判断されたセグメント化領域が時間的に安定であるかを判断する第２の分析を実行する。

入力信号Vipに適用される符号化機能は、第１と第２の分析の結果により選択され、符号化出力ビデオデータVencodeが生成される。出力ビデオデータVencodeは、次にデータ担体３０に記録される。データ担体３０は、たとえば、
（ａ）ＥＥＰＲＯＭ及び／またはＳＲＡＭ等の固体メモリ、
（ｂ）ＣＤ−ＲＯＭ、ＤＶＤ、独自仕様のブルーレイ媒体等の光記憶媒体、及び
（ｃ）持ち運び可能磁気ハードディスク等の磁気ディスク記録媒体、
のうち少なくとも１つである。

これに加えて、またはこれに替わって、符号化ビデオデータVencodeを、例えば、地上無線を介して、衛星通信を介して、インターネット等のデータネットワークを介して、及び既存の電話ネットワークを介して、ブロードキャストすることができる。

その後、エンコーダビデオデータVencodeをブロードキャストネットワーク３０から受信するか、及び／またはデータ担体３０から読み出すかして、デコーダ４０に入力する。デコーダ４０は、出力ビデオ信号Vopとして入力ビデオ信号Vipのコピーを再構成する。符号化ビデオデータVencodeの復号において、デコーダ４０は、Ｉフレームにセグメント化機能を適用し、エンコーダ２０によりセグメントに適用されたパラメータラベルを決定し、次に、これらのラベルから確率論的テクスチャがあるかどうか決定する。確率論的テクスチャがあることが、セグメントに関連づけられたラベルにより示されている場合、デコーダ４０はさらに確率論的テクスチャが時間的に安定化どうかを判断する。例えば、確率論的テクスチャ及び／または時間的安定性等のセグメントの性質に応じて、デコーダ４０はセグメントに適当な機能を適用して、入力ビデオ信号Vipのコピーを再構成し、出力ビデオ信号Vopとして出力する。

このように、ビデオプロセス１０の案出において、本願発明者は、一定のセグメント領域が対応する圧縮された符号化データにおいてパラメータで記述されるフレームセグメント化方法に基づきビデオ信号を圧縮する方法を案出した。かかる一定の領域は、空間的に確率論的な性質であるコンテントを有し、パラメータにより駆動されたデコーダ４０で確率論的モデルを用いて再構成することができる。このような再構成をさらに支援するため、動き補償と奥行きプロファイル情報を有利に利用する。

本願発明者は、ビデオ圧縮において、ビデオテクスチャの一部分を統計的にモデル化することができることを認識した。このような統計的モデル化は、その部分の内部領域の詳細に集中するのではなく、基本的にその境界の形状に集中することにより、人間の脳が画像の部分を解釈するやりかたより、圧縮をエンハンスするアプローチとして現実的である。このように、プロセス１０により生成された圧縮された符号化ビデオデータVencodeにおいて、確率論的にモデル化可能な画像の部分は、境界内のコンテントを簡単に記述するパラメータをともに、境界情報としてビデオデータ中に表される。パラメータは、デコーダ４０のテクスチャジェネレータを駆動することができる。

しかし、復号画像の品質はいくつかのパラメータにより決まり、経験的には、最も重要なパラメータの１つは時間的安定性である。この安定性はテクスチャを含む画像部分の安定性にも関係する。よって、符号化ビデオデータVencodeにおいては、空間的に統計的な性格を有するテクスチャは、復号された出力ビデオ信号Vopに時間的に安定な統計的効果（statistical impression）を与えることを可能とするように記述されている。

このように、本願発明者は、符号化ビデオデータの圧縮をエンハンスするという現状の問題を認識した。画像テクスチャの確率論的性質を認識した後、そのようなテクスチャを表すための符号化ビデオデータで使用する適当なパラメータを特定するという周辺的問題を検討した。

このようなテクスチャを再生するデコーダ４０においてテクスチャ奥行きと動き情報を用いて、これらの問題を本発明において解決することができる。従来、例えば、ビデオゲーム等の静的バックグラウンドテクスチャにおいて、決定論的テクスチャ生成の状況においてのみパラメータを利用してきた。

例えば、エンコーダ２０にある現在のビデオストリームは、Ｉフレーム、Ｂフレーム、及びＰフレームに分割される。符号化ビデオデータにおいて、Ｉフレームは、従来、後でビデオデータの復号の際に詳細なテクスチャの再構成ができるようなやりかたで圧縮されている。さらにまた、ＢフレームとＰフレームは、動きベクトルと剰余情報を用いて復号の際に再構成される。本発明は、Ｉフレーム中のテクスチャの一部が伝送される必要がなく、それらの統計的モデルがモデルパラメータによって伝送されるだけであるという点で、従来のビデオ信号処理方法と異なる。さらにまた、本発明において、動き情報と奥行き情報の少なくとも１つをＢフレームとＰフレームについて計算する。デコーダ４０において、符号化ビデオデータVencodeの復号の際にランダムテクスチャを生成する。テクスチャはＩフレームのために生成され、ＢフレームとＰフレームで使用するために、動き及び／または奥行き情報を継続的に生成する。動き及び／または奥行き情報の適当な利用と共にテクスチャモデリングを組み合わせることによって、ビデオデータVencodeで達成されたデータ圧縮は、前記の現在のエンコーダと比較してエンコーダ２０において、復号ビデオの品質において大幅に知覚的に低下することなくより大きくなる。

プロセス１０は、従来及び／または新しいビデオ圧縮方法において、使用することができる。従来の方法には、ＭＰＥＧ−２、ＭＰＥＧ−４、及びＨ．２６４の各種標準が含まれ、一方、新しい圧縮方法には、構造化ビデオ及び階層化ビデオのフォーマットが含まれる。さらにまた、本発明は、ブロックベース及びセグメントベースのビデオコードに適用可能である。

本発明をさらに説明するため、図２と３を参照して本発明の実施形態を説明する。

図２には、エンコーダ２０がより詳細に例示されている。エンコーダ２０は、入力信号Vipを受信するセグメント機能１００を含む。セグメント機能１００からの出力は、「ｙｅｓ」か「ｎｏ」の出力を有する確率論的テクスチャ検出機能１１０に入力される。確率論的テクスチャ検出機能１１０の出力は、動作中、画像セグメントが空間的に確率論的なテクスチャディテールを含むかどうかを示す。エンコーダ２０は、テクスチャ検出機能１１０から情報を受け取るテクスチャ時間安定性検出機能１２０をさらに含む。テクスチャ検出機能１１０からの「ｎｏ」出力は、Ｉフレームテクスチャ圧縮機能１４０に入力される。このＩフレームテクスチャ圧縮機能１４０は、データ合計機能１８０に直接結合され、またデータ合計機能１８０に第１のセグメントベース動き推定機能１７０を介して間接的に結合されている。同様に、安定性検出機能１２０からの「ｙｅｓ」出力は、Ｉフレームテクスチャモデル推定機能１５０に入力される。このＩフレームテクスチャモデル推定機能１５０の出力は、合計機能１８０に直接結合され、また合計機能１８０に第２のセグメントベース動き推定機能１７０を介して間接的に結合されている。同様に、安定性検出機能１２０からの「ｎｏ」出力は、Ｉフレームテクスチャモデル推定機能１６０に入力される。このＩフレームテクスチャモデル推定機能１６０の出力は合計機能１８０に直接結合され、また、合計機能１８０に第３のセグメントベース動き推定機能１７０を介して間接的に結合されている。合計機能１８０は、受け取ったデータの組み合わせに対応する出力符号化ビデオデータVencodeからのデータ出力を含む。エンコーダ２０は、コンピュータハードウェア上で実行されるソフトウェア、及び／または、例えば、特定目的集積回路（ＡＳＩＣ）等のカスタム化された電子的ハードウェアとしても実装することができる。

動作中において、エンコーダ２０は、その入力において、入力ビデオ信号Vipを受信する。その信号は、必要に応じてアナログからデジタルフォーマットにデジタル化され、セグメント機能１００と関連付けられたメモリに格納されて、格納ビデオ画像となる。機能１００は、メモリ中のビデオ画像を分析し、所定の類似性を有する画像中のセグメント（例えば、画像のサブ領域）を識別する。次に、機能１００は、テクスチャ検出機能１１０にセグメントを示すデータを出力する。有利にも、テクスチャ検出機能１１０は、セグメント機能１００と関連付けられたメモリにアクセスできる。

テクスチャ検出機能１１０は、入力された画像セグメントをそれぞれ分析して、そのテクスチャコンテントを確率論的モデリングパラメータで記述できるかどうか判断する。

テクスチャ検出機能１１０は、確率論的モデリングが適していないと判断すると、セグメント情報をテクスチャ圧縮機能１４０とそれに関連づけられた第１の動き推定機能１７０に送り、そのセグメントに対応したビデオデータを従来のより決定論的な方法で生成し、合計機能１８０に送る。テクスチャ圧縮機能１４０と結合した第１の動き推定機能１７０は、ＢフレームとＰフレームに好適なデータを提供するように動作可能であるが、テクスチャ圧縮機能１４０は、Ｉフレームタイプのデータを直接生成するように動作可能である。

逆に言えば、テクスチャ検出機能１１０は、確率論的モデリングが適していると判断すると、セグメント情報を時間的安定性検出機能１２０に送る。この機能１２０は、情報を受け取ったセグメントの時間的安定性を分析する。例えば、斑点のついた壁が広がっている、静止カメラにより撮影された静止したシーンの場合のように、セグメントが時間的に安定であると分かると、安定性検出機能１２０は、セグメント情報をテクスチャモデル推定機能１５０に送る。その機能１５０は、判断されたセグメントについてモデルパラメータを生成して、合計機能１８０に直接送るとともに第２の動き推定機能１７０を介して送る。第２の動き推定機能１７０は、ＢフレームとＰフレームのために、判断されたセグメント中の動きに関するパラメータを生成する。あるいは、安定性検出機能１２０は、セグメントが時間的に十分安定していないと判断すると、セグメント情報をテクスチャモデル推定機能１６０に送る。テクスチャモデル推定機能１６０は、その判断されたセグメントのモデルパラメータを生成して、合計機能１８０に直接的及び第３の動き推定機能１７０を介して間接的に送る。第３の動き推定機能１７０は、ＢフレームとＰフレームのために判断されたセグメント中の動きに関するパラメータを生成する。好ましくは、テクスチャモデル推定機能１５０、１６０はそれぞれ、比較的静止した画像と比較的急激に変化する画像に対処するように最適化されている。上述のように、合計機能１８０は、機能１４０、１５０、１６０、１７０からの出力を受け、対応する圧縮された符号化ビデオデータVencodeを出力する。

このように、動作中に、Ｉフレーム中の一部のテクスチャではなく等価な確率論的／統計的モデルのみを伝送するように、伝送エンコーダ２０が構成されている。しかし、動き及び／または奥行き情報は、対応するＢフレームとＰフレームのために計算される。

エンコーダ２０の動作をさらに説明するために、それがいろいろなタイプの画像の特徴を処理する方法をここで説明する。

ビデオ画像中のすべての領域を統計的に記述することはできない。ビデオ画像では、３タイプの領域に遭遇することが多い。
（ａ）タイプ１：空間的に非統計的なテクスチャを含む領域。エンコーダ２０では、このようなタイプ１の領域は、決定論的方法で符号化出力ビデオデータVencodeのＩフレーム、Ｂフレーム及びＰフレームに圧縮される。対応するＩフレームの場合、決定論的テクスチャが伝送される。さらに、関連づけられた動き情報がＢフレームとＰフレームで伝送される。動きデータは、デコーダ側において領域を正しく順序付けることを可能とするが、デコーダ４０のレベルで伝送または再計算されることが好ましい。
（ｂ）タイプ２：空間的に統計的であるが静止していないテクスチャを含む領域。この領域には、例えば、波や霧や炎がある。タイプ２領域の場合、エンコーダ２０は統計的モデルを伝送するように動作可能である。この領域では動きが時間的にランダムなので、例えば、デコーダ４０における後続のテクスチャ生成プロセスにおいては動き情報は使用しない。ビデオフレームごとに、復号の際に統計的モデルから別の表現によりテクスチャを生成する。しかし、エンコーダ出力ビデオデータVencodeにおいて、領域の形状、すなわち、領域の周辺エッジを空間的に記述する情報は動き補償される。
（ｃ）タイプ３：比較的時間的に安定している、テクスチャを含む領域。この領域の例としては、芝生、砂、及び森林の詳細などがある。このタイプの領域では、例えば、ＡＲＭＡモデル等の統計的モデルが伝送され、時間的動き及び／または奥行き情報も符号化出力ビデオデータVencode中のＢフレームとＰフレームで伝送される。Ｉフレーム、Ｂフレーム、及びＰフレームに符号化された情報は、時間的に一貫した方法で領域のテクスチャを生成するためにデコーダ４０で利用される。

このように、エンコーダ２０は、画像テクスチャを、例えば、ＤＣＴやウェーブレット等の従来の方法で圧縮するか、それとも本発明の上述のパラメータ化モデルにより圧縮するかどうかを決定するように動作可能である。

図３を参照すると、デコーダ４０の構成要素がより詳細に示されている。デコーダ４０は、カスタムハードウェア及び／またはコンピュータハードウェア上で実行されるソフトウェアとして実装することができる。デコーダ４０は、Ｉフレームセグメント化機能２００、セグメントラベル機能２１０、確率論的テクスチャチェック機能２２０、及び時間的安定性チェック機能２３０を有する。さらにまた、デコーダ４０は、テクスチャ再構成機能２４０、第１と第２のテクスチャモデリング機能２５０、２６０を有する。これらの機能２４０、２５０、２６０は、基本的にＩフレーム情報に関する。さらにまた、デコーダ４０は、セグメント形状補償されたテクスチャ生成機能２９０とともに第１と第２の動き及び奥行き補償されたテクスチャ生成機能２７０、２８０を有する。これらの機能２７０、２８０、２９０は、主にＢフレームとＰフレームの情報に係わる。最後に、デコーダ４０は、生成機能２７０、２８０、２９０からの出力を結合する合計機能３００を含む。

デコーダ４０のいろいろな機能の相互動作をここで説明する。

図示したように、デコーダ４０への符号化ビデオデータVencode入力は、セグメント化機能２００の入力とセグメントラベル機能２１０の制御入力に結合されている。セグメント化機能２００からの出力は、セグメントラベル機能２１０のデータ入力とも結合している。セグメントラベル機能２１０の出力は、テクスチャチェック機能２２０の入力と接続されている。さらにまた、テクスチャチェック機能２２０は、テクスチャ再構成機能２４０のデータ入力とリンクした第１の「ｎｏ」出力と、安定性チェック機能２３０の入力と結合した「ｙｅｓ」出力とを有する。さらにまた、安定性チェック機能２３０は、第１のテクスチャ生成機能２５０と結合した「ｙｅｓ」出力と、第２のテクスチャ生成機能２６０と結合した対応する「ｎｏ」出力を含む。機能２４０、２５０、２６０からのデータ出力は、図示したように、機能２７０、２８０、２９０の対応するデータ入力と結合している。最後に、機能２７０、２８０、２９０からのデータ出力は、合計機能３００の合計入力と結合している。合計機能３００は、上述の復号ビデオ出力Vopを提供するデータ出力も有する。

デコーダ４０の動作中には、符号化ビデオデータVencodeはセグメント化機能２００に送られ、データVencode中のＩフレームからの画像セグメントを識別し、それをラベル機能２１０に送る。ラベル機能２１０は、識別されたセグメントを適当な関連づけられたパラメータでラベルする。ラベル機能２１０からのセグメントデータ出力は、テクスチャチェック機能２２０に送られる。テクスチャチェック機能２２０は、受け取ったセグメントを分析して、確率論的モデリングを使用していることを示す確率論的テクスチャパラメータが関連づけられているかどうかを判断する。確率論的テクスチャモデリングが使用されていると認められない場合、すなわち、前述のタイプ１領域である場合、セグメントデータは再構成機能２４０に送られる。再構成機能２４０は、受け取ったセグメントを従来の決定論的な方法で復号して、対応する復号Ｉフレームデータを生成する。そのＩフレームデータは、生成機能２７０に送られ、動き及び奥行きに関する情報が従来の方法でその復号Ｉフレームデータに付加される。

チェック機能２２０は、受け取ったセグメントが確率論的性質を有する、すなわち、タイプ２及び／またはタイプ３の領域であると判断した場合、そのセグメントを安定性チェック機能２３０に転送する。その安定性チェック機能２３０は、そのセグメントを分析して、転送されたセグメントが符号化された比較的安定しているかどうか、すなわち前述のタイプ３領域であるか、または時間的変化の程度が比較的大きいか、すなわち前述のタイプ２領域であるかどうかを判断する。チェック機能２３０は、セグメントがタイプ２領域であると分かると、「ｙｅｓ」出力に転送して第１のテクスチャモデリング機能２５０に送る。その後、セグメントはテクスチャ生成機能２８０に送られる。反対に、チェック機能２３０は、セグメントがタイプ３領域であることが分かると、「ｎｏ」出力から第２のテクスチャモデリング機能２６０に転送する。そのセグメントはその後補償テクスチャ生成機能２９０に送られる。合計機能３００は、機能２７０、２８０、２９０からの出力を受け取り、合成して、復号出力ビデオデータVopを生成する。

生成機能２７０、２８０は、セグメントの動き及び奥行き再構成を実効するように最適化されているが、一方、テクスチャ生成機能２９０は、前述のように、空間的に確率論的な性質を有する比較的動きのないセグメントを再構成するように最適化されている。

このように、デコーダ４０は、効果的にも、３つのセグメント再構成チャンネルを有する。すなわち、機能２４０、２７０を有する第１のチャンネルと、機能２５０、２８０を有する第２のチャンネルと、機能２６０、２９０を有する第３のチャンネルである。第１、第２、及び第３のチャンネルは、それぞれタイプ１、タイプ２、及びタイプ３の領域に対応する符号化セグメントの再構成と関連づけられている。

当然のことながら、前述の本発明の実施形態は、本発明の範囲から逸脱することなく修正することができる。

上記の説明においては、当然のことながら、「有する」、「含む」等の表現は非排他的に解釈しなければならず、すなわち、記載されていない別のアイテムや構成要素があってもよい。

ビデオプロセスを示す概略図であり、入力ビデオ信号を符号化して対応する符号化ビデオデータを生成する第１のステップと、符号化ビデオデータをデータ担体に記録し、及び／または符号化ビデオデータをブロードキャストする第２のステップと、符号化ビデオデータを復号して入力ビデオ信号を再構成する第３のステップとを含む。図１に示した第１のステップを示す概略図であり、入力ビデオ信号Vipを符号化し、対応する符号化ビデオデータVencodeを生成する。図１に示した第３のステップを示す概略図であり、符号化ビデオデータを復号し、入力ビデオ信号Vipの再構成に対応する出力ビデオ信号Vopを生成する。

Claims

対応する符号化ビデオデータを生成するために画像シーケンスを有するビデオ信号を符号化する方法であって、
（ａ）画像を分析して１つ以上の画像セグメントを識別するステップと、
（ｂ）前記１つ以上のセグメントのうち空間的に確率論的性質を大幅には有していないものを識別し、決定論的に符号化し、第１の符号化中間データを生成するステップと、
（ｃ）前記１つ以上のセグメントのうち空間的に確率論的性質を大幅に有しているものを識別し、１つ以上の対応する確率論的モデルパラメータにより符号化し、第２の符号化中間データを生成するステップと、
（ｄ）第１と第２の中間データを結合して符号化ビデオデータを生成するステップと、を有することを特徴とする方法。
請求項１に記載の方法であって、
ステップ（ｃ）において、空間的に確率論的性質を大幅に有する１つ以上のセグメントを前記１つ以上のセグメント内に生じる時間的動きの特徴に応じて第１または第２の符号化ルーチンを用いて符号化し、前記第１のルーチンは動きが生じたセグメントを処理するように構成され、前記第２のルーチンは時間的に大幅に安定したセグメントを処理するように構成されていることを特徴とする方法。
請求項１または２に記載の方法であって、
（ｅ）ステップ（ｂ）において、空間的に確率論的性質を大幅には有していない前記１つ以上のセグメントは、Ｉフレーム、Ｂフレーム、及び／またはＰフレームを用いて決定論的に符号化され、前記Ｉフレームは前記１つ以上のセグメントのテクスチャ成分を決定論的に記述する情報を含み、前記Ｂフレーム及び／またはＰフレームは前記１つ以上のセグメントの時間的動きを記述する情報を含み、
（ｆ）ステップ（ｃ）において、テクスチャ成分を有する確率論的な性質を大幅に有する前記１つ以上のセグメントは、前記モデルパラメータ、Ｂフレーム、及び／またはＰフレームを用いて符号化され、前記１つ以上のセグメント及び前記Ｂフレーム及び／またはＰフレームのテクスチャを表す前記モデルパラメータは前記１つ以上のセグメントの時間的動きを記述する情報を含む、
ことを特徴とする方法。
請求項１ないし３いずれか一項に記載の方法を用いて生成された符号化ビデオデータを格納したデータ担体。
対応する復号ビデオ信号を再生するために符号化ビデオデータを復号する方法であって、
（ａ）符号化ビデオデータを受け取ってその中の１つ以上のセグメントを識別するステップと、
（ｂ）前記１つ以上のセグメントのうち空間的に確率論的な性質を大幅には有さないものを識別して、決定論的方法で復号して第１の復号中間データを生成するステップと、
（ｃ）前記１つ以上のセグメントのうち空間的に確率論的な性質を本幅に有するものを識別して、前記符号化ビデオデータ入力に含まれるモデルパラメータにより駆動される１つ以上の確率論的モデルにより復号して、第２の復号中間データを生成するステップと、
（ｄ）第１と第２の中間データを結合して前記復号ビデオ信号を生成するステップと、
を含むことを特徴とする方法。
請求項５に記載の方法であって、
ステップ（ｃ）において、空間的に確率論的性質を大幅に有する１つ以上のセグメントを前記１つ以上のセグメント内に生じる時間的動きの特徴に応じて第１または第２の符号化ルーチンを用いて復号し、前記第１のルーチンは動きが生じたセグメントを処理するように構成され、前記第２のルーチンは時間的に大幅に安定したセグメントを処理するように構成されていることを特徴とする方法。
請求項５または６に記載の方法であって、
（ｅ）ステップ（ｂ）において、空間的に確率論的性質を大幅には有していない前記１つ以上のセグメントは、Ｉフレーム、Ｂフレーム、及び／またはＰフレームを用いて決定論的に復号され、前記Ｉフレームは前記１つ以上のセグメントのテクスチャ成分を決定論的に記述する情報を含み、前記Ｂフレーム及び／またはＰフレームは前記１つ以上のセグメントの時間的動きを記述する情報を含み、
（ｆ）ステップ（ｃ）において、テクスチャ成分を有する確率論的な性質を大幅に有する前記１つ以上のセグメントは、前記モデルパラメータ、Ｂフレーム、及び／またはＰフレームを用いて復号され、前記１つ以上のセグメント及び前記Ｂフレーム及び／またはＰフレームのテクスチャを表す前記モデルパラメータは前記１つ以上のセグメントの時間的動きを記述する情報を含む、
ことを特徴とする方法。
対応する符号化ビデオデータを生成するために画像シーケンスを有するビデオ信号を符号化してエンコーダであって、
（ａ）画像を分析して１つ以上の画像セグメントを識別する分析手段と、
（ｂ）前記１つ以上のセグメントのうち空間的に確率論的性質を大幅には有していないものを識別し、決定論的に符号化し、第１の符号化中間データを生成する第１の識別手段と、
（ｃ）前記１つ以上のセグメントのうち空間的に確率論的性質を大幅に有しているものを識別し、１つ以上の対応する確率論的モデルパラメータにより符号化し、第２の符号化中間データを生成する第２の識別手段と、
（ｄ）第１と第２の中間データを結合して符号化ビデオデータを生成するデータ結合手段と、を有することを特徴とするエンコーダ。
請求項８に記載のエンコーダであって、
第２の識別手段は、空間的に確率論的性質を大幅に有する１つ以上のセグメントを前記１つ以上のセグメント内に生じる時間的動きの特徴に応じて第１または第２の符号化ルーチンを用いて符号化するように動作可能であり、前記第１のルーチンは動きが生じたセグメントを処理するように構成され、前記第２のルーチンは時間的に大幅に安定したセグメントを処理するように構成されていることを特徴とするエンコーダ。
請求項８または９に記載のエンコーダであって、
（ｅ）前記第１の識別手段は、空間的に確率論的性質を大幅には有していない前記１つ以上のセグメントを、Ｉフレーム、Ｂフレーム、及び／またはＰフレームを用いて決定論的に符号化するように動作可能であり、前記Ｉフレームは前記１つ以上のセグメントのテクスチャ成分を決定論的に記述する情報を含み、前記Ｂフレーム及び／またはＰフレームは前記１つ以上のセグメントの時間的動きを記述する情報を含み、
（ｆ）前記第２の識別手段は、テクスチャ成分を有する確率論的な性質を大幅に有する前記１つ以上のセグメントを、前記モデルパラメータ、Ｂフレーム、及び／またはＰフレームを用いて符号化するように動作可能であり、前記１つ以上のセグメント及び前記Ｂフレーム及び／またはＰフレームのテクスチャを表す前記モデルパラメータは前記１つ以上のセグメントの時間的動きを記述する情報を含む、
ことを特徴とするエンコーダ。
請求項８ないし１０いずれか一項記載のエンコーダであって、電子的ハードウェアとコンピュータハードウェア上で動作するソフトウェアのうち少なくとも１つを用いて実施されることを特徴とするエンコーダ。
対応する復号ビデオ信号を再生するために符号化ビデオデータを復号するデコーダであって、
（ａ）符号化ビデオデータを受け取ってその中の１つ以上のセグメントを識別する分析手段と、
（ｂ）前記１つ以上のセグメントのうち空間的に確率論的な性質を大幅には有さないものを識別して、決定論的方法で復号して第１の復号中間データを生成する第１の識別手段と、
（ｃ）前記１つ以上のセグメントのうち空間的に確率論的な性質を本幅に有するものを識別して、前記符号化ビデオデータ入力に含まれるモデルパラメータにより駆動される１つ以上の確率論的モデルにより復号して、第２の復号中間データを生成する第２の識別手段と、
（ｄ）第１と第２の中間データを結合して前記復号ビデオ信号を生成する結合手段と、
を含むことを特徴とするデコーダ。
請求項１２に記載のデコーダであって、
空間的に確率論的性質を大幅に有する１つ以上のセグメントを前記１つ以上のセグメント内に生じる時間的動きの特徴に応じて第１または第２の符号化ルーチンを用いて復号するように構成され、前記第１のルーチンは動きが生じたセグメントを処理するように構成され、前記第２のルーチンは時間的に大幅に安定したセグメントを処理するように構成されていることを特徴とするデコーダ。
請求項１２または１３に記載のデコーダであって、
（ｅ）前記第１の識別手段は、空間的に確率論的性質を大幅には有していない前記１つ以上のセグメントを、Ｉフレーム、Ｂフレーム、及び／またはＰフレームを用いて決定論的に復号するように動作可能であり、前記Ｉフレームは前記１つ以上のセグメントのテクスチャ成分を決定論的に記述する情報を含み、前記Ｂフレーム及び／またはＰフレームは前記１つ以上のセグメントの時間的動きを記述する情報を含み、
（ｆ）前記第２の識別手段は、テクスチャ成分を有する確率論的な性質を大幅に有する前記１つ以上のセグメントを、前記モデルパラメータ、Ｂフレーム、及び／またはＰフレームを用いて復号するように動作可能であり、前記１つ以上のセグメント及び前記Ｂフレーム及び／またはＰフレームのテクスチャを表す前記モデルパラメータは前記１つ以上のセグメントの時間的動きを記述する情報を含む、
ことを特徴とするデコーダ。
請求項１２ないし１４いずれか一項記載のデコーダであって、電子的ハードウェアとコンピュータハードウェア上で動作するソフトウェアのうち少なくとも１つを用いて実施されることを特徴とするデコーダ。