JP4949836B2 - 記述的モデルパラメータを用いたエンハンスメントレイヤデータを符号化及び復号化するシステム及び方法 - Google Patents

記述的モデルパラメータを用いたエンハンスメントレイヤデータを符号化及び復号化するシステム及び方法 Download PDF

Info

Publication number
JP4949836B2
JP4949836B2 JP2006524459A JP2006524459A JP4949836B2 JP 4949836 B2 JP4949836 B2 JP 4949836B2 JP 2006524459 A JP2006524459 A JP 2006524459A JP 2006524459 A JP2006524459 A JP 2006524459A JP 4949836 B2 JP4949836 B2 JP 4949836B2
Authority
JP
Japan
Prior art keywords
data
encoder
image
output
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006524459A
Other languages
English (en)
Other versions
JP2007504696A (ja
Inventor
ブラゼロヴィッチ,ズェフデット
ブリュルス,ウィルヘルミュス
ワーレ,ステイン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2007504696A publication Critical patent/JP2007504696A/ja
Application granted granted Critical
Publication of JP4949836B2 publication Critical patent/JP4949836B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/29Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding involving scalability at the object level, e.g. video object layer [VOL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/39Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability involving multiple description coding [MDC], i.e. with separate layers being structured as independently decodable descriptions of input picture data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/625Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using discrete cosine transform [DCT]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/86Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving reduction of coding artifacts, e.g. of blockiness
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals

Description

本発明は、一般に信号処理に関する。より詳細には、本発明は、映像符号化システムを含むシステムなどの画像符号化システム及び対応する画像復号化システムに関し、符号化中に画像情報が、当該画像情報の少なくとも一部にパラメトリックモデリングが適用される対応する空間階層化フォーマットに変換されることを特徴とする。さらに、本発明はまた、上記システム内で用いられる画像符号化方法に関する。さらに、本発明は、上記システム内で用いられる画像復号化方法に関する。また、本発明は、パラメトリックモデリングが適用される最適解の特定方法に関する。このような特定方法は、潜在的には、モデルオーダの選択が必要とされる広範な信号処理における画像符号化システムの技術分野以外にも適用可能である。
画像情報符号化及び対応する復号化のための方法は、何年もの間知られてきた。このような方法は、DVD、携帯電話デジタル画像送信、デジタルケーブルテレビ及びデジタル衛星テレビにおいて重要である。このため、そのいくつかはMPEG−2などの国際的に認められた規格になっているある領域の符号化及び対応する復号化技術が存在する。
1997年以来、国際電気通信連合(ITU)のVCEG(Video Coding Experts Group)が、H.26Lの国際的名称を有する新たな映像符号化規格について取り組んできた。2001年後半に、ISO/IEC(International Standardization Organization/International Electrotechnical Commision)のMPEG(Moving Picture Expert Group)は、VCEGと協同して、単一の技術的構成を作成するため、JVT(Joint Video Team)として協同作業することを決めた。そして、この構成は、ITU−Tによって「勧告H.264」として、ISO/IECによって「国際規格14496−10」(MPEG−4 Part10)AVC(Advanced Video Coding)として2003に正式承認されると予想される。
H.264/AVC標準化の主たる目的は、映像圧縮効率を大きく向上させることであり、対話的及び非対話的アプリケーションを扱う「ネットワークフレンドリ」な映像表現を提供するためのものであった。対話的アプリケーションは電話に関し、非対話的アプリケーションは通信データの格納、配信及びストリーミングに関する。現在、H.264/AVC規格は、上記目的を達成可能なものとして広く認識され、さらに、H.264/AVC規格はまた、DVBフォーラムやDVDフォーラムなどの映像アプリケーションを扱う他のいくつかの技術及び規格団体により採用されるため検討されている。
H.264/AVCエンコーダ及びデコーダのソフトウェア及びハードウェア実現形態の両方が、利用可能となりつつある。
他の形式の映像符号化及び復号化もまた知られている。例えば、米国特許第5,917,609号では、ハイブリッド波形及びモデルベース画像信号エンコーダ及び対応するデコーダが記載されている。このエンコーダ及び対応するデコーダでは、もとの画像信号は、圧縮後に可能な限りもとの信号の波形に近似するようにするため、波形符号化及び復号化される。その損失を補償するため、当該信号のノイズコンポーネント、すなわち、波形符号化により失われる信号コンポーネントが、モデルベース符号化され、個別に送信又は格納される。デコーダでは、ノイズが再生成され、波形復号された画像信号に追加される。上記特許第5,917,609号に開示されているエンコーダ及びデコーダは、ノイズのロスにより、心臓内科医や放射線技師が対応する画像に歪みがあると結論付ける医療用X線血管造形画像の圧縮に特に関連する。しかしながら、開示されるエンコーダ及び対応するデコーダは、何れの確立された、又は出現した画像符号化及び対応する復号化規格に必ずしも準拠しない専門家の実現形態としてみなされる。
出現した上記H.264規格を再び参照するに、当該規格は、MPEG−2などの既存の規格から知られる空間スケーラビリティの同様の原理を利用するものである。当該原理の適用は、最上位レイヤから最下位レイヤまで系列状に配置された2以上のレイヤによる映像シーケンスを符号化することが可能であるということを意味し、各レイヤはそれの次の上位のレイヤの空間解像度以下の空間解像度を使用する。これらレイヤは、しばしば「エンハンスメントレイヤ」と呼ばれる上位のレイヤが、それがローカルに復号化され、もとの画像に対応する空間解像度にスケールアップされた後の下位の符号化レイヤと、映像シーケンスのもとの画像との間の差を表すようにして相互に関連している。図1において、このようなエンハンスメントレイヤに対応するデータを生成するためのスキームが示される。
図1において、10により全体的に示される既知のコンポジットエンコーダが示される。エンコーダ10は、スケーリングダウン機能20、第1H.264エンコーダ30、ローカルH.264デコーダ40、スケーリングアップ機能50、差機能60及び第2H.264エンコーダ70を有する。映像信号入力IPが、画素画像データを入力するのに提供される。入力IPは、差機能60の非反転入力(+)と、スケーリングダウン機能20の入力とに結合される。スケーリングダウン機能20のスケールダウンされた出力は、第1エンコーダ30の入力に結合される。第1エンコーダ30の第1主符号化出力は、ベースレイヤ出力BLOPを提供するよう構成される。さらに、第1エンコーダ30の第2ローカル符号化出力は、スケーリングアップ機能50の入力に結合された対応する復号化出力を有するローカルH.264デコーダの入力に結合される。さらに、スケーリングアップ機能50のスケールアップ出力は、差機能60の反転入力(−)に結合される。差機能60の差出力は、第2エンコーダ70の入力に結合される。第2エンコーダ70からの符号化出力は、エンハンスメントレイヤ出力ELOPを提供するよう構成される。コンポジットエンコーダ10は、各出力が「レイヤ」に対応するBLOP及びELOP出力などにおける複数の符号化出力により表される入力IPにおいて与えられる入力画像データによりマルチレイヤエンコーダとして規定されている。
コンポジットエンコーダ10は、ソフトウェア、ハードウェア、又はソフトウェアとハードウェアの両方の組み合わせにより実現することが可能である。さらに、スケーリングダウン機能20とスケーリングアップ機能50は、好ましくは、一致及び相互に逆の画像スケーリング特性を有するよう構成される。さらに、第1エンコーダ30とローカルエンコーダ40は、好ましくは、一致するが反対の特性を提供するよう構成される。さらに、第1及び第2エンコーダ30と70は、好ましくは、相互に類似した符号化特性を設けられている。
コンポジットエンコーダ10の動作は、図1を参照して説明される。画像シーケンスに対応する画素データの入力ストリームが、エンコーダ10の入力IPにおいて与えられる。当該ストリームは、フレーム単位で差機能60の非反転入力(+)とスケーリングダウン機能20にわたされる。スケーリングダウン機能20から与えられた入力IPのスケールダウンされたものは、ベースレイヤBLOP出力を提供するためスケールダウンされたものを符号化する第1エンコーダ30に与えられる。さらに、第1エンコーダ30はまた、第1エンコーダ20に与えられた入力のスケールダウンされたものを再構成するローカルデコーダ40に同様の符号化出力を提供する。その後、再構成されたものが、スケーリングアップ機能50を介し差機能60の反転入力にわたされる。これにより、差機能60は、第2エンコーダ70の入力に与えられるそれの出力において、スケーリング機能20と50により取り込まれた乖離を無視し、第1エンコーダ30とそれに係るデコーダ40の組み合わせにより取り込まれるエラーに対応するエラー信号を提供する。このエラー信号は、エンハンスメントレイヤELOP出力を生成するよう符号化される。
BLOPとELOP出力が送信媒体を介し、動作特性についてローカルデコーダ40と類似する1以上のデコーダを用いて、BLOP及びELOP出力を復号化するよう動作可能な受信機に伝えられ、結果として得られた復号化されたELOP及びBLOP信号が合成される場合、符号化及び復号化エラーがELOP信号の効果により受信機において補償することが可能であるため、エンハンスされた精度により受信機において入力IPを再構成することが可能となる。
しかしながら、本発明者は、ELOP出力は、典型的には、H.26Lエンコーダなどの映像エンコーダの要求する物質に対応する比較的高い空間周波数ノイズに類似した特性を有することを理解していた。「ノイズに類似した」という用語は、より高い空間周波数において分配される信号エネルギーの重要部分と同時に、空間的相関の相対的欠落を表すと解釈される。従って、エンハンスメントレイヤの与えられた部分を符号化するのに用いられるデータ量が、もとの画像の対応する部分を符号化するのに必要とされるデータ量を超えることは、実際的にはよくあることである。このようなエンハンスメントレイヤ信号ELOPを符号化するための大きなデータ量の要請は、潜在的には、本発明が解決しようとする問題を表す。
本発明の第1の課題は、より大きな画像データ圧縮を提供可能なマルチレイヤ画像符号化及び復号化を利用した画像符号化システム及び対応する相補的復号化システムを提供することである。
本発明の第2の課題は、画像シーケンス内に存在する実質的に完備な情報を伝達しながら、より効率的な画像符号化方法を提供することである。
本発明の第1の特徴によると、入力データを受信し、対応する符号化された出力データを生成するエンコーダを有するデータ符号化システムであって、前記エンコーダは、各入力に対して、少なくとも1つのベースレイヤと少なくとも1つのエンハンスメントレイヤとを有する複数の対応するデータレイヤを生成するため、前記入力データを処理するデジタル処理手段と、前記データレイヤを受信し、該データレイヤから前記符号化された出力データを生成する符号化手段とを有し、前記符号化手段はさらに、前記少なくとも1つのエンハンスメントレイヤの1以上のサブ領域を選択し、記述的モデルパラメータにより前記1以上のサブ領域を前記出力データにおけるそれの表現のためモデル化するブロック選択手段を有することを特徴とするシステムが提供される。
本発明は、より大きなデータ圧縮が可能なエンハンスト画像符号化及び復号化を提供することが可能であるという効果を有する。
好ましくは、本システムでは、前記処理手段は、各入力画像の1以上の主特徴をそれの対応する少なくとも1つのベースレイヤにおいて表現し、前記入力画像とそれの対応する少なくとも1つのベースレイヤとの差に対応する残差画像情報を前記少なくとも1つのエンハンスメントレイヤにおいて表現するよう動作可能である。入力画像の複数レイヤへの分割は効果的である。なぜならば、それは画像の微妙な部分が主要な特徴と分離されることを可能にし、これにより、所望される最終的な復号化画像のクオリティに応じて、残差詳細の漸進的な符号化を可能にしながら、主要な特徴のより効率的な符号化を可能にする。
好ましくは、本システムでは、前記1以上のサブ領域は、前記選択手段によりモデル化に不適切であると判定されると、対応するデータとして前記符号化手段からの符号化された出力データにおいて表現され、前記選択手段によりモデル化に適していると判定されると、等価なモデルパラメータにより表現される。最も適切にモデル化された特徴にモデル化を適用することは、画像データ圧縮と復号化されたクオリティとの間の最適な妥協点がこれにより獲得できるという点で有用である。
好ましくは、本システムでは、既存の現在の符号化規格との後方互換性を維持するため、前記符号化手段は、前記モデルパラメータを含めることにより拡張される、実質的にITU−T H.264及びISO/IEC MPEG−4 AVC規格の少なくとも1つにより前記入力画像データを符号化するよう構成される。より好ましくは、このような現在の規格が動的割当て可能なプライベートデータフィールドを可能にするため、前記モデルパラメータは、前記符号化された画像出力データの1以上のプライベートデータ領域に含められる。
好ましくは、本システムでは、前記符号化手段は、前記符号化された画像出力データに含めるため、前記少なくとも1つの選択されたサブ領域をそれの対応するモデルパラメータに変換するための空間変換を適用するよう動作可能である。より好ましくは、前記変換は、離散コサイン変換(DCT)を有する。任意的には、このようなDCT変換は、他のタイプの数学的変換により代用可能である。
好ましくは、本システムでは、前記変換は、対応する各サブ領域に対して対応する2次元データセットを生成するよう動作可能であり、前記符号化手段は、前記符号化された画像出力データにおける前記モデルパラメータに含めるために、対応する1次元データセットを生成するため前記2次元データセットを連結するよう構成される。本発明者は、DCTの利用が、例えば、2次元から1次元への連結に従うとき、許容される少量のデータを生じさせながら、各サブ領域に現れるあるタイプの特徴に特に適しているということを認識している。しかしながら、本発明は、2次元から1次元への連結の必要なく、実現可能である。例えば、選択されたマクロブロックからの2次元変換データの直接的なパラメータモデル化が、必要に応じて利用可能である。
好ましくは、本システムでは、前記符号化手段は、モデルパラメータデータのデータ量と、前記モデル化パラメータがそれらの1以上の対応するサブ領域を表現する精度との間の最適化を通じて、前記対応するモデルパラメータの前記1以上のサブ領域を符号化するのに利用されるモデルオーダを選択するよう構成される。最適化の利用は、画質を実質的に維持しながら、より最適なデータ圧縮をシステムが提供することを可能にする。
好ましくは、本システムでは、前記符号化手段は、前記1以上のサブ領域に対応する画像データとそれらの対応するモデルパラメータとの間の統計誤差を計算するため統計テストを適用し、前記符号化された出力データに対する前記モデル化パラメータを生成するのに利用するモデルオーダを決定するため選択的パラメータ推定を適用するよう構成される。補間の利用は、1以上のサブ領域を符号化するのに必要な計算コストを低減し、これにより、システムをより簡単に実現し、より高速な画像符号化を可能にし、より安価に実現するということの少なくとも1つを可能にする。
好ましくは、本システムでは、前記1以上のサブ領域は、前記少なくとも1つの入力画像に存在する空間ノイズライク特徴に実質的に対応する。本発明者は、空間ノイズがモデルパラメータにより表されない場合、かなりのデータ量を生じさせる可能性があることを認識していた。空間ノイズライク特徴を含めることが、復号化に対する正確な画像再生成にとって重要であるが、本発明者は、空間ノイズの正確な性質が画像理解度及びクオリティにそれほど大きな重要性を有しないということを認識していた。言い換えると、本発明者は、空間ノイズライク特徴の統計的性質は、正確な画素値より理解度及びクオリティにとってより重要であるということを認識している。
好ましくは、本システムでは、本システムはさらに、前記エンコーダから前記符号化された出力データを受信し、前記出力データを復号化し、前記入力画像を再生成するデコーダを有し、前記デコーダは、前記符号化された出力データの符号化された画像データから直接に前記モデルパラメータを分離する復号化手段と、前記復号化されたモデルパラメータを受信し、前記パラメータから前記1以上のサブ領域に対応するデータを生成するサブ領域合成手段と、前記エンコーダに提供される前記画像入力に対応する復号化された出力画像データを生成するため、前記合成されたサブ領域データと復号化された直接的な画像データを合成するデータマージ手段とを有する。
好ましくは、本システムでは、前記エンコーダからの符号化された出力画像データは、送信媒体を介し前記デコーダに伝搬され、前記媒体は、インターネット、光データディスク、磁気データディスク、DVD、CD、ソリッドステート記憶装置及び無線通信ネットワークの少なくとも1つを有する。
本発明の第2の特徴によると、入力画像データを受信し、対応する符号化された画像出力データを生成するエンコーダであって、各入力に対して、少なくとも1つのベースレイヤと少なくとも1つのエンハンスメントレイヤとを有する複数の対応する画像レイヤを生成するため、前記入力画像データを処理する画像処理手段と、前記画像レイヤを受信し、該画像レイヤから前記符号化された画像出力データを生成する符号化手段とを有し、前記符号化手段はさらに、前記少なくとも1つのエンハンスメントレイヤの1以上のサブ領域を選択し、記述的モデルパラメータにより前記1以上のサブ領域を前記画像出力データにおけるそれの表現のためモデル化するブロック選択手段を有することを特徴とするエンコーダが提供される。
本発明は、前記エンコーダが本発明の上述の課題の少なくとも1つを解決することが可能であるという効果を有する。
好ましくは、本エンコーダでは、前記処理手段は、各入力画像の1以上の主特徴をそれの対応する少なくとも1つのベースレイヤにおいて表現し、前記入力画像とそれの対応する少なくとも1つのベースレイヤとの情報の差に対応する残差画像情報を前記少なくとも1つのエンハンスメントレイヤにおいて表現するよう動作可能である。
好ましくは、本エンコーダでは、前記1以上のサブ領域は、前記選択手段によりモデル化に不適切であると判定されると、対応するデータとして前記符号化手段からの符号化された出力データにおいて表現され、前記選択手段によりモデル化に適していると判定されると、等価なモデルパラメータにより表現される。
好ましくは、本エンコーダでは、前記符号化手段は、前記モデルパラメータを含めることにより拡張される、実質的にITU−T H.264及びISO/IEC MPEG−4 AVC規格の少なくとも1つにより前記入力画像データを符号化するよう構成される。より好ましくは、前記モデルパラメータは、前記符号化された画像出力データの1以上のプライベートデータ領域に含まれる。プライベートデータ領域のこのような利用は、エンコーダを後方互換的なものにすることを可能にする。
好ましくは、本エンコーダでは、前記符号化手段は、前記符号化された画像出力データに含めるため、前記少なくとも1つの選択されたサブ領域をそれの対応するモデルパラメータに変換するための空間変換を適用するよう動作可能である。より好ましくは、前記変換は、離散コサイン変換(DCT)を有する。しかしながら、他の変換もまた利用可能である。
好ましくは、本エンコーダでは、前記変換は、対応する各サブ領域に対して対応する2次元データセットを生成するよう動作可能であり、前記符号化手段は、前記符号化された画像出力データにおける前記モデルパラメータに含めるために、対応する1次元データセットを生成するため前記2次元データセットを連結するよう構成される。
好ましくは、本エンコーダでは、前記符号化手段は、モデルパラメータデータのデータ量と、前記モデル化パラメータがそれらの1以上の対応するサブ領域を表現する精度との間の最適化を通じて、前記対応するモデルパラメータの前記1以上のサブ領域を符号化するのに利用されるモデルオーダを選択するよう構成される。
好ましくは、本エンコーダでは、前記符号化手段は、前記1以上のサブ領域に対応する画像データとそれらの対応するモデルパラメータとの間の統計誤差を計算するため統計テストを適用し、前記符号化された出力データに対する前記モデル化パラメータを生成するのに利用するモデルオーダを決定するため選択的パラメータ推定を適用するよう構成される。
好ましくは、本エンコーダでは、前記1以上のサブ領域は、前記少なくとも1つの入力画像に存在する空間ノイズライク特徴に実質的に対応する。
本発明の第3の特徴によると、本発明の第2の特徴によるエンコーダに利用されるデコーダであって、当該デコーダは、前記エンコーダから符号化された出力データを受信し、前記出力データを復号化し、前記入力画像を再生成するよう動作可能であって、当該デコーダは、前記符号化された出力データの符号化された画像データから直接に前記モデルパラメータを分離する復号化手段と、前記復号化されたモデルパラメータを受信し、前記パラメータから前記1以上のサブ領域に対応するデータを生成するサブ領域合成手段と、前記エンコーダに提供される前記画像入力に対応する復号化された出力画像データを生成するため、前記合成されたサブ領域データと復号化された直接的な画像データを合成するデータマージ手段とを有することを特徴とするデコーダが提供される。
本発明の第4の特徴によると、本発明の第1の特徴によるエンコーダから前記符号化された出力画像データを伝搬する送信媒体であって、当該媒体は、インターネット、光データディスク、磁気データディスク、DVD、CD、ソリッドステート記憶装置及び無線通信ネットワークの少なくとも1つを有することを特徴とする媒体が提供される。
本発明の第5の特徴によると、エンコーダにおいて画像データを符号化する方法であって、
(a)処理手段とブロック選択手段とを有するよう前記エンコーダを構成するステップと、
(b)各入力画像に対して、少なくとも1つのベースレイヤと少なくとも1つのエンハンスメントレイヤとを有する複数の対応する画像レイヤを生成するため、前記入力画像データを処理するよう前記処理手段を適用するステップと、
(c)前記少なくとも1つのエンハンスメントレイヤの1以上のサブ領域を選択し、記述的モデルパラメータにより前記1以上のサブ領域を前記画像出力データにおけるそれの表現のためモデル化するよう前記選択手段を適用するステップと、
(d)前記入力画像データに対応する符号化された画像出力データを生成するため、前記複数の画像レイヤに少なくとも部分的に対応する符号化されたデータと前記モデルパラメータを合成するステップと、
を有することを特徴とする方法が提供される。
好ましくは、本方法では、前記処理手段は、各入力画像の1以上の主特徴をそれの対応する少なくとも1つのベースレイヤにおいて表現し、前記入力画像とそれの対応する少なくとも1つのベースレイヤとの情報の差に対応する残差画像情報を前記少なくとも1つのエンハンスメントレイヤにおいて表現するよう動作可能である。従って言い換えると、前記少なくとも1つのベースレイヤは、再復号化時には画像を認識可能にするのに必要な主要な詳細のほとんどを有し、前記少なくとも1つのエンハンスメントレイヤは、前記少なくとも1つのベースレイヤにおいて伝搬される画像を補完及び精緻化するため明りょうな詳細を有する。
好ましくは、本方法では、前記1以上のサブ領域は、前記選択手段によりモデル化に不適切であると判定されると、対応するデータとして前記符号化手段からの符号化された出力データにおいて表現され、前記選択手段によりモデル化に適していると判定されると、等価なモデルパラメータにより表現される。
好ましくは、本方法では、前記符号化手段は、前記モデルパラメータを含めることにより拡張される、実質的にITU−T H.264及びISO/IEC MPEG−4 AVC規格の少なくとも1つにより前記入力画像データを符号化するよう構成される。より好ましくは、前記モデルパラメータは、前記符号化された画像出力データの1以上のプライベートデータ領域に含まれる。
好ましくは、本方法では、前記符号化手段は、前記符号化された画像出力データに含めるため、前記少なくとも1つの選択されたサブ領域をそれの対応するモデルパラメータに変換するための空間変換を適用するよう動作可能である。より好ましくは、前記変換は、離散コサイン変換(DCT)を有する。しかしながら、他のタイプの変換もまた、代わりに又は追加して利用可能である。
好ましくは、本方法では、前記変換は、対応する各サブ領域に対して対応する2次元データセットを生成するよう動作可能であり、前記符号化手段は、前記符号化された画像出力データにおける前記モデルパラメータに含めるために、対応する1次元データセットを生成するため前記2次元データセットを連結するよう構成される。
好ましくは、本方法では、前記符号化手段は、モデルパラメータデータのデータ量と、前記モデル化パラメータがそれらの1以上の対応するサブ領域を表現する精度との間の最適化を通じて、前記対応するモデルパラメータの前記1以上のサブ領域を符号化するのに利用されるモデルオーダを選択するよう構成される。より好ましくは、前記符号化手段は、前記1以上のサブ領域に対応する画像データとそれらの対応するモデルパラメータとの間の統計誤差を計算するため統計テストを適用し、前記符号化された出力データに対する前記モデル化パラメータを生成するのに利用するモデルオーダを決定するため選択的パラメータ推定を適用するよう構成される。
好ましくは、本方法では、前記1以上のサブ領域は、前記少なくとも1つの入力画像に存在する空間ノイズライク特徴に実質的に対応する。このような空間ノイズライク特徴は、より多くのサブ領域がモデルパラメータにより表現可能になるに従って、本方法をより効率的に動作することを可能にする。
好ましくは、本方法では、さらに、前記エンコーダから符号化された出力データを受信し、前記出力データを復号化し、前記入力画像を再生成するデコーダを備えるステップを有し、当該デコーダは、前記符号化された出力データの符号化された画像データから直接に前記モデルパラメータを分離する復号化手段と、前記復号化されたモデルパラメータを受信し、前記パラメータから前記1以上のサブ領域に対応するデータを生成するサブ領域合成手段と、前記エンコーダに提供される前記画像入力に対応する復号化された出力画像データを生成するため、前記合成されたサブ領域データと復号化された直接的な画像データを合成するデータマージ手段とを有することを特徴とするステップが提供される。
好ましくは、本方法では、前記エンコーダからの符号化された出力画像データが、送信媒体を介しデコーダに伝搬され、当該媒体は、インターネット、光データディスク、磁気データディスク、DVD、CD、ソリッドステート記憶装置及び無線通信ネットワークの少なくとも1つを有する。
好ましくは、本発明は、ハードウェア、ソフトウェア及びソフトウェアとハードウェアの組み合わせの1以上により実現することができる。
本発明の特徴は、本発明の範囲から逸脱することなく任意の組み合わせにより合成することが可能であるということは理解されるであろう。
上述の図1を参照するに、第2エンコーダ70を介しエンハンスメントレイヤELOP信号を生成するため入力IPから減算されたスケーリングアップ機能50からの信号が、複数の処理ステップ、すなわち、ダウンスケーリング、符号化、復号化及びアップスケーリングを介し入力IPをわたすことにより取得される。上記各ステップは、歪みを取り込むよう動作可能であり、例えば、符号化がより高い変換計数の量子化に大部分が帰因するアーチファクトを取り込みながら、リサンプリングが、ナイキストの基準に係る方法により不完全なフィルタリングを使用するため、入力IPの画像に存在するより高い空間周波数情報を歪める可能性がある。これらすべての歪みは、実質的に非線形であり、このため、差機能60の反転入力(−)に与えられる全体的な歪みは、例えば、エラーの平方和などそれらの和として単に量子化することはできない。にもかかわらず、本発明者は、差機能60の反転入力(−)に与えられる信号内の全体的な歪みが、入力IPの画像に存在するエッジ及びテクスチャ詳細など、より高い空間周波数特徴に依然として広く影響を与えると理解していた。より高い空間周波数の歪みが支配的であり、また予想しうる一方、本発明者は、よりランダムに空間周波数スペクトルのより低い部分に歪みが現れることを理解していた。このような低周波数空間歪みは、もとの画像信号IPのあまり詳細でない部分に対応する差機能60の反転入力(−)に与えられる信号の部分に顕著である。さらに、本発明者は、この反転入力(−)に与えられるノイズが、入力信号IPにすでに存在するノイズからのものである可能性があるということを理解していた。このような画像符号化エラーは、図1のエンコーダ10を次善的なものにする。
図2において、入力信号IPに与えられる画像シーケンスからの画像例を示す。これにより、図2は、「スナップショット」の状況を表している。入力IPにおいて与えられるもとの画像は、100により記される。110により記される画像は、スケーリングダウン機能20において×2の係数によりダウンスケーリングされた画像100に対応し、その後、対応する復号化が後続する第1エンコーダ30においてJPEG符号化される。さらに、120により記される画像は、スケーリングアップ機能50におけるアップスケーリングされた後の画像110に対応する。さらに、130により記される画像は、画像100と120の空間差に対応し、すなわち、差機能60から第2エンコーダ70に与えられる差画像情報に等しいものとなる。画像130は、エンハンスメントレイヤELOP信号を生成するのに利用可能である。図2の画像に関して、画像フィルタリング及びJPEG符号化の1.5bbp(bits per pixel)のため、7タップFIRフィルタが利用される。
本発明者は、特にエンハンスメントレイヤ、すなわちELOP信号データに与えられるすべてのデータが、ELOP信号データにより復号化及び再構成されるとき、ベースレイヤ、すなわち、BLOP信号データにおける空間解像度の明らかな向上に関し同様に帰因するものではないということを理解していた。このような仮定は、図3に示されるように構成されたコンポジットエンコーダ200に以前は利用されていたい。
図3において、コンポジットエンコーダ200は、エンコーダ10のコンポーネント部分、すなわち、スケーリングダウン機能20、第1H.264エンコーダ、ローカルH.264デコーダ40、スケーリングアップ機能50、差機能60及び第2H.264エンコーダ70を有する。コンポジットエンコーダ200は、さらに、□モディファイア210、詳細アナライザ220及び乗算機能230を有する。
ここで、エンコーダ200の接続トポロジーが説明される。映像信号入力IPは、差機能の非反転入力(+)、詳細アナライザ220の第1入力及びスケーリングダウン機能20に結合される。スケーリングダウン機能20の出力は、ベースレイヤBLOP出力に対応する出力を有する第1H.264エンコーダ30の入力に接続される。エンコーダ30の補助的符号化出力は、スケーリングアップ機能30を介し詳細アナライザ220の第2入力と差機能60の反転入力(−)に接続される出力を有するローカルH.264デコーダ40を介し結合される。スケーリングアップ機能50とスケーリングダウン機能20は、好ましくは、相互に反対の効果を提供するよう構成される。アナライザ220の出力SGは、モディファイア210の入力に結合される。さらに、モディファイア210からの出力(1−□)は、乗算機能230の第1乗算入力に結合される。さらに、差機能60の和出力は、乗算機能230の第2乗算入力に接続される。最終的に、機能230の乗算出力MRSは、エンハンスメントレイヤELOP信号を提供するよう構成される出力を有する第2H.264エンコーダ70の入力に結合される。
コンポジットエンコーダ200は、専用ハードウェアの少なくとも1つ、コンピュータハードウェア上で実行されるソフトウェア、及びソフトウェアと専用ハードウェアの組み合わせにより実現することが可能である。
図3に示されるコンポジットエンコーダ200は、図1のエンコーダ10とかなりの程度まで同様にして機能するよう構成される。すなわち、
(a)入力信号IPは、符号化ベースレイヤBLOPを生成するため、スケーリングダウン機能20を介し第1エンコーダ30に伝搬される。第1エンコーダ30はまた、ローカルデコーダ40において復号化されるBLOPと等価な信号を提供するよう動作可能であり、信号DSを生成するため、スケーリングアップ機能50のスケーリングアップを受ける。
(b)入力信号IPは差機能60に伝搬され、そこで、符号化及び復号化された入力信号IPの再構成されたもの、すなわち、信号DSが、対応する残差信号RSを生成するため、もとの信号IPから減算される。残差信号RSは乗算機能230に与えられ、そこで、エンハンスメントレイヤELOPを生成するため第2エンコーダ70において以降において符号化される変調差信号MRSを生成するため、信号(1−□)により乗算される。
詳細アナライザ220は、入力信号IPと残差信号DSを受信し、そこから、(a)エンハンスメントレイヤELOPに関連する信号情報を含めることが、出力BLOP及びELOPにおける信号から再生成される画像の視覚認識に効果的である場合には、入力信号IPにおいて伝えられた画像の一定量の空間領域を導出し、(b)出力ELOPに存在する情報がBLOP及びELOPから再生成される画像の認識に比較的重要でない場合には、入力IPの一定量の画像領域を導出するよう動作可能である。
残差信号RSが比較的高い視覚重要性を有する画像情報を有する場合、乗算機能230は、信号RSに印加される減衰を低減するよう動作可能であり、これに応じて、エンコーダ70は、視覚的に重要な特徴が以降において復号化及び再構成されることを可能にするのに十分なデータをELOP出力において生成する。その反対に、残差信号RSが重要度の低い画像情報しか有しない場合、乗算機能230は、エンコーダ70がより少ないデータしか生成しないように、信号RSに印加される減衰を増大させるよう動作可能である。第2エンコーダ70の空間的な選択的使用により、図1に示されるエンコーダ10と比較して、ELOP出力において提供されるデータ量を減らすことが可能である。
従って、詳細アナライザ220は、入力データIPの入力画像に存在する各画素又は画素群に対して、関連する画素パラメータ(x,y,fr#)を有する数値を生成する。「x」及び「y」は画素の空間座標であり、「fr#」はカラー及び/又はルミナンスデータ指標である。入力IPの画像に多くの詳細が存在する場合、□の値は小さくなる(ただし、□は0〜1の範囲内に属する)。その反対に、入力IPの画像に相対的に詳細が少ない場合、□の値は大きなものとなる。従って、乗算機能230には、0〜1の範囲に属する乗算係数(1−□)が与えられる。
コンポジットエンコーダ200により与えられる効果は、相対的にあまり詳細を含んでいない入力IPの画像の領域をフィルタリングすることである。このような相対的に詳細を含まない領域では、ELOP出力のためにかなりのデータ量がエンコーダ10において生成され、当該領域は実際上は実質的に関連性のない詳細及びノイズに対応する。
従って、画像データ圧縮の観点から、コンポジットエンコーダ200は、エンコーダ10の進化したものである。
本発明者は、図3に示されるコンポジットエンコーダ200がさらに改良可能であることを理解していた。このような改良を考案するのに、本発明者は、ELOP出力の明らかに低い詳細及びノイズに類似した領域が、対応するBLOP信号と共に再構成されるとき、空間解像度を向上させることができるということ、言い換えると、ELOP画像の明らかに低い詳細及びノイズに類似した領域でさえ、BLOP出力における対応する画像の空間解像度を向上させることができることを理解していた。さらに、本発明者、正確な画素値は空間的なノイズライク(noise−like)領域においては重要な関心事ではなく、ELOP及びBLOP出力から画像を再構成するとき、上記領域の全体的貢献は知覚的に重要であるということを理解していた。ここで、ノイズライクコンポーネントが不可逆的にフィルタリングされ、ELOP出力に現れないエンコーダ200と対照的に、本発明者は、このようなノイズライク領域をモデル化し、対応するモデルパラメータをイネーブル状態のデコーダに送信することを提案している。その後、イネーブル状態のデコーダは、もとのノイズライクデータの近似を合成するため、モデルパラメータを合成装置に適用することができる。本発明者により考案されたこのようなアプローチは、エンコーダ10及び200から導かれた復号化された画像と比較して、復号化された画像の空間解像度をより高く維持することが可能であるだけでなく、本アプローチにおけるより少数のモデルパラメータの符号化が、モデルパラメータにより説明される対応するもとの画像データの符号化より効率的なものとなるということを条件として、対応して生成されるBLOP及びELOP出力におけるビットレートを低下させることが可能である。当該アプローチでは、本発明者は、信号IPのデータ部分を排除される部分に対応するモデルデータを完全に符号化及び伝達することから排除することは、従来のマクロブロックスキップ処理を用いることにより実際的に実現可能であるということを理解していた。
図4において、本発明によるコンポジットエンコーダの概略図が与えられる。ここでは、エンコーダは300により全体的に示される。エンコーダ300は、例えば、上述のコンポジットエンコーダ10及び200において利用されるような、スケーリングダウン機能20、第1H.264エンコーダ30、ローカルH.264デコーダ40、スケーリングアップ機能50、差機能60及び第2エンコーダ70を有する。コンポジットエンコーダ300は、エンコーダ300が詳細アナライザ310、バッファ320、アナライザ330、ブロック選択機能340、モデル抽出機能350、エンコーダ360及び最後にマルチプレクサ370を有するという点において、上述のコンポジットエンコーダ10及び200と区別される。図4において、破線により示されるアイテム、すなわち、詳細アナライザ310は、任意的に省略可能である。コンポジットエンコーダ300により生成されるBLOP及びELOP画像データは、送信/記憶媒体380に結合される。媒体380は、好ましくは、インターネット、CD、DVD、光ファイバネットワーク、携帯電話に利用されるような無線送信ネットワークなどの通信ネットワークの少なくとも1つである。
コンポジットエンコーダ300の動作が、図4を参照して概略的に説明される。
デジタル画素画像シーケンスに対応する入力信号IPが、例えば、図2に示されるようにして、画像をスケーリングし、その後、BLOP出力の形式により対応する符号化データを生成するよう画像を処理する第1H.264エンコーダ30にスケーリングされた画像を供給するスケーリングダウン機能20に通信される。さらに、エンコーダ30からの補助的符号化出力LEが、差機能60の反転入力への入力のため、再構成された信号RDを与えるために、スケーリングアップ機能50を介しわたされる。信号RDが第1エンコーダ30内で発生した符号化エラー及びローカルデコーダ40内で発生した対応するエラーを含むということを除いて、信号RDは信号IPに対応する。好ましくは、スケーリングダウン機能20及びスケーリングアップ機能50は、エンコーダ30とそれのローカルデコーダ40が実質的に相互に補完的な特性を提供するよう構成されるとき、相互に同一であるが、相互に反対の特性を提供するよう構成される。信号RD及び入力信号IPは、符号化のため第2H.264エンコーダ70の入力に伝達される残差信号RSを生成するため、差機能60において相互に減算される。さらに、第2エンコーダ70は、以降においてさらに詳細に説明される方法により、エンハンスメントレイヤELOP出力を生成するため、マルチプレクサ370を介し選択的に送信される対応する符号化データを生成するよう動作可能である。BLOP及びELOP出力は、送信/記憶媒体380に通信される。
例えば、FIFOに対応して方法により動作可能なバッファ320は、入力IPに存在する画像シーケンスを受信し、それらをアナライザ330に供給するため格納するよう構成される。その後、アナライザ330は、バッファ320から画像データを受信し、パラメータモデルにより実現されるELOP残差データを有し得る領域を決定するためデータを解析するよう動作可能である。アナライザ330がパラメータモデルの使用が不適切であると判断すると、ブロック選択機能340は、それがコンポジットエンコーダ200に発生するように通常の方法により信号RSを符号化すべきであるということを第2エンコーダ70に通信する。その反対に、アナライザ330により信号RSがパラメータモデルにより表すことが可能な1以上の画像ブロックを有すると判断すると、ブロック選択機能340は、イネーブルブロックEB信号により第2エンコーダ70をイネーブル解除し、モデル抽出機能350に1以上の選択されたブロックを処理させ、対応するモデルパラメータMPを計算させる。さらに、ブロック選択機能340はまた、エンコーダ360が抽出機能350からモデルパラメータMPだけでなく、選択機能340から対応するブロックの表示をも受信するように、対応するブロックインデックスBIをエンコーダ360にわたす。第2エンコーダの代わりに、エンコーダ360は、選択されたブロックに対応するモデルパラメータをELOP出力に出力する。従って、コモデルパラメータが第2エンコーダ70からの等価な符号化データの代わりにELOP出力に挿入される場合となる1以上の画像ブロックがモデルパラメータにより表される残差画像を有し得る入力信号IPにおいて特定されるときを除いて、コンポジットエンコーダ300はコンポジットエンコーダ10と同様に機能する。詳細アナライザ310は、任意的には、ELOP出力におけるモデルパラメータにより表すのに適した適切な画像ブロックを予め選択するのに利用するため、エンコーダ300に組み込まれる。詳細アナライザ310には、図示されるような差機能60と入力信号IPの少なくとも1つからの入力データが与えられる。アナライザ310は、エンハンスメントレイヤ画像密度を示す出力□を提供するよう動作可能である。
コンポジットエンコーダ300は、好ましくは、ハードウェア、計算ハードウェア上で実行されるソフトウェア及びソフトウェアとハードウェアの組み合わせの少なくとも1つにより実現される。
ここで、コンポジットエンコーダ300がより詳細に説明される。
バッファ320は、信号IPに与えられる画像が空間的及び時間的両方において、すなわち、シーケンスの複数の画像に沿って解析することが可能であるという効果を提供することができる。さらに、モデル抽出機能350は、以降においてより詳細に説明される統計及びスペクトル解析に基づくことが効果的である。ブロック選択機能340は、パラメータモデリングのため選択された画像ブロックに対応するメモリ位置をエンプティにする制御信号EBを第2エンコーダ70に提供する。このようなエンプティ処理は、いわゆるスキップマクロブロックコードを通じて行われる。ブロック座標及びモデルパラメータは、PCU(Pulse Code Modulation)や自然2進符号化(Natural Binary Coding)の少なくとも1つなどの固定長符号化(FLC)を好ましくは利用したエンコーダ360により符号化される。あるいは、又はさらに、ハフマン符号化及び/又は算術符号化などの可変長符号化(VLC)を利用することができる。好ましくは、符号化されたモデルパラメータは、上位トランスポートレベルにおいて第2エンコーダ70から与えられる標準的ビットストリーム構成によりプライベートデータとして、又は現在の「予約されたSEIメッセージ」を利用することにより第2エンコーダ70自体において内部的に多重化することができる。ここで、SEIメッセージはSEIメッセージがH.264/AVCシンタックスの明確に規定された部分であるため、SEIは、H.264/AVC規格において許容されるような「Supplemental Enhancement Information」の略語である。
図4に示されるエンコーダ300は、図5に示されるような対応するデコーダにより補完される。
図5において、デコーダは400により全体的に示される。デコーダ400は、送信/記憶媒体380からBLOP画像レイヤデータを受信する主信号処理パスを有し、当該主パスは、コンポジットエンコーダ300の第1エンコーダ30を補完するよう構成されるH.264デコーダ430と、コンポジットエンコーダ300のスケーリングダウン機能20を補完するよう構成されるスケーリングアップ機能410と、デコーダ400からの最終的な復号化出力を提供する出力OPを有する和機能420とを直列的に有する。
主パスと平行して、ELOP画像レイヤデータのための補助パスがデコーダ400に与えられる。補助パスは、ELOPデータを受信する入力と、H.264デコーダ450に結合される第1出力と、上述のパラメータモデルデータを復号化するよう動作可能なデコーダ460に結合された「プライベートデータ」を表す第2出力PRDを設けるデマルチプレクサ440を有する。出力EP+SB、すなわち、「エンハンスト画像及びスキップされたマクロブロック(Enhanced Pictures and Skipped Macroblocks)」が、H.264デコーダ450から図示されるような和機能420に結合される出力を有するブロック上書き機能480に結合される。デコーダ460は、図示されるように、ブロック上書き機能480に次に結合される出力を有するブロック選択機能470に結合された第1出力を有する。ブロック上書き機能480は、和機能420の和入力に接続される出力を有する。さらに、デコーダ460は、ランダムノイズ生成装置510からノイズ入力データを受信するよう構成されたマクロブロック合成装置490に接続された第2出力MP、すなわち、「モデルパラメータ」を有する。合成装置490からシミュレートされたノイズ出力は、後処理機能500を介しブロック上書き機能480の入力に結合される。後処理機能500は、マクロブロッククリッピングなどの特徴を有するが、さらに他のタイプの画像編集機能を有することが可能である。
ここで、デコーダ400の動作が、図5を参照して概略的に説明される。
図4のコンポジットエンコーダ300からのレイヤ画像データ、すなわち、BLOP及び対応するELOPデータが、図示されるように、デコーダ430及びデマルチプレクサ440に媒体380を介し結合される。BLOPレイヤ画像データは、デコーダ430において復号され、OPにおける以降の出力のため、BLOPレイヤ出力データを和機能420に提供するよう復号化されたBLOPデータをスケールアップするスケーリングアップ機能410にわたされる。ELOPデータは、デマルチプレクサ440において受信され、マクロブロックパラメータモデリングがエンコーダ300において実現されていない場合には、デコーダ450に選択的に送られる。他方、エンコーダ300が選択されたマクロブロックのパラメータモデリングを実現することが可能であった場合、対応するパラメータが送信/記憶媒体380を介し伝えられるELOPデータのプライベートデータエリアに符号化される。デマルチプレクサ440は、ELOPデータからプライベートデータ、すなわち、「PRD」を抽出し、当該PRDをそれから対応するモデルパラメータMPを生成するよう動作可能なデコーダ460にわたす。モデルパラメータMPは、上述されるように、エンコーダ300において特定及び符号化されるマクロブロックのノイズライク構造を再生成するよう動作可能なノイズ生成装置510と共に機能する合成装置490にわたされる。選択された符号化マクロブロックに対応する合成出力は、後処理機能500を介し後処理機能500から受信した合成出力を利用するよう動作可能なブロック上書き機能480にわたされ、エンコーダ300により選択されるマクロブロックに対して、デコーダ450から出力されることが好ましい。和機能420は、BLOP及びELOPデータに対応する復号化された出力を合成し、最終的な閲覧に適した再構成された画像出力OPを生成する。
ここで、エンコーダ300とデコーダ400の動作がより詳細に説明される。
図4のコンポジットエンコーダ300のアナライザ330は、BLOPタイプ画像情報が差し引かれた後、エンハンスメントレイヤ情報のノイズライク構造とテクスチャ類似構造とを区別し、あるいは、任意的に含まれるとき、詳細解析機能310によりすでに実行されている場合にはこのような区別を再規定するよう動作可能である。動作に関して、アナライザ330は、対応するモデルパラメータへの送信のため、特定されたマクロブロックの離散コサイン変換、すなわち、「DCT」を実行する。DCTは、パラメータモデリングのため、入力IPにおける画像の選択された各ブロック内のスペクトルエネルギー分布に関する情報を生成する。このようなスペクトルエネルギー分布は、画像に存在する各種タイプのテクスチャ及びノイズライク構造を分類するのに利用するのに適している。DCT解析の具体例が図6〜10に示され、アナライザ330により選択されるマクロブロックB1、B2、B3及びB4のDCT解析は、それぞれ560、565、570及び575により全体的に示される。図6において、図2に示される肖像画のエンハンスメントレイヤ画像が示される。図6のエンハンスメントレイヤ画像において、マクロブロックB1〜B4の空間位置が示される。各ブロックは16×16画素のフィールドを有する。マクロブロックB2は低詳細ノイズライクブロックであると区別され、マクロブロックB1、B3及びB4は高テクスチャ類似詳細を有する。マクロブロックB1〜B4は、すべてモデル化することが可能であり、これにより、対応するモデルパラメータにより表される。例えば、マクロブロックB1は明確な垂直エッジを有し、ブロックB3と特にB4は、ブロックB1より空間的により一様である。より詳細な解析により、ブロックB3は空間的に徐々に変化する対角テクスチャを有し、マクロブロックB4はより詳細な空間的に不規則なテクスチャを有する。従って、マクロブロックB4は、さらなるピークDCT特性をもたらし、ブロックB3は相対的に一様なDCT特性を有する。さらに、マクロブロックB1及びB3のDCTは、特定方向、すなわち、マクロブロックB1については実質的に水平に、マクロブロックB3については実質的に対角的に配置されるようにするため、図7及び9に示されるいくつかの主要な係数を含む。
DCTはELOP画像レイヤの選択されたマクロブロックをモデル化するのに利用可能であるが、さらに、又は代わりに、他の方法が利用可能であるということが理解されるであろう。このような他の方法は、好ましくは、選択された各マクロブロック内のデータを処理するだけでなく、例えば、2次元(2D)相互相関を利用することにより、このようなマクロブロックの周囲の領域の画素からのデータを処理するよう構成される。さらに、選択された各マクロブロックの各種性質は、アナライザ330に与えられる画像シーケンス内の画像単位の時間的解析を可能にする。例えば、特定のDCT特性の時間コンシスタンシの解析は、潜在的には、時間的ノイズと空間的画像詳細を区別するのに利用することが可能である。さらなる具体例として、アナライザ330の処理は、好ましくは、コンポジットエンコーダ300内のH.264符号化から利用可能なコンテンツ解析判定及び符号化パラメータに関する。
図7〜10から、アナライザ330により選択されたELOP画像データのマクロブロックの対応するDCTへの変換は、潜在的には同程度のデータ量を生成することが理解される。言い換えると、DCTを選択されたマクロブロックに適用することは、潜在的にはデータ圧縮を生じさせるものではない。本発明者は、パラメトリックモデリングが、図7〜10に図示されるように、コンポジットエンコーダ300から提供されるELOPデータにおけるデータ圧縮を提供するため、DCTパラメータに効果的に適用されることを理解している。
自己回帰(AR)モデリングなどの2次元スペクトルモデリングのいくつかの方法が知られている。さらに、最大尤度及び最大エントロピー方法は、1990年にPrentice Hallにより刊行されたJae S.Limによる「Two−Dimensional Signal Processing」という刊行物に説明されている。選択されたマクロブロックのパラメトリックモデリングを提供するため、本発明者は優先的に自己回帰(AR)を利用する。特に、本発明者は、実際的に良好に機能するとわかっている値の2次元ブロックの1次元(1D)表現を利用することを好み、ここでより詳細に説明される。従って、図7〜10の2次元DCTグラフは、1Dにより表すことができる。
図7〜10に示されるような2次元データブロックの1次元表現を生成する第1ステップは、一定又はランダムな順序によりブロック列又は行を連結することにより行われる。図7〜10に関するこのような2次元から1次元への変換の結果が図11に示され、マクロブロックB1及びB3の決定的性質が、マクロブロックB2及びB4の相対的によりランダムな性質と対照される。図11において、係数b3はマクロブロックB3に対応する列を連結することにより生成され、係数b1、b2及びb4がそれぞれマクロブロックB1、B2及びB4の行を連結することにより生成される。
1次元ARモデルの上記選択されたマクロブロックへの適用は、対応するモデルパラメータにより表されるデータが、等式1(Eq.1)により示される性質を有するシステムにより生成されたものであると仮定する。
Figure 0004949836
ただし、x[n]=システムの観察された出力、e[n]=システムの観察されていない入力、及びa=システムを記述する係数、である。
アナライザ330の入力e[n]に関して等式1を適用するため、x[n]のパワースペクトル密度(PSD)関数Pxx(f)は、パラメータfが周波数を表すのに使用される場合、等式2(Eq.2)により決定されるように計算可能である。PSD関数は、AR係数a及び□2により示される関連するノイズ分散を推定することにより決定することができる。1998年にフロリダ州のCRC Pressにより刊行されたVijay MadisettiとDouglas Williamsによる「The Digital Signal Processing Handbook」に説明されるようなYule−Walker法、共分散法及びBurg法の少なくとも1つなどのいくつかの方法が、AR係数aを推定するのに利用可能である。
Figure 0004949836
図13及び14に与えられる結果を生成するのに、本発明者は、図12において600により全体的に示されるような合成装置を利用した。例えば、図8に与えられるb2[n]の256のサンプルデータセットに対して、本発明者は、パラメータP=12を選択し、推定のため共分散法を利用した。合成装置600は、b2[n]の合成を生成するよう動作可能である。推定されたAR係数は、ゼロ平均正規分布ノイズ過程、すなわち、□=1となるような統計的特性を有する過程の256個のサンプルを構成するよう動作可能なフィルタの係数として、合成装置600において利用される。合成装置600は、パラメータGがゲインに対応する等式3(Eq.3)により記述されるようなb2[n]のものと実質的に一致する平均及び分散をs[n]が有するように、例えば、b2[n]の合成を生成する。
Figure 0004949836
合成装置600は、図5に示されるデコーダ400における合成装置490とそれの関連するノイズ生成装置を実現するため利用することができる。
図12において、合成装置600は、パラメータデコーダ630と、ノイズ生成装置640と、パラメータドリブン整形フィルタ650と、接続される分散計算機能660と、関連するゲイン計算機能670、平均計算機能680と、最終的な乗算機能690とそれに関連する差機能700とを有する。合成装置600は、ハードウェア、コンピュータ装置上で実行可能なソフトウェア及び/又はソフトウェアとハードウェアの組み合わせにより実現することが可能である。
ノイズ生成装置640は、整形フィルタ650の入力に結合された出力e[n]を有し、フィルタ650はまた、そこからAR係数を受け取るためデコーダ630に接続される。さらに、整形フィルタ650は、乗算機能690の第1入力と、平均計算機能680及び分散計算機能660の各入力とに結合された出力s[n]を有する。「G」により記される乗算機能690の第2入力は、ゲイン計算機能670の出力に接続される。この機能670は、図示されるように、パラメータ復号化デコーダ630及び分散計算機能660から入力を受信するよう構成される。機能690からの乗算出力は、差機能700の第1入力に結合される。差機能700は、平均計算機能680が分散平均「平均s」を提供するよう動作可能であり、さらに、機能700はまた、パラメータb2の平均、すなわち、「平均b2」に対応するデコーダ630から出力を受信するための追加的な入力を有する。
ここで、合成装置600の動作が概略的に説明される。ノイズ生成装置640は、フィルタ650にわたされるe[n]に対してノイズライクデータセットを生成する。フィルタ650は、デコーダ630からAR係数を受信し、出力s[n]を生成するため、当該データセットe[n]の対応するコンポーネントをフィルタリングする。出力s[n]は、平均計算機能680にわたされ、当該機能680は、差機能700にわたされるそれの対応する平均「平均s」を生成し、差機能700は、この平均を減算し、これのより、出力b^2[n]が実質的にゼロの平均を有することを保証するよう動作可能である。分散計算機能660は、s[n]の分散を決定し、この分散をゲイン計算機能670にわたすよう動作可能である。ゲイン計算機能670は、デコーダ630から所望の分散□b2を受け取り、乗算機能690から与えられる出力{G.s[n]}がデコーダ630により決定されるような所望の分散を有するように、これに応じてゲインGを調整する。最後に、デコーダ630は、差機能700からの出力b^2[n]の平均を調整するため、それの出力「平均b2」を与える。
合成装置600は、図13及び14に示されるように、パラメータb[n]をシミュレートすることができる。746により示される第1グラフは、前述のパラメータb2に関するDCTサンプル画素インデックス及び画素値にそれぞれ対応する横座標と縦座標を有する。比較のため、748により示されるグラフは、グラフ746に対応する正規化された空間周波数に対するパワースペクトル密度である。
グラフ746のコンテンツは、750により示されるグラフに等価なデータを生成するため、合成装置600により合成することができる。対応するパワースペクトル密度グラフは、752により全体的に示される。従って、もとのグラフ746と748は、それぞれ合成されたグラフ750と752と比較される。完全に同一ではないが、合成装置600は、それに与えられる正確なモデルパラメータデータから類似のものを合成することができるということは理解されるであろう。さらなる例として、図15において、正規化された空間周波数の横軸756と、パワースペクトル密度(PSD)のための縦軸758を含む754により全体的に示されるグラフが提供される。グラフ754は、パラメータb1、b3及びb4のPSD推定を示し、グラフ754は、図4のエンコーダ300に与えられる画像の異なる選択されたELOPレイヤマクロブロック間の変化を示す。
上述のように、エンコーダ300及び対応するデコーダ400は、エンコーダ300からのデータ出力におけるエンハンストデータ圧縮を提供しながら、既知のエンコーダ10と比較して画質及び詳細を実質的に維持することが可能である。上述のように、このようなデータ圧縮は、モデルパラメータによりELOPエンハンストレイヤの選択された1以上のマクロブロックを表示することにより発生し、このようなパラメータは、DCT及び以降の2次元から1次元の生成されたDCT係数の連結により導出され、このような連結は、プライベートデータフィールドのELOPレイヤデータと通信可能な上述のAR係数を生じさせる。エンコーダ300を用いて実現可能なデータ圧縮の程度を推定するため、用いられるモデルパラメータに係る統計量を考慮する必要がある。
上述の本発明の実施例は、本発明の範囲から逸脱することなく変更可能であるということが理解され、以下の請求項はこれに従って解釈されるべきである。
本発明者は、例えば、エンコーダ300のモデル抽出機能350において、利用すべき適切な個数のモデルパラメータの選択が、エンコーダ300から取得可能なデータ圧縮の程度に対する重大な影響を有することを理解している。この後、使用されるモデルパラメータの個数は、「モデルオーダ」と呼ばれる。エンコーダ300において、モデルオーダは動的に可変とすることができる。あるいは、モデルオーダは好適な妥協値と設定することができる。モデル抽出機能350に利用可能な正確な処理が、昇順によりパラメータ値を推定し、モデルオーダの増加がデコーダ400から認識された画質の対応する増加に与えられないように、最適な妥協を決定するためのものである。しかしながら、最適なモデルオーダを決定するこのようなアプローチは、大きな計算量を要求される。
従って、本発明者は、異なるモデルオーダに対して限定された数のモデルパラメータセットの適合度を計算し、その後、最適なモデルオーダを決定するため適合後基準の性質を利用することが計算上より有用であることを理解している。このような好適なアプローチは、モデルパラメータセットのシーケンス全体を苦労して生成し、各セットに対して符号化クオリティをチェックする必要を回避する。より好ましくは、統計的解析が、モデル抽出機能350において適用され、例えば、画像再構成のために利用されるべき適合度のクオリティを決定するのに利用される。この用途では、例えばノイズコンポーネントが補間のためのかなりの情報を生成可能であるため、もとの画像と与えられたモデルオーダに対する再構成された画像との間のノイズコンポーネントの相違により効果的にドリブンされる。
ここで、ノイズ統計量に基づくモデルオーダのさらなるこのような選択を明らかにするため、図16において800により全体的に示されるグラフが説明される。グラフ800は、モデルオーダPを示す横軸810と、それの引数の1つとしてモデルオーダPを有し、モデルとデータとの差を表す適合度関数F(P)を示す縦軸820とを有する。適合度F(P)は、モデル抽出機能350の一部として実現され、ELOPエンハンスレイヤの対応する選択されたマクロブロックに対するモデルパラメータの統計的適合度のクオリティを示す。グラフ800は、P.M.T.Broersenによる「Automatic Spectral Analysis with Time Series Models」(IEEE Transactions on Instrumentation and Measurement,51(2):っp。211−216,April 2002)に説明されるようなGIC(Generalized Information Criterion)に基づく最適モデルオーダPの繰り返しの選択を示す。典型的な適合度が破線830により示され、GICの閾値が840により示される。GICの典型的形式が、等式4(Eq.4)において与えられる。
Figure 0004949836
ここで、3PはペナルティQ(P)を表す。ペナルティの異なる選択が当該文献において説明されている。ここで、ペナルティ3Pは、過小適合と過剰適合の最適なトレードオフを生成するために利用される。ペナルティは、より一般には、Pの関数として記述することが可能である。Q(P)は、M(P)又はデータに依存せず、Pに従って増加し、容易に計算される既知の関数である。具体例では、3Pにより示される特定のペナルティ関数は、ペナルティがpの線形関数であるとき(α*p)生じるペナルティ係数を含む。ここでは、α=3である。
ペナルティ関数の選択は、様々な基準に依存させることが可能である。
1)使用されるパラメータ推定法の統計的性質に基づく
2)使用されるパラメータ推定法の統計的性質を考慮して、過小適合と過剰適合のトレードオフに基づく
3)有限サンプル効果を考慮して、使用されるパラメータ推定法の統計的性質を考慮して、過小適合と過剰適合のトレードオフに基づく
4)p:Q(p)=α*pの線形関数(ただし、α=2又は3など)
5)p:Q(p)=α*pの線形関数(ただし、αは、観察数Nに依存する)
6)p:Q(p)=α*pの線形関数(ただし、αは、α=log(N)のときの観察数に依存する)
ほとんどのケースで利用される基準は、AIC(Akaike Information Criterion)であり、Q(P)=2*Pである。好ましくは、ペナルティは、適合度が減少するより急速に増加すべきである。モデル抽出関数350では、GICが最小となるモデルオーダが等式5(Eq.5)により与えられる。
Figure 0004949836
ただし、Pmax=与えられた中で最も高いオーダのモデル、Psel=モデルパラメータとしてELOPレイヤ選択マクロブロックを表すのに用いられる選択されたモデルオーダ、である。
図示された具体例として用いられるモデル抽出関数350において、標準的な非補間アプローチが使用されるとき、以下のステップが実行される(例えば、各ELOPレイヤ選択マクロブロックが等価なパラメータとして表されるため)。
(a)シーケンスM(1),M(2),...,M(Pmax)のすべてのモデルM(P)のパラメータが、選択されるマクロブロックに対して計算される。
(b)対応する統計的適合度F(P)が、当該シーケンスの各モデルに対して決定される。
(c)統計的適合度F(P)の結果の系列が、最善の適合度、すなわち、GICの最小値を特定するよう検索される。
上記補間アプローチでは、推定されたモデルM(P)は、モデルオーダPの値の増加に従って単調減少すると仮定される。このような状況に関するとき、好適な補間アプローチは、以下のように利用可能である。
(0)少数のパラメータP0によるモデルM(P0)が推定される(大量の計算を必要としない)。
(A)最も複雑なモデルM(Pm)が計算され、その適合度F(Pm)と対応するGICが計算される。
(B)より低いオーダのモデルの適合度、すなわち、M(Pm−1),M(Pm−2),...がM(Pm)のものより良好でない(より大きい)と仮定すると、これら低オーダモデルはモデルM(Pm)より大きなF(P)を有することが直接的に推論可能であり、これにより、機能350に用いられる選択の新たな最も高い候補は、GIC(P0)より潜在的に小さな対応するGICを有するオーダPmのモデルであり、すなわち、F(Pm)+3Pm<GIC(P0)である。
(C)ステップ(B)は、適合度F(P)がGIC(P0)より小さくなるまで必要に応じて繰り返される。
この処理(F(P)+3P<GIC(P0))の何回かの繰り返しの後、追加的な低オーダモデル(M(P0+1),M(P0+2),...)のパラメータを推定することにより、P0の値を増加させることができる。このことは、図16を参照して示すことができ、そこでは、P0はゼロに近接した低オーダモデルに対応すべきである。
補間アプローチは、GICの最小値を機能350内において大きく低減された計算コストにより検出することを可能にする。
ここで説明された統計的オーダ選択の選択的推定処理は、適合度F(P)が単調減少である場合、多くのパラメータ推定法と同様に、正確な最小値を与えることができる。従ってこの場合、結果として得られるオーダは、上述の(a)〜(c)において説明されたような標準的な「フルサーチ」法により求められるオーダに正確に等しいものとなる。
適合度がより大きなスケールにおいて単調減少するが、この動作の逸脱がローカルに発生し得る場合、当該処理により選ばれたオーダは、絶対的最小値が求められることの保証がもはや存在しなくても依然として正確なものである。実際上用いられるほとんどの推定は、2つのカテゴリ、すなわち、正確な単調減少又は近似的な単調減少の何れかに属する。この特徴は、画像又は映像符号化に関連しないアプリケーションが考えられる場合であっても、有効性を維持する。
ここで、補間アプローチ(a)〜(c)の特定の具体例が与えられる。
図16を参照するに、最大モデルオーダPmax=100である場合、推定に必要とされるいくつかのパラメータは、
1+2+...+5+7+14+20+40+100=196パラメータ
により与えられる。
比較のため、標準的アプローチ(a)〜(c)は、以下の個数のパラメータが推定されることを必要とする。
1+2+3+...+99+100=5050パラメータ
補間アプローチがモデルパラメータの決定のため、機能350の実行速度を増大させることが可能であるということが理解されるであろう。このような効果は、例えば、安価な消費者製品などにおける安価でコンパクトなハードウェア及び/又はソフトウェアにより機能350を実現することを可能にする。
図16及び関連する上記記載を参照するに、このようなモデルオーダ選択が、曲線適合及び定常確率信号の解析が必要とされる他の状況などにおいて、前述の映像符号化及び対応する復号化の範囲外の技術分野に適用可能であるということは理解されるであろう。定常確率信号はまた、「カラーノイズ」として知られる。図16及びそれの関連する具体例に関して説明されたモデルオーダ選択アプローチは、効果的には「ARMAsel」アルゴリズムであり、定常確率信号の解析のための一般的ツールを表す。さらに、当該アプローチは、ARモデルだけでなく、移動平均(MA)に関する場合、合成されたARMAモデルに対してもまた任意的に利用可能である。また、モデルオーダ選択アプローチは、より正確なモデルが相互に異なるタイプの信号の広範な領域に対して取得可能であることを保証することができる。
例えば、家電機器の映像符号化において、MPEGやH.264などの現在の映像コーデックは、カラーノイズとして特徴付けできる画像コンポーネントの処理にはあまり適していない。このようなコンポーネントを省略することは、人工的様相を有する復号化画像を生じさせる。本発明のモデルオーダ選択アプローチを利用すると、このようなカラーノイズコンポーネントのコンパクトで正確なデータ記述を導出することができ、これにより、より自然な様相を与える復号化画像における詳細を維持することが可能となる。
医療用画像復号化では、医療画像のノイズモデリングは、関連する画像データを生成するのに高圧縮レートが利用された場合であっても、対応するもとの画像に知覚的に類似した復号化画像を提供することができる。図16で利用されるアプローチは、このような圧縮データを生成するのに利用するより正確なモデルを決定するのに適用することができる。
上述のモデルオーダ選択アプローチはまた、心拍信号のモニタリング、診断のための肺ノイズの解析及びEEG電気信号解析などの一般的な医療データ解析に適用可能である。
図16で利用されるモデルオーダ選択アプローチは、1次元モデルオーダ選択に限定されないということは理解されるであろう。特に、2次元AR、MA又はARMAモデルのモデルオーダの選択はまた、当該アプローチを用いて実現することができる。3次元以上など、より高次元のデータに最も適したモデルの選択が当該アプローチにより提供される。
モデルオーダ選択の上述のアプローチはまた、特に音声及び/又は音楽などの音声信号の時間的ノイズライクコンポーネントの処理のためなど、音声処理に利用することができる。音声信号圧縮はまた、対応するノイズ記述モデルパラメータによる時間的ノイズライクコンポーネントの表現によりエンハンスされる。このような音声アプリケーションに利用するのに適したモデルオーダを選択することは、上記アプローチにより解決することが可能である。
上述のようなモデルオーダ選択に対するアプローチは、通信システムにおけるものなど一般的デジタル信号処理などにおいて広範なアプリケーションに適用することが可能である。例えば、当該アプローチは、例えば、上述のARMAselアルゴリズムを用いてモデル化された海の波からのレーダ反射に対応する信号を処理するレーダシステムにおいて適用可能である。このようなレーダ反射は、極めて複雑であって、所望の信号とノイズライクコンポーネントの両方の重ね合わせに対応する対応する信号を生成することができる。同様に、モデルオーダ選択に対するアプローチはまた、渦流モデリングなどと同様に、乱流システムに利用可能である。
さらに、上述のモデル選択アプローチはまた、機体振動解析などの機械構造の振動解析や、特にガスインタラクションの乱流液体が発生可能な場合の化学処理のモニタリングに潜在的に適用可能である。振動解析では、機械構造は複雑なハーモニック信号モードスペクトルを示すことができ、さらに、振動スペクトルの測定がしばしば、周囲の時間的及び/又はハーモニックノイズのバックグラウンドにおいて実行される。このような特性は、上述のアプローチにより決定することができる。
上記説明において、「有する」、「含む」、「搭載する」、「包括する」、「である」などの表現は、非排他的なものとして、すなわち、明示的に示されていないさらなるコンポーネント又はパーツが存在し得ると解釈される。上記用語のこのような解釈は、添付した請求項の範囲を解釈する際に特に関係する。
単数形による言及は、複数形に関連すると解釈されるべきであり、その反対もあるとされるべきである。
図1は、マルチレイヤ画像符号化を利用したコンポジットエンコーダの概略図である。 図2は、図1のエンコーダにおける符号化を受けた画像群の図である。 図3は、エンハンスメントレイヤELOPデータストリームを生成するため、エラー差信号が詳細解析を受けるマルチレイヤ画像符号化を利用したコンポジットエンコーダの概略図である。 図4は、エンコーダにより生成されるエンハンスメントレイヤELOPデータの1以上の選択されたマクロブロックを表すのにモデルパラメータデータを利用した本発明によるコンポジットエンコーダの概略図である。 図5は、図4のエンコーダを補完するための本発明による対応するデコーダである。 図6は、B1〜B4とマーク付けされた選択されたマクロブロックを有する一例となるエンハンスメントレイヤELOPである。 図7は、図6のマクロブロックB1〜B4の離散コサイン変換(DCT)である。 図8は、図6のマクロブロックB1〜B4の離散コサイン変換(DCT)である。 図9は、図6のマクロブロックB1〜B4の離散コサイン変換(DCT)である。 図10は、図6のマクロブロックB1〜B4の離散コサイン変換(DCT)である。 図11は、図6のマクロブロックB1〜B4に関する2次元から1次元へのデータ連結のグラフ群である。 図12は、本発明において利用されるノイズ合成装置の概略図である。 図13は、選択されたマクロブロックB2のノイズライク信号の合成を示す。 図14は、選択されたマクロブロックB2のノイズライク信号の合成を示す。 図15は、選択されたマクロブロックB1、B3及びB4に関するパワースペクトル密度(PSD)の比較である。 図16は、補間されたELOPマクロブロックモデルパラメータ最適化を示す図である。

Claims (10)

  1. 入力画像データを受信するコンポジットエンコーダであって、
    前記入力画像データの各入力画像について、少なくとも1つのベースレイヤと少なくとも1つのエンハンスメントレイヤとを含む複数の対応する画像レイヤを生成するため前記入力画像データを処理する画像処理手段と、
    前記ベースレイヤを受信し、前記ベースレイヤからベース符号化画像出力データ(BLOP)を生成する第1エンコーダと、前記エンハンスメントレイヤを受信し、前記エンハンスメントレイヤからエンハンスト符号化画像出力データ(ELOP)を生成する第2エンコーダとを有する符号化手段と、
    を有し、
    当該コンポジットエンコーダはさらに、
    ブロック選択手段と、
    自己回帰モデリングを利用するモデル抽出手段と、
    を有し、
    前記ブロック選択手段は、前記入力画像データにある空間ノイズに対応する前記少なくとも1つのエンハンスメントレイヤの1以上のサブ領域を選択し、前記第2エンコーダを無効にし、前記モデル抽出手段に前記1以上のサブ領域を処理させ、出力画像データにおいて表現するために対応するモデルパラメータを計算させるのに適するコンポジットエンコーダ。
  2. 請求項1記載のコンポジットエンコーダを有するデータ符号化システム。
  3. 前記データは、画像データを表す、請求項2記載のシステム。
  4. 前記符号化手段は、前記モデルパラメータを含めることによってエンハンスされたISO/IEC MPEG−4 AVC規格とITU−T H.264規格の少なくとも1つにより前記入力画像データを符号化するよう構成される、請求項3記載のシステム。
  5. 前記モデルパラメータは、前記符号化された出力画像データの1以上のプライベートデータ領域に含まれる、請求項2記載のシステム。
  6. 前記符号化手段は、前記符号化された出力画像データを含めるため、前記少なくとも1つの選択されたサブ領域をそれの対応するモデルパラメータに変換するための空間変換を適用するよう動作可能である、請求項2記載のシステム。
  7. 前記空間変換は、離散コサイン変換を含む、請求項6記載のシステム。
  8. 当該システムはさらに、前記コンポジットエンコーダから符号化された出力データを受信し、前記入力画像を再構成するため前記出力データを復号化するデコーダを有し、
    前記デコーダは、
    前記符号化された出力データにおける符号化された画像データから前記モデルパラメータを分離する復号化手段と、
    前記モデルパラメータを受信し、前記モデルパラメータから前記1以上のサブ領域に対応する合成されたデータを提供するサブ領域合成手段と、
    前記コンポジットエンコーダに提供される前記入力画像に対応する復号化された出力画像データを生成するため、前記合成されたサブ領域データと復号化された画像データとを合成するデータマージ手段と、
    を有する、請求項2記載のシステム。
  9. 前記コンポジットエンコーダからの符号化された出力画像データは、インターネット、光データディスク、磁気データディスク、DVD、CD、ソリッドステート記憶装置及び無線通信ネットワークの少なくとも1つを含む伝送媒体を介し前記デコーダに伝送される、請求項8記載のシステム。
  10. 請求項1記載のコンポジットエンコーダに利用されるデコーダであって、
    当該デコーダは、前記コンポジットエンコーダから符号化された出力データを受信し、対応する入力画像を再構成するために前記出力データを復号化し、
    当該デコーダは、
    前記符号化された出力データにおける符号化された画像データからモデルパラメータを分離する復号化手段と、
    記モデルパラメータを受信し、前記モデルパラメータから1以上のサブ領域に対応する合成されたデータを提供するサブ領域合成手段と、
    前記コンポジットエンコーダに提供される前記入力画像に対応する復号化された出力画像データを生成するため、前記合成されたサブ領域データと復号化された画像データとを合成するデータマージ手段と、
    を有するデコーダ。
JP2006524459A 2003-08-29 2004-08-25 記述的モデルパラメータを用いたエンハンスメントレイヤデータを符号化及び復号化するシステム及び方法 Expired - Fee Related JP4949836B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP03300104.1 2003-08-29
EP03300104 2003-08-29
PCT/IB2004/002770 WO2005022918A1 (en) 2003-08-29 2004-08-25 System and method for encoding and decoding enhancement layer data using descriptive model parameters

Publications (2)

Publication Number Publication Date
JP2007504696A JP2007504696A (ja) 2007-03-01
JP4949836B2 true JP4949836B2 (ja) 2012-06-13

Family

ID=34259299

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006524459A Expired - Fee Related JP4949836B2 (ja) 2003-08-29 2004-08-25 記述的モデルパラメータを用いたエンハンスメントレイヤデータを符号化及び復号化するシステム及び方法

Country Status (8)

Country Link
US (1) US7953156B2 (ja)
EP (1) EP1661405B1 (ja)
JP (1) JP4949836B2 (ja)
KR (1) KR101073535B1 (ja)
CN (1) CN1843039B (ja)
AT (1) ATE435567T1 (ja)
DE (1) DE602004021818D1 (ja)
WO (1) WO2005022918A1 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9743078B2 (en) * 2004-07-30 2017-08-22 Euclid Discoveries, Llc Standards-compliant model-based video encoding and decoding
CN103763068B (zh) * 2005-01-11 2017-05-17 高通股份有限公司 用于经由分层调制发送分层及非分层数据的方法和装置
KR20080006609A (ko) 2005-04-13 2008-01-16 노키아 코포레이션 스케일링가능성 정보의 코딩, 저장, 및 시그널링
CN101223787A (zh) * 2005-07-15 2008-07-16 皇家飞利浦电子股份有限公司 针对纹理区域的图像编码器
US20070074251A1 (en) * 2005-09-27 2007-03-29 Oguz Seyfullah H Method and apparatus for using random field models to improve picture and video compression and frame rate up conversion
JP4824635B2 (ja) * 2007-06-15 2011-11-30 株式会社 ソキア・トプコン ロータリエンコーダの角度補正方法
US20090168871A1 (en) * 2007-12-31 2009-07-02 Ning Lu Video motion estimation
US9143757B2 (en) * 2011-04-27 2015-09-22 Electronics And Telecommunications Research Institute Method and apparatus for transmitting and receiving stereoscopic video
KR20130011994A (ko) * 2011-07-22 2013-01-30 삼성전자주식회사 송신 장치, 수신 장치 및 그 송수신 방법
US9591318B2 (en) 2011-09-16 2017-03-07 Microsoft Technology Licensing, Llc Multi-layer encoding and decoding
CN103096056B (zh) 2011-11-08 2015-11-25 华为技术有限公司 矩阵编码方法与装置及解码方法与装置
US11089343B2 (en) * 2012-01-11 2021-08-10 Microsoft Technology Licensing, Llc Capability advertisement, configuration and control for video coding and decoding
US9185414B1 (en) * 2012-06-29 2015-11-10 Google Inc. Video encoding using variance
CN103916673B (zh) * 2013-01-06 2017-12-22 华为技术有限公司 基于双向预测的编码方法、解码方法和装置
JP6261215B2 (ja) * 2013-07-12 2018-01-17 キヤノン株式会社 画像符号化装置、画像符号化方法及びプログラム、画像復号装置、画像復号方法及びプログラム
US10097851B2 (en) 2014-03-10 2018-10-09 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
US10091507B2 (en) 2014-03-10 2018-10-02 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
US9621917B2 (en) 2014-03-10 2017-04-11 Euclid Discoveries, Llc Continuous block tracking for temporal prediction in video encoding
JP6150134B2 (ja) * 2014-03-24 2017-06-21 ソニー株式会社 画像符号化装置および方法、画像復号装置および方法、プログラム、並びに記録媒体
EP3122051A1 (en) 2015-07-24 2017-01-25 Alcatel Lucent Method and apparatus for encoding and decoding a video signal based on vectorised spatiotemporal surfaces
EP3820150B1 (en) * 2019-11-07 2024-01-03 Dotphoton AG Method and device for steganographic processing and compression of image data
KR20210055278A (ko) * 2019-11-07 2021-05-17 라인플러스 주식회사 하이브리드 비디오 코딩 방법 및 시스템

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU711488B2 (en) * 1995-09-12 1999-10-14 Koninklijke Philips Electronics N.V. Hybrid waveform and model-based encoding and decoding of image signals
US6690833B1 (en) * 1997-07-14 2004-02-10 Sarnoff Corporation Apparatus and method for macroblock based rate control in a coding system
US5995150A (en) * 1998-02-20 1999-11-30 Winbond Electronics Corporation America Dual compressed video bitstream camera for universal serial bus connection
US6957201B2 (en) * 1998-11-17 2005-10-18 Sofresud S.A. Controlled capacity modeling tool
US7471834B2 (en) * 2000-07-24 2008-12-30 Vmark, Inc. Rapid production of reduced-size images from compressed video streams
US6907070B2 (en) * 2000-12-15 2005-06-14 Microsoft Corporation Drifting reduction and macroblock-based control in progressive fine granularity scalable video coding
US7155066B2 (en) * 2001-05-31 2006-12-26 Agilent Technologies, Inc. System and method for demosaicing raw data images with compression considerations
CN1253009C (zh) * 2001-10-26 2006-04-19 皇家飞利浦电子股份有限公司 一种空间可缩放压缩的视频编、译码器和方法
KR100603592B1 (ko) * 2001-11-26 2006-07-24 학교법인 고황재단 영상 화질 향상 인자를 이용한 지능형 파문 스캔 장치 및 그 방법과 그를 이용한 영상 코딩/디코딩 장치 및 그 방법
US20070126021A1 (en) * 2005-12-06 2007-06-07 Yungryel Ryu Metal oxide semiconductor film structures and methods

Also Published As

Publication number Publication date
KR20060132797A (ko) 2006-12-22
JP2007504696A (ja) 2007-03-01
CN1843039A (zh) 2006-10-04
WO2005022918A1 (en) 2005-03-10
EP1661405A1 (en) 2006-05-31
US20060262846A1 (en) 2006-11-23
DE602004021818D1 (de) 2009-08-13
EP1661405B1 (en) 2009-07-01
US7953156B2 (en) 2011-05-31
CN1843039B (zh) 2011-02-23
ATE435567T1 (de) 2009-07-15
KR101073535B1 (ko) 2011-10-17

Similar Documents

Publication Publication Date Title
JP4949836B2 (ja) 記述的モデルパラメータを用いたエンハンスメントレイヤデータを符号化及び復号化するシステム及び方法
JP5684823B2 (ja) ハイブリッド映像符号化
CN100579224C (zh) 用于无损视频编码和解码的方法及设备
JP4596718B2 (ja) 適応動きベクトル場符号化
KR101369224B1 (ko) 움직임 보상 필터링을 이용한 영상 부호화, 복호화 방법 및장치
WO2010001614A1 (ja) 動画像符号化方法、動画像復号方法、動画像符号化装置、動画像復号装置、プログラム、及び集積回路
TWI521949B (zh) Image predictive coding apparatus, method and program, image predictive decoding apparatus, method and program, and coding decoding system and method
JP2007150432A (ja) 動画像符号化/復号化方法および装置
MX2011001627A (es) Metodo y aparato de cuantificacion inversa de imagen y metodo y aparato de decodificacion de imagen.
CN105745931A (zh) 使用自适应采样编码和解码视频信号的方法和装置
JP2011124846A (ja) 画像符号化装置
CN108353175B (zh) 使用系数引起的预测处理视频信号的方法和装置
TW201036450A (en) Image processing device, method, and program, dynamic image encoding device, method, and program, dynamic image decoding device, method, and program, and encoding/decoding system and method
CN107113426B (zh) 使用广义图形参数执行基于图形的变换的方法和设备
WO2008080816A1 (en) Method and system for signal prediction in predictive coding
CN101883280A (zh) 一种恢复噪声的视频编解码方法和系统
CN110100437A (zh) 用于有损视频编码的混合域协作环路滤波器
JP4835855B2 (ja) 動画像符号化の装置、方法及びプログラムと、動画像復号の装置方法及びプログラム
CN110115033A (zh) 用于有损静止图像编码的混合域协同后滤波器
JP4784618B2 (ja) 動画像符号化装置、動画像復号化装置、動画像符号化プログラム、及び動画像復号化プログラム
JPH09149414A (ja) 画像信号復号化装置
US11647228B2 (en) Method and apparatus for encoding and decoding video signal using transform domain prediction for prediction unit partition
JP2002152049A (ja) データ処理装置及びデータ処理方法
JP6557483B2 (ja) 符号化装置、符号化システム、及びプログラム
JP4250553B2 (ja) 画像データ処理方法及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110202

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110817

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20110825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120214

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120308

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150316

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees