JP2017501659A

JP2017501659A - 予測された信号と変換コーディングされた信号とを用いたビデオ信号の予測方法及び装置

Info

Publication number: JP2017501659A
Application number: JP2016560329A
Authority: JP
Inventors: ゴーネングルリュズオヌール; セッドアミール; ソフンイェ
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2013-12-22
Filing date: 2014-12-22
Publication date: 2017-01-12
Anticipated expiration: 2034-12-22
Also published as: WO2015093909A1; US10856012B2; EP3085089A4; US20160337646A1; EP3085089A1; CN105850136B; WO2015093908A1; EP3085089B1; EP3085095A1; CN105850124B; US20160360237A1; KR20160104646A; EP3085095A4; JP2017509268A; KR20160106619A; CN105850136A; EP3085095B1; JP6730191B2; CN105850124A

Abstract

原映像信号（original video signal）を受信するステップと、上記原映像信号を利用可能な復元信号と比較するステップと、上記比較の結果に基づいて変換コーディングされた修正信号を生成するステップと、上記変換コーディングされた修正信号及び上記利用可能な復元信号に基づいて予測信号を生成するステップと、上記変換コーディングされた修正信号を上記予測信号に合算して信号を復元するステップと、を有する、映像信号をエンコードする方法が本発明において開示される。【選択図】図３

Description

本発明は、ビデオ（映像）（video）信号のエンコード及びデコード方法並びにビデオ信号のエンコード及びデコード装置に関し、特に、予測された信号と変換コーディングされた信号とを用いた予測技術に関する。

圧縮符号化とは、デジタル化した情報を通信回線を介して送信するか、記憶（格納）媒体（storage medium）に適した形で記憶（格納）する（storing）ための一連の信号処理技術を意味する。映像、イメージ、音声などのメディアが圧縮符号化の対象となることができ、特に、映像を対象として圧縮符号化を行う技術をビデオ映像圧縮と称する。

多くのメディア圧縮技術は、予測コーディング及び変換コーディングという２つのアプローチ（approach）方法に基づく。特に、ハイブリッドコーディング（hybrid coding）技術は、以前にデコードされたコンテキスト値（previously decoded context values）を用いてサンプルを空間的に（spatially）予測し、予測エラーを変換コーディングする。このような処理（過程）（process）は、ガウス信号（Gaussian signal）に対して最適なレート歪み（Rate Distortion；ＲＤ）値を有するように行われる。

しかし、一般的なビデオ信号は、ガウス信号（Gaussian signal）に適合しない（not suitable）構造を含んでいるため、このような信号をより効率的にコーディングする必要がある。

一方、ブロックの他の部分で発生するエラー毎に互いに重要度が異なり得る。したがって、空間ドメインと周波数ドメインとの両方でエラーを制御できる方法が必要である。

本発明では、エッジ及び方向性構造（edge and directional structure）を有する信号に対してより効率的にコーディングしようとする。

本発明では、予測された信号とともに変換コーディングされた信号を用いて、ビデオ信号を非因果的に（non-causally）予測しようとする。

本発明では、非直交変換に基づいてビデオ信号をコーディングしようとする。

本発明では、歪みを最小にする最適な変換係数を取得しようとする。

本発明では、ＲＤ（Rate Distortion）が最適な（Rate Distortion (RD) -optimized）量子化ステップサイズを導出しようとする。

本発明が適用される非因果的コーディング技術を、非直交変換の式及びパラメータ（non-orthogonal transform having a form and parameters）で表現しようとする。

本発明では、空間ドメインと周波数ドメインとの両方で量子化エラーを制御しようとする。

本発明では、空間ドメイン上でエラーの重要度を区別する（異ならせる）（differentiate）ために、さらに他の対角行列を定義しようとする。

本発明では、ＲＤ（Rate-Distortion）の観点で最適な対角行列を計算する方法を提案しようとする。

本発明では、空間ドメイン上で量子化エラーをより細かく制御する方法を提案しようとする。

また、本発明は、エッジ及び方向性構造（edge and directional structure）を有する信号に対してより効率的にコーディングできる方法を提案する。

本発明は、予測された信号とともに変換コーディングされた信号を用いてビデオ信号を非因果的に（non-causally）予測する方法を提案する。

また、本発明は、非直交変換に基づいたビデオ信号のコーディング方法を提案しようとする。

また、本発明は、最適な変換係数を取得するための量子化アルゴリズムを提案する。

また、本発明は、最適な量子化ステップサイズを導出する方法を提案する。

また、本発明は、非直交変換の式及びパラメータで表現され得る非因果的コーディング技術を提案する。

また、本発明は、既に復元された全ての信号及びコンテキスト信号（context signal）を用いて最適な予測信号（optimized prediction signal）を生成する方法を提案する。

また、本発明は、空間ドメインと周波数ドメインとの両方で量子化エラーを制御する方法を提案する。

また、本発明は、空間ドメイン上でエラーの重要度を区別するために、さらに他の対角行列を定義する。

また、本発明は、ＲＤ（Rate-Distortion）の観点で最適な対角行列を計算する方法を提案する。

また、本発明は、空間ドメイン上で量子化エラーをより細かく制御する方法を提案する。

本発明の一実施形態は、原映像信号（original video signal）を受信するステップと、原映像信号を利用可能な復元信号と比較するステップと、比較の結果に基づいて変換コーディングされた修正信号（correction signal）を生成するステップと、変換コーディングされた修正信号及び利用可能な復元信号に基づいて予測信号を生成するステップと、変換コーディングされた修正信号を予測信号に合算（加算）し（add）て信号を復元するステップと、を有する、映像信号をエンコードする方法を提供する。

本発明の一態様において、方法は、歪み成分とレート成分との合計（sum）を最小にするスケーリングパラメータを決定するステップと、スケーリングパラメータに基づいて変換コーディングされた修正信号に対して量子化を行うステップと、をさらに有する。

本発明の一態様において、歪み成分は、原映像信号と復元信号との間の歪みの総和（total distortion）を指示し、レート成分は、量子化された係数を送信するために要求されるビットの数を指示する。

本発明の一態様において、スケーリングパラメータは、量子化パラメータ値から決定される。

本発明の一態様において、方法は、コーディングされる原映像信号を複数のレイヤに分解するステップをさらに有する。

本発明の一態様において、非直交変換行列は、信号を復元するのに使用される。

本発明の他の実施形態は、最適な量子化された係数（optimal quantized coefficient）を有する映像信号を受信するステップと、最適な量子化された係数に基づいて残差エラーベクトルを取得するステップと、残差信号を予測信号に合算して映像信号を復元するステップと、を有し、最適な量子化された係数は、以前に復元された信号（previously reconstructed signals）の全てに基づいて取得される、映像信号をデコードする方法を提供する。

本発明の一態様において、デコード方法は、映像信号からスケーリングパラメータを抽出するステップと、スケーリングパラメータに基づいて最適な量子化された係数に量子化を行うステップと、をさらに有する。

本発明の他の実施形態は、原映像信号を受信するように構成される受信部と、原映像信号を利用可能な復元信号と比較し、比較の結果に基づいて変換コーディングされた修正信号を生成するように構成される最適化部と、変換コーディングされた修正信号及び利用可能な復元信号に基づいて予測信号を生成するように構成される予測部と、変換コーディングされた修正信号を予測信号に合算して信号を復元するように構成される復元部と、を備える、映像信号をエンコードする装置を提供する。

本発明の一態様において、エンコード装置は、歪み成分とレート成分との合計を最小にするスケーリングパラメータを決定するように構成される最適化部と、スケーリングパラメータに基づいて変換コーディングされた修正信号に量子化を行うように構成される量子化部と、をさらに備えることができる。

本発明の他の実施形態は、最適な量子化された係数を有する映像信号を受信するように構成される受信部と、最適な量子化された係数に基づいて残差エラーベクトルを取得するように構成される逆変換部と、残差信号を予測信号に合算して、映像信号を復元するように構成される復元部と、を備え、最適な量子化された係数は、以前に復元された信号の全てに基づいて取得される、映像信号をデコードする装置を提供する。

本発明の一態様において、デコード装置は、映像信号からスケーリングパラメータを抽出し、スケーリングパラメータに基づいて最適な量子化された係数に量子化を行うように構成される逆量子化部をさらに備える。

本発明は、デコードされた全ての情報を利用することにより、さらに精巧かつ改良された（向上した）（advanced）予測を行うことができる。

また、本発明は、予測された信号とともに変換コーディングされた信号を用いてビデオ信号を非因果的に（non-causally）予測することにより、エッジ及び方向性構造（edge and directional structure）を有する信号に対してより効率的にコーディングすることができる。

また、本発明は、非直交変換の式及びパラメータで表現され得る非因果的コーディング技術を提案することにより、さらに精巧かつ改良された予測を行うことができる。

また、本発明は、最適な変換係数を取得するための量子化アルゴリズムを提案することにより、量子化エラー（歪み）（error）を最小にすることができる。

また、本発明は、最適な量子化ステップサイズを導出する方法を提案することにより、さらに改良されたコーディングを行うことができる。

また、本発明は、既に復元された（復元済みの）全ての信号及びコンテキスト信号（context signal）を用いることにより、最適な予測信号（optimized prediction signal）を生成できる。

また、本発明は、空間ドメインと周波数ドメインとの両方で量子化エラーを制御することにより、さらに改良されたコーディングを行うことができる。

ビデオコーディングが行われるエンコーダの概略ブロック図である。ビデオコーディングが行われるデコーダの概略ブロック図である。本発明が適用される実施形態であって、改良されたコーディング方法が適用されるエンコーダの概略ブロック図である。本発明が適用される実施形態であって、改良されたコーディング方法が適用されるデコーダの概略ブロック図である。本発明が適用される実施形態であって、以前にコーディングされたピクセルを用いて予測を行う方法を説明するためのレイヤを定義する図である。本発明が適用される実施形態であって、以前にコーディングされたピクセルを用いて予測を行う方法を説明するためのレイヤを定義する図である。本発明が適用される実施形態であって、レイヤ単位で以前にコーディングされたピクセルを用いて予測を行う方法を説明するフローチャートである。本発明が適用される実施形態であって、最適な量子化された係数を取得するための量子化処理を説明するフローチャートである。本発明が適用される実施形態であって、最適な量子化された係数を取得するための量子化処理を具体的に説明するフローチャートである。本発明が適用される実施形態であって、最適な量子化ステップサイズを取得する処理を説明するフローチャートである。本発明が適用される実施形態であって、本発明が適用されるテストイメージを示す図である。本発明が適用される実施形態であって、テストイメージに対するレートゲイン（rate gain）のパーセンテージを示す図である。本発明が適用される実施形態であって、改良された予測コーディング方法を説明するための概略フローチャートである。本発明が適用される実施形態であって、最適な量子化ステップサイズに基づいて量子化を行う方法を説明するための概略フローチャートである。本発明が適用される実施形態であって、量子化エラー制御による改良されたコーディング方法が適用されるエンコーダの概略ブロック図である。本発明が適用される実施形態であって、量子化エラー制御による改良されたコーディング方法が適用されるデコーダの概略ブロック図である。本発明が適用される実施形態であって、ＲＤ（Rate-Distortion）の最適化処理を介してスケーリング対角行列（scaling diagonal matrix）を取得する処理を説明するフローチャートである。本発明が適用される実施形態であって、最適化されたスケーリング行列を用いてコーディングした場合と既存の方式のとおりにコーディングした場合とにおいて、各イメージのコーディングゲイン（coding gain）を比較するグラフである。本発明が適用される実施形態であって、改良されたコーディング方法が適用されるエンコーダの概略ブロック図である。本発明が適用される実施形態であって、改良されたコーディング方法が適用されるデコーダの概略ブロック図である。本発明が適用される実施形態であって、改良されたビデオコーディング方法を説明するための概略フローチャートである。

以下、添付された図面を参照して本発明の実施形態の構成及びその作用を説明し、図面により説明される本発明の構成及び作用は、１つの実施形態として説明されるものであり、これにより、本発明の技術的思想とその中核となる構成及び作用とが制限されるものではない。

また、本発明において使用される用語は、なるべく現在広く使用される一般的な用語を選択したが、特定の場合は、出願人が任意に選定した用語を使用して説明する。そのような場合には、該当部分の詳細説明においてその意味を明確に記載するので、本発明の説明において使用された用語の名称だけで単純に解析されてはならず、その該当用語の意味まで把握して解析されなければならないことを明らかにしておく。

なお、本発明において使用される用語は、発明を説明するために選択された一般的な用語であるが、類似した意味を有する他の用語がある場合、より適切な解析のために代替可能であろう。例えば、信号、データ、サンプル、ピクチャ、フレーム、ブロックなどの場合、各コーディング処理で適宜代替されて解析され得るであろう。

図１及び図２は、各々でビデオコーディングが行われるエンコーダ及びデコーダの概略ブロック図を示す。

上記図１のエンコーダ１００は、変換部１１０、量子化部１２０、逆量子化部１３０、逆変換部１４０、バッファ１５０、予測部１６０、及びエントロピエンコード部１７０を備え、上記図２のデコーダ２００は、エントロピデコード部２１０、逆量子化部２２０、逆変換部２３０、バッファ２４０、及び予測部２５０を備える。

上記エンコーダ１００は、原映像信号（original video signal）を受信し、上記原映像信号から、予測部１６０が出力した予測信号（predicted signal）を減算して予測エラーを生成する。上記生成された予測エラーは、変換部１１０に送信され、上記変換部１１０は、上記予測エラーに変換技法を適用して変換係数を生成する。

例えば、上記変換技法の中には、ブロックベースの変換方法とイメージベースの変換方法とがありうる。上記ブロックベースの変換方法の例としては、離散余弦（コサイン）変換（Discrete Cosine Transform；ＤＣＴ）、カルーネンレーベ変換（Karhuhen-Loeve Transform；ＫＬＴ）などを挙げることができる。ここで、上記離散余弦変換ＤＣＴとは、空間ドメイン（spatial domain）上の信号を２次元周波数成分に分解（変換）することを示す。ブロック内から左側上端に行くほど低い周波数成分を有し、右側下端に行くほど高い周波数成分を有するパターンをなす。例えば、６４個の２次元の周波数成分のうち、最も左側上端に存在する１個のみが直流成分（ＤＣ：Direct Current）で、周波数が０である成分であり、残りは交流成分（ＡＣ：Alternate Current）で、低い周波数成分から高い周波数成分まで６３個で構成される。上記離散余弦変換ＤＣＴを行うということは、原映像信号のブロックに含まれた基底成分（６４個の基本パターン成分）のそれぞれの大きさを求めることであり、この大きさは、離散余弦変換係数である。

また、上記離散余弦変換ＤＣＴは、単に原映像信号成分で表現するために使用される変換であり、逆変換の際、周波数成分から本来の（原）（original）映像信号に完全に復元される。すなわち、映像の表現方法のみを変えることで、重複した情報を含む原映像に含まれた全ての情報を全て記憶する。原映像信号を離散余弦変換ＤＣＴする場合、原映像信号の振幅の分布とは異なり、離散余弦変換ＤＣＴ係数は、０の近くの値に集まって存在するので、これを用いて高い圧縮効果を得ることができる。

量子化部１２０は、上記生成された変換係数（transform coefficient）を量子化してエントロピエンコード部１７０に送信し、上記エントロピエンコード部１７０は、量子化された信号（quantized signal）をエントロピコーディングして出力する。

上記量子化部１２０は、入力されるデータに対して特定範囲の入力値を１つの代表値にマッピングする。量子化は、次の数式１のように、入力データを量子化ステップサイズで割ることにより計算されることができる。

ここで、Ｙは、量子化されたデータを表し、Ｘは、入力データを表し、Ｑは量子化ステップサイズを表す。Ｓｉｇｎ（）関数は、データの符号を取得するための演算であり、Ｒｏｕｎｄ（）関数は、四捨五入演算を表す。上記量子化ステップサイズは、量子化区間（quantization range）によって表現されることができる。また、本明細書において、上記量子化ステップサイズは、スケーリングパラメータ（scaling parameter）を意味できる。ビデオコーディングの際、上記量子化ステップサイズは、変更されることができ、変更された量子化ステップサイズを用いて圧縮率を調節できる。一方、上記量子化ステップサイズの代わりに、整数値を使用する量子化パラメータを用いることもできる。

量子化処理は、次の数式２のように、入力された変換係数Ｃを量子化ステップサイズＱで割ることにより、量子化された係数Ｃ’を取得できる。

［数式２］
Ｃ’＝Ｃ／Ｑ

ここで、Ｃ’は、量子化された係数を表し、Ｃは、入力された変換係数を表し、Ｑは、量子化ステップサイズを表す。

一方、上記量子化部１２０から出力された上記量子化された信号（quantized signal）は、予測信号を生成するために用いられることができる。例えば、上記量子化された信号（quantized signal）は、ループ内の逆量子化部１３０及び逆変換部１４０を介して逆量子化及び逆変換を適用することにより、予測エラーに復元されることができる。上記復元された予測エラーを予測部１６０から出力された予測信号（prediction signal）に加えることにより、復元信号（reconstructed signal）が生成され得る。

バッファ１５０は、上記予測部１６０による今後の参照（future reference）のために上記復元信号を記憶し、上記予測部１６０は、上記バッファ１５０に記憶された以前に復元された信号（previously reconstructed signal）を用いて予測信号（prediction signal）を生成する。

図２のデコーダ２００は、上記図１のエンコーダ１００から出力された信号を受信し、受信された信号は、エントロピデコード部２１０を介してエントロピデコードされる。逆量子化部２２０では、量子化ステップサイズ情報を利用してエントロピデコードされた信号から変換係数を取得し、逆変換部２３０では、上記変換係数を逆変換して予測エラーを取得する。上記取得された予測エラーを上記予測部２５０から出力された予測信号（prediction signal）に加えることにより、復元信号（reconstructed signal）が生成される。

上記逆量子化部２２０は、次の数式３のように、量子化されたデータに逆量子化スケール値Ｑを掛けることにより計算されることができる。

［数式３］
Ｘ’＝Ｙ＊Ｑ

ここで、Ｘ’は、復元されたデータを表し、Ｙは、量子化されたデータを表し、Ｑは、逆量子化スケール値を表す。上記Ｑは、量子化ステップサイズと同様（同一）の（same）値を有することができる。

上記バッファ２４０は、上記予測部２５０による今後の参照（future reference）のために上記復元信号を記憶し、上記予測部２５０は、上記バッファ２４０に記憶された以前に復元された信号（previously reconstructed signal）を用いて予測信号（prediction signal）を生成する。

本発明は、ハイブリッドビデオコーダでのイントラ予測方法を提供する。圧縮されるサンプル値は、以前にコーディングされたコンテキスト値を用いて予測され、予測エラーは、変換コーディングされる。このような処理は、ガウス（Gaussian）信号に対して最適なＲＤ値を有するように行われることができる。しかし、一般的なビデオ（映像）（video）信号は、ガウス（Gaussian）信号に適合しない多くの信号を含んでいる。したがって、本発明では、上記のような信号をターゲットとして、我々は、予測サンプルとともに変換コーディングされたサンプル及びコンテキスト値を用いて各サンプルを非因果的に（non-causally）予測する技術を提案しようとする。このような非因果的エンコード（non-causal encoding）は、非直交変換（non-orthogonal transform）の式（form）及びパラメータで表現されることができる。

図３及び図４は、本発明が適用される実施形態であって、各々改良されたコーディング方法が適用されるエンコーダ及びデコーダの概略ブロック図を示す。

上記図３のエンコーダ３００は、最適化部３１０、量子化部３１５、逆変換部３２０、予測部３３０、復元部３４０、バッファ３５０、及びエントロピエンコード部３６０を備え、上記図４のデコーダ４００は、エントロピデコード部４１０、逆量子化部４２０、逆変換部４３０、復元部４４０、バッファ４５０、及び予測部４６０を備える。

上記最適化部３１０は、上記バッファ３５０から、現在ブロックのピクセル情報、以前にデコードされたブロックのピクセル情報、及び量子化ステップサイズ情報のうち、少なくとも１つを取り込む（取る）（フェッチする）（fetch）ことができる。ここで、上記現在ブロックのピクセル情報は、ベクトルで表現された、コーディングされるブロックのピクセル（pixels from the block to be coded arranged into a vector）を表すことができる。上記以前にデコードされたブロックのピクセル情報は、ベクトルで表現された、以前にデコードされたブロックのピクセル（pixels from previously decoded block arranged into a vector）を表すことができる。上記量子化ステップサイズ情報は、ベクトルで表現された量子化ステップサイズを表すことができる。

上記最適化部３１０は、上記現在ブロックのピクセル情報、上記以前にデコードされたブロックのピクセル情報、及び上記量子化ステップサイズ情報のうち、少なくとも１つに基づいて変換係数Ｃ（ｉ、ｊ）を取得できる。ここで、上記変換係数Ｃ（ｉ、ｊ）は、量子化された変換係数を意味できる。

上記逆変換部３２０は、上記取得された変換係数Ｃ（ｉ、ｊ）を受信し、逆変換を行うことができる。上記逆変換部３２０は、受信した変換係数Ｃ（ｉ、ｊ）に逆変換を行い、残差（レジデュアル）信号ｒｅｓ（ｉ、ｊ）を取得できる。

上記予測部３３０は、上記バッファ３５０から、以前にデコードされたブロックのピクセル情報を取り込むことができる。上記予測部３３０は、以前にデコードされたブロックのピクセル及び以前のレイヤ（previous layer）から復元されたピクセルのうち、少なくとも１つを用いて現在レイヤのピクセルを予測できる。上記予測部３３０は、上記のような予測を行うことにより、予測信号ｐｒｅｄ（ｉ、ｊ）を取得できる。ここで、上記現在レイヤのピクセル（ｌａｙｅｒＬ_k）は、現在ブロックがＢ×Ｂブロックであり、水平成分をｊ、垂直成分をｉとするとき、（ｋ、ｉ）及び（ｊ、ｋ）（ｉ＝１、...、Ｂ、ｊ＝１、...、Ｂ、ｋ＝１、...、Ｂ）に位置するピクセルを表すことができる。このとき、上記以前のレイヤから復元されたピクセルは、以前の全てのレイヤ（ｌａｙｅｒＬ₁、...、ｌａｙｅｒＬ_k-1）の復元されたピクセルを表すことができる。これについては、図５及び図６においてより詳しく説明する。

上記復元部３４０は、上記予測部３３０から取得された予測信号ｐｒｅｄ（ｉ、ｊ）と上記逆変換部３２０から取得された残差信号ｒｅｓ（ｉ、ｊ）とを加えることにより、復元信号ｒｅｃ（ｉ、ｊ）を取得できる。このとき、上記復元信号ｒｅｃ（ｉ、ｊ）は、上記現在レイヤ（ｌａｙｅｒＬ_k）に対する復元信号を意味できる。上記復元信号ｒｅｃ（ｉ、ｊ）は、今後、次のレイヤの予測のためにバッファ３５０に送信される。

一方、上記最適化部３１０によって取得された変換係数Ｃ（ｉ、ｊ）は、量子化部３１５に送信されることができる。

上記量子化部３１５は、量子化処理を行い、上記エントロピエンコード部３６０に上記量子化された変換係数を送信する。

このとき、上記変換係数Ｃ（ｉ、ｊ）は、ＲＤ（Rate-Distortion）が最適な変換係数を意味できる。そして、上記量子化処理は、上記変換係数Ｃ（ｉ、ｊ）を量子化ステップサイズで割ることにより行われることができる。

上記エントロピエンコード部３６０は、量子化された変換係数を受信し、エントロピエンコードを行うことができる。

上記図４のデコーダ４００は、上記図３のエンコーダ３００から出力された信号を受信することができる。

上記エントロピデコード部４１０は、ビットストリームを受信してエントロピデコードを行うことができる。

上記逆量子化部４２０は、量子化ステップサイズ情報を利用してエントロピデコードされた信号から変換係数を取得できる。

上記逆変換部４３０は、上記変換係数を逆変換することにより、残差信号ｒｅｓ（ｉ、ｊ）を取得できる。

上記復元部４４０は、上記残差信号ｒｅｓ（ｉ、ｊ）と予測部４５０から取得された予測信号ｐｒｅｄ（ｉ、ｊ）とを加えることにより、復元信号ｒｅｃ（ｉ、ｊ）を取得できる。上記復元信号ｒｅｃ（ｉ、ｊ）は、バッファ４５０に送信されて記憶されることができる。そして、上記復元信号ｒｅｃ（ｉ、ｊ）は、次の信号の予測のために、上記予測部４５０に送信されることができる。

上記図４のデコーダ４００内の各部の動作は、上記図３のエンコーダ３００において説明した実施形態が適用可能であろう。

本発明が適用されるハイブリッドビデオコーダは、以前にデコードされたサンプル（すなわち、コンテキスト値（i.e., context values））を用いてサンプルを空間的に予測し、予測エラーを変換コーディングすることにより、効率的な予測コーディングを行う。

このようなコーディング方式は、ブロック変換が部分的に最適である信号に対してさえ連続的にブロック変換を利用させるようにする。例えば、上記部分的に最適である信号には、相当なブロック間相関関係（significant inter-block correlations）を有する信号、エッジ及び異なる方向の（他の方向的）特異性（edge and different directional singularities）を有する信号がありうる。したがって、空間的予測動作（spatial prediction operation）は、単純な変換圧縮にさらに順応的な（より適応できる）（more adaptive to simple transform compression）予測信号を生成するので、精巧な予測処理には適応が少し足りない（より適応できない）（less adaptive to an elaborate prediction process）と考えられ得る。予測動作は、コンテキスト値（context values）を用いて行われるので、その効率は、ガウス（Gaussian）信号のような形態を有する基本的な処理に依然として強く依存する（dependent on）ことができる。

具体的な議論のために、コンテキストサンプル（context sample）ｘ₀を用いてシーケンスｘ_i（ｉ＝１〜Ｎ）を圧縮する１次元の例を考慮してみる。

例えば、ｘは、コンテキストサンプル（context sample）ｘ₀を用いて方向性予測を行う対象ブロック（target block）からの水平又は方向性のある一連のピクセルを含む。ここで、上記コンテキストサンプル（context sample）ｘ₀は、以前にデコードされたブロックの境界から取得され得る。上記コンテキストサンプル（context sample）ｘ₀は、エンコーダ及びデコーダの両方に利用可能であると仮定する。上記コンテキストサンプル（context sample）ｘ₀を用いたｘ_iの線形予測をＰ_i（ｘ₀）とする場合、残差信号（ｒ_i）は、次の数式４のように定義することができる。

［数式４］
ｒ_i＝ｘ_i−Ｐ_i（ｘ₀）

上記残差信号（ｒ_i）は、エンコード処理によって変換コーディングされ、デコード処理によって変換デコードされる場合、下記の数式５のように表すことができる。

［数式５］
x^_i = P_i(x₀) + r^_i

ここで、 x^_i は、復元信号を表す。

最適な線形予測子を取得してＫＬＴを用いる場合、上記処理は、ガウス（Gaussian）シーケンスの圧縮に関して漸近的に最適になることができる。しかし、上記処理は、ガウスモデル（Gaussian modeling）のような多くのイメージ／ビデオ構造の場合に適合しない場合がある。したがって、本発明では、デコード処理中に全てのデコードされた情報を利用するより良好な予測子を用いることにより、上記予測方法をより改善しようとする。本発明は、エッジ及び方向性構造を有するビデオ信号により優れた効果を見せるであろう。

以下では、まず、本発明の１次元の例を介して基本的概念（アイディア）を説明する。その次に、線形予測子に集中して、本発明とＤＰＣＭとの（連結）関係（connections）を議論し、等価の非直交変換（equivalent non-orthogonal transform）を導出するであろう。そして、コーデック設計を議論した後、非直交変換を利用した圧縮及びＲＤ（Rate-Distortion）が最適な量子化パラメータの導出について説明する。最後に、本発明が適用されるシミュレーション結果に対する詳細内容を説明する。

デコードを行った後に、上記デコーダは、上記残差サンプルの全てにアクセスすることができる。しかし、上記デコーダは、ｉ番目のサンプル x^_iをデコードする場合、ｘ₀及びｒ_iのみを用いる。特に、 x^_i+1をデコードする場合、上記デコーダは、 x^_i を既に復元しており、これは、ｘ₀と比較して典型的に x^_i+1のより良好な予測子である。本発明において、デコードチェーン（decoding chain）は、下記の数式６のように設計されることができる。

上記デコーダは、利用可能な変換デコードされた残差の全てを有するので、このようなチェーン及び拡大された（augmented）予測子Ｐ^tが実現可能でありうる。上記対応するエンコードチェーンは、最適にコーディングされた変換係数の選択として記述されることができ、数式６での上記変換デコーダに入力される場合、与えられた目標ビットレートで最小の歪みを有する x^を結果として得る（result in）。

本発明は、非線形予測関数に一般化され得ることに関し、本発明は、計算的には単純な、線形予測子を維持するであろうが、どこでも（あらゆるところの）（everywhere）ｘ₀を用いるよりは、むしろ最も近接した利用可能なサンプルを用いて予測を行うであろう。１次元の例に関して、本発明は、数式７を構成できる。

このような場合において、本予測は、単一（統一）予測加重値（prediction weight of unity）を有する線形でありうる。このような設定において、数式７の上記予測Ｐ_i（ｘ₀）は、単純にＰ_i（ x^_i-1）で置き換えられ得る。他の加重値及びタイプ（類型）（types）等の線形予測子は、簡単な一般化でありうる。

下記では、ＤＰＣＭ及び等価の非直交変換との関係について説明されるであろう。

数式７は、単一予測加重値で動作している１次ＤＰＣＭデコーダと類似する。ＤＰＣＭシステムが因果的にかつ独立して上記残差をエンコードする一方、上記数式７のデコーダは、非因果的にかつ結合（連係）して（jointly）エンコードされた残差のデコードに対応する。これは、数式６で表される変換デコーダの出力であるr^に起因する。変換コーディングを介して残差の依存性及び他のＤＰＣＭＲ−Ｄの非効率（能率）（inefficiencies）を活用しながら（while exploiting residual dependencies and other DPCM R-D inefficiencies via transform coding）、提案されたシステムは、ＤＰＣＭシステムの予測精度（正確度）（accuracy）を得ることができる。

数式７は、行列数式８へと導かれることができる。

ここで、Ｆは、数式９を利用する（Ｎ×Ｎ）下半（下位）三角予測行列（lower triangular prediction matrix）である。

このような実施形態は、単位成分（unit entries）を有する（Ｎ×１）行列である。数式８を、変換コーディングに対応する（accommodate）よう（を収容することと）拡大すれば、本発明は、数式１０を結果として得ることができる。

数式１０において、Ｔ（Ｎ×Ｎ）は、圧縮（例えば、ＨＥＶＣでのブロックＤＣＴ／ＤＳＴ）で使用される変換であり、c^は、逆量子化された変換係数である。Ｇ＝ＦＴとする場合、数式１０は、数式１１を介した非直交変換Ｇを有する x^−Ｂｘ₀の変換コーディングに対応する。

このような単純な線形式（形態）で、本発明は、上記非直交変換Ｇを用いるｘ−Ｂｘ₀の変換圧縮となることができる。

モードベースの線形予測子を用いて、提案されたデコードチェーンは、各予測モードに対してＦ及びＢ行列を設計し、等価の非直交変換Ｇを導出して、基準ハイブリッドコーデックに類似するＨＥＶＣ（ＨＥＶＣのようなベースラインハイブリッドコーデック）（baseline hybrid codec like HEVC）内に統合されることができる。

このようなデコードチェーンが行う全てのものは、境界サンプルというよりは、むしろ最も近接したサンプルを用いる予測であるから、デコードチェーンは、上記基準と比較して単に増加された周縁の（臨界）（marginal）複雑さを有するであろう。しかし、エンコードチェーンは、上記デコードチェーンのために送信する最適な係数を選択すべきであるため、さらに複雑である。下記において、本発明は、エンコーダが実行すべき繰り返し（反復）量子化アルゴリズムを提供し、レート歪みが最適化された量子化パラメータを導出するであろう（Hereinafter, the present invention will provide an iterative quantization algorithm which the encoder must carry out and derive rate-distortion optimal quantization parameters）。

図５及び図６は、本発明が適用される実施形態であって、以前にコーディングされたピクセルを用いて予測を行う方法を説明するためのレイヤを定義する。

本発明は、以前にコーディングされたピクセルを用いて各サンプルを非因果的に（non-causally）予測する方法を提供する。

このとき、現在ブロックのピクセル及び予測のために用いられる上記以前にコーディングされたピクセルは、様々な方法で決定されることができる。

本発明が適用される一実施形態として、現在ブロックは、少なくとも１つのレイヤ単位で分解（decompose）されることができる。それにより、上記以前にコーディングされたピクセルもレイヤ単位で決定されることができる。

ここで、上記レイヤ単位は、一定の基準によって位置する（位置した）（placed）ピクセルに基づいて様々に定義されることができる。具体的な例として、現在ブロックの最上位左側に位置するピクセルを基準として水平及び垂直方向に配列されたピクセルを１つのレイヤとして定義することができる。そして、上記最上位左側に位置するピクセルの対角線方向に配列されたピクセルを基準として各々連続するレイヤ（consecutive pixels）として定義することができる。

このとき、上記レイヤは、１つのピクセル又は複数のピクセルとして定義されるか、又は、ブロック全体のピクセルとして定義されることができる。また、上記レイヤは、上記図５のように連続するピクセルの集合として定義されることができるが、場合によって、連続しないピクセルの集合として定義されることもできる。

例えば、上記図５に示すように、現在ブロックがＢ×Ｂブロックであり、ブロック内のピクセルの位置を（ｉ、ｊ）と仮定する。ここで、ｉ∈｛１、２、...、Ｂ｝、ｊ∈｛１、２、...、Ｂ｝である。このとき、現在ブロックの最上位左側に位置するピクセルを基準として水平及び垂直方向に配列されたピクセルをｌａｙｅｒＬ₁として定義することができる。すなわち、ピクセルの位置（１、ｊ）及び（ｉ、１）に位置するピクセルをｌａｙｅｒＬ₁として定義することができる。

これを一般化すると、ピクセルの位置（ｋ、ｊ）及び（ｉ、ｋ）に位置するピクセルをｌａｙｅｒＬ_k（ｋ＝１、２、...、Ｂ）として定義することができる。

本発明が適用される一実施形態として、上記以前にコーディングされたピクセルは、コーディングしようとするレイヤのすぐ以前にコーディングされたレイヤのピクセルを含むことができる。

上記図６に示すように、現在レイヤｌａｙｅｒＬ_kを予測するために、すぐ以前にコーディングされたレイヤｌａｙｅｒＬ_k-1を用いることができる。このとき、上記現在レイヤｌａｙｅｒＬ_kを予測するために、現在ブロックの境界に隣接したピクセルも共に用いることができる。すなわち、上記現在ブロックに隣接した既にデコードされたブロックの隣接ピクセルが上記レイヤｌａｙｅｒＬ_kを予測するために用いられることができる。

例えば、上記現在レイヤｌａｙｅｒＬ_kは、全ての以前のレイヤ（ｌａｙｅｒＬ₁、...、ｌａｙｅｒＬ_k-1）の復元されたピクセル及び既にデコードされたブロックの隣接ピクセルに基づいて予測されることができる。

本発明の他の実施形態は、予測形式を提供できる。

上記エンコーダは、ｃｏｅｆｆｓ（ｉ、ｊ）、ｉ∈｛１、２、...、Ｂ｝、ｊ∈｛１、２、...、Ｂ｝をベクトルｃとして配列（arrange into）できる。これは、数式１２で表現されることができる。

［数式１２］
Ｃ（（ｉ−１）＊Ｂ＋（ｊ−１）＋１）＝ｃｏｅｆｆｓ（ｉ、ｊ）

そして、上記エンコーダは、ｒｅｓ（ｉ、ｊ）、ｉ∈｛１、２、...、Ｂ｝、ｊ∈｛１、２、...、Ｂ｝をベクトルｒとして配列できる。これは、数式１３で表現されることができる。

［数式１３］
ｒ（（ｉ−１）＊Ｂ＋（ｊ−１）＋１）＝ｒｅｓ（ｉ、ｊ）

それから、上記エンコーダは、以前にデコードされたブロックからのピクセルをベクトルｙとして配列できる。

このような場合において、数式１４のような行列の掛け算を利用して本発明が実現され得る。

また、数式１５のような行列の掛け算を利用して本発明が実現され得る。

さらに、数式１６のような行列の掛け算を利用して本発明が実現され得る。

さらに、数式１７のような行列の掛け算を利用して本発明が実現され得る。

一方、上記図５及び図６において説明された実施形態は、イントラ予測の場合に適用可能であるだけでなく、イントラ予測の様々な予測モードに適用可能である。本発明は、これに限定されず、例えば、上記実施形態は、インター予測の場合にも適用可能である。

図７は、本発明が適用される実施形態であって、レイヤ単位で以前にコーディングされたピクセルを用いて予測を行う方法を説明するフローチャートである。

まず、受信されたビットストリームからエントロピコーディングされた係数を抽出できる。上記エントロピコーディングされた係数に対してエントロピデコードを行い（Ｓ７１０）、逆量子化を行うことにより、変換係数ｃｏｅｆｆｓ（ｉ、ｊ）を取得できる（Ｓ７２０）。

上記変換係数に逆変換を行うことにより、残差信号ｒｅｓ（ｉ、ｊ）を取得できる（Ｓ７３０）。上記残差信号ｒｅｓ（ｉ、ｊ）は、現在レイヤｌａｙｅｒＬ_kを復元するために用いられる。

一方、現在レイヤｌａｙｅｒＬ_kにあるピクセルを予測するために、以前にデコードされたブロックのピクセルが用いられ得る。このとき、全ての以前のレイヤ（ｌａｙｅｒＬ₁、...、ｌａｙｅｒＬ_k-1）の復元されたピクセルも共に用いて、上記現在レイヤｌａｙｅｒＬ_kにあるピクセルを予測できる（Ｓ７４０）。

Ｓ７４０を介して生成された予測信号ｐｒｅｄ（ｉ、ｊ）は、上記Ｓ７３０で取得された残差信号ｒｅｓ（ｉ、ｊ）に加えられて、上記現在レイヤｌａｙｅｒＬ_kにあるピクセルを復元できる（Ｓ７５０）。このように生成された復元信号ｒｅｃ（ｉ、ｊ）は、次のレイヤの予測のために用いられることができる。

図８は、本発明が適用される実施形態であって、最適な量子化された係数を取得するための量子化処理を説明するフローチャートである。

本発明は、非直交変換を利用する圧縮方法を提供する。

ランダムベクトルｘ（Ｎ×１）を考慮しよう。記載上の便宜のために（For notational convenience）、上記コンテキスト予測がｘ内で処理（absorb）されると仮定する。上記ベクトルｘは、列ｇ_i、ｉ＝１、．．．、Ｎが変換基底（basis）を形成する、上記線形変換Ｇ（Ｎ×Ｎ）を利用して表現される。Ｇは、フルランクであるが、そうでない場合は一般的であると仮定、すなわち、Ｇは必ずしも直交でないことがあり、ｇ_iは必ずしも単位大きさ（ノルム）でないことがあると仮定する（Assume G is full rank but is otherwise general, i.e., G may be not necessarily orthogonal and g± may be not necessarily unit norm）。

［数式１８］
ｘ＝Ｇｃ

数式１８において、ｃ（Ｎ×１）は、変換係数である。上記係数は、 c^ ＝Ｑ（ｃ）が算出されるようにスカラー量子化されることができ、その後でエントロピコーディングされることができ、デコーダに送信されることができる。

量子化歪みを最小にすることを目標とする非直交基底Ｇに関するスカラー量子化問題は、数式１９のように作成されることができる。

［数式１９］
｜｜ｘ−Ｇ c^ ｜｜

本発明は、ビデオコーダとの互換性のために、様々な量子化部に対応できるが、これは、数式２０のように仮定されるであろう。

数式２０において、ι（Ｎ×１）は、整数のベクトルであり、Λは、量子化部ステップサイズの対角行列、すなわち、ｉ番目のステップサイズλ_i及びクロネッカーデルタ関数δ_i,jを用いる場合、Λ_i,j=λ_iδ_i,jである。したがって、数式２１が導出され得る。

［数式２１］
｜｜ｘ−ＧΛι｜｜

数式２１は、ιに関する最適解法が整数問題を解決することを要求する格子量子化部（lattice quantize）として認識されることができる。数式１９の解法のための多くの準（部分）（サブ）最適化技法（suboptimal techniques）が提案された。迅速な解法に対応するために、本発明は、それぞれの係数に関して集中するスカラー量子化問題を順に繰り返して解決することと類似した方法を含めることができる。ｉ番目の係数を除き、全ての係数が量子化されたと仮定する。上記エラーベクトルは、数式２２のように定義されることができる。

整数の制約条件を用いずに（Without the integer constraint）、ｉ番目の係数が数式２３になるように選択することによって歪みが最小にされ得る。

数式２０における均一逆量子化（uniform de-quantization）処理のために、上記最適な量子化された係数は、数式２４のように取得されることができる。

これは、下記において説明される量子化アルゴリズムへと導かれることができる。

エンコーダでは、デコーダに送信する最適な量子化された係数を取得するために、繰り返しシミュレーションを行うことができる（Ｓ８１０）。

現在量子化された係数が以前に量子化された係数と比較して一定の条件が満たされる場合、上記現在量子化された係数が最適な量子化された係数に決定され得る。例えば、現在量子化された係数をＣ_nとし、以前に量子化された係数をＣ_n-1とする場合、上記現在量子化された係数と上記以前に量子化された係数との間の差値（Ｃ_n-1−Ｃ_n）が０に収束されるか否かが確認できる（Ｓ８２０）。上記差値（Ｃ_n-1−Ｃ_n）が０に収束される場合、上記現在量子化された係数Ｃ_nを最適な量子化された係数に決定し、これをデコーダに送信することができる（Ｓ８３０）。しかし、上記差値（Ｃ_n-1−Ｃ_n）が０に収束されない場合、上記現在量子化された係数Ｃ_nは、以前のステップ（Ｓ８１０、Ｓ８２０）を繰り返し行うようにリターンされることができる。

上記一定の条件の他の例として、上記現在量子化された係数と上記以前に量子化された係数との間の差値（Ｃ_n-1−Ｃ_n）を特定閾値τと比較することにより、最適な量子化された係数を決定できる。例えば、上記差値（Ｃ_n-1−Ｃ_n）が上記特定閾値τより大きい場合、上記現在量子化された係数Ｃ_nは、以前のステップ（Ｓ８１０、Ｓ８２０）を繰り返し行うようにリターンされることができる。それに対し、上記差値（Ｃ_n-1−Ｃ_n）が上記特定閾値τより小さいか、同じである場合、上記現在量子化された係数Ｃ_nは、最適な量子化された係数に決定されて、デコーダに送信されることができる。

上記のような動作は、上記図３のエンコーダで行われることができ、例えば、上記最適化部３１０で行われることができる。

図９は、本発明が適用される実施形態であって、最適な量子化された係数を取得するための量子化処理を具体的に説明するフローチャートである。

本発明の実施形態によれば、エンコーダは、現在ブロックのピクセル情報、以前にデコードされたブロックのピクセル情報、及び量子化ステップサイズ情報のうち、少なくとも１つに基づいて、最適な量子化された係数を取得できる。これは、上記エンコーダ内の量子化部により行われることができる。

まず、エンコーダは、上記現在ブロックのピクセル情報及び上記以前にデコードされたブロックのピクセル情報に基づいて初期量子化された係数（initial quantized coefficient）を取得できる（Ｓ９１０）。上記初期量子化された係数は、次の数式２５のように表すことができる。

［数式２５］
Ｃ₀＝Ｇ^-1（ｘ−Ｈｙ）

ここで、Ｃ₀は、初期量子化された係数を表し、ｘは、現在ブロックのピクセル情報を表し、ｙは、以前にデコードされたブロックのピクセル情報を表す。ここで、Ｇ、Ｈは、トレーニングセット（training sets）に対して最適化された行列（matrices optimized over training sets）を表す。そして、上記行列Ｇは、非直交変換行列（non-orthogonal transform matrix）を表すことができる。

上記初期量子化された係数に基づいて、原信号と復元された信号の差を表すエラーベクトルを取得できる（Ｓ９２０）。このとき、上記現在ブロックのピクセル情報ｘ及び上記以前にデコードされたブロックのピクセル情報ｙが利用され得るし、これは、次の数式２６のように表すことができる。

［数式２６］
ｅ_n＝ｘ−Ｈｙ−ＧＣ_n-1

ここで、ｅ_nは、エラーベクトルを表し、ｎ＝０、１、２、...であり、最適な量子化された係数が取得されるまで繰り返されることができる。このような繰り返し処理（iteration process）のために、一時（臨時）ベクトル（temporary vector）を下記の数式２７のように定義することができる。

［数式２７］
ｔ＝ｅ_n＋ｇ_k Ｃ_n-1（ｋ）

ここで、ｔは、一時ベクトル（temporary vector）を表し、ｇ_kは、行列Ｇのｋ番目の列（column）のベクトルを表す。そして、Ｃ_n-1（ｋ）は、（ｎ−１）番目の量子化された係数を表す。

上記一時ベクトル（temporary vector）ｔと量子化ステップサイズ情報λ（ｋ）とに基づいて、ｎ番目の量子化された係数Ｃ_nを取得できる（Ｓ９３０）。このとき、次のような数式２８が利用され得る。

［数式２８］
Ｃ_n（ｋ）＝λ（ｋ）ｒｏｕｎｄ（ｇ_k ^Tｔ／λ（ｋ）（ｇ_k ^Tｇ_k））
（ｋ＝１、２、...、Ｂ²）

ここで、λ（ｋ）は、ｋ番目の変換係数のために用いられる量子化ステップサイズ（quantization step size that is to be used for the kth transform coefficient）を表す。

そして、上記エラーベクトルｅ_nは、次の数式２９のように更新（アップデート）される（updated）ことができる（Ｓ９４０）。

［数式２９］
ｅ_n＋＝ｇ_k（Ｃ_n-1（ｋ）−Ｃ_n（ｋ））

上記のような処理を介して、ｎ番目の量子化された係数Ｃ_nが取得される場合、以前に量子化された係数Ｃ_n-1と比較して一定の条件が満たされるか否かを確認することにより、上記ｎ番目の量子化された係数Ｃ_nを最適な量子化された係数に決定することができる。例えば、上記ｎ番目の量子化された係数Ｃ_nと上記以前に量子化された係数Ｃ_n-1との間の差値（Ｃ_n-1−Ｃ_n）が０に収束されるか否かを確認できる（Ｓ９５０）。

上記差値（Ｃ_n-1−Ｃ_n）が０に収束される場合、上記ｎ番目の量子化された係数Ｃ_nを最適な量子化された係数に決定し、これをデコーダに送信することができる（Ｓ９６０）。しかし、上記差値（Ｃ_n-1−Ｃ_n）が０に収束されない場合、上記ｎ番目の量子化された係数Ｃ_nは、以前のステップを繰り返し行うようにリターンされることができる。

上記一定の条件の他の例として、上記現在量子化された係数と上記以前に量子化された係数との間の差値（Ｃ_n-1−Ｃ_n）を特定閾値τと比較することにより、最適な量子化された係数を決定できる。例えば、次の数式３０のように表すことができる。

［数式３０］
||Ｃ_n−Ｃ_n-1||₂＞τ

上記差値||Ｃ_n−Ｃ_n-1||₂が上記特定閾値τより大きい場合、上記現在量子化された係数Ｃ_nは、以前のステップを繰り返し行うようにリターンされることができる。それに対し、上記差値||Ｃ_n−Ｃ_n-1||₂が上記特定閾値τより小さいか、同じである場合、上記現在量子化された係数Ｃ_nは、最適な量子化された係数に決定されて、デコーダに送信されることができる。

図１０は、本発明が適用される実施形態であって、最適な量子化ステップサイズを取得する処理を説明するフローチャートである。

上記図９において説明したように、エンコーダは、最適な量子化された係数を取得するために量子化を行う処理で、最適な量子化ステップサイズが導出され得る。

まず、量子化パラメータ値から量子化ステップサイズ情報を取得できる（Ｓ１０１０）。例えば、上記量子化ステップサイズ情報は、次の数式３１のように表すことができる。

［数式３１］
Δ（ｋ）＝２^(QP-4)/6（ｋ＝１、２、...、Ｂ²）

ここで、Δ（ｋ）は、ｋ番目の量子化ステップサイズを表し、ＱＰは、量子化パラメータを表す。

一方、最適な量子化された係数を取得するために用いられる行列及びベクトルを初期化できる（Ｓ１０２０）。例えば、上記ベクトル及び行列は、各々次の数式３２及び３３のように表すことができる。

［数式３２］
ｕ（ｋ）＝１（ｋ＝１、２、...、Ｂ²）

最適化部では、上記ｋ番目の量子化ステップサイズΔ（ｋ）と上記初期化されたベクトルｕ（ｋ）及び行列
とに基づいて最適な量子化ステップサイズを取得できる（Ｓ１０３０）。このとき、ＣＯＮＶＥＸＯＰＴＩＭＩＺＡＴＩＯＮ（凸最適化）アルゴリズムが用いられ得る。

本発明の実施形態は、最適な量子化ステップサイズを導出する方法を提供できる。

量子化ステップサイズのレート歪みが最適な設計（Rate-Distortion optimal design）は、レート及び歪みに関する扱いやすい（追跡可能な）表現（tractable expressions）がコーデックに依存し、取得し難いため、一般に難しい問題である。このような実施形態において、ステップサイズのベクトル、λを最適化するために、高いレート近似（high rate approximations）が使用され得る。

イメージ及びビデオコーダが成功する、上記変換コーディング方法（recipe）は、スカラーエントロピコーダを活用する（The transform coding recipe followed by successful image and video coders utilize scalar entropy coders）。したがって、
に量子化された係数を伝達するために要求されるレートは、数式３４のように近似され得る。

数式３４において、Ｈ（）は、エントロピを表す。係数
は、ステップサイズλ_iを用いてスカラー量子化されるので、高いビットレートで近似がなされ得る。

数式３５において、ｈ（ｃ_i）は、連続的な値の係数の微分（differential）エントロピである。したがって、レート制約条件を満たすために、数式３６が要求され得る。

Ｇが正規直交である場合、λに関する平均歪みに対する簡単な近似は、
になるであろうし、これは、均一に分布された量子化エラーを仮定して取得される。

非直交Ｇを用いる場合、信号ドメインと係数ドメインとの歪みは同一でなく、このような近似を使用できない。全ての量子化がゼロ平均（zero mean）であると仮定する。信号ドメインの平均歪み（signal domain average distortion）は、数式３７として作成されることができ、ここで、Ｅ［］は、期待値（平均）（expectation）を表し、Ｔｒ（．）は、行列の対角成分の和（対角合計）（trace）である。
を用いて、数式３７が取得され得る。

数式３７において、
は、係数ドメインエラーを表すように設定される。係数ドメインエラーが逆相関（decorrelate）される場合、すなわち、Ｅ［ｐｐ^T］が対角成分π_i、ｉ＝１、...Ｎを有する対角行列である（is diagonal with diagonal entries π_i, i =1）と仮定する場合、簡単な代数学によって、数式３８が算出される。

上記量子化は、上記量子化アルゴリズムを介して行われるので、式（form） π＝λ_i ²／１２の近似は有効でない。Πをλと関連付けるために、上記量子化アルゴリズムにより導出される丸め誤差（ラウンドエラー）（rounding error）に集中しよう（let us concentrate on）。収束点で、数式３９が取得され得る。

数式３９は、次を満たす丸め誤差を導き、
に設定され、上記丸め誤差が均一であると仮定する場合、数式４０が取得され得る。

数式４２の対角成分を考慮すると、数式４３が導出され得る。

は、行列成分が各々Ｇ及びＨの２乗になるようにする行列を表すとしよう。数式３８及び４３は、数式４４となる。

数式４４において、ｕは、全て−１であるベクトル（vector of all-ones）であり、

したがって、数式４５が取得され得る。

上記最適化は、レートの制約条件下の歪み（数式４５）の平均を最小にする式で与えられ、数式４６を取得することができる（The optimization can be put in the form of the minimization of average distortion (equation 45) subject to the rate constraint to obtain equation 46）。

数式４６において、γは、ラグランジュ乗数（Lagrange multiplier）である。数式４６の最適化によって、下記の数式４７が算出される。

図１１及び図１２は、本発明が適用される実施形態であって、図１１は、本発明が適用されたテストイメージを示し、図１２は、テストイメージに対するレートゲイン（rate gain）のパーセンテージを示す。

前述したように、本発明は、予測された信号とともに変換コーディングされた信号を用いてビデオ信号を非因果的に（non-causally）予測することにより、エッジ及び方向性構造（edge and directional structure）を有する信号に対してより効率的にコーディングすることができる。

本シミュレーションでは、ブロック内の１ピクセルの厚さのレイヤに対するイントラ予測が行われ、上記図３〜図１０において説明した予測処理及び量子化処理が適用された。

上記図１１は、（ａ）〜（ｆ）までの６個のテストイメージを示し、上記６個のイメージはそれぞれのイメージ特性を有する。

上記６個のテストイメージは、他の一般的なイメージよりエッジ又は方向特異性（edge or directional singularity）のうち、少なくとも１つが明確に現れる信号であるとみることができる。

このようなテストイメージに対するレートゲイン（rate gain）を測定した結果、上記図１２（ａ）のような結果を確認できる。すなわち、上記６個のテストイメージの全てに対して既存のコーデックの効率に比べて改良された（向上した）（advanced）効果を確認できる。

さらに、上記図１１（ａ）、１１（ｂ）、１１（ｅ）のイメージは、残りのイメージの図１１（ｃ）、１１（ｄ）、１１（ｆ）に比べてより方向特異性が目立つことを確認できる。したがって、上記図１２（ａ）のように、上記図１１（ａ）、１１（ｂ）、１１（ｅ）のレートゲイン（rate gain）が相対的により高いことを確認できる。

同様に、上記図１２（ｂ）のように、ビデオシーケンスに対するシミュレーションの場合にも、既存のコーデックの効率に比べて改良された効果を確認できる。

図１３は、本発明が適用される実施形態であって、改良された予測コーディング方法を説明するための概略フローチャートである。

まず、ステップＳ１３１０で上記原映像信号が受信される場合、上記エンコーダは、ステップＳ１３２０で上記原映像信号を利用可能な復元信号と比較することができる。そして、上記エンコーダは、上記比較の結果に基づいて修正信号を決定することができる。

このような場合において、上記修正信号は、歪み成分とレート成分との合計（sum）を最小にするように決定されることができる。上記歪み成分は、上記原映像信号と復元信号との間の歪みの総和（total distortion）を指示し、そして、上記レート成分は、量子化された係数を送信するために要求されるビットの数を指示する。修正信号を決定するために、上記エンコーダは、デコードシミュレーションを行うことができる。

ステップＳ１３３０において、上記エンコーダは、上記比較の結果に基づいて変換コーディングされた修正信号を生成できる。

そして、ステップＳ１３４０において、上記エンコーダは、上記変換コーディングされた修正信号及び上記利用可能な復元信号に基づいて予測信号を生成できる。

それから、ステップＳ１３５０において、上記エンコーダは、上記変換−コーディングされた修正信号を上記予測信号と合算して信号を復元できる。

図１４は、本発明が適用される実施形態であって、最適な量子化ステップサイズに基づいて量子化を行う方法を説明するための概略フローチャートである。

本発明は、最適な量子化された係数を取得するために量子化を行う処理で、最適な量子化ステップサイズを導出する方法を提供する。このように導出された量子化ステップサイズに基づいて量子化を行うことができる。

まず、量子化パラメータ値から量子化ステップサイズ情報を取得でき、このとき、上記量子化ステップサイズ情報は、スケーリングパラメータ（scaling parameter）を意味できる。上記スケーリングパラメータは、ＲＤ（Rate-Distortion）最適化アルゴリズムによって取得されることができる。例えば、上記スケーリングパラメータは、歪み成分（distortion component）とレート成分（rate component）との合計を最小にする値に決定されることができる（Ｓ１４１０）。

一方、上記図８〜図１０において説明した実施形態によって、変換コーディングされた修正信号（transform-coded correction signal）を取得できる。例えば、上記変換コーディングされた修正信号（transform-coded correction signal）は、最適な変換係数を含むことができる。

上記Ｓ１４１０ステップで決定されたスケーリングパラメータに基づいて、上記変換コーディングされた修正信号に対して量子化を行うことができる（Ｓ１４２０）。

このように量子化された係数がエントロピエンコードされて送信されることができる（Ｓ１４３０）。

図１５及び図１６は、本発明が適用される実施形態であって、量子化エラー制御による改良されたコーディング方法が適用されるエンコーダ及びデコーダの概略ブロック図を示す。

本発明は、空間的、スペクトル、格子ノーム（norm）の３つの空間で同時に要素（factors）を処理することにより、量子化効果を制御するコーディングパラメータセットを定義する。イメージ圧縮方式の特定タイプ及びトレーニング（training）技術を利用して決定された最適なパラメータを探すことにより、改良された圧縮を提供できる。

前述した図１では、予測コーディング、変換コーディング、及びハイブリッドコーディングのために必要な全ての要素を含んでいる。

予測コーディングは、以前にコーディングされた部分を利用して信号要素を予測し、予測された値と実際値との間の差値をコーディングすることを基にする。コーディングされるデータ（イメージ又はビデオフレーム）を表すために、Ｎ次元ベクトルＸを用い、それの予測された値を表すために、ベクトルＰを用いる。このような予測は、復元されたベクトル
の過去値から形成されたベクトルｙを用いて算出される。

まず、予測残差を表す差分ベクトルを下記の数式４８のように計算することができる。

［数式４８］
ｄ＝ｘ−ｐ（ｙ）

次に、このような差は、一般にＮ×Ｎ行列Ｔにより表現される直交線形変換を利用してさらに（追加的に）（additionally）変換され（transformed）、その後、ベクトル係数は、エントロピコーディングのための整数に転換される（converted）。

整数係数を有するベクトルは、ｃにより表示され、次の数式４９のように定義されることができる。

［数式４９］
ｃ＝Ｑ（Ｔ［ｘ−ｐ］）、ｃ_i∈Ｚ、ｉ＝１、２、...、Ｎ

一般に、量子化は、直交スケーリング行列Ｑを用いて行われ、これは、次の数式５０のとおりである。

［数式５０］
ｃ＝［［ＱＴ（ｘ−ｐ）］］

ここで、ダブルブラケット（二重角括弧）（double brackets、［［］］）は、次の数式のようにエレメント別の丸め（ラウンド）（per-element rounding）を表す。

最後に、復元されたベクトル
は、次の数式を利用して、エンコーダとデコーダとの両方で計算され得る。

ここで、
は、復元されたベクトル、ｐは、予測ベクトル、Ｔは、変換行列、Ｑは、量子化行列、そしてｃは、変換係数を表す。

行列ＴがＤＣＴなどの変換により定義されるとき、変換の適用は、残差ベクトルｄのスペクトル成分を計算することとほとんど同一である。したがって、本発明では、対角行列（diagonal matrix）Ｑの他の値を用いることにより、周波数ドメインにおける量子化エラーの分布（分配）（distribution）を変更できる。

イメージ又はビデオブロックのベクトル内の全てのエレメントがインターブロック予測時に同じ方式で利用されることはできない。したがって、ブロック境界に存在するいくつかの要素のエラーのため、予測精度が顕著に減少することがある。

そして、ＤＣＴのような線形変換は、独立してベクトルに適用されるとき、ブロック境界でブロッキング（ブロック）アーチファクト（blocking artifact）を生成することがある。

これは、ブロックの他の部分で発生するエラー毎に互いに重要度が異なるということと関連がある。本発明は、空間ドメイン上で量子化エラーをより細かく制御する方法を提供することにより、ブロッキングアーチファクトを軽減させることができる。しかし、対角行列（diagonal matrix）Ｑを用いたアプローチは、単に周波数ドメインでの制御のみを可能とする。したがって、本発明は、空間ドメインと周波数ドメインとの両方で量子化エラーを制御できるようにすることにより、上記のような問題を解決できる。

図１５に示すように、本発明が適用されるエンコーダ１５００は、最適化部１５２０、逆量子化部１５３０、逆変換部１５４０、バッファ１５５０、予測部１５６０、及びエントロピエンコード部１５７０を備えることができる。ここで、上記逆変換部１５４０は、空間スケーリング部１５４５を備えることができる。

図１５のエンコーダ１５００をみると、最適化部１５２０では、最適な量子化された変換係数を取得できる。

まず、上記最適化部１５２０は、トレーニングステップを介して最適な量子化された変換係数を取得できる。例えば、上記最適化部１５２０は、ＲＤ（Rate-Distortion）の観点において、対角行列Ｓ、Ｗ、Ｑの最適セットを計算できる。

本発明は、空間ドメイン上のスケーリングファクタである、さらに他の対角行列（diagonal matrix）Ｓを追加する方法を提供する。この場合、信号復元のための処理は、次の数式５３のように変更され得る。

［数式５３］
ｘ＝ｐ＋ＳＴ^-1Ｑ^-1ｃ

これは、数式３のように単純な丸め（rounding）を用いて最適な変換係数を計算するようにする直交条件（orthogonal condition）を変更できる。したがって、本発明は、最適な変換係数を次の数式５４に基づいて計算することができる。

ここで、Ｗは、空間ドメイン上でエラーの重要度を区別するために用いられるさらに他の対角行列を表す。

また、上記対角行列Ｓ、Ｗ、Ｑの最適なセットを探すために、本発明は、平均２乗誤差（Mean Squared Error；ＭＳＥ）などの客観的な歪み測定、又はブロッキングアーチファクトの可視性（視感度）（visibility）などの主観的要素を含むさらに他の歪み測定を利用できる。

そして、イメージ又はビデオフレームをコーディングする前に、付加情報（side information）として対角行列Ｓ、Ｗ、Ｑの値をエンコードできる。このとき、デコーダにより認識可能な適切なプロトコルが利用され得る。

逆量子化部１５３０は、最適な量子化された変換係数に逆量子化を行って変換係数を取得できる。

上記逆変換部１５４０は、上記変換係数に逆変換を行うことにより、予測エラーベクトルを取得できる。このとき、上記逆変換は、スケール直交行列Ｓを含むことができる。このように、空間ドメイン上でスケーリング行列を追加することにより、空間ドメイン上でも量子化エラーを制御できる。

上記スケール直交行列Ｓによるスケーリングは、上記逆変換部１５４０内の空間スケーリング部１５４５で行われることができる。また、上記空間スケーリング部１５４５は、上記逆変換部１５４０による逆変換処理後に位置することもできる。

上記取得された予測エラーベクトルを予測部１５６０から出力された予測信号（prediction signal）に加えることにより、復元信号（reconstructed signal）が生成され得る。

バッファ１５５０は、上記予測部１５６０による今後の参照（future reference）のために上記復元信号を記憶し、上記予測部１５６０は、上記バッファ１５５０に記憶された以前に復元された信号（previously reconstructed signal）を用いて予測信号（prediction signal）を生成する。

一方、上記最適化部１５２０から取得された最適な量子化された変換係数は、エントロピエンコード部１５７０に送信され、上記エントロピエンコード部１５７０は、上記最適な量子化された変換係数をエントロピエンコードして出力することができる。

図１６に示すように、本発明が適用されるデコーダ１６００は、エントロピデコード部１６１０、逆量子化部１６２０、逆変換部１６３０、バッファ１６４０、及び予測部１６５０を備えることができる。ここで、上記逆変換部１６３０は、空間スケーリング部１６３５を備えることができる。

図１６のデコーダ１６００は、上記図１５のエンコーダ１５００から出力された信号を受信し、受信された信号は、エントロピデコード部１６１０を介してエントロピデコードされる。

逆量子化部１６２０では、量子化ステップサイズ情報を利用してエントロピデコードされた信号から変換係数を取得し、逆変換部１６３０では、上記変換係数を逆変換して予測エラーを取得する。このとき、上記逆変換は、スケール直交行列Ｓを含むことができる。

上記スケール直交行列Ｓによるスケーリングは、上記逆変換部１６３０内の空間スケーリング部１６３５で行われることができる。上記空間スケーリング部１６３５は、上記逆変換部１６３０による逆変換処理後に位置することもできる。また、上記図１５において説明した実施形態が適用され得る。

上記取得された予測エラーを上記予測部１６５０から出力された予測信号（prediction signal）に加えることにより、復元信号（reconstructed signal）が生成される。

バッファ１６４０は、予測部１６５０による今後の参照（future reference）のために上記復元信号を記憶し、上記予測部１６５０は、上記バッファ１６４０に記憶された以前に復元された信号（previously reconstructed signal）を用いて予測信号（prediction signal）を生成できる。

図１７は、本発明が適用される実施形態であって、ＲＤ（Rate-Distortion）の最適化処理を介してスケーリング対角行列（scaling diagonal matrix）を取得する処理を説明するフローチャートである。

数式４６により定義されるコーディングの式において、ｃ∈Ｚ^N、すなわち、コーディングされるデータのベクトルが整数値のみを有することができるので、近似されたピクセルの再生（reproduction）値が取得され得る。

本発明は、付加的なエラーベクトルｅを定義し、統計的方法を使用する近似をモデル化できる。

［数式５５］
Ｔ^-1Ｑ^-1ｃ＝ｘ−ｐ＋ｅ

ｃの各成分の丸め誤差は、上記直交行列Ｔによる掛け算を介して結合されることができる。高いレート近似に対し、ｅの成分は、ゼロ平均及び同じ分散（variance）を有する、独立したランダムガウス変数であると仮定することができる。したがって、数式４６から取得された値によって、数式５６が算出される。

数式５６は、エラーがブロック内の全てのピクセルに対してほぼ同じ分布を有するということを意味する。

数式５７により定義される新しい処理方式を利用して、残差値のｘ−ｐは、適切な再生を取得するために、Ｓ−１だけ予めスケーリング（pre-scale）される。

［数式５７］
ＳＴ^-1Ｑ^-1ｃ＝Ｓ［Ｓ^-1（ｘ−ｐ）＋ｅ］

ｅの成分は、ゼロ平均及び同じ分散を有する、独立したランダムガウス変数である。

しかし、このような場合において、数式５８により与えられるピクセルが再生された。

数式５２は、現在、各ピクセルでのエラーが対角行列Ｓにおけるスケーリング要素に比例して相違した分散を有することを意味する。したがって、Ｓ_i,iのより大きい値は、相対的により大きいエラー分散を発生させ、その逆も成立する。

下記において、本発明のさらに詳細な説明が提示される。例えば、本発明は、予め定義されたビデオセグメント、例えば、コーディング部、フレーム、タイル、スライスなどに対して適用されることができる。

エンコーダにおいて、次のステップにしたがって本発明が行われ得る。

まず、上記エンコーダは、上記セグメント内のコーディングピクセルブロックに対して使用される行列Ｓ、Ｗ、及びＱを選択できる。

次に、各セグメント内のピクセルをコーディングする前に、上記エンコーダは、行列Ｓ及びＱに関する情報を圧縮されたビットストリームに付加することができる。例えば、Ｔは仮定された定数であり、Ｗは、上記エンコーダによってのみ使用される。

それから、各ピクセルブロックに対して、上記エンコーダは、上記最適ベクトルｃ∈Ｚ^Nを探すことができ、その値をエントロピコーディングし、これを上記圧縮されたビットストリップに付加する。

デコーダにおいて、本発明は、次のステップにしたがって行われ得る。

まず、各セグメントでピクセルをデコードする前に、上記デコーダは、上記行列Ｓ及びＱに関する情報を上記圧縮されたビットストリームから読み取ることができる。

それから、各ピクセルブロックに対して、上記デコーダは、上記ベクトルｃ∈Ｚ^Nをエントロピデコードすることができ、数式５９を利用して復元されたピクセル値を計算する。

本発明の実施形態は、レート歪み（ＲＤ）の最適化処理を介してスケーリング対角行列を取得する処理を提供する。

まず、エンコーダは、トレーニングを介してＲＤ（Rate-Distortion）最適化処理を行うことができる（Ｓ１７１０）。例えば、このようなＲＤ（Ｒａｔｅ−Ｄｉｓｔｏｒｔｉｏｎ）最適化処理は、上記最適化部１５２０により行われることができる。

上記ＲＤ（Rate-Distortion）最適化処理を介して、対角行列Ｓ、Ｗ、Ｑの最適セットを計算できる（Ｓ１７２０）。

上記対角行列Ｓ、Ｗ、Ｑの値を付加情報（side information）としてエンコードすることができる（Ｓ１７３０）。

その後、上記図１５及び図１６において記載した処理によって、ビデオ信号をエンコード又はデコードすることができる（Ｓ１７４０）。

例えば、上記対角行列のうち、スケーリング対角行列Ｓは、エンコーダ１５００の逆変換部１５４０又はデコーダ１６００の逆変換部１６３０で用いられることにより、空間ドメイン上でも量子化エラーを制御できる。

図１８は、本発明が適用される実施形態であって、最適化されたスケーリング行列を用いてコーディングした場合と既存の方式のとおりにコーディングした場合とにおいて、各イメージのコーディングゲイン（coding gain）を比較するグラフである。

上記図１８は、エラー伝達の制御とコーディングゲインとの関係を図示することができる。

グラフ上の点線は、一般的なコーデックのコーディングゲインを示し、実線は、最適な対角行列を用いたときのコーディングゲインを示す。

本実施形態の場合、平面予測（planar prediction）及び４×４ＤＣＴを用いた場合である。３個のテストイメージ、「Ｗｏｍａｎ」、「Ｂｉｋｅ」、「Ｃａｆｅ」において全て、最適な対角行列を用いたとき、より良好なコーディング効率見られる点を確認できる。

これは、本発明の一実施形態であり、上記で言及した条件に限定されず、他の条件の実施形態にも適用可能である。

図１９及び図２０は、本発明が適用される実施形態であって、各々改良されたコーディング方法が適用されるエンコーダ及びデコーダの概略ブロック図を示す。

図１９のエンコーダ１９００は、最適化部１９１０、量子化部１９２０、及びエントロピエンコード部１９３０を備える。図２０のデコーダ２０００は、エントロピデコード部２０１０、逆量子化部２０２０、逆変換部２０３０、及び復元部２０４０を備える。

図１９の上記エンコーダ１９００を参照すると、上記最適化部１９１０は、最適化された変換コーディングされた修正信号を取得する。上記最適化部１９１０は、最適化された変換コーディングされた修正信号を取得するために、下記の実施形態を使用できる。

本発明が適用され得る実施形態を図示するために、まず、信号を復元するための復元関数が次のように定義され得る。

数式６０において、
は、復元信号を表し、ｃは、デコードされた変換コーディング修正信号を表し、ｙは、コンテキスト信号を表す。Ｒ（ｃ、ｙ）は、復元信号を生成するために、ｃ及びｙを用いる復元関数を表す。

本実施形態において、復元関数は、以前に復元された値と変換コーディングされた修正信号との間の関係として定義され得る。したがって、上記デコードされた修正信号は、上記復元値のみならず、復元処理全体及び復元関数の選択にも影響を及ぼす。

例えば、修正信号は、次のように定義され得る。

数式６１において、ｅは、修正信号を表し、ｃは、変換コーディングされた修正信号を表し、Ｔは、変換行列を表す。また、一部の場合において、上記修正信号は、エラー信号又は予測エラー信号を意味できる。

このような場合において、復元信号は、次のように定義されることができる。

数式６２において、
は、復元信号のｎ番目の成分を表し、ｅは、上記修正信号を表し、ｙは、コンテキスト信号を表す。Ｒ_nは、復元信号を生成するために、
を用いる復元関数を表す。

一実施形態において、上記復元関数Ｒ_nは、次のように定義されることができる。

数式６３において、Ｐ_nは、予測信号を生成するための上記パラメータの式である１つのタイプの予測関数（a type of prediction function formed of the parameters）を表す。

例えば、上記予測関数は、メディアン（中央値）関数、ランク次数フィルタと非線形関数との組み合わせ、又は線形関数の組み合わせでありうる（The prediction function may be, for example, a median function, a combination of a rank order filter and a nonlinear function, or a combination of linear functions）。さらに、非線形予測関数Ｐ_n（）は、相違した（異なる）（different）非線形関数でありうる。

本発明の他の実施形態において、量子化部１９２０は、上記最適化部１９１０内に含まれることができるか、又は、上記最適化部１９１０は、変換部を含むことができる。

本発明の他の実施形態において、上記エンコーダ１９００及び上記デコーダ２０００は、上記非線形予測関数を選択するための候補関数の記憶部を含むことができる。

このような場合において、上記最適化された非線形予測関数は、上記記憶部に記憶された候補関数から選択されることができる。

最適化された非線形予測関数が前述されたように選択される場合、上記最適化部１９１０は、上記最適化された非線形予測関数を用いて最適化された予測信号を生成できる。そして、上記最適化部１９１０は、上記最適化された予測信号に基づいて最適化された予測エラー信号を生成でき、上記最適化された予測エラー信号に対する変換コーディングを行うことができる。上記最適化部１９１０は、上記変換コーディングを介して変換コーディングされた係数を出力できる。このような場合において、上記変換コーディングされた係数は、最適化された変換係数を意味できる。

上記出力変換係数は、上記量子化部１９２０に送信される。上記量子化部１９２０は、上記変換係数を量子化し、上記量子化された変換係数を上記エントロピエンコード部１９３０に送信する。

上記エントロピエンコード部１９３０は、量子化された変換係数に対してエントロピエンコードを行い、圧縮されたビットストリームを出力できる。

図２０の上記デコーダ２０００は、図１９の上記エンコーダから上記圧縮されたビットストリームを受信することができ、上記エントロピデコード部２０１０を介してエントロピデコードを行うことができ、上記逆量子化部２０２０を介して逆量子化を行うことができる。このような場合において、上記逆量子化部２０２０による信号出力は、最適化された変換係数を意味できる。

上記逆変換部２０３０は、上記最適化された変換係数を受信し、逆変換処理を行い、逆変換処理を介して予測エラー信号を取得できる。

上記復元部２０４０は、予測エラー信号と予測信号とを共に合算して復元信号を取得できる。このような場合において、図１９を参照して記述される様々な実施形態が、上記予測信号に適用され得る。

図２１は、本発明が適用される実施形態であって、改良されたビデオコーディング方法を説明するための概略フローチャートである。

まず、ステップＳ２１１０で上記原映像信号が受信される場合、ステップＳ２１２０において、上記エンコーダは、上記原映像信号を利用可能な復元信号と比較することができる。そして、ステップＳ２１３０において、上記エンコーダは、上記比較の結果に基づいて修正信号を決定できる。

このような場合において、歪み成分とレート成分との合計を最小にするために、上記予測信号が決定され得る。上記歪み成分は、上記原映像信号と復元信号との間の歪みの総和を指示し、上記レート成分は、量子化された係数を送信するために要求されるビットの数を指示する。修正信号を決定するために、上記エンコーダは、デコードシミュレーションを行うことができる。

本発明は、上記信号復元のために使用される復元関数を決定するステップをさらに含むことができ、上記復元関数は、線形成分及び非線形成分のうち、少なくとも１つを含む。

そして、上記復元関数は、上記以前に復元されたサンプル及び上記修正信号の全てに基づいて決定されることができる。

それから、ステップＳ２１４０において、上記エンコーダは、信号復元のために送信される変換コーディングされた修正信号を生成できる。ここで、上記変換−コーディングされた修正信号は、逆量子化行列及び逆変換行列により掛けられることができ、ビットレート及び量子化エラーを制御するために、上記逆量子化行列が選択され得る。

さらに、上記変換コーディングされた修正信号は、ピクチャグループに対する修正信号に対応でき、時空間変換コーディングが上記修正信号に印加され得る。

本発明の一実施形態によれば、上記デコーダは、本発明により取得された変換コーディングされた修正信号を含むビットストリームを受信することができ、上記エントロピデコード部を介してエントロピデコードを行うことができ、上記逆量子化部を介して逆量子化を行うことができ、上記逆変換部を介して逆変換を行うことができる。上記デコーダは、上記変換コーディングされた修正信号に対して逆変換を行い、修正信号を取得できる。

それから、上記デコーダは、上記取得された修正信号とコンテキスト信号とを結合する復元関数を用いて復元信号を取得できる。ここで、上記コンテキスト信号は、以前に復元されたサンプルの全てに基づいて取得され得る。

さらに、上記デコーダは、上記信号復元のために使用される復元関数を決定でき、上記復元関数は、線形成分及び非線形成分のうち、少なくとも１つを含むことができる。ここで、上記復元関数は、上記以前に復元されたサンプル及び上記修正信号の全てに基づいて決定されることができる。

上記変換コーディングされた修正信号は、逆量子化行列及び逆変換行列により掛けられることができる。また、上記変換コーディングされた修正信号は、ピクチャグループに対する修正信号に対応でき、時空間変換コーディングが上記修正信号に印加されている。

前述されたように、本発明が適用され得る上記デコーダ及び上記エンコーダは、マルチメディア放送送信／受信装置、移動通信端末機、ホームシネマビデオ装置、デジタルシネマビデオ装置、監視カメラ、ビデオチャット装置（video chatting apparatus）、ビデオ通信などのリアルタイム通信装置、移動ストリーミング装置、記憶媒体、カムコーダ、ＶｏＤサービス提供装置、インターネットストリーミングサービス提供装置、３次元（３Ｄ）ビデオ装置、テレコンファレンスビデオ装置、及び医療ビデオ装置内に含まれることができ、ビデオ信号及びデータ信号をコーディングするのに使用されることができる。

また、本発明が適用され得る上記デコード／エンコード方法は、コンピュータにより実行され得るプログラムの形で製作されて、コンピュータ読み取り可能な記録媒体に記憶されることができる。本発明に係るデータ構造を有するマルチメディアデータは、コンピュータ読み取り可能な記録媒体に記憶されることができる。

上記コンピュータ読み取り可能な記録媒体は、コンピュータシステムによって読み取ることのできるデータが記憶される全ての種類の記憶装置を含む。上記コンピュータ読み取り可能な記録媒体は、例えば、ＢＤ、ＵＳＢ、ＲＯＭ、ＲＡＭ、ＣＤ−ＲＯＭ、磁気テープ、フロッピー（登録商標）ディスク、光学データ記憶装置を含むことができる。また、上記コンピュータ読み取り可能な記録（記憶）媒体は、搬送波（例えば、インタネットを介しての送信）の形で実現される媒体を含む。さらに、上記エンコード方法により生成されたビットストリームがコンピュータ読み取り可能な記録媒体内に記憶されるか、又は有無線通信網を介して送信されることができる。

本発明の例示的な実施形態は、例示の目的のために開示されたものであり、当該技術分野における通常の知識を有した者は、添付された請求項に開示された本発明の技術的精神及び範囲内で様々な他の実施形態を向上、変更、置き換え、又は付加することができる。

Claims

映像信号をエンコードする方法であって、
原映像信号を受信するステップと、
前記原映像信号を利用可能な復元信号と比較するステップと、
前記比較の結果に基づいて変換コーディングされた修正信号を生成するステップと、
前記変換コーディングされた修正信号及び前記利用可能な復元信号に基づいて予測信号を生成するステップと、
前記変換コーディングされた修正信号を前記予測信号に合算して信号を復元するステップと、を有する、エンコード方法。
歪み成分とレート成分との合計を最小にするスケーリングパラメータを決定するステップと、
前記スケーリングパラメータに基づいて前記変換コーディングされた修正信号に量子化を行うステップと、をさらに有する、請求項１に記載のエンコード方法。
前記歪み成分は、前記原映像信号と前記復元された信号との間の歪みの総和を指示し、
前記レート成分は、量子化された係数を送信するために要求されるビットの数を指示する、請求項２に記載のエンコード方法。
前記スケーリングパラメータは、量子化パラメータ値から決定される、請求項２に記載のエンコード方法。
コーディングされる前記原映像信号を複数のレイヤに分解するステップをさらに有する、請求項１に記載のエンコード方法。
非直交変換行列は、前記信号を復元するのに使用される、請求項１に記載のエンコード方法。
映像信号をデコードする方法であって、
最適な量子化された係数を有する前記映像信号を受信するステップと、
前記最適な量子化された係数に基づいて残差エラーベクトルを取得するステップと、
前記残差信号を予測信号に合算して前記映像信号を復元するステップと、
を有し、
前記最適な量子化された係数は、以前に復元された信号の全てに基づいて取得される、デコード方法。
前記映像信号からスケーリングパラメータを抽出するステップと、
前記スケーリングパラメータに基づいて前記最適な量子化された係数へ量子化を行うステップと、をさらに有する、請求項７に記載のデコード方法。
前記スケーリングパラメータは、量子化パラメータ値から決定される、請求項８に記載のデコード方法。
デコードされる前記映像信号を複数のレイヤに分解するステップをさらに有する、請求項７に記載のデコード方法。
非直交変換行列は、前記映像信号を復元するのに使用される、請求項７に記載のデコード方法。
映像信号をエンコードする装置であって、
原映像信号を受信するように構成される受信部と、
前記原映像信号を利用可能な復元信号と比較し、前記比較の結果に基づいて変換コーディングされた修正信号を生成するように構成される最適化部と、
前記変換コーディングされた修正信号及び前記利用可能な復元信号に基づいて予測信号を生成するように構成される予測部と、
前記変換コーディングされた修正信号を前記予測信号に合算して信号を復元するように構成される復元部と、を備える、エンコード装置。
歪み成分とレート成分との合計を最小にするスケーリングパラメータを決定するように構成される前記最適化部と、
前記スケーリングパラメータに基づいて前記変換コーディングされた修正信号に量子化を行うように構成される量子化部と、をさらに備える、請求項１２に記載のエンコード装置。
前記歪み成分は、前記原映像信号と前記復元された信号との間の歪みの総和を指示し、
前記レート成分は、量子化された係数を送信するために要求されるビットの数を指示する、請求項１３に記載のエンコード装置。
前記スケーリングパラメータは、量子化パラメータ値から決定される、請求項１３に記載のエンコード装置。
コーディングされる前記原映像信号は、複数のレイヤに分解される、請求項１２に記載のエンコード装置。
非直交変換行列は、前記信号を復元するのに使用される、請求項１２に記載のエンコード装置。
映像信号をデコードする装置であって、
最適な量子化された係数を有する前記映像信号を受信するように構成される受信部と、
前記最適な量子化された係数に基づいて残差エラーベクトルを取得するように構成される逆変換部と、
前記残差信号を予測信号に合算して、前記映像信号を復元するように構成される復元部と、を備え、
前記最適な量子化された係数は、以前に復元された信号の全てに基づいて取得される、デコード装置。
前記映像信号からスケーリングパラメータを抽出し、前記スケーリングパラメータに基づいて前記最適な量子化された係数へ量子化を行うように構成される逆量子化部をさらに備える、請求項１８に記載のデコード装置。
非直交変換行列は、前記映像信号を復元するのに使用される、請求項１８に記載のデコード装置。