JP2004528791A - インターフレーム符号化方法および装置 - Google Patents
インターフレーム符号化方法および装置 Download PDFInfo
- Publication number
- JP2004528791A JP2004528791A JP2003501944A JP2003501944A JP2004528791A JP 2004528791 A JP2004528791 A JP 2004528791A JP 2003501944 A JP2003501944 A JP 2003501944A JP 2003501944 A JP2003501944 A JP 2003501944A JP 2004528791 A JP2004528791 A JP 2004528791A
- Authority
- JP
- Japan
- Prior art keywords
- frequency domain
- elements
- frame
- quantized frequency
- quantized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/547—Motion estimation performed in a transform domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/61—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
【課題】ディジタルビデオを符号化するためのシステムにおけるインターフレームコーディング方法および装置。
【解決手段】ディジタルビデオフレームのシーケンスは、アンカーフレームおよび少なくとも1個の組み合わせられた後続フレームとして表現することが可能である。アンカーフレームおよび各後続フレームの複数のピクセル(304)は、ピクセル領域エレメントから周波数領域エレメント(312)に変換される。エレメントは、人間の視覚システムにとってより敏感なこれらのエレメントを強調するために、そして人間の視覚システムにとってより少なく敏感であるこれらのエレメントを強調しないために量子化(316)される。アンカーフレームの各量子化された周波数領域エレメント、および各後続フレームの対応する量子化された周波数領域エレメント間の差が決定されそして符号化される。
【選択図】図3
【解決手段】ディジタルビデオフレームのシーケンスは、アンカーフレームおよび少なくとも1個の組み合わせられた後続フレームとして表現することが可能である。アンカーフレームおよび各後続フレームの複数のピクセル(304)は、ピクセル領域エレメントから周波数領域エレメント(312)に変換される。エレメントは、人間の視覚システムにとってより敏感なこれらのエレメントを強調するために、そして人間の視覚システムにとってより少なく敏感であるこれらのエレメントを強調しないために量子化(316)される。アンカーフレームの各量子化された周波数領域エレメント、および各後続フレームの対応する量子化された周波数領域エレメント間の差が決定されそして符号化される。
【選択図】図3
Description
【技術分野】
【0001】
本発明は、ディジタル信号処理に関する。とくに、本発明は、ディジタル画像情報を符号化することに関する損失のない方法に関する。
【背景技術】
【0002】
ディジタル画像処理は、ディジタル信号処理に関する一般的研究分野において卓越した位置を有する。人間の視覚の重要性は、当業界およびディジタル画像処理の科学においては大きな興味と発展を促進してきている。フイルムあるいは映画の投影に対して用いられるそれらのような、ビデオ信号の伝送及び受信の分野においては、画像圧縮技術に対する種々の改良がなされてきている。従来の、そして提案されているビデオシステムの多くは、ディジタル符号化技術を使用している。この分野の観点は、画像コーディング、画像回復、および画像特徴選定を含む。画像コーディングは、ディジタル通信チャネルの画像を効率的な手段で、同時にある限界内の歪みを有しながら、必要とされる帯域幅を最小とするためにできるだけ少ないビットを使用して送信するための試みを示している。画像回復は、対象の真の画像を回復するための努力を示している。通信チャネル上に送信されている符号化された画像は、種々の要因によって歪みを与えられて来ているかもしれない。劣化の原因は、対象からの画像を作り出すときに初めから始まっているかもしれない。特徴選定は、画像のある特質の選定に帰される。このような特質は、認識、分類、およびより広い情況における決定において必要とされるかもしれない。
【0003】
ディジタル映画におけるそれのように、ビデオのディジタル符号化は、改善された画像圧縮技術から利益を得る分野である。ディジタル画像圧縮は、一般に二つの領域、損失のないおよび損失のある方法に分類されることが可能である。損失のない画像は、情報に関するいかなる損失もなしに回復される。損失のある方法は、圧縮比、圧縮アルゴリズムの品質、およびアルゴリズムの実行によって変化する、若干の情報に関する回復困難な損失を含む。一般に、損失のある圧縮アプローチは、コスト効果のあるディジタル映画アプローチに対して、必要とされる圧縮比を得るために考慮される。ディジタル映画品質レベルを達成するために、圧縮アプローチは、特性に関する視覚的に損失のないレベルを与えなければならない。このように、圧縮処理の結果として情報に関する数学的な損失があるにも拘らず、この損失に起因する画像の歪みは、通常の観察条件の下では、見る人にとって気づかれない程度でなければならない。
【0004】
現在のディジタル画像圧縮技術は他の応用に対して、すなわちテレビジョンシステムに対して開発されてきている。この技術は、意図された応用に対しては適切な設計的妥協がなされているが、映画上映に対して必要とされる品質要求条件を満足していない。
【0005】
ディジタル映画圧縮技術は、映画ファンが以前に経験している視覚的品質を与えなければならない。理想的には、ディジタル映画の視覚的品質は、高品質封切りプリントフィルムのそれを超えることを試みるべきである。同時に、圧縮技術は実用的な高いコーディング効率を有しなければならない。ここに定義されたように、コーディング効率は、ある質的なレベルを満足させるために、圧縮された画像品質に必要とされるビットレートに帰せられる。
【0006】
ビデオ圧縮技術は、典型的には差分パルスコード変調(DPCM;differential pulse code modulation)、ディスクリート余弦変換(DCT;discrete cosine transform)、動き補償(MC;motion compensation)、エントロピーコーディング、フラクタル圧縮(fractual compression)、およびウエーブレット変換をもとにしている。ビデオ信号に対する品質の望ましいレベルを保ちながら、十分な圧縮レベルを提供する能力のある一つの圧縮技術は、符号化されたDCT係数データに関する適応するような大きさに作られたブロックおよびサブブロックを利用している。この技術は以後、適応ブロックサイズ差分余弦変換(ABSDCT;Adaptive Block Size Differential Cosine Transform)法として参照される。
【0007】
ビデオ圧縮に関する重要な見地は、連続した隣接フレーム間の類似性である。この領域における有力な現存の技術は、MPEG(Motion Picture Experts Group)におけるような動き補償である。動き補償は連続した隣接フレームからの不完全な予測を用いて画像をコーディングすることによって行われる。このような予測および/あるいは補償体系は、最初のソースおよび復号されたビデオシーケンス間に誤差をもたらす。しばしば、これらの誤差は容認できないレベルに高まり、高い画像品質の応用において好ましくない問題をもたらす。たとえば、動きアーチファクト(motion artifact)は動画符号化エクスパートグループ(MPEG)の圧縮された素材の中にしばしば見られる。動きアーチファクトは、現在のフレーム上に、前のあるいは将来のフレームの影響を見ることが可能であること、すなわちゴーストに帰せられる。このような動きアーチファクトはまた、フレーム毎のビデオ編集を困難な仕事とする。したがって必要とされるものは、現在のインターフレーム(inter-frame)符号化技術の欠点を克服し、そして動きアーチファクトのような可視欠陥を最小にするインターフレーム符号化体系である。
【発明の開示】
【課題を解決するための手段】
【0008】
本発明の実施例は、任意の変換に基づいた圧縮技術によって提供される圧縮利得を効率的に増加し、そしていかなる付加的な歪みももたらさない、インターフレームコーディング方法を利用している。ここでデルタコーダ(delta coder)、あるいはデルタコーディング処理として参照されるこれらの方法は、周波数領域におけるビデオシーケンス内の空間的なそして時間的な冗長度を利用している。それは、デルタコーダは、一つのフレームから次への小さい変化が存在するときはいつでも、時間領域に関する高い相関度が存在するシーケンスを利用しているということである。このように、ビデオシーケンス内の隣接したフレーム間には、変換領域特性が著しく一貫して残っている。
【0009】
ディジタルビデオを符号化するためのシステムにおいては、インターフレームコーディングに関する方法が述べられる。ディジタルビデオは、アンカーフレーム(anchor frame)および少なくとも1個の後続フレームを含む。各アンカーフレームおよび各後続フレームは、複数のピクセルエレメントを含む。アンカーフレームおよび各後続フレームの複数のピクセルは、ピクセル領域エレメントから周波数領域エレメントに変換される。周波数領域エレメントは、人間の視覚システムにとってより敏感であるこれらのエレメントを強調するように、そして人間の視覚システムにとって鈍感であるこれらのエレメントを強調しないように量子化される。アンカーフレームの各量子化された周波数領域エレメントおよび、対応する各後続フレームの量子化された周波数領域エレメント間の差が決定される。一つの実施例においては、アンカーフレームは後続フレームのあらかじめ設定された数と組み合わせられる。他の実施例においては、アンカーフレームは、後続フレームとアンカーフレーム間の相関特性が容認できないレベルに達するまで、後続フレームと組み合わせられる。なお他の実施例においては、ローリングアンカーフレーム(rolling anchor frame)が利用される。
【0010】
よって、画像データを効率的に符号化することが、本発明の特徴でありそして利点である。
動きアーチファクトの影響を最小にすることが、本発明の他の特徴でありそして利点である。
【発明を実施するための最良の形態】
【0011】
本発明の特徴、目的、そして利点が、図面と関連させた場合に、以下に記述する詳細な説明からより明白になろう。図面において同様の参照符号は、全体を通じてそしてこの中で同一のものと認定する。
ディジタル信号のディジタル伝送を容易にしそしてそれに応じた利益を受けるために、一般的には信号圧縮の若干の形式を使用することが必要である。その結果となる画像における高分解能を達成するために画像の高品質が保持されることがまた重要である。さらに、計算上の効率がコンパクトなハードウエア実現のために望まれ、そしてそれは多くの応用において重要である。
【0012】
一つの実施例においては、本発明の画像圧縮はディスクリート余弦変換(DCT)技術に基づいている。一般的にディジタル領域内で処理されるべき画像は、重なり合っていないブロック、サイズN×Nのアレイに分割されたピクセルデータを含むであろう。2次元のDCTは各ブロックで実現されることが可能である。2次元のDCTは次の関係によって定義される。
【0013】
【数1】
ここで、
【0014】
【数2】
そして、
x(m,n)はN×Mブロック内のピクセル位置(m,n)であり、そして
X(k,l)は対応するDCT係数である。
ピクセル値は負ではないのでDCT成分、X(0,0)はつねに正であり、そして通常最高のエネルギーを有している。事実、典型的な画像に対しては変換エネルギーの大部分は成分、X(0,0)の周囲に集中している。このエネルギー圧縮特性はDCT技術をこのような魅力的な圧縮方法にしている。
【0015】
大部分の自然な画像は、単調な比較的ゆっくりと変化する領域と、対象物との境界およびコントラストの大きい組織等のたえず変化している領域からなっていることが観察されている。コントラストに適応するコーディング体系は、たえず変化している領域により多いビットを、そしてより変化の少ない領域により少ないビットを割り当てることによって、この要因に関して利点を有している。この技術は、“適応ブロックサイズ画像圧縮方法およびシステム”と題された、本発明の譲受人に譲渡されそして参照によってこの中に組み込まれている、米国特許5,021,891の中に開示されている。DCT技術はまた、“適応ブロックサイズ画像圧縮方法およびシステム”と題された、本発明の譲受人に譲渡されそして参照によってこの中に組み込まれている、米国特許5,107,345の中に開示されている。さらに、差分カッドツリー(Differential Quadtree)変換技術とともにABSDCT技術を使用することは、“適応ブロックサイズ画像圧縮方法およびシステム”と題された、これもまた本発明の譲受人に譲渡されそして参照によってこの中に組み込まれている、米国特許5,452,104の中に論じられている。これらの特許の中に開示されたシステムは、“イントラフレーム”符号化として参照されるものを利用しており、そこでは、画像データの各フレームはいかなる他のフレームの内容も顧慮せずに符号化される。ABSDCT技術を用いると、画像品質に関する認識可能な劣化なしに到達可能なデータレートが十分に存在可能であろう。
【0016】
ABSDCTを用いて、ビデオ信号は一般に処理のためにピクセルのブロックに分けられるであろう。各ブロックに対して、輝度および色差成分はブロックインターリーバに通される。たとえば、16×16(ピクセル)ブロックはブロックインターリーバに与えられ、これは画像サンプルを、ディスクリート余弦変換(DCT)解析のために、データのブロックおよび複合サブブロックを生成するため、各16×16ブロックの中に配列しあるいは組織化する。DCT演算子は、時間的にサンプルされた信号を同じ信号の周波数表示に変換する一つの方法である。量子化器は画像の周波数分布特性を利用するよう設計が可能であるために、周波数表示に変換することによって、DCT技術は非常に高い圧縮レベルを可能にすることを示して来ている。好ましい実施例においては、1個の16×16DCTは、1番目の順序づけに適用され、4個の8×8DCTは、2番目の順序づけに適用され、16個の4×4DCTは、3番目の順序づけに適用され、そして64個の22DCTは、4番目の順序づけに適用される。
【0017】
画像処理の目的に対しては、DCT操作は、重なり合っていないブロックのアレイの中に分割されているピクセルデータ上で実行される。この中ではブロックサイズはサイズN×Nであるとして論じられるが、種々のブロックサイズが使用可能であることが想像されることに留意すべきである。たとえば、N×Mブロックサイズが利用可能であり、そこでは、NおよびMの両者は整数であってMは、Nよりもより大きいかあるいはより小さい何れかである。他の重要な観点は、ブロックはN/i×N/i、N/i×N/j、N/i×M/j等のように、少なくともサブブロックの1個のレベルまで分割可能であることである。ここでiおよびjは整数である。さらに、ここに論じられるように典型的なブロックサイズは、DCT係数に関するブロックおよびサブブロックに対応している16×16ピクセルブロックである。共に偶数あるいは奇数の整数値であるような種々の他の整数、たとえば9×9が使用可能であることがさらに想像される。
【0018】
一般に画像は、処理のためにピクセルのブロックに分割される。カラー信号はRGB空間から、輝度あるいは明るさ成分であるY、および色差あるいは色彩成分であるC1およびC2をもったYC1C2空間に、変換が可能である。眼は色彩に対して空間的感度が低いのため、多くのシステムは水平および垂直方向に対しては4の約数(factor)によりC1およびC2成分をサブサンプルする。しかしながらサブサンプリングは必要ではない。4:4:4フォーマットとして知られるフルリゾリューション画像は、非常に有用であるか“ディジタル映画”カバリングとして参照されるそれらのような若干の応用において必要であるかの何れかである。二つの可能なYC1C2表示はYIQ表示およびYUV表示であり、その両者は当業界においてはよく知られている。YCbCrとして知られているYUV表示の変形も使用することがまた可能である。
【0019】
さて図1を参照すると、本発明を組み入れた画像処理システム100が示されている。画像処理システム100は、受信されたビデオ信号を圧縮する符号器102を含む。圧縮された信号は物理的媒体を通して、伝送チャネル104を通して、送信されあるいは運ばれ、そしてそして復号器106によって受信される。復号器106は受信した信号を画像サンプルの中に復号し、そしてそれはそこで表示される。
【0020】
望ましい実施例においては、各Y、Cb、およびCr成分はサブサンプリングなしに処理される。したがって、ピクセルの16×16ブロックの入力は符号器102に与えられる。符号器102は、ビデオ圧縮のための準備にブロックサイズ割り当てを実行するブロックサイズ割り当てエレメント108を含むことが可能である。ブロックサイズ割り当てエレメント108は、ブロック内の画像の知覚特性に基づいて16×16ブロックのブロック分解を決定する。ブロックサイズ割り当ては16×16ブロック内の活性度によって、カッドツリー様式で各16×16ブロックをより小さいブロックにサブ分割する。ブロックサイズ割り当てエレメント108は、PQRデータと呼ばれるその長さが1および21ビットの間にあることが可能な、カッドツリーデータを発生する。このようにして、もしもブロックサイズ割り当てが16×16ブロックは分割されるべきであると決定した場合は、PQRデータのRビットはセットされ、そして4個の分割された8×8ブロックに対応するQデータの4個の付加的なビットが後に続く。もしもブロックサイズ割り当てが、8×8ブロックの何れかがサブ分割されるべきであると決定する場合は、そこで、サブ分割された各8×8ブロックに対する、Pデータの4個の付加的なビットが加えられる。
【0021】
さて図2を参照して、ブロックサイズ割り当てエレメント108の動作に関する詳細を示しているフロー線図が与えられる。アルゴリズムはブロックをサブ分割する決定にあたって、メトリックとしてブロックの分散を使用する。ステップ202の最初に、ピクセルの16×16ブロックが読み込まれる。ステップ204において、16×16ブロックの変動(variance)v16が計算される。変動は次のようにして計算される。
【0022】
【数3】
ここでN=16、そしてxi,jは、N×Nブロック内のi番目の列、j番目の行のピクセルである。ステップ206において、もしもブロックの平均値が二つのあらかじめ設定された値の間にある場合は、最初に変動しきい値T16が、新しいしきい値T’16を与えるために修正され、そこでブロック変数は新しいしきい値T’16に対して比較される。
【0023】
もしも変動v16がしきい値T16よりも大きくない場合はそこで、ステップ208において16×16ブロックの開始アドレスが書き込まれ、そしてPQRデータのRビットは、16×16ブロックはサブ分割されないことを示すために0にセットされる。アルゴリズムはそこで、ピクセルの次の16×16ブロックを読み込む。もしも変動v16が、しきい値T16よりも大きい場合はそこで、ステップ210においてPQRデータのRビットは、16×16ブロックは4個の8×8ブロックにサブ分割されるべきであることを示すために1にセットされる。
【0024】
4個の8×8ブロックi=1:4は、ステップ212に示されるように、さらなるサブ分割に対して続けて考慮される。各8×8ブロックに対して変動v8iが、ステップ214において計算される。ステップ216において、もしもブロックの平均値が二つのあらかじめ設定された値の間にある場合は、最初に変動しきい値T8は新しいしきい値T’8を与えるために修正される。そこで、ブロック変数はこの新しいしきい値と比較される。
【0025】
もしも変動v8iが、しきい値T8よりも大きくない場合はそこで、ステップ218において8×8ブロックの開始アドレスが書き込まれ、そして対応するQビット、Qiは0にセットされる。次の8×8ブロックがそこで処理される。もしも変動v8iが、しきい値T8よりも大きい場合はそこで、ステップ220において、対応するQビット Qiは、8×8ブロックは4個の4×4ブロックにサブ分割されるべきであることを示すために1にセットされる。
【0026】
4個の4×4ブロック、ji=1:4は、ステップ222に示されるように、さらなるサブ分割に対して続けて考慮される。各4×4ブロックに対して変動v4ijがステップ224において計算される。ステップ226において、もしもブロックの平均値が二つのあらかじめ設定された値の間にある場合は、最初に変動しきい値T4は新しいしきい値T’4を与えるために修正される。そこで、ブロック変動は、この新しいしきい値と比較される。
【0027】
もしも変動v4ijがしきい値T4よりも大きくない場合はそこで、ステップ228において4×4ブロックのアドレスが書き込まれ、そして対応するPビットPijは0にセットされる。次の4×4ブロックがそこで処理される。もしも変動v4ijがしきい値T4よりも大きい場合はそこで、ステップ230において、対応するPビット Pijは、4×4ブロックは4個の2×2ブロックにサブ分割されるべきであることを示すために1にセットされる。さらに、4個の2×2ブロックのアドレスが書き込まれる。
【0028】
しきい値T16、T8、およびT4は、あらかじめ設定された定数であることが可能である。このことは、ハードな決定として知られている。代わりに、適応、あるいはソフトな決定が実行されることが可能である。ソフトな決定は、2N×2Nブロックの平均ピクセル値によって、変動に対するしきい値を変化させる。ここで、Nは、8、4、あるいは2であることが可能である。このようにして、平均ピクセル値の関数はしきい値として使用可能である。
【0029】
説明の目的のために、次の例を考慮しよう。Y成分に対するあらかじめ設定された変動しきい値を、16×16、8×8、および4×4ブロックそれぞれに対して、50、1100、および880であるとしよう。換言すれば、T16=50、T8=1100、そしてT16=880である。平均値の範囲は80および100であるとしよう。16×16ブロックに対する計算された変動は60であると仮定する。60およびその平均値90はT16よりも大きいので、16×16ブロックは4個の8×8サブブロックにサブ分割される。8×8ブロックに対する計算された変動は1180、935、980、および1210であると仮定する。8×8ブロックの2個はT8を超える変動を有しているので、これらの2個のブロックは、合計8個の4×4サブブロックを生成するためにさらにサブ分割される。最後に、8個の4×4ブロックの変動は、最初の4個の対応する平均値90、120、110、115とともに、620、630、670、610、590、525、930、および690であると仮定する。最初の4×4ブロックの平均値は、範囲(80、100)の中にあるので、そのしきい値は880よりも小さいT’4=200に下げられるであろう。そこで、この4×4ブロックは7番目の4×4ブロックと同様にサブ分割されるであろう。
【0030】
同様な処理が、色彩成分C1およびC2に対してブロックサイズを割り当てるために使用されることは記憶されるべきである。色彩成分は、水平方向に、垂直方向に、あるいは両方に、デシメートされることが可能である。さらにブロックサイズ割り当ては、最大のブロック(この例においては16×16)が最初に評価されるトップダウンアプローチとして記述されてきているが、ボトムアップアプローチが代わりに使用可能であることは記憶されるべきである。ボトムアップアプローチは、最小のブロック(この例においては2×2)を最初に評価するであろう。
【0031】
図1に戻り参照して、画像処理システム110の残りが記述されるであろう。選定されたブロックのアドレスと共に、PQRデータはDCTエレメント110に与えられる。DCTエレメント110はPQRデータを、選定されたブロック上に適切なサイズのディスクリート余弦変換を実行するために使用する。選定されたブロックのみがDCT処理を受ける必要がある。
【0032】
画像処理システム100は、随意に、DCTのDC係数の中の冗長度を減らすために、DQTエレメント112を含むことが可能である。DC係数は各DCTブロックの左上隅に見出される。DC係数は一般にAC係数に比較して大きい。サイズにおけるこの不一致は、効率的な可変長コーダを設計することを困難にしている。したがって、DC係数内の冗長度を減らすことは有利である。
【0033】
DQTエレメント112は、一度に2×2を取り、DC係数上に2−D DCTを実行する。4×4ブロック内の2×2ブロックで出発して、2−D DCTは4個のDC係数上に実行される。この2×2DCTは、4個のDC係数に関する差分カッドツリー変換(differential quad-tree transform)またはDQTと呼ばれる。次に、8×8ブロックにおいて3個の隣接するDC係数とともにDQTのDC係数が、次のレベルのDQTを計算するために使用される。最後に、16×16ブロック内の4個の8×8ブロックに関するDC係数がDQTを計算するために使用される。このようにして、16×16ブロック内には1個の真のDC係数が存在し、そして残りはDCTおよびDQTに対応するAC係数である。
【0034】
変換係数(DCTおよびDQTの両者)は、量子化のために量子化器114に与えられる。望ましい実施例においては、DCT係数は周波数重み付けマスク(frequency weighting masks)(FWM)および量子化スケールファクタを用いて量子化される。FWMは、入力DCT係数のブロックとして、同じサイズに関する周波数重み付けの表である。周波数重み付けは異なったDCT係数に対して異なった重み付けを適用することである。重み付けは人間の視覚システムがより敏感である周波数成分を有している入力サンプルを強調するように、そして視覚システムがより敏感でない周波数成分を有しているサンプルを強調しないように設計されている。重み付けはまた、見る距離等の要因に基づいて設計することが可能である。
【0035】
ハフマン(Huffman)符号は、画像に関する測定されたあるいは理論的な統計 の何れかから設計されている。最も自然な画像は、単調なあるいは比較的ゆっくり変化している領域および、対象物の境界部およびコントラストの大きい組織等のたえず変化している領域からなっていることが観察されてきている。DCT等の周波数領域変換を伴ったハフマンコーダは、これらの特徴を、変化の激しい領域にはより多くのビットを、そして単調な領域にはより少ないビットを割り当てることによって利用している。一般にハフマンコーダは、ランレングスおよび0でない値を符号化するためにルックアップテーブルを使用している。
【0036】
重み付けは経験的なデータに基づいて選定される。8×8DCT係数に対する重み付けマスク設計のための方法は、ISO/IEC JTC1 CD 10918“連続トーン静止画像に関するディジタル圧縮および符号化‐第1部:要求およびガイドライン”、国際標準化機構、1994、の中に開示されている。そしてそれはここに、参照によって組み込まれている。一般に、一つは輝度成分に対するそして一つは色差成分に対する、2種類のFWMが設計される。ブロックサイズ2×2、4×4に対するFWM表はデシメーションによって、そして16×16は8×8ブロックに対するそれの補間によって得られる。スケールファクタは、量子化された係数の品質およびビットレートを制御する。
【0037】
このようにして、各DCT係数は関係
【0038】
【数4】
に従って量子化される。ここで、DCT(i,j)は、入力DCT係数、fwm(i,j)は周波数重み付けマスク、qはスケールファクタ、そしてDCTq(i,j)は量子化された係数である。DCT係数の符号によって、括弧内の第1項は切り上げあるいは切り下げられることは留意するべきである。DQT係数はまた、適切な重み付けマスクを用いて量子化される。しかしながら、複数のテーブルあるいはマスクが使用可能であり、そしてY、Cb、およびCr成分の各々に適用される。
【0039】
量子化された係数は、デルタコーダ115に与えられる。デルタコーダ115は、DCTあるいはABSDCT等の任意の変換に基づいた圧縮技術によって提供される圧縮利得を、いかなる付加的な歪みあるいは量子化雑音も加えない方法で効率的に増加する。デルタコーダ115は、隣接フレームを横切る0でない係数を形成する係数差分(coefficient differentials)を決定するよう形成されており、そして差分情報(differential information)を損失なく符号化する。他の実施例においては、差分情報は僅かの損失をともなって符号化される。このような実施例は、空間および/あるいは速度要求条件と品質考慮との平衡の点で望ましいかもしれない。
【0040】
アンカーフレームおよび対応する後続のフレームに関するデルタ符号化された係数は、ジグザグ走査連続化器116に与えられる。連続化器116は、量子化された係数の連続化されたストリームを生成するために、ジグザグ様式で量子化された係数のブロックを走査する。ジグザグ以外のパターンと同様に、いくつかの異なったジグザグ走査パターンがまた選択可能である。32×32、16×16、4×4、2×2あるいはこれらの組み合わせ等の他のサイズが使用可能であるけれども、一つの実施例はジグザグ走査に対して8×8ブロックサイズを使用する。
【0041】
ジグザグ走査連続化器116は、量子化器114の前あるいは後の何れかに置くことが可能である。最終の結果は同一である。
いずれの場合においても、量子化された係数のストリームは、可変長コーダ118に与えられる。可変長コーダ118は、符号化に先立って、0のランレングス符号化を使用することが可能である。この技術は、先に述べた米国特許5,021,891、5,107,345、および5,452,104の中に詳細に論じられ、そしてこの中に集約されている。ランレングスコーダは量子化された係数を取り上げ、連続していない係数から連続した係数のランを書き留める。連続した値はランレングス値として参照されそして符号化される。連続していない値は別々に符号化される。一つの実施例においては、連続した係数は0の値である。そして連続していない係数は0でない値である。典型的には、ランレングスは、0から63ビットまでであり、そしてサイズは、1から10のAC値である。ファイル符号の一端は付加的な符号を付加し、したがって、合計641の可能な符号が存在する。
【0042】
符号器102により発生された圧縮された画像信号は、伝送チャネル104を経由して復号器106に送信される。ブロックサイズ割り当て情報を含むPQRデータはまた、復号器106に与えられる。復号器106は、ランレングス値および0でない値を復号する可変長復号器120を含む。
【0043】
DCT等の周波数領域法は、ピクセルのブロックを相関のより少ないそしてより少ない変換された係数の新しいブロックに変換する。このような周波数領域圧縮体系はまた、符号化体系のこの目的とする特性を改善するために、画像の中に知覚された歪みに関する知識を使用する。図3は、インターフレームコーダ300に関するこのような処理を示す。符号化されたフレームデータは、最初にピクセル領域において304で、システム内に読み込まれる。符号化されたデータの各フレームはそこで、308でピクセルブロックの中に分割される。一つの実施例においては、ブロックサイズは可変であり、そして適応ブロックサイズディスクリート余弦変換(ABSDCT)技術を用いて割り当てられる。ブロックサイズは与えられた領域内の微細部の総量に基づいて変化する。2×2、4×4、8×8、16×16、あるいは32×32等の任意のブロックサイズが使用可能である。
【0044】
符号化されたデータはそこで、312でピクセル領域から周波数領域におけるエレメントに変換するための処理を受ける。これは、図2の中に述べられたようにDCTおよびDQT処理を含む。DCT/DQT処理はまた、“バタフライ処理装置を使用してディスクリート余弦変換を計算するための装置および方法”と題された、出願中の米国特許出願シリアル番号未知の、2001年6月6日に出願された、代理人整理番号990437の中に記述されており、そしてそれは参照によって特に組み込まれている。
【0045】
符号化された周波数領域エレメントはそこで316で量子化される。量子化は係数量子化に先立ってコントラスト感度に従った周波数重み付けを含むことが可能である。周波数領域において符号化されたデータの結果となるブロックは、符号化すべきはるかに少ない0でない係数を有している。隣接したフレーム内の、周波数領域において符号化されたデータの対応するブロックは、典型的には0の位置およびパターンおよび係数の大きさに関して、同様な特性を有している。量子化された周波数エレメントはそこで、320でデルタコード化される。デルタコーダは隣接フレームを横切る0でない係数に関する係数差分を計算し、そして情報を損失なく符号化する。情報を損失なく符号化することは、324の連続化および328のランレングス振幅コーディングによって達成される。一つの実施例においては、ランレングス振幅コーディングはハフマンコーディング等のエントロピーコーディングを伴っている。連続化処理324は、より長いランレングス、そしてそれによってデルタコーダの効率のさらなる増加を達成するために、関係するフレームを越えて延長することが可能である。一つの実施例においては、ジグザグ順序付けがまた利用される。
【0046】
図4は、デルタコーダ400の動作を示す。複数の隣接したフレームは、最初のフレームすなわちアンカーフレーム、および対応する隣接フレームすなわち後続フレームとして見なすことが可能である。最初に404においてアンカーフレームの周波数領域におけるエレメントのブロックが入力される。次のすなわち後続のフレームからのエレメントの対応するブロックはまた408において読み込まれる。一つの実施例においては、16×16のブロックサイズは、BSAによってブロックサイズの破壊を顧慮することなく使用される。しかしながら、任意のブロックサイズが使用可能であろうということが期待される。
【0047】
一つの実施例においては、BSAによって定義されるように可変ブロックサイズが使用可能である。アンカーフレームおよび後続フレームに関する対応するエレメント間の差が412で決定される。一つの実施例においては、アンカーフレームおよび各後続フレーム内のブロックに関する対応するAC値のみが比較される。他の実施例においては、DC値およびAC値の両者が比較される。したがって、後続フレームは、差が適切なアンカーフレームと組み合わせられている限りは、416においてアンカーフレームおよび後続フレーム間の差の結果として表現されることが可能である。ブロックごとに処理して、アンカーフレームおよび後続フレームのすべての対応するエレメントは比較されそして差が計算される。そこで、他の後続フレームがあるか否かに関して質問420がなされる。もしもそうである場合は、アンカーフレームは、同じ方法で、次の後続フレームと比較される。この処理は、アンカーフレームおよびすべての組み合わせられた後続フレームが計算されるまで繰り返される。
【0048】
一つの実施例においては、任意の数のフレームが使用可能であることが期待されているにもかかわらず、アンカーフレームは4個の後続フレームと組み合わせられる。他の実施例においては、アンカーフレームは、N個の後続フレームと組み合わせられる。ここで、Nは画像シーケンスの相関特性に依存する。換言すれば、一度アンカーフレームおよび与えられた後続フレーム間の計算された差が特定のしきい値と交われば、新しいアンカーフレームが確立される。一つの実施例においては、しきい値はあらかじめ設定されている。約95%のフレーム間の相関は、許容可能なビットレートを維持する一方で、品質考慮と平衡していることが見出されてきている。しかしながら、これは基礎となっている素材に基づいて変化することが可能である。他の実施例においてはしきい値は任意の相関レベルに適合可能である。
【0049】
なお他の実施例においては、ローリングアンカーフレームが利用される。最初の後続フレームに関する計算において、後続フレームは新しいアンカーフレーム424になり、そしてそのフレームのその隣接フレームとの比較が実行される。このようにして、アンカーフレームと後続フレームとの間の差の決定において、後続フレームが対抗して比較されるべき新しいアンカーフレームになる。たとえば、もしもフレーム1がアンカーフレームでありそしてフレーム2が後続フレームである場合、フレーム1およびフレーム2の間の差は上に記述された方法で決定される。フレーム2は、これによってフレーム3が対抗して比較される新しいアンカーフレームとなり、そして対応するエレメント間の差が再び計算される。この処理は、素材のすべてのフレームを通じて繰り返される。
【0050】
実施例の観点における圧縮符号化アルゴリズムおよび方法は、多くの圧縮およびディジタルビデオ処理体系の中に含まれることが可能である。本発明の実施例は、計算機あるいはディジタルビデオに関する圧縮および符号化を実行するカスタム化された特定用途向け集積回路上に存在することが可能である。アルゴリズムそれ自身は、ソフトウエア内で、あるいはプログラマブルあるいはカスタムハードウエア内で実行可能である。
【0051】
図1に戻り参照して、可変長復号器120の出力は、係数を使用された走査体系に従って順序づけする逆ジグザグ走査連続化器122に与えられる。逆ジグザグ走査連続化器122は、複合係数ブロックの中への係数の通常の順序付けを援助するために、PQRデータを受信する。
【0052】
複合ブロックは、周波数重み付けマスクの使用に帰すべき処理を取り消すために、逆量子化器124に与えられる。結果となる係数ブロックはそこで、もしも差分カッドツリー変換が適用されている場合は、IDCTエレメント128に先立って、IDQTエレメント126に与えられる。そうでない場合は、係数ブロックは、直接にIDCTエレメント128に与えられる。IDQTエレメント126およびIDCTエレメント128は、ピクセルデータのブロックを生成するために、係数を逆変換する。ピクセルデータはそこで、補間され、RGB形式に変換され、そしてそこで将来の表示のために保存されなければならないことが可能である。
【0053】
例として、種々の例となる論理ブロック、フローチャート、およびこの中に開示された実施例と関連して記述されたステップが、特定用途向け集積回路(ASIC)、プログラマブル論理デバイス、ディスクリートゲートあるいはトランジスタ論理、たとえば抵抗器およびFIFO等のディスクリートハードウエア部品、一連のファームウエア命令を実行する処理装置、任意の従来のプログラマブルソフトウエアおよび処理装置、あるいは任意のこれらの組み合わせを備えたハードウエアあるいはソフトウエア内で実現されあるいは実行されることが可能である。処理装置は、好都合に、マイクロ処理装置であるかも知れず、しかし、代わりに処理装置は任意の従来の処理装置、制御器、マイクロ制御器あるいはステートマシンであるかもしれない。ソフトウエアは、RAMメモリ、フラッシュメモリ、ROMメモリ、抵抗器、ハードディスク、リムーバブルディスク、CD‐ROM、DVD‐ROM、あるいは当業界において知られる記録媒体の任意の他の形式の中に存在することが可能である。
【0054】
望ましい実施例に関する以上の記述は、当業界において熟練したいかなる人にも、本発明を作成し、あるいは使用することを可能にするために与えられる。これらの実施例に対する種々の修正は、当業界において熟練した人々には容易に明白であろうし、そしてここに定義された一般的な原理は、独創的能力を使用することなしに、他の実施例に適用可能である。したがって、本発明は、ここに示された実施例に限定されることを意図したものではなく、しかしここに開示された原理および新しい特徴と矛盾しない最も広い範囲に一致されるべきものである。
【図面の簡単な説明】
【0055】
【図1】図1は、変動に基づいたブロックサイズ割り当てシステムおよび本発明の方法を合体した、画像処理システムのブロック線図である。
【図2】図2は、変動に基づいたブロックサイズ割り当てを伴う処理ステップを示しているフロー線図である。
【図3】図3は、インターフレームコーディングを伴う処理ステップを示しているフロー線図である。
【図4】図4は、デルタコーダの動作を伴う処理ステップを示しているフロー線図である。
【符号の説明】
【0056】
100…画像処理システム、 102…符号器、 104…伝送チャネル、 106…復号器、 108…エレメント、 110…DCTエレメント、 112…DQTエレメント、 114…量子化器、 115…デルタコーダ、 116…連続化器、 118…可変長コーダ、 120…可変長復号器、 122…逆ジグザグ走査連続化器、 124…逆量子化器、 126…IDQTエレメント、 128…IDCTエレメント、 300…インターフレームコーダ、 324…連続化処理、 400…デルタコーダ、 420…質問、 424…アンカーフレーム、
【0001】
本発明は、ディジタル信号処理に関する。とくに、本発明は、ディジタル画像情報を符号化することに関する損失のない方法に関する。
【背景技術】
【0002】
ディジタル画像処理は、ディジタル信号処理に関する一般的研究分野において卓越した位置を有する。人間の視覚の重要性は、当業界およびディジタル画像処理の科学においては大きな興味と発展を促進してきている。フイルムあるいは映画の投影に対して用いられるそれらのような、ビデオ信号の伝送及び受信の分野においては、画像圧縮技術に対する種々の改良がなされてきている。従来の、そして提案されているビデオシステムの多くは、ディジタル符号化技術を使用している。この分野の観点は、画像コーディング、画像回復、および画像特徴選定を含む。画像コーディングは、ディジタル通信チャネルの画像を効率的な手段で、同時にある限界内の歪みを有しながら、必要とされる帯域幅を最小とするためにできるだけ少ないビットを使用して送信するための試みを示している。画像回復は、対象の真の画像を回復するための努力を示している。通信チャネル上に送信されている符号化された画像は、種々の要因によって歪みを与えられて来ているかもしれない。劣化の原因は、対象からの画像を作り出すときに初めから始まっているかもしれない。特徴選定は、画像のある特質の選定に帰される。このような特質は、認識、分類、およびより広い情況における決定において必要とされるかもしれない。
【0003】
ディジタル映画におけるそれのように、ビデオのディジタル符号化は、改善された画像圧縮技術から利益を得る分野である。ディジタル画像圧縮は、一般に二つの領域、損失のないおよび損失のある方法に分類されることが可能である。損失のない画像は、情報に関するいかなる損失もなしに回復される。損失のある方法は、圧縮比、圧縮アルゴリズムの品質、およびアルゴリズムの実行によって変化する、若干の情報に関する回復困難な損失を含む。一般に、損失のある圧縮アプローチは、コスト効果のあるディジタル映画アプローチに対して、必要とされる圧縮比を得るために考慮される。ディジタル映画品質レベルを達成するために、圧縮アプローチは、特性に関する視覚的に損失のないレベルを与えなければならない。このように、圧縮処理の結果として情報に関する数学的な損失があるにも拘らず、この損失に起因する画像の歪みは、通常の観察条件の下では、見る人にとって気づかれない程度でなければならない。
【0004】
現在のディジタル画像圧縮技術は他の応用に対して、すなわちテレビジョンシステムに対して開発されてきている。この技術は、意図された応用に対しては適切な設計的妥協がなされているが、映画上映に対して必要とされる品質要求条件を満足していない。
【0005】
ディジタル映画圧縮技術は、映画ファンが以前に経験している視覚的品質を与えなければならない。理想的には、ディジタル映画の視覚的品質は、高品質封切りプリントフィルムのそれを超えることを試みるべきである。同時に、圧縮技術は実用的な高いコーディング効率を有しなければならない。ここに定義されたように、コーディング効率は、ある質的なレベルを満足させるために、圧縮された画像品質に必要とされるビットレートに帰せられる。
【0006】
ビデオ圧縮技術は、典型的には差分パルスコード変調(DPCM;differential pulse code modulation)、ディスクリート余弦変換(DCT;discrete cosine transform)、動き補償(MC;motion compensation)、エントロピーコーディング、フラクタル圧縮(fractual compression)、およびウエーブレット変換をもとにしている。ビデオ信号に対する品質の望ましいレベルを保ちながら、十分な圧縮レベルを提供する能力のある一つの圧縮技術は、符号化されたDCT係数データに関する適応するような大きさに作られたブロックおよびサブブロックを利用している。この技術は以後、適応ブロックサイズ差分余弦変換(ABSDCT;Adaptive Block Size Differential Cosine Transform)法として参照される。
【0007】
ビデオ圧縮に関する重要な見地は、連続した隣接フレーム間の類似性である。この領域における有力な現存の技術は、MPEG(Motion Picture Experts Group)におけるような動き補償である。動き補償は連続した隣接フレームからの不完全な予測を用いて画像をコーディングすることによって行われる。このような予測および/あるいは補償体系は、最初のソースおよび復号されたビデオシーケンス間に誤差をもたらす。しばしば、これらの誤差は容認できないレベルに高まり、高い画像品質の応用において好ましくない問題をもたらす。たとえば、動きアーチファクト(motion artifact)は動画符号化エクスパートグループ(MPEG)の圧縮された素材の中にしばしば見られる。動きアーチファクトは、現在のフレーム上に、前のあるいは将来のフレームの影響を見ることが可能であること、すなわちゴーストに帰せられる。このような動きアーチファクトはまた、フレーム毎のビデオ編集を困難な仕事とする。したがって必要とされるものは、現在のインターフレーム(inter-frame)符号化技術の欠点を克服し、そして動きアーチファクトのような可視欠陥を最小にするインターフレーム符号化体系である。
【発明の開示】
【課題を解決するための手段】
【0008】
本発明の実施例は、任意の変換に基づいた圧縮技術によって提供される圧縮利得を効率的に増加し、そしていかなる付加的な歪みももたらさない、インターフレームコーディング方法を利用している。ここでデルタコーダ(delta coder)、あるいはデルタコーディング処理として参照されるこれらの方法は、周波数領域におけるビデオシーケンス内の空間的なそして時間的な冗長度を利用している。それは、デルタコーダは、一つのフレームから次への小さい変化が存在するときはいつでも、時間領域に関する高い相関度が存在するシーケンスを利用しているということである。このように、ビデオシーケンス内の隣接したフレーム間には、変換領域特性が著しく一貫して残っている。
【0009】
ディジタルビデオを符号化するためのシステムにおいては、インターフレームコーディングに関する方法が述べられる。ディジタルビデオは、アンカーフレーム(anchor frame)および少なくとも1個の後続フレームを含む。各アンカーフレームおよび各後続フレームは、複数のピクセルエレメントを含む。アンカーフレームおよび各後続フレームの複数のピクセルは、ピクセル領域エレメントから周波数領域エレメントに変換される。周波数領域エレメントは、人間の視覚システムにとってより敏感であるこれらのエレメントを強調するように、そして人間の視覚システムにとって鈍感であるこれらのエレメントを強調しないように量子化される。アンカーフレームの各量子化された周波数領域エレメントおよび、対応する各後続フレームの量子化された周波数領域エレメント間の差が決定される。一つの実施例においては、アンカーフレームは後続フレームのあらかじめ設定された数と組み合わせられる。他の実施例においては、アンカーフレームは、後続フレームとアンカーフレーム間の相関特性が容認できないレベルに達するまで、後続フレームと組み合わせられる。なお他の実施例においては、ローリングアンカーフレーム(rolling anchor frame)が利用される。
【0010】
よって、画像データを効率的に符号化することが、本発明の特徴でありそして利点である。
動きアーチファクトの影響を最小にすることが、本発明の他の特徴でありそして利点である。
【発明を実施するための最良の形態】
【0011】
本発明の特徴、目的、そして利点が、図面と関連させた場合に、以下に記述する詳細な説明からより明白になろう。図面において同様の参照符号は、全体を通じてそしてこの中で同一のものと認定する。
ディジタル信号のディジタル伝送を容易にしそしてそれに応じた利益を受けるために、一般的には信号圧縮の若干の形式を使用することが必要である。その結果となる画像における高分解能を達成するために画像の高品質が保持されることがまた重要である。さらに、計算上の効率がコンパクトなハードウエア実現のために望まれ、そしてそれは多くの応用において重要である。
【0012】
一つの実施例においては、本発明の画像圧縮はディスクリート余弦変換(DCT)技術に基づいている。一般的にディジタル領域内で処理されるべき画像は、重なり合っていないブロック、サイズN×Nのアレイに分割されたピクセルデータを含むであろう。2次元のDCTは各ブロックで実現されることが可能である。2次元のDCTは次の関係によって定義される。
【0013】
【数1】
ここで、
【0014】
【数2】
そして、
x(m,n)はN×Mブロック内のピクセル位置(m,n)であり、そして
X(k,l)は対応するDCT係数である。
ピクセル値は負ではないのでDCT成分、X(0,0)はつねに正であり、そして通常最高のエネルギーを有している。事実、典型的な画像に対しては変換エネルギーの大部分は成分、X(0,0)の周囲に集中している。このエネルギー圧縮特性はDCT技術をこのような魅力的な圧縮方法にしている。
【0015】
大部分の自然な画像は、単調な比較的ゆっくりと変化する領域と、対象物との境界およびコントラストの大きい組織等のたえず変化している領域からなっていることが観察されている。コントラストに適応するコーディング体系は、たえず変化している領域により多いビットを、そしてより変化の少ない領域により少ないビットを割り当てることによって、この要因に関して利点を有している。この技術は、“適応ブロックサイズ画像圧縮方法およびシステム”と題された、本発明の譲受人に譲渡されそして参照によってこの中に組み込まれている、米国特許5,021,891の中に開示されている。DCT技術はまた、“適応ブロックサイズ画像圧縮方法およびシステム”と題された、本発明の譲受人に譲渡されそして参照によってこの中に組み込まれている、米国特許5,107,345の中に開示されている。さらに、差分カッドツリー(Differential Quadtree)変換技術とともにABSDCT技術を使用することは、“適応ブロックサイズ画像圧縮方法およびシステム”と題された、これもまた本発明の譲受人に譲渡されそして参照によってこの中に組み込まれている、米国特許5,452,104の中に論じられている。これらの特許の中に開示されたシステムは、“イントラフレーム”符号化として参照されるものを利用しており、そこでは、画像データの各フレームはいかなる他のフレームの内容も顧慮せずに符号化される。ABSDCT技術を用いると、画像品質に関する認識可能な劣化なしに到達可能なデータレートが十分に存在可能であろう。
【0016】
ABSDCTを用いて、ビデオ信号は一般に処理のためにピクセルのブロックに分けられるであろう。各ブロックに対して、輝度および色差成分はブロックインターリーバに通される。たとえば、16×16(ピクセル)ブロックはブロックインターリーバに与えられ、これは画像サンプルを、ディスクリート余弦変換(DCT)解析のために、データのブロックおよび複合サブブロックを生成するため、各16×16ブロックの中に配列しあるいは組織化する。DCT演算子は、時間的にサンプルされた信号を同じ信号の周波数表示に変換する一つの方法である。量子化器は画像の周波数分布特性を利用するよう設計が可能であるために、周波数表示に変換することによって、DCT技術は非常に高い圧縮レベルを可能にすることを示して来ている。好ましい実施例においては、1個の16×16DCTは、1番目の順序づけに適用され、4個の8×8DCTは、2番目の順序づけに適用され、16個の4×4DCTは、3番目の順序づけに適用され、そして64個の22DCTは、4番目の順序づけに適用される。
【0017】
画像処理の目的に対しては、DCT操作は、重なり合っていないブロックのアレイの中に分割されているピクセルデータ上で実行される。この中ではブロックサイズはサイズN×Nであるとして論じられるが、種々のブロックサイズが使用可能であることが想像されることに留意すべきである。たとえば、N×Mブロックサイズが利用可能であり、そこでは、NおよびMの両者は整数であってMは、Nよりもより大きいかあるいはより小さい何れかである。他の重要な観点は、ブロックはN/i×N/i、N/i×N/j、N/i×M/j等のように、少なくともサブブロックの1個のレベルまで分割可能であることである。ここでiおよびjは整数である。さらに、ここに論じられるように典型的なブロックサイズは、DCT係数に関するブロックおよびサブブロックに対応している16×16ピクセルブロックである。共に偶数あるいは奇数の整数値であるような種々の他の整数、たとえば9×9が使用可能であることがさらに想像される。
【0018】
一般に画像は、処理のためにピクセルのブロックに分割される。カラー信号はRGB空間から、輝度あるいは明るさ成分であるY、および色差あるいは色彩成分であるC1およびC2をもったYC1C2空間に、変換が可能である。眼は色彩に対して空間的感度が低いのため、多くのシステムは水平および垂直方向に対しては4の約数(factor)によりC1およびC2成分をサブサンプルする。しかしながらサブサンプリングは必要ではない。4:4:4フォーマットとして知られるフルリゾリューション画像は、非常に有用であるか“ディジタル映画”カバリングとして参照されるそれらのような若干の応用において必要であるかの何れかである。二つの可能なYC1C2表示はYIQ表示およびYUV表示であり、その両者は当業界においてはよく知られている。YCbCrとして知られているYUV表示の変形も使用することがまた可能である。
【0019】
さて図1を参照すると、本発明を組み入れた画像処理システム100が示されている。画像処理システム100は、受信されたビデオ信号を圧縮する符号器102を含む。圧縮された信号は物理的媒体を通して、伝送チャネル104を通して、送信されあるいは運ばれ、そしてそして復号器106によって受信される。復号器106は受信した信号を画像サンプルの中に復号し、そしてそれはそこで表示される。
【0020】
望ましい実施例においては、各Y、Cb、およびCr成分はサブサンプリングなしに処理される。したがって、ピクセルの16×16ブロックの入力は符号器102に与えられる。符号器102は、ビデオ圧縮のための準備にブロックサイズ割り当てを実行するブロックサイズ割り当てエレメント108を含むことが可能である。ブロックサイズ割り当てエレメント108は、ブロック内の画像の知覚特性に基づいて16×16ブロックのブロック分解を決定する。ブロックサイズ割り当ては16×16ブロック内の活性度によって、カッドツリー様式で各16×16ブロックをより小さいブロックにサブ分割する。ブロックサイズ割り当てエレメント108は、PQRデータと呼ばれるその長さが1および21ビットの間にあることが可能な、カッドツリーデータを発生する。このようにして、もしもブロックサイズ割り当てが16×16ブロックは分割されるべきであると決定した場合は、PQRデータのRビットはセットされ、そして4個の分割された8×8ブロックに対応するQデータの4個の付加的なビットが後に続く。もしもブロックサイズ割り当てが、8×8ブロックの何れかがサブ分割されるべきであると決定する場合は、そこで、サブ分割された各8×8ブロックに対する、Pデータの4個の付加的なビットが加えられる。
【0021】
さて図2を参照して、ブロックサイズ割り当てエレメント108の動作に関する詳細を示しているフロー線図が与えられる。アルゴリズムはブロックをサブ分割する決定にあたって、メトリックとしてブロックの分散を使用する。ステップ202の最初に、ピクセルの16×16ブロックが読み込まれる。ステップ204において、16×16ブロックの変動(variance)v16が計算される。変動は次のようにして計算される。
【0022】
【数3】
ここでN=16、そしてxi,jは、N×Nブロック内のi番目の列、j番目の行のピクセルである。ステップ206において、もしもブロックの平均値が二つのあらかじめ設定された値の間にある場合は、最初に変動しきい値T16が、新しいしきい値T’16を与えるために修正され、そこでブロック変数は新しいしきい値T’16に対して比較される。
【0023】
もしも変動v16がしきい値T16よりも大きくない場合はそこで、ステップ208において16×16ブロックの開始アドレスが書き込まれ、そしてPQRデータのRビットは、16×16ブロックはサブ分割されないことを示すために0にセットされる。アルゴリズムはそこで、ピクセルの次の16×16ブロックを読み込む。もしも変動v16が、しきい値T16よりも大きい場合はそこで、ステップ210においてPQRデータのRビットは、16×16ブロックは4個の8×8ブロックにサブ分割されるべきであることを示すために1にセットされる。
【0024】
4個の8×8ブロックi=1:4は、ステップ212に示されるように、さらなるサブ分割に対して続けて考慮される。各8×8ブロックに対して変動v8iが、ステップ214において計算される。ステップ216において、もしもブロックの平均値が二つのあらかじめ設定された値の間にある場合は、最初に変動しきい値T8は新しいしきい値T’8を与えるために修正される。そこで、ブロック変数はこの新しいしきい値と比較される。
【0025】
もしも変動v8iが、しきい値T8よりも大きくない場合はそこで、ステップ218において8×8ブロックの開始アドレスが書き込まれ、そして対応するQビット、Qiは0にセットされる。次の8×8ブロックがそこで処理される。もしも変動v8iが、しきい値T8よりも大きい場合はそこで、ステップ220において、対応するQビット Qiは、8×8ブロックは4個の4×4ブロックにサブ分割されるべきであることを示すために1にセットされる。
【0026】
4個の4×4ブロック、ji=1:4は、ステップ222に示されるように、さらなるサブ分割に対して続けて考慮される。各4×4ブロックに対して変動v4ijがステップ224において計算される。ステップ226において、もしもブロックの平均値が二つのあらかじめ設定された値の間にある場合は、最初に変動しきい値T4は新しいしきい値T’4を与えるために修正される。そこで、ブロック変動は、この新しいしきい値と比較される。
【0027】
もしも変動v4ijがしきい値T4よりも大きくない場合はそこで、ステップ228において4×4ブロックのアドレスが書き込まれ、そして対応するPビットPijは0にセットされる。次の4×4ブロックがそこで処理される。もしも変動v4ijがしきい値T4よりも大きい場合はそこで、ステップ230において、対応するPビット Pijは、4×4ブロックは4個の2×2ブロックにサブ分割されるべきであることを示すために1にセットされる。さらに、4個の2×2ブロックのアドレスが書き込まれる。
【0028】
しきい値T16、T8、およびT4は、あらかじめ設定された定数であることが可能である。このことは、ハードな決定として知られている。代わりに、適応、あるいはソフトな決定が実行されることが可能である。ソフトな決定は、2N×2Nブロックの平均ピクセル値によって、変動に対するしきい値を変化させる。ここで、Nは、8、4、あるいは2であることが可能である。このようにして、平均ピクセル値の関数はしきい値として使用可能である。
【0029】
説明の目的のために、次の例を考慮しよう。Y成分に対するあらかじめ設定された変動しきい値を、16×16、8×8、および4×4ブロックそれぞれに対して、50、1100、および880であるとしよう。換言すれば、T16=50、T8=1100、そしてT16=880である。平均値の範囲は80および100であるとしよう。16×16ブロックに対する計算された変動は60であると仮定する。60およびその平均値90はT16よりも大きいので、16×16ブロックは4個の8×8サブブロックにサブ分割される。8×8ブロックに対する計算された変動は1180、935、980、および1210であると仮定する。8×8ブロックの2個はT8を超える変動を有しているので、これらの2個のブロックは、合計8個の4×4サブブロックを生成するためにさらにサブ分割される。最後に、8個の4×4ブロックの変動は、最初の4個の対応する平均値90、120、110、115とともに、620、630、670、610、590、525、930、および690であると仮定する。最初の4×4ブロックの平均値は、範囲(80、100)の中にあるので、そのしきい値は880よりも小さいT’4=200に下げられるであろう。そこで、この4×4ブロックは7番目の4×4ブロックと同様にサブ分割されるであろう。
【0030】
同様な処理が、色彩成分C1およびC2に対してブロックサイズを割り当てるために使用されることは記憶されるべきである。色彩成分は、水平方向に、垂直方向に、あるいは両方に、デシメートされることが可能である。さらにブロックサイズ割り当ては、最大のブロック(この例においては16×16)が最初に評価されるトップダウンアプローチとして記述されてきているが、ボトムアップアプローチが代わりに使用可能であることは記憶されるべきである。ボトムアップアプローチは、最小のブロック(この例においては2×2)を最初に評価するであろう。
【0031】
図1に戻り参照して、画像処理システム110の残りが記述されるであろう。選定されたブロックのアドレスと共に、PQRデータはDCTエレメント110に与えられる。DCTエレメント110はPQRデータを、選定されたブロック上に適切なサイズのディスクリート余弦変換を実行するために使用する。選定されたブロックのみがDCT処理を受ける必要がある。
【0032】
画像処理システム100は、随意に、DCTのDC係数の中の冗長度を減らすために、DQTエレメント112を含むことが可能である。DC係数は各DCTブロックの左上隅に見出される。DC係数は一般にAC係数に比較して大きい。サイズにおけるこの不一致は、効率的な可変長コーダを設計することを困難にしている。したがって、DC係数内の冗長度を減らすことは有利である。
【0033】
DQTエレメント112は、一度に2×2を取り、DC係数上に2−D DCTを実行する。4×4ブロック内の2×2ブロックで出発して、2−D DCTは4個のDC係数上に実行される。この2×2DCTは、4個のDC係数に関する差分カッドツリー変換(differential quad-tree transform)またはDQTと呼ばれる。次に、8×8ブロックにおいて3個の隣接するDC係数とともにDQTのDC係数が、次のレベルのDQTを計算するために使用される。最後に、16×16ブロック内の4個の8×8ブロックに関するDC係数がDQTを計算するために使用される。このようにして、16×16ブロック内には1個の真のDC係数が存在し、そして残りはDCTおよびDQTに対応するAC係数である。
【0034】
変換係数(DCTおよびDQTの両者)は、量子化のために量子化器114に与えられる。望ましい実施例においては、DCT係数は周波数重み付けマスク(frequency weighting masks)(FWM)および量子化スケールファクタを用いて量子化される。FWMは、入力DCT係数のブロックとして、同じサイズに関する周波数重み付けの表である。周波数重み付けは異なったDCT係数に対して異なった重み付けを適用することである。重み付けは人間の視覚システムがより敏感である周波数成分を有している入力サンプルを強調するように、そして視覚システムがより敏感でない周波数成分を有しているサンプルを強調しないように設計されている。重み付けはまた、見る距離等の要因に基づいて設計することが可能である。
【0035】
ハフマン(Huffman)符号は、画像に関する測定されたあるいは理論的な統計 の何れかから設計されている。最も自然な画像は、単調なあるいは比較的ゆっくり変化している領域および、対象物の境界部およびコントラストの大きい組織等のたえず変化している領域からなっていることが観察されてきている。DCT等の周波数領域変換を伴ったハフマンコーダは、これらの特徴を、変化の激しい領域にはより多くのビットを、そして単調な領域にはより少ないビットを割り当てることによって利用している。一般にハフマンコーダは、ランレングスおよび0でない値を符号化するためにルックアップテーブルを使用している。
【0036】
重み付けは経験的なデータに基づいて選定される。8×8DCT係数に対する重み付けマスク設計のための方法は、ISO/IEC JTC1 CD 10918“連続トーン静止画像に関するディジタル圧縮および符号化‐第1部:要求およびガイドライン”、国際標準化機構、1994、の中に開示されている。そしてそれはここに、参照によって組み込まれている。一般に、一つは輝度成分に対するそして一つは色差成分に対する、2種類のFWMが設計される。ブロックサイズ2×2、4×4に対するFWM表はデシメーションによって、そして16×16は8×8ブロックに対するそれの補間によって得られる。スケールファクタは、量子化された係数の品質およびビットレートを制御する。
【0037】
このようにして、各DCT係数は関係
【0038】
【数4】
に従って量子化される。ここで、DCT(i,j)は、入力DCT係数、fwm(i,j)は周波数重み付けマスク、qはスケールファクタ、そしてDCTq(i,j)は量子化された係数である。DCT係数の符号によって、括弧内の第1項は切り上げあるいは切り下げられることは留意するべきである。DQT係数はまた、適切な重み付けマスクを用いて量子化される。しかしながら、複数のテーブルあるいはマスクが使用可能であり、そしてY、Cb、およびCr成分の各々に適用される。
【0039】
量子化された係数は、デルタコーダ115に与えられる。デルタコーダ115は、DCTあるいはABSDCT等の任意の変換に基づいた圧縮技術によって提供される圧縮利得を、いかなる付加的な歪みあるいは量子化雑音も加えない方法で効率的に増加する。デルタコーダ115は、隣接フレームを横切る0でない係数を形成する係数差分(coefficient differentials)を決定するよう形成されており、そして差分情報(differential information)を損失なく符号化する。他の実施例においては、差分情報は僅かの損失をともなって符号化される。このような実施例は、空間および/あるいは速度要求条件と品質考慮との平衡の点で望ましいかもしれない。
【0040】
アンカーフレームおよび対応する後続のフレームに関するデルタ符号化された係数は、ジグザグ走査連続化器116に与えられる。連続化器116は、量子化された係数の連続化されたストリームを生成するために、ジグザグ様式で量子化された係数のブロックを走査する。ジグザグ以外のパターンと同様に、いくつかの異なったジグザグ走査パターンがまた選択可能である。32×32、16×16、4×4、2×2あるいはこれらの組み合わせ等の他のサイズが使用可能であるけれども、一つの実施例はジグザグ走査に対して8×8ブロックサイズを使用する。
【0041】
ジグザグ走査連続化器116は、量子化器114の前あるいは後の何れかに置くことが可能である。最終の結果は同一である。
いずれの場合においても、量子化された係数のストリームは、可変長コーダ118に与えられる。可変長コーダ118は、符号化に先立って、0のランレングス符号化を使用することが可能である。この技術は、先に述べた米国特許5,021,891、5,107,345、および5,452,104の中に詳細に論じられ、そしてこの中に集約されている。ランレングスコーダは量子化された係数を取り上げ、連続していない係数から連続した係数のランを書き留める。連続した値はランレングス値として参照されそして符号化される。連続していない値は別々に符号化される。一つの実施例においては、連続した係数は0の値である。そして連続していない係数は0でない値である。典型的には、ランレングスは、0から63ビットまでであり、そしてサイズは、1から10のAC値である。ファイル符号の一端は付加的な符号を付加し、したがって、合計641の可能な符号が存在する。
【0042】
符号器102により発生された圧縮された画像信号は、伝送チャネル104を経由して復号器106に送信される。ブロックサイズ割り当て情報を含むPQRデータはまた、復号器106に与えられる。復号器106は、ランレングス値および0でない値を復号する可変長復号器120を含む。
【0043】
DCT等の周波数領域法は、ピクセルのブロックを相関のより少ないそしてより少ない変換された係数の新しいブロックに変換する。このような周波数領域圧縮体系はまた、符号化体系のこの目的とする特性を改善するために、画像の中に知覚された歪みに関する知識を使用する。図3は、インターフレームコーダ300に関するこのような処理を示す。符号化されたフレームデータは、最初にピクセル領域において304で、システム内に読み込まれる。符号化されたデータの各フレームはそこで、308でピクセルブロックの中に分割される。一つの実施例においては、ブロックサイズは可変であり、そして適応ブロックサイズディスクリート余弦変換(ABSDCT)技術を用いて割り当てられる。ブロックサイズは与えられた領域内の微細部の総量に基づいて変化する。2×2、4×4、8×8、16×16、あるいは32×32等の任意のブロックサイズが使用可能である。
【0044】
符号化されたデータはそこで、312でピクセル領域から周波数領域におけるエレメントに変換するための処理を受ける。これは、図2の中に述べられたようにDCTおよびDQT処理を含む。DCT/DQT処理はまた、“バタフライ処理装置を使用してディスクリート余弦変換を計算するための装置および方法”と題された、出願中の米国特許出願シリアル番号未知の、2001年6月6日に出願された、代理人整理番号990437の中に記述されており、そしてそれは参照によって特に組み込まれている。
【0045】
符号化された周波数領域エレメントはそこで316で量子化される。量子化は係数量子化に先立ってコントラスト感度に従った周波数重み付けを含むことが可能である。周波数領域において符号化されたデータの結果となるブロックは、符号化すべきはるかに少ない0でない係数を有している。隣接したフレーム内の、周波数領域において符号化されたデータの対応するブロックは、典型的には0の位置およびパターンおよび係数の大きさに関して、同様な特性を有している。量子化された周波数エレメントはそこで、320でデルタコード化される。デルタコーダは隣接フレームを横切る0でない係数に関する係数差分を計算し、そして情報を損失なく符号化する。情報を損失なく符号化することは、324の連続化および328のランレングス振幅コーディングによって達成される。一つの実施例においては、ランレングス振幅コーディングはハフマンコーディング等のエントロピーコーディングを伴っている。連続化処理324は、より長いランレングス、そしてそれによってデルタコーダの効率のさらなる増加を達成するために、関係するフレームを越えて延長することが可能である。一つの実施例においては、ジグザグ順序付けがまた利用される。
【0046】
図4は、デルタコーダ400の動作を示す。複数の隣接したフレームは、最初のフレームすなわちアンカーフレーム、および対応する隣接フレームすなわち後続フレームとして見なすことが可能である。最初に404においてアンカーフレームの周波数領域におけるエレメントのブロックが入力される。次のすなわち後続のフレームからのエレメントの対応するブロックはまた408において読み込まれる。一つの実施例においては、16×16のブロックサイズは、BSAによってブロックサイズの破壊を顧慮することなく使用される。しかしながら、任意のブロックサイズが使用可能であろうということが期待される。
【0047】
一つの実施例においては、BSAによって定義されるように可変ブロックサイズが使用可能である。アンカーフレームおよび後続フレームに関する対応するエレメント間の差が412で決定される。一つの実施例においては、アンカーフレームおよび各後続フレーム内のブロックに関する対応するAC値のみが比較される。他の実施例においては、DC値およびAC値の両者が比較される。したがって、後続フレームは、差が適切なアンカーフレームと組み合わせられている限りは、416においてアンカーフレームおよび後続フレーム間の差の結果として表現されることが可能である。ブロックごとに処理して、アンカーフレームおよび後続フレームのすべての対応するエレメントは比較されそして差が計算される。そこで、他の後続フレームがあるか否かに関して質問420がなされる。もしもそうである場合は、アンカーフレームは、同じ方法で、次の後続フレームと比較される。この処理は、アンカーフレームおよびすべての組み合わせられた後続フレームが計算されるまで繰り返される。
【0048】
一つの実施例においては、任意の数のフレームが使用可能であることが期待されているにもかかわらず、アンカーフレームは4個の後続フレームと組み合わせられる。他の実施例においては、アンカーフレームは、N個の後続フレームと組み合わせられる。ここで、Nは画像シーケンスの相関特性に依存する。換言すれば、一度アンカーフレームおよび与えられた後続フレーム間の計算された差が特定のしきい値と交われば、新しいアンカーフレームが確立される。一つの実施例においては、しきい値はあらかじめ設定されている。約95%のフレーム間の相関は、許容可能なビットレートを維持する一方で、品質考慮と平衡していることが見出されてきている。しかしながら、これは基礎となっている素材に基づいて変化することが可能である。他の実施例においてはしきい値は任意の相関レベルに適合可能である。
【0049】
なお他の実施例においては、ローリングアンカーフレームが利用される。最初の後続フレームに関する計算において、後続フレームは新しいアンカーフレーム424になり、そしてそのフレームのその隣接フレームとの比較が実行される。このようにして、アンカーフレームと後続フレームとの間の差の決定において、後続フレームが対抗して比較されるべき新しいアンカーフレームになる。たとえば、もしもフレーム1がアンカーフレームでありそしてフレーム2が後続フレームである場合、フレーム1およびフレーム2の間の差は上に記述された方法で決定される。フレーム2は、これによってフレーム3が対抗して比較される新しいアンカーフレームとなり、そして対応するエレメント間の差が再び計算される。この処理は、素材のすべてのフレームを通じて繰り返される。
【0050】
実施例の観点における圧縮符号化アルゴリズムおよび方法は、多くの圧縮およびディジタルビデオ処理体系の中に含まれることが可能である。本発明の実施例は、計算機あるいはディジタルビデオに関する圧縮および符号化を実行するカスタム化された特定用途向け集積回路上に存在することが可能である。アルゴリズムそれ自身は、ソフトウエア内で、あるいはプログラマブルあるいはカスタムハードウエア内で実行可能である。
【0051】
図1に戻り参照して、可変長復号器120の出力は、係数を使用された走査体系に従って順序づけする逆ジグザグ走査連続化器122に与えられる。逆ジグザグ走査連続化器122は、複合係数ブロックの中への係数の通常の順序付けを援助するために、PQRデータを受信する。
【0052】
複合ブロックは、周波数重み付けマスクの使用に帰すべき処理を取り消すために、逆量子化器124に与えられる。結果となる係数ブロックはそこで、もしも差分カッドツリー変換が適用されている場合は、IDCTエレメント128に先立って、IDQTエレメント126に与えられる。そうでない場合は、係数ブロックは、直接にIDCTエレメント128に与えられる。IDQTエレメント126およびIDCTエレメント128は、ピクセルデータのブロックを生成するために、係数を逆変換する。ピクセルデータはそこで、補間され、RGB形式に変換され、そしてそこで将来の表示のために保存されなければならないことが可能である。
【0053】
例として、種々の例となる論理ブロック、フローチャート、およびこの中に開示された実施例と関連して記述されたステップが、特定用途向け集積回路(ASIC)、プログラマブル論理デバイス、ディスクリートゲートあるいはトランジスタ論理、たとえば抵抗器およびFIFO等のディスクリートハードウエア部品、一連のファームウエア命令を実行する処理装置、任意の従来のプログラマブルソフトウエアおよび処理装置、あるいは任意のこれらの組み合わせを備えたハードウエアあるいはソフトウエア内で実現されあるいは実行されることが可能である。処理装置は、好都合に、マイクロ処理装置であるかも知れず、しかし、代わりに処理装置は任意の従来の処理装置、制御器、マイクロ制御器あるいはステートマシンであるかもしれない。ソフトウエアは、RAMメモリ、フラッシュメモリ、ROMメモリ、抵抗器、ハードディスク、リムーバブルディスク、CD‐ROM、DVD‐ROM、あるいは当業界において知られる記録媒体の任意の他の形式の中に存在することが可能である。
【0054】
望ましい実施例に関する以上の記述は、当業界において熟練したいかなる人にも、本発明を作成し、あるいは使用することを可能にするために与えられる。これらの実施例に対する種々の修正は、当業界において熟練した人々には容易に明白であろうし、そしてここに定義された一般的な原理は、独創的能力を使用することなしに、他の実施例に適用可能である。したがって、本発明は、ここに示された実施例に限定されることを意図したものではなく、しかしここに開示された原理および新しい特徴と矛盾しない最も広い範囲に一致されるべきものである。
【図面の簡単な説明】
【0055】
【図1】図1は、変動に基づいたブロックサイズ割り当てシステムおよび本発明の方法を合体した、画像処理システムのブロック線図である。
【図2】図2は、変動に基づいたブロックサイズ割り当てを伴う処理ステップを示しているフロー線図である。
【図3】図3は、インターフレームコーディングを伴う処理ステップを示しているフロー線図である。
【図4】図4は、デルタコーダの動作を伴う処理ステップを示しているフロー線図である。
【符号の説明】
【0056】
100…画像処理システム、 102…符号器、 104…伝送チャネル、 106…復号器、 108…エレメント、 110…DCTエレメント、 112…DQTエレメント、 114…量子化器、 115…デルタコーダ、 116…連続化器、 118…可変長コーダ、 120…可変長復号器、 122…逆ジグザグ走査連続化器、 124…逆量子化器、 126…IDQTエレメント、 128…IDCTエレメント、 300…インターフレームコーダ、 324…連続化処理、 400…デルタコーダ、 420…質問、 424…アンカーフレーム、
Claims (50)
- ディジタルビデオを符号化するためのシステムにおいて、なおディジタルビデオはアンカーフレームおよび少なくとも1個の後続フレームを含んでおり、なおアンカーフレームおよび各後続フレームは複数のピクセルエレメント、インターフレームコーディングの方法を含んでおり、方法は、
アンカーフレームおよび各後続フレームの複数のピクセルを、ピクセル領域エレメントから周波数領域エレメントに変換し、なお周波数領域エレメントはDCエレメントおよびACエレメントとして表されることが可能であり、
周波数領域エレメントを、人間の視覚システムにとってより敏感であるこれらのエレメントを強調し、そして人間の視覚システムにとって《より少なく敏感である》これらのエレメントを《強調しない》ために量子化し、そして
アンカーフレームの各量子化された周波数領域エレメント、および各後続フレームの対応する量子化された周波数領域エレメント間の差を決定する、
ことを含む方法。 - ここで、変換の動作はディスクリート余弦変換(DCT)を利用している、請求項1記載の方法。
- ここで、変換の動作はさらにディスクリートカッドツリー変換(DQT)を利用している、請求項2記載の方法。
- ここで、量子化の動作はさらに周波数重み付けマスクを使用してエレメントを重み付けすることを含む、請求項1記載の方法。
- ここで、量子化の動作はさらに量子化器ステップ機能(関数?)の利用を含む、請求項4記載の方法。
- ここで、4個の後続フレームはアンカーフレームに対して比較される、請求項1記載の方法。
- ここで、AC量子化された周波数領域エレメント間の差のみが決定される、請求項1記載の方法。
- さらに、複数のピクセルエレメントを16×16ブロックサイズに分類することを含む、請求項1記載の方法。
- ここで、量子化の動作は損失のない周波数領域エレメントをもたらす、請求項1記載の方法。
- ここで、量子化の動作は損失のある周波数領域エレメントをもたらす、請求項9記載の方法。
- さらに、後続のフレームを、アンカーフレームの量子化された周波数領域エレメントおよび後続フレームの対応する周波数領域エレメント間の差として表すことを含む、請求項1記載の方法。
- さらに、量子化された周波数領域エレメントを連続化することを含む、請求項1記載の方法。
- さらに、連続化された、量子化された周波数領域エレメントを可変長コーディングすることを含む、請求項12記載の方法。
- ディジタルビデオを符号化するためのシステムにおいて、なおディジタルビデオは複数のフレーム、1、2、3、…、Nを含んでおり、なお各フレームは複数のピクセルエレメント、インターフレームコーディングの方法を含んでおり、方法は、
各フレームの複数のピクセルを、ピクセルエレメントから周波数領域エレメントに変換し、なお周波数領域エレメントは列および行の中に表されることが可能であり、
周波数領域エレメントを、人間の視覚システムにとってより敏感なこれらのエレメントを強調し《demphasizeは誤りと思われる》、人間の視覚システムにとってより少なく敏感であるこれらのエレメントを強調しないために量子化し、そして
第1のフレームに関する量子化された周波数領域エレメント、および第2のフレームに関する対応する量子化された周波数領域エレメント間の差を決定し、そして
連続したフレームの量子化された周波数領域エレメント間の差を、各フレームの量子化された周波数領域エレメントがそのすぐ前に先行するフレームの量子化された周波数領域エレメントに対して比較されるようにして、決定する処理を繰り返す
ことを含む、方法。 - さらに、各フレーム2からNを、フレーム2からNの量子化された周波数領域エレメントおよびフレーム1からN−1の対応する周波数領域エレメントそれぞれの間の差として表すことを含む、請求項14記載の方法。
- ここで、変換の動作はディスクリート余弦変換(DCT)を利用する、請求項14記載の方法。
- ここで、変換の動作はさらにディスクリートカッドツリー変換(DQT)を利用する、請求項16記載の方法。
- ここで、量子化の動作はさらに周波数重み付けマスクを使用してエレメントを重み付けすることを含む、請求項14記載の方法。
- ここで、量子化の動作はさらに量子化器ステップ機能を利用する、請求項18記載の方法。
- ここで、AC量子化された周波数領域エレメント間の差のみが決定される、請求項14記載の方法。
- さらに、複数のピクセルエレメントを16×16ブロックサイズに分類することを含む、請求項14記載の方法。
- ここで、決定する動作は損失のない周波数領域エレメントをもたらす、請求項14記載の方法。
- ここで、決定する動作は損失のある周波数領域エレメントをもたらす、請求項14記載の方法。
- さらに、後続するフレームを、アンカーフレームの量子化された周波数領域エレメント、および後続するフレームの対応する周波数領域エレメント間の差として表すことを含む、請求項14記載の方法。
- さらに、量子化された周波数領域エレメントを連続化することを含む、請求項14記載の方法。
- さらに、連続化された量子化された周波数領域エレメントを可変長コーディングすることを含む、請求項25記載の方法。
- ここで、可変長符号化された、連続化された量子化された周波数領域エレメントは、ハフマン符号化される、請求項26記載の方法。
- ディジタルビデオを符号化するためのシステムにおいて、なおディジタルビデオはアンカーフレームおよび少なくとも1個の後続フレームを含んでおり、なおアンカーフレームおよび各後続フレームは複数のピクセルエレメント、インターフレームコーディングのために形成された装置を含んでおり、方法は、
アンカーフレームおよび各後続フレームの複数のピクセルを、ピクセル領域エレメントから周波数領域エレメントに変換するための手段と、なお周波数領域エレメントは、DCエレメントおよびACエレメントとして表示されることが可能であり、
周波数領域エレメントを、人間の視覚システムにとってより敏感なこれらのエレメントを強調し、そして人間の視覚システムにとってより少なく敏感であるこれらのエレメントを強調しないために、周波数領域エレメントを量子化するための手段と、そして
アンカーフレームの各量子化された周波数領域エレメントおよび各後続フレームの対応する量子化された周波数領域エレメント間の差を決定するための手段とを含む、
方法。 - ここで、変換するための手段はディスクリート余弦変換(DCT)を利用する請求項28記載の装置。
- ここで、変換するための手段はさらにディスクリートカッドツリー変換(DQT)を利用する、請求項29記載の装置。
- ここで、量子化するための手段はさらに周波数重み付けマスクを用いてエレメントを重み付けすることを含む、請求項28記載の装置。
- ここで、量子化するための手段はさらに量子化器ステップ機能を利用することを含む、請求項31記載の装置。
- ここで、4個の後続フレームはアンカーフレームに対して比較される、請求項28記載の装置。
- ここで、決定するための手段は、AC量子化された周波数領域エレメント間の差が決定されるかのみを決定する、請求項28記載の装置。
- さらに、複数のピクセルエレメントを16×16ブロックサイズに分類するための手段を含む、請求項28記載の装置。
- ここで、量子化のための手段は損失のない周波数領域エレメントをもたらす、請求項28記載の装置。
- ここで、量子化のための手段は損失のある周波数領域エレメントをもたらす、請求項36記載の装置。
- さらに、後続フレームを、アンカーフレームの量子化された周波数領域エレメント、および後続フレームの対応する周波数領域エレメント間の差として表すための手段を含む、請求項28記載の装置。
- さらに、量子化された周波数領域エレメントを連続化するための手段を含む、請求項28記載の装置。
- さらに、連続化された、量子化された周波数領域エレメントを可変長コーディングするための手段を含む、請求項39記載の装置。
- ディジタルビデオを符号化するためのシステムにおいて、なおディジタルビデオは複数のフレーム1、2、3、…、Nを含んでおり、なお各フレームは複数のピクセルエレメント、インターフレームコーディングの方法を含んでおり、装置は、
各フレームの複数のピクセルをピクセルエレメントから周波数領域エレメントに変換するための手段と、なお周波数領域エレメントは列および行の中に表示されることが可能であり、
周波数領域エレメントを、人間の視覚システムにとってより敏感であるこれらのエレメントを強調し、そして人間の視覚システムにとってより少なく敏感であるこれらのエレメントを強調しないために、量子化するための手段と、そして
第1のフレームの量子化された周波数領域エレメント、および第2のフレームの対応する量子化された周波数領域エレメント間の差を決定するための手段と、そして
連続したフレームの量子化された周波数領域エレメント間の差を、各フレームの量子化された周波数領域エレメントがそのすぐ前に先行するフレームの量子化された周波数領域エレメントに対して比較されるようにして、決定する処理を繰り返すための手段とを含む、
装置。 - さらに、各フレーム2からNを、フレーム2からNの量子化された周波数領域エレメント、およびそれぞれフレーム1からN−1の対応する周波数領域エレメント間の差として表すための手段を含む、請求項41記載の装置。
- さらに、後続のフレームを、アンカーフレームの量子化された周波数領域エレメント、および後続フレームの対応する周波数領域エレメント間の差として表現するための手段を含む、請求項41記載の装置。
- ディジタルビデオを符号化するためのシステムにおいて、なおディジタルビデオは複数のフレーム1、2、3、…、Nを含んでおり、なお各フレームは複数のピクセルエレメント、インターフレームコーディングの方法を含んでおり、装置は、
各フレームの複数のピクセルをピクセルエレメントから周波数領域エレメントに変換するよう形成されたDCT/DQT変圧器と、なお周波数領域エレメントは列および行の中に表示されることが可能であり、
人間の視覚システムにとってより敏感なこれらのエレメントを強調し、そして人間の視覚システムにとってより少なく敏感であるこれらのエレメントを強調しないために、周波数領域エレメントを量子化するよう形成された変圧器に接続された量子化器と、そして
第1のフレームの量子化された周波数領域エレメント、および第2のフレームの対応する量子化された周波数領域エレメント間の差を決定し、そして連続したフレームの量子化された周波数領域エレメント間の差を、各フレームの量子化された周波数領域エレメントは、そのすぐ前に先行するフレームの量子化された周波数領域エレメントに対して比較されるように、決定する処理を繰り返すよう形成された量子化器に接続されたデルタコーダと
を含む装置。 - ここで、AC量子化された周波数領域エレメント間の差のみが決定される、請求項44記載の装置。
- さらに、複数のピクセルエレメントを可変ブロックサイズに分類するよう形成された、ブロックサイズ割り当てを含む、請求項44記載の装置。
- ここで、デルタコーダは損失のない周波数領域エレメントを生成する、請求項44記載の装置。
- ここで、デルタコーダは損失のある周波数領域エレメントを生成する、請求項44記載の装置。
- さらに、量子化された周波数領域エレメントを受信し、そして量子化された周波数領域エレメントを再配列するよう形成された量子化器に接続された連続化器を含む、請求項44記載の装置。
- さらに、量子化された周波数領域エレメントを、可変長符号化するよう形成された連続化器に接続された可変長コーダを含む、請求項49記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/877,578 US20020191695A1 (en) | 2001-06-07 | 2001-06-07 | Interframe encoding method and apparatus |
PCT/US2002/018136 WO2002100102A1 (en) | 2001-06-07 | 2002-06-06 | Interframe encoding method and apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004528791A true JP2004528791A (ja) | 2004-09-16 |
Family
ID=25370264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003501944A Pending JP2004528791A (ja) | 2001-06-07 | 2002-06-06 | インターフレーム符号化方法および装置 |
Country Status (11)
Country | Link |
---|---|
US (1) | US20020191695A1 (ja) |
EP (1) | EP1402729A1 (ja) |
JP (1) | JP2004528791A (ja) |
CN (1) | CN1539239A (ja) |
BR (1) | BR0210198A (ja) |
CA (1) | CA2449709A1 (ja) |
IL (1) | IL159179A0 (ja) |
MX (1) | MXPA03011169A (ja) |
RU (1) | RU2004100224A (ja) |
WO (1) | WO2002100102A1 (ja) |
ZA (1) | ZA200400075B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017184273A (ja) * | 2009-02-23 | 2017-10-05 | コリア アドバンスド インスティテュート オブ サイエンス アンド テクノロジー | ビデオ符号化での分割ブロック符号化方法、ビデオ復号化での分割ブロック復号化方法及びこれを実現する記録媒体 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7483581B2 (en) | 2001-07-02 | 2009-01-27 | Qualcomm Incorporated | Apparatus and method for encoding digital image data in a lossless manner |
US6968082B2 (en) * | 2001-09-06 | 2005-11-22 | Hewlett-Packard Development Company L.P. | Resolution dependent image compression |
US7551671B2 (en) * | 2003-04-16 | 2009-06-23 | General Dynamics Decision Systems, Inc. | System and method for transmission of video signals using multiple channels |
EP1955177B1 (en) * | 2005-11-04 | 2020-09-23 | Tektronix, Inc. | Methods, systems, and apparatus for multi-domain markers |
KR100754392B1 (ko) * | 2005-12-27 | 2007-08-31 | 삼성전자주식회사 | 잉크젯 프린트헤드의 잉크유로 구조체 및 이를 구비한잉크젯 프린트헤드 |
US8917775B2 (en) * | 2007-05-02 | 2014-12-23 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding and decoding multi-view video data |
KR101619972B1 (ko) | 2008-10-02 | 2016-05-11 | 한국전자통신연구원 | 이산 여현 변환/이산 정현 변환을 선택적으로 이용하는 부호화/복호화 장치 및 방법 |
US8761268B2 (en) * | 2009-04-06 | 2014-06-24 | Intel Corporation | Selective local adaptive wiener filter for video coding and decoding |
JP5914884B2 (ja) * | 2010-02-10 | 2016-05-11 | パナソニックIpマネジメント株式会社 | デジタルビデオ信号出力装置および表示装置、デジタルビデオ信号出力方法および受信方法 |
JP5741076B2 (ja) | 2010-12-09 | 2015-07-01 | ソニー株式会社 | 画像処理装置及び画像処理方法 |
CN102932001B (zh) * | 2012-11-08 | 2015-07-29 | 大连民族学院 | 运动捕获数据压缩、解压缩方法 |
WO2016076515A1 (ko) * | 2014-11-13 | 2016-05-19 | 삼성전자 주식회사 | 영상의 주파수 특성 정보를 포함하는 메타 데이터를 생성하는 방법 및 장치 |
GB2557622A (en) | 2016-12-12 | 2018-06-27 | V Nova Int Ltd | Motion compensation techniques for video |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5021891A (en) * | 1990-02-27 | 1991-06-04 | Qualcomm, Inc. | Adaptive block size image compression method and system |
US5107345A (en) * | 1990-02-27 | 1992-04-21 | Qualcomm Incorporated | Adaptive block size image compression method and system |
ATE159396T1 (de) * | 1991-06-04 | 1997-11-15 | Qualcomm Inc | System zur adaptiven kompression der blockgrössen eines bildes |
WO1994018799A1 (en) * | 1993-02-03 | 1994-08-18 | Qualcomm Incorporated | Interframe video encoding and decoding system |
US6005622A (en) * | 1996-09-20 | 1999-12-21 | At&T Corp | Video coder providing implicit or explicit prediction for image coding and intra coding of video |
TW398131B (en) * | 1997-06-20 | 2000-07-11 | Matsushita Electric Ind Co Ltd | The image process method, the image process device and the data memory medium |
US6426975B1 (en) * | 1997-07-25 | 2002-07-30 | Matsushita Electric Industrial Co., Ltd. | Image processing method, image processing apparatus and data recording medium |
-
2001
- 2001-06-07 US US09/877,578 patent/US20020191695A1/en not_active Abandoned
-
2002
- 2002-06-06 JP JP2003501944A patent/JP2004528791A/ja active Pending
- 2002-06-06 MX MXPA03011169A patent/MXPA03011169A/es unknown
- 2002-06-06 CA CA002449709A patent/CA2449709A1/en not_active Abandoned
- 2002-06-06 RU RU2004100224/09A patent/RU2004100224A/ru not_active Application Discontinuation
- 2002-06-06 IL IL15917902A patent/IL159179A0/xx unknown
- 2002-06-06 EP EP02737426A patent/EP1402729A1/en not_active Withdrawn
- 2002-06-06 BR BR0210198-0A patent/BR0210198A/pt not_active Application Discontinuation
- 2002-06-06 WO PCT/US2002/018136 patent/WO2002100102A1/en active Application Filing
- 2002-06-06 CN CNA02815407XA patent/CN1539239A/zh active Pending
-
2004
- 2004-01-06 ZA ZA200400075A patent/ZA200400075B/en unknown
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017184273A (ja) * | 2009-02-23 | 2017-10-05 | コリア アドバンスド インスティテュート オブ サイエンス アンド テクノロジー | ビデオ符号化での分割ブロック符号化方法、ビデオ復号化での分割ブロック復号化方法及びこれを実現する記録媒体 |
JP2017201793A (ja) * | 2009-02-23 | 2017-11-09 | コリア アドバンスド インスティテュート オブ サイエンス アンド テクノロジー | ビデオ符号化での分割ブロック符号化方法、ビデオ復号化での分割ブロック復号化方法及びこれを実現する記録媒体 |
US10462494B2 (en) | 2009-02-23 | 2019-10-29 | Korea Advanced Institute Of Science And Technology | Video encoding method for encoding division block, video decoding method for decoding division block, and recording medium for implementing the same |
US11076175B2 (en) | 2009-02-23 | 2021-07-27 | Korea Advanced Institute Of Science And Technology | Video encoding method for encoding division block, video decoding method for decoding division block, and recording medium for implementing the same |
US11659210B2 (en) | 2009-02-23 | 2023-05-23 | Korea Advanced Institute Of Science And Technology | Video encoding method for encoding division block, video decoding method for decoding division block, and recording medium for implementing the same |
Also Published As
Publication number | Publication date |
---|---|
WO2002100102A1 (en) | 2002-12-12 |
EP1402729A1 (en) | 2004-03-31 |
US20020191695A1 (en) | 2002-12-19 |
CN1539239A (zh) | 2004-10-20 |
ZA200400075B (en) | 2004-10-11 |
BR0210198A (pt) | 2004-07-20 |
RU2004100224A (ru) | 2005-06-10 |
CA2449709A1 (en) | 2002-12-12 |
MXPA03011169A (es) | 2004-03-26 |
IL159179A0 (en) | 2004-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5107495B2 (ja) | 品質ベースのイメージ圧縮 | |
JP5384696B2 (ja) | 分散に基づいた適応性ブロックサイズdct画像圧縮 | |
JP4927888B2 (ja) | ゴロム・ライスを使用する無損失フレーム内符号化 | |
JP4870743B2 (ja) | デジタルイメージに対する選択的なクロミナンスデシメーション | |
KR100944282B1 (ko) | Golomb-rice 코딩을 사용한 dct 압축 | |
KR100932412B1 (ko) | 구성가능한 패턴 옵티마이저 | |
JP2015039176A (ja) | ディジタル画像および音声データを無損失に復号化するためのシステムおよび方法 | |
KR20040018414A (ko) | 무손실 방식으로 디지털 이미지 데이터를 인코드하기 위한장치 및 방법 | |
AU2002315160A1 (en) | Configurable pattern optimizer | |
JP2004528791A (ja) | インターフレーム符号化方法および装置 | |
WO2002013539A1 (en) | Sub-optimal variable length coding | |
AU2002310355A1 (en) | Interframe encoding method and apparatus |