JP2010510533A - 符号化および復号化のための装置 - Google Patents

符号化および復号化のための装置 Download PDF

Info

Publication number
JP2010510533A
JP2010510533A JP2009536665A JP2009536665A JP2010510533A JP 2010510533 A JP2010510533 A JP 2010510533A JP 2009536665 A JP2009536665 A JP 2009536665A JP 2009536665 A JP2009536665 A JP 2009536665A JP 2010510533 A JP2010510533 A JP 2010510533A
Authority
JP
Japan
Prior art keywords
sample
encoding
series
original position
sorted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009536665A
Other languages
English (en)
Other versions
JP5200028B2 (ja
Inventor
ティーロ ヴィク
ディーター ヴェニンガー
ユールゲン ヘレ
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2010510533A publication Critical patent/JP2010510533A/ja
Application granted granted Critical
Publication of JP5200028B2 publication Critical patent/JP5200028B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

音声信号のサンプル系列を符号化するための装置(100)であって、前記系列の範囲内における各サンプルは、元の位置を含む。装置(100)は、ソート済みのサンプル系列を得るために、それらのサイズによってサンプルをソートするための手段(110)を含み、各サンプルは、ソート済みの系列の範囲内におけるソート位置を有する。さらに、装置(100)は、ソート済みのサンプルおよびサンプルの元の位置とソート位置との関係の情報を符号化するための手段(120)を有する。

Description

本発明は、例えば情報信号(例えば、それはオーディオおよびビデオ符号化で生じるような)を符号化し、および復号化するための装置および方法に関する。
情報信号の符号化および復号化において、いわゆるロッシー符号化方法は、従来の技術の分野で知られている。すでに、例えば、MPEG1/2 Layer−3(MPEG=moving picture expert group,MP3)またはAdvanced Audio Coding(AAC)のような変換に基づく符号化方法が、例えば、存在する。時間−周波数変換および心理音響モデルを有するこれらの機能は、知覚できる信号の割合と知覚できない信号の割合とを区別することができる。周波数領域におけるデータの引き続いて起こる量子化は、これらのモデルで制御される。さらに、符号化された信号が利用できる少ないデータ・ボリュームだけがある場合、それが低い全体のビットレートによって応じられることができるように、例えば、結果はより粗い量子化、すなわち、明らかに知覚できる符号化アーティファクトは、量子化によって作成される。
従来の技術において、復号器側において元の信号を合成するとしたPhilips Parametric Coding HILN(Harmonic and Individual Lines and Noise)等のようなパラメトリック符号化方法も公知である。このことにより、すなわち、符号化方法のような低いビットレートで生み出す元の音の特性の劣化は、オリジナルとの知覚的な違いがある。
ロスレス符号化の分野において、原則として、2つの異なる方法がある。第1の方法は、時間信号を予測することに依存する。生み出された予測器エラーは、SHORTEN(Tony Robinson(トニー ロビンソン):Simple lossless and near lossless waveform compression.Technical report CUED/F−INFENG/TR.156,ケンブリッジ大学 工学部 1994年,参照)またはAudioPak(Mat Hans(マット ハンズ),Ronald W. Shafer(ロナルド W. シェーファー):Lossless Compression of Digital Audio,IEEE Signal Processing Magazine,2001年7月,参照)において、エントロピー符号化されて、格納および/または送信される。
第1の処理ステップとして、第2の方法は、生み出されるスペクトルの引き続いて起こるロッシー符号化とともに時間−周波数変換を使用する。加えて、逆変換において生み出されるエラーは、例えば、LTAC(Tilman Liebchen(ティルマン リープヒェン),Marcus Purat(マルクス プラトー),Peter Noll(ペーター ノル):Lossless Transform Coding of Audio Signals,第102回 AES Convention,1997年,参照)およびMPEG−4 SLS(Scalable Lossless Coding,Ralf Geiger(ラルフ ガイガー)ら:ISO/IEC MPEG−4 High−Definition Scalable Advanced Audio Coding,第120回 AES Convention,2006年5月,参照)のような信号のロスレス符号化に対して保証するために、エントロピー符号化もされる。
さらにまた、データ整理の2つの基本的な方法がある。第1の可能性は、冗長度抑圧に対応する。ここで、信号の基礎となるアルファベットの不均一性確率分布が利用される。高い生起確率を有するシンボルは、低い生起確率を有するシンボルより例えば少ないビットで表わされる。この原理は、エントロピー符号化ともしばしば呼ばれる。符号化/復号化処理において、データは失われない。従って、データの完全な(ロスレス)再構成は、再び可能である。第2の可能性は、不適切な部分の削減に関する。このようなデータ整理において、ユーザに対して関連していない情報は、ターゲットマナーで除去される。人間の感覚の自然の知覚的な限定のモデルが、これを基礎として、しばしば用いられる。例えば、音声符号化の場合、入力信号の音響心理学的な考慮は、認識モデルとして役立つ。そして、それは、例えば、E.Zwicker(E.ツビッカー):Psychoakustik,Springer−Verlag,1982年を参照するように、周波数領域におけるデータの量子化を制御する。データが、ターゲットマナーにおける符号化/復号化処理から除去されるので、データの完全な再構築は、もはや不可能である。このように、これはロッシーデータ整理である。
一般の変換に基づく音声符号化方法において、入力データは、時間領域から周波数領域に変換され、心理音響モデルを用いて、そこで量子化される。理想的には、この量子化は、低いビットレートのために条件が満たされないリスナーに知覚できないように、この量子化は、それほど多くの量子化雑音だけに信号をもたらす。しかしながら、明らかに聞き取れる符号化のアーティファクトが発生する。さらに、低い目標のビットレートにおいて、ローパス・フィルタリングの前に行われるダウンサンプリングを実行するのにしばしば必要である。その結果、元の信号の高い周波数比率の伝送は、容易には可能ではない。これらの処理ステップは、優位な計算仕事率を求め、信号品質の限定を伴う。
Tony Robinson(トニー ロビンソン):Simple lossless and near lossless waveform compression.Technical report CUED/F−INFENG/TR.156,ケンブリッジ大学 工学部 1994年 Mat Hans(マット ハンズ),Ronald W. Shafer(ロナルド W. シェーファー):Lossless Compression of Digital Audio,IEEE Signal Processing Magazine,2001年7月 Tilman Liebchen(ティルマン リープヒェン),Marcus Purat(マルクス プラトー),Peter Noll(ペーター ノル):Lossless Transform Coding of Audio Signals,第102回 AES Convention,1997年 Ralf Geiger(ラルフ ガイガー)ら:ISO/IEC MPEG−4 High−Definition Scalable Advanced Audio Coding,第120回 AES Convention,2006年5月 E.Zwicker(E.ツビッカー):Psychoakustik,Springer−Verlag,1982年
それゆえに、本発明の目的は、情報信号を符号化し、復号化するための代替の概念を提供することである。
この目的は、請求項1、22、43、61のうちの1つによる符号化するための装置、請求項12、33、53、66のうちの1つによる復号化するための装置、請求項10、31、51、64のうちの1つによる符号化する方法、請求項20、41、59、69のうちの1つによる復号化する方法によって達成される。
本発明は、ソートが前もって実行される場合、情報信号がより少ない効果によって符号化されるという発見に基づく。1つは、情報信号または音声信号が、サンプル系列を含むと仮定することができる。ここで、サンプルは、時間または周波数信号から生じる。すなわち、それは、スペクトルをサンプルしてもよい。ターム・サンプルは、このように、制限するとして理解されないことになっている。本発明の実施例において、基本的な処理ステップは、従って、その振幅に応じて入力信号のソートを実行する。ここで、これは、実行された前処理の後に生じさせることもできる。プレプロセッシング、時間/周波数変換、予測またはマルチチャンネル冗長度抑圧として、例えば、マルチチャンネル信号の場合において、一般に非相関性の方法は、音声信号の分野において実行される。加えて、おそらく、いわゆるフレームと呼ばれる信号の定義済みの時間部分への可変的な分割は、これらの処理ステップの前に生じさせることもできる。これらの時間部の個々にソートされるサブフレームへのさらなる分割が可能である。
実施例において、ソートステップの後、一方ではソート済みのデータ、および他方では逆ソート規則がある。そして、それは、元の入力値のインデックスの置換として存在する。両方のデータ・セットは、可能なかぎり効果的に符号化される。この目的を達成するために、例えば、残差信号の引き続いて起こるエントロピー符号化を有する予測、すなわち、予測フィルタの出力信号および入力信号の差として、予測フィルタに対する予測係数を決定し、残差信号を決定する、いくつかの可能性を提供する。
他の実施例において、残差信号の引き続いて起こるエントロピー符号化を有する適切な関数公式(functional rules)および関数係数を有する曲線あてはめが実行される。他の実施例において、ロッシー符号化は実行され、そして、それゆえに、残差信号の符号化が省略されることもできる。
実施例は、例えば、Donald E. Knuth(ドナルド E.クヌース):The Art of Computer Programming,第3巻 Sorting and Searching,Addison−Wesley(アジソン−ウェスレイ),1998年にみられるように反転チャート(inversion chart)を詳細とともに、反転チャートを構築することおよび引き続いて起こるエントロピー符号化によって置換符号化を実行することもできる。
他の実施例において、置換の予測および残差信号の引き続いて起こるエントロピー符号化と同様に、反転チャートの予測および残差信号の引き続いて起こるエントロピー符号化が実行される。実施例は、残差信号を省略することによって、ロッシー符号化を達成してもよい。あるいは、置換のための番号を付することを構築することも実行される(A.A. Babaev(A.A. ババーエフ):Procedures of encoding and decoding numberings for the permutations,Kibernetika,第6巻,77頁−82頁,1984年,参照)。さらに、実施例において、引き続いて起こる番号付けを有する組合せの選択方法が、使用されえる。
本発明の好ましい実施例は、添付図面に関して以下においてさらに詳細に説明される。
図1aは、符号化のための装置の実施例を示す。 図1bは、復号化のための装置の実施例を示す。 図2aは、符号化のための装置の実施例を示す。 図2bは、復号化のための装置の実施例を示す。 図3aは、符号化のための装置の実施例を示す。 図3bは、復号化のための装置の実施例を示す。 図4aは、符号化のための装置の実施例を示す。 図4bは、復号化のための装置の実施例を示す。 図5は、音声信号、置換、および反転チャートの実施例を示す。 図6は、符号器の実施例を示す。 図7は、復号器の実施例を示す。 図8は、符号器の更なる実施例を示す。 図9は、復号器の更なる実施例を示す。 図10aは、音声信号の近似を有する周波数スペクトルの実施例を示す。 図10bは、ソート済みの周波数スペクトルおよび音声信号のその近似の実施例を示す。 図11は、ソート済みのロスレス符号化を説明するための説明図である。 図12は、ソート済みの区別をつけた符号化信号およびその残差信号の実施例を示す。 図13は、ソート済みの時間信号の実施例を示す。 図14は、ソート済みの時間値および対応する曲線あてはめの実施例を示す。 図15は、差動符号化および曲線あてはめの符号化効率の比較である。 図16は、大部分のロスレス音声圧縮アルゴリズムの手本となるような処理ステップを示す。 図17は、予測符号化の構成の実施例を示す。 図18は、予測符号化の再構成の構成の実施例を示す。 図19は、予測フィルタのウォーミングアップ値の実施例を示す。 図20は、予測モデルの実施例を示す。 図21は、LTAC符号器の構成のブロック図である。 図22は、MPEG−4 SLS符号器のブロック図である。 図23は、個々のチャネルの非相関性の後のステレオ冗長度抑圧を示す。 図24は、個々のチャネルの非相関性の前にステレオ冗長度抑圧を示す。 図25は、予測値次数および全体のビット消費の間の接続の説明図である。 図26は、量子化パラメータgおよび全体のビット消費の間の接続の説明図である。 図27は、次数pの関数としての一定の予測値のマグニチュード・周波数のコースの説明図である。 図28は、置換長さ、転置の数および符号化可能性の尺度との間における接続の説明図である。 図29は、ノイズのような部分の10ブロック(フレーム)めにおける反転チャートの説明図である。 図30は、音の部分の20ブロック(フレーム)めにおける反転チャートの説明図である。 図31は、置換、ソート時間値からの発生、10ブロック(左)めおよび音の部分(右)におけるノイズのような部分の説明図である。 図32は、音声信号、右の拡大した方法における左の置換および反転チャートLSならびに左の画像からの置換および反転チャートLSに対応する部分を示す。 図33は、音声信号、右の拡大した方法における左の置換および反転チャートLSならびに左の画像からの置換および反転チャートLSに対応する部分を示す。 図34は、反転チャートLBの予測(一定の予測値)を通じて発生された確率分布(上部)および残差信号の符号語(下部)を示す。 図35は、ソート済みの時間値の差動符号化によって発生された確率分布(上部)および残差信号(下部)の符号語を示す。 図36は、全体ブロック長が、1024の時間値であって、パラメータに対してサイド情報を含む一定の予測値の残差信号を介して前方−適応ライス符号化の最も少ないデータ量を有するサブブロック分解の比率を示す。 図37は、全体ブロック長が、1024の時間値であって、パラメータに対してサイド情報を含む一定の予測値の残差信号を介して前方−適応Golomb符号化の最も少ないデータ量を有するサブブロック分解の比率を示す。 図38は、履歴バッファの動作上の説明図である。 図39は、全ブロックのための最適パラメータと比較したときの適合の動作上の説明図である。 図40は、後方−適応ライス符号化を利用している前方−適応算術符号化の説明図を示す。 図41は、圧縮ファクターFのブロック・サイズの影響の説明図である。 図42は、ロスレスMS符号化における説明図である。 図43は、ロスレスMS符号化におけるさらなる説明図である。 図44は、ステレオ冗長度抑圧に対する大部分の変形の選択の説明図である。
以下の説明に関して、同じであるか同じように活動中の機能要素が異なる実施例の同一参照番号を有する点に留意する必要がある、そして、それ故、これらの機能要素の説明は以下において例示される各種実施形態において相互に交換可能である。さらにまた、一般に、信号の離散値が、以下の実施例において、サンプルとして言及される。サンプルが時間信号、スペクトル、一般的な情報信号その他のサンプルを取ることによって生み出された場合、ターム・サンプルが制限される。
図1aは、音声信号のサンプル系列を符号化するための装置100を示す。系列の各サンプルは、元の位置を有する。装置100は、ソート済みのサンプル系列を得るためにそれらのサイズ(例えば、時間/周波数変換、予測、その他を生じる処理の後)によってサンプルをソートするための手段110を含む。各サンプルは、ソート済みの系列の範囲内においてソート位置を有する。さらにまた、装置100は、ソート済みのサンプルおよびサンプルの元の位置とソート位置との関係の情報を符号化するための手段120を含む。
装置100は、サンプル系列を生成するために、フィルタリング、時間/周波数変換、予測またはマルチチャンネル冗長度抑圧を実行するために形成されるプレプロセッシング手段を含む。実施例において、符号化するための手段120は、指標置換(index permutation)として元の位置とソート位置との関係を介して情報を符号化するために形成される。任意に、符号化するための手段120は、反転チャートとして、元の位置とソート位置との関係を介して情報を符号化してもよい。さらに、符号化するための手段120は、ソート済みのサンプルまたは差分および引き続いて起こるエントロピー符号化もしくはエントロピー符号化のみを有する元の位置とソート位置との関係の情報を符号化するために形成してもよい。
他の実施例において、手段120は、ソート済みのサンプル、置換または反転チャートに基づいて予測フィルタの係数を決定し、符号化することができる。さらにまた、サンプルと予測フィルタの出力信号との差に対応する残差信号が、ロスレス符号化を考慮に入れることができる。ここで、残差信号は、エントロピー符号化によって符号化される。さらなる実施例において、装置100は、ソート済みの系列の少なくとも1つの部分のエリアに適合するために関数公式の関数係数を適応するための手段を含んでもよい。そして、符号化するための手段120は、関数係数を符号化するために形成されてもよい。
図1bは、音声信号のサンプル系列を復号化するための装置150の実施例を示す。系列の各サンプルは、元の位置を有する。ここで、装置150は、符号化されたサンプル系列を受信するための手段160を含む。符号化されたサンプル系列の範囲内における各符号化されたサンプルは、ソート位置を有する。手段160は、さらに、サンプルの元の位置とソート位置との関係の情報を受信するために形成される。装置150は、さらに、サンプルと元の位置とソート位置との関係の情報を復号化するための手段170を含み、さらに、元の位置とソート位置との関係の情報に基づいてサンプルを再ソートするための手段180を含む。その結果、各サンプルは、その元の位置を有する。
実施例において、受信するための手段160は、指標置換として、元の位置とソート位置との関係の情報を受信するために形成されてもよい。さらにまた、受信するための手段160は、反転チャートとして、元の位置とソート位置との関係の情報を受信するために形成されてもよい。実施例において、復号化するための手段170は、符号化されたサンプル、またはエントロピーおよび引き続いて起こる差動符号化またはエントロピー復号化のみを有する元の位置とソート位置との関係の情報を復号化するために形成されてもよい。受信するための手段160は、予測フィルタの符号化された係数を任意に受信してもよく、復号化するための手段170は、符号化された係数を復号化するために形成されてもよい。装置150は、さらに、その係数に基づいて、サンプルまたは元の位置とソート位置との関係を予測するための手段を含む。
さらなる実施例において、受信するための手段160は、残差信号をさらに受信するために形成されてもよい。残差信号は、サンプルと予測フィルタの出力信号との差に対応する。復号化するための手段170は、残差信号に基づいてサンプルを適合するためにさらに形成される。手段170は、エントロピー符号化を有する残差信号を任意に復号化してもよい。さらに、受信するための手段160は、関数公式の関数係数を受信することができる。そして、装置150は、さらに、ソート済みの少なくとも1つの部分的な範囲に関数公式を適合するための手段を含み、復号化するための手段170は、関数係数を復号化するために形成される。
図2aは、情報信号のサンプル系列を符号化するための装置200の実施例を示す。系列の範囲内における各サンプルは、元の位置を有する。装置200は、ソート済みのサンプル系列を得るために、それらのサイズによるサンプルをソートするための手段210を含む。各サンプルは、ソート済みの系列の範囲内においてソート位置を有する。装置200は、さらに、ソート済みの系列の少なくとも1つの部分的な範囲に適合するための関数公式の関数係数を適応するための手段220を含み、関数係数、部分的な範囲の外側のサンプルおよびサンプルの元の位置とソート位置との関係の情報を符号化するための手段230を含む。
装置200は、サンプル系列を生成するために、フィルタリング、時間/周波数変換、予測またはマルチチャンネル冗長度抑圧を実行するために形成されるプレプロセッシングをさらに含む。実施例において、情報信号は、音声信号を含む。符号化するための手段230は、指標置換として、元の位置とソート位置との関係の情報を符号化するために形成されてもよい。さらに、符号化するための手段230は、反転チャートとして、元の位置とソート位置との関係の情報を符号化するために形成されてもよい。任意に、符号化するための手段220は、ソート済みのサンプル、差分および引き続いて起こるエントロピー符号化またはエントロピー符号化のみを符号化するために形成されるようにしてもよい。符号化するための手段230は、サンプル、置換または反転チャートに基づいて予測フィルタの係数を決定し、符号化するためにさらに形成される。
さらなる実施例において、符号化するための手段230は、残差信号を符号化するためにさらに形成されてもよい。残差信号は、サンプルと予測フィルタの出力信号との差に対応する。符号化するための手段230は、エントロピー符号化を有する残差信号を符号化するために再び適応してもよい。
図2bは、情報信号のサンプル系列を復号化するための装置250の実施例を示す。系列の範囲内における各サンプルは、元の位置を有する。装置250は、符号化された関数係数、ソート済みのサンプルおよびサンプルのソートの位置と元の位置との関係の情報を受信するための手段260を含む。装置250は、サンプルを復号化するための手段270および系列の少なくとも1つの部分的な範囲の関数係数に基づくサンプルを近似するための手段280をさらに含む。装置250は、サンプルおよび元の位置とソート位置との関係の情報に基づいて、近似された部分的な範囲を再ソートするための手段290をさらに含む。各サンプルは、その元の位置を含む。
実施例において、情報信号は、音声信号を含む。受信するための手段260は、指標置換として、元の位置とソート位置との関係の情報を受信するために形成されてもよい。さらにまた、受信するための手段260は、反転チャートとして、元の位置とソート位置との関係の情報を受信するために形成されてもよい。手段270は、ソート済みのサンプルまたはエントロピーおよび引き続いて起こる差動符号化もしくはエントロピー復号化のみを有する元の位置とソートの位置との関係の情報を任意に復号化するようにしてもよい。受信するための手段260は、さらに予測フィルタの符号化された係数を受信するためにさらに適合してもよく、復号化するための手段270は、符号化された係数を復号化するために形成されてもよい。装置250は、その係数に基づいてサンプルを予測するための手段をさらに含んでもよい。
さらなる実施例において、受信するための手段260は、残差信号を受信するために形成されてもよい。残差信号は、サンプルと予測フィルタまたは近似するための手段280の出力信号との差に対応する。そして、復号化するための手段270は、残差信号に基づいてサンプルを適合するために形成されてもよい。復号化するための手段270は、エントロピー復号化を有する残差信号を任意に復号化してもよい。
図3は、情報信号のサンプル系列を符号化するための装置300を示す。系列の各サンプルは元の位置を示す。装置300は、ソート済みのサンプル系列を得るために、それらのサイズと一致する際のサンプルをソートするための手段310を含み、各サンプルは、ソート済みの系列の範囲内においてソート位置を有する。装置300は、サンプルの元の位置とソートの位置との関係に依存する一系列の数を生成し、一系列の数に基づいて予測フィルタの係数を決定するための手段320を更に含む。装置300は、ソート済みのサンプルおよび係数を符号化するための手段330をさらに含む。
装置300は、サンプル系列を生成するために、フィルタリング、時間/周波数変換、予測、またはマルチチャンネル冗長度抑圧を実行するために形成されるプレプロセッシング手段をさらに含んでもよい。実施例において、情報信号は、音声信号を含む。一系列の数を生成するための手段320は、指標置換を生成するために形成されてもよい。任意には、一系列の数を生成するための手段320は、反転チャートを生成してもよい。一系列の数を生成するための手段320は、残差信号をさらに生成するために適合されてもよい。残差信号は、一系列の数と係数に基づき予測された予測系列との差に対応する。符号化するための手段330は、差分および引き続いて起こるエントロピー符号化またはエントロピー符号化のみによるソート済みのサンプルを符号化するために適合されてもよい。符号化するための手段330は、残差信号を符号化するためにさらに形成されてもよい。
図3bは、情報信号のサンプル系列を復号化するための装置350の実施例を示す。系列の範囲内における各サンプルは、元の位置を含む。装置350は、予測フィルタの係数およびサンプル系列を受信するための手段360を含む。各サンプルは、ソート位置を有する。装置は、係数に基づき一系列の数を予測するための手段370、および一系列の数に基づきサンプル系列を再ソートするための手段380をさらに含む。各サンプルは、その元の位置を有する。
実施例において、情報信号は、音声信号を含んでもよい。さらにまた、一系列の数を予測するための手段370は、一系列の数として指標置換を予測してもよい。一系列の数を予測するための手段370は、一系列の数として、反転チャートも予測することができる。受信するための手段360は、符号化された残差信号を受信するように形成されてもよく、また、予測するための手段370は、残差信号を一系列の数の予測を考慮に入れるために形成してもよい。装置350は、復号化するためにさらに含み、復号化するための手段は、エントロピーおよび引き続いて起こる差動復号化またはエントロピー復号化によるサンプルを復号化するために形成される。
図4aは、サンプル系列を符号化するための装置400の実施例を示す。系列の範囲内における各サンプルは、元の位置を含む。装置400は、ソート済みのサンプル系列を得るために、それらのサイズによってサンプルをソートするための手段410を含む。各サンプルは、ソート済みの系列の範囲内におけるソート位置を有する。装置400は、ソート済みのサンプルを符号化し、およびサンプルの元の位置とソート位置との関係の情報を有する一系列の数を符号化するための手段420をさらに含む。一系列の数の範囲内における各要素は、一意的である。符号化するための手段420は、一系列の数の各要素を有するビットの数を関連付ける。その結果、もし、第1要素の符号化前に、より少ない要素が第2要素の符号化の前にすでに符号化されていた場合、第1要素に関連するビットの数は、第2要素に関連するビットの数よりも大きい。
ここで、符号化するための手段420は、同時に長さNの一系列の数を符号化し、X個の要素の数を符号化するために形成されてもよい。Gビットは、X個の要素の数に関連し、以下の方程式による。
Figure 2010510533
ここで、分母の括弧内は、括弧における値が次の高い整数で丸められるように表示する。
他の実施例において、符号化のための手段420は、長さNの一系列の数を符号化するために形成されてもよい。ここで、Xは、一系列の数のすでに符号化された要素の数であり、Gビットは、一系列の数の次の要素に関連し、以下の方程式による。
Figure 2010510533
図4bは、サンプル系列を復号化するための装置450の実施例である。系列の範囲内における各サンプルは、元の位置を有する。装置450は、符号化された一系列の数およびサンプル系列を受信するための手段460を含む。その各サンプルは、ソート位置を有する。復号化された一系列の数の範囲内における各要素は、一意的である。そして、復号化するための手段470は、一系列の数の要素を有するビットの数と関連付ける。その結果、もし、第1要素の復号化前に、より少ない要素が第2要素の符号化の前にすでに復号化されていた場合、第1要素に関連するビットの数は、第2要素に関連するビットの数よりも大きい。装置450は、復号化された一連の手順に基づくサンプル系列を再ソートするための手段480を更に含み、復号化された系列の範囲内における各サンプルは、その元の位置を含む。
実施例において、復号化するための手段470は、長さNの一系列の数を復号化し、同時にX個の要素の数を復号化するために形成してもよい。Gビットは、X個の要素の数と関連しており、以下の方程式による。
Figure 2010510533
復号化するための手段470は、長さNの一系列の数を復号化するために、さらに形成されてもよい。Xは、一系列の数のすでに符号化された要素の数であり、Gビットは、一系列の数の次の要素に関連し、以下の方程式による。
Figure 2010510533
図5は、左側において、音声信号505(大きな振幅)、置換510(中間の振幅)および反転チャート515(小さい振幅)の波形を示す。右側において、置換510および反転チャート515が、より良好な概観の理由で、他のスケーリングにおいて再度例示される。
図5において例示される軌跡(course)から、音声信号505、置換510および反転チャート515の相関が理解される。置換および/または反転チャートに対する入力信号の転送の相関が、明らかに理解される。実施例によれば、ソート済みのサンプルの符号化とは別として、符号化されたエントロピーである反転チャートを構築することによる置換符号化が生じる。置換および/または反転チャートの予測が相関のために可能である事が、図5から理解される。ここで、それぞれの残差信号は、例えば、ロスレス符号化の場合において、符号化されたエントロピーでもよい。
相関が、発生する置換および/または反転チャート(図5を参照)に送信される入力信号に存在するので、予測は可能である。ここで、周知のFIR(有限インパルス応答)およびIIR(無限インパルス応答)の構成は、予測フィルタとして使用してもよい。そして、そのようなフィルタの係数が選択される。その結果、例えば、フィルタの入力での残差信号に基づいて、その出力で元の出力信号が存在すか、またはそこに出力される。そして、実施例において、フィルタおよび残差信号の対応する係数は、より負担をかけることなく、すなわち、元の信号自身よりもより少ないビットまたは伝送速度で、送信できる。そして、受信機および/または符号器において、元の信号が、伝送された係数に基づいて予測するか、または再構築され、そして、それは、残差信号でもよい。ここで、一方、係数の数および/または予測フィルタの次数は、伝送のために必要なビットを決定し、他方、元の信号の精度は、予測され、または再構成される。
反転チャートは、置換の等価な表現であるが、エントロピー符号化がより適している。ロッシー符号化のために、若干のデータ量を保存するために不完全な方法だけの逆ソートを実行することも可能である。
図6は、符号器600の実施例を示す。符号器600において、入力データのプレプロセッシング605が生じる(例えば、時間/周波数変換、予測、ステレオ冗長度抑圧、帯域限定のためのフィルタリング等)。プレプロセッシングされたデータは、610でソートされる。ここで、ソート済みのデータおよび置換が得られる。ソート済みのデータは、615で処理され、さらに符号化される。そして、例えば、差動符号化が、行われる。そして、そのデータは、620でエントロピー符号化され、そして、以下のビット・マルチプレクサ625で利用される。例えば、おそらく引き続いて起こる予測を有する反転チャートを決定することによって、まず、置換は、630で処理されるか、または符号化される。ここで、エントロピー符号化635は、エントロピー符号化された置換および/または反転チャートをビット・マルチプレクサ625に供給する前に、ここで行われてもよい。そして、ビット・マルチプレクサ625は、エントロピー符号化されたデータおよび置換をビットストリームに多重送信する。
図7は、復号器700の実施例を示す。復号器700は、例えば、符号器600に従ってビットストリームを得る。そして、ビットストリームは、ビットストリーム・非マルチプレクサ705において、まず、非多重化される。ここで、符号化されたデータは、エントロピー復号化710に供給される。そして、エントロピー復号化されたデータは、ソート済みのデータ716の復号化において、例えば、差動復号化において、さらに復号化される。そして、復号化され、ソート済みのデータは、逆ソート720に供給される。ビットストリーム・非マルチプレクサ705から、符号化された置換データは、さらに、エントロピー復号化725に供給される。エントロピー復号化725は、さらに下流側に置換730の復号化を有する。そして、復号化された置換も、逆ソート720に供給される。そして、逆ソート720は、復号化された置換データおよび復号化されたソート済みデータに基づいて出力データを出力する。
実施例は、さらに、3つの作動形態を含む符号化システムを有する。モード1は、入力信号の音響心理学的な考慮を用いて、高い圧縮率を考慮に入れることができる。モード2は、音響心理のない中間の圧縮率を考慮に入れることができる。そして、モード3は、低い圧縮率を考慮に入れることができ、ロスレス符号化については、Tilo Wik(ティーロ ヴィク),Dieter Weninger(ディーター ヴェニンガー):Verlustlose Audiokodierung mit sortierten Zeitwerten und Anbindung,filterbankbasierte Kodierverfahren,2006年10月を参照。
すべてのモードは、共通して、量子化、再サンプリングおよびローパス・フィルタリングの処理ステージを省略することができる。このように、入力信号の完全なバンド幅は、全3つのステージにおいて送信される。図8は、符号器800のさらなる実施例を示す。図8は、符号器800および/またはモード1およびモード2に対する符号化方法のブロック回路図を示す。入力信号は、時間/周波数変換の手段805(例えば、MDCT(Modified Discrete Cosine Transform:修正離散コサイン変換),J.Princen(J.プリンセン):Analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation,IEEE Trans. ASSP 1986年,参照)によって周波数領域に送信される。
その後、スペクトル・ラインは、それらの振幅のサイズによって810(ソーティング)でソートされる。発生するソート済みのスペクトルは、比較的シンプルな曲線形状を有するので、曲線あてはめ815の手段によって関数公式によって容易に近似される。例えば、Draper,N.R(ドレーパー,N.R)およびH.Smith(H.スミス),Applied Regression Analysis,第3回 Ed., John Wiley & Sons,ニューヨーク,1998年,参照。スペクトル・ラインの置換をもたらすために、インデックスは、復号器側において、再度元の次数に再ソートすることによって発生し、そして、元のスペクトルを再構成できる。逆ソート規則820は、ビットストリームに見つけ、書き込む。例えば、これは、モード1のためのランレングス符号化820によって、および特別な置換符号器820によって、もたらされる。置換符号器820は、モード2のために、反転チャートによって動作する能力がある。
ランレングス符号化および/または置換符号器820のデータは、それから、エントロピー符号化方法またはエントロピー符号器830によって追加的に符号化される。そして、最後にビットストリームに、いくつかの追加的な情報(例えば、ビットストリーム・フォーマッタ835によって示される上述の関数公式の係数)を含めて書き込まれる。置換符号器820および/またはランレングス符号化820の異なる符号化の方法によるのと同様に、選択的に入力信号の心理音響モデル840における音響心理学的な考慮を加えることによって、発生するデータ量を制御する方法(可変ビットレート)は、例えば、曲線あてはめの品質のバリエーションである。この目的を達成するために、図8は、データレートがあまりに高い場合に、必要に応じて、符号器処理において発生される伝送速度をモニタし、心理音響モデルにフィードバックを提供するブロック825をさらに示す。
図8のブロック回路図は、ビットレート制御のための心理音響モデル840を示す。そして、それは、例えば、モード1に対してのみ起動することができ、制御のこの方法は、符号化品質に賛成してモード2においては省略されてもよい。動作モード1において、2つの他の動作モードでのより高い圧縮率が成し遂げられる。この目的を達成するために、入力信号の音響心理学的な考慮840を用いて、周波数スペクトルの情報は、ターゲットマナーのゼロに設定されるか、または、逆ソート規則820の伝送において、データを保存することが可能であるために、指標置換の要素が、代案として、バック・ソートから除かれる。その一方、それに加えて、周波数スペクトルは、動作モード2において、完全に再構成される。ここで、極めて少ないエラーについては、曲線近似815の軽微な不正確のため発生している。さらにまた、動作モード2は、残差信号を加えることによって、ロスレスモードに応用される。モード1およびモード2いずれにおいても、全体の周波数スペクトルは、送信される。すなわち、モード1のデータ整理は、小型化された逆ソート規則820の方法によって達成されるのみである。
図9は、復号器900および/またはモード1およびモード2の復号化処理のさらなる実施例を示す。そして、それは、符号化のおよび/または符号器800の実質的に逆方向のステップを通してパスされる。最初は、ビットストリームは、ビットストリーム・非マルチプレクサ905によって取り出され、そして、エントロピー復号器910において復号化される。関数公式の復号化された関数係数から、関数またはスペクトル関数は、「逆曲線あてはめ」、すなわち、逆曲線あてはめ915によって、再構成され、そして、逆ソート920に供給される。逆ソート920は、さらに、置換復号器925から置換を得る。そして、それは、エントロピー復号化された置換に基づいて置換を復号化する。送信された関数係数を用いて、再構成される置換およびスペクトル関数を用いて、逆ソート920は、元の次数にそのスペクトル・ラインをもたらすことができる。最後に、再構成されたスペクトルは、逆変換930(例えば、逆MDCT)によって、時間領域に変換される。
他の実施例において、時間/周波数変換は省略されることもでき、そして、上述したとおり、情報信号は、時間領域において、直接的にソートされ、符号化されそして送信される。
図10aは、1024本の周波数ラインおよびその近似のスペクトルを有する音声信号の周波数スペクトルの例を示す。ここで、元(オリジナル)と近似とは、ほぼ同一である。図10bは、付随するソート済みのスペクトルおよびその近似を示す。ソート済みのスペクトルが、元のスペクトルよりも関数公式によってより容易で精度よく近似されるということを明らかにすることができる。図10bからスペクトルを近似するために、例えば、それは5つの領域(分割)にわけることができ、それは、実施例において、図10bにおいて示される。領域3は、例えば、直線によって近似され、領域2および領域4は、適切な関数(多項式、指数関数等)によって近似される。領域1および領域5における振幅の値の数は、実施例において、例えば、3を、非常に小さいために選ばれる。しかし、これらが、音質にとってはなはだ重要であるので、それらは、非常に正確に近似されなければならないか、または直接送信されなければならない。
全体のスペクトルのために、実施例によれば、機能およびそれらの係数のタイプおよび/または領域1および領域5のための振幅値は、必要に応じて、結局は送信される。実施例によれば、機能およびそれらの係数のタイプおよび/または領域1および5のための振幅値だけが、必要であれば、結局は送信される。ここで選択される5つの領域への分割は、実施例として機能を果たす。近似の品質を改善するために、例えば、いつでも、もちろん、他の細区分を選択することが可能である。図10aは、加えて、近似のおよび再度逆ソート済みのスペクトルも示す。ここで、再構成されたスペクトルが元のスペクトルに非常に近似して位置するようになるということを明らかにすることができる。
実施例において、インデックス・セットの置換を表わすスペクトル・ライン・インデックスの一系列の数は、再ソートの方法によって発生する。実施例において、それらが、完全に一様分布であるので、再ソート済みのインデックスの一系列の数は、エントロピー符号化によって減少されない、発生する比較的かなりのデータ量によって直接的に送信される。ソート済みのスペクトル・ラインの一様に分布されたインデックスの一系列の数をマップするために、一系列の数が論理的に未ソートで、非一様に分布された一系列に、反転チャート構造は実施例のインデックスに適用することができる。そして、それは全単射(すなわち独自の可逆なマッピング)であって、非一様な分布結果を提供する。
例えば、Donald E. Knuth(ドナルド E.クヌース):The Art of Computer Programming,第3巻:Sorting and Searching,Addison−Wesley,1998年、参照。
現在、非一様分布の一系列の数は、エントロピー符号化である。そして、それゆえ、送信されるデータ・ボリュームは減少する。以下において、反転チャートの機能の簡単な例が説明される。例えば、一組の数のペアを、A={(x1,y1),…,(xn,yn)}とする。ここで、xiが、厳しく単調に上昇する一系列を形成するならば、xiは、yiの索引付けを表わす。例えば、yiは、周波数スペクトルの振幅値である。例えば、A={(1,5),(2,3),(3,1),(4,2),(5,8),(6,2.3),(7,2),(8,4.5),(9,6)}
現在、yiが単調に減少する一系列を形成するように、Aは、yiの量に基づいてソートされる。xiは、このことにより、元のxiの置換であるソート済みでない一系列の数となる。
A´={(5,8),(9,6),(1,5),(8,4.5),(2,3),(6,2.3),(4,2),(7,2),(3,1)}
i´={5,9,1,8,2,6,4,7,3}
i´={8,6,5,4.5,3,2.3,2,2,1}
iの反転チャートの形成:
Figure 2010510533
反転チャートの反転は、再び元の一系列の数を生じる:
Figure 2010510533
原則として、反転チャートの形成のさらなる方法が、例えば、以下に見られるように可能である。
Dnald E. Knuth(ドナルド E. クヌース):The Art of Computer Programming,第3巻:Sorting and Seach,Addison−Wesley,1998年;
D.H.Lehmer(D.H.レーマー):Teaching Combinatorial Tricks to a Computer,Proc. Of Symposium Appl. Math., Combinatorial Analysys,第10巻,American Mathematical Society,Providence,R.I., 179頁−193頁,1960年;
D.H.Lehmer(D.H.レーマー):The Machine Tools of Combinatorics, Applied Combinatorial Mathematics, John Wiley and Sons, Inc. N.Y.,1964年;
Ziya Arnavut(ズィヤ アルナヴト):Permutations Techniques in Lossless Compression,Dissertation,1995年。
さらにまた、他の実施例において、差動符号化は、例えば、Ziya Arnavut(ズィヤ アルナヴト):Permutations Techniques in Lossless Compression,Dissertation,1995年に記載されているような反転チャート、またはエントロピーを減らす他の後処理の手続(例えば、予測)の形成後に可能である。
本発明の実施例は、すでに既存のシステムより完全に異なる原理に基づいて機能する。量子化、再サンプリングおよびローパス・フィルタリングの計算ステップを回避することによって、ならびに選択的に音響心理学的な考慮を省略することによって、実施例は、若干の計算の複雑性を保存することができる。モード2のための符号化の品質は、関数公式のソート済みの周波数スペクトルへの近似の品質に独占的に依存する。モード1のための品質は、主に使用された心理音響モデルによって決定される。
すべてのモードのビットレートは、主に送信される逆ソート規則の複雑さに依存する。
ビットレート・スケーラビリティは広範囲において与えられる、そして、高い圧縮からより高いデータレートのロスレス符号化まで、いかなる漸次的変化も可能である。機能原則のため、信号の完全な周波数帯域幅は、比較的低いビットレートでさえ送信される。計算パワーおよびメモリー・スペースについて少ない要求は、従来のPCにおいてだけでなく、ポータブル端末においての実施例を使用して、実施することを考慮に入れる。
さらにまた、MPEG−4 Scalableの分野において使用する。
MPEG Surroundは、以下を参照。
J.Breebaart(J.ブレーバート),J.Herre(J.ヘレ),C.Faller(C.ファーラー)ら;MPEG Spatial Audio Coding/MPEG Coding/MPEG Surround:OverView and Current Status;第119回 AES Convention,2005年10月,
バイノーラル・キュー符号化は、以下を参照。
C.Faller(C.ファーラー),F.Baumgarte(F.バウムガルテ):Binaural Cue Coding Applied to Stereo and Multi−Channel Audio Compression;第112回 AES Convention,2002年5月,
または、ここで、時間領域におけるアプリケーションとも関連する低遅延のエリアにおいても可能である。
実施例の機能原則がいかなる拘束性の要件も符号化される信号に負担させないので、例えば、ビデオ符号化または他の分野で、特に、音声符号化の外側のロスレスモードのアプリケーションが生じる。
発生しているビットレートが著しく送信される逆ソートの規則の複雑さに依存するので、さらなる同様の実施例が考えられる。例えば、得られた置換を送信されたキーが、復号器側において一意的に特定された場合、改良が可能である。「制限された置換」の分野のすでに既存の仕事が、この点に基づいて使用される。V.Vatter(V.ヴァッター):Finitely Labeled Generating Trees and Restricted Permutations;Journal of Symbolic Computation,41,559頁−572頁,2002年。
加えて、実施例は、エラーまたは残差信号の伝送を提供する。モード1およびモード2の品質が強化され、モード2は、同様にロスレスモードにまでおよぶ。さらにまた、送信されたエラー信号は、モード1における逆ソートから除外される周波数ラインのための知的な逆ソートを考慮に入れることができ、それゆえに、さらに、このモードの品質を改善することができる。
実施例は、ここの上方の周波数範囲だけに限られるわけではなく、しかし、削除された中間の周波数範囲を再構成することを、SBR(スペクトルバンド多重化)といくらか類似して機能しているモード1のための周波数ラインの合成を提供もする。さらなる実施例において、近似において発生するエラーに特別に同調する音響心理学的な考慮は、品質を強化することができて、ビットレートを低下させることができる。再ソートおよび引き続いて起こる曲線近似の原理が周波数領域から信号に依存しないので、他の実施例は、また、モード2のための時間領域において使用される。モード2およびモード3が音響心理学的な考慮の使用を省略するので、実施例は音声符号化の外側でも使用される。
実施例は、この方法の特殊性に適しているステレオ信号の最適化された処理をさらに提供することができ、それゆえに、2重のモノラル符号化とは対照的に、ビットの消費および計算効果を再度減らす。
実施例は、ソート・モデルを使用する。ソート・モデルに従って機能している符号化方法において、符号化されるデータのソートが行われる。このことにより、一方では、データの人工的な相関(artificial correlation)がもたらされ、それによって、データは、より容易に符号化される。一方では、時間値の元の位置の置換は、ソートの目的として生み出される。再び、元の情報または音声信号を再構成することが可能な復号器のために、それは、符号化された時間値とは別として、バック・ソート規則(置換)を符号化し、送信するために必要である。このことにより、時間値の符号化のみの実行する最初の問題は、現在、2つの部分的な問題、すなわち、ソート済みの時間値の符号化および逆ソート規則の符号化に分割される。図11は、いわゆる「ソート済みのロスレス」符号化の方法を例示する。例えば、音声信号は、ソートの目的で強い相関を有する信号にマップされる。それから、ソート済みの時間値および逆ソート規則が、符号化される。
図11に基づいて記載される原理から、新規なロスレス符号化方法または音声符号化方法のための有名なSOLO(ソート済みのロスレス)が導き出される。2つの部分的な問題の各々は、かなり特定の特性を有する。ソート済みの時間値の符号化のために、実施例において、差動符号化は、それ自体を導く。置換の符号化は、例えば、等価な反転チャートの表現において行われる。以下に、2つの部分的な問題が詳細に説明される。また、一方、ソート・モデルに加えて、また、予測モデルのような従来の非相関性の方法が、SOLOにおいて使用される。
ソート・モデルの場合、付加的な処理ステップ(置換の処理)は、従来の符号化方法と比較として追加される。それゆえ、4つの基本的な処理ステップが結果として得られる:
1.ブロック分割(フレーミング)
2.未ソートの/ソート済みの時間値の非相関性
3.置換の処理
4.2.および3.からのデータのエントロピー符号化
差動符号化において、その名が示すように、それは実効値でなく、符号化される連続した値の差である。差が、オリジナルの値より小さい場合、より高い圧縮が達成される。
1≦i≦n<∞およびx1∈Z(Z=一連の整数)の場合、i∈N(N=一連の自然数)とする。そのとき、差動符号化は以下のように定義される:
Figure 2010510533
差動符号化は、反転可能である。1≦i≦n<∞およびx1∈Z(Z=一連の整数)の場合、i∈N(N=一連の自然数)とする。そのとき、逆差動符号化は以下のように定義される:
Figure 2010510533
差動符号化は、シンプルな予測の種類であるので、ウォーミングアップ(i=1の時間値)は、エントロピー符号化からも除外される。δは、漸減的にソート済みの時間値の場合、正の自然数の1組の中で完全に存在している残差信号の特性を有する。このことにより、次のエントロピー符号化は、より容易にされる。符号化された値が共に非常に密接に位置する、すなわち、強く相関する場合に、差動符号化は最適に機能する。時間値のソートとして、時間値は、強い相関にいたる。
図12は、区別をつけた符号化、ソート済みの信号および残差信号の典型的な軌跡(courses)を示す。すなわち、差動符号化の効果がソート済みの時間値を示す。インデックス1(ウォーミングアップまたはウォーミングアップ・フェーズ)のソート済みのおよび非相関の時間信号の照合値が、明らかに見られる。さらにまた、ソート済みの時間値と対比して、差動符号化の残差信号の実質的により小型のダイナミック・レンジは顕著である。図12に関する詳細は、以下のテーブルから引き出される。したがって、差動符号化は、ソート済みの時間値を符号化するために表わす。
Figure 2010510533
曲線あてはめ(CF)は、実施例において、できるだけうまく、与えられた数学的モデル機能をデータポイントに、ここではソート済みの時間値に、適合させることが試みられる技術である。曲線あてはめの有効性は、後述する曲線がどのような形状を有するかという事実によって、非常に相当な範囲に決定される。そのようなソートに応じて、単調に下落および/または単調に上昇する曲線形状が関係することは確かである。図12および図13は、ソート済みの時間値の2つの代表曲線形状を示す。図13の非一様性の曲線形状は、注目に値する。約40%(異なる音声信号の選択に関連がある)のケースで生じるこの種の曲線の軌跡(courses)は、大部分は、曲線あてはめを経由して特によく記載される。
曲線の軌跡に近似するように、図12および図13に示すように、以下の関数が選択される。実験において、この関数は、ここで表わす曲線の形状を記載するためによく適している事が証明された。
Figure 2010510533
係数c1,c2,λ1,λ2は、実数のセットの要素であって、たとえば、Nelder−Mead Simplex Algorithm,すなわち、NELDER,J.A.(ネルダー,J.A.);Mead,R.A.(ミード,R.A);A Simplex Method for Function Minimization.Computer Journal,第7巻,308頁−313頁,1956年,参照。
このアルゴリズムは、いくつかのパラメータの非線形関数を最適化する方法である。ステップ・サイズ制御を有するレギュラ・ファルシ(Regula falsi)法と同様に、値の傾向は、最適条件の方向に近似される。Nelder−Mead Simplexアルゴリズムは、ほとんど線形に収束し、そして、比較的に単純で、強い。関数fcf1は、一連の曲線の軌跡全体に対して非常に柔軟に適合できる利点を有する。しかしながら、比較的多くのサイド情報(4つの係数)が必要であることが不利点である。さらに、例えば、図12の中間部分であるソート済みの曲線は、第1のオーダの多項式(直線)によってよく記載されていることは、注目に値する。そして、2つの実数の係数a,bのみを必要とする。このため、第2の関数が、代替式として適用される。
Figure 2010510533
1ブロックのソート済みの時間値の全ての数全体の確実な曲線あてはめは、あまりに不正確である。このために、ブロックいくつかのより小さい区分にわけることは好都合なようである。しかしながら、ブロックが、あまりに多くの関数fcf1およびfcf2によって記載される区分に分解される場合、非常に多くの関数係数が必要である。このため、本実施例において、256の時間値の4つの区分への細区分は、1024の時間値の一定の全体のブロック長さの場合に、各々実効される。決定を可能とするために、区分毎に、fcf1またはfcf2が曲線あてはめに対してより適しているかどうか、十分な決定基準が必要である。一方、決定基準は、決定することが容易でなければならないし、他方、表現が豊かでなければならない。これを保証するために、まず、それぞれの関数の残差信号が形成される。そして、必要なビットの推定が実効される。関数fcf1がfcf2の2倍多くの係数を必要とするので、32ビットがfcf1のために加えて推定される。
図14において、曲線あてはめの関数が例示される。このフレームにおいて、第1区分と第4区分は、fcf2によって記載され、第2区分と第3区分は、fcf1によって記載される。
最後に、曲線あてはめを通して差動符号化および非相関の直接の比較が、作成されることになる。この目的を達成するために、フレーム当りのバイトのそれぞれのコストが示される。両方において、符号化方法の直接の比較に対して保証するために、ただ1つのパラメータのみを有するフォワード適応ライス符号化が使用される。すべてのブロックにおいて、差動符号化は、ここで示される曲線あてはめより効率が良く、比較は、図15において示される。
以下に、本発明の実施例の詳細が、より詳細に説明される。以下のテーブルは、以下において使用する音声材料をリストする。そして、それに、参照は対応する一節においてなされる。
Figure 2010510533
ロスレス符号化は、2つの分野に概略的に分けられる。最も多様な種類のデータによって機能することができる汎用な方法がある、そして、非常に特定のデータ(例えば、音声信号)を圧縮するために最適化される専門的な方法がある。
ところで、デジタルデータの圧縮のためのGZIPまたはZIPのような汎用な方法は、長年存在している。GZIPは圧縮のためのDeflateアルゴリズムを使用する。そして、それはLZ77(Ziv,Jacob(ジフ,ジェイコブ);Lmpel,Abraham(レンペル,エイブラハム):A Universal Algorithm フォr Sequential Data Compression.IEEE Transactions on Information Theory,vol.IT−23,No.3,1977年5月,参照)およびハフマン符号化(Huffman,David A.(ハフマン,ディビッド A.):A Method for the Construction of Minimum−Redundancy Codes.Proceedings of the I.R.E,1952年9月,参照)の組合せである。ZIPファイルフォーマットは、圧縮のための類似のアルゴリズムを使用する。他の汎用の方法は、BZIP2である。ここで、Burrows−Wheeler変換(BWT)(Burrows,M(バローズ,M),Wheeler,D.(ホイーラー,D.):A block sorting lossless data compression algorithm.Technical Report 124,Digital Equipment Corporation,1994年,参照)が、データの実際の符号化前に行われる。
BZIP2も、ハフマン符号化を使用した。これらのプログラムはいかなるデータも、例えばテキスト、プログラム・コード、音声信号等に適用される。それらが機能するために、これらの方法は、実際に、音声によるよりもテキストを有する方がより良好な圧縮を達成する。GZIPおよびSHORTENの圧縮方法の直接の比較が、音声信号に特殊化した(Robinson,Tony(ロビンソン,トニー):SHORTEN:Simple lossless and near lossless waveform compression.Technical report CUED/FINFENG/TR.156,ケンブリッジ大学 工学部,1994年12月、参照)これ(以下のテーブルを参照)を確認する。それぞれの標準設定が、試験のために使用される。
Figure 2010510533
このように、音声信号のための良好な圧縮ファクタを得るために、音声信号の特別な特性は、圧縮において考慮されなければならない。大部分のロスレス音声符号化方法は、図16に示されるブロック回路図を共有する。
図16は、見本となるように大部分のロスレス音声圧縮アルゴリズムの処理ステップを示す。図16における説明図は、ブロック回路図を示す。最初は、音声信号は、音声信号を信号ブロックに分けているブロック構造またはフレームに供給される。その後、内部チャンネル非相関性は、例えば、差動符号化を目的として、各々の信号を非相関化する。エントロピー符号化ブロックにおいて、信号は、最後に、エントロピー符号化される(Hans,Mat(ハンズ,マット);Schafer,Ronald W.(シェーファー,ロナルド W.):Lossless Compression of Digital Audio.IEEE Signal Processing Magazine,2001年7月,参照)。
最初は、処理されるデータは、特定のサイズの信号部分(フレーム)x(n)∈Z(Zは、整数のセットに対応する)に分解される。そして、非相関性ステップは、可能な限り信号からの冗長性を取り除くために試みられる。最後に、非相関性ステップから得た信号e(n)∈ Zは、エントロピー符号化である。あらかじめ、非相関性ステップのための2つの基本的な手続きがある。大部分のロスレス音声符号化方法は、信号(予測モデル)から冗長性を取り除くために、一種の線形予測を使用する。他のロスレス音声符号化方法は、損失性音声符号化方法に基づく。ここで、ロッシーデータとは別に、残留またはエラー信号は、元の信号(ロッシー符号化モデル)に加えて符号化される。その後、異なる方法は、更に詳細に考慮される。
Figure 2010510533
Figure 2010510533
図17は、以下の方程式に基づく。
Figure 2010510533
Figure 2010510533
Figure 2010510533
図18は、以下の方程式に基づく。
Figure 2010510533
予測値係数は、あらためて処理されるたびに、信号部分毎に決定されて、送信される。p番目の次数の予測値の係数akの適応決定は、共分散法または自己相関関数を使用する自己相関法によって行われる。係数は、以下のタイプの線形方程式のシステムの解法を介して得られる。
Figure 2010510533
ここで、rxx(k)=E(s(n)s(n+k))が適用される(Sayood,Khalid(サヨード,ハーリド):Introduction to Data Compression.San Francisco:Morgan Kaufmann,第3版,333頁,2006年,参照)。代わりに、これは、以下のマトリックス表記によって表わせる。
Figure 2010510533
Figure 2010510533
予測のために、サイズNのブロックへの時間値の分割が実行される。現在のブロックnから時間値を予測するために第2の次数の予測値を使用することが望ましい場合、問題は、ブロックnから最初の2値を取り扱う方法の中で発生する。先のブロックn−1から最後の2値は、予測するために同様に用いられるか、または、ブロックnの最初の2値は予測されず、それらの元のフォームのままである。先のブロックn−1の値が使用される場合、ブロックn−1が上手く復号化された場合のみ、ブロックnが復号化される。さらに、これは、ブロック依存に通じており、自発的な復号化ユニットとして、各ブロック(フレーム)を扱っている原則と相反する。第1のp値がそれらの元のフォームのままである場合、それらは、ウォーミングアップまたは予測値のウォーミングアップ値(図19を参照)と呼ばれる。ウォーミングアップが、通常、残差信号より他のサイズ比率および統計学的性質を有するので、それは、ほとんどの場合、エントロピー符号化ではない。
図19は、予測フィルタのウォーミングアップ値の実施例を示す。図19の上部において、不変の入力信号が例示され、下部において、ウォーミングアップ値および残差信号が例示される。
実現している予測の別の方法は、新たに各信号部分に対して係数を決定せず、常に固定した予測値係数を使用するものである。常に同じ係数が使用される場合、これは固定の予測値と呼ばれる。
ところで、例として、AudioPak(Hans,Mat(ハンズ,マット);Schafer,Ronald W.(シェーファー W. ロナルド):Lossless Compression of Digital Audio.IEEE Signal Processing Magazine,28頁−31頁,2001年7月,参照)が、予測モデルの代表で、詳細に考慮される。AudioPakにおいて、最初、音声信号は、独立に、自発的に復号化可能な部分に分解される。通常、192の倍数(192,576,1152,2304,4608)が使用される。非相関性のために、固定整数係数を有するFIR予測値が使用される(固定の予測値)。このFIR予測値は、SHORTENにおいて最初に使用された(Robinson,Tony(ロビンソン,トニー):SHORTEN:Simple lossless and nearlossless waveform compression.Technical report CUED/F−INFENG/TR.156,ケンブリッジ大学 工学部 1994年,参照)。内部的には、固定の予測値は、4つの異なる予測モデルを有する。
Figure 2010510533
Figure 2010510533
Figure 2010510533
最後に、最も良い予測モデルは、残差信号の値の大きさの合計が最も小さくなるという事実によって決定される。AudioPakは、ライス符号化を使用する。残差信号の値がei(n)∈Zであるので、ライス符号化は、N0からの値と連携し、最初は、残差信号ei(n)からN0へのマッピングが実行される。
Figure 2010510533
ライス・パラメータkは、ブロック(フレーム)ごとに決定され、0,1,…,(b−1)の値を仮定する。ここで、bは、音声サンプルあたりのビットの数を表わす。kは、以下の方程式を介して決定される。
Figure 2010510533
いかなる浮動小数点演算のkの直接の推定も、例えば、以下の通りにされる:
Figure 2010510533
ここで、フレーム・サイズは、フレームあたりのサンプルの数、およびAbsErrorの残差信号の絶対値の合計を表わす。さらに、予測モデルの表現は、SHORTEN(Robinson,Tony(ロビンソン,トニー):SHORTEN:Simple lossless and nearlossless waveform compression.Technical report CUED/F−INFENG/TR.156,ケンブリッジ大学 工学部 1994年,参照)、FLAC(Coalson,Josh(コールソン,ジョシュ):FLAC−Free Lossless Audio Codec;http://flac.sourceforge.net,参照)、MPEG−4 Audio Lossless Coding(MPEG−4 ALS)(Liebchen,Tilman(リープヒェン,ティルマン);Reznik,Yuriy(レズニック,ユーリー);Moriya,Takehiro(モリヤ,タケヒロ);Yang,Dai Tracy(ヤン,ダイ トレイシー):MPEG−4 Audio Lossless Coding.Berlin,Germany:第116回 AES Convention,2004年5月,参照)およびMonkey´s Audio(Ashland,Matthew T.(アシュランド,マシュー T.);Monkey´s Audio−a fast and powerful lossless audio compressor;http://www.monkeysaudio.com/index.html,参照)である。
ロスレス音声符号化方法を実現する第2の方法は、損失性音声符号化方法を基にしていることである。ロッシー符号化モデルの1つの代表例は、LTACである。ここで、略記LTC(Lossless Transform Coding)が、LTAC(Lossless Transform Audio Compression)の代わりにも使われ、Liebchen,Tilman(リープヒェン,ティルマン);Purat,Marcus(プラトー,マーカス);Noll,Peter(ノル,ペーター):Lossless Transform Coding of Audio Signals.Munich,Germany:第102回 AES Convention,1997年、を参照する。符号器の中で機能している原理は、図21において例示される。
図21は、LTAC(Lossless Transform Coading)符号器の構成のブロック図を示す。符号器は、入力信号x(n)を周波数領域(以下、量子化Q)に変換するための「DCT」ブロックを含む。量子化された信号c(n)は、「IDCT」ブロックによって、時間領域に変換される。ここで、さらなる量子化器Qによって量子化され、そして、元の入力信号から取り除かれる。残差信号e(n)は、エントロピー符号化の方法において符号化される。量子化信号c(n)は、エントロピー符号化を介して符号化される。そして、それはさまざまなコードブック(図21に対応する)の中から選択をすることができる。
LTACにおいて、時間値x(n)は、直交変換(DCT=Discrete Cosine Transform:離散コサイン変換)によって、周波数領域に変換される。そして、損失部分において、スペクトル値は、量子化されたc(k)であり、エントロピー符号化である。
ロスレス符号化方法を実現するために、さらに、量子化されたスペクトル値c(k)は、逆変換(IDCT=Inverse Discrete Cosine Transform:逆離散コサイン変換)によって変換され、再びy(n)に量子化される。残差信号は、e(n)=x(n)−y(n)によって算出される。そのとき、e(n)は、エントロピー符号化であり、送信される。復号器において、y(n)は、引き続いて起こる量子化を有するIDCTによってc(k)から再び得られる。最後に、x(n)の完全な再構成が、y(n)+e(n)=y(n)+[x(n)−y(n)]=x(n)によって実現する。
さらに、ロッシー符号化モデルのカテゴリに分類されている方法は、MPEG−4 Scalable Lossless Audio Coding(MPEG−4 SLS)(Geiger,Ralf(ガイガー,ラルフ);Yu,Rongshan(ユー,ロンシャン);Herre,Jourgen(ヘレ,ユールゲン);Rahardja,Susanto(ラハルジャ,スサント);Kim,Sang−Wook(キム,サン−ウク);Lin,Xiao(リン,シャオ);Schmidt,Markus(シュミット,マルクス):ISO/IEC MPEG−4 High−Definition Scalable Advanced Audio Coding.Paris:第120回 AES Convention,2006年5月,参照)である。それは、ロスレス音声符号化、損失性音声符号化およびスケーラブル音声符号化を機能的に合成する。ビット・ストリーム・レベルに、MPEG−4 SLSは、MPEG−4 Advanced Audio Coding(MPEG−4 AAC)(ISO/IEC JTC1/SC29/WG11: Coding of Audiovisual Object, Part 3. Audio,Subpart 4 Time/Frequency Coding.International Standard 14496−3,1999年,参照)に後方互換性を有する。図22は、MPEG−4 SLS(SLS=Scalable Lossless Audio Coding)符号器のブロック図を示す。
最初、音声データは、IntMDCT(Integer Modified Discrete Cosine)(Geiger,Ralf(ガイガー,ラルフ);Sporer,Thomas(シュペーラー,トーマス);Koller,Jourgen(コラー,ユールゲン);Brandenburg,Karlheinz(ブランデンブルク,カールハインツ):Audio Coding Based on Integer Transforms;New York:第111回 AES Conv.,2001年,参照)を有する周波数領域に変換され、そして、temporal noise shaping(TNS)、およびmid/side−channel coding(integer AAC tools/adaptation)によってさらに処理される。すべてのAAC符号器は、エラー・マッピングによってIntMDCTスペクトル値から取り除かれる。残るものは、エントロピー符号化を受ける残差信号である。エントロピー符号化のために、BPGC(Bit−Plane Golomb Code)、CBAC(Context−Based Arithmetic Code)および低いエネルギー・モードが使用される。
2つ以上のチャンネルを介したサウンド伝送は、立体音響と呼ばれる。実際には、ターム・ステレオが、大部分は、2つのチャンネル部分に対して独占的に使用される。2つ以上のチャンネルがある場合、それはマルチチャンネル・サウンドと呼ばれる。この修士論文は、2つのチャンネルを有する信号を取り扱うだけである。そのために、指定ステレオ信号が同意語として使用される。処理ステレオ信号の1つの可能性は、互いに、独立に両方のチャンネルを符号化することである。この場合、これは、独立ステレオ符号化を呼ばれている。古いモノラル記録の「pseudo−stereo」バージョンまたは、テレビにおける2つのチャンネル(独立チャンネル)のサウンドとは別に、ステレオ信号は、通常、2つのチャンネルの違いおよび共通性(冗長性)を有する。一方が共通点を決定して、両方のチャネルのための一度だけそれらを送信することに成功する場合、もう一方はビットレートを低下させることができる。この場合、これは、依存性ステレオ符号化(Joint Stereo Coding)と呼ばれる。ステレオ信号間の冗長性を減らす一つの方法は、中間/サイドチャンネルの符号化(MS符号化)である。この技術は、以下の文献において、ロッシー音声符号化方法について最初に記載されていた。Johnston,J.D.(ジョンストン,J.D.);Ferreira,A.J.(フェレイラ,A.J.):Sum−Difference Stereo Transform Coding,IEEE International Conference,ICASSP,1992年。以下の方程式は、左チャンネルLおよび右チャンネルRから中央チャンネルMおよびサイド・チャネルSを生成する方法を示す。
Figure 2010510533
ロスレス音声符号化方法も、MS符号化を利用する。加えて、上記方程式は、いくつかの場合において、結果により得られる整数の代わりに、浮動小数点数の特性を有するので、いくつかのロスレス音声符号化方法(Ashland,Matthew T.(アシュランド,マシュー T.):Monkey´s Audio−a fast and powerful lossless audio compressor;http://www.monkeysaudio.com/index.html,参照)は、MS符号化のための以下の方程式を使用する。
Figure 2010510533
ここで、NINTは、ゼロに関して最も近い整数による丸めを意味する。
MS符号化は別として、ロスレス音声符号化方法は、LS符号化および/またはRS符号化(Coalson,Josh(コールソン,ジョシュ):FLAC−Free Lossless Audio Codec;http://flac.sourceforge.net,参照)も使用する。RS符号化からLS符号化および/または左チャンネルから右チャンネルを得るために、以下の方程式において同様に進められる。
Figure 2010510533
ステレオ冗長度抑圧(SRR)を実行する2つの基本的な可能性がある。個々のチャンネルの非相関化の後(図23を参照)、または個々のチャンネルの非相関化の前に(図24を参照)。図23は、個々のチャンネルの非相関化の後のステレオ冗長度抑圧(SRR)を示し、図24は、個々のチャンネルの非相関化の前のステレオ冗長度抑圧を示す。両方の方法は、特定の有利な点および不利な点を有する。しかしながら、以下において、方法2が単独に使用される。
このセクションにおいて、適切な量子化は、提示される線形予測(LPC=Linear Prediction Coding)のために明らかにされる。通常、決定された係数azは、デジタルシステムの有限精度によって表わすことができるのみの浮動小数点値(実数)である。このように、係数azの量子化の行われる必要がある。しかしながら、これは、結果としてより大きな予測誤差を導き、残留誤差の生成において考慮されることとなる。このために、精度パラメータgを介して量子化を制御することは有用である。gが大きい場合、係数のより微細な量子化が行われ、係数のためにより多くのビットが必要である。gが小さい場合、係数のためにより粗い量子化が行われ、係数のためにより少しのビットが必要である。量子化を実現することが可能であるために、最初は、大きさに関して最も大きい係数amaxが決定される。
Figure 2010510533
このように決定される最大予測値係数amaxは、現在、仮数Mとベース2に対するベキ指数Eに分解される。すなわち、
Figure 2010510533
仮数Mは、以下において、もはや必要ではない、しかし、ベキ指数Eは以下の方程式としてスケーリング・ファクタを決定するのに役立つ。
Figure 2010510533
1からの引き算は、符号付係数を考慮に入れるのに役立つ。i=1,2,…,pに対する量子化された予測値係数が、以下の方程式によって得られる。
Figure 2010510533
Figure 2010510533
Figure 2010510533
予測手段の次数が増加する場合、これは通常、残差信号の分散および振幅を減少させる。これは、残差信号のための低いデータレートを伴う。一方では、より多くの係数およびより多くのウォーミングアップ、すなわちより多くのサイド情報が、より高い予測次数のために送信されなければならないという事実がある。このことにより、全体のデータレートは再び増加する。したがって、全体のデータレートが最小化するような次数を見つける事が目的である。
図25は、予測次数および全体のビットの消費の関係を例示する。残差信号の次数の増加は、符号化のためにビットをだんだん少なくする必要があることを明らかにする。加えて、サイド情報(量子化された予測値係数およびウォーミングアップ)のためのデータレートは、連続的に増加する。それによって、全体のデータレートは、再び、数ポイントから始まって上がる。通常、最小値は、1<p<16で理解される。図25において、最適な次数は、p=5で得られる。g=12の量子化制御および入力信号のためのサンプル毎の16ビットの分解能は、図25に対して使用された。
図26は、量子化パラメータgおよび全体のビットの消費の関係を例示する。量子化パラメータgによる全体のビットレートに関して(図26を参照)、残差信号のためのビットの消費は、特定の値まで連続的に減少する。このことから、さらに、量子化精度の増加は、もはや無駄となる。これは、残差信号のためのビットの必要な数がほぼ一定のままであることを意味する。全体のデータレートは、連続的に、始めに減少して、しかし、また、量子化された予測値係数のためのサイド情報のために上がる。ほとんどの場合、最適条件は、5<g<15で得られる。図26において、最小値は、g=11である。p=7の一定の予測次数およびサンプル毎に16ビットの分解能が図26に対して使用された。
実際に得られた所見は、現在、簡略なMATLAB符号化表現(lpc()を参照)のロスレス線形予測のためのアルゴリズムを示すために使用される。MATLABは、マトリックスを算出するために設計される市販の数学ソフトウェアである。MATrix LABoratoryの名前が、その由来である。MATLABのプログラミングは、所有権において、それぞれのコンピュータにおいて解釈されるプラットフォームに依存しないプログラミング言語である。最初は、若干の変数は、図25および図26において決定される制限値にしたがって初期化される。そして、予測値係数は、自己相関およびレビンソン・ダービンアルゴリズムを介して決定される。アルゴリズムの中心は、2つのはさまれたfor−loopによって形成される。外側のloopは、予測次数pを介して実行される。内側のloopは、量子化パラメータgを介して実行される。内側のloopの範囲内で、係数の量子化、残差信号の算出および残差信号のエントロピー符号化が行われる。残差信号の完全なエントロピー符号化の代わりに、ビットの消費の推定も可能である。そして、それは実行するのがより速いかもしれない。最後に、最も低いビットの消費を有する変形が、確保される。以下に示すのは、MATLABコードの実施例である:
lpc(data, bitsPerSample)
% initialize bestBits with maximum value
bestBits = INT_MAX;
% limits of the predictor order
max_lpc_order = 16;
min_lpc_order = 1;
% limits of the quantization accuracy
min_quant_precision = 5;
max_quant_precision = 15;
% calculate autocorrelation
autoc = CalcAutocorr(data, max_lpc_order);
% determine coefficients for all relevant
% orders with the Levinson-Durbin algorithm
coeffs = CalcCoeff(autoc, max_lpc_order);
% find the best order p
for p = min_lpc_order:1:max_lpc_order
% find the best quantization parameter g
for g = min_quant_precision:1:max_quant_precision
% quantize the coefficients
[qcoeffs, s] = QuantCoeffs(coeffs, p, g);
% calculate residual signal (actual prediction)
[residual, warmup] = CalcResidual(data, p, s, qcoeffs);
% entropy coding of the residual signal
bitsResidual = EntropyCoding(residual);
% necessary bits for the coefficients
bitsQCoeffs = g * p;
% necessary bits for the warmup
bitsWarmup = bitsPerSample * p;
% determine overall bit consumption
bitsTotal = bitsResidual + bitsQCoeffs + bitsWarmup;
% store best variant
if (bitsTotal < bestBits)
bestOrder = p;
bestWarmup = warmup;
bestQuantScal = s;
bestPrecision = g;
bestQCoeffs = qcoeffs;
bestResidual = residual;
bestBits = bitsTotal;
end
end
end
end
ここで、上記のFIR予測値が有益な方法で、固定のおよび整数の係数(固定の予測値)を有するように拡張できるかどうかが、検査される。上記のセクションから、1<p<16の範囲において、最適な次数pが位置するのは公知である。固定の予測値は、Robinson,Tony(ロビンソン,トニー):SHORTEN:Technical report CUED/FINFENG/TR.156,ケンブリッジ大学 工学部,1994年12月において、p=3の最大の次数を使用する。Hans,Mat(ハンズ,マット);Schafer,Ronald W.(シェーファー,ロナルド W.):Lossless Compression of Digital Audio,IEEE Signal Processing Magazine,30頁,2001年7月においては、固定の予測値の変換関数は、
Figure 2010510533
対応する残差信号は、以下の方程式として得られる。そして、ウォーミングアップの構成は、上記のセクションと同等にされる:
Figure 2010510533
図27は、その次数pに応じて、固定された予測値のマグニチュード周波数応答の例示を示す。異なる予測値の次数の効果は、それらの周波数応答(図27を参照)の考慮を基礎として明らかになる。p=0の次数において、残差信号は、入力信号に対応する。このことにより、常に1のマグニチュード周波数応答が得られる。次数の増加は、結果として、一方で低周波数信号比率の強い減衰で、他方で高周波数信号比率の増加を導く。周波数の軸は、例として半分のサンプリング周波数によって規格化された。それによって、1は、半分のサンプリング周波数(ここで、22.05kHz)を結果として得る。
ところで、この調査は、符号化ゲインがp=4およびp=5を算入することによって達成されるかどうかを示すことである。この目的を達成するために、音楽のさまざまな部分が調べられる、そして、最小のビットを必要とする次数がブロック毎に選択される。
以下の表において、全体の音声ファイルに合計されるとき、どのように次数が選択されたか、例示される。1024の時間値の長さの一定のブロック長は、この表の作成のために選択された。
Figure 2010510533
上記の表から、全てのケースにおいて、最適である予測次数がないことがわかる。このために、再び、ブロック毎に最も良い次数を決定することは意味がある。次数p=2,p=3およびp=1は、最も頻繁に選択される。次数p=0およびp=4は、使用頻度が低い。いくつかの符号化ゲインは、p=4によって固定された予測値の拡張によってPiece No.1において達成される。次数p=5は、部分15においてのみ符号化ゲインを提供する。Piece No.15が、音楽の「通常の」部分でなく、しかし、1kHzの正弦であるので、p=5の利点は問題である。さらに、これは、p>5が通常いかなる大きな符号化ゲインももはや提供しなくて、複雑さを増加させるだけのことを示す。上記のセクションにおいて、実際に得られた所見は、アルゴリズム(fixed()参照)を示すように使用される。最初は、最大および最小の次数が定義される。そして、以下のfor−loopは、すべての次数にわたって実行をする。このloopの範囲内において、対応するビット消費を有する残差信号および次数に依存するウォーミングアップのコストが決定される。最後に、最も良い変形が選択される。
fixed(data, bitsPerSample)
% initialize bestBits with maximum value
bestBits = INT_MAX;
% limits of the predictor order
max_fixed_order = 5;
min_fixed_order = 0;
for p = min_fixed_order:1:max_fixed_order
% calculate residual signal (actual prediction)
[residual, warmup] = CalcResidual(data, p);
% entropy coding of the residual signal
bitsResidual = EntropyCoding(residual);
% necessary bits for the warmup
bitsWarmup = bitsPerSample * p;
% determine overall bit consumption
bitsTotal = bitsResidual + bitsWarmup;
% store best variant
if (bitsTotal < bestBits)
bestOrder = p;
bestWarmup = warmup;
bestResidual = residual;
bestBits = bitsTotal;
end
end
end
差動符号化において、その名が示すように、それは実行値でなく、符号化された連続した値の差である。差が元の値よりも小さい場合、より高い圧縮が達成される。上記のセクションにおいて記載される固定の予測値は、p=1のための差動符号化を使用する。
定義(差動符号化):1<i<n<∞およびxi∈Zであるi∈Nとすると、差動符号化は、以下のように定義される。
Figure 2010510533
差動符号化は、可逆である。
定義(逆差動符号化):1<i<n<∞およびxi∈Zであるi∈Nとすると、逆差動符号化は、以下のように定義される。
Figure 2010510533
予測値の場合のように、ウォーミングアップ(i=1の時間値)は、エントロピー符号化から除外される。δは、漸減的にソート済みの時間値の場合において、N0の範囲内において完全に存在する残差信号の特性を有する。このことより、その後のエントロピー符号化は、よりシンプルに設計される。符号化された値がともに非常に密接に位置し、すなわち、強い相関がある場合、差動符号化は、最適に働く。時間値のソートとして、時間値は、強い相関に至らせる。図12は、符号化された差分の効果がソート済みの時間値に適用されたことを、既に示している。インデックス1(ウォーミングアップ)のソート済みのおよび非相関された時間信号のマッチしている値は、明確に見られる。さらにまた、ソート済みの時間値とは対照的に差動符号化の残差信号の実質的により小さいダイナミック・レンジは、注目に値する。図12に関する詳細は、以下のテーブルにおいて示される。このように、差動符号化は、ソート済みの時間値を符号化するために、シンプルで効率的な方法を示す。
Figure 2010510533
以下の2つのセクションにおいて、どのように効果的に置換を符号化するかの方法が明らかにされる。置換のメモリのなしの考慮を仮定すると、|σ|<∞を有する任意の置換σのエントロピーが、以下の方程式によって与えられる。ここで、置換のメモリの考慮は、意図的に省略される。なぜなら、メモリのなしの考慮は、最もシンプルな置換の符号化の種類を表わす。
Figure 2010510533
H(σ)は、σ(i)のバイナリ符号化のためのビット/キャラクタの必要な数を記載する。例えば、長さ256の置換を表わすために、要素毎に8ビットが必要である。これは、置換の要素の発生がおそらく等しいであろうという事実による。時間値をソートすることによって音声信号(例えば、16ビットの分解能)の符号化において得られた置換は、この例において、入力されたデータレートのみの半分を必要とする。このデータ・ボリュームは、すでに比較的高いので、以下の問題が生じる:1要素あたりのlog2(|σ|)ビットより小さい置換をバイナリ符号化することは可能か。
上記のセクションにおいて、それが置換表現から等価な反転チャートの例示まで切替えられ、そして戻されることができることが示されている。したがって、反転チャートのバイナリ表示が置換のそれより少ないデータレートを必要とするかどうかが、調べられる。ここで、実施例は、明確さを提供することである。
実施例:以下の置換が与えられる。
Figure 2010510533
σおよびπの反転チャートが形成される場合、I(σ)=(2110),I(π)=(3210)が得られる。以下が適用される。
Figure 2010510533
これは、反転チャートのエントロピーが実は置換のそれより小さいことを意味する。加えて、以下は、πのために得られる。
Figure 2010510533
したがって、πの場合、反転チャートのエントロピーは、実に置換のそれと同程度大きい。加えて、逆次数(すなわちπ(4),π(3),π(2),π(1))のπを考慮すると、同一の置換が得られる、そして、その反転チャートはごくわずかなエントロピーしかない。いずれにせよ、以下は、|σ|<∞を有する任意の置換に対して適応される。
Figure 2010510533
ところで、さらにまた、反転チャート構成の規則は、上記の実施例において記載されているπに関する課題に対抗するために定義されることになる。最初は、完全を期すために、上記のセクションにおいて反転チャート構成の規則(以下の反転チャートLB)は、再度、言及される。
Figure 2010510533
Figure 2010510533
Figure 2010510533
Figure 2010510533
実施例:反転チャートRSおよび置換の対応する生成の実施例は、ここで、見本となるように示される。
Figure 2010510533
最初は、それが、σ(i)=1を有する置換の要素を持ち、1よりも小さいσのそれにおいて、σ(i)=1の右の要素をカウントする。ここで、これは要素のいずれでもない。それから、それが、σ(i)=2を有する置換の要素を持ち、σにおいて、より小さいσ(i)=1の右の要素をカウントする。ここで、σ(i)=2の右の要素は2より小さいことはない。最後には、Irs(σ)=(b1,…,b4)=(0023)が得られる。j=1,2,…|σ|で着実に手続する場合、対応する置換は、反転チャートRSから再び生成される。この目的を達成するために、その右に対するbj要素がjより小さいために、それは、逆の方法において実行され、jに挿入する。
b1=0 1
b2=0 12
b3=2 312
b4=3 4312
σの反転チャートLB,LSおよびRBが形成された場合、
lb(σ)=(2210)
ls(σ)=(0100)
lb(σ)=(1000)
が得られる。
上記からの反転チャートのエントロピーの比較は、それらのエントロピーが部分的に有意差を有して、ここで、全ての場合において、置換(2ビット)のエントロピーより少ないことを示す。
Figure 2010510533
ARNAVUT,Ziya(アルナヴト,ズィヤ):Permutation Techniques in Lossless Compression.ネブラスカ大学,Computer Science,Dissertation,58頁−78頁,1995年が、彼の論文において反転チャートの形成のために異なるいくつかの方法を使用した。しかしながら、彼は、反転チャートのための異なる構成規則を使用した。これらは、Lehmer反転チャートである。反転チャートが以下において言及される場合、非Lehmer反転チャートが意味される。Lehmer反転チャートの場合において、「Lehmer」は、明示的に追加される。ところで、これらが、以下において記載されていることになっていて、更に使われることになっている。
Figure 2010510533
追加rslは、「right smaller Lehmer」を表わす。同様のことは、以下の定義に適用される。もちろん、置換は、Lehmer反転チャートRSから再度発生される。ARNAVUT,Ziya(アルナヴト,ズィヤ):Permutation Techniques in Lossless Compression.ネブラスカ大学,Computer Science,Dissertation,62頁−63頁,1995年において、以下のアルゴリズムは、これのために示された。アルゴリズムにおいて、lは、連結されたリストを表わす。
Figure 2010510533
ARNAVUT,Ziya(アルナヴト,ズィヤ):Permutation Techniques in Lossless Compression.ネブラスカ大学,Computer Science,Dissertation,1995年は、彼の論文において、彼が、いくつかのLehmer反転チャートの構成規則を使用したことを実際に指摘している。しかし、より詳細に、残留する3つの反転チャートの構成規則(RBL,LSLおよびLBL)の定義以外、また、置換を復元するための対応するアルゴリズムは示されない。このために、対応する定義およびアルゴリズムが、ここで示される。
Figure 2010510533
Figure 2010510533
Figure 2010510533
実施例:Lehmer反転チャートLBの構造および置換の対応する修復は、ここで、全4つのLehmer反転チャートのために手本となって示される。与えられることは、以下である。
Figure 2010510533
Figure 2010510533
Figure 2010510533
それが、σのLehmer反転チャートRSL,RBLおよびLSLを形成する場合、それは、以下を得る。
Figure 2010510533
反転チャートLBの要素の示されたプロパティも、反転チャートRB,RBLおよびRSLを適用する。しかしながら、反転チャートLS,RS,LBLのために、要素は、以下のプロパティを有する。
Figure 2010510533
反転チャートおよびLehmer反転チャートの間において、エントロピーに関する以下の関係がある。
Figure 2010510533
それぞれの反転チャートおよび/またはLehmer反転チャートを形成する場合、要素は、他の次数において考慮されるだけであるという事実に起因する。
置換を符号化するためのデータレートがどれくらい高いかについて記載を得るために、現在、この符号化効果の程度が、定められる。この計測のために、さまざまな反転チャートおよび/またはLehmer反転チャートが考慮される。
定義(符号化可能性の程度):σは|σ|<∞を有する置換、およびIlb(σ),Its(u),Ils(σ),Irb(σ)は、反転チャートに対応し、および/またはIlbl(σ),Irbl(σ),Irsl(σ)は、Lehmer反転チャートに対応するものとする。そのとき、置換のための符号化可能性の基準が以下のように定義される。
Figure 2010510533
8つの反転チャートの構成規則のうちのいずれが使用されたかというシグナリングが、3ビットによってされる。それゆえ、|σ|<∞に対して以下の不等式が適用される場合、最も良い変形は、置換の通常のバイナリ符号化より負担がかからない。
Figure 2010510533
調査を介して、H(σ)>C(σ)が|σ|>1に対して常に適用されると、それ故、この方程式が当てはまり、|σ|>4で開始する。置換がlog2(|σ|)に迫って符号化されることができるかどうかに関して、最初に挙げられる問題に答える。可能性の理由のために、一つ一つ置換によりスクランブルするのが望ましい。そして、同一の置換から始まる。この目的を達成するために、KNUTH,Donald E.(クヌース,ドナルド E.):The Art of Computer Programming;Massachusetts:Addion Wesley,第2巻 145頁,1998年からのアルゴリズムが使用される。
Figure 2010510533
アルゴリズムにおいて不利であることは、Uの選択である。Uの事実とは無関係に、tの数は、ときどき、より多くのビット、および/または転置ステップにおいてときどき、より少ないビットをスクランブルする。しかしながら、ここで、重要なことは、段階的に進行していて、一つ一つ本来元に戻された置換(同一の置換)のスクランブルを減少させているアルゴリズムの特性である。図28から、置換の長さ、転置の数および符号化可能性の程度が、明らかに読み出される。図28は、置換の長さ|s|、転置の数および符号化可能性の関係の具体例を示す。同一の置換が与えられた場合、符号化可能性の程度は0に等しくなる。置換のほとんどの要素が変換されなくなる場合、符号化可能性の程度は、急激に上昇する。そして、より多くの置換要素が、転置によって交換される場合、曲線は、上部の方へ平になって、以下の表から経験的に決定されたビット値の方へ行う。
Figure 2010510533
ところで、時間値のソートによって得られた置換の反転チャートおよびLehmer反転チャートが様々な音楽においてどの形を有するかが示される。この目的を達成するために、音色の部分およびノイズのような部分の10番目のブロック(フレーム)の反転チャートの例示を示す。図30は、音色の部分の20番目のブロック(フレーム)の反転チャートの例示を示す。基本は、1024の時間値のブロック・サイズである。
図29および図30において、三角形の曲線形状が、最初は注目に値する。この曲線形状は、根本的な反転チャートの構成規則およびそれらの方程式によって引き起こされる。さらにまた、音楽のノイズのような部分において(図29を参照)、および音楽の音色の部分における(図30を参照)両方で、Lehmer反転チャートは、非常に非相関であることは、注目に値する。はっきりとした違いは、音楽の音色の部分および音楽のノイズのような部分との間に反転チャートを示すことができる。上記の反転チャートおよびLehmer反転チャートに属している置換を考慮して、音楽の音色の部分をソートすることによって得られる置換が、音楽のノイズのような部分(図31を参照)のそれよりもよりそこで実質的に相関している。図31は、時間値のソートから得られた10番目のブロック(左)および音色の部分(右)におけるノイズのような部分の置換の例示を示す。
図31の右側の置換は、主軸に反映する音声信号の1つを指摘する。音声信号、逆ソート規則および反転チャートの間の直接的な関係があるかのように思われる。
図32および33は、1ブロックの音声信号、xおよびy座標が交換された対応する置換および対応する反転チャートLSを示す。左手側に、図32は、音声信号の部分、対応する置換および反転チャートLSを示し、ならびに、右手側に、左の画像から拡大した方法の置換および反転チャートLSを示す。図33は、左側において、音声信号の部分、対応する置換および、反転チャートLSを示し、ならびに、右側の拡大した形の左の画像から置換および反転チャートLSを示す。
Figure 2010510533
相関遷移の原則:音声信号の相関は、通常、xyを交換された置換において反映され、そして、反転チャートは、置換に対応して帰属している。上記の相関遷移の原則のため、反転チャートの予測は、さらなる処理のためのそれ自体に役立つ。記載されている固定の予測値は、予測のために使用されることになる。一般に、Lehmer反転チャートの予測は、良い結果を提供しない。しかしながら、非常に珍しい例外的な場合において、Lehmer反転チャートの予測の残差信号が、ときどき、反転チャートの残差信号より少しのビットを必要とすることが生じる。このために、全8つの反転チャートの構成規則が使用される。これは、permCoding()においてシンプルなMATLABコードとして描写される。
permCoding(perm)
% generate inversion charts
invLB = calcInvVecLB(perm);
invLS = calcInvVecLS(perm);
invRB = calcInvVecRB(perm);
invRS = calcInvVecRS(perm);
% generate Lehmer inversion charts
invLBL = calcInvVecLBLehmer(perm);
invLSL = calcInvVecLSLehmer(perm);
invRBL = calcInvVecRBLehmer(perm);
invRSL = calcInvVecRSLehmer(perm);
% prediction of the inversion charts
restsignalLB = fixed(invLB);
restsignalLS = fixed(invLS);
restsignalRB = fixed(invRB);
restsignalRS = fixed(invRS);
% prediction of the Lehmer inversion charts
restsignalLBL = fixed(invLBL);
restsignalLSL = fixed(invLSL);
restsignalRBL = fixed(invRBL);
restsignalRSL = fixed(invRSL);
% determine bit requirement
[bitsLB, bitsLS, bitsRB, bitsRS
bitsLBL, bitsLSL, bitsRBL, bitsRSL] = getBitConsumption(restsignalLB,
restsignalLS,
restsignalRB,
restsignalRS,
restsignalLBL,
restsignalLSL,
restsignalRBL,
restsignalRSL);
% determine the most bit-saving variant
[bestInvVecBits,bestInvVecVersion] = min([bitsLB, bitsLS, bitsRB, bitsRS,
bitsLBL, bitsLSL, bitsRBL, bitsRSL]);
end
上記のセクションから、反転チャートは、常に、三角形に似ている1つの形を有することが知られている。まれなケースにおいて、反転チャートおよびLehmer反転チャートの予測が、非効率的であることは起こりえる。この問題を取り扱うために、反転チャートおよびLehmer反転チャートの三角形形状は、現在最悪の場合比較的廉価なバイナリの符号化を実現するために利用される。例えば、ノイズのような、または一時的な音声信号が符号化される場合、最悪のケースが発生する。結局、これらの場合において、反転チャートおよび/またはLehmer反転チャートの予測は、時々、少しもよい結果を提供しない。この目的を達成するために、それぞれの反転チャートの構成規則に応じて、必要であるのと同程度多くのビット、しかし、できるだけ少ないものは、要素の従来のバイナリ表示に常に割り当てられる。対応する動的なビット割り当て機能は、以下のように定義される。
Figure 2010510533
Figure 2010510533
以下の表は、この符号化方法のパフォーマンスを示す。
Figure 2010510533
反転チャートおよび/またはLehmer反転チャートを介して実現される動的なビット割り当てとして、およそ1ビットは、置換の従来のバイナリ符号化とは対照的に、要素毎に保存される。この符号化方法は、このように最悪の場合のためにシンプルで、有益な手続きを表わす。
このセクションにおいて、可能な限り最大の圧縮を達成するために、エントロピー符号化が実際に記載されている非相関性方法の残差信号のためにどのように設計されるかが考察される。ROBINSON,Tony(ロビンソン,トニー):SHORTEN:Simple lossless and nearlossless waveform compression.Technical report CUED/FINFENG/TR.156,ケンブリッジ大学 工学部,1994年12月,REZNIK,Y(レズニック,Y):Coding of Prediction Residual in MPEG−4 Standard for Lossless Audio Coding(MPEG−4 ALS).IEEE Proc., ICASSP,2004年,およびLIEBCHEN,Tilman(リープヒェン,ティルマン);REZNIK,Yuriy(レズニック,ユーリー);MORIYA,Takehiro(モリヤ,タケヒロ);YANG,Dai Tracy(ヤン,ダイ トレイシー):MPEG−4 Audio Lossless Coding.Berlin,Germany:第116回 AES Convention,2004年5月,において、時間値の予測の残差信号がおよそラプラス分布を有することが示された。これも、非Lehmer反転チャートの予測の残差信号を適用する。上記のセクションにおいて記載されている相関遷移の原則は、このための理由である。
図34は、予測(固定の予測値)によって得られる、確率分布(上部)および反転チャートLBの残差信号の符号語(下部)の長さを示す。図34は、固定された予測値を適用することによって得られた、非Lehmer反転チャートLBの残差信号の確率分布を示す。残差信号の符号語長さの決定に対して、k=2のパラメータを有するフォワード適応ライス符号化が根拠となる。残差信号の確率分布は、およそラプラス分布に対応するということを明らかにする。ラプラス分布の場合においては、ゴロムおよび/またはライス符号化が、エントロピー符号化方法として最適に適している(GOLOMB,S.W.(ゴロム,S.W.):Run−length encodings. IEEE Transactions on Information Theory,IT−12(3),399頁−401頁,1966年7月,GALLAGER,Robert G.(ギャラガー,ロバート);VAN VOORHIS,David C.(ヴァン ボーリス,ディビッド C.):Optimal Source Codes for Geometrically Distributed Integer Alphabets. IEEE Transactions on Information Theory,1975年3月、およびSALOMON David(サロモン ディビッド):Data Compression.London:Springer−Verlag,第4版,2007年,参照)。
最後に、ソート済みの時間値の差動符号化の残差信号の確率分布は、考慮されない。図35は、確率分布(上部)およびソート済み時間値の差動符号化によって得られた残差信号の符号語の長さ(下部)を示す。図35において、残差信号が、およそ幾何学的な確率分布を有することを明らかにする。この場合、ゴロムおよび/またはライス符号化は、エントロピー符号化方法としても非常にかなり適している。図35において、k=8のパラメータを有するフォワード適応ライス符号化が、符号語の長さを表すために使用された。
特定の確率分布に加えて、残差信号は、値の範囲がブロックからブロックまで著しく部分的に変化し、そして、値の範囲の多くの値さえ生じない特性を有する。図34において、これは、例えば、−25,…,−20の間の場合である。図35において、これは、350より大きい値に対してもみられる。したがって、これが例えばハフマン符号化の場合のように、コードの表の記憶またはサイド情報としてのそれらの伝送は不相応である。ライスまたはゴロム符号の各々は、パラメータkまたはmによって一意的に記載されるので、ライスまたはゴロム符号の差の区別がある場合、サイド情報としてkまたはmだけが送信される。ライスまたはゴロム符号は、SOLOにおいて存在する残差信号のために非常に適しているという知識に基づいて、ライスまたはゴロム符号化のさまざまな変形が、現在開発される。
ライス・パラメータkまたはゴロム・パラメータmの決定が、ここでの要点である。パラメータがあまりに大きくて選択される場合、これは、少数に対して必要とするビットの数を増加する。パラメータがあまりに小さくて選択される場合、単一に構成して(unarily)符号化される部分、特に符号化される高い値に対して、ビットの必要とする数は急に増加する。それゆえに、誤って選ばれたパラメータは、著しくエントロピー符号化のデータレートを上昇させることができ、したがって圧縮のランクを下げることができる。ライスまたはゴロム符号化を設計する2つの可能性がある:

1.フォワード適応ライス/ゴロム符号化
2.バックワード適応ライス/ゴロム符号化
ライス・パラメータkを計算するいくつかのフォワード適応の方法は、すでに示されている。フォワード適応ライス・パラメータの決定の更なる事実は、現在説明される。i=1,1,…,nに対して、残差信号e(i)∈Zがある場合、そのとき、最初は、N0にZのM(e(i))をマッピングすることが実行される。残差信号が、N0の範囲内に完全にすでに位置する場合、これもソート済みの時間値の差動符号化の残差信号を有する場合であるけれども、そのとき、このマッピングは省略される。N0へのZのマッピングは、以下におけるe(i)∈Zのように考えられる。したがって、以下の方程式、
Figure 2010510533
が、算術平均値に対する2つの異なる構成規則によって得られる。
ライス・パラメータを決定する最もシンプルな方法は、問題になっているすべてのライス・パラメータをテストして、ほんの少しの消費を有するパラメータを選択することである。これはあまり複雑でない。なぜなら、テストされるライス・パラメータの値の範囲は時間信号のビット分解能によって制限されるからである。16ビットの分解能で、最高16のライス・パラメータが検証される。結局、パラメータ当りの対応するビット要件は、ほとんどビット演算または算術演算を基礎として決定される。最適なライス・パラメータを見つけるこの手続きは、パラメータの直接の計算よりわずかに集約しているが、常に最適なライス・パラメータを得ることを保証する。ここで提示されるロスレス音声符号化の方法において、ライス・パラメータを決定するこの方法が、大部分の場合で使用される。ライス・パラメータの直接的な決定において、推定されたパラメータの極限値は、KIELY,A.(カイリー,A.):Selecting the Golomb Parameter in Rice Coding. IPN Progress Report,Vol.42−159,2004年11月において、利用される。
Figure 2010510533
このことにより、最適なライス・パラメータkの範囲が、
Figure 2010510533
フォワード適応ゴロム符号化において、それが、ライス符号化において実際に受け入れられたので、検索方法を基礎としたパラメータの決定は、実質的により複雑である。これは、ゴロム符号化が、パラメータmのさらに多くの中間の段階を有するという事実に起因する。このために、ゴロム・パラメータは、以下のように計算される。
Figure 2010510533
フォワード適応ライス/ゴロム符号化において、符号化されるデータブロックをいくつかのサブブロックに分解し、ならびにサブブロック毎にそれ独自のパラメータを決定し、そして送信することが可能である。サブブロックの数の増加とともに、パラメータのために必要とされるサイド情報が増加する。サブブロックの分解の効果は、送信されるパラメータが、どのようにそれ自身符号化されるかについて強く依存する。連続したブロックのパラメータは、大部分が特に強く変化しないので、引き続いて起こるフォワード適応ライス符号化を有するパラメータの差動符号化は明白な事である。ここで、付随するパラメータサイド情報を含むエントロピー符号化データの必要なデータレートを全体のブロックにわたって合計し、そしてしばしば、どれだけサブブロックの分解が最小量のデータを必要とするかをカウントする場合、図36は、No.1の部分の全符号化処理のために得られる。1024の時間値に等しい全体のブロック長については、図36は、フォワード適応ライス符号化対パラメータのための側面情報を含んでいる部分の固定の予測値の残差信号で最少のデータ量を有するサブブロック分解のパーセンテージ比率を示す。
Figure 2010510533
符号化されないライス・パラメータについては、サブブロック分解は、大部分が有益でない。ライス・パラメータが符号化される場合、32のサブブロックの分解が、サブブロックに分解しない(以下の表を参照)よりもしばしば良好である。フォワード適応ゴロム符号化において、サブブロック分解は、符号化されないゴロム・パラメータまたは符号化ゴロム・パラメータのどちらに対しても大部分で有効でない(図37および以下の表を参照)。図37は、全体ブロック長が、1024の時間値であって、パラメータに対してサイド情報を含む部分の固定の予測値の残差信号全体のフォワード適応ゴロム符号化で最少のデータ量を有するサブブロック分解のパーセンテージ比率を示す。加えて、このことによりそれらの必要なデータレートを低減させるために、同様の符号化をする前にまだゴロム・パラメータを量子化する可能性がある。ライス・パラメータが主要部としてすでに量子化されたゴロム・パラメータを表すので、これは、さらにここで考慮されない。
Figure 2010510533
図36および37から、すべての場合に対して、最適のサブブロック分解があるというわけではないことが分かる。したがって、2つの可能性が得られる:

1.問題になっているすべてのサブブロック分解をテストして、最も少ないデータレートを有するものを選択すること。
2.サブブロック分解を使用することは、すべての場合に対して平均してよく適している。
第1の可能性が、わずかにより良好な圧縮で、システムの複雑さを強く増加させるので、サブブロックは、以下において使用されない。FwAdaptCoding()は、どのようにフォワード適応ライスおよび/またはゴロム符号化が実際に実現されるかを示す。まず、最初に、N0へのマッピングが、符号付き残差信号に対して行われる。これと一緒に、それから、ライス/ゴロム・パラメータが決定され、そして最後に全てのキャラクタは、このパラメータによって符号化される。コードの例は、以下に示す。
FwAdaptCoding(data, signedData)
if (signedData)
% mapping to natural numbers including zero
udata = Fold(data);
else
udata = data;
end
% determining parameters
parameter = DetermineParameter(udata);
% running across all data to be coded
for i=1:length(udata)
% encoding a value
code(i) = EncodeValue(udata(i), parameter);
end
end
バックワード適応ライス/ゴロム符号化は、すでに符号化される以前のキャラクタから、パラメータを算出する。この目的を達成するために、実際に符号化されるキャラクタは、履歴バッファに周期的に入る。履歴バッファのための2つの変数がある。一方は、履歴バッファのカレント充てんレベルをホールドし、他方の変数は、次に書き込まれる位置を格納する。図38において、サイズ8の履歴バッファの基本的な機能が例示される。
まず、最初に、履歴バッファは、0によって初期化され、充てんレベルは0であり、そして、書き込みインデックスは、1である(a)を参照)。それから、次々に1つのキャラクタが、履歴バッファに入れられ、書き込みインデックス(矢印)および充てんレベルが更新される(b)−e)を参照)。いったん履歴バッファが完全に満たされると、重点レベルは、変わらないままであり(ここでは、8)、書き込みインデックスのみが適応される(e)−f)を参照)。バックワード適応ライス・パラメータの計算は、以下のようにされる。i=1,2,…,wであるe(i)∈N0が、履歴バッファにおいて含まれる残差信号値であり、wは、履歴バッファのサイズであり、Fは、現在の充てんレベルであるとすると、バックワード適応ライス・パラメータは、以下の方程式により算出される。
Figure 2010510533
Figure 2010510533
経験的実験は、C=1.15が意味をなすことを示している。履歴バッファのサイズに対して、バックワード適応ライス符号化のため、およびバックワード適応ゴロム符号化のために、W=16が以下において使用される。これは、遅すぎること、およびあまりに突然に反応している適合である、適合の間の良好な妥協を表わす。バックワード適合算術符号化におけるように、復号器において使用される適合は、符号化のために同期されなければならない、でなければ、データの完全な再構成が可能でない。ある場合には、まず最初に、まだ完全に満たされていない履歴バッファは、逆適合のパラメータの良好な予測を提供しない。このために、利用は、履歴バッファが完全に満たされている場合だけ、そこから算出された適応パラメータである第1のW値に対するフォワード適応パラメータを算出する変形でできている。
図39は、適応パラメータの決定がどのように働くかについて詳細に示す。図39は、全体のブロックに対して、1つの最適なパラメータと比較として、適合の機能の具体例を例示する。ここで、より軽い色の線は、適応パラメータ上のいずれが使用されるかについての境界域を表わす。シンプルな方法において、実際に記載されているこの手続きは、BwAdaptivCoding()として表わされる。e(i)∈Zの場合において、まず、再度、N0へのマッピングがある。それから、第1のW値が符号化されたフォワード適応パラメータが第1のW値(履歴バッファのサイズ)を介して決定される。履歴バッファが完全に満たされる場合、適応パラメータはさらなる符号化のために使用される。履歴バッファが完全に満たされる場合、適応指標が更なる符号化のために用いられる。コードの例は、以下に示す。
FwAdaptCoding(data, signedData)
if (signedData)
% mapping to natural numbers including zero
udata = Fold(data);
else
udata = data;
end
% determining parameters
parameter = DetermineParameter(udata);
% running across all data to be coded
for i=1:length(udata)
% encoding a value
code(i) = EncodeValue(udata(i), parameter);
end
end
より、完全に、実際に開発されたライス/ゴロムエントロピー符号化方法のパフォーマンスを評価することが可能であるように、加えて、適応ライス符号化を利用するように、フォワード適応算術符号化が開発される。この目的を達成するために、まず、最初に、符号化されるデータのヒストグラムが構築される。このヒストグラムについては、算術符号化としてエントロピー境界の近くでコードを生成することが可能である。さらに、含まれるキャラクタおよびそれらの生起確率は、加えて、送信されなければならない。ヒストグラムにおけるキャラクタが、厳しく単調に増加する方法で準備されるので、差動符号化δは、バックワード適応ライス符号化の前にここでそれ自身を示唆する。確率は、Rice−Coded−backward−adaptivelyだけである。最後に、この手続きの全体のコストは、算術符号化、ライス−符号化キャラクタおよびライス−符号化確率のコードの合計から結果が得られる(図40を参照)。図40は、バックワード適応ライス符号化を利用する、フォワード適応算術符号化の実施例を示す。
これから、5つの異なるエントロピー符号化方法がお互いに比較される。この目的を達成するために、全体のシステムにおいて存在している残差信号生成の全ての方法の表が構築され、そして、データ量は、全体のそれぞれの部分にわたって、ブロック毎の平均のバイトにおいて示される。以下の表は、LPC予測値の残差信号に適用される異なるエントロピー符号化方法の比較を示す。
Figure 2010510533
以下の表は、固定の予測値の残差信号に適用される異なるエントロピー符号化方法の比較を示す。
Figure 2010510533
以下の表は、LBが固定の予測値によって非相関された非Lehmer反転チャートの残差信号に適用される異なるエントロピー符号化方法の比較を示す。
Figure 2010510533
以下の表は、ソート済みの時間値の差動符号化の残差信号に適用される異なるエントロピー符号化方法の比較を示す。
Figure 2010510533
上述の表から端数を切り上げた算術平均値を形成すると、以下の表が得られる。
Figure 2010510533
上記の表の最終的な解析のために、ゴロム・パラメータがライス・パラメータよりわずかに高いサイド情報データレートを必要とすることは、考慮に入れられる。それにもかかわらず、平均したバックワード適応ゴロム符号化は、SOLOにおいて存在する残差信号について最も良いエントロピー符号化を表わす。非常にまれなケースにおいて、適合戦略が失敗して、少しも役に立つ結果を提供しないことも生じる。このため、バックワード適応ゴロム符号化およびフォワード適応ライス符号化の組み合わせが、SOLOにおいて最終的に使用される。
音声符号化方法のための適切なブロック・サイズを定義するために、以下の事実が、常に心に留めおかれる:
・あまりに小さいブロック長さが選択される場合、サイド情報のために比較的多くのデータが、単なる符号化データに関して必要とされる。
・あまりに大きいブロック長さが選択される場合、符号器および復号器はメモリにおいて処理されるデータを保つために、大きなデータシステムを必要とする。加えて、より大きなブロック長で、第1の復号化されたデータも、より小さいブロック長さの場合より後で利用できるだけである。
このように、実質的にブロック長さは、符号化方法に関してされる要求によって決定される。圧縮ファクタが最前面である場合、非常に大きなブロック長が受け入れられる。さらに、ほとんど遅延時間またはほとんどメモリの消費を有する符号化方法が、要求されない場合、かなり大きなブロック長さは確実に役に立たない。既存の音声符号化方法は、通常128〜4608のサンプルのブロック長さを利用する。44.1kHzのサンプリングレートで、これは、3〜104ミリ秒に対応する。試験は、SOLOにより使用される異なる非相関性方法が、異なるブロック長さでどのようにふるまうかを説明することである。この目的を達成するために、さまざまな部分は、256、523、1024および2048サンプルのブロック長さで符号化され、そして、圧縮ファクタは、それぞれのサイド情報を含めることによって決定される。それから、算術平均値は、ブロック長さの7つの圧縮ファクタを形成する。図41は、この調査の結果を例示する。
図41は、圧縮ファクタFにおけるブロック・サイズの影響の実例を示す。予測値がブロック長さの増加と共により良好な圧縮ファクタを達成することを明らかに示される、ここで、固定の予測値において、これは、LPC符号化方法におけるほど強く言明されない。ソート・モデルに従って操作する非相関性方法は、1024のサンプルのブロック長さで最適である。最小のブロック長さでの高い圧縮ファクタが望ましいので、1024のサンプルのブロック長さが、以下において好ましくは使用される。しかしながら、SOLOは、256、512、または2048のサンプルのブロック長さで任意で作動される。
ロスレス・ステレオ冗長度抑圧が実現されることを、上記のセクションにおいて示している。中央チャンネルMが、0に関して次の整数値まで引き続いて起こる丸めを有する2によって分割されることによって得られていることが、ここの問題点である。このことにより、情報は、ある場合には失われている。これは、例えば、L=5,R=4である。この例では、ただ1つの値だけが、各チャンネルに存在すると仮定する。実際には、もちろん、左チャンネルLまたは右チャンネルRはベクトルである。
Figure 2010510533
視覚的に、方程式は、図42におけるように表わされる。図42は、ロスレスMS符号化における具体例を示す。MS復号化は、計算規則を逆にして、MおよびSから再び右チャンネルRおよび左チャンネルLを生成する。
Figure 2010510533
方程式の図による例示が、図43に示される。図43は、さらに、ロスレスMS符号化における具体例を示す。
MS符号化とは別に、LSおよびRS符号化も、ステレオ冗長度抑圧のためにSOLOの範囲内において使用される。したがって、ステレオ信号の符号化のための合計4つの変形がある:
1. LR符号化:ステレオ冗長度抑圧でない
2. LS符号化:左チャンネルおよびサイドチャンネル
3. RS符号化:右チャンネルおよびサイドチャンネル
4. MS符号化:中央チャンネルおよびサイドチャンネル
どの符号化が最も良いのかは、どのように決められるのか。1つの可能性は、それぞれのチャンネルの非相関性およびエントロピー符号化を実行する前に、最少のデータ量を有する変形を選択している基準を作成することである。この可能性は、メモリは言うまでもなく必要とし、以下に記載されている手続きの半分の計算機的複雑さである。しかしながら、ここで、品質は、主に決定基準に依存する。エントロピー(方程式2.3)が、このために使用される。しかしながら、エントロピーは、このために信頼性のある決定基準を表わさないことを実験は示している。
ビットの消費に応じて、他の可能性は、完全にL,R,MおよびSの処理をして、どの変形が使用されるかを決定することである。ここで、より多くのメモリおよび計算時間が必要である、しかし、常に最も良好な変形を選択することが可能である。以下、第2の可能性だけが、利用される(図44を参照)。図44は、ステレオ冗長度抑圧のために最も良い変形の選択の具体例を示す。
実験は、ここで、この手続きが、どのようにステレオ信号によって実行するかについて示される。以下の表において、異なる変形の全ての部分に対する平均化されたエントロピーは、相対的に示される。チャンネル毎の1024の時間値のブロック長さは、全体に使用された。最後の列(最も良好な変形)において、図44による手続きの平均化されたエントロピーが例示される。
Figure 2010510533
図44による手続きは、同一のチャンネルを有するステレオ信号において最も有益である。強いモノラルのような音声の部分の場合、ステレオ冗長度抑圧は非常に役立つ一方、ごくわずかな符号化ゲインのみLR符号化および最も良好な変形の選択との間に、17,27,28および29のような音楽の通常の部分において達成される。
具体的に、状況に応じて、発明概念が、ソフトウェアで実施されることができると指摘される。対応する方法が実行されるように、本実施は、プログラム可能なコンピュータシステムおよび/またはマイクロコントローラと共に動作することができる電子的に読み込み可能な制御信号を有するデジタル記憶媒体、特にフロッピー(登録商標)ディスクまたはCDを使用して行うことができる。コンピュータ・プログラム製品が、コンピュータおよび/またはマイクロコントローラにおいて実行される場合、一般に、本発明は、このようにまた、発明の方法を実行するための機械で読み取ることができるキャリアに格納されるプログラム・コードを有するコンピュータ・プログラム製品にある。言い換えれば、本発明はこのように、方法を実行するためのプログラム・コードを有するコンピュータ・プログラムとして実現される。そのとき、コンピュータ・プログラムは、コンピュータおよび/またはマイクロコントローラに実行される。
100 符号化のための装置
110 ソートするための手段
120 符号化するための手段
150 復号化するための装置
160 受信するための手段
170 復号化するための手段
180 再ソートするための手段
200 符号化するための装置
210 ソートするための手段
220 適応するための手段
230 符号化するための手段
250 復号化するための装置
260 受信するための手段
270 復号化するための手段
280 近似するための手段
290 再ソートするための手段
300 符号化するための装置
310 ソートするための手段
320 生成するための手段
330 符号化するための手段
350 復号化するための装置
360 受信するための手段
370 予測するための手段
380 再ソートするための手段
400 符号化するための装置
410 ソートするための手段
420 符号化するための手段
450 復号化するための装置
460 受信するための手段
470 復号化するための手段
480 再ソートするための手段
505 音声信号
510 置換
515 反転チャート
600 符号器
605 プレプロセッシング
610 ソート
615 ソート済みのデータの処理/符号化
620 エントロピー符号化
625 ビットストリーム・マルチプレクサ
630 置換のデータの処理/符号化
635 エントロピー符号化
700 復号器
710 エントロピー復号化
715 ソート済みデータを復号化
720 逆ソート
725 エントロピー復号化
730 置換の復号化
800 符号器
805 時間/周波数変換
810 ソート
815 曲線あてはめ
820 置換符号化
825 ビットレート制御
830 エントロピー符号器
835 ビットストリーム・フォーマッタ
840 心理音響モデル
900 復号器
905 ビットストリーム・デマルチプレクサ
910 エントロピー復号器
915 逆曲線あてはめ
920 逆ソート
925 置換復号器
930 周波数/時間変換
この目的は、請求項1、1731のうちの1つによる符号化するための装置、請求項2536のうちの1つによる復号化するための装置、請求項2334のうちの1つによる符号化する方法、請求項152939のうちの1つによる復号化する方法によって達成される。
図1aは、符号化のための装置の実施例を示す。 図1bは、復号化のための装置の実施例を示す。 図2aは、符号化のための装置の実施例を示す。 図2bは、復号化のための装置の実施例を示す。 図3aは、符号化のための装置の実施例を示す。 図3bは、復号化のための装置の実施例を示す。 図4aは、符号化のための装置の実施例を示す。 図4bは、復号化のための装置の実施例を示す。 図5aおよび図5bは、音声信号、置換、および反転チャートの実施例を示す。 図6は、符号器の実施例を示す。 図7は、復号器の実施例を示す。 図8は、符号器の更なる実施例を示す。 図9は、復号器の更なる実施例を示す。 図10は、音声信号の近似を有する周波数スペクトルの実施例を示す。 図11は、ソート済みの周波数スペクトルおよび音声信号のその近似の実施例を示す。 図12は、ソート済みの区別をつけた符号化信号およびその残差信号の実施例を示す。 図13は、ソート済みの時間信号の実施例を示す。 図14は、ソート済みの時間値および対応する曲線あてはめの実施例を示す。 図15は、差動符号化および曲線あてはめの符号化効率の比較である。 図16は、大部分のロスレス音声圧縮アルゴリズムの手本となるような処理ステップを示す。 図17は、予測符号化の構成の実施例を示す。 図18は、予測符号化の再構成の構成の実施例を示す。 図19は、予測フィルタのウォーミングアップ値の実施例を示す。 図20は、予測モデルの実施例を示す。 図21は、LTAC符号器の構成のブロック図である。 図22は、MPEG−4 SLS符号器のブロック図である。 図23は、個々のチャネルの非相関性の後のステレオ冗長度抑圧を示す。 図24は、個々のチャネルの非相関性の前にステレオ冗長度抑圧を示す。 図25は、予測値次数および全体のビット消費の間の接続の説明図である。 図26は、量子化パラメータgおよび全体のビット消費の間の接続の説明図である。 図27は、次数pの関数としての一定の予測値のマグニチュード・周波数のコースの説明図である。 図28は、置換長さ、転置の数および符号化可能性の尺度との間における接続の説明図である。 図29aないし図29hは、ノイズのような部分の10ブロック(フレーム)めにおける反転チャートの説明図である。 図30aないし図30hは、音の部分の20ブロック(フレーム)めにおける反転チャートの説明図である。 図31aおよび図31bは、置換、ソート時間値からの発生、10ブロック(左)めおよび音の部分(右)におけるノイズのような部分の説明図である。 図32は、音声信号、対応する置換および反転チャートLSを示し、図 32bは、拡大した方法における置換および反転チャートLSを示す。 図33は、音声信号、対応する置換および反転チャートLSを示し、図 33bは、拡大した方法における置換および反転チャートLSを示す。 図34は、確率分布を示し、図34bは、反転チャートLBの予測(一 定の予測値)を通じて発生された残差信号の符号語の長さを示す。 図35は、確率分布を示し、図35bは、ソート済みの時間値の差動符 号化によって発生された残差信号の符号語の長さを示す。 図36は、全体ブロック長が、1024の時間値であって、パラメータに対してサイド情報を含む一定の予測値の残差信号を介して前方−適応ライス符号化の最も少ないデータ量を有するサブブロック分解の比率を示す。 図37は、全体ブロック長が、1024の時間値であって、パラメータに対してサイド情報を含む一定の予測値の残差信号を介して前方−適応Golomb符号化の最も少ないデータ量を有するサブブロック分解の比率を示す。 図38は、履歴バッファの動作上の説明図である。 図39aおよび図39bは、全ブロックのための最適パラメータと比較したときの適合の動作上の説明図である。 図40は、後方−適応ライス符号化を利用している前方−適応算術符号化の説明図を示す。 図41は、圧縮ファクターFのブロック・サイズの影響の説明図である。 図42は、ロスレスMS符号化における説明図である。 図43は、ロスレスMS符号化におけるさらなる説明図である。 図44は、ステレオ冗長度抑圧に対する大部分の変形の選択の説明図である。
図5、音声信号505(大きな振幅)、置換510(中間の振幅)および反転チャート515(小さい振幅)の波形を示す。図5bにおいて、換510および反転チャート515が、より良好な概観の理由で、他のスケーリングにおいて再度例示される。
図5a,bにおいて例示される軌跡(course)から、音声信号505、置換510および反転チャート515の相関が理解される。置換および/または反転チャートに対する入力信号の転送の相関が、明らかに理解される。実施例によれば、ソート済みのサンプルの符号化とは別として、符号化されたエントロピーである反転チャートを構築することによる置換符号化が生じる。置換および/または反転チャートの予測が相関のために可能である事が、図5a,bから理解される。ここで、それぞれの残差信号は、例えば、ロスレス符号化の場合において、符号化されたエントロピーでもよい。
相関が、発生する置換および/または反転チャート(図5a,bを参照)に送信される入力信号に存在するので、予測は可能である。ここで、周知のFIR(有限インパルス応答)およびIIR(無限インパルス応答)の構成は、予測フィルタとして使用してもよい。そして、そのようなフィルタの係数が選択される。その結果、例えば、フィルタの入力での残差信号に基づいて、その出力で元の出力信号が存在すか、またはそこに出力される。そして、実施例において、フィルタおよび残差信号の対応する係数は、より負担をかけることなく、すなわち、元の信号自身よりもより少ないビットまたは伝送速度で、送信できる。そして、受信機および/または符号器において、元の信号が、伝送された係数に基づいて予測するか、または再構築され、そして、それは、残差信号でもよい。ここで、一方、係数の数および/または予測フィルタの次数は、伝送のために必要なビットを決定し、他方、元の信号の精度は、予測され、または再構成される。
図10は、1024本の周波数ラインおよびその近似のスペクトルを有する音声信号の周波数スペクトルの例を示す。ここで、元(オリジナル)と近似とは、ほぼ同一である。図11は、付随するソート済みのスペクトルおよびその近似を示す。ソート済みのスペクトルが、元のスペクトルよりも関数公式によってより容易で精度よく近似されるということを明らかにすることができる。図11からスペクトルを近似するために、例えば、それは5つの領域(分割)にわけることができ、それは、実施例において、図11において示される。領域3は、例えば、直線によって近似され、領域2および領域4は、適切な関数(多項式、指数関数等)によって近似される。領域1および領域5における振幅の値の数は、実施例において、例えば、3を、非常に小さいために選ばれる。しかし、これらが、音質にとってはなはだ重要であるので、それらは、非常に正確に近似されなければならないか、または直接送信されなければならない。
ところで、時間値のソートによって得られた置換の反転チャートおよびLehmer反転チャートが様々な音楽においてどの形を有するかが示される。この目的を達成するために、図29aないし図29hは、音色の部分およびノイズのような部分の10番目のブロック(フレーム)の反転チャートの例示を示す。図30aないし図30hは、音色の部分の20番目のブロック(フレーム)の反転チャートの例示を示す。基本は、1024の時間値のブロック・サイズである。
図29aないし図29hおよび図30aないし図30hにおいて、三角形の曲線形状が、最初は注目に値する。この曲線形状は、根本的な反転チャートの構成規則およびそれらの方程式によって引き起こされる。さらにまた、音楽のノイズのような部分において(図29aないし図29hを参照)、および音楽の音色の部分における(図30aないし図30hを参照)両方で、Lehmer反転チャートは、非常に非相関であることは、注目に値する。はっきりとした違いは、音楽の音色の部分および音楽のノイズのような部分との間に反転チャートを示すことができる。上記の反転チャートおよびLehmer反転チャートに属している置換を考慮して、音楽の音色の部分をソートすることによって得られる置換が、音楽のノイズのような部分(図31a,bを参照)のそれよりもよりそこで実質的に相関している。図31a,bは、時間値のソートから得られた10番目のブロックおよび音色の部分におけるノイズのような部分の置換の例示を示す。
図31bの置換は、主軸に反映する音声信号の1つを指摘する。音声信号、逆ソート規則および反転チャートの間の直接的な関係があるかのように思われる。
図32a,bおよび33a,bは、1ブロックの音声信号、xおよびy座標が交換された対応する置換および対応する反転チャートLSを示す。32は、音声信号の部分、対応する置換および反転チャートLSを示し、ならびに、図32bは、図32aから拡大した方法の置換および反転チャートLSを示す。図33、音声信号の部分、対応する置換および、反転チャートLSを示し、ならびに、図33bは、図33aから拡大した形の置換および反転チャートLSを示す。
Figure 2010510533
図34は、予測(固定の予測値)によって得られる、確率分布を示し、および図34bは、反転チャートLBの残差信号の符号語の長さを示す。図34は、固定された予測値を適用することによって得られた、非Lehmer反転チャートLBの残差信号の確率分布を示す。残差信号の符号語長さの決定に対して、k=2のパラメータを有するフォワード適応ライス符号化が根拠となる。残差信号の確率分布は、およそラプラス分布に対応するということを明らかにする。ラプラス分布の場合においては、ゴロムおよび/またはライス符号化が、エントロピー符号化方法として最適に適している(GOLOMB,S.W.(ゴロム,S.W.):Run−length encodings. IEEE Transactions on Information Theory,IT−12(3),399頁−401頁,1966年7月,GALLAGER,Robert G.(ギャラガー,ロバート);VAN VOORHIS,David C.(ヴァン ボーリス,ディビッド C.):Optimal Source Codes for Geometrically Distributed Integer Alphabets. IEEE Transactions on Information Theory,1975年3月、およびSALOMON David(サロモン ディビッド):Data Compression.London:Springer−Verlag,第4版,2007年,参照)。
最後に、ソート済みの時間値の差動符号化の残差信号の確率分布は、考慮されない。図35は、確率分布を示し、および図35bは、ソート済み時間値の差動符号化によって得られた残差信号の符号語の長さを示す。図35において、残差信号が、およそ幾何学的な確率分布を有することを明らかにする。この場合、ゴロムおよび/またはライス符号化は、エントロピー符号化方法としても非常にかなり適している。図35において、k=8のパラメータを有するフォワード適応ライス符号化が、符号語の長さを表すために使用された。
図39a,bは、適応パラメータの決定がどのように働くかについて詳細に示す。図39a,bは、全体のブロックに対して、1つの最適なパラメータと比較として、適合の機能の具体例を例示する。ここで、より軽い色の線は、適応パラメータ上のいずれが使用されるかについての境界域を表わす。シンプルな方法において、実際に記載されているこの手続きは、BwAdaptivCoding()として表わされる。e(i)∈Zの場合において、まず、再度、N0へのマッピングがある。それから、第1のW値が符号化されたフォワード適応パラメータが第1のW値(履歴バッファのサイズ)を介して決定される。履歴バッファが完全に満たされる場合、適応パラメータはさらなる符号化のために使用される。履歴バッファが完全に満たされる場合、適応指標が更なる符号化のために用いられる。コードの例は、以下に示す。

Claims (70)

  1. 音声信号のサンプル系列を符号化するための装置(100)であって、前記系列の範囲内における各サンプルは、元の位置を含み、前記装置(100)は、
    ソート済みのサンプル系列を得るために、それらのサイズによってサンプルをソートするための手段(110)であって、各サンプルは、前記ソート済みの系列の範囲内におけるソート位置を含む、ソートするための手段(110)と、
    前記ソート済みのサンプルおよび前記サンプルの前記元の位置と前記ソート位置との関係の情報を符号化するための手段(120)と、
    を含む、装置(100)。
  2. 前記装置(100)は、
    前記サンプル系列を生成するために、フィルタリング、時間/周波数変換、予測、またはマルチチャンネル冗長度抑圧を実行するために形成されるプレプロセッシング手段をさらに含む、請求項1に記載の装置(100)。
  3. 前記符号化するための手段(120)は、指標置換として、前記元の位置と前記ソート位置との関係の情報を符号化するために形成される、請求項1または請求項2に記載の装置(100)。
  4. 前記符号化するための手段(120)は、反転チャートとして、前記元の位置と前記ソート位置との関係の情報を符号化するために形成される、請求項1ないし請求項3のいずれかに記載の装置(100)。
  5. 前記符号化するための手段(120)は、差分および引き続いて起こるエントロピー符号化またはエントロピー符号化のみを有する、前記ソート済みのサンプルまたは前記元の位置と前記ソート位置との関係の情報を符号化するために形成される、請求項1ないし請求項4のいずれかに記載の装置(100)。
  6. 前記符号化するための手段(120)は、前記ソート済みのサンプル、置換または反転チャートに基づいて予測フィルタの係数を決定し、そして符号化するために形成される、請求項1ないし請求項5のいずれかに記載の装置(100)。
  7. 前記符号化するための手段(120)は、前記サンプルと前記予測フィルタの出力信号との間の差に対応する残差信号を符号化するために形成される、請求項6に記載の装置(100)。
  8. 前記符号化するための手段(120)は、エントロピー符号化を有する残差信号を符号化するために形成される、請求項7に記載の装置(100)。
  9. 前記装置(100)は、
    前記ソート済みの系列の少なくとも1つの部分的な範囲への適合するための関数公式の関数係数を適応するための手段をさらに含み、ここで、前記符号化するための手段(120)は、前記関数係数を符号化するために形成される、請求項1ないし請求項8のいずれかに記載の装置(100)。
  10. 音声信号のサンプル系列を符号化する方法であって、前記系列の範囲内における各サンプルは、元の位置を含み、前記方法は、
    ソート済みのサンプル系列を得るために、それらのサイズによってサンプルをソートするステップであって、各サンプルは、ソート済みの系列の範囲内におけるソート位置を含む、ソートするステップと、
    前記ソート済みのサンプルおよび前記サンプルの前記元の位置と前記ソート位置との関係の情報を符号化するステップと、
    を含む、方法。
  11. コンピュータ・プログラムがコンピュータ上で実行される場合に、請求項10記載の方法を実行させるためのプログラム・コードを有するコンピュータ・プログラム。
  12. 音声信号のサンプル系列を復号化するための装置(150)であって、前記系列の範囲内における各サンプルは、元の位置を含み、前記装置(150)は、
    符号化されたサンプル系列を受信するための手段(160)であって、前記符号化されたサンプル系列の範囲内における各符号化されたサンプルはソート位置を含み、そして、前記サンプルの前記元の位置とソート位置との関係の情報を受信するための手段(160)と、
    前記サンプルおよび前記元の位置と前記ソート位置との関係の情報を復号化するための手段(170)と、
    前記元の位置と前記ソート位置との関係の情報に基づくサンプルを再ソートするための手段(180)であって、各サンプルは、その元の位置を含む、再ソートするための手段(180)と、
    を含む、装置(150)。
  13. 前記受信するための手段(160)は、指標置換として、前記元の位置と前記ソート位置との関係の情報を受信するために形成される、請求項12に記載の装置(150)。
  14. 前記受信するための手段(160)は、反転チャートとして、前記元の位置と前記ソート位置との関係の情報を受信するために形成される、請求項13に記載の装置(150)。
  15. 前記復号化するための手段(170)は、エントロピーおよび引き続いて起こる差動復号化またはエントロピー復号化のみを有する符号化されたサンプルまたは前記元の位置と前記ソート位置との関係の情報を復号化するために形成される、請求項12ないし請求項14のいずれかに記載の装置(150)。
  16. 前記受信するための手段(160)は、予測フィルタの符号化された係数を受信するために形成され、そして、前記復号化するための手段(170)は、前記符号化された係数を復号化するために形成され、ここで、前記装置(150)は、前記係数に基づいてサンプルを予測するための手段をさらに含む、請求項12ないし請求項15のいずれかに記載の装置(150)。
  17. 受信するための手段(160)は、前記サンプルと前記予測フィルタの出力信号との間の差に対応する残差信号をさらに受信するために形成され、前記復号化するための手段(170)は、前記残差信号に基づく前記サンプルに適応させるためにさらに形成される、請求項16に記載の装置(150)。
  18. 前記復号化するための手段(170)は、エントロピー復号化を有する残差信号を復号化するために形成される、請求項17に記載の装置(150)。
  19. 受信するための手段(160)は、関数公式の関数係数を受信するために形成され、ここで、前記装置(150)は、前記ソート済みの系列の少なくとも1つの部分的な範囲に関数公式を適合するための手段を含み、前記復号化するための手段(170)は、前記関数係数を復号化するために形成される、請求項12ないし請求項18のいずれかに記載の装置(150)。
  20. 音声信号のサンプル系列を復号化する方法であって、前記系列の範囲内における各サンプルは、元の位置を含み、前記方法は、
    符号化されたサンプル系列を受信するステップであって、前記符号化されたサンプル系列の範囲内における各符号化されたサンプルは、ソート位置を含む、受信するステップと、
    前記サンプルの前記元の位置と前記ソート位置との関係の情報を受信するステップと、
    前記サンプルと前記元の位置と前記ソート位置との関係の情報を復号化するステップと、
    前記元の位置と前記ソート位置との関係の情報に基づいてサンプルを再ソートするステップであって、各サンプルは、その元の位置を含む、再ソートするステップと、
    を含む、方法。
  21. コンピュータ・プログラムがコンピュータ上で実行される場合に、請求項20に記載の方法を実行させるためのプログラム・コードを有するコンピュータ・プログラム。
  22. 情報信号のサンプル系列を符号化するための装置(200)であって、前記系列の範囲内における各サンプルは、元の位置を含み、前記装置(200)は、
    ソート済みのサンプル系列を得るために、それらのサイズによって前記サンプルをソートするための手段(210)であって、各サンプルは、前記ソート済みの系列の範囲内におけるソート位置を含む、ソートするための手段(210)と、
    前記ソート済みの系列の少なくとも1つの部分的な範囲に適合するための関数公式の関数係数を適応するための手段(220)と、
    前記関数係数、前記部分的な範囲の外側のサンプル、および前記元の位置と前記サンプルのソート位置との関係の情報を符号化するための手段(230)と、
    を含む、装置(200)。
  23. 前記装置(200)は、
    前記サンプル系列を生成するために、フィルタリング、時間/周波数変換、予測、またはマルチチャンネル冗長度抑圧を実行するために形成されるプレプロセッシング手段をさらに含む、請求項22に記載の装置(200)。
  24. 前記情報信号は、音声信号を含む、請求項22または請求項23に記載の装置(200)。
  25. 前記符号化するための手段(230)は、指標置換として、前記元の位置と前記ソート位置との関係の情報を符号化するために形成される、請求項22ないし請求項24のいずれかに記載の装置(200)。
  26. 前記符号化するための手段(230)は、反転チャートとして、前記元の位置と前記ソート位置との関係の情報を符号化するために形成される、請求項22ないし請求項25のいずれかに記載の装置(200)。
  27. 前記符号化するための手段(230)は、前記ソート済みのサンプル、差分および引き続いて起こるエントロピー符号化またはエントロピー符号化のみを有する前記元の位置と前記ソート位置との関係の情報を符号化するために形成される、請求項22ないし請求項26のいずれかに記載の装置(200)。
  28. 前記符号化するための手段(230)は、前記サンプルに基づく予測フィルタの係数、置換または反転チャートを決定し、そして符号化するために形成される、請求項22ないし請求項27のいずれかに記載の装置(200)。
  29. 前記符号化するための手段(230)は、前記サンプルと予測フィルタの出力信号との間の差に対応する残差信号を符号化するために形成される、請求項28に記載の装置(200)。
  30. 前記符号化するための手段(230)は、エントロピー符号化を有する残差信号を符号化するために形成される、請求項29に記載の装置(200)。
  31. 情報信号のサンプル系列を符号化する方法であって、前記系列の範囲内における各サンプルは、元の位置を含み、前記方法は、
    ソート済みのサンプル系列を得るために、それらのサイズによって前記サンプルをソートするステップであって、各サンプルは、前記ソート済みの系列の範囲内におけるソート位置を含む、ソートするステップと、
    前記ソート済みの系列の少なくとも1つの部分的な範囲に適合するための関数公式の関数係数を適応するステップと、
    前記関数係数、前記部分的な範囲の外の前記サンプル、および前記サンプルの前記元の位置と前記ソート位置との関係の情報を符号化するステップと、
    を含む、方法。
  32. コンピュータ・プログラムがコンピュータ上で実行される場合に、請求項31に記載の方法を実行させるためのプログラム・コードを有するコンピュータ・プログラム。
  33. 情報信号のサンプル系列を復号化するための装置(250)であって、前記系列の範囲内における各サンプルは、元の位置を含み、前記装置(250)は、
    符号化された関数係数、ソート済みのサンプル、およびサンプルのソート位置と前記元の位置との関係の情報を受信するための手段(260)と、
    サンプルを復号化するための手段(270)と、
    前記系列の少なくとも1つの部分的な範囲での関数係数に基づいてサンプルを近似するための手段(280)と、
    前記サンプルおよび前記元の位置と前記ソート位置との関係の前記情報に基づく部分的な範囲を再ソートするための手段(290)であって、各サンプルは、その元の位置を含む、再ソートするための手段(290)と、
    を含む、装置(250)。
  34. 前記情報信号は、音声信号を含む、請求項33に記載の装置(250)。
  35. 前記受信するための手段(260)は、指標置換として、前記元の位置と前記ソート位置との関係の情報を受信するために形成される、請求項33または請求項34に記載の装置(250)。
  36. 前記受信するための手段は(260)、反転チャートとして、前記元の位置と前記ソート位置との関係の前記情報を受信するために形成される、請求項33ないし請求項35のいずれかに記載の装置(250)。
  37. 前記手段(270)は、前記関数係数、前記ソート済みのサンプルまたはエントロピーを有する前記元の位置と前記ソート位置との関係の情報、および引き続いて起こる差動復号化またはエントロピー復号化のみを復号化するためにさらに形成される、請求項33ないし請求項36のいずれかに記載の装置(250)。
  38. 前記受信するための手段(260)は、予測フィルタの符号化された係数を受信するために形成され、前記復号化するための手段(270)は、前記符号化された係数を復号化するために形成され、ここで、前記装置(250)は、前記係数に基づいてサンプルを予測するための手段をさらに含む、請求項33ないし請求項37のいずれかに記載の装置(250)。
  39. 前記受信するための手段(260)は、前記サンプルと予測フィルタの出力信号との差に対応する残差信号を受信するために形成され、または、近似するための手段(280)、および復号化するための手段(270)は、前記残差信号に基づき前記サンプルを適合するために形成される、請求項33ないし請求項38のいずれかに記載の装置(250)。
  40. 前記復号化するための手段(270)は、エントロピー復号化を有する前記残差信号を復号化するために形成される、請求項39に記載の装置(250)。
  41. 情報信号のサンプル系列を復号化する方法であって、前記系列の範囲内における各サンプルは、元の位置を含み、前記方法は、
    符号化された関数係数、ソート済みのサンプルおよびサンプルのソート位置と前記元の位置との関係の情報を受信するステップと、
    サンプルを復号化するステップと、
    前記系列の少なくとも1つの部分的範囲における前記関数係数に基づいてサンプルを近似するステップと、
    前記サンプルおよび前記元の位置と前記ソート位置との関係の情報に基づいて前記部分的な範囲を再ソートするステップであって、各サンプルは、その元の位置を含む、ステップと、
    を含む、方法。
  42. コンピュータ・プログラムがコンピュータ上で実行される場合に、請求項41に記載の方法を実行させるためのプログラム・コードを有するコンピュータ・プログラム。
  43. 情報信号のサンプル系列を符号化するための装置(300)であって、前記系列の各サンプルは、元の位置を含み、前記装置(300)は、
    ソート済みのサンプル系列を得るために、それらのサイズによって前記サンプルをソートするための手段(310)であって、各サンプルは、前記ソート済みの系列の範囲内におけるソート位置を含む、ソートするための手段(310)と、
    前記元の位置と前記ソート位置との関係に依存する一系列の数を生成し、そして前記一系列の数に基づいて予測フィルタの係数を決定するための手段(320)と、
    前記ソート済みのサンプルおよび前記係数を符号化するための手段(330)と、
    を含む、装置(300)。
  44. 前記サンプル系列を生成するために、フィルタリング、時間/周波数変換、予測、またはマルチチャンネル冗長度抑圧を実行するために形成されるプレプロセッシング手段をさらに含む、請求項43に記載の装置(300)。
  45. 前記情報信号は、音声信号を含む、請求項43または請求項44に記載の装置(300)。
  46. 前記一系列の数を生成するための手段(320)は、指標置換を生成するために形成される、請求項43ないし請求項45のいずれかに記載の装置(300)。
  47. 前記一系列の数を生成するための手段(320)は、反転チャートを生成するために形成される、請求項43ないし請求項47のいずれかに記載の装置(300)。
  48. 前記一系列の数を生成するための手段(320)は、前記一系列の数と前記係数に基づいて予測された予測系列との差に対応している残差信号をさらに生成するために形成される、請求項43ないし請求項47のいずれかに記載の装置(300)。
  49. 前記符号化するための手段(330)は、差分またはエントロピー符号化に従って前記ソート済みのサンプルまたは前記係数を符号化するために形成される、請求項43ないし請求項48のいずれかに記載の装置(300)。
  50. 前記符号化するための手段(330)は、前記残差信号を符号化するためにさらに形成される、請求項48または請求項49に記載の装置(300)。
  51. 情報信号のサンプル系列を符号化する方法であって、前記系列の範囲内における各サンプルは、元の位置を含み、前記方法は、
    ソート済みのサンプル系列を得るために、それらのサイズによって前記サンプルをソートするステップであって、各サンプルは、前記ソート済みの系列の範囲内におけるソート位置を含む、ソートするステップと、
    前記サンプルの前記元の位置と前記ソート位置の関係による一系列の数を生成し、前記一系列の数に基づいて予測フィルタの係数を決定するステップと、
    前記ソート済みのサンプルおよび前記係数を符号化するステップと、
    を含む、方法。
  52. コンピュータ・プログラムがコンピュータ上で実行される場合に、請求項51に記載の方法を実行させるためのプログラム・コードを有するコンピュータ・プログラム。
  53. 情報信号のサンプル系列を復号化するための装置(350)であって、前記系列の範囲内における各サンプルは、元の位置を含み、前記装置(350)は、
    予測フィルタの係数およびサンプル系列を受信するための手段(360)であって、各サンプルは、ソート位置を含む、受信するための手段(360)と、
    前記係数に基づいて一系列の数を予測するための手段(370)と、
    前記一系列の数に基づいてサンプル系列を再ソートするための手段(380)であって、各サンプルは、その元の位置を含む、再ソートするための手段(380)と、
    を含む、装置(350)。
  54. 前記情報信号は、音声信号を含む、請求項53に記載の装置(350)。
  55. 前記一系列の数を前記予測するための手段(370)は、前記一系列の数として、指標置換を予測する、請求項53または請求項54に記載の装置(350)。
  56. 前記一系列の数を前記予測するための手段(370)は、前記一系列の数として、反転チャートを予測する、請求項53ないし請求項55のいずれかに記載の装置(350)。
  57. 前記受信するための手段(360)は、符号化された残差信号を受信するためにさらに形成され、前記予測するための手段(370)は、前記一系列の数の予測において、前記残差信号を考慮に入れるために形成される、請求項53ないし請求項56のいずれかに記載の装置(350)。
  58. 前記装置(350)は、
    サンプル、残差信号または差分もしくはエントロピー符号化による係数を復号化するために形成される、復号化するための手段をさらに含む、請求項53ないし請求項57のいずれかに記載の装置(350)。
  59. 情報信号のサンプル系列を復号化する方法であって、前記系列の範囲内における各サンプルは、元の位置を含み、前記方法は、
    予測フィルタの係数およびサンプル系列を受信するステップであって、各サンプルは、ソート位置を含む、受信するステップと、
    前記係数に基づいて一系列の数を予測するステップと、
    前記一系列の数に基づいて前記サンプル系列を再ソートするステップであって、各サンプルは、その元の位置を含む、再ソートするステップと、
    を含む、方法。
  60. コンピュータ・プログラムがコンピュータ上で実行される場合に、請求項59に記載の方法を実行させるためのプログラム・コードを有するコンピュータ・プログラム。
  61. サンプル系列を符号化するための装置(400)であって、前記系列の範囲内における各サンプルは、元の位置を含み、前記装置(400)は、
    ソート済みのサンプル系列を得るために、それらのサイズによって前記サンプルをソートするための手段(410)であって、各サンプルは、前記ソート済みの系列の範囲内におけるソート位置を含む、ソートするための手段(410)と、
    前記ソート済みのサンプルおよび前記元の位置と前記ソート位置との関係の情報を有する一系列の数を符号化するための手段(420)であって、前記一系列の数の範囲内における各要素は、一意的であり、そして、第1要素の符号化の前に、より少ない要素が第2要素の符号化前にすでに符号化されている場合、前記第1要素に関連するビットの数が、前記第2要素に関連するビットの数よりも大きくなるように、前記一系列の数の要素を有するビットの数に関連させる、符号化するための手段(420)と、
    を含む、装置(400)。
  62. 前記符号化するための手段(420)は、長さNの一系列の数を符号化し、同時にX個の要素の数を符号化するために形成され、ここで、Gビットは、X個の数に関連し、以下の方程式による、装置(400)。
    Figure 2010510533
  63. 前記符号化するための手段(420)は、長さNの一系列の数を符号化するために形成され、ここで、Xは、前記一系列の数のすでに符号化された要素の数であり、Gビットは、前記一系列の数の前記次の要素に関連し、以下の方程式による、装置(400)。
    Figure 2010510533
  64. N個のサンプルの系列を符号化する方法であって、前記系列の各サンプルは、元の位置を含み、前記方法は、
    ソート済みのサンプル系列を得るために、そのサイズによって前記サンプルをソートするステップであって、各サンプルは、前記ソート済みの系列の範囲内においてソート位置を含む、ソートするステップと、
    前記ソート済みのサンプルを符号化するステップと、
    前記元の位置と前記ソート位置との関係の情報を有する一系列の数を符号化するステップであって、前記一系列の数の範囲内における各要素は、一意的であり、そして、第1要素の符号化の前に、より少ない要素が第2要素の符号化前にすでに符号化されている場合、前記第1要素に関連するビットの数が、前記第2要素に関連するビットの数よりも大きくなるように、前記一系列の数の要素を有するビットの数に関連させる、符号化するステップと、
    を含む、方法。
  65. コンピュータ・プログラムがコンピュータ上で実行される場合に、請求項64に記載の方法を実行させるためのプログラム・コードを有するコンピュータ・プログラム。
  66. サンプル系列を復号化するための装置(450)であって、前記系列の範囲内における各サンプルは、元の位置を含み、前記装置(450)は、
    符号化された一系列の数およびサンプル系列を受信するための手段(460)であって、各サンプルは、ソート位置を含む、受信するための手段(460)と、
    前記符号化された一系列の数に基づく前記元の位置と前記ソート位置との関係の情報を有する復号化された一系列の数を復号化するための手段(470)であって、前記符号化された一系列の数の範囲内における各要素は、一意的であり、そして、第1要素の復号化の前に、より少ない要素が第2要素の符号化前にすでに復号化されている場合、前記第1要素に関連するビットの数が、前記第2要素に関連するビットの数よりも大きくなるように、前記一系列の要素を有するビットの数に関連させる、復号化するための手段(470)と、
    前記復号化された一系列に基づいて前記サンプル系列を再ソートするための手段(480)であって、前記復号化された系列の範囲内における各サンプルは、その元の位置を含む、再ソートするための手段(480)と、
    を含む、装置(450)。
  67. 前記復号化するための手段(470)は、前記長さNの一系列の数を復号化するために形成され、ここで、Xは、前記一系列の数のすでに符号化された要素の数であり、Gビットは、X個の要素の数に関連し、以下の方程式による、装置(450)。
    Figure 2010510533
  68. 前記復号化するための手段(470)は、前記長さNの一系列の数を復号化するために形成され、ここで、Xは、前記一系列の数のすでに符号化された要素の数であり、Gビットは、前記一系列の数の前記次の要素に関連し、以下の方程式による、装置(450)。
    Figure 2010510533
  69. サンプル系列を復号化するための方法であって、前記系列の範囲内における各サンプルは、元の位置を含み、前記方法は、
    符号化された一系列の数およびサンプル系列を受信するステップであって、各サンプルは、ソート位置を含む、受信するステップと、
    前記符号化された一系列の数に基づく前記元の位置と前記ソート位置との関係の情報を有する符号化された一系列の数を復号化するステップであって、前記復号化された一系列の数の範囲内における各要素は、一意的であり、そして、第1要素の復号化の前に、より少ない要素が第2要素の符号化前にすでに復号化されている場合、前記第1要素に関連するビットの数が、前記第2要素に関連するビットの数よりも大きくなるように、復号化する場合に、ビットの数は、前記一系列の要素に関連させる、復号化するステップと、
    前記復号化された一系列に基づいて前記サンプル系列を再ソートするステップであって、前記復号化された系列の範囲内における各サンプルは、その元の位置を含む、再ソートするステップと、
    を含む、方法。
  70. コンピュータ・プログラムがコンピュータ上で実行される場合に、請求項69に記載の方法を実行させるためのプログラム・コードを有するコンピュータ・プログラム。
JP2009536665A 2006-11-16 2007-11-16 符号化および復号化のための装置 Active JP5200028B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
DE102006054080.8 2006-11-16
DE102006054080 2006-11-16
DE102007017254A DE102007017254B4 (de) 2006-11-16 2007-04-12 Vorrichtung zum Kodieren und Dekodieren
DE102007017254.2 2007-04-12
PCT/EP2007/009941 WO2008058754A2 (de) 2006-11-16 2007-11-16 Vorrichtung zum kodieren und dekodieren

Publications (2)

Publication Number Publication Date
JP2010510533A true JP2010510533A (ja) 2010-04-02
JP5200028B2 JP5200028B2 (ja) 2013-05-15

Family

ID=39283871

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009536665A Active JP5200028B2 (ja) 2006-11-16 2007-11-16 符号化および復号化のための装置

Country Status (9)

Country Link
US (1) US20100027625A1 (ja)
EP (1) EP2054884B1 (ja)
JP (1) JP5200028B2 (ja)
KR (1) KR101122573B1 (ja)
CN (1) CN101601087B (ja)
AT (1) ATE527655T1 (ja)
DE (1) DE102007017254B4 (ja)
HK (1) HK1126568A1 (ja)
WO (1) WO2008058754A2 (ja)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8521540B2 (en) * 2007-08-17 2013-08-27 Qualcomm Incorporated Encoding and/or decoding digital signals using a permutation value
KR101487190B1 (ko) * 2008-09-11 2015-01-28 삼성전자주식회사 압축 코덱을 구비한 플래시 메모리 집적 회로
CN101615911B (zh) * 2009-05-12 2010-12-08 华为技术有限公司 一种编解码方法和装置
CN101609680B (zh) * 2009-06-01 2012-01-04 华为技术有限公司 压缩编码和解码的方法、编码器和解码器以及编码装置
PT2491553T (pt) 2009-10-20 2017-01-20 Fraunhofer Ges Forschung Codificador de áudio, descodificador de áudio, método para codificar uma informação de áudio, método para descodificar uma informação de áudio e programa de computador que utiliza uma redução iterativa de tamanho de intervalo
US8755619B2 (en) * 2009-11-19 2014-06-17 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding image data using run of the image data
MX2012008075A (es) * 2010-01-12 2013-12-16 Fraunhofer Ges Forschung Codificador de audio, decodificador de audio, metodo para codificar e informacion de audio, metodo para decodificar una informacion de audio y programa de computacion utilizando una modificacion de una representacion de un numero de un valor de contexto numerico previo.
ES2937066T3 (es) * 2010-07-20 2023-03-23 Fraunhofer Ges Forschung Decodificador de audio, procedimiento y programa informático para decodificación de audio
KR101206000B1 (ko) * 2010-12-31 2012-11-28 전자부품연구원 Mpeg-4 als vlsi 구현을 위한 저복잡도 가변 차수 단기 예측기
AU2012218016B2 (en) 2011-02-16 2015-11-19 Dolby Laboratories Licensing Corporation Methods and systems for generating filter coefficients and configuring filters
US9058223B2 (en) * 2011-04-22 2015-06-16 Microsoft Technology Licensing Llc Parallel entropy encoding on GPU
GB2490879B (en) * 2011-05-12 2018-12-26 Qualcomm Technologies Int Ltd Hybrid coded audio data streaming apparatus and method
US11039138B1 (en) 2012-03-08 2021-06-15 Google Llc Adaptive coding of prediction modes using probability distributions
CN104221288A (zh) * 2012-04-13 2014-12-17 佳能株式会社 对编码视频数据的变换单位的子集编码和解码的方法、设备和系统
US10844689B1 (en) 2019-12-19 2020-11-24 Saudi Arabian Oil Company Downhole ultrasonic actuator system for mitigating lost circulation
CN107403624B (zh) 2012-05-18 2021-02-12 杜比实验室特许公司 用于音频信号的动态范围调整及控制的方法和设备
KR101647576B1 (ko) * 2012-05-29 2016-08-10 노키아 테크놀로지스 오와이 스테레오 오디오 신호 인코더
US10003793B2 (en) 2012-10-01 2018-06-19 Google Technology Holdings LLC Processing of pulse code modulation (PCM) parameters
US9490836B2 (en) * 2012-10-26 2016-11-08 Altera Corporation Apparatus for improved encoding and associated methods
US9942063B2 (en) 2012-10-26 2018-04-10 Altera Corporation Apparatus for improved encoding and associated methods
US9485222B2 (en) * 2013-08-20 2016-11-01 Hewlett-Packard Development Company, L.P. Data stream traffic control
EP3503095A1 (en) 2013-08-28 2019-06-26 Dolby Laboratories Licensing Corp. Hybrid waveform-coded and parametric-coded speech enhancement
TWI671734B (zh) 2013-09-12 2019-09-11 瑞典商杜比國際公司 在包含三個音訊聲道的多聲道音訊系統中之解碼方法、編碼方法、解碼裝置及編碼裝置、包含用於執行解碼方法及編碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置及編碼裝置的音訊系統
CN105100812B (zh) * 2014-05-23 2019-01-04 成都市高博汇科信息科技有限公司 一种图像发送、接收方法和装置
CN104318926B (zh) * 2014-09-29 2018-08-31 四川九洲电器集团有限责任公司 基于IntMDCT的无损音频编码方法、解码方法
CN104392725A (zh) * 2014-12-02 2015-03-04 中科开元信息技术(北京)有限公司 多声道无损音频混合编解码方法及装置
DE102015217724A1 (de) * 2015-09-16 2017-03-16 Siemens Aktiengesellschaft Vorrichtung und Verfahren zum Erstellen einer asymmetrischen Prüfsumme
JP6766264B2 (ja) * 2017-06-22 2020-10-07 日本電信電話株式会社 符号化装置、復号装置、符号化方法、復号方法、およびプログラム
CN107582046B (zh) * 2017-09-18 2022-03-01 山东正心医疗科技有限公司 心电实时监护方法
US10553224B2 (en) 2017-10-03 2020-02-04 Dolby Laboratories Licensing Corporation Method and system for inter-channel coding
US10630459B2 (en) 2018-09-13 2020-04-21 Viasat, Inc. Synchronizing and aligning sample frames received on multi-component signals at a communications receiver
TW202102010A (zh) * 2019-05-24 2021-01-01 瑞典商赫爾桑茲股份有限公司 用於無損資料壓縮和解壓縮的方法、裝置、和電腦程式產品
US11403310B2 (en) * 2020-02-28 2022-08-02 Verizon Patent And Licensing Inc. Systems and methods for enhancing time series data compression for improved data storage
CN111431716B (zh) * 2020-03-30 2021-03-16 卓尔智联(武汉)研究院有限公司 数据传输方法、装置、计算机设备和存储介质
CN112435674A (zh) * 2020-12-09 2021-03-02 北京百瑞互联技术有限公司 优化频谱数据的lc3算术编码搜索表的方法、装置、介质
CN113890737B (zh) * 2021-09-27 2024-01-26 清华大学 一种信息编码方法、信息编码系统及相关装置
CN114173081A (zh) * 2021-12-13 2022-03-11 济南大学 一种远程音视频方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0830295A (ja) * 1994-07-20 1996-02-02 Sony Corp ディジタル・オーディオ信号記録・再生方法と装置
JPH08161000A (ja) * 1994-12-02 1996-06-21 Yamaha Corp 音声情報圧縮方法及び装置
JPH09106299A (ja) * 1995-10-09 1997-04-22 Nippon Telegr & Teleph Corp <Ntt> 音響信号変換符号化方法および復号化方法
JP2000165252A (ja) * 1998-11-18 2000-06-16 Neucore Technol Inc データ圧縮方法および装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3975587A (en) * 1974-09-13 1976-08-17 International Telephone And Telegraph Corporation Digital vocoder
US4903301A (en) * 1987-02-27 1990-02-20 Hitachi, Ltd. Method and system for transmitting variable rate speech signal
US6731811B1 (en) * 1997-12-19 2004-05-04 Voicecraft, Inc. Scalable predictive coding method and apparatus
US6028541A (en) * 1998-03-12 2000-02-22 Liquid Audio Inc. Lossless data compression with low complexity
CN100392981C (zh) * 1999-01-07 2008-06-04 皇家菲利浦电子有限公司 在无损编码器中边信息的有效编码方法
US6842735B1 (en) * 1999-12-17 2005-01-11 Interval Research Corporation Time-scale modification of data-compressed audio information
JP2002077255A (ja) * 2000-08-29 2002-03-15 Fujitsu Ltd 画像配信方法及びその画像送信装置及びルータ装置
US7047169B2 (en) * 2001-01-18 2006-05-16 The Board Of Trustees Of The University Of Illinois Method for optimizing a solution set
US20020198708A1 (en) * 2001-06-21 2002-12-26 Zak Robert A. Vocoder for a mobile terminal using discontinuous transmission
JP2003022192A (ja) * 2001-07-09 2003-01-24 Hitachi Ltd ブロックソート圧縮アルゴリズムを用いた圧縮プログラミング方法、該圧縮プログラミング方法を用いたプロセッサシステム及び情報配信サービス方法
US7260215B2 (en) * 2001-09-04 2007-08-21 Portauthority Technologies Inc. Method for encryption in an un-trusted environment
WO2003026308A2 (de) * 2001-09-14 2003-03-27 Siemens Aktiengesellschaft Verfahren und vorrichtung zur verbesserten codierung und decodierung von videosignalen
US6847682B2 (en) * 2002-02-01 2005-01-25 Hughes Electronics Corporation Method, system, device and computer program product for MPEG variable bit rate (VBR) video traffic classification using a nearest neighbor classifier
DE10230809B4 (de) * 2002-07-08 2008-09-11 T-Mobile Deutschland Gmbh Verfahren zur Übertragung von Audiosignalen nach dem Verfahren der priorisierenden Pixelübertragung
JP3997171B2 (ja) * 2003-03-27 2007-10-24 株式会社エヌ・ティ・ティ・ドコモ 動画像符号化装置、動画像符号化方法、動画像符号化プログラム、動画像復号装置、動画像復号方法、及び動画像復号プログラム
DE10322722B4 (de) * 2003-05-20 2005-11-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Synchronisieren eines Audiossignals mit einem Film
DE602004028171D1 (de) 2004-05-28 2010-08-26 Nokia Corp Mehrkanalige audio-erweiterung
US7792373B2 (en) * 2004-09-10 2010-09-07 Pioneer Corporation Image processing apparatus, image processing method, and image processing program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0830295A (ja) * 1994-07-20 1996-02-02 Sony Corp ディジタル・オーディオ信号記録・再生方法と装置
JPH08161000A (ja) * 1994-12-02 1996-06-21 Yamaha Corp 音声情報圧縮方法及び装置
JPH09106299A (ja) * 1995-10-09 1997-04-22 Nippon Telegr & Teleph Corp <Ntt> 音響信号変換符号化方法および復号化方法
JP2000165252A (ja) * 1998-11-18 2000-06-16 Neucore Technol Inc データ圧縮方法および装置

Also Published As

Publication number Publication date
EP2054884A2 (de) 2009-05-06
DE102007017254B4 (de) 2009-06-25
WO2008058754A2 (de) 2008-05-22
HK1126568A1 (en) 2009-09-04
ATE527655T1 (de) 2011-10-15
KR101122573B1 (ko) 2012-03-22
WO2008058754A3 (de) 2008-07-10
CN101601087A (zh) 2009-12-09
EP2054884B1 (de) 2011-10-05
JP5200028B2 (ja) 2013-05-15
US20100027625A1 (en) 2010-02-04
DE102007017254A1 (de) 2008-07-17
CN101601087B (zh) 2013-07-17
KR20090087902A (ko) 2009-08-18

Similar Documents

Publication Publication Date Title
JP5200028B2 (ja) 符号化および復号化のための装置
EP1869774B1 (en) Adaptive grouping of parameters for enhanced coding efficiency
RU2555221C2 (ru) Канальное кодирование на основе комплексного преобразования с частотным кодированием с расширенной полосой
JP4506039B2 (ja) 符号化装置及び方法、復号装置及び方法、並びに符号化プログラム及び復号プログラム
JP3412082B2 (ja) ビット率の調節可能なステレオオーディオ符号化/復号化方法及び装置
KR101162572B1 (ko) 오디오 데이터 부호화 및 복호화 장치와 방법
EP2267698B1 (en) Entropy coding by adapting coding between level and run-length/level modes.
US8566105B2 (en) Apparatus and method for encoding and decoding of audio data using a rounding off unit which eliminates residual sign bit without loss of precision
US9355646B2 (en) Method and apparatus to encode and decode an audio/speech signal
US20020049586A1 (en) Audio encoder, audio decoder, and broadcasting system
EP1749296A1 (en) Multichannel audio extension
WO2005004113A1 (ja) オーディオ符号化装置
RU2367087C2 (ru) Кодирование информации без потерь с гарантированной максимальной битовой скоростью
US6593872B2 (en) Signal processing apparatus and method, signal coding apparatus and method, and signal decoding apparatus and method
EP1905034A1 (en) Virtual source location information based channel level difference quantization and dequantization method
JPH09106299A (ja) 音響信号変換符号化方法および復号化方法
US7181079B2 (en) Time signal analysis and derivation of scale factors
JP3557164B2 (ja) オーディオ信号符号化方法及びその方法を実行するプログラム記憶媒体
Muin et al. A review of lossless audio compression standards and algorithms
Hidayat et al. A critical assessment of advanced coding standards for lossless audio compression
Creusere Quantifying perceptual distortion in scalably compressed MPEG audio
Namazi et al. On Ultra Low-Delay Compression of Higher Order Ambisonics Signals
JP2001298367A (ja) オーディオ信号符号化方法、オーディオ信号復号化方法およびオーディオ信号符号化/復号化装置と前記方法を実施するプログラムを記録した記録媒体
Giurcaneanu et al. Forward and backward design of predictors for lossless audio coding
Dai Kang et al. PROGRESSIVE MULTICHANNEL AUDIO CODEC (PMAC) WITH RICH FEATURES

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111213

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120307

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120613

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130208

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160215

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5200028

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250