JP4033898B2 - 知覚符号化システムのサブバンドに波形予測を適用する装置及び方法 - Google Patents
知覚符号化システムのサブバンドに波形予測を適用する装置及び方法 Download PDFInfo
- Publication number
- JP4033898B2 JP4033898B2 JP52000596A JP52000596A JP4033898B2 JP 4033898 B2 JP4033898 B2 JP 4033898B2 JP 52000596 A JP52000596 A JP 52000596A JP 52000596 A JP52000596 A JP 52000596A JP 4033898 B2 JP4033898 B2 JP 4033898B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- subband
- output
- prediction
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title description 32
- 230000004044 response Effects 0.000 claims abstract description 33
- 230000008447 perception Effects 0.000 claims abstract description 4
- 230000008859 change Effects 0.000 claims description 20
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 4
- 230000008878 coupling Effects 0.000 claims 1
- 238000010168 coupling process Methods 0.000 claims 1
- 238000005859 coupling reaction Methods 0.000 claims 1
- 238000013139 quantization Methods 0.000 description 24
- 230000003595 spectral effect Effects 0.000 description 11
- 230000002123 temporal effect Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000007906 compression Methods 0.000 description 8
- 230000006835 compression Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000006978 adaptation Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 5
- 230000015556 catabolic process Effects 0.000 description 5
- 238000006731 degradation reaction Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/66—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
- H04B1/665—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
概して本発明は、音声信号のような信号の低ビットレート符号化及び復号に関する。特に、本発明は、高品質分割帯域知覚符号化システムに予測を適用することによって情報容量要件を下げることに関する。
背景
音声信号処理分野において信号品質上知覚できる損失なしに信号を表すために要する情報量を最小化することには多大な関心がある。情報要件を下げるによって、通信チャンネル及び記憶媒体に与える信号の情報容量要件が低下する。
圧縮又はダイナミックレンジ低減がなされてきたアナログ信号は、例えば、無圧縮信号のようなものより低い情報容量要件を与える。より少ない2進ビットで符号化されたデジタル信号は、信号を表すためにより多くのビット数を用いて符号化された信号より低い情報容量要件を与える。もちろん、知覚される信号品質を劣化させることなく実現できる低減量には限度がある。以下の論議は特にデジタル技術に向けられているが、対応する考察はアナログ技術にも適用できることを理解されたい。
情報容量要件は、いわゆる2つのデータ圧縮技術のいずれかを用いることによって下げることができる。時々「損失のある」圧縮技術と呼ばれる一種の技術では、源信号の完全回復に関して、それが保証されず概してそれが妨げられような方法で情報容量要件が下げられる。量子化は良く知られた損失のある圧縮技術の1つである。
量子化では、デジタル信号の各サンプルを表すのに用いられるビット数を減らすことで情報容量要件を下げることが可能で、それによってデジタル信号表現の精度は低下する。音声符号化の用途では、低下した精度又は量子化誤差が量子化雑音として現れる。もし誤差がかなりの大きさなら、量子化雑音は符号化された信号の本質的品質を劣化させるであろう。
各種の音声符号化技術では、知覚できないか若しくは知覚される符号化品質に無関係な情報成分を除くことによって、知覚可能な劣化を受けることなく入力信号に損失のある技術を適用することを試みている。相補的な復号技術で入力信号のレプリカ、すなわち、複製を回復することができる。除去される成分が真に無関係であるなら、同レプリカは知覚的に入力信号と区別できない。この様な符号化技術の例としては、心理知覚原則に基づく適応ビット配分を備えた分割帯域濾波がある。
例えば、音声用途において人の聴覚系は、高度に非対称な同調されたフィルタの周波数分析特性と類似の特性を示す。同フィルタは、可変中心周波数と中心周波数の関数として変わる帯域幅とを有する。異なった音を感知する人の聴覚系の能力は、音の間の周波数差が増大するにつれて増大する。しかし、人の聴覚系能力は、上記フィルタの帯域幅未満の周波数差についてほぼ一定に止まる。従って、人の聴覚系の周波数分解能は、全音声スペクトルに亘りこれらのフィルタの帯域幅に応じて変わる。この様な聴覚フィルタの有効帯域幅は「臨界帯域」と呼ばれる。臨界帯域内の優勢信号は、当該臨界帯域外の他の信号を隠蔽するよりも、当該臨界帯域内の他の信号の可聴性を隠蔽する可能性が高い。優勢信号は隠蔽信号と同時に発生する他の信号を隠蔽するのみならず、隠蔽信号の前後に発生する信号も隠蔽することができる。前隠蔽効果及び後隠蔽効果の持続時間は、隠蔽信号の大きさに依存するが、通常前隠蔽効果は後隠蔽効果より遥かに短い持続時間を有する。概要は「Audio Engineering Handbook」(K.Blair Benson ed.,McGraw-Hill,San Francisco,1988,pages 1.40-1.42&4.8-4.10)を参照のこと。
音声信号スペクトル成分の可聴性を確立するための簡単な心理音響モデルは存在しない。臨界帯域の帯域幅及び一時的隠蔽間隔は、隠蔽信号の周波数及び振幅と共に大幅に変化する。これは個々の聴取者間で変わりかつ論議の主題となっている。それにも拘らず、一定の数値が心理音響コーダデザインで一般的に用いられて有用な工学技術的近似値となっている。臨界帯域は概して幾分一定で、約500Hz以下の周波数においては100Hz未満と考えられている。臨界帯域は約500Hz以上の周波数では中心周波数の分数として変化する。すなわち、500Hzにおいて約3分の1オクターブで始まり、1kHz乃至4kHzの周波数に対して約5分の1オクターブに下がり、約10KHz以上の周波数に対しては約3分の1オクターブに増加する。前隠蔽間隔は100msecを越えて伸び得るが、概して5msec未満に制限されると考えられる。後隠蔽間隔は500msecを越えて伸びることができるが、概して約50msecに制限されると考えられる。
有用な帯域幅を周波数サブバンドに分割し、サブバンドが人の聴覚系の臨界帯域を近似する帯域幅を有するようにする音声分割帯域符号化技術は、広帯域技術より心理音響効果をより良く利用することができる。この様な分割帯域符号化技術は、概念として、入力信号をフィルタバンクを通して流し、劣化が丁度聴取不能になる程度まで各フィルタバンドを通る信号の情報容量要件を低下させ、逆処理で入力信号のレプリカを再構成することから成る。この様な2つの技術としてはサブバンド符号化及び変換符号化がある。音声サブバンドコーダ及び変換コーダは特定の周波数サブバンドにおいて情報要件を下げることが可能で、同サブバンドでは結果的に生じる人為的なものは1以上のスペクトル成分によって心理音響的に隠蔽され、従って符号化される信号の本質的品質が劣化することはない。
サブバンドコーダでは、アナログ又はデジタルフィルタを有するフィルタバンクを利用するあらゆる異なった技術を用いることができる。デジタルサブバンドコーダでは、信号サンプルを含む入力信号がデジタルフィルタバンクを通して送られる。フィルタバンクのそれぞれのフィルタによって送られる各サブバンド信号は、当該サブバンドのフィルタの帯域幅に従って下降サンプリングされる。コーダでは、量子化雑音を知覚不能にするために丁度十分なビットを用いて各サブバンド信号のサンプルを量子化することを試みる。各サブバンド信号は、入力信号スペクトルの一部を表すサンプルを含む。
変換コーダは、デジタルフィルタのバンクを利用するためにあらゆる種類の、いわゆる時間領域対周波数領域変換を用いることができる。変換から得られる個々の係数は「サブバンド」と見なされるか若しくは2以上の近接変換係数が共にグループ化されて個々の変換係数帯域幅の合計である有効帯域幅を有する「サブバンド」を定めるようにすることができる。一サブバンドの変換係数は、当該各サブバンド信号のサンプルを構成する。コーダでは、量子化雑音を知覚不能にするための丁度十分なビットを用いて各サブバンドの変換係数の量子化を試みる。
ブロック変換は時間領域情報のブロック又は間隔で作動し、それを周波数領域スペクトル情報を表す変換係数のブロックに変換する。時間領域ブロックの長さは、変換フィルタバンクの一時分解能及びスペクトル分解能の双方に影響を与える。ブロック長の増加でスペクトル分解能は高くなるが、計算要件も増大しかつフィルタバンクを通した処理の遅れも増大する。より高いスペクトル分解能は、より正確な知覚モデルの仕様を許容することによって心理知覚効果の利用を容易にする。不幸にして、ブロック長の増加は、同様にフィルタバンクの一時的分解能をも低下させる。過渡現象のようなブロック内の急激な現象に起因する量子化雑音の影響は、ブロックを横切って広がり、もしブロックが長すぎるなら、誤差は人の聴覚系の一時的隠蔽感覚を越えて伸びるであろう。さらに、荒い一時的分解能は、ちょうどよい正確な時間に符号化された信号成分の抽出を要する編集システムのようなある用途において極めて不利である。
以下の論議を通して、「分割帯域コーダ」の用語は、サブバンドコーダ、変換コーダ及び有用な信号帯域幅の部分に作用する他の符号化技術を指すものとする。「サブバンド」の用語は、真のサブバンドフィルタバンク、変換フィルタバンク又は他の濾波技術によって実施されようとされまいと、有用な信号帯域幅のこれらの部分を指すものとする。この論議を通して用いられる「サブバンド信号サンプル」及びその他の用語は、論議の前後関係ではっきり区別されない限り、通過帯域から得られるサンプル及び変換から得られる係数の双方を指すものとする。
時々「損失のない」圧縮技術と呼ばれる第2の種類の圧縮技術では、源信号を脱相関させることによって劣化なしに情報容量要件を低下させ、それによって冗長信号成分を低下もしくは排除している。相補的な圧縮解除技術では、圧縮中に除かれる冗長成分を与えることによって源信号を完全に回復できる。損失のない圧縮技術の例には、ランレングス符号化、線形予測コーデング(LPC)及び変換コーデングが含まれる。
原則として、LPCを用いるエンコーダは、源信号のある面を予測し、予測と源信号間の差から「予測誤差」を設定し、予測誤差を対のデコーダに送る。デコーダは、対応する予測を行い、源信号を完全に回復させるためにエンコーダから受取る予測誤差に応じて予測を調節する。
広範な種類のLPC技術が良く知られている。例えば、Widrow and Stearsの「適応信号処理」(Prentice-Hall,1985,pp.99-116)及びHonig and Messershmittの「適応フィルタの構成、アルゴリズム、用例」(Klunes Academic Publishers,1984,pp.49-62,図3-5)参照。これらはすべて参照により本明細書に組み入れる。
線形予測は基本的に濾波と同一である。従って、予測精度のようなフィルタ特性に加えて、周波数応答及び安定性のようなフィルタ特性はLPCにとって適切な要件である。デジタル実施態様において、再帰的、非再帰的フィルタはLPCを実施するために用いることができる。より高級な予測フィルタは、複雑な信号をより正確に予測することができるが、より長い応答時間を有する。さらに、より高級なフィルタは、より大きな計算要件を課す。
本論議を通して、「予測精度」、「予測誤差」等の用語は、予測とそれぞれの源信号との間の差に関する。予測誤差の大きさは、補間公式、すなわち、予測器の精度に逆比例する。「応答時間」等の用語は、過渡現象のような高度な非定常的現象に続くほぼ定常値に対して予測器が予測誤差を最小にするために必要とする時間の長さに関する。
変換では、情報を一組の主成分に脱相関させることによって損失のない情報圧縮を与えることができる。例えば、音声信号は、一組の長波関係信号として表し得る。不幸にして、ブロック変換では各ブロックの範囲内の情報を脱相関させるが、ブロック間では脱相関は行われない。音声符号化用例では、ブロック間の相関は非常に強することができる。
変換、LPC及び量子化を用いるハイブリット符号化システムが開発されている。冗長情報は、情報ブロックを脱相関させるブロック変換及びブロック間の相関を低減させる線形予測器によって低減される。また無関係な情報は、心理知覚原則により量子化することによって低減される。例えば、Lazzari他の「デジタル移動ラジオ用2スピーチコーダ」(CSELT Technical Reports vol.16,10-1988,pp.563-5729)(以下Lazzariと呼ぶ)、Mahieux他の「IEEE ICASSP議事録」(1989,pp.2021-2024)(以下Mahieuxと呼ぶ)及びLin他の「移動レシーバ用サブバンド・マルチパルスデジタル音声放送」(IEEE Trans.on Broadcasting,vol.39,no.4,12-1993,pp.373-382)(以下Linと呼ぶ)参照。これらは全て引用により本明細書に組入れる。これらの文献では、フィルタバンクから得られる1以上のサブバンド信号に適用される予測器の予測誤差がエンコーダで量子化される。
Lazzariにより開示される技術では、縦続接続された直角ミラーフィルタ(QMS)から得られる4つのサブバンドの2つに短語線形予測器を適用する。Lazzariは、もしサブバンドが4に限定されるなら一時的冗長語の除去がより効果的であると結論づけている。サブバンドの帯域幅は、人の聴覚系の臨界帯域より遥かに広い。序列6の予測値は、サンプル間の相関が最高の最低周波数サブバンド信号に用いられ、序列4の予測器は、第2のサブバンド信号に用いられる。予測は約15msecの信号フレームに亘って行われる。長語の冗長語を除くための追加の予測器が考えられたが、複雑さの増加に対して殆ど得るところがないので排除された。第3サブバンド信号は、予測なしで適応パルスコード変調機構を用いて符号化される。
Linにより開示される技術では、修正された多重パルス励起線形予測コーダが2つの縦続接続されたQMFから得られる4つのサブバンドに適用される。サブバンドの帯域幅は人の聴覚系の臨界帯域より遥かに広い。Linは、高予測精度を得るためにはより狭いサブバンド内の隣接サンプル間の相関が十分高くないのでより広いサブバンドが用いられると説明している。一実施態様においては、序列6、4、4、4の予測器が20msecの分析フレーム長に亘ってそれぞれ4つのサブバンド信号に用いられる。励起パルス密度が低い時追加の長語予測器が用いられるのは、それが本質的品質の改良を与えるからである。
サブバンド帯域幅が非常に広いので、Lazzari及びLinにより開示される技術では量子化雑音を聴取できないようにするために心理知覚効果を完全に用いることができない。
Mahieuxにより開示される技術では、振幅・位相予測器が離散フーリエ変換(DFT)から得られる変換係数に適用される。開示された一実施態様では、512点DFTが変換係数を発生させ、第1序列の予測器が変換係数量を予測し、2つの第2序列予測器が変換係数位相変化を予測する。ピーク値変換係数に対する予測誤差は、当該量に対しては非均一量子化を用いかつ位相変化に対しては均一量子化装置を用いて量子化される。より重要でない他の変換係数の量は、非均一量子化で行われる。予測誤差に対する量子化装置は信号内の急激な過渡現象に遭遇するときは何時でも再初期化される。不幸にして、開示された予測器は、変換係数の帯域幅以内に多重スペクトル成分を含む複雑な波形に対してうまく働かない。開示された技術による符号化システムでは、雑音状信号に応答して音状信号が発生される。さらに、量子化装置が再初期化される時補助情報を伝える必要がある。
上記引用文献で開示される各技術では、臨界帯域濾波及び予測精度の十分な組合わせを達成することはできない。一方では、より広いサブバンド内の情報に対して優れた予測精度が得られるが、量子化誤差が聴取できないようにするのはより困難である。他方では、より狭いサブバンドでは量子化誤差が聴取できないようにするのは一層容易であるが、殆ど利益が得られない程度まで予測精度が劣化する。狭いサブバンド内でより序列の高い予測器を用いることではまだ著しい改良が得られていない。Mahieuxにより開示されたシステムでは、第4序列の予測器が第1序列のものより約2dB高い予測利得を与えるにすぎないことを示している。
発明の開示
本発明の目的は、上記問題を克服する予測符号化を組入れた高品質分割帯域符号化システムを提供することである。
本発明の別の目的は、知覚劣化を最小にするために必要に応じて予測符号化が適用される高品質分割帯域符号化システムを提供することである。
本発明の他の目的は、以下の論議を通して述べる。
一実施態様における本発明の教示によると、分割帯域オーディオエンコーダは人の聴覚系の各臨界帯域の帯域幅と同等の帯域幅を有するサブバンド信号を発生させ、それぞれのサブバンド信号の波形を予測するために各サブバンドにおいて普遍的波形予測器を適用し、予測誤差又はそれぞれのサブバンドの内より低い情報要件を持つものをを量子化し、伝送又は記憶に適した形で量子化された予測誤差をフォーマットにしたがって並べる。予測器の序列は2つの競合する利害を釣合わせるように選択される。すなわち、1)低予測誤差を与えるために序列を十分高くし、予測誤差の低ビットレート量子化から結果的に生じる量子化雑音が知覚できないようにし、2)序列を十分低くして人の聴覚系の一時的隠蔽間隔と同等の応答時間を与えるようにすることの利害を釣合わせる。
一実施態様における本発明の教示によると分割帯域デコーダは、符号化された信号から、各サブバンドに対してサブバンド情報が量子化された予測誤差又はサブバンド信号のレプリカを表す、複数のサブバンドに対するサブバンド情報を引き出し、それぞれのサブバンド信号のレプリカを回復させるために各サブバンドにつき普遍的波形予測器を量子化された予測誤差を表すサブバンド情報に適用し、サブバンド信号のレプリカに応答して広帯域出力信号を発生させる。
符号化システムは、選択的に予測を用いることによって、人の聴覚システムの一時的隠蔽間隔を越える応答時間を有するより正確な高序列予測器を用いることができる。疑似静止間隔間に高序列予測器を用いることは予測精度に貢献する。高序列予測器が長い応答時間を有するので、高度な非静止現象に続いて大きな予測誤差の影響が一時的隠蔽間隔を越えて延びるかもしれない。しかし、知覚できる劣化は、大きな予測誤差よりはむしろサブバンド信号サンプルを符号化することによって回避若しくは最小化される。
本発明は、多くの異なった実施態様で実施可能であり、広範な種類のエンコーダ及びデコーダに組入れることができる。特に変換に基づくフィルタバンクに言及しているが、本発明の実施上決定的な特殊なフィルタバンクの実施形態はない。特に、実施形態には、臨界的にサンプリングされる、直角ミラーフィルタ(QMS)及び時間領域エイリアシング相殺(TDAC)変換のようなエイリアシング人工物を発生させる分析フィルタバンクを組込んでもよい。
「臨界帯域と同等の」帯域幅などの表現は、特に低周波数において、人の聴覚系の臨界帯域を僅かに越えかもしれない帯域幅を意味すると理解すべきであるが、より狭いものが望ましい。「一時的隠蔽間隔と同等の」時間間隔などの表現は、人の聴覚系の一時的隠蔽間隔を僅かに越えかもしれない時間間隔を意味すると理解すべきであるが、より短いものが望ましい。
本発明の各種の特徴及び望ましい実施態様は、以下の論議及び同一要素は同一参照番号で示した図面を参照することによってよりよく理解し得るであろう。以下の論議及び図面の内容は例としてのみ示すものであって、本発明の範囲を限定するものであると理解すべきではない。
【図面の簡単な説明】
図1は、サブバンド信号プロセッサを組込んだ分割帯域エンコーダの機能構成図である。
図2は、逆サブバンドプロセッサを組込んだ分割帯域エンコーダの機能構成図である。
図3−5は、線形予測器及び量子化装置を組込んだサブバンド信号及び逆サブバンドプロセッサの実施態様の機能構成図である。
図6−7は、予測フィルタ係数を更新するために用いる情報の流れを例示する、線形予測器の実施態様の機能構成図である。
図8は、予測指定変更に備えた予測器を組込んだサブバンド信号プロセッサの実施態様の機能構成図である。
図9は、サブバンド信号プロセッサ用の予測指定変更制御器の実施態様の機能構成図である。
図10は、逆サブバンド信号プロセッサ用の予測指定変更制御器の実施態様の機能構成図である。
本発明の実施様式
基本構成
図1は、本発明の各面を組込んだ分割帯域エンコーダの一実施態様を例示する。フィルタバンク200は、路100から受け取る入力信号に応答して複数のサブバンド信号を発生させる。ここでは簡単のために2つのサブバンドのみについて論議する。サブバンド信号プロセッサ330aは、路301aから受け取るサブバンド信号1つを処理し、処理の結果を路302aに沿ってフォーマッタ400へ送る。サブバンド信号プロセッサ330bは、路301bから受け取るサブバンド信号の別の1つを処理し、処理の結果を路302bに沿ってフォーマッタ400へ送る。フォーマッタ400は、処理したサブバンド信号を伝送又は記憶に適した形にアセンブルし、フォーマットした定様式信号を路500に沿って送る。多くの実施態様においてフォーマッタ400は本質的にマルチプレクサ(多重装置)あるが、フォーマットの特徴は本発明の実施にとって決定的ではない。
図2は、本発明の各面を組込んだ分割帯域デコーダの一実施態様を例示する。デフォーマッタ700は、路600から受け取るフォーマットされた信号から複数のサブバンドにつきサブバンド情報を引き出す。逆サブバンドプロセッサ800aは、路801aから受け取るサブバンドの1つに対する情報を処理し、その結果生じたサブバンド信号を路802aに沿って逆フィルタバンク900へ送る。逆サブバンドプロセッサ800bは、路801bから受け取るサブバンドの別の1つに対する情報を処理し、その結果生じたサブバンド信号を路802bに沿って逆フィルタバンク900へ送る。逆フィルタバンク900は、路802a及び802bから受け取るサブバンド信号に応答して路1000に沿って出力信号を発生させる。
図3は、順方向予測器を組み込んだサブバンド信号プロセッサの一実施態様の基本構成を例示する。路301から受け取るサブバンドi内の信号のデジタルサンプルx(m,i)は、路305に沿って予測された値p(m,i)を発生させる線形予測器304へ送られる。結合器310は、路305から受け取る予測された値p(m,i)を路301から受け取るサブバンド信号サンプルx(m,i)から減算することによって予測誤差e(m,i)を設定する。サブバンド指数iは、各サブバンド信号プロセッサに対して推定し得る。従って、以下論議を簡単にするためにサブバンド指数は省略される。従って、サブバンド信号予測誤差は、次式で表し得る。
e(m)=x(m)−p(m) (1)
誤差を路302に沿って送る。対のデコーダの逆サブバンドプロセッサ内の予測器へ必要な補助情報を送るための装置は図示していない。
図4は、逆方向予測器を組み込んだサブバンド信号プロセッサの一実施態様の基本構成を例示する。結合器310は、式1により予測誤差を設定し、路303に沿って誤差を量子化装置320へ送る。量子化装置320は、予測誤差を量子化し、量子化された誤差を路302に沿って送る。結合器330は、路305から受け取る予測された値を路302から受け取る量子化された誤差に加算し、次式により源サブバンド信号サンプルのレプリカを回復させるようにする。
線形予測器340は、次式により路307から受け取るサブバンド信号サンプルの回復されたレプリカに応答して路305に沿って予測された値を発生させる。
ここでF=線形予測関数
N=予測器の序列
サブバンド信号プロセッサの望ましい実施態様では逆方向予測器が用いられる。その理由は、追加の補助情報を対のデコーダの逆サブバンドプロセッサへ送る必要がないからである。しかし、本発明の実施にとって決定的な特別な予測器トポロジはない。順方向予測器、逆方向予測器又は2形式のハイブリッド形を用いてもよい。
図5は、逆方向予測器を組み込んだ逆サブバンドプロセッサの一実施態様の基本構成を例示する。結合器810は、路802に沿って回復されたサブバンド信号サンプルのレプリカを発生させる。サブバンド信号サンプルは、式2により路805から受け取る予測された値を路801から受け取る量子化された予測誤差に加算することによって得られる。線形予測器840は、上記式3により路802から受け取る源サブバンド信号サンプルの回復されたレプリカに応答して路805に沿って予測された値を発生させる。順方向予測器を組み込んだ逆サブバンドプロセッサの実施態様は図示していない。しかし、本発明を実施するために順方向予測器、逆方向予測器又は2形式のハイブリッド形を用いることができる。
サブバンド帯域幅及び予測器序列
フィルタバンク200及び逆フィルタバンク900は、アナログ又はデジタルフィルタ若しくは2者のハイブリッド形を用いて実施してもよい。フィルタを実施するためには広範な各種の構造体及び技術を用いることができる。論議を簡単にするために以下特に離散ブロック変換によって実施されるフィルタバンクにつき述べる。
本来フィルタバンクはあらゆる変換によって実施できる。特に興味のある変換は、「偶数積重ね時間領域相殺(E−TDAC)HA変換」及び「奇数積重ね時間領域相殺(O−TDAC)である。前者は、Princen,Bradleyによる『時間領域エイリアシング相殺に基づく分析・合成フィルタバンクデザイン』(IEEE Trans.on Acoust.,speech,Signal Proc.,vol.ASSP-34,1986,pp.1153-1161)に記載され、後者は、Princen,Johnson Bradleyによる『時間領域エイリアシング相殺に基づくフィルタバンクデザインを用いるサブバンド・変換符号化』(ICASSP 1987 Conf.Proc.,May 1987,pp.2161-64)に記載されている。本発明の実施にとって決定的な特別な変換はない。論議を簡単にするために以下の記載は概してO−TDAC変換により実施されるフィルタバンクを前提とする。
既に述べた通り、変換に基づくフィルタバンクを組み込んだ実施態様では、競合する利害を釣り合わせる変換長を用いなければならない。変換長は十分長くし、知覚に基づく符号化を支持するのに十分微細なスペクトル分解能を与えるようにしなければならない。さらに、変換長は十分短くし、人の聴覚系の一時的隠蔽間隔と同等の間隔に対する過渡現象のような突発的現象に起因する聴取可能な量子化雑音を制限するのに十分微細な一時的分解能を与えるようにしなければならない。また、より長い変換に対する計算上の付加的要件及び用途により指定される一時的分解能要件も同様に考慮しなければならない。対応する考慮は、直角ミラーフィルタ(QMF)のような他の技術を用いて実施されるフィルタバンクにも同様に適用される。
変換のスペクトル分解能は係数帯域幅であり、それは変換によって発生される別個の係数の数によって除算される入力信号帯域幅の商として近似できる。多くの変換に対する別個の係数の数は、変換長の半分と等しい。ここで「変換長」は、入力サンプル数又は変換が適用されるブロック内の「点」と意味するものと理解される。例えば、離散フーリエ変換(DFT)又は上記TDACの1つのような512・点変換は、512入力サンプルのブロックに適用され、256の別個の変換係数を発生させる。簡単のためにここではすべての変換係数の帯域幅が同一であると仮定する。しかし、DFT及びE−TDAC変換のようなある変換では、他のすべての係数の半分の帯域幅と等しい帯域幅を有する第1係数、最後の係数を発生させる。帯域幅のこれらの変化は、望ましいものとして説明されるが、簡単のために本論議では無視される。本論議を通して長さ2Nの変換は別個の等帯域幅変換係数Nを発生させると仮定する。他の形の変換に対しては適切な変化を行ってもよい。
デジタル信号に対しては、入力信号帯域幅はサンプリングレートの半分と考えられる。毎秒44.1kサンプルのレートでサンプリングされるデジタル音声信号を符号化するシステムでは、128・点変換の係数帯域幅は約345Hzで、これは低周波数における臨界帯域幅より広い。265・点変換及び512・点変換の係数帯域幅は、それぞれ約172Hz及び86Hzであり、それらは低周波数における臨界帯域幅と同等である。
変換の一時的分解能は、分析窓(ウインド)、隣接時間領域サンプルブロック間の重複量及びブロック間隔の長さによって影響される。O−TDACフィルタバンクの有効な一時的分解能は、時間領域サンプルブロックに対してブロック間隔の約半分であり、これはサンプリングレートによって除算されたブロック内のサンプル数の半分と等しい。毎秒44.1kサンプルのレートでサンプリングされるデジタル音声信号を符号化するシステムでは、128・サンプルブロックに対するブロック間隔は約1.5msecである。256・サンプル及び512・ブロックに対するブロック間隔は、それぞれ約3msec及び6msecで、これらは前隠蔽間隔より幾分長い。256・点変換に対する一時的分解能及び、従って、平均の聴取者にとって聴取可能になる人工物の危険性は、信号・発生符号化用途に対して限界的に受け入れられるが、多重・発生符号化用途に対しては受け入れられない。
一般的波形予測を組み込んだ実施態様は、競合する利害を釣り合わせる序列を有する予測器を用いなければならない。序列は十分高くし、源信号よりはむしろ予測誤差を符号化することによって情報容量要件を低減させるのに十分な大きさの予測精度を与えるようにしなければならない。さらに、序列は十分低くし、一時的隠蔽間隔と同等の応答時間を与えるようにしなければならない。また、より長い変換に対する計算上の付加的要件及び用途により指定される一時的分解能要件も同様に考慮しなければならない。
一時的隠蔽に関して予測器に対する応答時間は、概して約50msecと考えられる後隠蔽間隔を考慮することを要するのみである。予測器の最大序列は、許容可能な最大予測器応答時間を隣接サブバンド信号サンプル又は係数間の間隔により除算することによって近似することができる。この間隔は、本質的に変換の一時的分解能と同一である。毎秒44.1kサンプルの信号を有するO−TDACフィルタバンクを用いる望ましい実施態様では、512・点、256・点及び128・点変換に対する係数を予測するために用いられる予測器に対する最大序列はそれぞれ約8、17及び33である。
単一周波数正弦波形を正確に予測するためには3の最小序列を要する。しかし、各変換係数が概して幾つかの周波数に対するスペクトルエネルギを含む帯域幅を表すのでより大きな序列が通常必要とされる。経験的な証拠により、86Hz(512・点変換)、172Hz(256・変換)及び345Hz(128・点変換)の係数帯域幅に対する実施上の最小序列がそれぞれ約4、6及び8であることが示されており、それらは低周波数における臨界帯域幅と同等である。
毎秒44.1kサンプルでサンプリングされる音声信号を符号化する分割帯域エンコーダの望ましい実施態様では、O−TDACフィルタバンクは128・点の修正されたDCTにより実施され、各変換係数は序列10の線形予測器により処理される。フィルタバンクの一時的分解能は、たとえ符号化された多重・発生信号の量子化誤差でも一時隠蔽間隔と同等の間隔に閉じ込めるのに十分である。線形予測器の応答時間も同様に一時隠蔽間隔と同等である。フィルタバンクのスペクトル分解能は、最低・周波数変換係数を除くすべてに対して心理音響隠蔽効果を完全に利用するのに十分である。しかし、予測精度は十分で、情報容量要件上の総体的低減を達成するようにする。量子化雑音が隠蔽されるのを確保するために最低・周波数係数の符号化が必要になるかもしれないが、必要な追加ビット数は、ブロック対ブロック冗長ビットを低減させる線形予測によって節約されるビット数より少ない。
代わりの実施態様では、スペクトルのすべて若しくは大部分に亘って予測器の序列がサブバンドの帯域幅と共に変わることが可能になるかもしれない。例えば、帯域幅が臨界帯域幅で表されている所では序列は各サブバンドの帯域幅の3倍と等しく設定してもよい。この配列は、約100Hzを越えるサブバンドに対しオクターブで表される帯域幅の何倍かと等しい序列を設定することによって近似できる。例えば、中央周波数が500Hz乃至1kHのサブバンドに対し約9倍、1kHz乃至4kHzに対し15倍とし、約10kHzを越えるサブバンドに対し約9倍に下がるように設定される。
適応予測
図6は、逆方向予測器を組み込んだサブバンド信号プロセッサの別な実施態様の基本構成を例示する。この実施態様の構成及び作用は上記図4に例示したものと実質的に同一である。この第2実施態様では、線形予測器340は路302から量子化された予測誤差を受取り、予測フィルタ係数を適応するようにさせる。
図7は、逆方向予測器を組み込んだ逆サブバンドプロセッサの別な実施態様の基本構成を例示する。この実施態様の構成及び作用は上記図5に例示したものと実質的に同一である。この第2実施態様では、線形予測器840は路801から量子化された予測誤差を受取り、予測フィルタ係数を適応するようにさせる。
予測フィルタの一実施態様では式3の予測関数Fは次式で表し得る。
ここでCj(m)=サンプルx(m)を予測するのに用いる予測フィルタ係数j
一定のフィルタ係数を有するこの様な予測フィルタは、図3乃至5に例示した実施態様で用いることができる。それは、図示していない路から受け取る情報からのフィルタ係数を適応させることによって、図3に例示した順方向予測器として用いることが可能である。
望ましい実施態様では、予測フィルタ係数は次式により更新される。
ここでk(m)=予測収束係数
予測収束係数の値は、安定性を維持しつつ予測器収束の速度を最大にすることによって予測器の応答時間を最小化するように適応される。時々起こる予測器の不安定は許容できるが、予測器『指定変更』を用いることが前提となる。予測器指定変更は以下に論議される。
予測器収束は、信号振幅、予測フィルタ序列及び予測誤差を量子化するのに用いる量子化装置によって影響される。収束係数の値は、これらの同一要因により設定されるのが望ましい。特に、もし収束係数が信号振幅と逆に変化するなら、予測器収束は信号振幅の変化に対して比較的影響されないようにすることができる。一実施態様において収束係数は、信号振幅の平方に逆比例ると共に予測器序列の平方に逆比例する。概して奇数・対称量子化関数が望ましい。その理由は、偶数・対称量子化関数とは異なり、奇数・対称量子化関数は不偏することができると共に低・レベル信号に帯域幅に対して零・レベル量子化レベルを与えることができる。原則として任意の大きさの信号を用いて収束係数を得ることができる。しかし、処与の間隔以内の信号のピーク値又は二乗平均平方根(RMS)のいずれかを選ぶのが好都合である。一実施態様ではk(m)は次式で設定される。
ここでw=加重要因
max[a,b,...c]=組{a,b,...c}内の値の最大値
N=予測フィルタの序列
信号サンプルx(m)が−1乃至1の範囲にある実施態様において加重要因は約0.1と等しい。
非常な小・振幅信号の場合、特に信号が雑音で覆われるほど振幅が小さい場合には、通常予測フィルタ係数の適応を禁止するのが望ましい。これは各種の方法で達成できる。1つの簡単な方法は、式6の最大信号振幅がある閾値未満の場合、例えばピーク値より180dB以上低い場合、k(m)を小さな値に設定することである。同様に適応化は、式5の右側の第2項を零又はほぼ零に設定することによって禁止してもよい。
単一組の予測フィルタ係数がE−TDAC技法によりフィルタバンクと共に用いることができることは注目すべきである。これはたとえそのフィルタバンクが修正離散余弦変換(DCT)及び修正離散正弦変換(DST)の適用を交番する場合であっても可能である。修正DCT及び修正DSTのスペクトルが互いに直角位相なので、各変換で発生されるサンプルは予測器によって別個に処理されなければならないが、同一予測フィルタ係数を用いることができるからである。望ましい実施態様において予測フィルタ係数は上記のものと類似の方法で適応化できる。
代替適用予測
予測器適応の閉じた形は、上記したものすべてのような適応の基本形式に対する代わりのものとして用いることができる。代替形式は、サブバンド内の信号が本質的に正弦波である期間に亘ってそれぞれのサブバンドにおいて用いること可能で、それによって予測器がより迅速に収束することが可能になり、逆方向予測器が実際の信号から逸れて変動するのを妨げ、順方向予測器に対する適応情報を伝えるのに要する補助情報量を低減させる。この代替形式は、正弦波が3つのサンプルのみで正確に表せることに基づく。従って、特定のサブバンド内の一番遅い4以上のサンプルを調べることによってそのサブバンド内の信号が本質的に正弦波かどうかを決定することができる。この決定は各サブバンドにつき可能で、サブバンド内の最近のサンプル又は変換係数から正弦波を周期的に推定(外挿)し、推定された正弦波及び現サンプル又は係数間の差を見出だし、この差を上記のような基本的方法により適応化された予測器から得られる予測誤差と比較することによって決定される。もし差が予測誤差未満なら、サブバンド信号は本質的に正弦波と見なされ、適切な正弦波を発生させるよう予測器が直ちに設定される。もし差が予測誤差を越えるなら、予測器適応化の基本的形式が続行される。適切なフラッグ又は他の制御情報が符号化された信号内に送り込まれ、その予測器が適切に適応化されるようにする。
もしフィルタバンク200がブロック変換と共に実施されるなら、決定は各ブロックにつき行われ、現ブロック内の変換係数を3以上前のブロック内の対応する変換係数と共に調べることによって決定される。もしフィルタバンク200がブロック変換以外のフィルタと共に実施されるなら、決定はサブバンド内の各サンプルにつき行われ、現サンプルを3以上前のサンプルと比較することによって決定される。前のサンプル数及び決定の頻度は、符号化用途の必要性により設定することができる。
予測指定変更
予測器のデザインでは、予測に要する精度、収束に要する速度及び高度に非静的現象及び予測誤差の量子化に鑑みた予測器の安定性を考慮しなければならない。既に述べた通り、これらの特性はデザイン上の妥協を要する競合要因である。「指定変更」と称する本発明の別な面は、ある用途において予測器デザイン上の妥協を軽減させることに資するように用いてもよい。予測指定変更は、符号化されたサブバンド信号の情報容量要件が予測を用いて低減されるかどうかを決定する。もし下がるなら、サブバンド信号サンプルの予測誤差が符号化される。もし下がらないなら、サブバンド信号サンプルのある表現が符号化される。この表現は、サブバンド信号サンプル値それ自体又は、例えば、微分値のある形のような誘導値でもよい。以下の論議はサブバンド信号サンプル値それ自体が符号化されることを前提としている。
図8は、予測指定変更を有する逆方向予測器を組み込んだサブバンド信号プロセッサの実施態様の基本構成を例示する。容量プロセッサ312は、路301から受け取るサブバンド信号サンプルに応答して、路308に沿ってサブバンド信号サンプル及びサブバンド信号情報容量要件の計量、すなわち、測度の双方を伝える。結合器310は、上記の式1により予測誤差を設定し、路303に沿って誤差を容量プロセッサ314へ送る。容量プロセッサ314は、路309に沿って予測誤差及び予測誤差の情報容量要件の測度の双方を伝える。指定変更370では路308及び309から受け取る容量要件測度を分析し、サブバンド信号サンプル又は予測誤差がより大きい情報容量要件を課すかどうかを確定し、より低い要件を課す信号を量子化し、それぞれ路307及び308に沿って量子化された誤差及び源サブバンド信号サンプルの回復されたレプリカを線形予測器340へ伝える。線形予測器340は、路306から受け取る量子化された予測誤差に応答して予測フィルタ係数を適応させ、路307から受け取る回復されたレプリカに応答して路305に沿って予測値を発生させる。
一実施例において容量プロセッサは、信号サンプルに対するブロック浮動小数点指数を設定することによって情報容量要件の測度を発生させる。容量要件は指数の値と逆に変化する。単一変換係数を含むサブバンドに対し、指数は1つの信号値だけに適用される。2以上の変換係数を含むサブバンドでは、指数は2以上の信号値に適用される。他の実施例において測度は、信号サンプルのピーク、RMS、平均又はスケール係数のような他の信号レベルの関数である。さらに他の実施例において容量プロセッサは、大きさ以外の信号特性空情報容量要件を推定することができる。測度を発生させるのに用いる関数の選択は符号化システム性能に著しい影響を与え得るが、発明的概念にとって決定的な特別な関数はない。
図9は、予測指定変更の一実施態様の基本構成を例示する。この実施態様において比較器372は、路308及び309から受け取る容量要件測度を比較する。もし路308から受け取るサブバンド信号サンプルに対する情報容量要件が高いなら、図示の通り比較器372がスイッチ371a乃至371dを下方の位置に切り替えるようにさせ、路304aに沿って「偽」指定変更信号を発生させ、予測誤差を量子化しかつ符号化すべきことを示す。しかし、もし路309から受け取る予測誤差に対する容量要件が高いなら、比較器372がスイッチ371a乃至371dを上方の位置に切り替えるようにさせ、路304aに沿って「真」指定変更信号を発生させ、サブバンド信号サンプルを量子化しかつ符号化すべきことを示す。
比較器372の制御の下にスイッチ371aは、路308から受け取るサブバンド信号又は路309から受け取る予測誤差のいずれかを量子化装置320へ送る。量子化装置320は情報を量子化し、量子化した情報を路302に沿って伝える。路302上の量子化された情報および路394上の指令変更信号の双方がその後フォーマッタ400によって伝送又は記憶のために符号化された信号にアセンブルされる。
比較器372の制御の下にスイッチ371b−371dは、量子化された予測誤差が路306に沿って送られかつ源サブバンド信号サンプルが路307に沿って送られることを確保する。もし予測誤差が量子化されかつ符号化されるなら、スイッチの各々が図示の通り下方の位置に切り替えられる。結合器376が式2により源サブバンド信号サンプルの回復されたレプリカを発生させる。これはスイッチ371bを通して炉305から受け取る予測された値を、302から浮けと在る量子化された予測誤差に加算することによって行われる。スイッチ371cは路307に沿って回復されたレプリカを伝え、スイッチ371dは路306に沿って量子化された予測誤差を伝える。
もしサブバンド信号サンプルが量子化されかつ符号化されるなら、各スイッチは上方の位置に切り替えられる。スイッチ371bはインバータ374から予測値の逆にされた形を受取ってそれらを結合器376へ伝える。結合器376は、路302から受け取る量子化されたサブバンド信号サンプルから予測された値を減算することによって量子化された予測誤差を発生させる。スイッチ371cは、路306に沿って量子化された予測誤差を伝え、スイッチ371dは路307に沿って回復されたレプリカを伝える。
図10は、逆サブバンドプロセッサで用いる予測指令変更制御の一実施態様の基本構成を例示する。この実施態様において路801を経てデフォーマッタ700から受け取る量子化された信号は、量子化されたサブバンド信号サンプル又は量子化された予測誤差のいずれであってもよい。制御器872は路804を介してデフォーマッタ700から予測指定変更信号を受け取る。もし予測指定変更信号が偽なら、制御器872が図示の通りスイッチ871a−871dを上方位置に切り替える。もし予測指定変更信号が真なら、制御器872がスイッチ871a−871dを下方位置に切り替える。
制御器872に応答して、スイッチ871aは路802に沿って源サブバンド信号サンプルの回復されたレプリカを伝える。もし予測指定変更信号が偽でありかつスイッチが上方位置にあるなら、結合器810が源サブバンド信号サンプルのレプリカを回復させる。これは、路805を介して線形予測器840から受け取る予測された値と、路810から受け取る量子化された予測誤差とを結合することによって行われる。もし予測指定変更信号が真でありかつスイッチが下方位置にあるなら、源サブバンド信号サンプルのレプリカは路801から直接受け取られる。
制御器872に応答してスイッチ371b−371dは、量子化された予測誤差が路806に沿って送られかつ源サブバンド信号サンプルの回復されたレプリカが路807に沿って線形予測器840へ送られることを確保する。もし量子化された予測誤差が路801から受け取られるなら、各スイッチは図示の通り上方位置に切り替えられる。結合器876は、式2により源サブバンド信号サンプルの回復されたレプリカを発生させる。これは、スイッチ871bを通して路805から受け取る量子化された予測誤差と、路801から受け取る量子化された予測誤差とを加算することによって行われる。スイッチ871cは路807に沿って回復されたレプリカを伝え、スイッチ871dは路806に沿って量子化された予測誤差を伝える。
もし量子化されたサブバンド信号サンプルが路801から受け取られるなら、各スイッチは下方位置に切り替えられる。スイッチ871bはインバータ874から予測値の逆にされた形を受取ってそれらを結合器876へ伝える。結合器876は、路801から受け取る量子化されたサブバンド信号サンプルから予測値を減算することによって行われる。スイッチ871cは路806に沿って量子化された予測誤差を伝え、スイッチ871dは路807に沿って回復されたレプリカを伝える。
線形予測器840は、路806から受け取る量子化された予測誤差に応答して予測フィルタ係数を適応させかつ路807から受け取る回復されたレプリカに応答して路805に沿って予測された値を発生させる。
Claims (16)
- 音声情報を表す入力信号を受け取るレシーバ装置と、
複数のサブバンド信号を発生するサブバンド装置であって、前記入力信号のそれぞれの周波数のサブバンドに対応する各サブバンド信号は、対応する人の知覚臨界帯域以下の帯域幅を有することを特徴とするサブバンド装置と、
それぞれのサブバンド信号に応答して量子化されたサブバンド情報を発生させるプロセッサ装置であって、
前記それぞれのサブバンド信号の情報容量要件を表す第1測度信号を発生させる装置と、
前記それぞれのサブバンド信号と、序列3以上の波形予測器を用いて該それぞれのサブバンド信号を予測することによって発生される予測された信号との間の差から予測誤差信号を発生させる装置と、
前記予測誤差信号の情報容量要件を表す第2測度信号を発生させる装置と、
前記第1測度信号及び前記第2測度信号を分析し、それに応答して予測指定変更信号を発生させ、そして、前記それぞれのサブバンド信号の情報要件が前記予測誤差信号より高い場合は、該予測誤差信号を量子化し、そうでない場合は、該各サブバンド信号を量子化することによって前記量子化されたサブバンド情報を発生させる装置と、
を含むことを特徴とするプロセッサ装置と、
量子化されたサブバンド情報及び前記周波数サブバンドに対する予測指定変更信号を伝送又は記憶に適した形にアセンブルすることによって符号化された信号を書式化するフォーマッタ装置と、
から成るエンコーダ。 - 前記入力信号は、入力信号サンプルを含み、前記サブバンド信号の各々は、1つまたはそれ以上の変換係数を含み、前記変換係数は、前記入力信号に変換を適用することによって発生されることを特徴とする、請求項1のエンコーダ。
- 前記変換係数は、偶数積重ね時間領域エイリアシング相殺変換又は奇数積重ね時間領域エイリアシング相殺変換のいずれかを適用することによって生成される係数と実質的に対応することを特徴とする、請求項2のエンコーダ。
- 前記変換は、前記入力信号サンプルの間隔に応答して変換係数のブロックを発生させ、前記波形予測器は、それぞれのブロック以内の変換係数のグループに適用され、該波形予測器は、256、128及び64の変換係数を含むブロックに対してそれぞれ8、17及び33の最低序列を有することを特徴とする、請求項2又は3のエンコーダ。
- それぞれのサブバンド信号に対する前記波形予測器は、臨界帯域幅で表される前記それぞれのサブバンド信号の帯域幅の3倍と実質的に等しい序列を有することを特徴とする、請求項1乃至4のいずれか1項に記載のエンコーダ。
- 前記波形予測器は、人の聴覚系の後隠蔽間隔を隣接する前記入力信号サンプル間の時間間隔で除算した、時間間隔の商以下の序列を有することを特徴とする、請求項1乃至5のいずれか1項に記載のエンコーダ。
- 音声情報を表す符号化された信号を受け取り、該符号化信号から、予測指定変更信号及び人の知覚の対応する臨界帯域以下の帯域幅を有する前記音声情報のそれぞれの周波数サブバンドに対する量子化されたサブバンド情報を得るデフォーマッタ装置であって、それぞれの周波数サブバンドの予測指定変更信号は、その周波数サブバンドに対する量子化されたサブバンド情報が量子化された予測誤差か又は量子化されたサブバンド信号のいずれであるかを示すことを特徴とするデフォーマッタ装置と、
それぞれの周波数サブバンドに対するレプリカサブバンド信号を発生させるプロセッサ装置であって、前記プロセッサ装置は、
前記それぞれの周波数サブバンドに対する量子化されたサブバンド情報に序列3またはそれ以上の波形予測器を適用することによって予測信号を発生させる装置と、
前記それぞれの予測指定変更信号が偽りである場合は、前記予測信号に応答して前記プロセッサ装置が前記レプリカサブバンド信号を発生させ、そうでない場合は、前記量子化されたサブバンド信号に応答して該レプリカサブバンド信号を発生させるように前記波形予測器を制御する装置と、
前記周波数サブバンドに対する前記レプリカサブバンド信号に応答して前記音声情報のレプリカを発生させる出力装置と、
を含むことを特徴とするプロセッサ装置と、
から成るデコーダ。 - 前記サブバンド信号は、変換係数を含み、前記音声情報の前記レプリカは、前記複数の周波数サブバンドに対する前記サブバンド信号に逆変換を適用することによって発生されることを特徴とする、請求項7のデコーダ。
- 前記逆変換は、偶数積重ね時間領域エイリアシング相殺変換又は奇数積重ね時間領域エイリアシング相殺変換のいずれかに実質的に対応することを特徴とする、請求項8のデコーダ。
- 前記複数のサブバンドに対するサブバンド信号は、変換係数のブロックを構成し、前記波形予測器は、256、128及び64の変換係数から成るブロックに対し8、17及び33の最低序列を有することを特徴とする、請求項8又は9のデコーダ。
- それぞれのサブバンド信号に対する前記波形予測器は、臨界帯域幅で表される前記それぞれのサブバンド信号の帯域幅の3倍に実質的に等しい序列を有することを特徴とする、請求項7乃至10のいずれか1項に記載のデコーダ。
- 音声情報の前記レプリカは、音声サンプルを含み、前記波形予測器は、人の聴覚系の後隠蔽間隔を隣接する前記音声サンプル間の時間間隔で除算した、時間間隔の商以下の序列を有することを特徴とする、請求項7乃至11のずれか1項に記載のデコーダ。
- 入力端子と、
それぞれが前記入力端子に結合される入力と、出力とを有する複数の帯域通過フィルタであって、それぞれの中心周波数を有し、それぞれの通過帯域幅が人の聴覚系と臨界帯域に等しいか又はそれより狭い帯通過波フィルタと、
それぞれの帯域通過フィルタの出力と結合される回路であって、前記回路は、
前記それぞれの帯域通過フィルタの出力と結合される入力と、出力とを有する序列3以上の線形予測フィルタと、
第1比較器入力、第2比較器入力及び比較器出力を有する比較器であって、前記第1比較器入力は、前記それぞれの帯域通過フィルタの出力と結合され、かつ前記第2比較器入力は、前記線形予測フィルタの出力と結合される比較器とを具備し、前記比較器出力は、前記線形予測フィルタの出力の情報要件が前記それぞれの帯域通過フィルタの出力の情報要件より大きいかどうかを示す予測指定変更信号を伝達することを特徴とする、比較器と、
前記比較器出力と結合される入力と、前記予測指定変更信号に応答する出力とを有するスイッチ制御器と、
第1スイッチ入力、第2スイッチ入力及びスイッチ出力を有するスイッチであって、前記第1スイッチ入力は前記それぞれの帯域通過フィルタの出力と結合されかつ前記第2スイッチ入力は前記線形予測フィルタの出力と結合され、前記スイッチ出力は前記スイッチ制御器の出力に応答して前記第1スイッチ入力又は前記第2スイッチ入力のいずれかに切り替え可能に接続されることを特徴とするスイッチと、
前記スイッチ出力と結合される入力と、出力とを有する量子化装置と、
を含むことを特徴とする回路と、
前記比較器出力と前記量子化装置出力とに結合されるマルチプレクサと、
から成るエンコーダ。 - 前記予測フィルタが加重回路を有するフィルタタップを含み、前記加重回路は、前記量子化装置出力と結合されることを特徴とする、請求項13のエンコーダ。
- 入力端子と、
前記入力端子と結合される入力、及び複数のデマルチプレクサ出力を有するデマルチプレクサであって、前記デマルチプレクサは、前記入力端子で受け取った信号から予測指定変更信号とサブバンド情報とを得ることを特徴とする、デマルチプレクサと、
第1のそれぞれのデマルチプレクサ出力と結合される回路であって、前記回路は、
サブバンド情報を受け取るために前記第1のそれぞれのデマルチプレクサ出力と結合される入力を有し、かつ出力を有する序列3以上の線形予測フィルタと、
前記予測指定変更信号に応答させるように、第2のぞれぞれのデマルチプレクサ出力と結合されるスイッチ制御器と、
第1スイッチ入力、第2スイッチ入力及びスイッチ出力を有するスイッチであって、前記第1スイッチ入力が前記第1のそれぞれのデマルチプレクサ出力と結合されかつ前記第2のスイッチ入力が前記線形予測フィルタの出力と結合され、前記スイッチ出力が前記スイッチ制御器に応答して前記第1スイッチ入力又は前記第2スイッチ入力のいずれかに切り替え可能に接続されるスイッチと、
を含むことを特徴とする回路と、
それぞれの中心周波数を有し、人の聴覚系と臨界帯域に等しいか又はそれより狭いそれぞれの通過帯域を有する複数の逆帯域通過フィルタであって、前記複数の逆帯域通過フィルタのそれぞれが前記スイッチの出力と結合されることを特徴とする逆帯域通過フィルタと、
から成るデコーダ。 - 前記予測フィルタが加重回路を有するフィルタタップを含み、前記加重回路は、前記デマルチプレクサの前記複数の出力の各1つと結合されることを特徴とする、請求項15のデコーダ。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US36015094A | 1994-12-20 | 1994-12-20 | |
US08/360,150 | 1994-12-20 | ||
PCT/US1995/016748 WO1996019876A1 (en) | 1994-12-20 | 1995-12-20 | Method and apparatus for applying waveform prediction to subbands of a perceptual coding system |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10511243A JPH10511243A (ja) | 1998-10-27 |
JP4033898B2 true JP4033898B2 (ja) | 2008-01-16 |
Family
ID=23416807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP52000596A Expired - Lifetime JP4033898B2 (ja) | 1994-12-20 | 1995-12-20 | 知覚符号化システムのサブバンドに波形予測を適用する装置及び方法 |
Country Status (10)
Country | Link |
---|---|
US (1) | US5699484A (ja) |
EP (1) | EP0799531B1 (ja) |
JP (1) | JP4033898B2 (ja) |
AT (1) | ATE191107T1 (ja) |
AU (1) | AU704693B2 (ja) |
CA (1) | CA2206129C (ja) |
DE (1) | DE69515907T2 (ja) |
DK (1) | DK0799531T3 (ja) |
ES (1) | ES2143673T3 (ja) |
WO (1) | WO1996019876A1 (ja) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6757913B2 (en) | 1996-07-15 | 2004-06-29 | Gregory D. Knox | Wireless music and data transceiver system |
JP2891193B2 (ja) * | 1996-08-16 | 1999-05-17 | 日本電気株式会社 | 広帯域音声スペクトル係数量子化装置 |
FI114248B (fi) * | 1997-03-14 | 2004-09-15 | Nokia Corp | Menetelmä ja laite audiokoodaukseen ja audiodekoodaukseen |
US6151632A (en) * | 1997-03-14 | 2000-11-21 | Microsoft Corporation | Method and apparatus for distributed transmission of real-time multimedia information |
US6115420A (en) | 1997-03-14 | 2000-09-05 | Microsoft Corporation | Digital video signal encoder and encoding method |
US6173317B1 (en) | 1997-03-14 | 2001-01-09 | Microsoft Corporation | Streaming and displaying a video stream with synchronized annotations over a computer network |
US5890125A (en) * | 1997-07-16 | 1999-03-30 | Dolby Laboratories Licensing Corporation | Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method |
US5913191A (en) * | 1997-10-17 | 1999-06-15 | Dolby Laboratories Licensing Corporation | Frame-based audio coding with additional filterbank to suppress aliasing artifacts at frame boundaries |
US6012025A (en) * | 1998-01-28 | 2000-01-04 | Nokia Mobile Phones Limited | Audio coding method and apparatus using backward adaptive prediction |
JP3199020B2 (ja) * | 1998-02-27 | 2001-08-13 | 日本電気株式会社 | 音声音楽信号の符号化装置および復号装置 |
US6266644B1 (en) * | 1998-09-26 | 2001-07-24 | Liquid Audio, Inc. | Audio encoding apparatus and methods |
EP1076297A1 (en) * | 1999-08-09 | 2001-02-14 | Deutsche Thomson-Brandt Gmbh | Method for fast Fourier transformation of audio signals |
US6567781B1 (en) | 1999-12-30 | 2003-05-20 | Quikcat.Com, Inc. | Method and apparatus for compressing audio data using a dynamical system having a multi-state dynamical rule set and associated transform basis function |
US6735561B1 (en) * | 2000-03-29 | 2004-05-11 | At&T Corp. | Effective deployment of temporal noise shaping (TNS) filters |
US7099830B1 (en) * | 2000-03-29 | 2006-08-29 | At&T Corp. | Effective deployment of temporal noise shaping (TNS) filters |
US7110953B1 (en) * | 2000-06-02 | 2006-09-19 | Agere Systems Inc. | Perceptual coding of audio signals using separated irrelevancy reduction and redundancy reduction |
AU2002220233A1 (en) * | 2000-12-01 | 2002-06-11 | Lizardtech, Inc. | Method for lossless encoding of image data by approximating linear transforms and preserving selected properties |
US6647149B2 (en) | 2001-01-03 | 2003-11-11 | Electronics For Imaging, Inc. | Methods and apparatus for securely transmitting and processing digital image data |
US6980933B2 (en) * | 2004-01-27 | 2005-12-27 | Dolby Laboratories Licensing Corporation | Coding techniques using estimated spectral magnitude and phase derived from MDCT coefficients |
JP4661074B2 (ja) * | 2004-04-07 | 2011-03-30 | ソニー株式会社 | 情報処理システム、情報処理方法、並びにロボット装置 |
EP1852848A1 (en) * | 2006-05-05 | 2007-11-07 | Deutsche Thomson-Brandt GmbH | Method and apparatus for lossless encoding of a source signal using a lossy encoded data stream and a lossless extension data stream |
DE102006022346B4 (de) * | 2006-05-12 | 2008-02-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Informationssignalcodierung |
US8005671B2 (en) * | 2006-12-04 | 2011-08-23 | Qualcomm Incorporated | Systems and methods for dynamic normalization to reduce loss in precision for low-level signals |
CN101589623B (zh) * | 2006-12-12 | 2013-03-13 | 弗劳恩霍夫应用研究促进协会 | 对表示时域数据流的数据段进行编码和解码的编码器、解码器以及方法 |
US8571503B2 (en) * | 2010-03-05 | 2013-10-29 | Mitac International Corp. | Signal receiving methods and devices |
EP2551848A4 (en) * | 2010-03-23 | 2016-07-27 | Lg Electronics Inc | METHOD AND APPARATUS FOR PROCESSING AUDIO SIGNAL |
CN103854653B (zh) * | 2012-12-06 | 2016-12-28 | 华为技术有限公司 | 信号解码的方法和设备 |
ES2613747T3 (es) | 2013-01-08 | 2017-05-25 | Dolby International Ab | Predicción basada en modelo en un banco de filtros críticamente muestreado |
AU2018289986B2 (en) | 2017-06-19 | 2022-06-09 | Rtx A/S | Audio signal encoding and decoding |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0111612B1 (fr) * | 1982-11-26 | 1987-06-24 | International Business Machines Corporation | Procédé et dispositif de codage d'un signal vocal |
US4751736A (en) * | 1985-01-31 | 1988-06-14 | Communications Satellite Corporation | Variable bit rate speech codec with backward-type prediction and quantization |
GB8803390D0 (en) * | 1988-02-13 | 1988-03-16 | Univ Belfast | Method and apparatus for electrical signal coding |
US5185800A (en) * | 1989-10-13 | 1993-02-09 | Centre National D'etudes Des Telecommunications | Bit allocation device for transformed digital audio broadcasting signals with adaptive quantization based on psychoauditive criterion |
CN1062963C (zh) * | 1990-04-12 | 2001-03-07 | 多尔拜实验特许公司 | 用于产生高质量声音信号的解码器和编码器 |
US5274740A (en) * | 1991-01-08 | 1993-12-28 | Dolby Laboratories Licensing Corporation | Decoder for variable number of channel presentation of multidimensional sound fields |
JP3310682B2 (ja) * | 1992-01-21 | 2002-08-05 | 日本ビクター株式会社 | 音響信号の符号化方法及び再生方法 |
US5291557A (en) * | 1992-10-13 | 1994-03-01 | Dolby Laboratories Licensing Corporation | Adaptive rematrixing of matrixed audio signals |
US5451954A (en) * | 1993-08-04 | 1995-09-19 | Dolby Laboratories Licensing Corporation | Quantization noise suppression for encoder/decoder system |
-
1995
- 1995-12-20 WO PCT/US1995/016748 patent/WO1996019876A1/en active IP Right Grant
- 1995-12-20 EP EP95944513A patent/EP0799531B1/en not_active Expired - Lifetime
- 1995-12-20 JP JP52000596A patent/JP4033898B2/ja not_active Expired - Lifetime
- 1995-12-20 ES ES95944513T patent/ES2143673T3/es not_active Expired - Lifetime
- 1995-12-20 AU AU46874/96A patent/AU704693B2/en not_active Expired
- 1995-12-20 DE DE69515907T patent/DE69515907T2/de not_active Expired - Lifetime
- 1995-12-20 AT AT95944513T patent/ATE191107T1/de active
- 1995-12-20 CA CA002206129A patent/CA2206129C/en not_active Expired - Lifetime
- 1995-12-20 DK DK95944513T patent/DK0799531T3/da active
-
1996
- 1996-04-26 US US08/638,498 patent/US5699484A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DK0799531T3 (da) | 2000-07-10 |
AU4687496A (en) | 1996-07-10 |
CA2206129C (en) | 2009-11-10 |
DE69515907D1 (de) | 2000-04-27 |
EP0799531B1 (en) | 2000-03-22 |
JPH10511243A (ja) | 1998-10-27 |
EP0799531A1 (en) | 1997-10-08 |
AU704693B2 (en) | 1999-04-29 |
CA2206129A1 (en) | 1996-06-27 |
ATE191107T1 (de) | 2000-04-15 |
DE69515907T2 (de) | 2000-08-17 |
US5699484A (en) | 1997-12-16 |
ES2143673T3 (es) | 2000-05-16 |
WO1996019876A1 (en) | 1996-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4033898B2 (ja) | 知覚符号化システムのサブバンドに波形予測を適用する装置及び方法 | |
US5852806A (en) | Switched filterbank for use in audio signal coding | |
EP0709004B1 (en) | Hybrid adaptive allocation for audio encoder and decoder | |
EP1160770B2 (en) | Perceptual coding of audio signals using separated irrelevancy reduction and redundancy reduction | |
KR970007663B1 (ko) | 신호 양자화 장치 및 방법 | |
JP2906646B2 (ja) | 音声帯域分割符号化装置 | |
KR100346066B1 (ko) | 오디오신호 코딩방법 | |
EP0720307B1 (en) | Digital audio signal coding and/or decoding method | |
US6502069B1 (en) | Method and a device for coding audio signals and a method and a device for decoding a bit stream | |
KR970007661B1 (ko) | 스테레오포닉 오디오 신호의 입력세트 코딩방법 | |
JP3297051B2 (ja) | 適応ビット配分符号化装置及び方法 | |
EP1016320B1 (en) | Method and apparatus for encoding and decoding multiple audio channels at low bit rates | |
JP2923406B2 (ja) | オーディオ信号処理方法 | |
JP3277692B2 (ja) | 情報符号化方法、情報復号化方法及び情報記録媒体 | |
Sinha et al. | Audio compression at low bit rates using a signal adaptive switched filterbank | |
US5982817A (en) | Transmission system utilizing different coding principles | |
JPH0846518A (ja) | 情報符号化方法及び復号化方法、情報符号化装置及び復号化装置、並びに情報記録媒体 | |
EP0734617B1 (en) | Transmission system utilizing different coding principles | |
JPH1039897A (ja) | オーディオ信号を符号化する方法および装置および知覚的に符号化されたオーディオ信号を処理する装置 | |
Stoll et al. | HIGH QUALITY AUDIO BITRATE REDUCTION CONSIDERING THE PSYCHOACOUSTIC PHENEMENA OF HUMAN SOUND PERCEPTION |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060308 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060328 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20060627 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20060814 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060926 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071016 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071024 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101102 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111102 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121102 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121102 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131102 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |