JP4864201B2 - 音声信号の量子化ノイズをマスクするためのシステムと方法 - Google Patents
音声信号の量子化ノイズをマスクするためのシステムと方法 Download PDFInfo
- Publication number
- JP4864201B2 JP4864201B2 JP2000551492A JP2000551492A JP4864201B2 JP 4864201 B2 JP4864201 B2 JP 4864201B2 JP 2000551492 A JP2000551492 A JP 2000551492A JP 2000551492 A JP2000551492 A JP 2000551492A JP 4864201 B2 JP4864201 B2 JP 4864201B2
- Authority
- JP
- Japan
- Prior art keywords
- threshold
- coder
- masking
- signal
- transform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000000873 masking effect Effects 0.000 title claims abstract description 40
- 238000013139 quantization Methods 0.000 title claims description 49
- 238000001228 spectrum Methods 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 23
- 230000003595 spectral effect Effects 0.000 claims abstract description 20
- 238000006243 chemical reaction Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 11
- 230000002087 whitening effect Effects 0.000 claims description 11
- 238000009792 diffusion process Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 229960001716 benzalkonium Drugs 0.000 claims 1
- CYDRXTMLKJDRQH-UHFFFAOYSA-N benzododecinium Chemical compound CCCCCCCCCCCC[N+](C)(C)CC1=CC=CC=C1 CYDRXTMLKJDRQH-UHFFFAOYSA-N 0.000 claims 1
- 230000005236 sound signal Effects 0.000 abstract description 26
- 238000004891 communication Methods 0.000 abstract description 10
- 230000005540 biological transmission Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 36
- 238000010586 diagram Methods 0.000 description 29
- 230000009466 transformation Effects 0.000 description 16
- 230000015572 biosynthetic process Effects 0.000 description 10
- 238000000354 decomposition reaction Methods 0.000 description 10
- 238000005070 sampling Methods 0.000 description 10
- 238000003786 synthesis reaction Methods 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 8
- 238000009826 distribution Methods 0.000 description 7
- 230000006872 improvement Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 230000006835 compression Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 238000002156 mixing Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 230000001052 transient effect Effects 0.000 description 5
- 230000015556 catabolic process Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- BSYNRYMUTXBXSQ-UHFFFAOYSA-N Aspirin Chemical compound CC(=O)OC1=CC=CC=C1C(O)=O BSYNRYMUTXBXSQ-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 229940064452 artec Drugs 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000009131 signaling function Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L25/00—Baseband systems
- H04L25/02—Details ; arrangements for supplying electrical power along data transmission lines
- H04L25/03—Shaping networks in transmitter or receiver, e.g. adaptive shaping networks
- H04L25/03006—Arrangements for removing intersymbol interference
- H04L25/03159—Arrangements for removing intersymbol interference operating in the frequency domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/66—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
- H04B1/665—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/66—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
- H04B1/667—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using a division in frequency subbands
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L25/00—Baseband systems
- H04L25/02—Details ; arrangements for supplying electrical power along data transmission lines
- H04L25/03—Shaping networks in transmitter or receiver, e.g. adaptive shaping networks
- H04L25/03993—Noise whitening
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L25/00—Baseband systems
- H04L25/02—Details ; arrangements for supplying electrical power along data transmission lines
- H04L25/03—Shaping networks in transmitter or receiver, e.g. adaptive shaping networks
- H04L25/03006—Arrangements for removing intersymbol interference
- H04L2025/03433—Arrangements for removing intersymbol interference characterised by equaliser structure
- H04L2025/03439—Fixed structures
- H04L2025/03522—Frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Power Engineering (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
- Telephonic Communication Services (AREA)
- Noise Elimination (AREA)
- Analogue/Digital Conversion (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
Description
技術分野
本発明はデジタル信号の圧縮方法、特に、デジタル化された音声信号の縮尺可変なエンコードとデコードを行うシステムと方法に関するものである。
【0002】
背景技術
現在多くのアプリケーションでデジタル音声が扱われている。例えば、音楽コンパクトディスク(CD)、インターネットオーディオクリップ、衛星放送テレビ、デジタルビデオディスク(DVD)や(有線又は無線の)電話はデジタル音声技術を使用している。音声信号のデジタル表現は、アナログ・デジタル(A/D)変換器によって、アナログ音声信号をデジタル信号に変換して得られる。デジタル表現は次にエンコード、圧縮、記憶、伝送、使用等に供される。その後、デジタル信号は、必要に応じて、デジタル・アナログ(D/A)変換器によってアナログ信号に逆変換される。A/D変換器やD/A変換器は次ぎに示す標準周波数のうちの1つを使用してアナログ信号をサンプリングする:電話、インターネット、ビデオ会議の場合8kHz;インターネット、CD−ROMの場合11.025kHz;ビデオ会議、長距離音声放送、インターネット、将来の電話の場合16kHz;CD−ROMとインターネットの場合22.05kHz;CD−ROM、ビデオ会議、ISDNオーディオの場合32kHz;音楽CDの場合44.1kHz;およびスタジオでの楽音作成の場合48kHzである。
【0003】
変換後に音声信号をエンコード又は圧縮する場合、典型的な例では、A/D変換器によって作成されたデータビットは、通常、個々の楽音サンプルが16ビットでフォーマットされた構造である。例えば音楽CDの場合、処理前のビットレートは44.1kHz×16ビット/サンプル=705.6kbps(秒当たりのキロビット)である。電話の場合は、処理前のビットレートは8kHz×8ビット/サンプル=64kbpsである。記録容量が約700メガバイト(5600メガビット)である音楽CDの場合、処理前のビットデータを記録することができ、圧縮の必要はない。しかし、ミニディスクの記録容量は140メガバイトであり、2.5インチのミニディスクに30分から1時間の音楽を記録するためには約4:1の圧縮が必要である。
【0004】
インターネット電話やその他の多くの場合、処理前のビットレートは現在のチャンネル容量に対して過大である。したがって、高い圧縮率を有する(一般にコーダ/デコーダまたはコーデック)効率的なエンコーダ/デコーダが用いられる。例えば、インターネット電話の場合、処理前のビットレートは64kbpsであるが、望ましいチャンネルビットレートは5から10kbpsの間である。したがって、コーデックは音声信号の感知できる品質低下を最小限に抑えつつビットレートを5ないし15分の1に圧縮する必要がある。
【0005】
最近の演算チップによれば、コーデックはプログラム可能なデジタル信号処理(DSP)チップに代表される専用のハードウエアに装備することもできるし、汎用コンピュータのソフトウエアとして装備することも可能である。したがって、コーデックスは例えば、1)演算処理が複雑でなく(記録された音楽に関してはエンコードの複雑さは通常問題にならない);2)再生の忠実度が高く(品質に関する要求は適用対象によって異なる);3)信号の変化に対する耐性が高く(音声信号は明瞭な声、雑音交じりの声、複数の人の声、音楽等であり、コーデックが扱うことのできる信号の範囲は広いほど好ましい);4)遅延が少なく(電話やビデオ会議のようなリアルタイムで利用する場合);5)スケーラブルであり(サンプリングレートやチャンネル容量に対して容易に適応可能であること−特にエンコード後にスケーラブルであること、換言すれば再エンコード無しで異なるサンプリングレートやチャンネルレートに対応できること、が望ましい);そして、6)圧縮された状態で信号の編集が可能であること(コーデックが圧縮された状態での処理を許容するものであれば、あるいは少なくとも全面的なデコードと再エンコードを必要としないものであれば、複数チャンネルのミキシングのような処理、干渉低減やその他の処理を高速で行うことができる)が望ましい。
【0006】
現在、市販のシステムは非常に多数の異なるデジタルオーディオ技術を使用している。これらを例示すれば:ITU−T標準:G.711、G.726、G.722、G.728、G723.1およびG.729;その他の電話用標準;GSM、ハーフレートGSM、携帯CDMA(IS−733);ハイファイオーディオ;ドルビーAC−2とAC−3、MPEG LIIとLIII、ソニー ミニディスク;インターネット オーディオ;ACELP−Net、ドルビー ネット、ピクチャー テル サイレン、リアルオーディオ、および軍用アプリケーション;LPC−10とUSFS−1016ヴォイスコーダである。
【0007】
しかし、現在使用されているこれらのコーデックにはいくつかの限界がある。特に、現在のコーデックの演算上の複雑さは十分低いとはいえない。例えば、コーデックがOSに組み込まれている場合、コーデックはCPUをあまり占有せずに、他のアプリケーションと同時に動かせるものでなければならない。他の問題は遅延である。例えば、リアルタイムの通信を行うには、コーデックは100ms以下の遅延で完全な音声収録/再生動作を行うことができるものでなければならない。
【0008】
他の問題は、信号の変化に対する耐性である。コーデックは、明瞭な声だけでなく反響音、オフィスの騒音、電気的ノイズ、背景音楽等を含む音声や、音楽、ダイアルトーンやそれ以外の音声を取り扱えることが望ましい。同様に、現在存在するほとんどのコーデックが有する欠点は、スケーラビリティの限界、信号サンプリング周波数とチャンネルデータ速度の変化に対応できる幅が狭いことである。例えば、現在のアプリケーションの多くは複数の異なるコーデックを使用しなければならない、これは、多くのコーデックが特定のサンプリングレートの幅にのみ対応していることに原因がある。これに関連して、再コーディング無しでサンプリングレートやデータ処理速度の変化に対応できるコーデックが望まれている。
【0009】
他の問題は、複数者間における電話会議では、サーバーは種々の参加者からの音声信号を処理しなければならない点である。多くのコーデックはミキシングの前に全てのデータストリームをデコードすることを必要としている。ミキシングの前に全てのデータストリームをデコードすること無しに、エンコードされたあるいは圧縮されたままの状態でミキシングを行うことができるコーデックが望まれる。
【0010】
さらにまた別の問題は、信号の改良機能と関連したものである。例えば現在使用されている音声用パスはコーデックによる処理の前に信号改良モジュールを有することがある。例えば、ハンドフリー電話会議の場合、スピーカからの信号がマイクに拾われて人の声と干渉することが起こる。したがって、スピーカからマイクへの干渉を除去するためにエコー除去アルゴリズムが使用されるのが一般的である。それ以外の改良用の装置は自動ゲイン制御、雑音抑制装置等である。これらの改良装置はコーディング/デコーディングによる遅延にさらに遅延を追加することになる。したがって、コーデックによる遅延以外に遅延を生じさせずにこれらの信号改良を行うことができる、単純な改良プロセスを有するコーデックが必要とされている。
【0011】
コーデックに関するさらにほかの問題はビットやパケットロスに対する耐性の欠如である。ほとんどの現実的なリアルタイムアプリケーションでは、エラーの生じない通信チャンネルは存在しない。無線チャンネルは高いエラーレートを有し、場合によっては(例えばインターネットのような)パケット−接続チャンネルは大きなパケット損失を生じる。したがって、例えば圧縮されたビットストリームの5%以下の損失に対して重大な劣化を生じないコーデックが必要とされている。
上述の従来のシステムと方法はどのような利点があるにせよ、本発明の効果を奏することはできない。
【0012】
本発明の開示
先行技術が有する上記のような限界を克服するために、また本明細書を読んで理解すれば自明となるであろう限界を克服するために、本発明は新規なコーダ/デコーダ(コーデック)を有する音声信号のスケーラブルなエンコードとデコードを可能にするシステムと方法を提案する。
【0013】
本発明によるコーデックシステムは、コーダとデコーダを具備する。コーダは、変調重複変換(MLT)変換プロセッサのような複数解像度変換プロセッサ、重み付けプロセッサ、均一量子化装置、マスキング閾値スペクトルプロセッサ、エントロピーエンコーダ、およびこれらの装置から受け取った信号を単一の装置に伝達するためにマルチプレクシング(結合)を行うマルチプレクサ(MUX)のような連結装置を有する。デコーダは、エンコーダとは逆の装置、例えば、複数解像度逆変換プロセッサ、逆重み付けプロセッサ、逆均一量子化装置、逆マスキング閾値スペクトルプロセッサ、逆エントロピーエンコーダ、および逆MUXを有する。これらの要素によって、本発明は解像度切り替え、スペクトル重み付け、デジタルエンコーディングおよびパラメトリックモデリングを行うことができる。
【0014】
本発明の特徴と利点として演算の単純さを挙げることができる。本発明のコーデックがOSの中に組み込まれると、CPUを大きく利用せずに他のアプリケーションと並行実施が可能である。本発明のコーデックによって、例えば100ms未満の遅延によって完全な音声取り込み/再生システムを動作させることができ、リアルタイム通信が可能になる。本発明のコーデックは信号の変化に対して優れた耐性を有し、明瞭な声だけでなく反響音、オフィスの騒音、電気的ノイズ、背景音楽等によって品質が低下した音声と、音楽、ダイアルトーンやその他の音声を取り扱うことができる。さらに、本発明のコーデックはスケーラブルであり、幅広い範囲の信号サンプリング周波数とチャンネルデータ速度に対応することができる。さらに、本発明のコーデックは再エンコードすること無しにサンプリングレートやデータ処理レートの変更に対応する。例えば、本発明によるコーデックは全面的なデコーディングと再エンコーディング無しに32kbpsのデータストリームを16kbpsのデータストリームに変換することができる。このことによって、サーバはオーディオクリップの忠実度の高いバージョンだけを記録し、送出する際に必要に応じて変換することも可能になる。
【0015】
同様に、複数者間での電話会議に関して、本発明によるコーデックはミキシング前に全てのデータストリームをデーコードすること無しにエンコード又は圧縮されたままの状態でミキシングを可能にする。このことによってサーバが取り扱うことのできる音声データストリームの数が飛躍的に増大する。さらに、本発明に基づくコーデックは、コーデックによる遅延以外には遅延を生じずに信号改良処理を行うことによって比較的簡単に信号改良処理を実現することができる。さらに、本発明によるコーデックの他の特徴はビットロスやパケットロスに対する耐性の高さである。例えば、ほとんどの現実的なリアルタイムアプリケーションにおいて、通信チャンネルにエラーは不可避である。無線通信チャンネルは高いビットエラー率を有し、(インターネットのような)パケット−接続チャンネルは高いパケット喪失率を有するが、本発明によるコーデックは圧縮されたビットストリームの損失が5%未満であれば信号の劣化を小さく抑えることができる。
【0016】
添付の図面を参照して以下の段落において行う本発明の詳細な説明によって、本発明の上述の特徴および上述以外の長所と本発明のより完全な理解が得られるはずである。図面全体を通じて同一の参照番号は同じ部分を示す。
【0017】
本発明を実施するための最善の形態
本発明に関する以下の記載においては、本発明の実施態様を例示するために具体例を示した、発明の記述の一部をなす図面を参照する。本発明の範囲を逸脱することなく記載以外の実施態様を利用することも可能であり、構造の変更も可能であることを理解しておくことが必要である。
【0018】
導入部
現在の音声コーディング標準の多くでは、32kbps以上のビットレートでサンプル当り2ビット以上に対応する変換又はサブバンドコーダが使用されている。上記以下のビットレートでは、1ビット/サンプルのデータが電話会議用のG.729やG.723.1音声コードで使用されている。このようなコーデックは陽関数表現されたスピーチプロダクションモデルに依存しており、したがって、この性能は、複数のスピーカ、雑音の多い環境や特に音楽信号の存在によって急速に低下する。
【0019】
高速のモデムが使用できるようになったために、多くのアプリケーションが狭帯域(バンド幅3.4kHz)音声の8−12kbpsに対応しており、より忠実度の高い素材に対してはよりビットレートの高いものにも対応することになるであろう。このことは、コーダが例えばG.729と同程度以上の信号変化に対して耐性を要求されることを意味する。
【0020】
本発明は、1ビット/サンプル(つまり8kHzのサンプリング時に8kbps)という低いレートであっても十分な品質で動作することのできる変換コーダ/デコーダシステムである。明瞭な声に対する性能を向上させるために、パラメトリックモデル化を用いたスペクトル重み付けと連続長とエントロピーコーダを使用する。その結果、声による話の周期的スペクトル構造のエンコード性能が改善される。
【0021】
本発明によって、話し声を含む擬回帰的信号に対する性能が改善される。量子化テーブルは元のいくつかのパラメータに基づいて算出され、量子化テーブルの記憶のための容量を増大させることなく適用範囲を拡大することができる。過渡信号に対する性能を改善するために、本発明は入力ウインドウ切り替えのない不均一変調重複二直交変換を使用する。実験結果によれば、本発明はサンプルごとにほぼ1ビットのレートである高品質信号の再生、サンプルごとに2ビットの擬透明再生、サンプルごとに3ビット以上の完全透明再生に使用可能であることが示された。
【0022】
作動環境の例
図1と以下の記述は本発明を適用するのに一般的に好適なコンピュータ環境を簡単に説明したものである。特に必要というわけではないが、本発明を、パーソナルコンピュータによって実行可能なプログラムモジュールのようなコンピュータが実行することのできる命令の一般的な形で記述することにする。一般的に、プログラムモジュールには特定の処理を実行するか特定の抽象的なデータ形式に関するルーチン、プログラム、オブジェクト、コンポーネント、データ構成等が含まれる。さらに、当業者であれば、本発明は、ハンドヘルド装置、マルチプロセッサシステム、マイクロプロセッサを用いた又はプログラム可能な消費者用の電子機器、ネットワークパーソナルコンピュータ、ミニコンピュータ、汎用大型コンピュータ等のような前記以外のコンピュータによって実施できることも理解することができる。作動環境はまた、通信ネットワークで接続された、リモート処理装置によって処理を実行する分散型のコンピュータ環境であってもよい。分散型のコンピュータ環境の場合には、プログラムモジュールは中央と遠隔記憶装置の両方に存在してもよい。
【0023】
図1によれば、本発明を実行するために例示したシステムは、処理ユニット102、システム記憶装置104、システム記憶装置104を含む多くのシステムの構成要素を演算装置102に接続するシステムバス106を具備した通常のパーソナルコンピュータ100の形態をした汎用コンピュータ装置を含むものである。システムバス106は、バス構造として存在する多くの構造の何れかを用いたメモリバスやメモリコントローラ、周辺バス、ローカルバスのいずれであってもよい。システム記憶装置は、読み出し専用記憶装置(ROM)110やランダムアクセスメモリ(RAM)112を含む。立ち上げ時等においてパーソナルコンピュータ100を構成する多くの構成要素間で情報を交換するために必要な基本ルーチンを含む基本入出力システム114(BIOS)はROM110のなかに記憶されている。パーソナルコンピュータ100はさらに図示されていない読み出しと書き込みのためのハードディスク装置116、着脱可能な磁気ディスク120に対して書き込みと読み出しを行う磁気ディスク装置118、CDROMやその他の光磁気媒体からなる着脱可能な光磁気ディスク124に対して読み出しと書き込みを行う光ディスク装置122を具備する。ハードディスク装置116、磁気ディスク装置128と光磁気ディスク装置122は、それぞれハードディスク装置のインターフェース126、磁気ディスク装置のインターフェース128と光磁気ディスク装置のインターフェース130を通じてシステムバス106に接続されている。これらの装置とそれぞれに対応するコンピュータによって読み出し可能な媒体はコンピュータが読み出すことのできる命令、データ構成、プログラムモジュールおよびその他のデータの不揮発性記憶媒体をコンピュータ100に提供する。例示した動作環境にはハードディスク、着脱可能な磁気ディスク120と着脱可能な光磁気ディスク130が使用されているが、当業者であれば、磁気カセット、フラッシュメモリカード、デジタルビデオディスク、ベルヌーイカートリッジ、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)等のようなコンピュータによって読み出し可能でデータを記憶することができる媒体が使用されてもよいことが理解できる。
【0024】
オペレーティングシステム132、アプリケーションプログラム134、その他のプログラムモジュール136やプログラムデータ138を含む多くのプログラムモジュールがハードディスク、磁気ディスク120、光磁気ディスク124、ROM110やRAM112に記憶されている。利用者は、キーボード140やポイントディバイス142を使ってパーソナルコンピュータ100に命令や情報を入力することができる。その他の入力装置(図示しない)としては、マイク、ジョイスティック、ゲームパッド、サテライトディッシュ、スキャナのようなものが含まれる。これらの入力装置はしばしばシステムバス106につながったシリアルポートインターフェース144を介して演算ユニット102に接続されているが、パラレルポート、ゲームポートやユニバーサルシリアルバス(USB)を介して接続されていてもよい。モニタ146又はその他の表示装置もビデオアダプタ148のようなインターフェースを介してパーソナルコンピュータに接続されている。モニタ146以外にも、パーソナルコンピュータはスピーカやプリンタのようなその他の周辺出力機器(図示しない)を含む。
【0025】
パーソナルコンピュータ100は、リモートコンピュータ150のように、他の1つ以上のコンピュータに論理接続を利用して接続されたネットワーク環境で作動するものであってもよい。リモートコンピュータ150は、図1には記憶装置152だけを示してあるが、他のパーソナルコンピュータ、サーバ、ルータ、ネットワークパーソナルコンピュータ、ピア装置や他のネットワークノード、一般的にパーソナルコンピュータに関連してすでに述べた装置の1つ又は複数のものであってもよい。図1に示した論理接続はローカルエリアネットワーク(LAN)154やワイドエリアネットワーク(WAN)156を含む。このようなネットワーク環境は事務所、企業内コンピュータネットワーク、イントラネットおよびインターネットにおいて一般的なものである。
【0026】
LAN環境で使用する場合、パーソナルコンピュータ100はネットワークインターフェース化アダプタ158を介してローカルネットワーク154に接続される。WAN環境で使用する場合、パーソナルコンピュータ100は、インターネットのような広範囲のネットワーク156との通信を可能にするモデム160かその他の手段を有するのが一般的である。内部装置であるか外部装置であるかにかかわらず、モデム160は、シリアルポートインターフェース144を経由してシステムバス106に接続されている。ネットワーク接続された環境では、パーソナルコンピュータ100に関連して表現されたプログラムモジュール又はその一部は、遠隔記憶装置に記憶されたものであってもよい。例示したネットワーク接続は一例であり、コンピュータとの接続を達成するためには他の方法であってもよいことが理解されるはずである。
【0027】
概観
図2は本発明に基づいて音声信号のエンコードとデコードを行うシステムと方法を示すブロック/フロー図である。第1に、音源のアナログ音声入力信号を受け取ってアナログ・デジタル(A/D)変換器210で処理する。A/D変換器210は変換前のデータビットを作成する。変換前のデータビットはデジタルコーダ212に送られ、本発明に従ってエンコードされたビットストリームが作成される(コーダの詳細な説明は後に行う)。エンコードされたビットストリームは使用され、記録され、伝達等が行われた(ボックス214)後に、デジタルデコーダ216に送られ処理されてオリジナルな処理前のデータビットが作成される。デジタル・アナログ(D/A)変換器218は変換前のデータビットを受けて変換して音声信号を出力する。作成された出力音声信号は入力された音声信号と実質的に一致している。
【0028】
図3は、本発明に従って音声信号をコーディングするシステムの構成を示したブロック図である。本発明にかかるコーダ300(図2におけるコーダ212)は、複数解像度に対応する変換プロセッサ310、重み付けプロセッサ312、均一量子化手段314、マスキング閾値スペクトルプロセッサ316、エンコーダ318および通信装置320を有する。
【0029】
前記複数解像度に対応する変換プロセッサ310は、2つの解像度で変調された重複変換(MLT)変換プロセッサであるのが好ましい。変換プロセッサは、元の信号を受けてこの元の信号から変換係数を作成する。重み付けプロセッサ312とマスキング閾値スペクトルプロセッサ316はスペクトルの重み付けを行い、可能な限り多くの量子化ノイズについて部分的なホワイトニングを行う。均一量子化手段314は連続値を離散値に変換する。エンコーダ318は、変換係数をエンコードするエントロピーエンコーダであるのが好ましい。通信装置320は前記の装置から受け取った信号のマルチプレクシング(結合)を行い単一の装置に出力するマルチプレクサ(MUX)であるのが望ましい。
【0030】
(図示しない)デコーダはコーダ300の逆の要素、つまり複数解像度の逆変換プロセッサ(図示しない)、逆重み付けプロセッサ(図示しない)、逆均一量子化手段(図示しない)、逆マスキング閾値スペクトルプロセッサ(図示しない)、逆エンコーダ(図示しない)および逆MUX(図示しない)を具備する。
【0031】
要素の概観
図4は、本発明に従って音声信号をエンコードする方法の全体を示すフロー図である。処理の詳細は図7から16を参照して説明する。一般的に、第1に、MLT演算を行って(ボックス400)変換係数を作成し、次に変更されたMLT係数によって(ボックス410)解像度切り替え(ボックス405)を行う。解像度切り替えは過渡信号に対する性能を向上させるために行う。
【0032】
第2に、a)下で記述する(ボックス414)本発明に基づく聴覚マスキング技術を用いて変換係数の重み付けを行い;b)簡略化されたバーク閾値スペクトルを算出し(ボックス416);c)重み付け関数の部分的なホワイトニングを行い(ボックス418);d)スカラー量子化を行って(ボックス420)スペクトル重み付けを行う(ボックス412)。本発明においてスペクトルのホワイトニングは可能な限り多くの量子化ノイズを除去するために行うものである。目的は、完全に透明な信号に可能な限り近い信号を再構成することである。
【0033】
第3に、量子化された係数をエントロピーコーディング(ボックス426)するためのエントロピーエンコーダのようなエンコーダで使用される確率分布モデルの作成(ボックス424)と次に量子化ステップの最適化のために2値化サーチを行って(ボックス428)、エンコードとパラメトリックモデル化を行う(ボックス422)。スカラー量子化(ボックス420)は浮動小数点の係数を、離散値の組の中で最も近い値である量子化係数に変換する。離散値相互の距離がステップサイズに相当する。エントロピーコーディングとパラメトリックモデル化は特に明瞭な会話条件での性能を改善する。エントロピーエンコーディングはメッセージの中のシンボルで表現されメッセージを作成する際に使用した確率モデル(パラメトリックモデル化)の関数である。モデルがメッセージを小さくするようもとのメッセージに含まれた音源シンボル分布をより良く反映するために、モデルの複雑さが増大している。この技術によって人の話し声の周期的なスペクトル構造のエンコード性能が向上する。
【0034】
図5は、本発明に基づく音声信号コーディングシステムの全体を表すブロック/フロー図である。図6は、本発明に基づく音声信号でコーディングシステムの全体を表すブロック/フロー図である。一般に、入力信号x(n)の重複したブロックは、不均一変換されて直交変換(NMLBT)510を通じてコーダ500によって周波数領域に変換される。NMLBT510は、基本的に異なる分解と合成ウインドウを有し、時間軸における解像度を改善するために高周波数サブバンドの組み合わせを行う変調重複変換(MLT)である。信号のスペクトルによっては、高周波数サブバンドの結合スイッチのオン、オフが切り替えられ、図6に示したデコーダにサイド情報として1ビットフラグが送られる。以下において詳細に述べるように、NMLBT分解と合成ウインドウは変更されていない。
【0035】
変換係数X(k)は図5に示したように均一量子化装置512によって量子化される。均一量子化装置512は、その出力を例えば連続長とタンストール(Tunstall)エンコーダ514(以下に詳細に記述する)によってエントロピーコードすれば、レートとひずみに関しては最適なものに非常に近いものになる。ベクトル量子化(VQ)を用いてもよいが、エントロピーエンコーダに比較してゲインは劣る。構成を単純化するためにツインVQやその他の構造を有するVQを使用することも可能であるが、これらもスカラー量子化に比較すれば非常に複雑である。
【0036】
所定のビットレートでひずみを最小にする最適なレートの設定方法は、ホワイト量子化ノイズを発生させるのに、サブバンド/変換係数に同じステップサイズを用いるものである。これは、信号対雑音比(SNR)を最大にすることになるが、聞き取りやすさを最高にするものではない。重み付け関数の算出516は、サブバンドの数をMとしてk=0,1,・・・M−1への量子化に先立ってX(k)をX(k)/w(k)で置き換える、ここで通常、Mの2乗は256と1024の間である。図6に示したデコーダでは、再構成された変換係数X(k)←X(k)w(k)が重み付けされる。したがって、量子化ノイズは重み付け関数w(k)で規定されるスペクトルに従う。以下の段落で、w(k)の算出について詳細に説明する。量子化された変換係数は、エントロピーコーダ514によってエントロピーコード化される。パラメトリックモデル化を行い、その結果はエントリピーコーダ514の効率を高めるためにエントリピーコーダ514で使用される。同様に、ステップサイズを調整するためにステップ調節518が行われる。
【0037】
図6に示すデコーダの動作は図5から推定することができる。量子化された変換係数に対応するエンコードされたビットのほかに、図6に示したデコーダは、逆NMLBTのためのエントロピーでコーディングテーブル、量子化ステップサイズ、重み付け関数w(k)および単一/マルチ解像度フラッグを決定するために図5に示した追加の情報が必要である。
【0038】
構成要素の詳細と動作
前出の図5と図3によれば、入力された音声信号は連続変換プロセッサのような変換プロセッサによって周波数成分に分解される。これは、他にもディスクリート余弦変換器(DCTやDCT−IV)にような周波数領域への信号の分解に有効な装置では有るが、人工的な障害を発生させる欠点を有するからである。例えば、変換係数X(k)はDCTやDCT−IV変換プロセッサによってある程度望ましい形で処理することができる:量子化、フィルタリング、雑音低減等。
【0039】
上述のように修正された係数の逆変換を行うことで再構成された信号ブロックが得られる。このように再構成された信号ブロックを張り合わせて再構成信号(すなわちデコードされた音声又はビデオ信号)を構成すると、ブロックの境界では不連続が発生する。これに対して、変調重複変換(MLT)は基本関数をブロックサイズの2倍に、つまり2Mに延長することによってこのような不連続の発生を抑えている。図7は本発明に基づく変調重複変換を示すフロー図である。
【0040】
MLTの基本関数は、DCT−IV関数を延長して、
【数1】
で表される適当なウインドウを掛けることによって得られる。ここで、kは0からM−1の間で変化し、nは0から2M−1の間で変化する。
【0041】
このように、MLTは直交または二直交ベースに帰着し、ウインドウを掛けた重複する余弦関数の重ね合わせのように短時間で信号の周波数分解を行うことができるのでMLTを使用することが好適である。この種の関数は、DCTやDCT−IVに比べて信号の部分的な周波数分解に、より効果的な手段である。MLTは余弦変調フィルターバンクの特殊な形態であり、完全な再構成を可能にするものである。例えば、MLT係数に基づいて信号を完全に再生することが可能である。同様に、MLTはブロック障害を生じさせない、つまり、MLTによる再生信号は、境界部分において滑らかにゼロに収束する信号となり、ブロック境界での不連続を発生させない。さらに、MLTは、広い範囲の信号の変換コーディングの速度/歪に関してほとんど最適な性能を有する。
【0042】
具体的には、MLTは奇数重ね合わせ時間領域折り返しチャンセル(TDAC)フィルタバンクに基づくものである。一般に、入力信号X(n)の(入力信号の最後のM個のサンプルをシフトさせてその前に得られたM個のサンプルと組み合わせることによって得られる)2M個のサンプリングデータn=0,1,2,・・・2M−1からなるベクトルの変換によってM個の係数X(k),k=0,1,2,・・・M−1からなる他のベクトルに変換される。変換は標準MLT演算によって以下のように定義される:
【数2】
ここで、h(n)はMLTウインドウである。
【0043】
ウインドウ関数は基本的にブロッキング効果を低減するために使用するものである。例えば、参照してここにその開示を取り込む、H.S.Malvarによる重複変換による信号処理(Signal Processing with Lapped Transforms)、ボストン:アーテックハウス、1992年は、滑らかなウインドウ変換子の余弦変調によってそのベースを得ることを示している。ここで滑らかなウインドウ変換子は:
【数3】
で表される。ここで、pa(n,k)とps(n,k)は直接(分解)および逆(合成)変換のための基本関数であり、ha(n)とhs(n)とはそれぞれ分解と合成のウインドウである。時間を表す指標nは、0から2M−1まで変化し、周波数を表す指標kは0からM−1まで変化する。ここで、Mはブロックの大きさである。MLTはウインドウズがDCに最も集中するような重複変換を発生させるTDACであり、以下で表される。
【数4】
直接変換マトリックスPaは、n行、k列のPa(n,k)である。同様に,逆変換マトリックスはPsは、n行、k列のPs(n,k)である。入力されるx(n)のサンプル数が2MであるブロックXに関して,対応する変換係数のベクトルXはx=PTaxで算出することができる。処理された変換係数のベクトルYに関しては,再構成されたサンプル数2Mのベクトルyはy=PsYで与えられる。再構成されたyベクトルは,Mサンプルが重複するように重ね合わせられ、再構成された信号y(n)が作成される。
【0044】
MLTはDCT−IVと比較することができる。信号u(n)に関しては,長さがMの直交DCT−IVは以下のように定義される。
【数5】
DCT−IVのベースとなる余弦関数の周波数は、MLTの周波数同様(k+1/2)π/Mである。従って、2つの変換の間には簡単な関係式が成り立つ。例えば、MLT係数がX(k)である信号X(n)に関しては、u(n)がx(n)に関連していれば、n=0,1,・・・M/2−1に関して、X(k)=U(k)であることが、以下のように示される:
【数6】
ここでΔM{・}はMサンプル(1ブロック)遅延装置である。説明のために、DCT−IVと上の式を組み合わせて、標準DCT−IVからMLTを算出することができる。例えば、Y(k)=X(k)であれば、つまり、変換係数(またはサブバンド信号)の修正が無ければ、直接及び逆MLT処理された信号をカスケード結合してy(n)=x(n−2M)が得られる。ここで、Mサンプル分の遅延はブロッキングオペレータに起因し、他のMサンプル分の遅延はMLTの内部重複オペレータ(z−Mオペレータ)に起因する。
【0045】
変調重複二直交変換
本発明においては、実際には変調重複二直交変換(MLBT)を使用するのが望ましい。図7は、本発明の変調重複二直交変換を示すフロー図である。MLBTは変調重複変換(MLT)の一変形である。MLTと同様、MLBTのウインドウはブロックサイズの2倍であり、最大コーディングゲインをもたらすが、ウインドウの形状は本来のMLTのウインドウの形状とは若干異なる。数式1に示した二直交MLTを作成するには、分解用と合成用のウインドウが同一でなければならないという制限を緩和する必要がある。合成ウインドウが対称形であると仮定し、数式1に二直交条件をあてはめると、数式1から、もし分解用ウインドウが、
【数7】
とha(n)=ha(2M−1−n)
の条件を満足すれば、変調重複二直交変換(MLBT)になる。
【0046】
ウインドウズを変換コーディング利得が最大になるように最適化することができ、その場合は最適化されたウインドウは数式2に示したMLTウインドウに収束する。このことによって、MBLTは合成ベース関数応答の周波数選択性を改善し、均一でないMLTを取り扱ってブロック合成への使用(以下に詳細に述べる)が可能になる。MLBTは数式1に記載された重複変換を合成ウインドウ
【数8】
と数式4によって定義される分解ウインドウによって変調した変調重複変換として定義することができる。
【0047】
パラメータαは主としてウインドウの幅を制御し、β両端部の値を制御する。MLTに対してMLBTが優れている主な点は、分解関数におけるストップバンド減衰の低下という代償を払って合成関数のストップバンド減衰を増加させた点である。
【0048】
NMLBTと解像と切り替え
典型的な変換コーダのサブバンド数Mは適切な周波数解像度が得られるように十分大きな数で無ければならず、通常はブロックサイズが20〜80ms程度になる。この結果、過渡信号に対する応答は不十分となり、前エコーを含むノイズパターンがブロック長を通じて残ることになる。このような信号においては、詳細な周波数改造が必要なわけではないので、このような音声に対してはMを小さくすることが問題の解決になる。変調重複変換のブロック長を切り替えることは困難ではないが、エンコードに起因する遅延をさらに増大させる可能性がある。別の方法は、階層的変換又は離散波形に類似したツリー構造のフィルタバンクを使用することである。そのような分解によって、高周波数のサブバンドに対してはブロックサイズが小さく低周波数のサブバンドに対してはブロックサイズが大きな新しい不均一サブバンド構造が得られる。階層的(またはカスケード構造の)変換はブロック全域に渡って完全な時間領域選択性を有するが、周波数領域の分解能は不十分である。例えば、QMFフィルタバンクの次にサブバンドに対してMLTを使用すると、QMF過渡バンド近傍のサブバンドのストップバンドリジェクションは10dB程度と低くなり、ツリー構造の変換でも同様である。
【0049】
MLT/MLTBTの大きな派生物を低減するための新たな不均一変換構造を作成する上記以外の、かつ、より好ましい方法は、時間−周波数解像度を変更することによって達成することができる。変換の時間−周波数解像度を変更することは変換係数の組に対して新たな変換演算子を適用して、特定の不均一MLBT(NMLBT)を発生する新たな変換係数の組を作成することによって行われる。図7は、本発明に基づく不均一変調重複二直交変換を示す図である。
【0050】
図8は、本発明に基づく不均一変調重複二直交変換の作用を示した図である。詳細に述べれば、不均一MBLTはサブバンド係数X(k)と、インパルス応答の時間長が短いフィルタを有する新たなサブバンドを組み合わせることによって作成される。一例を挙げれば:
【数9】
である。ここで、中心周波数が(2r+1/2)π/Mと(2r+3/2)π/Mであるサブバンド信号X(2r)とX(2r+1)を組み合わせて新たな2つのサブバンド信号X’(2r)とX’(2r+1)を作成する。新たに作成されたサブバンド信号は共に中心周波数が(r+1)π/Mで有るが、一方のインパルス応答の中心はブロックの左側にあり他方のインパルス応答の中心はブロックの右側にある。従って、時間領域の解像度を向上させるために周波数領域の解像度が犠牲になっている。図9は、不均一変調重複二直交変換合成ベース関数の一例を示す。
【0051】
変換係数を組み合わせる解像度切り替えによるこの方法の主要な利点は、時間解像度が狭い新たなサブバンド信号が入力信号のMLTを算出した後に算出できることである。従って、MLTウインドウ関数又はブロックサイズMを切り替える必要は無い。この手法はまた、サブバンド合成装置の前に、ノイズ低減装置エコーキャンセラ等の信号改善装置を元の変換/サブバンド係数に作用させることを許容する。このことによってコーデックに前記のような信号改善装置を有効に組み合わせることが可能になる。
【0052】
他の好ましい方法としては、時間領域での解像度が4倍になっていれば、より好ましい結果が得られる。このことは、サブバンドフィルタのインパルス応答の有効幅が、
【数10】
で表される条件の下で、ブロック幅の4分の1であることに帰着する。ここで特に好ましいパラメータは、a=0.5412、b=(1/2)1/2、r=M0,M0+1,・・・,代表的なM0はM/16である(つまり切り替えの解像度はサブバンドの75%に対して、周波数0.25πからπまでについて適用される)。図10と11は本発明の構造に対応する合成ベース関数をプロットして示したものである。時間分離は完全ではないが、過渡信号に関して誤差の拡散が抑制されていることが示されている。
【0053】
上記のサブバンド組み合わせマトリックスの自動切換えは、エンコーダにおいてブロック波形を解析することによって行うことができる。ブロック内でパワーレベルが大きく変化するなら、組み合わせマトリックスがスタートする。切り替えフラグがサイド情報としてレシーバに送られ、MLT係数を回復させるために4×4の逆演算子を使用することができるようになる。他の切り替え方法は、MLT係数X(k)内に対するパワー分布を解析し高周波数領域にノイズ状のパターンが検出されれば組み合わせマトリックスの使用を開始する方法である。
【0054】
図12は、本発明に基づいて解像度の切り替えを行う好ましいシステムと方法を示した図である。図12に示されているように、解像度の切り替えはブロックごとに決定され、1ビットのサイド情報がスイッチがONかOFFかを示すためにデコーダに送られる。好ましい実施態様では、ブロックに対する高周波成分のエネルギーが低周波成分のエネルギーよりも所定の閾値幅以上大きければスイッチをONにする。基本的に、エンコーダは信号の高周波数と低周波数のパワー測定を行って解像度スイッチの切り替えを行うものである。図12に示されているように、もし高周波数のパワー(PH)が低周波数のパワー(PL)に対する比が所定の閾値以上であれば、ステップ2に示されたサブバンド組み合わせマトリックスが適用される。
【0055】
スペクトル重み付け
図13は、本発明に基づいて、部分的にホワイトニングを伴う重み付け関数の演算を行うシステムと方法を示すフロー図である。図13と共に既出の図3及び図5を参照すれば、スペクトル重み付けを行う方法が簡単に示されている。本発明に基づくスペクトル重み付けは量子化ノイズを可能な限りマスクするように行われる。目的は完全な透明性を有する信号、つまり元の信号と判別できないほどのデコード信号を作成することである。この目的は変換係数を人間の聴覚特性を考慮したマスキング特性を有する関数w(k)によって変換係数に重み付けを行うことによって達成することができる。このような重み付けは、量子化ノイズを人の耳で聞き取られる程度を最小にすることによって量子化ノイズをマスクする。また、通常使用されている時間のかかる重畳演算を採用しないことによって聴覚重み付け関数の演算が簡素化されている。
【0056】
重み付け関数w(k)は、与えられた入力のスペクトル{X(k)}に対して聴覚マスキング閾値曲線に従うのが理想的である。マスキング閾値はバークスケールで算出されるのが望ましい。バークスケールとは、人の耳の臨界バンドを近似する擬対数スケールである。コーディングレートが高い場合、つまりサンプルごとに3ビットである場合、得られる量子化ノイズは全てのバークサブバンドにわたって量子化閾値よりも低い値となって完全に透明性のある再構成を行うことができる。しかし、コーディングレートが低い場合、例えば1ビット/サンプルの場合、全ての量子化ノイズをマスキング閾値以下にすることは困難である。この場合、低周波数のマスクされていないノイズは通常一層不具合なので、量子化ノイズがすべてのサブバンドについて量子化ノイズがマスキング閾値を同じデシベル(dB)だけ高くなるようなことは避けるのが好ましい。これは、もとの重み付け関数w(k)を、新たな件数w(k)αで置き換えることによって実現される。ここで、αは重み付け関数を部分的にホワイト化するための、一般には1未満の値である。
【0057】
一般に、図3、4、5及び図13に示されているように、図13は聴覚閾値曲線を算出するための、ステップサイズを算出する際に部分的なホワイトニングを行う単純化された演算を示すものである。図13は、図3におけるボックス312と316、図4におけるボックス414、416と418、図5におけるボックス516の詳細なブロック図である。図13に示されているように、MLT演算とNMLBT変更の後、変換係数X(k)はまず2乗化モジュールが受け取って変換係数の2乗計算を行う(ボックス1310)。次に、閾値モジュールがバークスペクトル閾値を算出し(ボックス1312)、これはスプレッドモジュールがバーク閾値拡散(1314)を行って聴覚閾値を求めるために使用する。調整モジュールが次に聴覚閾値を絶対閾値に調整して、理想的な重み付け関数を作成する(1316)。最後に、部分的なホワイトニングが行われて重み付け関数がα乗されて最終的な重み付け関数が得られる(ボックス1318)。
【0058】
具体的には、2乗化モジュールは、i番目のバンドの即時パワーP(i)を作成して、これを閾値モジュールが受け取ってマスキング閾値WMT(k)の計算に使用する(図13ではボックス1310で示される)。これはまずバークスペクトルの上限周波数Bh(i)、i=1,2,・・・,25を定義して(このためには一般的な数学的装置が使用できる)バークサブバンドの上の周波数をHz表現で:
Bh=「100 200 300 400 510 630 770 920 1080 1270 1480 1720 2000」;
Bh=「Bh 2320 2700 3150 3700 4400 5300 6400 7700 9500 12000 15500 22200」とすることによって達成される。
【0059】
次に,i番目のバークスペクトルのパワーPas(i)が、i番目のバークバンド内にある全てのサブバンドの信号のパワーを平均することによって算出される。バンド内のマスキング閾値Tr(i)、Tr(i)=Pas(i)−Rfac(全てデシベルdB表記)が算出される。好ましくは7dBにセットされるパラメータRfacは、バンド内のマスキング閾値レベルを決定する。これはバークパワースペクトルとバーク中央閾値を求める数学的な繰り返し処理によって達成することができる。
【0060】
図13のボックス1314に示されているように、単純化されたバーク閾値スペクトルが算出される。図14は、本発明に基づく簡素化されたバーク閾値の算出を示すものである。「拡幅されたバーク閾値」は好ましくは臨界バンドにわたる平行マスキングを考慮して算出するのが望ましい。つまり、マトリックス演算子を使用して完全な重畳演算を行う代わりに、前記の方法で提案されているように、本発明は、全てのバーク閾値と三角形の減衰を取り込んで作成した最大閾値曲線を使用する。具体的には、まず、臨界バンドにわたる並行マスキングを考慮して拡幅されたバーク閾値を算出する。例えば、マトリックス演算期によって全重畳演算を行う代わりに、前の方法で提案されているように、本発明は単に全てのバーク閾値と三角形の減衰を取り込んで作成した最大閾値曲線を使用する。三角減衰は左側(低周波数の方向)については−25dB/バーク、右側(高周波数の方向)については10dB/バークである。バークスペクトルの拡幅に関するこの発明の方法は、複雑性O(Lsb)、ここでLsbは信号のバンド幅でカバーされるバークサブバンドの数、であり従来の方法は典型的にはO(Lsb2)の複雑さを有する。
【0061】
図13のボックス1316に示されているように、聴覚閾値は次に拡幅されたバーク閾値を絶対フレッチャー−マンソン閾値と比較してそれらのうちの高いほうを採用することで、全てのサブバンドについて調節される。これは例えば、絶対マスキングを考慮した閾値に調節する単純な手順によって行うことができる。一つの手順では、(ブロックごとに25までの)
閾値のベクトルが代表的には2.5dBにセットされている予め設定された正確性のレベルに従って量子化され、閾値に対して2ないし4ビットでエンコードされる。
【0062】
図13のボックス1318に示したレートの低いつまり1ビット/サンプルの重み付け関数の部分的ホワイトニングに関しては、全ての量子化ノイズをマスキング閾値末満にすることは不可能である。この場合には、低周波数のマスクされていないノイズは通常高い周波数のものよりも不具合なのですべのサブバンドについて量子化ノイズをマスキング閾値に対して同じデシベルだけ高くすることは望ましくない。したがって、上記の手順によって算出された重み付けがWMT(k)であるとすると、本発明のコーダが使用する最終的な重み付けの値は、
【数11】
となる。ここで、αはレートが低いときは0.5でレートが高いときは1となるように変化する値であり、好ましくはマスキング閾値の部分的なパワーが用いられる。従来の知覚的コーダでは、ビットレートが減少すると全ての周波数にわたって量子化ノイズがマスキング閾値以上に高くなっていた。これに対して本発明の場合には、部分ホワイトニングパラメータαを、例えば、ゼロと1の間の値に(好ましくはα=0.5)セットすることができる。このことによって本来ノイズスペクトルが小さい周波数のノイズスペクトルを一層高くすることができる。換言すれば、α<1であれば、ノイズスペクトルのピークを減衰させることができる。
【0063】
次に、w(k)を表すサイド情報の量ははサンプリング周波数fsに依存する。例えば、fsが8kHzの場合、およそ17個のバークスペクトル値が必要で、fsが44.1kHzの場合には25のバークスペクトルが必要である。バーク周波数バンド当り−10dBで高周波数のサブバンドにバンド間の拡散を行いエンコードの差分精度が2.5dBに相当すると仮定すると、バーク係数あたり3ビットが必要になる。重み付けをされた変換係数はスカラー量子化装置を用いて量子化(連続値から離散値への変換)することができる。
【0064】
具体的には、スカラー量子化装置に関しては、最終的な重み付け関数w(k)が最も感知し難い量子化ノイズの形状を決定することになる。従って、サブバンド周波数の係数X(k)はw(k)に比例する大きさのステップサイズによって量子化されなければならない。等価な処理は、重み付け関数によって全てのX(k)を割って、全ての係数X(k)について同じステップサイズを有する均一量子化を行うことである。代表例としては以下の処理である:
Xr = Round(X/dt); %量子化
Xqr= (Xr+Rqnoise)*dt; %スケールバック、擬似定常ノイズを加える。ここでdtは量子化のステップの大きさである。ベクトルRqnoiseは{−γ、γ}の間に等しく分布する擬似ランダム変数から構成される。Rは量子化のステップサイズdtの0。1から0.5倍の間で選択されるパラメータである。再構成された係数にこの小さなノイズを加えると、失われたスペクトル成分に起因する派生物を小さくすることができる。この手法は、ディザ、擬ランダム量子化又はノイズフィリングと呼ばれている。
【0065】
エンコード
情報理論における従来の離散値コーディングの問題は、ソースからのシンボルを最も節約したコードで表現することに関するものであった。例えば、ソースが時間間隔iごとにシンボルsiを発生させ、シンボルsiはアルファベットZに属するものと仮定する。また、シンボルsiは統計的に独立であって、確率分布Prob{si=zn}、n=0,1,・・・,N−1、Nはアルファベットのサイズつまり可能なシンボルの個数であると仮定する。この前提の上で、コードを設計する問題は、通常はビットであるチャンネルシンボルによってシンボルの表現を見出すことである。
【0066】
下の表に示したように、それぞれの可能性があるシンボルの値znに対してMビットのパターンをあてはめるために単純コードを使用することができる:
【表1】
この場合、シンボルあたりにコードはM個使用される。唯一のコードを対応させるにはMはLog2(N)以上であることが必要出ることは明らかである。
【0067】
一層好ましいコードはそれぞれのソースシンボルに可変長のコード化されたワードを対応させることである。より可能性の高いシンボルに対してはより短いコード化されたワードを対応させ;可能性の低いものに対して長いコード化されたワード長のものを対応させる。例えば、ソースがアルファベットZ={a,b,c,d}からなり,確率はpa=1/2、pb=pc=pd=1/6であるとする。このソースに対して使用することができる可変長コードの例は以下のようになる。
【表2】
【0068】
メッセージが長い場合、コード長Lの期待値は、シンボルあたりのビット数としてL=Σpnlnで与えられる。ここで、lnはコードシンボルznの長さである。これは2ビット/シンボルが必要な単純2値コードのコード長よりも優れている。
【0069】
上述の例では、コードワードは良く知られているハフマンのアルゴリズムを用いて作成した。結果として使用されるコードワードは当該ソースに対するハフマンコードとして知られている。ハフマンコードは、可能な全ての可変長コードの中で期待されるコード長Lを最も短くするという意味において最適なものである。エントロピーはソースの本質的な情報を測定する基準である。エントロピーはシンボルごとのビットに基づいてE=−Σpnlog2(pn)によって求めることができる。コーディング理論によれば、全てのコードに対するコード長の期待値は、ソースのエントロピー以下になることはできない。上に例示したソースの場合、エントロピーは、シンボル当り、E=−(1/2)log2(1/2)−(1/2)log2(1/6)=1.793ビットである。ハフマンコード長は最適地に非常に近いことが理解される。
【0070】
他に可能なコード化手法は、一連のソースシンボルに対して固定長のコードワードを対応させる方法である。一連のソースシンボルの長さは可変であり、コードの効率は頻繁に登場する長い一連のソースシンボルが1つのコードワードで置換される点にある。下の表に一例を示す。このコードの場合は、コードワードは常に4ビットの長さであるが、長さの異なる一連のソースシンボルを表現するために使用される。一連のソースシンボルの長さの平均値Canはテーブルに記載した確率に基づいて簡単に計算することができ、K=25/12=2.083である。これらの一連のソースシンボルが4ビットで表現されているので、ビットレートは4×12/25=1.92ビット/シンボルである。
【表3】
【0071】
上述の例では、それぞれのコードワードに割り当てられるべき一連のソースシンボルの選択(一連のソースシンボル表)は、B.P.Tunstallによる「ノイズを含まない圧縮コードの合成」”Synthesis of noiseless compression codes”、ジョージア州アトランタ、ジョージア工科大学博士論文に記載された方法によった.この表に記載されたコードはタンストールコードと呼ばれる.タンストールコードは、全ての固定長及び可変長のコードの中でコード長Lの期待値を最小にする点において、最適化されたものである。したがって、タンストールコードがハフマンコードに対する二元コードである。
【0072】
上記の例では、タンストールコードはハフマンコードほど効率的ではないかもしれないが、コードワードの長さが長くなるに従って、つまり、テーブルの長さが長くなるにつれて、タンストールコードの性能はソースエントロピーに近くなってくることが示される。本発明の場合には、タンストールコードはデコーディングが高速である点においてハフマンコードよりも優れている。これは、全てのコードワードが同じ数のビットによって構成されているために、(以下に述べるように)解読が容易だからである。
【0073】
従って、本発明では好ましくは、連続長エンコーダ又はタンストールのような、図15に示すエントロピーエンコーダを使用する。つまり、本発明に基づくエントロピーエンコーディングを行うシステムと方法を示すフロー図である。本発明を図示した図3と図15を参照しつつ、図15には、好ましくは可変長エントロピーエンコーダであるエンコーダを示す。
【0074】
エントロピーは、例えば確率モデルのようなモデルによって与えられる情報の指標(換言すればメッセージに含まれる情報量の尺度)である。好ましいエントロピーエンコーダはメッセージに含まれるシンボルによって表現される情報の、当該メッセージを作成するのに使用された確率モデルの関数である、平均的な情報量を出力する(以下に詳細に述べる)。モデルが元のソースシンボルの現実の分布を忠実に反映するにつれてモデルは複雑なものになる。好ましいエントロピーエンコーダは連続長コーダとそれに続いて通常のタンストールコーダのような可変長から固定長のコーダを使用することで量子化された係数のコード化を行う。
【0075】
連続長エンコーダはゼロからなるシーケンスのシンボルレートを低減する。可変長から固定長へのコーダはソース出力の一連の可変長データを所定長のコードワード出力に置き換える。可変長から固定長コードはソース出力の統計的な依存度を利用する。タンストールコーダは可変長から固定長のコードを使用して、離散的でメモリを有しないソースのために辞書の列あたりのソースレターの期待値を最大にするために離散的な記憶容量を最大にする。換言すれば、入力されたシーケンスは、平均メッセージ長を最大にしてそれぞれのブロックが固定長のコードに対応するように、可変長のブロックに分割される。
【0076】
ASPECのような従来のコーダは、変換係数のサブセットに対して連続長コーディングを使用して、ゼロで無い係数をハフマンコーダのような固定長から可変長へのコーダベクトルによってエンコードした。それに対して、本発明は好ましくは、全ての量子化された変換係数からなるベクトルに対して作用する連続長エンコーダを使用し、連続したゼロ値が連続したゼロの数を表すシンボルによって置き換えられた、基本的に新たなシンボルソースを作成する。本発明に基づく連続長エンコーダは、連続したゼロの数が「Rmin,Rmax」の間であればゼロの値を特定のシンボルによって置き換える。特定の場合は、連続長コーダは例えばRmax<Rminを置くことによってOFFにすることができる。
【0077】
タンストールコーダは、効率がソースシンボルの確率モデルに直接関連するので広く用いられていない。例えば、圧縮のためのコーダを設計する場合、ソースに関する良いモデルが存在すればより効率の良い、つまり圧縮度の高い、コードを作ることは可能である。結果として、効率の良いコーディングのためには、コーダのためのストリング辞書を作成するために良い確率分布モデルが必要になる。以下に述べる本発明は、タンストールコーディングが可能であってよい効率を得るに十分な確率モデルを使用する。
【0078】
一般に、すでに述べたように、量子化された係数は連続長エンコーダとそれに続く可変長から固定長へのブロックエンコーダによってエンコードされる。より具体的には、第1に、量子化された変換係数q(k)が演算モジュールによってブロックとして受け取られブロックの絶対値の最大値を算出する(ブロック1510)。つまり、全ての量子化された値をスキャンして最大絶対値A=max|Xr(k)|を決定する。第2に、略算モジュール(ボックス1512)によってAを、「4512」以下の2の累乗値であるvrを用いてvr>Aまたはvr=Aとなるように値を丸めて量子化する。vrの値は従って、3ビットでエンコードされ、デコーダに送られる。第3に、置き換えモジュールがq(k)を受け取り、丸められた値と組み合わせられて「Rmin,Rmax」の範囲の連続したゼロ値を、連続したゼロの数を表す可変長から固定長への長さエンコード用辞書で提起されたシンボルによってこれを置き換える(ボックス1514)。この辞書は、図16に示したように、本発明に基づいてパラメトリックモデル化技術を使用して算出されたものである。第4に、結果として得られた値s(k)は、タンストールコーダのような可変長から固定長へのエンコーダ(ボックス1516)によってエンコードされチャンネルシンボルが作成される。さらに、エントロピーエンコーダの効率は使用する確率モデルに直接依存するので、本発明に、以下に詳細に述べるようなパラメトリックモデルを取り込むことが望ましい。
【0079】
パラメトリックモデリング
図16は、本発明に基づいてパラメトリックモデリングを使用したエントロピーエンコーディングを行うシステムと方法を示したフロー図である。すでに述べたように、エントロピーコーダの効率は確率モデルの信頼度に直接関連している。図16に示したように、コーダは、シンボル確率(後に述べる)から入力されるストリングの辞書を作成する単純なアルゴリズムによって作成することができる入力ストリングの辞書を必要とする。算術的コーダやハフマンコーダを使用することもできるが、記述のタンストールコーダのような可変長から固定長へのエンコーダが本発明のパラメトリックモデルを使用した算術的コーダの効率に近い効率を達成することができデコードが単純である。これはタンストールコーダが、例えば1ビットである、すべて同じ長さを有することに起因する。
【0080】
さらに、現在の変換コーダは典型的には音楽のような複雑な信号に対して明瞭な声のような単純な信号に対するよりも効率よく動作する。これは、これらの信号に与えられたマスキングレベルが高いことと現在の変換コーダが使用しているエントロピーエンコーダの種類に起因するものである。従って、明瞭な声に関しては、低いビットレートで動いている現在の変換コーダは細かな調和構造を除去することができない。つまり、話し声や1ビット/サンプルのビットレートでは、量子化のステップサイズが大きすぎて、音声の基本調和周波数を除いて、ほとんどの変換係数が量子化されるとゼロになってしまう。しかし、上述のエントロピーエンコーダとパラメトリックモデルを用いれば、本発明は、1次エンコーダのような現在使用されているエントロピーエンコーディングシステムで期待できるよりも優れた結果をもたらすことができる。
【0081】
一般的に、本発明のパラメトリックもモデル化は、量子化されて連続長エンコードされた変換係数の確率分布関数(PDF)のモデルを使用する。一般に、(ハフマンコードで代表される)エントロピーコーディングを使用したこーデックは、音声サンプルの集合から得られたヒストグラムからPDF(および対応する量子化表)を演繹する。それに対して、本発明は、エンコード性能が優れた、全ての入力ブロックに対してあてはめを行った変形ラプラス+指数確率密度を使用する。本発明のPDFモデルの利点の一つは、形状が、量子化された係数のピーク値に直接関係する、1つのパラメータで制御されることである。このことはモデル選択のための演算が負担にならないことを意味しており、デコーダに対してモデルを指定する際に演算が大きくなることは無い。最後に、本発明は最適な量子化ステップサイズを決定するために2値検索手法を使用する。以下に示す2値検索手法は、イテレーションのたびにマスキング用の閾値演算をさらに行わなければならない従来の方法に比較してはるかに簡単な手法である。
【0082】
具体的には、本発明に基づく確率分布モデルは、入力される全てのブロックの量子化された変換係数のヒストグラムに対してフィットさせるために変形ラプラス+指数確率密度関数(PDF)を使用する。PDFモデルは、上述の図15のボックス1510に記載されたパラメータAによって制御される(図15のボックス1512に示されているように、Aはvrによって近似されることに注意する必要がある)。したがって、PDFモデルは以下のように定義される:
【数12】
ここで、変換された連続長エンコードされたシンボルは以下に記載するアルファベットに含まれる。
【表4】
【0083】
ステップサイズを最適化するための2値サーチにおいて、上述のスカラー量子化で使用する量子化のステップの大きさdtは、再構成の忠実性とビットレートとの間のトレードオフを制御する。量子化ステップサイズが小さければ忠実度が高くビットレートも高くなる。レートを固定した状態では、量子化ステップの大きさdtは、シンボルエンコーダ(タンストール)の出力におけるビットレートが所望のレートに(超えない範囲で)可能な限り近づくように再帰的手法で調節する必要がある。
【0084】
ステップサイズを決定するためにいくつかの方法を使用することができる。1つの方法は:1)入力のスケーリングに依存するパラメータであるdt=0で表されるdBで表現された量子化ステップサイズからスタートする。2)kdd=16としてdtによって得られたレートを確認する。もし、この値が所定値を超えていればステップサイズをdt=dt+kddさもなければdt=dt−kddによって変更する。3)kdd=1つまり最適ステップサイズが1dBの精度で求められるまで、イテレーションのたびにkddを1/2にして(2値化サーチ)上述の手順を繰り返す。この方法によって最大64個のステップサイズが発生し、従って最適ステップサイズは7ビットで表現されてデコーダに送られることは容易に理解される。
【0085】
本発明に従って音声信号をデコードするシステムを表した全体ブロック/フロー図である前出の図6を参照する。デコーダは、図6に示されているように、適当な逆処理ステップを実施する。可変長から固定長へのデコーダ(例えばタンストールデコーダ)と連続長でコーディングモジュールがエンコードされたビットストリームと量子化された変換係数を回復するためのPDFレンジパラメータに関するサイド情報を受け取る。可変長から固定長へのデコーダと連続量コーディングモジュールと組み合わせられた均一逆量子化モジュールが、均一量子化から重みつきNMLBT変換係数の略算値を取り出して再構成する。逆重み付けモジュールは、変換係数を適当なスケール範囲に戻すために逆変換を行う。逆NMLBT変換モジュールは、下の信号ブロックの略算値を再生する。使用することのできるチャンネルビットが大きいほど、量子化ステップサイズは小さく、再生の忠実度は高い。
【0086】
デコーダの演算の複雑さはエンコーダの演算よりも2つの理由で少ないことに注意する必要がある。第1に、タンストールデコーディングのような(表を参照するだけの)可変長から固定長へのデコーディングはそれに対応する(ストリングサーチを必要とする)エンコーディングよりも高速である。第2に、ステップサイズが知られているので、逆量子化は一度実施するだけでよい(エンコーダとは違って繰り返し演算は不要である)。しかし、いずれにしても、エンコーダとデコーダの双方において、演算の主要部分はNMLBT内に存在しており、高速フーリエ変換を使用して効率よく算出することができる。
【0087】
本発明に関する今までの記載は説明と記述を目的としたものである。本発明を記述した通りのものに限定することを意図したものではない。上述の開示に基づいて多くの変形や変更を行うことができる。発明の範囲は詳細な説明ではなく添付の特許請求の範囲の記載によって定められるべきである。
【図面の簡単な説明】
【図1】 本発明を実施するための装置を示すブロック図である。
【図2】 本発明に基づいて音声信号をエンコード/デコードするためのシステムと方法を示す全般的なブロック/フロー図である。
【図3】 本発明に基づいて音声信号をエンコードするためのシステムを示す全体ブロック図である。
【図4】 本発明に基づいて音声信号をエンコードする方法を示す全体フロー図である。
【図5】 本発明に基づいて音声信号をエンコードするシステムを表す全体ブロック/フロー図である。
【図6】 本発明に基づいて音声信号をデコードするシステムを表す全体ブロック/フロー図である。
【図7】 本発明に基づく変調重複変換を示すフロー図である。
【図8】 本発明に基づく変調重複二直交変換を示すフロー図である。
【図9】 本発明に基づく不均一変調ラップ二直交変換を示す単純化したブロック図である。
【図10】 不均一変調重複二直交変換合成基礎関数の一例を示す。
【図11】 不均一変調重複二直交変換合成基礎関数の他の例を示す。
【図12】 本発明に基づく解像度切り替えシステムと方法を示すフロー図である。
【図13】 本発明に基づく部分ホワイトニングを含む重み付け関数演算のためのシステムと方法を示すフロー図である
【図14】 本発明に基づく単純化されたバーク(Bark)閾値演算を行うためのシステムと方法を示すフロー図である。
【図15】 本発明に基づくエントロピーエンコーディングを行うためのシステムと方法を示すフロー図である。
【図16】 本発明に基づくパラメトリックモデル化を行うためのシステムと方法を示すフロー図である。
Claims (10)
- 入力信号をコーディングするためのコーダをシステムのコンピュータによって読み出し可能な記憶装置に記憶した入力信号処理システムのコーダであって、
入力信号を受けて変換係数を有する不均一変調重複二直交変換を行う複数解像度の変換プロセッサと;
量子化ノイズをマスクするために、スペクトルの重み付けと変換係数の部分的ホワイトニングを行うことができるマスキング閾値スペクトルプロセッサを有する重み付けプロセッサを有し、
聴覚モデルの臨界バンドを近似する擬対数スケールで算出したマスキングスペクトル閾値と、それぞれの臨界バンドの複数の拡散マスキング閾値として算出した近傍の臨界バンドからの最大寄与と、絶対値の閾値を求めるための拡散マスキング閾値を用いて変換係数をスペクトル領域で重み付けすることを特徴とするコーダ。 - 変換係数を予め設定された重み付け関数によって部分的にホワイトニングし、ノイズのスペクトルピークを減衰させるようにそれぞれの重み付け関数を平坦化して、最終的な重み付けを量子化ノイズをマスクするための関数として使用する請求項1に記載のコーダ。
- エンコードされた入力信号をデコードする、エンコードされた信号を受けて量子化ノイズをデマスクする逆マスキング閾値スペクトルプロセッサとでマスクされたエンコード信号とエンコードされた信号の不均一変調重複二直交変換を受けて入力信号の聴覚上透明な出力信号を作成するデコーダを有する請求項1に記載のコーダ。
- 連続値を離散値に変換する均一量子化手段と、変換係数をエンコードするエントロピーエンコーダを更に備えることを特徴とする請求項1に記載のコーダ。
- 入力信号を処理するコーダを有するシステムにおける入力信号をエンコードするためのコンピュータに搭載された方法であって、
入力信号を受け、周波数成分を有する変調重複変換を行い;
周波数成分を組み合わせて変換係数を有する不均一変調重複二直交変換を行い;
聴覚上のマスキング能力を有する重み付け関数を算出し;
不均一変調重複二直交変換の変換係数に対して重み付け関数を掛けることを含み、
さらに、聴覚モデルの臨界バンドを近似する擬対数スケールのマスキングスペクトル閾値を算出し;
それぞれの臨界バンドにおいて拡散マスキング閾値を近傍の臨界バンドの最大寄与として算出し;
拡散マスキング閾値を調整して絶対閾値を求めることを含む方法。 - マスキングスペクトル閾値の計算が、擬対数スケールでサブバンド周波数の上限を規定し、全てのサブバンドにわたって信号のパワーを平均することで擬対数スケールで複数のスペクトルパワーを算出し、バンド内のマスキング閾値を算出することを含む請求項5に記載の方法。
- 拡散マスキング閾値の調整が、拡散マスキング閾値をモデル閾値と比較して、最も高い値を全てのサブバンドに使用することを含む請求項5に記載の方法。
- 複数の拡散マスキング閾値の算出が、臨界バンドに渡って並行マスキングを考慮し、擬対数スケールにおいて三角形の減衰部を有するスペクトル値を重ね合わせて最大閾値を算出することを含む請求項5に記載の方法。
- 最大閾値の算出が、三角形の減衰を有する全てのバークスペクトル値を重ね合わせて閾値を計算することを含む請求項8に記載の方法。
- 近傍のバンドからの最大寄与としてそれぞれの臨界バンドの複数の拡散マスキング閾値を計算する処理が、周波数の低い側の拡散限界を三角形の減衰を有する重ね合わせられたスペクトル値によって表現し、低い側と高い側の拡散周波数の限界を信号のバンド幅によって所望のサブバンドかカバーされるまで回帰的に設定しなおすことを含む請求項5に記載の方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/085,620 US6115689A (en) | 1998-05-27 | 1998-05-27 | Scalable audio coder and decoder |
US09/085,620 | 1998-05-27 | ||
US09/109,345 US6029126A (en) | 1998-06-30 | 1998-06-30 | Scalable audio coder and decoder |
US09/109,345 | 1998-06-30 | ||
PCT/US1999/011898 WO1999062189A2 (en) | 1998-05-27 | 1999-05-27 | System and method for masking quantization noise of audio signals |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002517023A JP2002517023A (ja) | 2002-06-11 |
JP4864201B2 true JP4864201B2 (ja) | 2012-02-01 |
Family
ID=26772919
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000551538A Expired - Fee Related JP4373006B2 (ja) | 1998-05-27 | 1999-05-27 | スケーラブル音声コーダとデコーダ |
JP2000551492A Expired - Fee Related JP4864201B2 (ja) | 1998-05-27 | 1999-05-27 | 音声信号の量子化ノイズをマスクするためのシステムと方法 |
JP2000551380A Expired - Fee Related JP4570250B2 (ja) | 1998-05-27 | 1999-05-27 | 信号の量子化変換係数をエントロピーエンコードするシステムと方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000551538A Expired - Fee Related JP4373006B2 (ja) | 1998-05-27 | 1999-05-27 | スケーラブル音声コーダとデコーダ |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000551380A Expired - Fee Related JP4570250B2 (ja) | 1998-05-27 | 1999-05-27 | 信号の量子化変換係数をエントロピーエンコードするシステムと方法 |
Country Status (7)
Country | Link |
---|---|
EP (4) | EP1080462B1 (ja) |
JP (3) | JP4373006B2 (ja) |
CN (3) | CN1183685C (ja) |
AT (4) | ATE288613T1 (ja) |
AU (3) | AU4218299A (ja) |
DE (4) | DE69930848T2 (ja) |
WO (3) | WO1999062189A2 (ja) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU3606000A (en) * | 1999-02-26 | 2000-09-14 | Microsoft Corporation | Modulated complex lapped transform for integrated signal enhancement and coding |
US6826242B2 (en) | 2001-01-16 | 2004-11-30 | Broadcom Corporation | Method for whitening colored noise in a communication system |
WO2003036619A1 (en) * | 2001-10-19 | 2003-05-01 | Koninklijke Philips Electronics N.V. | Frequency-differential encoding of sinusoidal model parameters |
DE10204617B4 (de) * | 2002-02-05 | 2005-02-03 | Siemens Ag | Verfahren und Vorrichtungen zur Kompression und Dekompression eines Videodatenstroms |
CN105306067B (zh) * | 2002-09-20 | 2018-09-11 | 株式会社Ntt都科摩 | 算术编码的方法和设备 |
US7395210B2 (en) * | 2002-11-21 | 2008-07-01 | Microsoft Corporation | Progressive to lossless embedded audio coder (PLEAC) with multiple factorization reversible transform |
CN100339886C (zh) * | 2003-04-10 | 2007-09-26 | 联发科技股份有限公司 | 可以检测声音信号的暂态位置的编码器及编码方法 |
US8627213B1 (en) * | 2004-08-10 | 2014-01-07 | Hewlett-Packard Development Company, L.P. | Chat room system to provide binaural sound at a user location |
CN101046963B (zh) * | 2004-09-17 | 2011-03-23 | 广州广晟数码技术有限公司 | 解码经编码的音频数据流的方法 |
US7548853B2 (en) * | 2005-06-17 | 2009-06-16 | Shmunk Dmitry V | Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding |
AU2011221401B2 (en) * | 2005-06-17 | 2014-05-01 | Dts (Bvi) Limited | Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding |
CN101120584B (zh) * | 2005-11-18 | 2011-04-20 | 索尼株式会社 | 编码装置和方法、解码装置和方法、以及传输系统 |
US7953595B2 (en) * | 2006-10-18 | 2011-05-31 | Polycom, Inc. | Dual-transform coding of audio signals |
DE102006051673A1 (de) | 2006-11-02 | 2008-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale |
CN101206860A (zh) * | 2006-12-20 | 2008-06-25 | 华为技术有限公司 | 一种可分层音频编解码方法及装置 |
FR2912249A1 (fr) * | 2007-02-02 | 2008-08-08 | France Telecom | Codage/decodage perfectionnes de signaux audionumeriques. |
MX2010001763A (es) * | 2007-08-27 | 2010-03-10 | Ericsson Telefon Ab L M | Analisis/sintesis espectral de baja complejidad utilizando la resolucion temporal seleccionable. |
EP2267700B1 (en) * | 2009-06-22 | 2011-12-21 | APT Licensing Limited | Apparatus and method for selecting quantisation bands in audio encoders |
US8428959B2 (en) | 2010-01-29 | 2013-04-23 | Polycom, Inc. | Audio packet loss concealment by transform interpolation |
US20110292247A1 (en) | 2010-05-27 | 2011-12-01 | Sony Corporation | Image compression method with random access capability |
CN103282958B (zh) * | 2010-10-15 | 2016-03-30 | 华为技术有限公司 | 信号分析器、信号分析方法、信号合成器、信号合成方法、变换器和反向变换器 |
CN102103859B (zh) * | 2011-01-11 | 2012-04-11 | 东南大学 | 一种数字音频编码、解码方法及装置 |
CN103117793B (zh) * | 2013-01-25 | 2015-04-08 | 西安电子科技大学 | 多用户频谱感知中的伪均匀量化方法 |
EP3140831B1 (en) * | 2014-05-08 | 2018-07-11 | Telefonaktiebolaget LM Ericsson (publ) | Audio signal discriminator and coder |
EP2992898A1 (en) | 2014-09-04 | 2016-03-09 | Klinikum rechts der Isar der Technischen Universität München | T-cell adjuvant and its use for therapeutic or prophylactic vaccination |
US9430676B1 (en) | 2015-03-17 | 2016-08-30 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Processor related noise encryptor |
CN109193787B (zh) * | 2018-10-28 | 2021-07-06 | 国网吉林省电力有限公司四平供电公司 | 一种含新能源配电网的谐波路径识别方法 |
US11726761B2 (en) * | 2019-03-26 | 2023-08-15 | Tymphany Acoustic Technology (Huizhou) Co., Ltd. | Firmware upgrade for wireless stereo earbuds |
CN113365176B (zh) * | 2020-03-03 | 2023-04-28 | 华为技术有限公司 | 一种实现主动噪声消除的方法、装置和电子设备 |
CN115050377B (zh) * | 2021-02-26 | 2024-09-27 | 腾讯科技(深圳)有限公司 | 音频转码方法、装置、音频转码器、设备以及存储介质 |
WO2024008928A1 (en) * | 2022-07-07 | 2024-01-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Masking threshold determinator, audio encoder, method and computer program for determining a masking threshold information |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07261797A (ja) * | 1994-03-18 | 1995-10-13 | Mitsubishi Electric Corp | 信号符号化装置及び信号復号化装置 |
JPH0836399A (ja) * | 1994-07-21 | 1996-02-06 | Sony Corp | オーディオ符号化データの処理装置 |
JPH09230897A (ja) * | 1996-02-22 | 1997-09-05 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号変換符号化方法 |
WO1998015945A1 (en) * | 1996-10-07 | 1998-04-16 | Picturetel Corporation | Variable length audio coding using a plurality of subband bit allocation patterns |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4929946A (en) * | 1989-02-09 | 1990-05-29 | Storage Technology Corporation | Adaptive data compression apparatus including run length encoding for a tape drive system |
CA2020084C (en) * | 1989-06-29 | 1994-10-18 | Kohei Iseda | Voice coding/decoding system having selected coders and entropy coders |
US5185800A (en) * | 1989-10-13 | 1993-02-09 | Centre National D'etudes Des Telecommunications | Bit allocation device for transformed digital audio broadcasting signals with adaptive quantization based on psychoauditive criterion |
JPH05119800A (ja) * | 1991-10-24 | 1993-05-18 | Kyocera Corp | デジタル音声データの高能率圧縮方法 |
US5285498A (en) * | 1992-03-02 | 1994-02-08 | At&T Bell Laboratories | Method and apparatus for coding audio signals based on perceptual model |
JP3191457B2 (ja) * | 1992-10-31 | 2001-07-23 | ソニー株式会社 | 高能率符号化装置、ノイズスペクトル変更装置及び方法 |
DE69420848T2 (de) * | 1993-07-07 | 2000-07-20 | Picturetel Corp., Peabody | Sprachkodierer/-dekodierer mit fester bitrate |
JP3291948B2 (ja) * | 1994-12-15 | 2002-06-17 | ソニー株式会社 | 高能率符号化方法及び装置、並びに伝送媒体 |
EP0749647B1 (en) * | 1995-01-09 | 2003-02-12 | Koninklijke Philips Electronics N.V. | Method and apparatus for determining a masked threshold |
US5870036A (en) * | 1995-02-24 | 1999-02-09 | International Business Machines Corporation | Adaptive multiple dictionary data compression |
US5627534A (en) * | 1995-03-23 | 1997-05-06 | International Business Machines Corporation | Dual stage compression of bit mapped image data using refined run length and LZ compression |
US5692102A (en) * | 1995-10-26 | 1997-11-25 | Motorola, Inc. | Method device and system for an efficient noise injection process for low bitrate audio compression |
JPH09135173A (ja) * | 1995-11-10 | 1997-05-20 | Sony Corp | 符号化装置および符号化方法、復号化装置および復号化方法、伝送装置および伝送方法、並びに記録媒体 |
JP3318825B2 (ja) * | 1996-08-20 | 2002-08-26 | ソニー株式会社 | デジタル信号符号化処理方法、デジタル信号符号化処理装置、デジタル信号記録方法、デジタル信号記録装置、記録媒体、デジタル信号伝送方法及びデジタル信号伝送装置 |
JP3264626B2 (ja) * | 1996-08-21 | 2002-03-11 | 松下電器産業株式会社 | ベクトル量子化装置 |
-
1999
- 1999-05-27 WO PCT/US1999/011898 patent/WO1999062189A2/en active IP Right Grant
- 1999-05-27 EP EP99926007A patent/EP1080462B1/en not_active Expired - Lifetime
- 1999-05-27 JP JP2000551538A patent/JP4373006B2/ja not_active Expired - Fee Related
- 1999-05-27 AU AU42182/99A patent/AU4218299A/en not_active Abandoned
- 1999-05-27 JP JP2000551492A patent/JP4864201B2/ja not_active Expired - Fee Related
- 1999-05-27 EP EP06012977A patent/EP1701452B1/en not_active Expired - Lifetime
- 1999-05-27 AU AU42180/99A patent/AU4218099A/en not_active Abandoned
- 1999-05-27 WO PCT/US1999/011895 patent/WO1999062253A2/en active IP Right Grant
- 1999-05-27 JP JP2000551380A patent/JP4570250B2/ja not_active Expired - Fee Related
- 1999-05-27 AU AU42181/99A patent/AU4218199A/en not_active Abandoned
- 1999-05-27 AT AT99926007T patent/ATE288613T1/de not_active IP Right Cessation
- 1999-05-27 DE DE69930848T patent/DE69930848T2/de not_active Expired - Lifetime
- 1999-05-27 WO PCT/US1999/011896 patent/WO1999062052A2/en active IP Right Grant
- 1999-05-27 CN CN99809011.5A patent/CN1183685C/zh not_active Expired - Fee Related
- 1999-05-27 EP EP99926009A patent/EP1080542B1/en not_active Expired - Lifetime
- 1999-05-27 CN CNB998090123A patent/CN1146130C/zh not_active Expired - Fee Related
- 1999-05-27 DE DE69933119T patent/DE69933119T2/de not_active Expired - Lifetime
- 1999-05-27 CN CNB998090131A patent/CN100361405C/zh not_active Expired - Fee Related
- 1999-05-27 AT AT99926006T patent/ATE323377T1/de not_active IP Right Cessation
- 1999-05-27 DE DE69938016T patent/DE69938016T2/de not_active Expired - Lifetime
- 1999-05-27 DE DE69923555T patent/DE69923555T2/de not_active Expired - Lifetime
- 1999-05-27 AT AT99926009T patent/ATE339037T1/de not_active IP Right Cessation
- 1999-05-27 EP EP99926006A patent/EP1080579B1/en not_active Expired - Lifetime
- 1999-05-27 AT AT06012977T patent/ATE384358T1/de not_active IP Right Cessation
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07261797A (ja) * | 1994-03-18 | 1995-10-13 | Mitsubishi Electric Corp | 信号符号化装置及び信号復号化装置 |
JPH0836399A (ja) * | 1994-07-21 | 1996-02-06 | Sony Corp | オーディオ符号化データの処理装置 |
JPH09230897A (ja) * | 1996-02-22 | 1997-09-05 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号変換符号化方法 |
WO1998015945A1 (en) * | 1996-10-07 | 1998-04-16 | Picturetel Corporation | Variable length audio coding using a plurality of subband bit allocation patterns |
JP2001502073A (ja) * | 1996-10-07 | 2001-02-13 | ピクチャーテル コーポレイション | 複数のサブバンドビットアロケーションを用いた可変長オーディオ信号符号化 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4864201B2 (ja) | 音声信号の量子化ノイズをマスクするためのシステムと方法 | |
US6115689A (en) | Scalable audio coder and decoder | |
US6029126A (en) | Scalable audio coder and decoder | |
US6253165B1 (en) | System and method for modeling probability distribution functions of transform coefficients of encoded signal | |
JP2756515B2 (ja) | 可聴信号の知覚符号化方法および音声信号伝送方法 | |
JP3203657B2 (ja) | 情報符号化方法及び装置,情報復化方法及び装置,情報伝送方法,並びに情報記録媒体 | |
US7428489B2 (en) | Encoding method and apparatus, and decoding method and apparatus | |
JPH08190764A (ja) | ディジタル信号処理方法、ディジタル信号処理装置及び記録媒体 | |
US6604069B1 (en) | Signals having quantized values and variable length codes | |
JPH08237132A (ja) | 信号符号化方法及び装置、信号復号化方法及び装置、並びに情報記録媒体及び情報伝送方法 | |
JPH07273657A (ja) | 情報符号化方法及び装置、情報復号化方法及び装置、並びに情報伝送方法及び情報記録媒体 | |
Sinha et al. | The perceptual audio coder (PAC) | |
JPH1084284A (ja) | 信号再生方法および装置 | |
JP3964860B2 (ja) | ステレオオーディオの符号化方法、ステレオオーディオ符号化装置、ステレオオーディオの復号化方法、ステレオオーディオ復号化装置及びコンピュータで読み取り可能な記録媒体 | |
Johnston et al. | AT&T perceptual audio coding (PAC) | |
JP3557674B2 (ja) | 高能率符号化方法及び装置 | |
KR20020077959A (ko) | 디지탈 오디오 부호화기 및 복호화 방법 | |
US6661923B1 (en) | Coding device, coding method, decoding device, decoding method, program recording medium and data recording medium | |
Teh et al. | Subband coding of high-fidelity quality audio signals at 128 kbps | |
JPH07221649A (ja) | 情報符号化方法及び装置、情報復号化方法及び装置並びに情報記録媒体及び情報伝送方法 | |
Arensman | MP3 Audio Compression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060410 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20060410 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090804 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091104 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100831 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20101130 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20101207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110104 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110408 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110808 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20110809 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110809 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20110829 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111104 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111109 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141118 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |