JP2002517019A - 信号の量子化変換係数をエントロピーエンコードするシステムと方法 - Google Patents

信号の量子化変換係数をエントロピーエンコードするシステムと方法

Info

Publication number
JP2002517019A
JP2002517019A JP2000551380A JP2000551380A JP2002517019A JP 2002517019 A JP2002517019 A JP 2002517019A JP 2000551380 A JP2000551380 A JP 2000551380A JP 2000551380 A JP2000551380 A JP 2000551380A JP 2002517019 A JP2002517019 A JP 2002517019A
Authority
JP
Japan
Prior art keywords
value
quantized
length
signal
coder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000551380A
Other languages
English (en)
Other versions
JP4570250B2 (ja
Inventor
ヘンリック エス. マルバー,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US09/085,620 external-priority patent/US6115689A/en
Priority claimed from US09/109,345 external-priority patent/US6029126A/en
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2002517019A publication Critical patent/JP2002517019A/ja
Application granted granted Critical
Publication of JP4570250B2 publication Critical patent/JP4570250B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L25/00Baseband systems
    • H04L25/02Details ; arrangements for supplying electrical power along data transmission lines
    • H04L25/03Shaping networks in transmitter or receiver, e.g. adaptive shaping networks
    • H04L25/03006Arrangements for removing intersymbol interference
    • H04L25/03159Arrangements for removing intersymbol interference operating in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/667Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using a division in frequency subbands
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L25/00Baseband systems
    • H04L25/02Details ; arrangements for supplying electrical power along data transmission lines
    • H04L25/03Shaping networks in transmitter or receiver, e.g. adaptive shaping networks
    • H04L25/03993Noise whitening
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L25/00Baseband systems
    • H04L25/02Details ; arrangements for supplying electrical power along data transmission lines
    • H04L25/03Shaping networks in transmitter or receiver, e.g. adaptive shaping networks
    • H04L25/03006Arrangements for removing intersymbol interference
    • H04L2025/03433Arrangements for removing intersymbol interference characterised by equaliser structure
    • H04L2025/03439Fixed structures
    • H04L2025/03522Frequency domain

Abstract

(57)【要約】 音声信号を処理するためのシステムと方法であってスケーラブル音声コーダ(300)とデコーダを有する。コーダ(300)は、変調重複変換(MLT)変換プロセッサのような複数解像度の変換プロセッサ(310)と、重み付けプロセッサ(312)と、均一量子化装置(314)と、マスキング閾値スペクトルプロセッサ(316)と、エントロピーエンコーダ(318)と上記の要素から受け取った信号をマルチプレックス処理して1つの装置に出力するマルチプレクサ(MUX)等の伝送装置(320)を有する。コーダ(300)は解像度切り替えを行って音声信号をエンコードし、スペクトル重み付けを行って、音声信号のデジタルエンコードを行う。また、デジタルエンコードされた信号のパラメトリックモデル化を行いエンコード特性を改善する。デコーダはコーダ(300)の逆処理装置を有しエンコードされた音声信号をデコードする。

Description

【発明の詳細な説明】
【0001】 技術分野 本発明はデジタル信号の圧縮方法、特に、デジタル化された音声信号の縮尺可
変なエンコードとデコードを行うシステムと方法に関するものである。
【0002】 背景技術 現在多くのアプリケーションでデジタル音声が扱われている。例えば、音楽コ
ンパクトディスク(CD)、インターネットオーディオクリップ、衛星放送テレ
ビ、デジタルビデオディスク(DVD)や(有線又は無線の)電話はデジタル音
声技術を使用している。音声信号のデジタル表現は、アナログ・デジタル(A/
D)変換器によって、アナログ音声信号をデジタル信号に変換して得られる。デ
ジタル表現は次にエンコード、圧縮、記憶、伝送、使用等に供される。その後、
デジタル信号は、必要に応じて、デジタル・アナログ(D/A)変換器によって
アナログ信号に逆変換される。A/D変換器やD/A変換器は次ぎに示す標準周
波数のうちの1つを使用してアナログ信号をサンプリングする:電話、インター
ネット、ビデオ会議の場合8kHz;インターネット、CD−ROMの場合11
.025kHz;ビデオ会議、長距離音声放送、インターネット、将来の電話の
場合16kHz;CD−ROMとインターネットの場合22.05kHz;CD
−ROM、ビデオ会議、ISDNオーディオの場合32kHz;音楽CDの場合
44.1kHz;およびスタジオでの楽音作成の場合48kHzである。
【0003】 変換後に音声信号をエンコード又は圧縮する場合、典型的な例では、A/D変
換器によって作成されたデータビットは、通常、個々の楽音サンプルが16ビッ
トでフォーマットされた構造である。例えば音楽CDの場合、処理前のビットレ
ートは44.1kHz×16ビット/サンプル=705.6kbps(秒当たり
のキロビット)である。電話の場合は、処理前のビットレートは8kHz×8ビ
ット/サンプル=64kbpsである。記録容量が約700メガバイト(560
0メガビット)である音楽CDの場合、処理前のビットデータを記録することが
でき、圧縮の必要はない。しかし、ミニディスクの記録容量は140メガバイト
であり、2.5インチのミニディスクに30分から1時間の音楽を記録するため
には約4:1の圧縮が必要である。
【0004】 インターネット電話やその他の多くの場合、処理前のビットレートは現在のチ
ャンネル容量に対して過大である。したがって、高い圧縮率を有する(一般にコ
ーダ/デコーダまたはコーデック)効率的なエンコーダ/デコーダが用いられる
。例えば、インターネット電話の場合、処理前のビットレートは64kbpsで
あるが、望ましいチャンネルビットレートは5から10kbpsの間である。し
たがって、コーデックは音声信号の感知できる品質低下を最小限に抑えつつビッ
トレートを5ないし15分の1に圧縮する必要がある。
【0005】 最近の演算チップによれば、コーデックはプログラム可能なデジタル信号処理
(DSP)チップに代表される専用のハードウエアに装備することもできるし、
汎用コンピュータのソフトウエアとして装備することも可能である。したがって
、コーデックスは例えば、1)演算処理が複雑でなく(記録された音楽に関して
はエンコードの複雑さは通常問題にならない);2)再生の忠実度が高く(品質
に関する要求は適用対象によって異なる);3)信号の変化に対する耐性が高く
(音声信号は明瞭な声、雑音交じりの声、複数の人の声、音楽等であり、コーデ
ックが扱うことのできる信号の範囲は広いほど好ましい);4)遅延が少なく(
電話やビデオ会議のようなリアルタイムで利用する場合);5)スケーラブルで
あり(サンプリングレートやチャンネル容量に対して容易に適応可能であること
−特にエンコード後にスケーラブルであること、換言すれば再エンコード無しで
異なるサンプリングレートやチャンネルレートに対応できること、が望ましい)
;そして、6)圧縮された状態で信号の編集が可能であること(コーデックが圧
縮された状態での処理を許容するものであれば、あるいは少なくとも全面的なデ
コードと再エンコードを必要としないものであれば、複数チャンネルのミキシン
グのような処理、干渉低減やその他の処理を高速で行うことができる)が望まし
い。
【0006】 現在、市販のシステムは非常に多数の異なるデジタルオーディオ技術を使用し
ている。これらを例示すれば:ITU−T標準:G.711、G.726、G.
722、G.728、G723.1およびG.729;その他の電話用標準;G
SM、ハーフレートGSM、携帯CDMA(IS−733);ハイファイオーデ
ィオ;ドルビーAC−2とAC−3、MPEG LIIとLIII、ソニー ミ
ニディスク;インターネット オーディオ;ACELP−Net、ドルビー ネ
ット、ピクチャー テル サイレン、リアルオーディオ、および軍用アプリケー
ション;LPC−10とUSFS−1016ヴォイスコーダである。
【0007】 しかし、現在使用されているこれらのコーデックにはいくつかの限界がある。
特に、現在のコーデックの演算上の複雑さは十分低いとはいえない。例えば、コ
ーデックがOSに組み込まれている場合、コーデックはCPUをあまり占有せず
に、他のアプリケーションと同時に動かせるものでなければならない。他の問題
は遅延である。例えば、リアルタイムの通信を行うには、コーデックは100m
s以下の遅延で完全な音声収録/再生動作を行うことができるものでなければな
らない。
【0008】 他の問題は、信号の変化に対する耐性である。コーデックは、明瞭な声だけで
なく反響音、オフィスの騒音、電気的ノイズ、背景音楽等を含む音声や、音楽、
ダイアルトーンやそれ以外の音声を取り扱えることが望ましい。同様に、現在存
在するほとんどのコーデックが有する欠点は、スケーラビリティの限界、信号サ
ンプリング周波数とチャンネルデータ速度の変化に対応できる幅が狭いことであ
る。例えば、現在のアプリケーションの多くは複数の異なるコーデックを使用し
なければならない、これは、多くのコーデックが特定のサンプリングレートの幅
にのみ対応していることに原因がある。これに関連して、再コーディング無しで
サンプリングレートやデータ処理速度の変化に対応できるコーデックが望まれて
いる。
【0009】 他の問題は、複数者間における電話会議では、サーバーは種々の参加者からの
音声信号を処理しなければならない点である。多くのコーデックはミキシングの
前に全てのデータストリームをデコードすることを必要としている。ミキシング
の前に全てのデータストリームをデコードすること無しに、エンコードされたあ
るいは圧縮されたままの状態でミキシングを行うことができるコーデックが望ま
れる。
【0010】 さらにまた別の問題は、信号の改良機能と関連したものである。例えば現在使
用されている音声用パスはコーデックによる処理の前に信号改良モジュールを有
することがある。例えば、ハンドフリー電話会議の場合、スピーカからの信号が
マイクに拾われて人の声と干渉することが起こる。したがって、スピーカからマ
イクへの干渉を除去するためにエコー除去アルゴリズムが使用されるのが一般的
である。それ以外の改良用の装置は自動ゲイン制御、雑音抑制装置等である。こ
れらの改良装置はコーディング/デコーディングによる遅延にさらに遅延を追加
することになる。したがって、コーデックによる遅延以外に遅延を生じさせずに
これらの信号改良を行うことができる、単純な改良プロセスを有するコーデック
が必要とされている。
【0011】 コーデックに関するさらにほかの問題はビットやパケットロスに対する耐性の
欠如である。ほとんどの現実的なリアルタイムアプリケーションでは、エラーの
生じない通信チャンネルは存在しない。無線チャンネルは高いエラーレートを有
し、場合によっては(例えばインターネットのような)パケット−接続チャンネ
ルは大きなパケット損失を生じる。したがって、例えば圧縮されたビットストリ
ームの5%以下の損失に対して重大な劣化を生じないコーデックが必要とされて
いる。 上述の従来のシステムと方法はどのような利点があるにせよ、本発明の効果を
奏することはできない。
【0012】 本発明の開示 先行技術が有する上記のような限界を克服するために、また本明細書を読んで
理解すれば自明となるであろう限界を克服するために、本発明は新規なコーダ/
デコーダ(コーデック)を有する音声信号のスケーラブルなエンコードとデコー
ドを可能にするシステムと方法を提案する。
【0013】 本発明によるコーデックシステムは、コーダとデコーダを具備する。コーダは
、変調重複変換(MLT)変換プロセッサのような複数解像度変換プロセッサ、
重み付けプロセッサ、均一量子化装置、マスキング閾値スペクトルプロセッサ、
エントロピーエンコーダ、およびこれらの装置から受け取った信号を単一の装置
に伝達するためにマルチプレクシング(結合)を行うマルチプレクサ(MUX)
のような連結装置を有する。デコーダは、エンコーダとは逆の装置、例えば、複
数解像度逆変換プロセッサ、逆重み付けプロセッサ、逆均一量子化装置、逆マス
キング閾値スペクトルプロセッサ、逆エントロピーエンコーダ、および逆MUX
を有する。これらの要素によって、本発明は解像度切り替え、スペクトル重み付
け、デジタルエンコーディングおよびパラメトリックモデリングを行うことがで
きる。
【0014】 本発明の特徴と利点として演算の単純さを挙げることができる。本発明のコー
デックがOSの中に組み込まれると、CPUを大きく利用せずに他のアプリケー
ションと並行実施が可能である。本発明のコーデックによって、例えば100m
s未満の遅延によって完全な音声取り込み/再生システムを動作させることがで
き、リアルタイム通信が可能になる。本発明のコーデックは信号の変化に対して
優れた耐性を有し、明瞭な声だけでなく反響音、オフィスの騒音、電気的ノイズ
、背景音楽等によって品質が低下した音声と、音楽、ダイアルトーンやその他の
音声を取り扱うことができる。さらに、本発明のコーデックはスケーラブルであ
り、幅広い範囲の信号サンプリング周波数とチャンネルデータ速度に対応するこ
とができる。さらに、本発明のコーデックは再エンコードすること無しにサンプ
リングレートやデータ処理レートの変更に対応する。例えば、本発明によるコー
デックは全面的なデコーディングと再エンコーディング無しに32kbpsのデ
ータストリームを16kbpsのデータストリームに変換することができる。こ
のことによって、サーバはオーディオクリップの忠実度の高いバージョンだけを
記録し、送出する際に必要に応じて変換することも可能になる。
【0015】 同様に、複数者間での電話会議に関して、本発明によるコーデックはミキシン
グ前に全てのデータストリームをデーコードすること無しにエンコード又は圧縮
されたままの状態でミキシングを可能にする。このことによってサーバが取り扱
うことのできる音声データストリームの数が飛躍的に増大する。さらに、本発明
に基づくコーデックは、コーデックによる遅延以外には遅延を生じずに信号改良
処理を行うことによって比較的簡単に信号改良処理を実現することができる。さ
らに、本発明によるコーデックの他の特徴はビットロスやパケットロスに対する
耐性の高さである。例えば、ほとんどの現実的なリアルタイムアプリケーション
において、通信チャンネルにエラーは不可避である。無線通信チャンネルは高い
ビットエラー率を有し、(インターネットのような)パケット−接続チャンネル
は高いパケット喪失率を有するが、本発明によるコーデックは圧縮されたビット
ストリームの損失が5%未満であれば信号の劣化を小さく抑えることができる。
【0016】 添付の図面を参照して以下の段落において行う本発明の詳細な説明によって、
本発明の上述の特徴および上述以外の長所と本発明のより完全な理解が得られる
はずである。図面全体を通じて同一の参照番号は同じ部分を示す。
【0017】 本発明を実施するための最善の形態 本発明に関する以下の記載においては、本発明の実施態様を例示するために具
体例を示した、発明の記述の一部をなす図面を参照する。本発明の範囲を逸脱す
ることなく記載以外の実施態様を利用することも可能であり、構造の変更も可能
であることを理解しておくことが必要である。
【0018】 導入部 現在の音声コーディング標準の多くでは、32kbps以上のビットレートで
サンプル当り2ビット以上に対応する変換又はサブバンドコーダが使用されてい
る。上記以下のビットレートでは、1ビット/サンプルのデータが電話会議用の
G.729やG.723.1音声コードで使用されている。このようなコーデッ
クは陽関数表現されたスピーチプロダクションモデルに依存しており、したがっ
て、この性能は、複数のスピーカ、雑音の多い環境や特に音楽信号の存在によっ
て急速に低下する。
【0019】 高速のモデムが使用できるようになったために、多くのアプリケーションが狭
帯域(バンド幅3.4kHz)音声の8−12kbpsに対応しており、より忠
実度の高い素材に対してはよりビットレートの高いものにも対応することになる
であろう。このことは、コーダが例えばG.729と同程度以上の信号変化に対
して耐性を要求されることを意味する。
【0020】 本発明は、1ビット/サンプル(つまり8kHzのサンプリング時に8kbp
s)という低いレートであっても十分な品質で動作することのできる変換コーダ
/デコーダシステムである。明瞭な声に対する性能を向上させるために、パラメ
トリックモデル化を用いたスペクトル重み付けと連続長とエントロピーコーダを
使用する。その結果、声による話の周期的スペクトル構造のエンコード性能が改
善される。
【0021】 本発明によって、話し声を含む擬回帰的信号に対する性能が改善される。量子
化テーブルは元のいくつかのパラメータに基づいて算出され、量子化テーブルの
記憶のための容量を増大させることなく適用範囲を拡大することができる。過渡
信号に対する性能を改善するために、本発明は入力ウインドウ切り替えのない不
均一変調重複二直交変換を使用する。実験結果によれば、本発明はサンプルごと
にほぼ1ビットのレートである高品質信号の再生、サンプルごとに2ビットの擬
透明再生、サンプルごとに3ビット以上の完全透明再生に使用可能であることが
示された。
【0022】 作動環境の例 図1と以下の記述は本発明を適用するのに一般的に好適なコンピュータ環境を
簡単に説明したものである。特に必要というわけではないが、本発明を、パーソ
ナルコンピュータによって実行可能なプログラムモジュールのようなコンピュー
タが実行することのできる命令の一般的な形で記述することにする。一般的に、
プログラムモジュールには特定の処理を実行するか特定の抽象的なデータ形式に
関するルーチン、プログラム、オブジェクト、コンポーネント、データ構成等が
含まれる。さらに、当業者であれば、本発明は、ハンドヘルド装置、マルチプロ
セッサシステム、マイクロプロセッサを用いた又はプログラム可能な消費者用の
電子機器、ネットワークパーソナルコンピュータ、ミニコンピュータ、汎用大型
コンピュータ等のような前記以外のコンピュータによって実施できることも理解
することができる。作動環境はまた、通信ネットワークで接続された、リモート
処理装置によって処理を実行する分散型のコンピュータ環境であってもよい。分
散型のコンピュータ環境の場合には、プログラムモジュールは中央と遠隔記憶装
置の両方に存在してもよい。
【0023】 図1によれば、本発明を実行するために例示したシステムは、処理ユニット1
02、システム記憶装置104、システム記憶装置104を含む多くのシステム
の構成要素を演算装置102に接続するシステムバス106を具備した通常のパ
ーソナルコンピュータ100の形態をした汎用コンピュータ装置を含むものであ
る。システムバス106は、バス構造として存在する多くの構造の何れかを用い
たメモリバスやメモリコントローラ、周辺バス、ローカルバスのいずれであって
もよい。システム記憶装置は、読み出し専用記憶装置(ROM)110やランダ
ムアクセスメモリ(RAM)112を含む。立ち上げ時等においてパーソナルコ
ンピュータ100を構成する多くの構成要素間で情報を交換するために必要な基
本ルーチンを含む基本入出力システム114(BIOS)はROM110のなか
に記憶されている。パーソナルコンピュータ100はさらに図示されていない読
み出しと書き込みのためのハードディスク装置116、着脱可能な磁気ディスク
120に対して書き込みと読み出しを行う磁気ディスク装置118、CDROM
やその他の光磁気媒体からなる着脱可能な光磁気ディスク124に対して読み出
しと書き込みを行う光ディスク装置122を具備する。ハードディスク装置11
6、磁気ディスク装置128と光磁気ディスク装置122は、それぞれハードデ
ィスク装置のインターフェース126、磁気ディスク装置のインターフェース1
28と光磁気ディスク装置のインターフェース130を通じてシステムバス10
6に接続されている。これらの装置とそれぞれに対応するコンピュータによって
読み出し可能な媒体はコンピュータが読み出すことのできる命令、データ構成、
プログラムモジュールおよびその他のデータの不揮発性記憶媒体をコンピュータ
100に提供する。例示した動作環境にはハードディスク、着脱可能な磁気ディ
スク120と着脱可能な光磁気ディスク130が使用されているが、当業者であ
れば、磁気カセット、フラッシュメモリカード、デジタルビデオディスク、ベル
ヌーイカートリッジ、ランダムアクセスメモリ(RAM)、読み出し専用メモリ
(ROM)等のようなコンピュータによって読み出し可能でデータを記憶するこ
とができる媒体が使用されてもよいことが理解できる。
【0024】 オペレーティングシステム132、アプリケーションプログラム134、その
他のプログラムモジュール136やプログラムデータ138を含む多くのプログ
ラムモジュールがハードディスク、磁気ディスク120、光磁気ディスク124
、ROM110やRAM112に記憶されている。利用者は、キーボード140
やポイントディバイス142を使ってパーソナルコンピュータ100に命令や情
報を入力することができる。その他の入力装置(図示しない)としては、マイク
、ジョイスティック、ゲームパッド、サテライトディッシュ、スキャナのような
ものが含まれる。これらの入力装置はしばしばシステムバス106につながった
シリアルポートインターフェース144を介して演算ユニット102に接続され
ているが、パラレルポート、ゲームポートやユニバーサルシリアルバス(USB
)を介して接続されていてもよい。モニタ146又はその他の表示装置もビデオ
アダプタ148のようなインターフェースを介してパーソナルコンピュータに接
続されている。モニタ146以外にも、パーソナルコンピュータはスピーカやプ
リンタのようなその他の周辺出力機器(図示しない)を含む。
【0025】 パーソナルコンピュータ100は、リモートコンピュータ150のように、他
の1つ以上のコンピュータに論理接続を利用して接続されたネットワーク環境で
作動するものであってもよい。リモートコンピュータ150は、図1には記憶装
置152だけを示してあるが、他のパーソナルコンピュータ、サーバ、ルータ、
ネットワークパーソナルコンピュータ、ピア装置や他のネットワークノード、一
般的にパーソナルコンピュータに関連してすでに述べた装置の1つ又は複数のも
のであってもよい。図1に示した論理接続はローカルエリアネットワーク(LA
N)154やワイドエリアネットワーク(WAN)156を含む。このようなネ
ットワーク環境は事務所、企業内コンピュータネットワーク、イントラネットお
よびインターネットにおいて一般的なものである。
【0026】 LAN環境で使用する場合、パーソナルコンピュータ100はネットワークイ
ンターフェース化アダプタ158を介してローカルネットワーク154に接続さ
れる。WAN環境で使用する場合、パーソナルコンピュータ100は、インター
ネットのような広範囲のネットワーク156との通信を可能にするモデム160
かその他の手段を有するのが一般的である。内部装置であるか外部装置であるか
にかかわらず、モデム160は、シリアルポートインターフェース144を経由
してシステムバス106に接続されている。ネットワーク接続された環境では、
パーソナルコンピュータ100に関連して表現されたプログラムモジュール又は
その一部は、遠隔記憶装置に記憶されたものであってもよい。例示したネットワ
ーク接続は一例であり、コンピュータとの接続を達成するためには他の方法であ
ってもよいことが理解されるはずである。
【0027】 概観 図2は本発明に基づいて音声信号のエンコードとデコードを行うシステムと方
法を示すブロック/フロー図である。第1に、音源のアナログ音声入力信号を受
け取ってアナログ・デジタル(A/D)変換器210で処理する。A/D変換器
210は変換前のデータビットを作成する。変換前のデータビットはデジタルコ
ーダ212に送られ、本発明に従ってエンコードされたビットストリームが作成
される(コーダの詳細な説明は後に行う)。エンコードされたビットストリーム
は使用され、記録され、伝達等が行われた(ボックス214)後に、デジタルデ
コーダ216に送られ処理されてオリジナルな処理前のデータビットが作成され
る。デジタル・アナログ(D/A)変換器218は変換前のデータビットを受け
て変換して音声信号を出力する。作成された出力音声信号は入力された音声信号
と実質的に一致している。
【0028】 図3は、本発明に従って音声信号をコーディングするシステムの構成を示した
ブロック図である。本発明にかかるコーダ300(図2におけるコーダ212)
は、複数解像度に対応する変換プロセッサ310、重み付けプロセッサ312、
均一量子化手段314、マスキング閾値スペクトルプロセッサ316、エンコー
ダ318および通信装置320を有する。
【0029】 前記複数解像度に対応する変換プロセッサ310は、2つの解像度で変調され
た重複変換(MLT)変換プロセッサであるのが好ましい。変換プロセッサは、
元の信号を受けてこの元の信号から変換係数を作成する。重み付けプロセッサ3
12とマスキング閾値スペクトルプロセッサ316はスペクトルの重み付けを行
い、可能な限り多くの量子化ノイズについて部分的なホワイトニングを行う。均
一量子化手段314は連続値を離散値に変換する。エンコーダ318は、変換係
数をエンコードするエントロピーエンコーダであるのが好ましい。通信装置32
0は前記の装置から受け取った信号のマルチプレクシング(結合)を行い単一の
装置に出力するマルチプレクサ(MUX)であるのが望ましい。
【0030】 (図示しない)デコーダはコーダ300の逆の要素、つまり複数解像度の逆変
換プロセッサ(図示しない)、逆重み付けプロセッサ(図示しない)、逆均一量
子化手段(図示しない)、逆マスキング閾値スペクトルプロセッサ(図示しない
)、逆エンコーダ(図示しない)および逆MUX(図示しない)を具備する。
【0031】 要素の概観 図4は、本発明に従って音声信号をエンコードする方法の全体を示すフロー図
である。処理の詳細は図7から16を参照して説明する。一般的に、第1に、M
LT演算を行って(ボックス400)変換係数を作成し、次に変更されたMLT
係数によって(ボックス410)解像度切り替え(ボックス405)を行う。解
像度切り替えは過渡信号に対する性能を向上させるために行う。
【0032】 第2に、a)下で記述する(ボックス414)本発明に基づく聴覚マスキング
技術を用いて変換係数の重み付けを行い;b)簡略化されたバーク閾値スペクト
ルを算出し(ボックス416);c)重み付け関数の部分的なホワイトニングを
行い(ボックス418);d)スカラー量子化を行って(ボックス420)スペ
クトル重み付けを行う(ボックス412)。本発明においてスペクトルのホワイ
トニングは可能な限り多くの量子化ノイズを除去するために行うものである。目
的は、完全に透明な信号に可能な限り近い信号を再構成することである。
【0033】 第3に、量子化された係数をエントロピーコーディング(ボックス426)す
るためのエントロピーエンコーダのようなエンコーダで使用される確率分布モデ
ルの作成(ボックス424)と次に量子化ステップの最適化のために2値化サー
チを行って(ボックス428)、エンコードとパラメトリックモデル化を行う(
ボックス422)。スカラー量子化(ボックス420)は浮動小数点の係数を、
離散値の組の中で最も近い値である量子化係数に変換する。離散値相互の距離が
ステップサイズに相当する。エントロピーコーディングとパラメトリックモデル
化は特に明瞭な会話条件での性能を改善する。エントロピーエンコーディングは
メッセージの中のシンボルで表現されメッセージを作成する際に使用した確率モ
デル(パラメトリックモデル化)の関数である。モデルがメッセージを小さくす
るようもとのメッセージに含まれた音源シンボル分布をより良く反映するために
、モデルの複雑さが増大している。この技術によって人の話し声の周期的なスペ
クトル構造のエンコード性能が向上する。
【0034】 図5は、本発明に基づく音声信号コーディングシステムの全体を表すブロック
/フロー図である。図6は、本発明に基づく音声信号でコーディングシステムの
全体を表すブロック/フロー図である。一般に、入力信号x(n)の重複したブ
ロックは、不均一変換されて直交変換(NMLBT)510を通じてコーダ50
0によって周波数領域に変換される。NMLBT510は、基本的に異なる分解
と合成ウインドウを有し、時間軸における解像度を改善するために高周波数サブ
バンドの組み合わせを行う変調重複変換(MLT)である。信号のスペクトルに
よっては、高周波数サブバンドの結合スイッチのオン、オフが切り替えられ、図
6に示したデコーダにサイド情報として1ビットフラグが送られる。以下におい
て詳細に述べるように、NMLBT分解と合成ウインドウは変更されていない。
【0035】 変換係数X(k)は図5に示したように均一量子化装置512によって量子化
される。均一量子化装置512は、その出力を例えば連続長とタンストール(T
unstall)エンコーダ514(以下に詳細に記述する)によってエントロ
ピーコードすれば、レートとひずみに関しては最適なものに非常に近いものにな
る。ベクトル量子化(VQ)を用いてもよいが、エントロピーエンコーダに比較
してゲインは劣る。構成を単純化するためにツインVQやその他の構造を有する
VQを使用することも可能であるが、これらもスカラー量子化に比較すれば非常
に複雑である。
【0036】 所定のビットレートでひずみを最小にする最適なレートの設定方法は、ホワイ
ト量子化ノイズを発生させるのに、サブバンド/変換係数に同じステップサイズ
を用いるものである。これは、信号対雑音比(SNR)を最大にすることになる
が、聞き取りやすさを最高にするものではない。重み付け関数の算出516は、
サブバンドの数をMとしてk=0,1,・・・M−1への量子化に先立ってX(
k)をX(k)/w(k)で置き換える、ここで通常、Mの2乗は256と10
24の間である。図6に示したデコーダでは、再構成された変換係数X(k)←
X(k)w(k)が重み付けされる。したがって、量子化ノイズは重み付け関数
w(k)で規定されるスペクトルに従う。以下の段落で、w(k)の算出につい
て詳細に説明する。量子化された変換係数は、エントロピーコーダ514によっ
てエントロピーコード化される。パラメトリックモデル化を行い、その結果はエ
ントリピーコーダ514の効率を高めるためにエントリピーコーダ514で使用
される。同様に、ステップサイズを調整するためにステップ調節518が行われ
る。
【0037】 図6に示すデコーダの動作は図5から推定することができる。量子化された変
換係数に対応するエンコードされたビットのほかに、図6に示したデコーダは、
逆NMLBTのためのエントロピーでコーディングテーブル、量子化ステップサ
イズ、重み付け関数w(k)および単一/マルチ解像度フラッグを決定するため
に図5に示した追加の情報が必要である。
【0038】 構成要素の詳細と動作 前出の図5と図3によれば、入力された音声信号は連続変換プロセッサのよう
な変換プロセッサによって周波数成分に分解される。これは、他にもディスクリ
ート余弦変換器(DCTやDCT−IV)にような周波数領域への信号の分解に
有効な装置では有るが、人工的な障害を発生させる欠点を有するからである。例
えば、変換係数X(k)はDCTやDCT−IV変換プロセッサによってある程
度望ましい形で処理することができる:量子化、フィルタリング、雑音低減等。
【0039】 上述のように修正された係数の逆変換を行うことで再構成された信号ブロック
が得られる。このように再構成された信号ブロックを張り合わせて再構成信号(
すなわちデコードされた音声又はビデオ信号)を構成すると、ブロックの境界で
は不連続が発生する。これに対して、変調重複変換(MLT)は基本関数をブロ
ックサイズの2倍に、つまり2Mに延長することによってこのような不連続の発
生を抑えている。図7は本発明に基づく変調重複変換を示すフロー図である。
【0040】 MLTの基本関数は、DCT−IV関数を延長して、
【数1】 で表される適当なウインドウを掛けることによって得られる。ここで、kは0か
らM−1の間で変化し、nは0から2M−1の間で変化する。
【0041】 このように、MLTは直交または二直交ベースに帰着し、ウインドウを掛けた
重複する余弦関数の重ね合わせのように短時間で信号の周波数分解を行うことが
できるのでMLTを使用することが好適である。この種の関数は、DCTやDC
T−IVに比べて信号の部分的な周波数分解に、より効果的な手段である。ML
Tは余弦変調フィルターバンクの特殊な形態であり、完全な再構成を可能にする
ものである。例えば、MLT係数に基づいて信号を完全に再生することが可能で
ある。同様に、MLTはブロック陣害を生じさせない、つまり、MLTによる再
生信号は、境界部分において滑らかにゼロに収束する信号となり、ブロック境界
での不連続を発生させない。さらに、MLTは、広い範囲の信号の変換コーディ
ングの速度/歪に関してほとんど最適な性能を有する。
【0042】 具体的には、MLTは奇数重ね合わせ時間領域折り返しチャンセル(TDAC
)フィルタバンクに基づくものである。一般に、入力信号X(n)の(入力信号
の最後のM個のサンプルをシフトさせてその前に得られたM個のサンプルと組み
合わせることによって得られる)2M個のサンプリングデータn=0,1,2,
・・・2M−1からなるベクトルの変換によってM個の係数X(k),k=0,
1,2,・・・M−1からなる他のベクトルに変換される。変換は標準MLT演
算によって以下のように定義される:
【数2】 ここで、h(n)はMLTウインドウである。
【0043】 ウインドウ関数は基本的にブロッキング効果を低減するために使用するもので
ある。例えば、参照してここにその開示を取り込む、H.S.Malvarによ
る重複変換による信号処理(Signal Processing with
Lapped Transforms)、ボストン:アーテックハウス、199
2年は、滑らかなウインドウ変換子の余弦変調によってそのベースを得ることを
示している。ここで滑らかなウインドウ変換子は:
【数3】 で表される。ここで、pa(n,k)とps(n,k)は直接(分解)および逆
(合成)変換のための基本関数であり、ha(n)とhs(n)とはそれぞれ分
解と合成のウインドウである。時間を表す指標nは、0から2M−1まで変化し
、周波数を表す指標kは0からM−1まで変化する。ここで、Mはブロックの大
きさである。MLTはウインドウズがDCに最も集中するような重複変換を発生
させるTDACであり、以下で表される。
【数4】 直接変換マトリックスPaは、n行、k列のPa(n,k)である。同様に,逆
変換マトリックスはPsは、n行、k列のPs(n,k)である。入力されるx
(n)のサンプル数が2Mであるブロックxに関して,対応する変換係数のベク
トルXはx=PTaxで算出することができる。処理された変換係数のベクトル
Yに関しては,再構成されたサンプル数2Mのベクトルyはy=PsYで与えら
れる。再構成されたyベクトルは,Mサンプルが重複するように重ね合わせられ
、再構成された信号y(n)が作成される。
【0044】 MLTはDCT−IVと比較することができる。信号u(n)に関しては,長
さがMの直交DCT−IVは以下のように定義される。
【数5】 DCT−IVのベースとなる余弦関数の周波数は、MLTの周波数同様(k+1
/2)π/Mである。従って、2つの変換の間には簡単な関係式が成り立つ。例
えば、MLT係数がX(k)である信号X(n)に関しては、u(n)がx(n
)に関連していれば、n=0,1,・・・M/2−1に関して、X(k)=U(
k)であることが、以下のように示される:
【数6】 ここでΔM{・}はMサンプル(1ブロック)遅延装置である。説明のために、
DCT−IVと上の式を組み合わせて、標準DCT−IVからMLTを算出する
ことができる。例えば、Y(k)=X(k)であれば、つまり、変換係数(また
はサブバンド信号)の修正が無ければ、直接及び逆MLT処理された信号をカス
ケード結合してy(n)=x(n−2M)が得られる。ここで、Mサンプル分の
遅延はブロッキングオペレータに起因し、他のMサンプル分の遅延はMLTの内
部重複オペレータ(z−Mオペレータ)に起因する。
【0045】 変調重複二直交変換 本発明においては、実際には変調重複二直交変換(MLBT)を使用するのが
望ましい。図7は、本発明の変調重複二直交変換を示すフロー図である。MLB
Tは変調重複変換(MLT)の一変形である。MLTと同様、MLBTのウイン
ドウはブロックサイズの2倍であり、最大コーディングゲインをもたらすが、ウ
インドウの形状は本来のMLTのウインドウの形状とは若干異なる。数式1に示
した二直交MLTを作成するには、分解用と合成用のウインドウが同一でなけれ
ばならないという制限を緩和する必要がある。合成ウインドウが対称形であると
仮定し、数式1に二直交条件をあてはめると、数式1から、もし分解用ウインド
ウが
【数7】 とha(n)=ha(2M−1−n) の条件を満足すれば、変調重複二直交変換(MLBT)になる。
【0046】 ウインドウズを変換コーディング利得が最大になるように最適化することがで
き、その場合は最適化されたウインドウは数式2に示したMLTウインドウに収
束する。このことによって、MBLTは合成ベース関数応答の周波数選択性を改
善し、均一でないMLTを取り扱ってブロック合成への使用(以下に詳細に述べ
る)が可能になる。MLBTは数式1に記載された重複変換を合成ウインドウ
【数8】 と数式4によって定義される分解ウインドウによって変調した変調重複変換とし
て定義することができる。
【0047】 パラメータαは主としてウインドウの幅を制御し、β両端部の値を制御する。
MLTに対してMLBTが優れている主な点は、分解関数におけるストップバン
ド減衰の低下という代償を払って合成関数のストップバンド減衰を増加させた点
である。
【0048】 NMLBTと解像と切り替え 典型的な変換コーダのサブバンド数Mは適切な周波数解像度が得られるように
十分大きな数で無ければならず、通常はブロックサイズが20〜80ms程度に
なる。この結果、過渡信号に対する応答は不十分となり、前エコーを含むノイズ
パターンがブロック長を通じて残ることになる。このような信号においては、詳
細な周波数改造が必要なわけではないので、このような音声に対してはMを小さ
くすることが問題の解決になる。変調重複変換のブロック長を切り替えることは
困難ではないが、エンコードに起因する遅延をさらに増大させる可能性がある。
別の方法は、階層的変換又は離散波形に類似したツリー構造のフィルタバンクを
使用することである。そのような分解によって、高周波数のサブバンドに対して
はブロックサイズが小さく低周波数のサブバンドに対してはブロックサイズが大
きな新しい不均一サブバンド構造が得られる。階層的(またはカスケード構造の
)変換はブロック全域に渡って完全な時間領域選択性を有するが、周波数領域の
分解能は不十分である。例えば、QMFフィルタバンクの次にサブバンドに対し
てMLTを使用すると、QMF過渡バンド近傍のサブバンドのストップバンドリ
ジェクションは10dB程度と低くなり、ツリー構造の変換でも同様である。
【0049】 MLT/MLTBTの大きな派生物を低減するための新たな不均一変換構造を
作成する上記以外の、かつ、より好ましい方法は、時間−周波数解像度を変更す
ることによって達成することができる。変換の時間−周波数解像度を変更するこ
とは変換係数の組に対して新たな変換演算子を適用して、特定の不均一MLBT
(NMLBT)を発生する新たな変換係数の組を作成することによって行われる
。図7は、本発明に基づく不均一変調重複二直交変換を示す図である。
【0050】 図8は、本発明に基づく不均一変調重複二直交変換の作用を示した図である。
詳細に述べれば、不均一MBLTはサブバンド係数X(k)と、インパルス応答
の時間長が短いフィルタを有する新たなサブバンドを組み合わせることによって
作成される。一例を挙げれば:
【数9】 である。ここで、中心周波数が(2r+1/2)π/Mと(2r+3/2)π/
Mであるサブバンド信号X(2r)とX(2r+1)を組み合わせて新たな2つ
のサブバンド信号X’(2r)とX’(2r+1)を作成する。新たに作成され
たサブバンド信号は共に中心周波数が(r+1)π/Mで有るが、一方のインパ
ルス応答の中心はブロックの左側にあり他方のインパルス応答の中心はブロック
の右側にある。従って、時間領域の解像度を向上させるために周波数領域の解像
度が犠牲になっている。図9は、不均一変調重複二直交変換合成ベース関数の一
例を示す。
【0051】 変換係数を組み合わせる解像度切り替えによるこの方法の主要な利点は、時間
解像度が狭い新たなサブバンド信号が入力信号のMLTを算出した後に算出でき
ることである。従って、MLTウインドウ関数又はブロックサイズMを切り替え
る必要は無い。この手法はまた、サブバンド合成装置の前に、ノイズ低減装置エ
コーキャンセラ等の信号改善装置を元の変換/サブバンド係数に作用させること
を許容する。このことによってコーデックに前記のような信号改善装置を有効に
組み合わせることが可能になる。
【0052】 他の好ましい方法としては、時間領域での解像度が4倍になっていれば、より
好ましい結果が得られる。このことは、サブバンドフィルタのインパルス応答の
有効幅が、
【数10】 で表される条件の下で、ブロック幅の4分の1であることに帰着する。ここで特
に好ましいパラメータは、a=0.5412、b=(1/2)1/2、r=M0
,M0+1,・・・,代表的なM0はM/16である(つまり切り替えの解像度
はサブバンドの75%に対して、周波数0.25πからπまでについて適用され
る)。図10と11は本発明の構造に対応する合成ベース関数をプロットして示
したものである。時間分離は完全ではないが、過渡信号に関して誤差の拡散が抑
制されていることが示されている。
【0053】 上記のサブバンド組み合わせマトリックスの自動切換えは、エンコーダにおい
てブロック波形を解析することによって行うことができる。ブロック内でパワー
レベルが大きく変化するなら、組み合わせマトリックスがスタートする。切り替
えフラグがサイド情報としてレシーバに送られ、MLT係数を回復させるために
4×4の逆演算子を使用することができるようになる。他の切り替え方法は、M
LT係数X(k)内に対するパワー分布を解析し高周波数領域にノイズ状のパタ
ーンが検出されれば組み合わせマトリックスの使用を開始する方法である。
【0054】 図12は、本発明に基づいて解像度の切り替えを行う好ましいシステムと方法
を示した図である。図12に示されているように、解像度の切り替えはブロック
ごとに決定され、1ビットのサイド情報がスイッチがONかOFFかを示すため
にデコーダに送られる。好ましい実施態様では、ブロックに対する高周波成分の
エネルギーが低周波成分のエネルギーよりも所定の閾値幅以上大きければスイッ
チをONにする。基本的に、エンコーダは信号の高周波数と低周波数のパワー測
定を行って解像度スイッチの切り替えを行うものである。図12に示されている
ように、もし高周波数のパワー(PH)が低周波数のパワー(PL)に対する比
が所定の閾値以上であれば、ステップ2に示されたサブバンド組み合わせマトリ
ックスが適用される。
【0055】 スペクトル重み付け 図13は、本発明に基づいて、部分的にホワイトニングを伴う重み付け関数の
演算を行うシステムと方法を示すフロー図である。図13と共に既出の図3及び
図5を参照すれば、スペクトル重み付けを行う方法が簡単に示されている。本発
明に基づくスペクトル重み付けは量子化ノイズを可能な限りマスクするように行
われる。目的は完全な透明性を有する信号、つまり元の信号と判別できないほど
のデコード信号を作成することである。この目的は変換係数を人間の聴覚特性を
考慮したマスキング特性を有する関数w(k)によって変換係数に重み付けを行
うことによって達成することができる。このような重み付けは、量子化ノイズを
人の耳で聞き取られる程度を最小にすることによって量子化ノイズをマスクする
。また、通常使用されている時間のかかる重畳演算を採用しないことによって聴
覚重み付け関数の演算が簡素化されている。
【0056】 重み付け関数w(k)は、与えられた入力のスペクトル{X(k)}に対して
聴覚マスキング閾値曲線に従うのが理想的である。マスキング閾値はバークスケ
ールで算出されるのが望ましい。バークスケールとは、人の耳の臨界バンドを近
似する擬対数スケールである。コーディングレートが高い場合、つまりサンプル
ごとに3ビットである場合、得られる量子化ノイズは全てのバークサブバンドに
わたって量子化閾値よりも低い値となって完全に透明性のある再構成を行うこと
ができる。しかし、コーディングレートが低い場合、例えば1ビット/サンプル
の場合、全ての量子化ノイズをマスキング閾値以下にすることは困難である。こ
の場合、低周波数のマスクされていないノイズは通常一層不具合なので、量子化
ノイズがすべてのサブバンドについて量子化ノイズがマスキング閾値を同じデシ
ベル(dB)だけ高くなるようなことは避けるのが好ましい。これは、もとの重
み付け関数w(k)を、新たな件数w(k)αで置き換えることによって実現さ
れる。ここで、αは重み付け関数を部分的にホワイト化するための、一般には1
未満の値である。
【0057】 一般に、図3、4、5及び図13に示されているように、図13は聴覚閾値曲
線を算出するための、ステップサイズを算出する際に部分的なホワイトニングを
行う単純化された演算を示すものである。図13は、図3におけるボックス31
2と316、図4におけるボックス414、416と418、図5におけるボッ
クス516の詳細なブロック図である。図13に示されているように、MLT演
算とNMLBT変更の後、変換係数X(k)はまず2乗化モジュールが受け取っ
て変換係数の2乗計算を行う(ボックス1310)。次に、閾値モジュールがバ
ークスペクトル閾値を算出し(ボックス1312)、これはスプレッドモジュー
ルがバーク閾値拡散(1314)を行って聴覚閾値を求めるために使用する。調
整モジュールが次に聴覚閾値を絶対閾値に調整して、理想的な重み付け関数を作
成する(1316)。最後に、部分的なホワイトニングが行われて重み付け関数
がα乗されて最終的な重み付け関数が得られる(ボックス1318)。
【0058】 具体的には、2乗化モジュールは、i番目のバンドの即時パワーP(i)を作
成して、これを閾値モジュールが受け取ってマスキング閾値WMT(k)の計算
に使用する(図13ではボックス1310で示される)。これはまずバークスペ
クトルの上限周波数Bh(i)、i=1,2,・・・,25を定義して(このた
めには一般的な数学的装置が使用できる)バークサブバンドの上の周波数をHz
表現で: Bh=「100 200 300 400 510 630 770 920
1080 1270 1480 1720 2000」; Bh=「Bh 2320 2700 3150 3700 4400 5300
6400 7700 9500 12000 15500 22200」とす
ることによって達成される。
【0059】 次に,i番目のバークスペクトルのパワーPas(i)が、i番目のバークバ
ンド内にある全てのサブバンドの信号のパワーを平均することによって算出され
る。バンド内のマスキング閾値Tr(i)、Tr(i)=Pas(i)−Rfa
c(全てデシベルdB表記)が算出される。好ましくは7dBにセットされるパ
ラメータRfacは、バンド内のマスキング閾値レベルを決定する。これはバー
クパワースペクトルとバーク中央閾値を求める数学的な繰り返し処理によって達
成することができる。
【0060】 図13のボックス1314に示されているように、単純化されたバーク閾値ス
ペクトルが算出される。図14は、本発明に基づく簡素化されたバーク閾値の算
出を示すものである。「拡幅されたバーク閾値」は好ましくは臨界バンドにわた
る平行マスキングを考慮して算出するのが望ましい。つまり、マトリックス演算
子を使用して完全な重畳演算を行う代わりに、前記の方法で提案されているよう
に、本発明は、全てのバーク閾値と三角形の減衰を取り込んで作成した最大閾値
曲線を使用する。具体的には、まず、臨界バンドにわたる並行マスキングを考慮
して拡幅されたバーク閾値を算出する。例えば、マトリックス演算期によって全
重畳演算を行う代わりに、前の方法で提案されているように、本発明は単に全て
のバーク閾値と三角形の減衰を取り込んで作成した最大閾値曲線を使用する。三
角減衰は左側(低周波数の方向)については−25dB/バーク、右側(高周波
数の方向)については10dB/バークである。バークスペクトルの拡幅に関す
るこの発明の方法は、複雑性O(Lsb)、ここでLsbは信号のバンド幅でカ
バーされるバークサブバンドの数、であり従来の方法は典型的にはO(Lsb2
)の複雑さを有する。
【0061】 図13のボックス1316に示されているように、聴覚閾値は次に拡幅された
バーク閾値を絶対フレッチャー−マンソン閾値と比較してそれらのうちの高いほ
うを採用することで、全てのサブバンドについて調節される。これは例えば、絶
対マスキングを考慮した閾値に調節する単純な手順によって行うことができる。
一つの手順では、(ブロックごとに25までの) 閾値のベクトルが代表的には2.5dBにセットされている予め設定された正確
性のレベルに従って量子化され、閾値に対して2ないし4ビットでエンコードさ
れる。
【0062】 図13のボックス1318に示したレートの低いつまり1ビット/サンプルの
重み付け関数の部分的ホワイトニングに関しては、全ての量子化ノイズをマスキ
ング閾値未満にすることは不可能である。この場合には、低周波数のマスクされ
ていないノイズは通常高い周波数のものよりも不具合なのですべのサブバンドに
ついて量子化ノイズをマスキング閾値に対して同じデシベルだけ高くすることは
望ましくない。したがって、上記の手順によって算出された重み付けがWMT(
k)であるとすると、本発明のコーダが使用する最終的な重み付けの値は、
【数11】 となる。ここで、αはレートが低いときは0.5でレートが高いときは1となる
ように変化する値であり、好ましくはマスキング閾値の部分的なパワーが用いら
れる。従来の知覚的コーダでは、ビットレートが減少すると全ての周波数にわた
って量子化ノイズがマスキング閾値以上に高くなっていた。これに対して本発明
の場合には、部分ホワイトニングパラメータαを、例えば、ゼロと1の間の値に
(好ましくはα=0.5)セットすることができる。このことによって本来ノイ
ズスペクトルが小さい周波数のノイズスペクトルを一層高くすることができる。
換言すれば、α<1であれば、ノイズスペクトルのピークを減衰させることがで
きる。
【0063】 次に、w(k)を表すサイド情報の量ははサンプリング周波数fsに依存する
。例えば、fsが8kHzの場合、およそ17個のバークスペクトル値が必要で
、fsが44.1kHzの場合には25のバークスペクトルが必要である。バー
ク周波数バンド当り−10dBで高周波数のサブバンドにバンド間の拡散を行い
エンコードの差分精度が2.5dBに相当すると仮定すると、バーク係数あたり
3ビットが必要になる。重み付けをされた変換係数はスカラー量子化装置を用い
て量子化(連続値から離散値への変換)することができる。
【0064】 具体的には、スカラー量子化装置に関しては、最終的な重み付け関数w(k)
が最も感知し難い量子化ノイズの形状を決定することになる。従って、サブバン
ド周波数の係数X(k)はw(k)に比例する大きさのステップサイズによって
量子化されなければならない。等価な処理は、重み付け関数によって全てのX(
k)を割って、全ての係数X(k)について同じステップサイズを有する均一量
子化を行うことである。代表例としては以下の処理である: Xr = Round(X/dt); %量子化 Xqr= (Xr+Rqnoise)*dt; %スケールバック、擬似定常
ノイズを加える。ここでdtは量子化のステップの大きさである。ベクトルRq
noiseは{−γ、γ}の間に等しく分布する擬似ランダム変数から構成され
る。Rは量子化のステップサイズdtの0。1から0.5倍の間で選択されるパ
ラメータである。再構成された係数にこの小さなノイズを加えると、失われたス
ペクトル成分に起因する派生物を小さくすることができる。この手法は、ディザ
、擬ランダム量子化又はノイズフィリングと呼ばれている。
【0065】 エンコード 情報理論における従来の離散値コーディングの問題は、ソースからのシンボル
を最も節約したコードで表現することに関するものであった。例えば、ソースが
時間間隔iごとにシンボルsiを発生させ、シンボルsiはアルファベットZに
属するものと仮定する。また、シンボルsiは統計的に独立であって、確率分布
Prob{si=zn}、n=0,1,・・・,N−1、Nはアルファベットの
サイズつまり可能なシンボルの個数であると仮定する。この前提の上で、コード
を設計する問題は、通常はビットであるチャンネルシンボルによってシンボルの
表現を見出すことである。
【0066】 下の表に示したように、それぞれの可能性があるシンボルの値znに対してM
ビットのパターンをあてはめるために単純コードを使用することができる:
【表1】 この場合、シンボルあたりにコードはM個使用される。唯一のコードを対応させ
るにはMはLog2(N)以上であることが必要出ることは明らかである。
【0067】 一層好ましいコードはそれぞれのソースシンボルに可変長のコード化されたワ
ードを対応させることである。より可能性の高いシンボルに対してはより短いコ
ード化されたワードを対応させ;可能性の低いものに対して長いコード化された
ワード長のものを対応させる。例えば、ソースがアルファベットZ={a,b,
c,d}からなり,確率はpa=1/2、pb=pc=pd=1/6であるとす
る。このソースに対して使用することができる可変長コードの例は以下のように
なる。
【表2】
【0068】 メッセージが長い場合、コード長Lの期待値は、シンボルあたりのビット数と
してL=Σpnlnで与えられる。ここで、lnはコードシンボルznの長さで
ある。これは2ビット/シンボルが必要な単純2値コードのコード長よりも優れ
ている。
【0069】 上述の例では、コードワードは良く知られているハフマンのアルゴリズムを用
いて作成した。結果として使用されるコードワードは当該ソースに対するハフマ
ンコードとして知られている。ハフマンコードは、可能な全ての可変長コードの
中で期待されるコード長Lを最も短くするという意味において最適なものである
。エントロピーはソースの本質的な情報を測定する基準である。エントロピーは
シンボルごとのビットに基づいてE=−Σpnlog2(pn)によって求める
ことができる。コーディング理論によれば、全てのコードに対するコード長の期
待値は、ソースのエントロピー以下になることはできない。上に例示したソース
の場合、エントロピーは、シンボル当り、E=−(1/2)log2(1/2)
−(1/2)log2(1/6)=1.793ビットである。ハフマンコード長
は最適地に非常に近いことが理解される。
【0070】 他に可能なコード化手法は、一連のソースシンボルに対して固定長のコードワ
ードを対応させる方法である。一連のソースシンボルの長さは可変であり、コー
ドの効率は頻繁に登場する長い一連のソースシンボルが1つのコードワードで置
換される点にある。下の表に一例を示す。このコードの場合は、コードワードは
常に4ビットの長さであるが、長さの異なる一連のソースシンボルを表現するた
めに使用される。一連のソースシンボルの長さの平均値Canはテーブルに記載
した確率に基づいて簡単に計算することができ、K=25/12=2.083で
ある。これらの一連のソースシンボルが4ビットで表現されているので、ビット
レートは4×12/25=1.92ビット/シンボルである。
【表3】
【0071】 上述の例では、それぞれのコードワードに割り当てられるべき一連のソースシ
ンボルの選択(一連のソースシンボル表)は、B.P.Tunstallによる
「ノイズを含まない圧縮コードの合成」”Synthesis of nois
eless compression codes”、ジョージア州アトランタ
、ジョージア工科大学博士論文に記載された方法によった.この表に記載された
コードはタンストールコードと呼ばれる.タンストールコードは、全ての固定長
及び可変長のコードの中でコード長Lの期待値を最小にする点において、最適化
されたものである。したがって、タンストールコードがハフマンコードに対する
二元コードである。
【0072】 上記の例では、タンストールコードはハフマンコードほど効率的ではないかも
しれないが、コードワードの長さが長くなるに従って、つまり、テーブルの長さ
が長くなるにつれて、タンストールコードの性能はソースエントロピーに近くな
ってくることが示される。本発明の場合には、タンストールコードはデコーディ
ングが高速である点においてハフマンコードよりも優れている。これは、全ての
コードワードが同じ数のビットによって構成されているために、(以下に述べる
ように)解読が容易だからである。
【0073】 従って、本発明では好ましくは、連続長エンコーダ又はタンストールのような
、図15に示すエントロピーエンコーダを使用する。つまり、本発明に基づくエ
ントロピーエンコーディングを行うシステムと方法を示すフロー図である。本発
明を図示した図3と図15を参照しつつ、図15には、好ましくは可変長エント
ロピーエンコーダであるエンコーダを示す。
【0074】 エントロピーは、例えば確率モデルのようなモデルによって与えられる情報の
指標(換言すればメッセージに含まれる情報量の尺度)である。好ましいエント
ロピーエンコーダはメッセージに含まれるシンボルによって表現される情報の、
当該メッセージを作成するのに使用された確率モデルの関数である、平均的な情
報量を出力する(以下に詳細に述べる)。モデルが元のソースシンボルの現実の
分布を忠実に反映するにつれてモデルは複雑なものになる。好ましいエントロピ
ーエンコーダは連続長コーダとそれに続いて通常のタンストールコーダのような
可変長から固定長のコーダを使用することで量子化された係数のコード化を行う
【0075】 連続長エンコーダはゼロからなるシーケンスのシンボルレートを低減する。可
変長から固定長へのコーダはソース出力の一連の可変長データを所定長のコード
ワード出力に置き換える。可変長から固定長コードはソース出力の統計的な依存
度を利用する。タンストールコーダは可変長から固定長のコードを使用して、離
散的でメモリを有しないソースのために辞書の列あたりのソースレターの期待値
を最大にするために離散的な記憶容量を最大にする。換言すれば、入力されたシ
ーケンスは、平均メッセージ長を最大にしてそれぞれのブロックが固定長のコー
ドに対応するように、可変長のブロックに分割される。
【0076】 ASPECのような従来のコーダは、変換係数のサブセットに対して連続長コ
ーディングを使用して、ゼロで無い係数をハフマンコーダのような固定長から可
変長へのコーダベクトルによってエンコードした。それに対して、本発明は好ま
しくは、全ての量子化された変換係数からなるベクトルに対して作用する連続長
エンコーダを使用し、連続したゼロ値が連続したゼロの数を表すシンボルによっ
て置き換えられた、基本的に新たなシンボルソースを作成する。本発明に基づく
連続長エンコーダは、連続したゼロの数が「Rmin,Rmax」の間であれば
ゼロの値を特定のシンボルによって置き換える。特定の場合は、連続長コーダは
例えばRmax<Rminを置くことによってOFFにすることができる。
【0077】 タンストールコーダは、効率がソースシンボルの確率モデルに直接関連するの
で広く用いられていない。例えば、圧縮のためのコーダを設計する場合、ソース
に関する良いモデルが存在すればより効率の良い、つまり圧縮度の高い、コード
を作ることは可能である。結果として、効率の良いコーディングのためには、コ
ーダのためのストリング辞書を作成するために良い確率分布モデルが必要になる
。以下に述べる本発明は、タンストールコーディングが可能であってよい効率を
得るに十分な確率モデルを使用する。
【0078】 一般に、すでに述べたように、量子化された係数は連続長エンコーダとそれに
続く可変長から固定長へのブロックエンコーダによってエンコードされる。より
具体的には、第1に、量子化された変換係数q(k)が演算モジュールによって
ブロックとして受け取られブロックの絶対値の最大値を算出する(ブロック15
10)。つまり、全ての量子化された値をスキャンして最大絶対値A=max|
Xr(k)|を決定する。第2に、略算モジュール(ボックス1512)によっ
てAを、「4512」以下の2の累乗値であるvrを用いてvr>Aまたはvr
=Aとなるように値を丸めて量子化する。vrの値は従って、3ビットでエンコ
ードされ、デコーダに送られる。第3に、置き換えモジュールがq(k)を受け
取り、丸められた値と組み合わせられて「Rmin,Rmax」の範囲の連続し
たゼロ値を、連続したゼロの数を表す可変長から固定長への長さエンコード用辞
書で提起されたシンボルによってこれを置き換える(ボックス1514)。この
辞書は、図16に示したように、本発明に基づいてパラメトリックモデル化技術
を使用して算出されたものである。第4に、結果として得られた値s(k)は、
タンストールコーダのような可変長から固定長へのエンコーダ(ボックス151
6)によってエンコードされチャンネルシンボルが作成される。さらに、エント
ロピーエンコーダの効率は使用する確率モデルに直接依存するので、本発明に、
以下に詳細に述べるようなパラメトリックモデルを取り込むことが望ましい。
【0079】 パラメトリックモデリング 図16は、本発明に基づいてパラメトリックモデリングを使用したエントロピ
ーエンコーディングを行うシステムと方法を示したフロー図である。すでに述べ
たように、エントロピーコーダの効率は確率モデルの信頼度に直接関連している
。図16に示したように、コーダは、シンボル確率(後に述べる)から入力され
るストリングの辞書を作成する単純なアルゴリズムによって作成することができ
る入力ストリングの辞書を必要とする。算術的コーダやハフマンコーダを使用す
ることもできるが、記述のタンストールコーダのような可変長から固定長へのエ
ンコーダが本発明のパラメトリックモデルを使用した算術的コーダの効率に近い
効率を達成することができデコードが単純である。これはタンストールコーダが
、例えば1ビットである、すべて同じ長さを有することに起因する。
【0080】 さらに、現在の変換コーダは典型的には音楽のような複雑な信号に対して明瞭
な声のような単純な信号に対するよりも効率よく動作する。これは、これらの信
号に与えられたマスキングレベルが高いことと現在の変換コーダが使用している
エントロピーエンコーダの種類に起因するものである。従って、明瞭な声に関し
ては、低いビットレートで動いている現在の変換コーダは細かな調和構造を除去
することができない。つまり、話し声や1ビット/サンプルのビットレートでは
、量子化のステップサイズが大きすぎて、音声の基本調和周波数を除いて、ほと
んどの変換係数が量子化されるとゼロになってしまう。しかし、上述のエントロ
ピーエンコーダとパラメトリックモデルを用いれば、本発明は、1次エンコーダ
のような現在使用されているエントロピーエンコーディングシステムで期待でき
るよりも優れた結果をもたらすことができる。
【0081】 一般的に、本発明のパラメトリックもモデル化は、量子化されて連続長エンコ
ードされた変換係数の確率分布関数(PDF)のモデルを使用する。一般に、(
ハフマンコードで代表される)エントロピーコーディングを使用したこーデック
は、音声サンプルの集合から得られたヒストグラムからPDF(および対応する
量子化表)を演繹する。それに対して、本発明は、エンコード性能が優れた、全
ての入力ブロックに対してあてはめを行った変形ラプラス+指数確率密度を使用
する。本発明のPDFモデルの利点の一つは、形状が、量子化された係数のピー
ク値に直接関係する、1つのパラメータで制御されることである。このことはモ
デル選択のための演算が負担にならないことを意味しており、デコーダに対して
モデルを指定する際に演算が大きくなることは無い。最後に、本発明は最適な量
子化ステップサイズを決定するために2値検索手法を使用する。以下に示す2値
検索手法は、イテレーションのたびにマスキング用の閾値演算をさらに行わなけ
ればならない従来の方法に比較してはるかに簡単な手法である。
【0082】 具体的には、本発明に基づく確率分布モデルは、入力される全てのブロックの
量子化された変換係数のヒストグラムに対してフィットさせるために変形ラプラ
ス+指数確率密度関数(PDF)を使用する。PDFモデルは、上述の図15の
ボックス1510に記載されたパラメータAによって制御される(図15のボッ
クス1512に示されているように、Aはvrによって近似されることに注意す
る必要がある)。したがって、PDFモデルは以下のように定義される:
【数12】 ここで、変換された連続長エンコードされたシンボルは以下に記載するアルファ
ベットに含まれる。
【表4】
【0083】 ステップサイズを最適化するための2値サーチにおいて、上述のスカラー量子
化で使用する量子化のステップの大きさdtは、再構成の忠実性とビットレート
との間のトレードオフを制御する。量子化ステップサイズが小さければ忠実度が
高くビットレートも高くなる。レートを固定した状態では、量子化ステップの大
きさdtは、シンボルエンコーダ(タンストール)の出力におけるビットレート
が所望のレートに(超えない範囲で)可能な限り近づくように再帰的手法で調節
する必要がある。
【0084】 ステップサイズを決定するためにいくつかの方法を使用することができる。1
つの方法は:1)入力のスケーリングに依存するパラメータであるdt=0で表
されるdBで表現された量子化ステップサイズからスタートする。2)kdd=
16としてdtによって得られたレートを確認する。もし、この値が所定値を超
えていればステップサイズをdt=dt+kddさもなければdt=dt−kd
dによって変更する。3)kdd=1つまり最適ステップサイズが1dBの精度
で求められるまで、イテレーションのたびにkddを1/2にして(2値化サー
チ)上述の手順を繰り返す。この方法によって最大64個のステップサイズが発
生し、従って最適ステップサイズは7ビットで表現されてデコーダに送られるこ
とは容易に理解される。
【0085】 本発明に従って音声信号をデコードするシステムを表した全体ブロック/フロ
ー図である前出の図6を参照する。デコーダは、図6に示されているように、適
当な逆処理ステップを実施する。可変長から固定長へのデコーダ(例えばタンス
トールデコーダ)と連続長でコーディングモジュールがエンコードされたビット
ストリームと量子化された変換係数を回復するためのPDFレンジパラメータに
関するサイド情報を受け取る。可変長から固定長へのデコーダと連続量コーディ
ングモジュールと組み合わせられた均一逆量子化モジュールが、均一量子化から
重みつきNMLBT変換係数の略算値を取り出して再構成する。逆重み付けモジ
ュールは、変換係数を適当なスケール範囲に戻すために逆変換を行う。逆NML
BT変換モジュールは、下の信号ブロックの略算値を再生する。使用することの
できるチャンネルビットが大きいほど、量子化ステップサイズは小さく、再生の
忠実度は高い。
【0086】 デコーダの演算の複雑さはエンコーダの演算よりも2つの理由で少ないことに
注意する必要がある。第1に、タンストールデコーディングのような(表を参照
するだけの)可変長から固定長へのデコーディングはそれに対応する(ストリン
グサーチを必要とする)エンコーディングよりも高速である。第2に、ステップ
サイズが知られているので、逆量子化は一度実施するだけでよい(エンコーダと
は違って繰り返し演算は不要である)。しかし、いずれにしても、エンコーダと
デコーダの双方において、演算の主要部分はNMLBT内に存在しており、高速
フーリエ変換を使用して効率よく算出することができる。
【0087】 本発明に関する今までの記載は説明と記述を目的としたものである。本発明を
記述した通りのものに限定することを意図したものではない。上述の開示に基づ
いて多くの変形や変更を行うことができる。発明の範囲は詳細な説明ではなく添
付の特許請求の範囲の記載によって定められるべきである。
【図面の簡単な説明】
【図1】 本発明を実施するための装置を示すブロック図である。
【図2】 本発明に基づいて音声信号をエンコード/デコードするためのシ
ステムと方法を示す全般的なブロック/フロー図である。
【図3】 本発明に基づいて音声信号をエンコードするためのシステムを示
す全体ブロック図である。
【図4】 本発明に基づいて音声信号をエンコードする方法を示す全体フロ
ー図である。
【図5】 本発明に基づいて音声信号をエンコードするシステムを表す全体
ブロック/フロー図である。
【図6】 本発明に基づいて音声信号をデコードするシステムを表す全体ブ
ロック/フロー図である。
【図7】 本発明に基づく変調重複変換を示すフロー図である。
【図8】 本発明に基づく変調重複二直交変換を示すフロー図である。
【図9】 本発明に基づく不均一変調ラップ二直交変換を示す単純化したブ
ロック図である。
【図10】 不均一変調重複二直交変換合成基礎関数の一例を示す。
【図11】 不均一変調重複二直交変換合成基礎関数の他の例を示す。
【図12】 本発明に基づく解像度切り替えシステムと方法を示すフロー図
である。
【図13】 本発明に基づく部分ホワイトニングを含む重み付け関数演算の
ためのシステムと方法を示すフロー図である
【図14】 本発明に基づく単純化されたバーク(Bark)閾値演算を行
うためのシステムと方法を示すフロー図である。
【図15】 本発明に基づくエントロピーエンコーディングを行うためのシ
ステムと方法を示すフロー図である。
【図16】 本発明に基づくパラメトリックモデル化を行うためのシステム
と方法を示すフロー図である。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,UG,ZW),E A(AM,AZ,BY,KG,KZ,MD,RU,TJ ,TM),AL,AM,AT,AU,AZ,BA,BB ,BG,BR,BY,CA,CH,CN,CU,CZ, DE,DK,EE,ES,FI,GB,GD,GE,G H,GM,HR,HU,ID,IL,IN,IS,JP ,KE,KG,KP,KR,KZ,LC,LK,LR, LS,LT,LU,LV,MD,MG,MK,MN,M W,MX,NO,NZ,PL,PT,RO,RU,SD ,SE,SG,SI,SK,SL,TJ,TM,TR, TT,UA,UG,UZ,VN,YU,ZW Fターム(参考) 5D045 DA11 5J064 AA04 BA09 BA16 BC02 BC06 BC16 BC22 BC25 BC28 BC29 BD02 BD04 5K015 AA02 JA01 JA05 JA10 5K041 AA09 CC01 EE31 EE36 FF36 HH37

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 量子化された変換係数サンプルのブロックを含む入力信号を
    受けるシステムにおいて、量子化された変換係数をエントロピーコーディングす
    る方法であって: サンプルブロックの絶対値の最大値を算出し(1510); 量子化された係数のピーク値を丸め処理し(1512); サンプルブロック中の量子化された値の連続したゼロを、可変長から固定長へ
    のエンコーディング辞書の定義に基づく、連続の長さを表す新たなシンボルによ
    って置き換え(1514);そして、 新たなシンボルを可変長から固定長へのエンコーダによってエンコードして情
    報ビットによって定義されたチャンネルシンボルを作成する(1516)ことを
    含む方法。
  2. 【請求項2】 連続した量子化ゼロ値を置き換える操作が、全ての量子化さ
    れた変換係数からなるベクトルを操作して新たなシンボルソースを作成すること
    を含む請求項1に記載の方法。
  3. 【請求項3】 連続したゼロの値が所定の範囲にある場合にのみ連続したゼ
    ロの値を特定のシンボルで置き換える(1514)請求項1に記載の方法。
  4. 【請求項4】 サンプルブロックの絶対値の最大値の算出が、最大絶対値が
    発見されるまで全ての量子化された値をスキャンすることで行われる(1510
    )請求項1に記載の方法。
  5. 【請求項5】 量子化された値のピーク値の丸め処理が、算出された絶対値
    の最大値を量子化し、ピーク値のパワーが4から512の範囲であればピーク値
    を3ビットでエンコードする(1512)ことで行われる請求項1に記載の方法
  6. 【請求項6】 各ソースシンボルに可変長のコードワードをあてはめ、可変
    長から固定長へのエンコーダのコードワードの長さは同じである(1516)請
    求項1に記載の方法。
  7. 【請求項7】 量子化された係数を作成するために入力信号のサンプルブロ
    ックをエンコードするエンコーダによってコード化された周波数領域の変換係数
    を有するシステムにおいて、エンコーダのソースシンボルをパラメトリックモデ
    ル化する方法であって、 サンプルの入力されるブロックを近似する数学的な変換と指数確率密度関数を
    求めることによって確率分布関数を算出し(1610); 算出された確率分布関数に基づいてシンボルの確率から入力ストリングの辞書
    を作成する(1610)ことを含む方法。
  8. 【請求項8】 確率分布関数の算出は量子化された係数の最大値によって定
    義される単一のパラメータと、少なくとも1つの調整可能なパラメータを有する
    クローズドモデルを使用して確率分布関数を求める(1610)請求項7に記載
    の方法。
  9. 【請求項9】 確率分布関数が量子化された係数のピーク値に直接関係する
    単一のパラメータによって制御される形状を有する請求項8に記載の方法。
  10. 【請求項10】 確率分布関数がサンプルブロックの絶対値の最大値によっ
    て制御される請求項7に記載の方法。
  11. 【請求項11】 入力信号をコーディングするコーディングシステムにおい
    て、有効なビットレートを制御し再構成の忠実度を保持するために最適な量子化
    ステップサイズを決定する方法であって、 有限数の量子化ステップサイズを予め決定し(428);そして、 ビットレートが予め設定された望ましいレートと一致するまで、量子化ステッ
    プサイズを2値化サーチを用いて回帰的に調整して最適な値を検索する(428
    )ことを含む方法。
  12. 【請求項12】 量子化ステップサイズを、ビットレートが予め設定された
    レートを超えない範囲で予め設定されたレートと一致するまで回帰的方法で調節
    する(428)請求項11に記載の方法。
  13. 【請求項13】 量子化ステップサイズの有限個のセットは入力信号の基準
    に基づくスケーリングに依存する請求項11に記載の方法。
JP2000551380A 1998-05-27 1999-05-27 信号の量子化変換係数をエントロピーエンコードするシステムと方法 Expired - Fee Related JP4570250B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US09/085,620 US6115689A (en) 1998-05-27 1998-05-27 Scalable audio coder and decoder
US09/085,620 1998-05-27
US09/109,345 1998-06-30
US09/109,345 US6029126A (en) 1998-06-30 1998-06-30 Scalable audio coder and decoder
PCT/US1999/011896 WO1999062052A2 (en) 1998-05-27 1999-05-27 System and method for entropy encoding quantized transform coefficients of a signal

Publications (2)

Publication Number Publication Date
JP2002517019A true JP2002517019A (ja) 2002-06-11
JP4570250B2 JP4570250B2 (ja) 2010-10-27

Family

ID=26772919

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2000551380A Expired - Fee Related JP4570250B2 (ja) 1998-05-27 1999-05-27 信号の量子化変換係数をエントロピーエンコードするシステムと方法
JP2000551492A Expired - Fee Related JP4864201B2 (ja) 1998-05-27 1999-05-27 音声信号の量子化ノイズをマスクするためのシステムと方法
JP2000551538A Expired - Fee Related JP4373006B2 (ja) 1998-05-27 1999-05-27 スケーラブル音声コーダとデコーダ

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2000551492A Expired - Fee Related JP4864201B2 (ja) 1998-05-27 1999-05-27 音声信号の量子化ノイズをマスクするためのシステムと方法
JP2000551538A Expired - Fee Related JP4373006B2 (ja) 1998-05-27 1999-05-27 スケーラブル音声コーダとデコーダ

Country Status (7)

Country Link
EP (4) EP1080579B1 (ja)
JP (3) JP4570250B2 (ja)
CN (3) CN100361405C (ja)
AT (4) ATE339037T1 (ja)
AU (3) AU4218099A (ja)
DE (4) DE69930848T2 (ja)
WO (3) WO1999062189A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010508550A (ja) * 2006-11-02 2010-03-18 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スペクトル値の後処理用装置と方法及びオーディオ信号のエンコーダとデコーダ
KR101461771B1 (ko) 2010-05-27 2014-11-14 소니 주식회사 랜덤 액세스 능력을 갖는 이미지 압축 방법

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000051014A2 (en) * 1999-02-26 2000-08-31 Microsoft Corporation Modulated complex lapped transform for integrated signal enhancement and coding
US6826242B2 (en) * 2001-01-16 2004-11-30 Broadcom Corporation Method for whitening colored noise in a communication system
ATE338999T1 (de) * 2001-10-19 2006-09-15 Koninkl Philips Electronics Nv Differentielle kodierung im frequenz bereich von sinusmodell parametern
DE10204617B4 (de) * 2002-02-05 2005-02-03 Siemens Ag Verfahren und Vorrichtungen zur Kompression und Dekompression eines Videodatenstroms
ES2721055T3 (es) * 2002-09-20 2019-07-26 Ntt Docomo Inc Método y aparato para decodificación aritmética
US7395210B2 (en) * 2002-11-21 2008-07-01 Microsoft Corporation Progressive to lossless embedded audio coder (PLEAC) with multiple factorization reversible transform
CN100339886C (zh) * 2003-04-10 2007-09-26 联发科技股份有限公司 可以检测声音信号的暂态位置的编码器及编码方法
US8627213B1 (en) * 2004-08-10 2014-01-07 Hewlett-Packard Development Company, L.P. Chat room system to provide binaural sound at a user location
CN101241701B (zh) * 2004-09-17 2012-06-27 广州广晟数码技术有限公司 用于对音频信号进行解码的方法和设备
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
AU2011221401B2 (en) * 2005-06-17 2014-05-01 Dts (Bvi) Limited Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
CN101129063B (zh) * 2005-11-18 2010-05-19 索尼株式会社 编码设备和方法、解码设备和方法以及传输系统
US7953595B2 (en) * 2006-10-18 2011-05-31 Polycom, Inc. Dual-transform coding of audio signals
CN101206860A (zh) * 2006-12-20 2008-06-25 华为技术有限公司 一种可分层音频编解码方法及装置
FR2912249A1 (fr) * 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
ES2658942T3 (es) * 2007-08-27 2018-03-13 Telefonaktiebolaget Lm Ericsson (Publ) Análisis espectral/síntesis de baja complejidad utilizando resolución temporal seleccionable
EP2267700B1 (en) * 2009-06-22 2011-12-21 APT Licensing Limited Apparatus and method for selecting quantisation bands in audio encoders
US8428959B2 (en) * 2010-01-29 2013-04-23 Polycom, Inc. Audio packet loss concealment by transform interpolation
CN103282958B (zh) * 2010-10-15 2016-03-30 华为技术有限公司 信号分析器、信号分析方法、信号合成器、信号合成方法、变换器和反向变换器
CN102103859B (zh) * 2011-01-11 2012-04-11 东南大学 一种数字音频编码、解码方法及装置
CN103117793B (zh) * 2013-01-25 2015-04-08 西安电子科技大学 多用户频谱感知中的伪均匀量化方法
CN110619892B (zh) * 2014-05-08 2023-04-11 瑞典爱立信有限公司 音频信号区分器和编码器
EP2992898A1 (en) 2014-09-04 2016-03-09 Klinikum rechts der Isar der Technischen Universität München T-cell adjuvant and its use for therapeutic or prophylactic vaccination
US9430676B1 (en) 2015-03-17 2016-08-30 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Processor related noise encryptor
CN109193787B (zh) * 2018-10-28 2021-07-06 国网吉林省电力有限公司四平供电公司 一种含新能源配电网的谐波路径识别方法
US11726761B2 (en) * 2019-03-26 2023-08-15 Tymphany Acoustic Technology (Huizhou) Co., Ltd. Firmware upgrade for wireless stereo earbuds
CN113365176B (zh) * 2020-03-03 2023-04-28 华为技术有限公司 一种实现主动噪声消除的方法、装置和电子设备
WO2024008928A1 (en) * 2022-07-07 2024-01-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Masking threshold determinator, audio encoder, method and computer program for determining a masking threshold information

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05119800A (ja) * 1991-10-24 1993-05-18 Kyocera Corp デジタル音声データの高能率圧縮方法
JPH08167851A (ja) * 1994-12-15 1996-06-25 Sony Corp 高能率符号化方法及び装置、並びに伝送媒体
JPH09503630A (ja) * 1993-07-07 1997-04-08 ピクチャーテル コーポレイション 固定ビットレートのスピーチエンコーダ/デコーダ
JPH09135173A (ja) * 1995-11-10 1997-05-20 Sony Corp 符号化装置および符号化方法、復号化装置および復号化方法、伝送装置および伝送方法、並びに記録媒体
JPH1063299A (ja) * 1996-08-21 1998-03-06 Matsushita Electric Ind Co Ltd ベクトル量子化装置
JPH1065546A (ja) * 1996-08-20 1998-03-06 Sony Corp ディジタル信号処理方法、ディジタル信号処理装置、ディジタル信号記録方法、ディジタル信号記録装置、記録媒体、ディジタル信号送信方法及びディジタル信号送信装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4929946A (en) * 1989-02-09 1990-05-29 Storage Technology Corporation Adaptive data compression apparatus including run length encoding for a tape drive system
CA2020084C (en) * 1989-06-29 1994-10-18 Kohei Iseda Voice coding/decoding system having selected coders and entropy coders
US5185800A (en) * 1989-10-13 1993-02-09 Centre National D'etudes Des Telecommunications Bit allocation device for transformed digital audio broadcasting signals with adaptive quantization based on psychoauditive criterion
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
JP3191457B2 (ja) * 1992-10-31 2001-07-23 ソニー株式会社 高能率符号化装置、ノイズスペクトル変更装置及び方法
JPH07261797A (ja) * 1994-03-18 1995-10-13 Mitsubishi Electric Corp 信号符号化装置及び信号復号化装置
JPH0836399A (ja) * 1994-07-21 1996-02-06 Sony Corp オーディオ符号化データの処理装置
EP0749647B1 (en) * 1995-01-09 2003-02-12 Koninklijke Philips Electronics N.V. Method and apparatus for determining a masked threshold
US5870036A (en) * 1995-02-24 1999-02-09 International Business Machines Corporation Adaptive multiple dictionary data compression
US5627534A (en) * 1995-03-23 1997-05-06 International Business Machines Corporation Dual stage compression of bit mapped image data using refined run length and LZ compression
US5692102A (en) * 1995-10-26 1997-11-25 Motorola, Inc. Method device and system for an efficient noise injection process for low bitrate audio compression
JP3353266B2 (ja) * 1996-02-22 2002-12-03 日本電信電話株式会社 音響信号変換符号化方法
US5924064A (en) * 1996-10-07 1999-07-13 Picturetel Corporation Variable length coding using a plurality of region bit allocation patterns

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05119800A (ja) * 1991-10-24 1993-05-18 Kyocera Corp デジタル音声データの高能率圧縮方法
JPH09503630A (ja) * 1993-07-07 1997-04-08 ピクチャーテル コーポレイション 固定ビットレートのスピーチエンコーダ/デコーダ
JPH08167851A (ja) * 1994-12-15 1996-06-25 Sony Corp 高能率符号化方法及び装置、並びに伝送媒体
JPH09135173A (ja) * 1995-11-10 1997-05-20 Sony Corp 符号化装置および符号化方法、復号化装置および復号化方法、伝送装置および伝送方法、並びに記録媒体
JPH1065546A (ja) * 1996-08-20 1998-03-06 Sony Corp ディジタル信号処理方法、ディジタル信号処理装置、ディジタル信号記録方法、ディジタル信号記録装置、記録媒体、ディジタル信号送信方法及びディジタル信号送信装置
JPH1063299A (ja) * 1996-08-21 1998-03-06 Matsushita Electric Ind Co Ltd ベクトル量子化装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010508550A (ja) * 2006-11-02 2010-03-18 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スペクトル値の後処理用装置と方法及びオーディオ信号のエンコーダとデコーダ
US8321207B2 (en) 2006-11-02 2012-11-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Device and method for postprocessing spectral values and encoder and decoder for audio signals
KR101461771B1 (ko) 2010-05-27 2014-11-14 소니 주식회사 랜덤 액세스 능력을 갖는 이미지 압축 방법

Also Published As

Publication number Publication date
EP1080579A2 (en) 2001-03-07
CN1312977A (zh) 2001-09-12
EP1080542B1 (en) 2006-09-06
AU4218299A (en) 1999-12-13
CN1146130C (zh) 2004-04-14
EP1080462B1 (en) 2005-02-02
EP1701452B1 (en) 2008-01-16
ATE339037T1 (de) 2006-09-15
DE69930848T2 (de) 2006-09-07
WO1999062052A2 (en) 1999-12-02
JP4373006B2 (ja) 2009-11-25
JP4864201B2 (ja) 2012-02-01
DE69933119T2 (de) 2007-09-13
AU4218199A (en) 1999-12-13
CN100361405C (zh) 2008-01-09
WO1999062052A3 (en) 2000-03-09
JP2002517025A (ja) 2002-06-11
DE69938016D1 (de) 2008-03-06
ATE384358T1 (de) 2008-02-15
EP1080542A2 (en) 2001-03-07
WO1999062189A2 (en) 1999-12-02
DE69923555D1 (de) 2005-03-10
ATE323377T1 (de) 2006-04-15
DE69930848D1 (de) 2006-05-24
CN1183685C (zh) 2005-01-05
EP1701452A1 (en) 2006-09-13
WO1999062189A3 (en) 2000-03-16
DE69938016T2 (de) 2008-05-15
AU4218099A (en) 1999-12-13
JP4570250B2 (ja) 2010-10-27
DE69923555T2 (de) 2006-02-16
ATE288613T1 (de) 2005-02-15
EP1080579B1 (en) 2006-04-12
JP2002517023A (ja) 2002-06-11
EP1080462A2 (en) 2001-03-07
DE69933119D1 (de) 2006-10-19
WO1999062253A2 (en) 1999-12-02
CN1312974A (zh) 2001-09-12
WO1999062253A3 (en) 2000-03-09
CN1312976A (zh) 2001-09-12

Similar Documents

Publication Publication Date Title
JP4570250B2 (ja) 信号の量子化変換係数をエントロピーエンコードするシステムと方法
US6115689A (en) Scalable audio coder and decoder
US6029126A (en) Scalable audio coder and decoder
US6253165B1 (en) System and method for modeling probability distribution functions of transform coefficients of encoded signal
JP2756515B2 (ja) 可聴信号の知覚符号化方法および音声信号伝送方法
US6148288A (en) Scalable audio coding/decoding method and apparatus
JP3203657B2 (ja) 情報符号化方法及び装置,情報復化方法及び装置,情報伝送方法,並びに情報記録媒体
WO1994028633A1 (fr) Appareil et procede de codage ou decodage de signaux, et support d'enregistrement
JPH08190764A (ja) ディジタル信号処理方法、ディジタル信号処理装置及び記録媒体
US6604069B1 (en) Signals having quantized values and variable length codes
JPH08237132A (ja) 信号符号化方法及び装置、信号復号化方法及び装置、並びに情報記録媒体及び情報伝送方法
Sinha et al. The perceptual audio coder (PAC)
JPH1084284A (ja) 信号再生方法および装置
JP3964860B2 (ja) ステレオオーディオの符号化方法、ステレオオーディオ符号化装置、ステレオオーディオの復号化方法、ステレオオーディオ復号化装置及びコンピュータで読み取り可能な記録媒体
JPH0846518A (ja) 情報符号化方法及び復号化方法、情報符号化装置及び復号化装置、並びに情報記録媒体
JP3557674B2 (ja) 高能率符号化方法及び装置
Dobson et al. High quality low complexity scalable wavelet audio coding
JPH06242797A (ja) 変換符号化装置のブロックサイズ決定法
WO1999044291A1 (fr) Dispositif et procede de codage, dispositif et procede de decodage, support d'enregistrement de programme et de donnees
Teh et al. Subband coding of high-fidelity quality audio signals at 128 kbps
KR100640833B1 (ko) 디지털 오디오의 부호화 방법
Chang et al. Scalable embedded zero tree wavelet packet audio coding
JPH07336231A (ja) 信号符号化方法及び装置、信号復号化方法及び装置、並びに記録媒体
JPH07221649A (ja) 情報符号化方法及び装置、情報復号化方法及び装置並びに情報記録媒体及び情報伝送方法
JPH05114863A (ja) 高能率符号化装置及び復号化装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060410

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090724

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100803

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100810

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130820

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees