JPH11504733A - Multi-stage speech coder by transform coding of prediction residual signal with quantization by auditory model - Google Patents

Multi-stage speech coder by transform coding of prediction residual signal with quantization by auditory model

Info

Publication number
JPH11504733A
JPH11504733A JP9530382A JP53038297A JPH11504733A JP H11504733 A JPH11504733 A JP H11504733A JP 9530382 A JP9530382 A JP 9530382A JP 53038297 A JP53038297 A JP 53038297A JP H11504733 A JPH11504733 A JP H11504733A
Authority
JP
Japan
Prior art keywords
signal
pitch
lpc
processor
quantized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9530382A
Other languages
Japanese (ja)
Inventor
ジュイン ウェイ チン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of JPH11504733A publication Critical patent/JPH11504733A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Abstract

(57)【要約】 「変換予測符号化」又はTPCと呼ばれる音声圧縮システムは、1サンプルあたり1つ又は2つの16又は32kb/秒のビットという標準ビットレートでサンプリングする16kHzでの7kHz帯域の音声の符号化を行う。システムは、冗長性を除去するため、短期及び長期の予測を用いる。予測残余は、(60)からの時間領域データ及び(100)からのパラメータ入力を受諾した後(110)により図に示されたとおり周波数領域で変換され符号化され、かくして聴覚知覚のためのスペクトルが補正される。TPC符号器は(70)により示されているような開ループ量子化のみを用い、従って低い複雑性をもつ。音声品質は32kb/秒で透明であり、24kb/秒で非常に優れ、16kb/秒で許容できるものである。 (57) [Summary] A speech compression system called "Transform Predictive Coding" or TPC is a 7 kHz band of speech at 16 kHz sampling at a standard bit rate of one or two 16 or 32 kb / s bits per sample. Is performed. The system uses short-term and long-term predictions to remove redundancy. The prediction residual is transformed and encoded in the frequency domain as shown in the figure by (110) after accepting the time domain data from (60) and the parameter input from (100), and thus the spectrum for auditory perception Is corrected. The TPC encoder uses only open-loop quantization as indicated by (70) and thus has low complexity. Voice quality is transparent at 32 kb / s, very good at 24 kb / s and acceptable at 16 kb / s.

Description

【発明の詳細な説明】 聴覚モデルによる量子化を伴う予測残余信号の変形符号化による多段音声符号器発明の分野 本発明は、例えば音声信号といったオーディオ信号の予測符号化システムを用 いた圧縮(符号化)に関する。発明の背景 信号圧縮に関する文献で教示されているように、音声及び音楽の波形は、非常 に異なる符号化技術によって符号化される。16kb/秒以下で符号化する電話 帯域幅(3.4kHz)の音声といったような音声符号化は、時間領域予測符号 器により主に行われてきた。これらの符号器は、符号化すべき音声波形を予測す るのに音声生成モデルを使用する。このとき、原信号内の冗長性を低減するため 実際の(もとの)(符号化すべき)波形から予測された波形が減算される。信号 冗長性の減少は、符号化利得をもたらす。このような予測音声符号器の例として は、音声信号圧縮の技術において全て良く知られたものである適応予測符号化、 マルチパルス線形予測符号化及び符号励起線形予測(CELP)符号化がある。 一方、64kb/秒以上の広帯域(0〜20kHz)音楽符号化は、周波数領 域変換又はサブバンド符号器によって主に行われてきた。これらの音楽符号器は 、根本的に上述の音声符号器と非常に異なっている。この差異は、音楽ソースが 、音声ソースと異なり直ちに予測できるようにするには変動が大きすぎるもので あるという事実に起因する。その結果、音楽ソースのモデルは一般に音楽符号化 には使用されない。その代り、音楽符号器は、信号のうち知覚的に関連する部分 のみを符号化するために、精巧な人間の聴覚モデルを使用する。すなわち、一般 に音声生成モデルを用いる音声符号器とは異なり、音楽符号器は、符号化利徳を 得るべく聴力(受音)モデルを利用する。 音声符号器においては、符号化すべき音楽の雑音マスキング能力を見極めるた めに、聴力モデルが使用される。「雑音マスキング能力」という語は、リスナー が雑音に気づかうことなく音楽信号内にどれほどの量子化雑音を導入できるかを 言う。この雑音マスキング能力はこのとき、量子化器分解能(例えば量子化器ス テップサイズ)をセットするのに用いられる。一般に、音楽は、それが「音調様 」になればなるほど、マスキング量子化雑音において粗末なものとなり、従って 所要ステップサイズは小さくなり、その逆もあてはまる。より小さなステップサ イズは、より小さい符号化利得に対応し、逆も又言える。このような音楽符号器 の例としては、AT&Tの知覚オーディオ符号(PAC)及びISO MPEG オーディオ符号化規格が含まれる。 電話帯域幅音声符号化と広帯域音楽符号化の間には、音声信号が16kHzで サンプリングされ7kHzの帯域幅をもつ広帯域音声符号化が存在する。7kH zもの広帯域音声のもつ利点は、結果として得られる音声品質が電話帯域幅音声 よりもはるかに優れており、しかも符号化に必要となるビットレートは20kH zのオーディオ信号よりもはるかに低い。以前に提案されたこれらの広帯域音声 符号器の中には、時間領域予測符号化を使用するものもあれば、周波数領域変換 又はサブバンド符号化を使用するものもあり、さらには、時間領域と周波数領域 の両技術の混合を使用するものもある。 広帯域であれその他のものであれ、予測音声符号化に知覚基準を含み入れるこ とは、複数の合成音声信号候補の中から最良の合成音声信号を選択するという場 合での知覚重みづけフィルタの使用に限られてきた。例えば、Atal et al に対 する米国特許 Re.32580号を参照のこと。このようなフィルタは、符号化プ ロセスで雑音を減少させるのに有用である、あるタイプの雑音整形を達成する。 ある既知の符号器は、知覚重みづけフィルタの形成において知覚モデルを利用す ることにより、この技術を改善する試みを行なっている。発明の要約 上述の努力にも関わらず、既知の音声又はオーディオ符号器のいずれも、信号 雑音マスキング能力の分析に従って量子化器分解能をセットするための聴力モデ ルと、信号予測の目的の音声生成モデルの両方を利用してはいない。 一方、本発明は、雑音に対する人間の聴覚感度モデルで決定された雑音マスキ ング信号に基づいて信号を量子化する量子化プロセスと予測符号化システムを組 合わせている。予測符号化システムの出力はかくして、オーディオ知覚モデルに 従って決定された雑音マスキング信号の一関数である分解能(例えば、一様スカ ラ量子化器におけるステップサイズ、又はベクトル量子化器においてベクトルを 識別するのに用いられるビット数)をもつ量子化器で量子化される。 本発明によれば、音声情報を表わす信号の推定(又は予測)を表わす1つの信 号が生成される。「音声情報を表わす原信号」という語は、音声自体のみならず 音声符号化システム内に一般に見られる音声信号派生物(例えば線形予測及びピ ッチ予測残余信号)をも意味するほどに充分広義のものである。このとき推定信 号は原信号と比較されて、これらの比較された信号の間の差異を表わす信号を形 成する、比較された信号の間の差を表わすこの信号、次に、人間のオーディオ知 覚モデルよって生成される知覚雑音マスキング信号に従って量子化される。 「変換予測符号化」又はTPCと呼ばれる本発明の実施形態は、16〜32k b/秒のターゲットビットレートで7kHzもの広帯域音声を符号化する。その 名が示すように、TPCは単一の符号器の中で、変換符号化と予測符号化の技術 を組合わせている。より特定的に言うと、符号器は、入力音声波形から冗長性を 除去するのに線形予測を使用し、次に結果として得た予測残余を符号化するため 変換符号化技術を使用する。変換された予測残余は、可聴なものを符号化し非可 聴なものを廃棄するべく、聴覚知覚モデルの形で表現された人間の聴知覚におけ る知識に基づいて量子化される。 実施形態の1つの重要な特長は、信号の知覚雑音マスキング能力(例えば「ち ょうど認識可能なひずみ」の知覚的なしきい値)が決定されその後のビット割振 りが行なわれる方法に関する。従来の音楽符号器において行なわれているように 、未量子化入力信号を用いて知覚しきい値を決定するのではなく、この実施形態 の雑音マスキングしきい値及びビット割振りは、量子化された合成フィルタ(こ の実施形態では量子化されたLPC合成フィルタ)の周波数応答に基づいて決定 される。この特長は、復号器が受理され符号化された広帯域音声情報を復号する のに必要とされる知覚しきい値及びビット割振り処理を複製するために、符号器 から復号器までビット割振り信号を伝達する必要がない、という利点をシステム に 提供する。その代り、その他の目的のために伝達されつつある合成フィルタ係数 が、ビットレートを節約するために開発利用される。 実施形態のもう1つの重要な特長は、TPC符号器が符号器周波数の間でいか にビットを割振りするか、又割振られたビットに基づいて復号器が量子化された 出力信号をいかにして生成するかに関するものである。或る種の状況下では、T PC符号器は、オーディオ帯域の一部分にのみビットを割振る(例えば、0〜4 kHzの間の係数に対してのみビットを割振ることができる)。4kHzと7k Hzの間の係数を表わすのにいかなるビットも割振られず、かくして復号器はこ の周波数範囲内でいかなる係数も得ない。このような状況は、TPC符号器が例 えば16kb/秒といったひじょうに低いビットレートで作動しなければならな い場合に発生する。4kHz及び7kHzの周波数範囲内で符号化された信号を 表わすビットを全くもたないにもかかわらず、復号器はそれでも、広帯域応答を 提供しなけばならない場合この範囲内の信号を合成しなくてはならない。実施形 態のこの特長に従うと、復号器は、その他の利用可能な情報すなわち(LPCパ ラメータから得られた)信号スペクトルの推定とその範囲内の周波数での雑音マ スキングしきい値の比率とに基づいてこの周波数範囲内の係数信号を生成(すな わち合成)する。この技術によって、復号器は、全帯域について音声信号係数を 伝達する必要なく広帯域応答を提供することができる。 広帯域音声符号器の混在的利用分野としては、ISDNテレビ会議又はオーデ ィオ会議、マルチメディアオーディオ、「ハイファイ」電話技術及び28.8k b/秒以上でモデムを用いたダイアル呼出し回線上での同時ボイス&データ(S VD)が含まれる。図面の簡単な説明 図1は、本発明の符号器実施形態の図を示す。 図2は、本発明の復号器実施形態の図を示す。 図3は、図1のLPCパラメータプロセッサの詳細なブロックダイヤグラム図 を示す。詳細な説明 A.実施形態の概要 説明を明確にするため、図に示す本発明の実施形態は、個々の機能ブロック( 「プロセッサ」と標識付けされている機能ブロックを含む)を含んで成るものと して示されている。これらのブロックが表わす機能は、ソフトウェアを実行する ことのできるハードウェアを含む(ただしこれに限られるわけではない)共用か 又は専用のハードウェアの使用を通して提供できるものである。例えば、図1〜 4に示されているプロセッサの機能は、単一の共用プロセッサによって提供され てもよい。(「プロセッサ」という語の使用は、ソフトウェアを実行できるハー ドウェアを排他的に指すものとみなされてはならない)。 図に示す実施形態には、AT&T DSP16又はDSP32Cといったよう なデジタル信号プロセッサ(DSP)ハードウェア、以下に論述するオペレーシ ョンを実行するソフトウェアを記憶するための読取り専用メモリ(ROM)及び DSP結果を記憶するためのランダムアクセスメモリ(RAM)が含まれてもよ い。同様に、超大規模集積回路(VLSI)ハードウェアの実施形態ならびに汎 用DSP回路と組合わせたカスタムVLSI回路を具備してもよい。 本発明に従うと、デジタル入力音声サンプルのシーケンスは、フレームと呼ば れる連続した20msのブロックに区分され、各々のフレームはさらに、各々4 msの5つの等しいサブフレームに細分される。広帯域音声信号にとって一般的 であるように16kHzのサンプリングレートを仮定すると、これは、320サ ンプルというフレームサイズ及び64サンプルというサブフレームサイズに対応 する。TPC音声符号器は入力音声信号をフレーム毎に緩衝するとともに処理し 、各々のフレーム内で、いくつかの符号化オペレーションがサブフレーム毎に実 行される。 図1は、本発明のTPC音声符号器の実施形態の一例を示す。図1に示された 実施形態を参照されたい。20msのフレーム毎に一回、LPCパラメータプロ セッサ10は、入力音声信号Sから線スペクトル対(LSP)パラメータを導出 し、このようなLSPパラメータを量子化し、各々の4msのサブフレームにつ いてこれらを補間し、次に各サブフレームについてLPC予測器係数アレイaに 変換する。短期冗長性は、LPC予測誤差フィルタ20により入力音声信号sか ら除去される。結果として得られたLPC予測残余信号dは、なお、有声音声内 のピッチ周期性に起因する幾分かの長期冗長性をもつ。整形フィルタ係数プロセ ッサ30は、量子化されたLPCフィルタ係数aから整形フィルタ係数awcを 導出する。整形フィルタ40はLPC予測残余信号dをろ過して知覚的に重みづ けされた音声信号swを生成する。ゼロ入力応答プロセッサ50は、整形フィル タのゼロ入力応答zirを計算する。減算ユニット60はswからzirを減算 して、ピッチ予測用の標的信号tpを得る。 開ループピッチ抽出器及び補間回路70は、各々の20msフレームについて ピッチ周期を抽出するため、LPC予測残余dを使用し、次に各々の4msサブ フレームについて、補間されたピッチ周期kpiを計算する。閉ループピッチタ ップ量子化器及びピッチ予測器80は、この補間されたピッチ周期kpiを用い て、ピッチタップの候補セットのコードブックから3つのピッチ予測器タップを 1セット選択する。この選択は、以前に量子化されたLPC残余信号dtが対応 する3−タップピッチ合成フィルタによってろ過され、次にゼロ初期メモリを備 える整形フィルタによってろ過された時点で、出力信号hdが平均二乗誤差(M SE)センス内の標的信号tpに最も近いところにあるような形で行なわれる。 減算ユニット90は、tpからhdを減算して、変換符号化のための標的信号t tを得る。 整形フィルタ絶対応答プロセッサ100は、整形フィルタの周波数応答の絶対 値である信号magを計算する。変換プロセッサ110は、信号ttについて、 高速フーリエ変換(FFT)といったような線形変換を実行する。次に、このプ ロセッサは、3つの異なる周波数帯域について計算された利得値の量子化バージ ョン及びmagを用いて変換係数を正規化する。結果は、正規化された変換係数 信号tcである。このとき、変換係数量子化器120は、異なる周波数での変換 係数の時間変動する知覚的大きさに従って、聴覚モデル量子化器制御プロセッサ 130によって決定される適応ビット割振り信号baを用いて、信号tcを量子 化する。 16kb/秒といった低いビットレートで、プロセッサ130は、周波数帯域 (0〜4kHz)の下半分にのみビットを割振る。この場合、高周波数合成プロ セッサ140が、高周波数帯域(4〜8kHz)内で変換係数を合成し、これら を量子化された低周波数変換係数信号dtcと組合わせて、最終的な量子化され た全帯域変換係数信号qtcを生成する。24又は32kb/秒といったより高 いビットレートでは、周波数帯域全体の中の各々の変換係数は、適応ビット割振 りプロセスにおいてビットを受理することが許されるものの、場合によっては、 利用可能なビットの不足に起因して全くビットを受理しない可能性もある。この 場合、高周波数合成プロセッサ140は単に、ビットを全く受理しない4〜8k Hz帯域内の周波数を検出し、適応変換符号器において標準的に見られる「うず まき」タイプのひずみを避けるため低レベル雑音でこのような「スペクトルホー ル」を充てんする。 逆変換プロセッサ150は、量子化された変換係数信号qtcを取り上げ、変 換プロセッサ110において利用された線形変換の逆オペーションである線形変 換(ここでの我々の特定の実施形態では逆FFT)を適用する。この結果、変換 符号化のための標的信号であるttの量子化バージョンである時間領域信号qt tがもたらされる。このとき、逆整形フィルタ160は、qttをろ過して、量 子化された励起信号etを得る。加算器170は、ブロック80内のピッチ予測 器により生成された信号dh(これはLPC予測残余dのピッチ予測バージョン である)に対してetを加算する。結果として得られた信号dtは、LPC予測 残余dの量子化されたバージョンである。これは、ゼロ入力応答プロセッサ50 内部の整形フィルタのフィルタメモリ及びブロック80内のピッチ予測器のメモ リを更新する。こうして信号ループが完成する。 LPC予測器パラメータ(IL)、ピッチ予測器パラメータ(IP及びIT) 、変換利得レベル(IG)及び量子化変換係数(IC)を表わすコードブック指 標は、マルチプレクサ180によって1つのビットストリーム内に多重化され、 チャンネル上で復号器まで伝送される。チャンネルは、無線チャンネル、コンピ ュータ及びデータネットワーク、電話回線網を含む適当なあらゆる通信チャンネ ルを含んでいてよく、さらに、固体メモリ(例えば半導体メモリ)、光学メモリ システム(例えばCD−ROM)、磁気メモリ(例えばディスクメモリ)などを 含 んでいてよい。 図2は、本発明のTPC音声復号器実施形態を示す。デマルチフルクサ200 は、コードブック指標IL,IP,IT,IG及びICを分離する。ピッチ復号 器及び補間回路205は、IPを復号し、補間されたピッチ周期kpiを計算す る。ピッチタップ復号器及びピッチ予測器210は、ピッチ予測器タップアレイ bを得るべくITを復号し、又、信号dh又はLPC予測残余dのピッチ予測さ れたバージョンを計算する。LPCパラメータ復号器及び補間回路215はIL を復号し、次に補間されたLPCフィルタ係数アレイaを計算する。ブロック2 20から255までは、量子化されたLPC残余信号dtを生成するべく、図1 内のその対応構成と全く同じオペレーションを実行する。長期ポストフィルタ2 60は、dt内のピッチ周期性を増強し、その出力としてろ過されたバーション fdtを生成する。この信号はLPC合成フィルタ265内を通過させられ、結 果として得られた信号stはさらに短期ポストフィルタ270によってろ過され 、このフィルタ270は最終的ろ過済み出力音声信号fstを生成する。 複雑性を低く保つため、TPCはできるかぎり、開ループ量子化を利用する。 開ループ量子化というのは、量子化器が、出力音声品質に対する影響とは無関係 に、量子化されていないパラメータとその量子化バージョンの間の差異を最小限 にしようと試みることを意味する。これは、ピッチ予測器、利得そして励起が通 常閉ループ量子化されるCELP符号器とは対照的である。符号器パラメータの 閉ループ量子化においては、量子化器コードブック探索は、最後の再構築された 出力音声内のひずみを最小限にしようとする。当然のことながら、これは一般に より良い出力音声品質を導くが、その代価は、さらに高いコードブック探索の複 雑性である。 本発明では、TPC符号器は、3ピッチ予測器タップについてのみ閉ループ量 子化を使用する。量子化された励起信号etを導く量子化オペレーションは、基 本的に開ループ量子化に類似しているが、出力音声に対する効果は、閉ループ量 子化のものに近い。このアプローチの精神は Lefebvre et al.,「変換符号化励 起(TCX)を用いた広帯域オーディオ信号の高品質符号化」、Proc.IEEE Inte rnational Conf .Acoustics,Speech.Signal Processing ,1994,pp.I −193〜I−196によりTCX符号器の中で用いられたアプローチに似てい る。例えば、TCX符号器の中にない本発明の特長としては、整形フィルタ絶対 値応答による変換係数の正規化、聴力モデルにより制御される適応ビット割振り そして高周波数合成及び雑音充てん手順がある。 B.符号器実施形態 1.LPC解析及び予測 LPCパラメータプロセッサ10の詳細なブロックダイヤグラムが図3に示さ れている。プロセッサ10は、窓かけ及び自己相関プロセッサ310;スペクト ル平滑化及び白雑音補正プロセッサ315;レヴィンソン−ダービン巡回形プロ セッサ320;帯域幅拡張プロセッサ325;LPC−LSP変換プロセッサ3 30及びLPCパワースペクトルプロセッサ335;LSP量子化器340;L SPソーティングプロセッサ345;LSP補間プロセッサ350及びLSP− LPC変換プロセッサ355を含む。 窓かけ及び自己相関プロセッサ310は、LPC係数生成プロセスを開始する 。プロセッサ310は、以下で論述する通りLPC係数がその後計算される基と なる自己相関係数rを20ms毎に一回の従来の要領で生成する。Rabiner L.R .et al.,音声信号のデジタル処理、Prentice-Hall,Inc.Englewood Cliffs, New Jersey,1978(Rabiner et al.)を参照のこと。LPCフレームサイズ は20ms(又は、16kHzのサンプリングレートで320の音声サンプル) である。各々の20msフレームはさらに、各々4ms(又は64サンプル)の 長さの5つのサブフレームに分割される。LPC解析プロセッサは、従来の要領 で、現行フレームの最後の4msのサブフレームにセンタリングされる24ms のハミング窓を使用する。 潜在的な不良条件づけを軽減するため、いくつかの従来の信号条件づけ技術が 利用される。スペクトル平滑化技術(SST)及び白雑音補正技術は、LPC解 析の前にスペクトル平滑化及び白雑音補正プロセッサ315によって適用される 。当該技術分野では周知のものであるSST(Tohkura,Y.et al.,「PARC OR音声解析−合成におけるスペクトル平滑化技術」IEEE Trans,Acoust, S peech ,Signal Processing ,ASSP−26:589−596,1978年12 月(Tohkura et al.))にはが、40Hzの標準偏差でのガウス分布の確率密度 関数(pdf)に対応するが、ガウシアン窓に、計算された自己相関係数アレイ (プロセッサ310から)を掛け合わせることが言及されている。同じく従来通 りのものである(Chen,J−H,「16kbit/秒での頑強な低遅延CELP 音声符号器」,Proc IEEE,Global Comm.Conf.pp.1237〜1241 ,Dallas,TX,1989年11月)白雑音補正は、ゼロ−ラグ自己相関係数( すなわちエネルギー項)を0.001%だけ増大させる。 このとき、プロセッサ315により生成された係数は、レヴィンソン−ダービ ン巡回形プロセッサ320に提供され、このプロセッサ320は、従来の要領で i=1,2,…,16についての16のLPC係数α1(LPC予測誤差フィル タ20の次数は16である)を生成する。 帯域幅拡張プロセッサ325は、さらなる信号条件付けのため各々のαiにgi という係数を乗じる(なおここで、g=0.994である)。これは,30Hz の帯域幅拡張に対応する(Tohkura et al.) このような帯域幅拡張の後、LPC予測器係数は、従来の要領でLPC−LS P変換プロセッサ330により線スペクトル対(LSP)係数に変換される。So ong,F.K.et al.,「線スペクトル対(LSP)及び音声データ圧縮」Proc. EEE Int.Conf.Acoust.Speech,Signal Processing ,pp1.10.1−1. 10.4,1984年3月(Soong et al)。を参照されたい。なおこの文献はここ にあたかも完全に記述されているかのごとく参考として含まれないものである。 次に、結果として得られたLSP係数を量子化するためのLSP量子化器34 0によりベクトル量子化(VQ)が提供される。プロセッサ240により利用さ れる特定のVQ技術は、ここにあたかも完全に記述されているかのごとく参考と して含まれる,Paliwal,K.K.et al.,「24ビット/フレームでのLPCパ ラメータの効率の良いベクトル量子化」,Proc .IEEE Int.Conf.Acoust .Speech,Signal Processing pp661〜664,Toronto,Canada,199 1年5月(Paliwal et al)の中で提案されている分割VQに類似している。16 次元LSPベクトルは、低周波数端部から計数して2,2,2,2,2,3,3 の次元をもつ7つのさらに小さいベクトルに分割される。7つのサブベクトルの 各々は、7ビットに量子化される(すなわち128のコードベクトルのVQコー ドブックを用いて)。かくして、各々長さ7ビットの7つのコードブック指標I L(1)〜IL(7)が存在し、合計でLPCパラメータ量子化において1フレ ームにつき49ビットが使用される。これらの49個のビットは、サイド情報と して復号器に対する伝送のためマルチプレクサ180に提供される。 プロセッサ340は、Paliwal et alに記述されている通り、従来の重みづけ された平均二乗誤差(WMSE)ひずみ測定を用いて、VQコードブックを通し てその探索を実行する。LPCパワースペクトルプロセッサ335は、このWM SEひずみ測定における重みを計算するために使用される。プロセッサ340で 使用されるコードブックは、当該技術分野において周知の従来のコードブック生 成技術を用いて設計される。従来のMSEひずみ測定は同様に、出力音声品質に おける重大な劣化なく符号器の複雑性を低減するべく、WMSE測定の代りに使 用することもできる。 通常、LSP係数は、単調に増大する。しかしながら、量子化は、この秩序の 破断を結果としてもたらす可能性がある。この破断の結果、復号器内のLPC合 成フィルタは不安定なものとなる。この問題を回避するため、LSPソーティン グプロセッサ345は、量子化されたLSP係数をソートして、単調に増加する 秩序を復元し安定性を確保する。 量子化されたLSP係数は、現フレームの最後のサブフレーム内で使用される 。これらのLSP係数と先行フレームの最後のサブフレームからのLSP係数の 間の線形補間は、従来通り、LSP補間プロセッサ350により最初の4つのサ ブフレームのためのLSP係数を提供するために実行される。このとき、補間さ れ量子化されたLSP係数は、従来の要領でLSP−LPC変換プロセッサ35 5による各々のサブフレーム内での使用のためLPC予測器係数に変換し戻され る。これは、符号器及び復号器の両方において行なわれる。LSP補間は、出力 音声のスムーズな再生を維持する上で重要である。LSP補間は、サブフレーム (4ms)につき一回ずつスムーズにLPC予測器係数を更新することを可能に する。結果として得られたLPC予測器係数アレイaは、符号器の入力信号を予 測する べくLPC予測誤差フィルタ20の中で使用される。入力信号とその予測された バージョンの間の差は、LPC予測残余dである。 2.整形フィルタ 整形フィルタ係数プロセッサ30は、LPC予測器係数アレイaの最初の3つ の自己相関係数を計算し、次に、対応する最適な2次全極予測器についてcj、j =0,1,2として、係数Cjを解くため、レヴィンソン−ダービン巡回形を使 用する。これらの予測器係数はこのとき0.7という係数で帯域幅拡張される( すなわち、j番目の係数CjはCj(0.7)jで置換される)。次に、プロセッサ 30は同様に、16次全極LPC予測器係数アレイaの帯域幅拡張も実行するが 、この場合係数は0.8である。これらの2つの帯域幅拡張された全極フィルタ (2次及び16次)をカスケード化することによって、望ましい18次整形フィ ルタ40が得られる。整形フィルタ係数アレイawcは、直接形の18次フィル タを得るべく、上述の2つの帯域幅拡張された係数アレイ(2次及び16次)を 畳み込むことによって計算される。 整形フィルタ40が、図1に示されている通りにLPC予測誤差フィルタでカ スケード化された時点で、2つのフィルタは実際に、望まれる符号化雑音スペク トルのほぼ逆数である周波数応答をもつ知覚重みづけフィルタを形成する。かく して、整形フィルタ40の出力は、知覚重みづけ音声信号swと呼ばれる。 ゼロ入力応答プロセッサ50は、その中に整形フィルタを有する。各々の4m sのサブフレームの始めに、このプロセッサは、4msのゼロ相当入力信号をフ ィルタに供給することにより整形ろ過を実行する。一般に、対応する出力信号ベ クトルzirは、フィルタが一般に非ゼロメモリを有することから(符号器初期 化の後の一番最初のサブフレーム中、又は符号器が始動したために符号器の入力 信号が正確にゼロであるときを除く)、非ゼロである。プロセッサ60は、重み づけされた音声ベクトルswからzirを減算する。結果として得られたベクト ルtpは、閉ループピッチ予測のための標的ベクトルである。 3.閉ループピッチ予測 ピッチ予測において、量子化され復号器に伝送される必要のあるパラメータの 種類には2つある。すなわち、有声音声のほぼ周期的な波形の周期に対応するピ ッチ周期、及び3つの予測係数(タップ)である。 a.ピッチ周期 LPC予測残余のピッチ周期は、ここにあたかも完全に記述されているごとく に参考として内含されている「有声メッセージ符号器/復号器の使用方法」とい う題の米国特許第5,327,620号の中で論述された効率の良い2段階探索技 術の修正バージョンを用いて、開ループピッチ抽出器及び補間回路70によって 、決定される。プロセッサ70は、帯域幅を約700Hzに制限するべく3次楕 円低域フィルタの中にLPC残余を通過させ、次に低域フィルタ出力の8:1の デシメーションを実行する。現フレームの最後の3つのサブフレームに対応する ピッチ解析窓を用いて、デシメートされた信号の相関係数は、デシメートされて いない信号領域内の24〜272サンプルのタイムラグに対応する3〜34のタ イムラグについて計算される。かくして、ピッチ周期として許容可能な範囲は1 .5ms〜17msあるか又はピッチ周波数でいうと59Hz〜667Hzであ る。これは、低ピッチの男性及び高ピッチの子供を含め大部分の話者の通常のピ ッチ範囲を網羅するのに充分である。 デシメートされた信号の相関係数が計算された後、最低のタイムラグを有する 相関係数の最初の大きいピークが識別される。これが第1段の探索である。結果 として得られたタイムラグをtとする。この値tに8を乗じてデシメートされな い信号領域内のタイムラグを得る。結果として得られたタイムラグ8tは、真の ピッチ周期がある可能性の最も高い近傍を指している。デシメートされていない 信号領域内にもとの時間分解能を保持するため、t−4からt+4の範囲内で第 2段のピッチ探索が行なわれる。もとのデシメートされていないLPC残余の相 関係数dは、t−4〜t+4のタイムラグについて計算される(下界は24サン プル、上界は272サンプル)。この範囲内の最大相関係数に対応するタイムラ グは、このとき最終ピッチ周期として識別される。このピッチ周期は、8ビット に符号化され、8ビットの指標IPが、サイド情報として復号器に伝送されるた めにマルチプレクサ180に供給される。ピッチ周期として選択され得ると考え られる整数は272−24+1=249しかないことから、ピッチ周期を表わす のに8つのビットで充分である。 各々の20msのフレームについてこのような8ビットのピッチ指標は1つず つしか伝送されない。プロセッサ70は、以下の要領で各々のサブフレームにつ いてピッチ周期kpiを決定する。現フレームの抽出されたピッチ周期と最後の フレームのものの間の差が20%以上である場合、上述の抽出されたピッチ周期 は、現フレーム内の全てのサブフレームについて用いられる。一方、この相対的 ピッチ変化が20%未満である場合、抽出されたピッチ周期は、現フレームの最 後の3つのサブフレームについて使用され、一方最初の2つのサブフレームのピ ッチ周期は、最後のフレームの抽出されたピッチ周期と現フレームのものの間の 線形補間によって得られる。 b.ピッチ予測器タップ 閉ループピッチタップ量子化器とピッチ予測器80は、以下のオペレーション をサブフレーム毎に実行する:すなわち(1)3ピッチタップの閉ループ量子化 、(2)現フレーム内のLPC予測残余dのピッチ予測されたバージョンである dhの生成及び、(3)標的信号tpに最も近い突合せであるhdの生成である 。 プロセッサ80は、LPC予測残余dの量子化バージョンとみなすことのでき る信号dtの先行サンプルを記憶する内部バッファを有する。各々のサブフレー ムについて、プロセッサ80は、dtバッファから64次元ベクトルを3つ抽出 するため、ピッチ周期kp1を用いる。x1,x2及びx3と呼ばれるこれらの3 つのベクトルはそれぞれ、dtの現フレームよりもkpi−1,kpi及びkp i+1サンプルだけ早い。このとき、これらの3つのベクトルは、ゼロ初期フィ ルタメモリをもつ整形フィルタ(係数アレイawcを伴う)によって別々にろ過 される。結果として得られる3つの64次元出力ベクトルをy1,y2及びy3と 呼ぼう。次に、プロセッサ80は、3ピッチ予測器タップの64の候補セットb1j ,b2j,b3j(j=1,2,…64)のコードブックを通して探索し、ひずみ 測定を最小限にする最適なセットb1k,b2k,b3kを見い出す必要がある。 このタイプの問題は、以前に研究されており、米国特許第5,327,520号 の中に効率の良い探索方法に見い出すことができる。この技術の詳細はここでは 紹介しないが、基本的な考え方は以下の通りである。 このひずみ測定を最小にすることが2つの9次元ベクトルの内部積を最大にす ることと同等であるということを示すことができる。これらの9次元ベクトルの 1つは、y1,y2及びy3の相関係数のみを含んでいる。もう1つの9次元ベク トルは、評価中の3つのピッチ予測器タップのセットから導出された積の項のみ を含んでいる。このようなベクトルは信号に依存せず、ピッチタップコードベク トルのみに依存していることから、このようなベクトルの可能性は64しかなく (各ピッチタップコードベクトルについて1つずつ)、これらを、予め計算し、 1つのテーブルつまりVQコードブックの中に記憶させることができる。実際の コードブック探索においては、y1,y2,及びy3の9次元相関ベクトルが最初 に計算される。次に、64の予め計算され記憶された9次元ベクトルの各々との 結果として得られたベクトルの内部積が計算される。最大内部積を与える記憶さ れたテーブル内のベクトルが勝者であり、3つの量子化されたピッチ予測器タッ プがそこから導出される。記憶されたテーブル内には64のベクトルが存在する ことから、3つの量子化されたピッチ予測器タップを表わすには、m番目のサブ フレームのための6ビットの指標IT(m)で充分である。各フレーム内には5 つのサブフレームが存在することから、全てのサブフレームに用いられる3つの ピッチタップを表わすためには、1フレームにつき合計30ビットが用いられる 。これらの30ビットは、サイド情報としてデコーダに対して伝送するためマル チプレクサ180に供給される。 各々のサブフレームについて、上述のコードブック探索方法により3つのピッ チタップb1k,b2k,b3kの最適なセットが選択された後、dのピッチ予測バー ジョンが、次のように計算される。 出力信号ベクトルhdは、以下のように計算される。 このベクトルhdは、減算ユニット90によりベクトルtpから減算される。 結果は、変換符号化のための標的ベクトルttである。 4.標的ベクトルの変換符号化 a.正規化のための整形フィルタ絶対値応答 標的ベクトルttは、変換符号化アプローチを用いて、ブロック100−15 0によりサブフレーム毎に符号化される。整形フィルタ絶対値応答プロセッサ1 00は、以下の要領で信号magを計算する。まず最初に、このプロセッサは、 現フレームの最後のサブフレームの整形フィルタ係数アレイawcをとり、それ を64サンプルにゼロパッドし、次に、結果として得られた64次元ベクトルに ついて64ポイントFFTを実行する。次にこれは、0〜8kHzの周波数範囲 に対応する33のFFT係数の絶対値を計算する。結果としてのベクトルmag は、最後のサブフレームのための整形フィルタの絶対値応答である。計算を節約 するため、最初の4つのサブフレームは、最後のフレームの最後のサブフレーム のmagベクトルと現フレームの最後のサブフレームのmagベクトルの間の線 形補間によって得られる。 b.変換及び利得正規化 変換プロセッサ110は、以下に記述するようないくかつのオペレーションを 実行する。まず第1に、これは、64ポイントFFTを用いることにより現サブ フレーム内の64次元ベクトルを変換する。64サンプル(又は4ms)という この変換サイズは、オーディオ符号化技術においては周知のものであるいわゆる 「プレ・エコー」ひずみを回避する。ここにあたかも完全に記述されているごと くに参考として内含されている Jayant.N.et al.,「人間の知覚モデルに基づ く信号圧縮」Proc. IEEE pp1385〜1422,1993年10月を参照 のこと。最初の33の複合FFT係数の各々は次に、magベクトル内の対応す る要素により除算される。結果として得られた正規化されたFFT係数ベクトル は、3つの周波数帯域、すなわち(1)最初の6つの正規化されたFFT係数 から成る低周波数帯域(すなわち0〜1250Hz)、(2)次の10個の正規 化されたFFT係数から成る中周波数帯域(1500〜3750Hz)及び(3 )残りの17の正規化されたFFT係数から成る周波数帯域(4000〜800 0Hz)に区分される。 3つの帯域の各々の中の全エネルギーは計算されて次に、各帯域の対数利得と 呼ばれるdB値に変換される。低周波数帯域の対数利得は、当該技術分野におい て周知のロイドアルゴリズムを用いて設計された5ビットのスカラ量子化器を用 いて量子化される。量子化された低周波数対数利得は、中及び高周波数帯域の対 数利得から減算される。結果として得られるレベル調整された中及び高周波数の 対数利得は2次元ベクトルを形成するべく連結され、これは次に、同じく当該技 術分野において周知の一般化されたロイドアルゴリズムにより設計されたコード ブックを伴う7ビットベクトル量子化器によって量子化される。量子化された低 周波数対数利得は次に、レベル調整された中及び高周波数対数利得の量子化され たバージョンに加算し戻され、中及び高周波数帯域の量子化対数利得が得られる 。次に、3つの量子化された対数利得は全て対数(dB)領域から線形領域へ変 換される。このとき、33の正規化されたFFT係数(以上で記述したとおりm agによって正規化されたもの)の各々は、さらに、FFT係数がある周波数帯 域の対応する量子化された線形利得によって除算される。この正規化第2段の後 、結果は、0〜8000Hzの周波数を表わす33の複素数を含む最終的な正規 化された変換ベクトルtcである。 m番目のサブフレーム中の対数利得の量子化中、変換プロセッサ110は、低 周波数対数利得のための5ビットの利得コードブック指標IG(m,1)及び、 中及び高周波数対数利得のための7ビットコードブック指標IG(m,2)を生 成する。従って、3つの対数利得は、サブフレームあたり12ビットつまりフレ ームあたり60ビットのビットレートで符号化される。これらの60ビットは、 サイド情報として復号器に伝送するためマルチプレクサ180に供給される。こ れら60の利得ビットは、LSPのための49ビット、ピッチ周期のための8ビ ット及びピッチタップのための30ビットと共に、サイド情報を形成し、その合 計は1フレームあたり49+8+30+60=147ビットとなる。 c.ビットストリーム 上述の通り、LPCパラメータを符号化するために49ビット/フレームが割 振られ、3−タップピッチ予測器のために8+(6×5)=38ビット/フレー ムが割振られ、利得のために(5+7)×5=60ビット/フレームが割振られ た。従って、サイド情報ビットの合計数は20msのフレームあたり49+38 +60=147ビットつまり4msのサブフレームあたりおよそ30ビットであ る。符号器は、16,24及び32kb/秒という3つの異なるレートの1つで 使用され得ると考えよう。16kHzのサンプリングルートで、これら3つの標 的レートは、1,1.5及び2ビット/サンプル又は64,96及び128ビッ ト/サブフレームにそれぞれ変形する。サイド情報のために用いられる30ビッ ト/サブフレームで、主情報を符号化(FFT係数の符号化)する上で使用する べく残っているビットの数は、それぞれ16,24及び32kb/秒の3つのレ ートについて34,66及び98ビット/サブフレームである。 d.適応ビット割振り 本発明の原則に従うと、TPC復号器における出力音声の知覚的品質を高める ため、異なる量子化精度で周波数スペクトルのさまざまな部分にこれらの残りの ビットを割当てるべく、適応ビット割振りが実行される。これは、オーディオ信 号内の雑音に対する人間の感度のモデルを用いることによって行なわれる。この ようなモデルは、知覚的オーディオ符号化技術においては既知のものである。例 えば、Tobias J.V.ed.,「モデル聴覚理論の基礎」、Academic Press New York 及び London,1970を参照のこと。同様に、ここにあたかも完全に記述されて いるかのように参考として内含されているSchroeder,M.R.et al.「人間の耳の マスキング特性を開発利用することによるデジタル音声符号器の最適化」。J.Ac oust .Soc.Amer ,66:1647−1652,1979年12月(Schroeder et al)も参照のこと。 聴力モデル及び量子化制御プロセッサ130が適応ビット割振りを実行し、t c内に含まれた33の正規化された変換係数の各々を量子化するためにいくつか のビットを使用すべきかについて変換係数量子化器120に告げる出力ベクトル baを生成する。適応ビット割振りはサブフレームに1回ずつ実行することがで きるが、本発明の実施形態では、計算上の複雑さを低減するため1フレームにつ き1回ずつビット割振りが行なわれる。 従来の音楽符号器で行なわれているように、雑音マスキングしきい値及びビッ トの割振りを導出するのに量子化されていない入力信号を使用するのではなく、 実施形態の雑音マスキングしきい値及びビットの割振りは、量子化されたLPC 合成フィルタ(これは往々にして「LPCスペクトル」と呼ばれる)の周波数応 答から決定される。LPCスペクトルは、24msのLPC解析窓内での入力信 号のスペクトル包絡線の近似とみなすことができる。LPCスペクトルは、量子 化されたLPC係数に基づいて決定される。量子化されたLPC係数は、LPC スペクトルを以下のように決定する聴力モデル及び量子化器制御プロセッサ13 0に対して、LPCパラメータプロセッサ10によって提供される。量子化され たLPCフィルタ係数aは、まず第1に64ポイントFFTによって変換される 。最初の33のFET係数の各々の累乗が決定され、次に逆数が計算される。結 果は、64ポイントFFTの周波数分解能をもつLPCパワースペクトルである 。 LPCパワースペクトルが決定された後、ここにあたかも完全に記述されてい るごとくに参考として内含されている米国特許第5,314,457号の中に記 述された方法の修正バージョンを用いて、推定雑音マスキングしきい値TMが計 算される。プロセッサ130は、主観的リスニング実験から経験的に決定された 周波数依存性減衰関数により、LPCパワースペクトルの33のサンプルを基準 化する。減衰関数は、LPCパワースペクトルのDC項について12dBから始 まり、700〜800Hzの間で約15dBまで増大し、次に高周波数に向かっ て単調に減少し、最終的に8000Hzでの6dBまで減少する。 33の減衰されたLPCパワースペクトルサンプルの各々は、次に、マスキン グしきい値を計算するべくその特定の周波数について導出された「基底板広がり 関数」を基準化するために用いられる。任意の周波数のための広がり関数は、そ の周波数における単一音調マスカー信号に応答したマスキングしきい値の形状に 対応する。Schroeder et al.の等式(5)は、「バルク」周波数尺度又は臨界帯 域周波数の形でこのような広がり関数を記述しており、これはここに、あたかも 完全に記述されているかのごとく参考として内含される。尺度化プロセスは、 「バルク」周波数尺度に64ポントFFTの最初の33個の周波数(すなわち0 Hz,250Hz,500Hz,…8000Hz)が変換されることから始まる 。次に、結果として得られた33のバーク値の各々について、Schroeder et al の等式(5)を用いてこれらの33のバーク値で、対応する広がり関数がサンプ リングされる。結果として得られた33の広がり関数は、1つのテーブルの中に 記憶され、これはオフラインプロセスの一部分として行なわれ得る。推定マスキ ングしきい値を計算するため、33の広がり関数の各々には、減衰されたLPC パワースペクトルの対応するサンプル値が乗じられ、結果として得られた33の 基準化された広がり関数は合計される。結果は、推定マスキングしきい値関数で ある。マスキングしきい値を推定するためのこの技術が、利用可能な唯一の技術 ではないという点に留意すべきである。 複雑性を低く保つため、プロセッサ130は適応ビット割振りを実行するのに 「貧欲」アルゴリズムを使用する。この技術は、将来のビット割振りに対する潜 在的な影響とは無関係に、最も「困窮している」周波数成分に対して一度に1つ のビットを割振るという意味において「貧欲な」ものである。まだいかなるビッ トも割当てられていない最初において、対応する出力音声はゼロとなり、符号化 誤り信号は入力音声そのものである。従って当初LPCパワースペクトルは符号 化雑音のパワースペクトルであると仮定される。その後、上で計算されたマスキ ングしきい値及び Schroeder et al の中で雑音の大きさの計算方法の簡略化さ れたバージョンを用いて、64ポイントのFFTの33の周波数の各々における 雑音の大きさが推定される。 33の周波数の各々における簡略化された雑音の大きさは、以下のように計算 される。まず最初に、Tobias の Scharf の本の章の表1に列挙された臨界帯域 幅の線形補間を用いて、i番目の周波数における臨界帯域幅B1を計算する。結 果は Schroeder et al の等式(3)の中の項df/dxの近似値である。33 の臨界帯域幅の値を予め計算し、テーブルの中に記憶する。次に、i番目の周波 数について、雑音パワーNiをマスキングしきい値Miと比較する。Ni≦Miであ る場合、雑音の大きさLiはゼロにセットされる。Ni≧Miである場合、雑音の 大きさは、以下のように計算される。 Li=Bi((Ni−Mi)/(1+(Si/Ni2))0.25 なお式中、Siはi番目の周波数におけるLPCパワースペクトルのサンプル 値である。 ひとたび雑音の大きさが33の周波数全てに計算されたならば、最大の雑音の 大きさをもつ周波数が識別され、この周波数に対して1つのビットが割当てられ る。この周波数における雑音パワーは、正規化されたFFT係数を量子化するた めVQコードブックの設計中に得られた信号雑音比(SNR)から経験的に決定 される1つの係数により縮分させられる(縮分係数の値の例は4〜5dBである )。この周波数における雑音の大きさは、次に縮分された雑音パワーを用いて更 新される。次に、更新された雑音の大きさアレイから最大値が識別され、1つの ビットが対応する周波数に割当てられる。このプロセスは、全ての利用可能ビッ トが使い尽されるまで続く。 32及び24kb/秒のTPC符号器については、33の周波数の各々が、適 応ビット割振りの間にビットを受理することができる。一方、16kb/秒のT PC符号器については、符号器が0〜4kHzの周波数範囲のみに対してビット を割当て(すなわち最初の16のFET係数)、高周波数合成プロセッサ140 を用いて4〜8kHzのより高い周波数帯域内で残余FFT係数を合成する場合 に、より優れた音声品質を達成することができる。 量子化されたLPC係数aは、TPC復号器でも利用可能であることから、ビ ット割振り情報を伝送する必要は全くない、ということに留意されたい。このビ ット割振り情報は、復号器内の聴力モデル量子化制御プロセッサ50のレプリカ により決定される。かくして、TPC復号器は、このようなビット割振り情報を 得るため符号器の適応ビット割振りオペレーションを局所的に複製することがで きる。 e.変換係数の量子化 変換係数量子化器120は、ビット割振り信号baを用いてtc内に含まれた 変換係数を量子化する。FFTのDC項は実数であり、ビット割振りの間に何ら かのビットを受理した場合、スカラー量子化される。それが受理できるビットの 最大数は4である。2番目から16番目までのFFT係数については、実数部分 及び虚数部分を同時に量子化するために、従来の2次元ベクトル量子化器が使用 される。この2次元VQのためのビットの最大数は6ビットである。残りのFF T係数については、2つの隣接するFFT係数の実及び虚部分を同時に量子化す るために、従来の4次元ベクトル量子化器が使用される。変換係数の量子化の後 、結果として得られるVQコードブック指標アレイICは、TPC符号器の主情 報を含む。この指標アレイICは、マルチプレクサ180に供給され、ここでサ イト情報ビットと組合わされる。結果は、通信チャンネルを通ってTPC復号器 に伝送される最終ビットフレームである。 変換係数量子化器120は同様に、正規化された変換係数の量子化された値を 復号する。これは次に、対応するmag要素及び対応する周波数帯域の量子化さ れた線形利得をこれら係数の各々に乗じることにより、これらの変換係数のもと の利得レベルを復元する。結果は出力ベクトルdtcである。 f.高周波数合成及び雑音充てん 16kb/秒の符号器につていは、適応ビット割振りは0〜4kHzの帯域に 制限され、プロセッサ140は4〜8kHzの帯域を合成する。それを行なう前 に、聴力モデル量子化器制御プロセッサ130はまず第1に、4〜7kHzの帯 域内の周波数について、LPCパワースペクトルとマスキングしきい値の間の比 率又は信号−マスキングしきい値比(SMR)を計算する。17番目〜29番目 のFFT係数(4〜7kHz)は、ランダムである位相及びSMRによって制御 されている絶対値を用いて合成される。SMR>5dBである周波数については 、FFT係数の絶対値は、高周波数帯域の量子化された線形利得にセットされる 。SMR≦5dBである周波数については、絶対値は、高周波数帯域の量子化さ れた線形利得より2dB下である。30番目から33番目のFET係数について は、絶対値は、高周波数帯域の量子化された線形利得よりも2dB〜30dBま で傾斜し、位相は再びランダムである。 32kb/秒及び24kb/秒の符号器については、記述されている通り、周 波数帯域全体について、ビット割振りが実行される。しかしながら、4〜8kH zの帯域内のいくつかの周波数はなおも全くビットを受理しない可能性がある。 この場合、上述の高周波数合成及び雑音充てん手順は、ビットを全く受理しない 周波数のみに適用される。 ベクトルdtcに対してこのような高周波数合成及び雑音充てんを適用した後 、結果として得られる出力ベクトルqtcは、正規化の前の変換係数の量子化バ ージョンを含む。 g.逆変換及びフィルタメモリ更新 逆変換プロセッサ150は、半サイズの33要素ベクトルqtcによって表わ される64要素複合ベクトルについて逆FFTを実行する。この結果として、変 換コーディングのための時間−領域標的ベクトルttの量子化されたバージョン である出力ベクトルqttが得られる。 ゼロ初期フィルタ状態(フィルタメモリ)では、その係数アレイとしてawc をもつ全ゼロフィルタである逆整形フィルタ160は、出力ベクトルetを生成 するべくベクトルqttをろ過する。このとき、加算器170はdhをetに加 算して、量子化されたLPC予測残余dtを得る。このdtベクトルは次に、閉 ループピッチタップ量子化器及びピッチ予測器80の中の内部記憶バッファを更 新するために用いられる。これは又、次のサブフレームのためのゼロ入力応答生 成に備えて補正フィルタメモリを樹立するためゼロ入力応答プロセッサ50の内 部の内部整形フィルタを励起するためにも使用される。 C.復号の実施形態 本発明の復号実施形態が、図2に示されている。各々のフレームについて、デ マルチプレクサ200は、受理されたビットストリームから全ての主及びサイド 情報成分を分離する。主情報、つまり変換係数指標アレイICは、変換係数復号 器235に供給される。この主情報を復号するためには、いくつの主情報ビット が各々の量子化された変換係数と結びつけられるかを決定するため、適応ビット 割振りを実行しなければならない。 適応ビット割振りにおける第1のステップは、量子化されたLPC係数(割振 りを左右するもの)の生成である。デマルチプレクサ200は、LPCパラメー タ復号器215に対して7つのLSPコートブック指標IL(1)〜IL(7) を供給し、この復号器は、16の量子化されたLSP係数を得るため7つのLS PVQコードブックからテーブルのルックアップを実行する。このとき、LPC パラメータ復号器215は、図3のブロック345,350及び355と同じソ ーティング、補間及びLSP−LPC係数変換オペレーションを実行する。 計算されたLPC係数アレイaで、聴力モデル量子化器制御プロセッサ220 は、TPC符号器内のプロセッサ130と同じ要領で、各々のFFT係数につい て(量子化されたLPCパラメータに基づいて)ビット割振りを決定する(図1 )。同様にして、整形フィルタ係数プロセッサ225及び整形フィルタ絶対値応 答プロセッサ230も、TPC符号器の中でそれぞれ対応するプロセッサ30及 び100のレプリカである。プロセッサ230は、変換係数復号器235が使用 するように、整形フィルタの絶対値応答magを生成する。 ひとたびビット割振り情報が導出された時点で、変換係数復号器235は次に 主情報を正しく復号し、正規化された変換係数の量子化された情報を得ることが できる。復号器235は同様に、利得指標アレイIGを用いて利得を復号する。 各々のサブフレームについて、2つの利得指標(5ビット及び7ビット)が存在 し、これらは、低周波数帯域の量子化された対数利得及び、中及び高周波数対数 利得のレベル調整された対数利得の量子化バージョンへと復号される。このとき 、量子化された低周波数対数利得は、中及び高周波数帯域の量子化された対数利 得を得るべく、レベル調整された中及び高周波数対数利得の量子化バージョンに 加算し戻される。次に3つの量子化された対数利得は全て、対数(dB)領域か ら線形領域まで変換される。3つの量子化された線形利得の各々は、対応する周 波数帯域内の正規化された変換係数の量子化されたバージョンを乗算するのに用 いられる。結果として得られた33の利得基準化された量子化変換係数の各々は 、次に、整形フィルタ絶対値応答アレイmagの中の対応する要素でさらに乗算 される。これらの2つの基準化段の後、結果は、復号された変換係数アレイdt cである。 高周波数合成プロセッサ240、逆変換プロセッサ245及び逆整形フィルタ 250は、ここでもTPC符号器内の対応するブロック(140,150及び1 60)の正確なレプリカである。これらは、合わさって、高周波数合成、雑音充 てん、逆変換、及び逆整形ろ過を実行して、量子化された励起ベクトルetを生 成する。 ピッチ復号器及び補間回路205は、最後の3つのサブフレームのためのピッ チ周期を得るため8ビットピッチ指標IPを復号し、次に、TPC符号器の対応 するブロック70内で行なわれたのと同じ要領で最初の2つのサブフレームのた めのピッチ周期を補間する。ピッチタップ復号器及びピッチ予測器210は、3 つの量子化されたピッチ予測器タップb1K,b2K,b3Kを得るため、各々のサブ フレームについてピッチタップ指標ITを復号する。次に、これは、補間された ピッチ周期kpiを用いて、符号器の節で記述したものと同じ3つのベクトルx1 ,x2,及びx3を抽出する。(これら3つのベクトルはそれぞれ、dtの現フ レームよりもkpi−1,kpi及びkpi+1サンプルだけ早い)。次にこれ は以下のとおり、LPC残余のピッチ予測されたバージョンを計算する: 加算器255は、dhをetに加算して、LPC予測残余dの量子化バージョ ンdtを得る。このdtベクトルは、dtについてその内部記憶バッファを更新 する(ピッチ予測器のフィルタメモリ)ために、ブロック210内のピッチ予測 器までフィードバックされる。 長期後置フィルタ260は、ITU−T G.728の標準的16kb/秒の 低遅延CELP符号器の中で用いられる長期後置フィルタと基本的に類似してい る。主たる相異点は、有声化インジケータとして3つの量子化されたピッチタッ プの合計である を用いること、そして長期後置フィルタ係数のための基準化因子がG728にあ るように0.15ではなく0.4であること、にある。この有声化インジケータが 0.5未満である場合、事後ろ過オペレーションは省かれ、出力ベクトルfdt は入力ベクトルdtと同一である。インジケータが0.5以上である場合、事後 ろ過オペレーションが実施される。 LPC合成フィルタ265は、標準的なLPCフィルタ、すなわち量子化され たLPC係数アレイaを伴う全極直接形フィルタである。これは、信号fdtを ろ過し、長期後置ろ過された量子化音声ベクトルstを生成する。このstベク トルは、短期後置フィルタ270の中を通過させられて、最終的TPC復号器出 力音声信号fstを生成する。ここでも又、この短期後置フィルタ270は、G .728の中で使用される短期後置フィルタに非常に類似している。唯一の差異 は、以下の点にある。まず第1に、極制御係数、ゼロ制御係数及びスペクトル傾 動制御係数がそれぞれ、G.728における0.75,0.65及び0.15という 対応値ではなく、0.7,0.55及び0.4である。第2に一次スペクトル傾動 補償フィルタの係数は、フレーム間でサンプル毎に線形補間される。こうして、 フレーム境界における不連続性に起因する、場合によっては可聴となるクリック 音が避けられる。 長期及び短期後置フィルタは、出力信号fstにおいて符号化雑音の知覚され たレベルを低下させ、かくして音声品質を高める効果をもつ。DETAILED DESCRIPTION OF THE INVENTION Multi-stage speech coder by transform coding of prediction residual signal with quantization by auditory modelField of the invention   The present invention uses a predictive coding system for audio signals, for example audio signals. Compression (encoding).Background of the Invention   As taught in the signal compression literature, audio and music waveforms are very Are encoded by different encoding techniques. Telephone encoding at 16 kb / s or less Speech coding, such as bandwidth (3.4 kHz) speech, is a time domain prediction code This has been done mainly by vessels. These encoders predict the speech waveform to be encoded. Use a speech production model to At this time, to reduce redundancy in the original signal The predicted waveform is subtracted from the actual (original) (to be coded) waveform. signal The reduction in redundancy results in coding gain. As an example of such a predictive speech coder Is adaptive predictive coding, all well known in the art of audio signal compression, There are multi-pulse linear prediction coding and code excitation linear prediction (CELP) coding.   On the other hand, the wideband (0 to 20 kHz) music coding of 64 kb / sec or more uses the frequency domain. It has mainly been performed by band transforms or subband encoders. These music encoders Is fundamentally very different from the speech coder described above. The difference is that the music source , Unlike audio sources, are too volatile to be immediately predictable Due to the fact that there is. As a result, models of music sources are generally music-coded Not used for Instead, the music encoder is the perceptually relevant part of the signal Use a sophisticated human auditory model to encode only. That is, general Unlike a speech coder that uses a speech generation model for music, a music coder uses Use the hearing (sound receiving) model to get it.   For speech encoders, the noise masking ability of the music to be encoded must be determined. For this purpose, a hearing model is used. The term "noise masking ability" How much quantization noise can be introduced into a music signal without noticing the noise To tell. This noise masking capability is then determined by the quantizer resolution (eg, quantizer resolution). Step size). In general, music ", The poorer the masking quantization noise, and therefore The required step size is smaller and vice versa. Smaller stepsa Is corresponding to a smaller coding gain, and vice versa. Such a music encoder Examples of AT & T's Perceptual Audio Code (PAC) and ISO MPEG Audio coding standards are included.   Between the telephone bandwidth speech coding and the wideband music coding, the speech signal is at 16 kHz. There is a wideband speech coding sampled with a bandwidth of 7 kHz. 7 kh The advantage of z wideband speech is that the resulting speech quality is And the bit rate required for encoding is 20 kHz. much lower than the audio signal of z. These previously proposed wideband speech Some encoders use time-domain predictive coding, while others use frequency-domain transforms. Or use sub-band coding, and furthermore in the time domain and frequency domain Some use a mixture of both techniques.   Include perceptual criteria in predictive speech coding, whether wideband or otherwise. Is to select the best synthesized speech signal from a plurality of synthesized speech signal candidates. The use of perceptual weighting filters has been limited. For example, against Atal et al See U.S. Patent No. Re. Such filters are Achieves some type of noise shaping that is useful for reducing noise in the process. One known encoder utilizes a perceptual model in forming a perceptual weighting filter. Attempts have been made to improve this technology.Summary of the Invention   Despite the above efforts, none of the known speech or audio encoders Hearing model to set quantizer resolution according to analysis of noise masking ability It does not make use of both audio and sound generation models for signal prediction purposes.   On the other hand, the present invention provides a noise mask determined by a human auditory sensitivity model for noise. A prediction process and a quantization process that quantizes the signal based on the I'm matching. The output of the predictive coding system thus becomes an audio perception model Therefore, a resolution (eg, uniform scan) that is a function of the determined noise masking signal. The step size in the La quantizer or the vector in the Vector quantizer. (The number of bits used for discrimination).   According to the invention, one signal representing the estimation (or prediction) of a signal representing speech information Issue is generated. The term "original signal representing speech information" refers not only to the speech itself but also to the speech itself. Audio signal derivatives commonly found in audio coding systems (eg, linear prediction and This is a broad enough meaning to also mean the “switch prediction residual signal”. At this time, The signal is compared to the original signal to form a signal that represents the difference between these compared signals. This signal, which represents the difference between the compared signals, It is quantized according to the perceptual noise masking signal generated by the perceptual model.   An embodiment of the present invention called "Transform Predictive Coding" or TPC is 16-32k Encode wideband speech as high as 7 kHz at a target bit rate of b / s. That As the name implies, TPC is a technique for transform coding and predictive coding within a single encoder. Are combined. More specifically, the encoder extracts redundancy from the input speech waveform. To use linear prediction to remove and then encode the resulting prediction residual Use transform coding techniques. The transformed prediction residuals are audible and encoded In human auditory perception expressed in the form of an auditory perception model to discard what is heard Is quantized based on knowledge.   One important feature of embodiments is the perceptual noise masking capability of the signal (eg, Perceptual threshold of "recognizable distortion") and subsequent bit allocation The manner in which the resizing is performed. As is done in traditional music encoders This embodiment, instead of using the unquantized input signal to determine the perceptual threshold, The noise masking threshold and bit allocation of the Is determined based on the frequency response of the quantized LPC synthesis filter). Is done. This feature allows the decoder to decode the received and encoded wideband speech information Encoder to duplicate the perceptual threshold and bit allocation process required for System does not need to transmit the bit allocation signal from the To provide. Instead, the synthesis filter coefficients being transmitted for other purposes Are developed and used to save bitrate.   Another important feature of the embodiment is that the TPC encoder is between encoder frequencies. Or the decoder is quantized based on the allocated bits It is about how to generate the output signal. Under certain circumstances, T The PC encoder allocates bits to only a part of the audio band (for example, 0 to 4). Bits can only be allocated for coefficients between kHz.) 4kHz and 7k No bits are allocated to represent the coefficients between the Hz, and thus the decoder Do not obtain any coefficients in the frequency range of An example of such a situation is the TPC encoder. Must operate at very low bit rates, for example 16 kb / s Occurs when the Signals encoded in the 4 kHz and 7 kHz frequency ranges Despite having no bits to represent, the decoder still has a wideband response If it must be provided, signals within this range must be combined. Implementation form In accordance with this feature of the state, the decoder may use other available information, namely (LPC Estimation of the signal spectrum (obtained from the parameters) and noise maps at frequencies within that range. A coefficient signal within this frequency range is generated (e.g., Composite). With this technique, the decoder calculates the audio signal coefficients for all bands. A broadband response can be provided without having to communicate.   ISDN videoconferencing or audio Audio conferencing, multimedia audio, "hi-fi" phone technology and 28.8k b / s or more, simultaneous voice & data (S VD).BRIEF DESCRIPTION OF THE FIGURES   FIG. 1 shows a diagram of an encoder embodiment of the present invention.   FIG. 2 shows a diagram of a decoder embodiment of the present invention.   FIG. 3 is a detailed block diagram of the LPC parameter processor of FIG. Is shown.Detailed description A. Overview of the embodiment   For the sake of clarity, the embodiments of the invention shown in the figures are represented by individual functional blocks ( (Including functional blocks labeled "processor"). Are shown. The functions represented by these blocks execute software Shared (including, but not limited to) hardware that can Alternatively, it can be provided through the use of dedicated hardware. For example, FIG. 4 is provided by a single shared processor. You may. (The use of the word "processor" is Software should not be considered exclusive).   The illustrated embodiment includes an AT & T DSP16 or DSP32C, for example. Digital signal processor (DSP) hardware, the operations discussed below Read-only memory (ROM) for storing software for executing the A random access memory (RAM) for storing DSP results may be included. No. Similarly, very large scale integrated circuit (VLSI) hardware embodiments and general A custom VLSI circuit combined with a custom DSP circuit.   According to the present invention, a sequence of digital input audio samples is called a frame. Are divided into successive 20 ms blocks, and each frame is further divided into 4 blocks each. ms into 5 equal subframes. Common for wideband audio signals Assuming a sampling rate of 16 kHz so that Compatible with frame size of sample and subframe size of 64 samples I do. The TPC speech coder buffers and processes the input speech signal frame by frame. Within each frame, several coding operations are performed per subframe. Is performed.   FIG. 1 shows an example of an embodiment of the TPC speech encoder of the present invention. Shown in FIG. See the embodiment. Once every 20 ms frame, the LPC parameter The processor 10 derives a line spectrum pair (LSP) parameter from the input audio signal S. Then, such LSP parameters are quantized, and for each 4 ms subframe, And interpolate them, then add LPC predictor coefficient array a for each subframe. Convert. The short-term redundancy determines whether the input speech signal s is Removed. The resulting LPC prediction residual signal d is still within the voiced speech Have some long-term redundancy due to the pitch periodicity of Shaping filter coefficient processor The processor 30 converts the shaped filter coefficient awc from the quantized LPC filter coefficient a. Derive. The shaping filter 40 filters the LPC prediction residual signal d and weights it perceptually. To generate the audio signal sw. The zero input response processor 50 includes a Calculate the zero input response zir of the data. Subtraction unit 60 subtracts zir from sw Thus, a target signal tp for pitch prediction is obtained.   The open loop pitch extractor and interpolator 70 is used for each 20 ms frame. Use the LPC prediction residual d to extract the pitch period, and then use each 4 ms sub The interpolated pitch period kpi is calculated for the frame. Closed loop pitcher The quantizer and pitch estimator 80 uses this interpolated pitch period kpi. To calculate three pitch predictor taps from the codebook of the pitch tap candidate set. Select one set. This selection corresponds to the previously quantized LPC residual signal dt. Filtered by a 3-tap pitch synthesis filter, and then has zero initial memory. When the output signal hd is filtered by the shaping filter, the mean square error (M SE) in such a way that it is closest to the target signal tp in the sense. A subtraction unit 90 subtracts hd from tp to obtain the target signal t t for transform coding. Get t.   The shaping filter absolute response processor 100 calculates the absolute value of the frequency response of the shaping filter. Calculate the value of the signal mag. The conversion processor 110 calculates, for the signal tt, Perform a linear transformation such as a fast Fourier transform (FFT). Next, this The processor is a quantized version of the gain values calculated for three different frequency bands. The transformation coefficient is normalized using the function and mag. The result is the normalized transform coefficient This is the signal tc. At this time, the transform coefficient quantizer 120 performs the transform at a different frequency. Auditory model quantizer control processor according to time-varying perceptual magnitude of coefficients Using the adaptive bit allocation signal ba determined by 130, the signal tc is quantized. Become   At low bit rates, such as 16 kb / s, the processor 130 Bits are allocated only to the lower half (0 to 4 kHz). In this case, the high frequency synthesis The processor 140 synthesizes the transform coefficients in the high frequency band (4-8 kHz), Is combined with the quantized low-frequency transform coefficient signal dtc to obtain the final quantized The generated all-band transform coefficient signal qtc is generated. Higher such as 24 or 32 kb / s At higher bit rates, each transform coefficient within the entire frequency band is Process is allowed to accept bits, but in some cases, It is possible that no bits will be accepted due to lack of available bits. this In that case, the high frequency synthesis processor 140 simply accepts no bits at all, Frequency within the Hz band, and the "vortex" which is typically found in adaptive transform encoders. In order to avoid distortion of the “swing” type, such “spectral homing” with low level noise ”.   The inverse transform processor 150 takes the quantized transform coefficient signal qtc and transforms it. Linear transformation, which is the inverse operation of the linear transformation used in (Inverse FFT in our particular embodiment here). As a result, the conversion Time domain signal qt, which is a quantized version of tt, the target signal for encoding t is provided. At this time, the inverse shaping filter 160 filters the qtt, Obtain the excitated excitation signal et. Adder 170 calculates the pitch prediction in block 80. Dh (this is the pitch prediction version of the LPC prediction residual d) ) Is added. The resulting signal dt is the LPC prediction This is a quantized version of the residual d. This is the zero input response processor 50 Note on filter memory of internal shaping filter and pitch predictor in block 80 Update the file. Thus, the signal loop is completed.   LPC predictor parameters (IL), pitch predictor parameters (IP and IT) , A codebook representing the transform gain level (IG) and the quantized transform coefficient (IC) The targets are multiplexed into one bit stream by multiplexer 180, It is transmitted on the channel to the decoder. Channels can be wireless channels, All suitable communication channels, including computer and data networks, telephone networks And solid state memory (eg, semiconductor memory), optical memory System (eg, CD-ROM), magnetic memory (eg, disk memory), etc. Including You can go out.   FIG. 2 shows a TPC speech decoder embodiment of the present invention. Demultifluxa 200 Separates the codebook indices IL, IP, IT, IG and IC. Pitch decoding The interpolator and interpolation circuit 205 decodes the IP and calculates an interpolated pitch period kpi You. The pitch tap decoder and pitch estimator 210 comprises a pitch estimator tap array. b to decode the IT and obtain the pitch prediction of the signal dh or LPC prediction residual d. Calculated version. The LPC parameter decoder and interpolation circuit 215 is And then calculate the interpolated LPC filter coefficient array a. Block 2 From 20 to 255, in order to generate a quantized LPC residual signal dt, FIG. Perform exactly the same operations as its corresponding configuration in. Long-term post filter 2 60 enhances the pitch periodicity within the dt and the filtered version as its output Generate fdt. This signal is passed through the LPC synthesis filter 265 and The resulting signal st is further filtered by a short-term post-filter 270. , This filter 270 produces the final filtered output audio signal fst.   To keep complexity low, TPC utilizes open-loop quantization whenever possible. Open loop quantization means that the quantizer has no effect on the output speech quality Minimizes the difference between the unquantized parameter and its quantized version Means to try. This is where the pitch estimator, gain and excitation In contrast to a normally closed loop quantized CELP coder. Of encoder parameters In closed-loop quantization, the quantizer codebook search is the last reconstructed Try to minimize distortion in the output audio. Not surprisingly, this is generally This leads to better output speech quality, but at the cost of higher codebook search complexity. Miscellaneous.   In the present invention, the TPC encoder has a closed loop amount only for the three pitch predictor taps. Use childization. The quantization operation that leads to the quantized excitation signal et Basically similar to open-loop quantization, but the effect on output speech is It is close to the child. The spirit of this approach is described in Lefebvre et al., High Quality Coding of Broadband Audio Signals Using Ki (TCX) ",Proc.IEEE Inte rnational Conf . Acoustics, Speech. Signal Processing , 1994, p. I Similar to the approach used in the TCX encoder by -193 to I-196. You. For example, a feature of the present invention not found in the TCX encoder is that the shaping filter absolute Normalization of transform coefficients by value response, adaptive bit allocation controlled by hearing model And there are high frequency synthesis and noise filling procedures. B. Encoder embodiment 1. LPC analysis and prediction   A detailed block diagram of the LPC parameter processor 10 is shown in FIG. Have been. Processor 10 is a windowing and autocorrelation processor 310; Smoothing and white noise correction processor 315; Levinson-Durbin cyclic type processor Processor 320; bandwidth extension processor 325; LPC-LSP conversion processor 3 30 and LPC power spectrum processor 335; LSP quantizer 340; L SP sorting processor 345; LSP interpolation processor 350 and LSP- An LPC conversion processor 355 is included.   Windowing and autocorrelation processor 310 initiates the LPC coefficient generation process. . Processor 310 determines the basis on which the LPC coefficients are subsequently calculated, as discussed below. The autocorrelation coefficient r is generated once every 20 ms in the conventional manner. Rabiner L.R . et al.,Digital processing of audio signals, Prentice-Hall, Inc. Englewood Cliffs, See New Jersey, 1978 (Rabiner et al.). LPC frame size Is 20 ms (or 320 audio samples at a 16 kHz sampling rate) It is. Each 20 ms frame is also 4 ms (or 64 samples) each. It is divided into five subframes of length. LPC analysis processor is the traditional way 24 ms centered on the last 4 ms subframe of the current frame Use a humming window.   To mitigate potential fault conditioning, several conventional signal conditioning techniques have Used. Spectral smoothing technology (SST) and white noise correction technology use LPC solution Applied by spectral smoothing and white noise correction processor 315 prior to analysis . SST (Tohkura, Y. et al., "PARC", which is well known in the art. OR Speech Analysis-Spectrum Smoothing Technology in Synthesis "IEEE Trans, Acoust, S peech , Signal Processing , ASSP-26: 589-596, December 1978 The moon (Tohkura et al.) Has a Gaussian probability density with a standard deviation of 40 Hz. Array of autocorrelation coefficients corresponding to the function (pdf), but in the Gaussian window (From processor 310). Same as before (Chen, JH, "Robust low-delay CELP at 16 kbit / sec. Speech encoder ", Proc IEEE, Global Comm. Conf.pp. 1237-11241 , Dallas, TX, November 1989) White noise correction is based on the zero-lag autocorrelation coefficient ( That is, the energy term) is increased by 0.001%.   At this time, the coefficients generated by the processor 315 are based on Levinson-Darby Provided to a recursive processor 320, which may be provided in a conventional manner. 16 LPC coefficients α for i = 1, 2,..., 161(LPC prediction error fill (The order of the data 20 is 16).   The bandwidth extension processor 325 determines each α for further signal conditioning.iTo gi (Where g = 0.994). This is 30Hz Support bandwidth expansion (Tohkura et al.)   After such a bandwidth extension, the LPC predictor coefficients are calculated as LPC-LS in a conventional manner. It is converted to a line spectrum pair (LSP) coefficient by the P conversion processor 330. So ong, F.K. et al., "Line spectrum pair (LSP) and audio data compression" Proc.I EEE Int. Conf. Acoust. Speech, Signal Processing , Pp1.10.1-1-1. 10.4, March 1984 (Soong et al). Please refer to. This document is here It is not included as a reference as if it were completely described.   Next, an LSP quantizer 34 for quantizing the resulting LSP coefficients. 0 provides vector quantization (VQ). Used by processor 240 The specific VQ technology to be referred to is as if fully described here. Paliwal, K. K. et al., “24-bit / frame LPC Efficient vector quantization of parameters ”,Proc . IEEE Int. Conf. Acoust . Speech, Signal Processing   pp 661-664, Toronto, Canada, 199 Similar to the split VQ proposed in May 1st (Paliwal et al). 16 The dimensional LSP vector is 2,2,2,2,2,3,3 counted from the low frequency end. Into seven smaller vectors of dimension Of the seven subvectors Each is quantized to 7 bits (ie, VQ code of 128 code vectors). Using a book). Thus, seven codebook indices I each of length 7 bits L (1) to IL (7) exist, and one frame in LPC parameter quantization in total. 49 bits are used per frame. These 49 bits provide side information and And provided to multiplexer 180 for transmission to the decoder.   Processor 340 uses conventional weighting as described in Paliwal et al. Through the VQ codebook using the calculated mean square error (WMSE) strain measurement To perform the search. The LPC power spectrum processor 335 uses this WM Used to calculate weights in SE strain measurements. In processor 340 The codebook used is a conventional codebook generator known in the art. It is designed using technology. Traditional MSE distortion measurements also have Substitute for WMSE measurement to reduce encoder complexity without significant degradation in Can also be used.   Usually, the LSP coefficient monotonically increases. However, the quantization is Breakage can result. As a result of this break, the LPC signal in the decoder The synthesis filter becomes unstable. To avoid this problem, LSP Sorting Processor 345 sorts the quantized LSP coefficients and increases monotonically Restore order and ensure stability.   The quantized LSP coefficients are used in the last subframe of the current frame . These LSP coefficients and the LSP coefficients from the last subframe of the previous frame are The linear interpolation between them is performed by the LSP interpolation processor 350 in the conventional manner. Performed to provide LSP coefficients for subframes. At this time, The quantized LSP coefficients are converted to an LSP-LPC conversion processor 35 in a conventional manner. 5 converted back to LPC predictor coefficients for use in each subframe. You. This is done at both the encoder and the decoder. LSP interpolation is output This is important for maintaining smooth playback of audio. LSP interpolation is a subframe (4ms) LPC predictor coefficients can be updated smoothly once every time I do. The resulting LPC predictor coefficient array a predicts the encoder input signal. Measure It is used in the LPC prediction error filter 20 for this purpose. The input signal and its predicted The difference between the versions is the LPC prediction residual d. 2. Shaping filter   The shaping filter coefficient processor 30 calculates the first three values of the LPC predictor coefficient array a. , And then for the corresponding optimal second-order all-pole predictor, cj, J = 0, 1, 2 and the coefficient CjUse the Levinson-Durbin circuit to solve To use. These predictor coefficients are then bandwidth expanded by a factor of 0.7 ( That is, the j-th coefficient CjIs Cj(0.7)jIs replaced by Next, the processor 30 also performs bandwidth extension of the 16th order all-pole LPC predictor coefficient array a, , In this case the coefficient is 0.8. These two bandwidth extended all-pole filters By cascading (2nd and 16th order), the desired 18th order shaping field A filter 40 is obtained. The shaping filter coefficient array awc is a direct 18th order filter. In order to obtain the data, the above two bandwidth-extended coefficient arrays (2nd and 16th) are Calculated by convolution.   The shaping filter 40 is controlled by an LPC prediction error filter as shown in FIG. Once scaled, the two filters are actually the desired coding noise spectrum. Form a perceptual weighting filter with a frequency response that is approximately the inverse of the torque. Scratch The output of the shaping filter 40 is called a perceptually weighted audio signal sw.   Zero input response processor 50 has a shaping filter therein. 4m each At the beginning of the s subframe, the processor sends a 4 ms zero equivalent input signal. Performs shaped filtration by feeding the filter. Generally, the corresponding output signal level The vector zir is based on the fact that filters generally have non-zero memory (encoder initial Encoder input during the very first subframe after encoding or because the encoder has started Non-zero, except when the signal is exactly zero). The processor 60 calculates the weight The zir is subtracted from the assigned speech vector sw. The resulting vector Tp is a target vector for closed loop pitch prediction. 3. Closed loop pitch prediction   In pitch prediction, the parameters that need to be quantized and transmitted to the decoder There are two types. That is, the pitch corresponding to the period of the substantially periodic waveform of the voiced voice Switch cycle, and three prediction coefficients (tap). a. Pitch period   The pitch period of the LPC prediction residual is as if fully described here. "How to Use Voiced Message Encoder / Decoder", which is included as a reference in Efficient two-stage search technique discussed in US Pat. No. 5,327,620 entitled Using a modified version of the technique, the open loop pitch extractor and interpolator 70 ,It is determined. Processor 70 controls the cubic ellipse to limit the bandwidth to about 700 Hz. Pass the LPC residue through a circular low pass filter, then 8: 1 of the low pass filter output. Perform decimation. Corresponds to the last three subframes of the current frame Using the pitch analysis window, the correlation coefficient of the decimated signal is 3 to 34 tags corresponding to a time lag of 24 to 272 samples Calculated for imlag. Thus, the acceptable range for the pitch period is 1 . 5 ms to 17 ms or 59 to 667 Hz in terms of pitch frequency. You. This is the normal pitch for most speakers, including low pitch men and high pitch children. Is sufficient to cover the switch range.   Has the lowest time lag after the correlation coefficient of the decimated signal is calculated The first large peak of the correlation coefficient is identified. This is the first stage search. result Let t be the time lag obtained as Do not decimate by multiplying this value t by 8. To obtain a time lag in a large signal area. The resulting time lag 8t is true It refers to the neighborhood where the pitch period is most likely to be. Not decimated In order to keep the original time resolution in the signal area, the time range from t-4 to t + 4 A two-stage pitch search is performed. Original undecimated LPC residual phase The relation number d is calculated for the time lag from t−4 to t + 4 (the lower bound is 24 suns). Pull, upper bound 272 samples). The timeline corresponding to the maximum correlation coefficient within this range Is then identified as the last pitch period. This pitch period is 8 bits And the 8-bit index IP is transmitted to the decoder as side information. To the multiplexer 180. Thought it could be chosen as pitch period Since there are only 272-24 + 1 = 249, the pitch period represents the pitch period. Eight bits are sufficient for   One such 8-bit pitch indicator for each 20 ms frame Only one is transmitted. The processor 70 performs processing for each subframe in the following manner. To determine the pitch period kpi. The extracted pitch period of the current frame and the last If the difference between the frame's is greater than or equal to 20%, the extracted pitch period as described above Is used for all subframes in the current frame. On the other hand, this relative If the pitch change is less than 20%, the extracted pitch period will be the maximum of the current frame. Used for the last three subframes, while the first two subframes The pitch period between the extracted pitch period of the last frame and that of the current frame. Obtained by linear interpolation. b. Pitch predictor tap   The closed loop pitch tap quantizer and pitch estimator 80 performs the following operations: Is performed for each subframe: (1) closed-loop quantization of three pitch taps , (2) the pitch predicted version of the LPC prediction residual d in the current frame. dh and (3) the generation of hd which is the closest match to the target signal tp. .   Processor 80 may consider the quantized version of LPC prediction residual d Has an internal buffer for storing the previous sample of the signal dt. Each sub frame Processor 80 extracts three 64-dimensional vectors from the dt buffer Therefore, the pitch period kp1 is used. x1, XTwoAnd xThreeThese three called Are kpi-1, kpi, and kp respectively than the current frame of dt. Early by i + 1 samples. Then, these three vectors are zero initial Separately filtered by shaping filter with filter memory (with coefficient array awc) Is done. The resulting three 64-dimensional output vectors are represented by y1, YTwoAnd yThreeWhen Let's call. Next, the processor 80 determines the 64 candidate sets b of the three pitch predictor taps.1j , B2j, B3j(J = 1, 2,..., 64) Optimal set b to minimize measurement1k, B2k, B3kNeed to find out.   This type of problem has been previously studied and is disclosed in US Pat. No. 5,327,520. You can find an efficient search method in. The details of this technology are here Although not introduced, the basic idea is as follows.   Minimizing this strain measurement maximizes the inner product of the two 9-dimensional vectors. Can be shown to be equivalent to Of these 9-dimensional vectors One is y1, YTwoAnd yThreeOnly the correlation coefficient is included. Another 9-dimensional vector Torr is only the product term derived from the set of three pitch predictor taps being evaluated Contains. Such vectors do not depend on the signal, and Because it depends only on the (One for each pitch tap code vector), these are pre-calculated, It can be stored in one table, the VQ codebook. Real In the codebook search, y1, YTwo, And yThreeIs the first 9-dimensional correlation vector Is calculated. Next, with each of the 64 pre-computed and stored 9-dimensional vectors, The inner product of the resulting vector is calculated. Remember to give maximum inner product The vector in the specified table is the winner and the three quantized pitch estimator Is derived therefrom. There are 64 vectors in the stored table Thus, to represent the three quantized pitch predictor taps, the mth sub A 6-bit index IT (m) for the frame is sufficient. 5 in each frame Since there are three subframes, three subframes used for all subframes A total of 30 bits per frame are used to represent pitch taps . These 30 bits are used for transmission to the decoder as side information. It is supplied to the chipplexer 180.   For each sub-frame, the three codebook search methods described above Little tap b1k, B2k, B3kAfter the optimal set of is selected, the pitch prediction bar of d John is calculated as follows:   The output signal vector hd is calculated as follows.   This vector hd is subtracted from the vector tp by the subtraction unit 90. The result is the target vector tt for transform coding. 4. Transform coding of target vector a. Shaping filter absolute value response for normalization   The target vector tt is calculated using blocks 100-15 using a transform coding approach. 0 is encoded for each subframe. Shaping filter absolute value response processor 1 00 calculates the signal mag in the following manner. First of all, this processor Take the shaping filter coefficient array awc of the last subframe of the current frame, and Is zero padded to 64 samples, and then the resulting 64 dimensional vector Then a 64-point FFT is performed. Then this is the frequency range of 0-8kHz Is calculated, the absolute value of 33 FFT coefficients corresponding to. The resulting vector mag Is the absolute value response of the shaping filter for the last subframe. Save on calculations The first four subframes are the last subframes of the last frame Between the mag vector of the current frame and the mag vector of the last subframe of the current frame Obtained by shape interpolation. b. Conversion and gain normalization   Transform processor 110 performs a number of operations as described below. Execute. First, it uses the 64-point FFT to convert the current sub Transform a 64-dimensional vector in a frame. 64 samples (or 4 ms) This transform size is known in the audio coding art, so-called Avoid "pre-echo" distortion. As if it were completely described here Jayant, specifically included for reference. N. et al., “Based on human perception model. Signal compression "Proc. IEEE pp. 1385-1422, October 1993 That. Each of the first 33 composite FFT coefficients then corresponds to the corresponding one in the mag vector. Divided by The resulting normalized FFT coefficient vector Are the three frequency bands: (1) the first six normalized FFT coefficients (2) the next 10 normal bands Frequency bands (1500-3750 Hz) composed of normalized FFT coefficients and (3) ) The frequency band (4000-800) consisting of the remaining 17 normalized FFT coefficients 0 Hz).   The total energy in each of the three bands is calculated and then the log gain and Is converted to a called dB value. Logarithmic gain in the low frequency band is Using a 5-bit scalar quantizer designed using the well-known Lloyd algorithm And quantized. The quantized low-frequency logarithmic gain is the mid- and high-frequency band pair. It is subtracted from the number gain. The resulting level adjusted medium and high frequency The logarithmic gains are concatenated to form a two-dimensional vector, which in turn, Code designed by generalized Lloyd algorithm well known in the art It is quantized by a 7-bit vector quantizer with a book. Quantized low The frequency log gain is then quantized for the level adjusted medium and high frequency log gain. To the quantized logarithmic gain in the middle and high frequency bands . Next, all three quantized logarithmic gains change from the logarithmic (dB) domain to the linear domain. Is replaced. At this time, 33 normalized FFT coefficients (m ag) normalized to the frequency band where the FFT coefficients are Divided by the corresponding quantized linear gain of the region. After this second stage of normalization , The result is a final normal containing 33 complex numbers representing frequencies from 0 to 8000 Hz. This is a transformed vector tc.   During quantization of the log gain during the mth subframe, transform processor 110 may A 5-bit gain codebook index IG (m, 1) for frequency logarithmic gain, and Generate 7-bit codebook index IG (m, 2) for medium and high frequency logarithmic gain To achieve. Thus, the three logarithmic gains are 12 bits per subframe or frame. Encoded at a bit rate of 60 bits per frame. These 60 bits are It is provided to multiplexer 180 for transmission to the decoder as side information. This These 60 gain bits are 49 bits for the LSP and 8 bits for the pitch period. Together with the 30 bits for the bit and pitch taps, the side information is formed and the The total is 49 + 8 + 30 + 60 = 147 bits per frame. c. Bit stream   As described above, 49 bits / frame are allocated to encode LPC parameters. 8+ (6 × 5) = 38 bits / frame for a 3-tap pitch predictor (5 + 7) × 5 = 60 bits / frame for gain Was. Therefore, the total number of side information bits is 49 + 38 per 20 ms frame. + 60 = 147 bits, or about 30 bits per 4 ms subframe You. The encoder operates at one of three different rates: 16, 24 and 32 kb / s. Think it could be used. With a sampling route of 16 kHz, these three targets Typical rates are 1, 1.5 and 2 bits / sample or 64, 96 and 128 bits. And subframes, respectively. 30 bits used for side information Used in encoding main information (encoding of FFT coefficients) in the frame / subframe The number of bits remaining to be stored are three levels of 16, 24 and 32 kb / s, respectively. 34, 66 and 98 bits / subframe for each frame. d. Adaptive bit allocation   According to the principles of the present invention, enhance the perceptual quality of output speech in a TPC decoder Because of these residuals in different parts of the frequency spectrum with different quantization accuracy Adaptive bit allocation is performed to allocate bits. This is an audio signal This is done by using a model of the human sensitivity to noise in the signal. this Such models are well known in perceptual audio coding technology. An example For example, Tobias J.V. ed., "Basics of Model Auditory TheoryAcademic Press New York And London, 1970. Similarly, here is the complete description Schroeder, M.R. et al. "The human ear Optimization of Digital Speech Coder by Developing and Using Masking Characteristics. "J.Ac oust . Soc. Amer , 66: 1647-1652, December 1979 (Schroeder et al.  See also al).   The hearing model and quantization control processor 130 performs an adaptive bit allocation and t to quantize each of the 33 normalized transform coefficients contained in c Output vector that tells transform coefficient quantizer 120 whether to use the bits of generate ba. Adaptive bit allocation can be performed once per subframe. However, in the embodiment of the present invention, one frame is used to reduce computational complexity. Bit allocation is performed once each time.   As is done in conventional music encoders, noise masking thresholds and bit Rather than using an unquantized input signal to derive the allocation, The noise masking threshold and bit allocation of the embodiment may be quantized LPC The frequency response of the synthesis filter (often called the "LPC spectrum") Determined from the answer. The LPC spectrum is the input signal within the 24 ms LPC analysis window. It can be regarded as an approximation of the spectral envelope of the signal. The LPC spectrum is quantum Is determined based on the converted LPC coefficients. The quantized LPC coefficient is LPC Hearing model and quantizer control processor 13 that determines the spectrum as follows: 0 is provided by the LPC parameter processor 10. Quantized The LPC filter coefficient a is first transformed by a 64-point FFT . The power of each of the first 33 FET coefficients is determined, and then the reciprocal is calculated. Conclusion The result is an LPC power spectrum with a 64-point FFT frequency resolution. .   After the LPC power spectrum has been determined, it can be completely described here. No. 5,314,457, which is hereby incorporated by reference in its entirety. Using a modified version of the described method, the estimated noise masking threshold TM is calculated. Is calculated. Processor 130 was empirically determined from a subjective listening experiment Based on 33 samples of LPC power spectrum by frequency dependent attenuation function Become The decay function starts at 12 dB for the DC term of the LPC power spectrum. That is, it increases to about 15 dB between 700 and 800 Hz, and then to higher frequencies. Monotonically and eventually to 6 dB at 8000 Hz.   Each of the 33 attenuated LPC power spectrum samples was then "Basal plate spread" derived for that particular frequency to calculate the threshold Used to scale functions. The spread function for any frequency is The shape of the masking threshold in response to a single tone masker signal at different frequencies Corresponding. Equation (5) of Schroeder et al. Describes the "bulk" frequency scale or critical band. It describes such a spread function in the form of a band frequency, which, as if It is included as a reference as if fully described. The scaling process is For the "bulk" frequency scale, the first 33 frequencies (ie, 0 Hz, 250 Hz, 500 Hz, ... 8000 Hz) . Next, for each of the 33 resulting Bark values, Schroeder et al. Using these 33 bark values using equation (5), the corresponding spread function is summed Ringed. The resulting 33 spread functions are in one table Stored, which may be performed as part of an offline process. Estimated maski To calculate the thresholding threshold, each of the 33 spread functions has an attenuated LPC The corresponding sample values of the power spectrum were multiplied and the resulting 33 The scaled spread functions are summed. The result is an estimated masking threshold function is there. This technique for estimating the masking threshold is the only available technique It should be noted that this is not the case.   To keep complexity low, the processor 130 needs to perform adaptive bit allocation. Use the "greedy" algorithm. This technology provides a potential for future bit allocation. One at a time for the most "poor" frequency components, independent of local effects Is "greedy" in the sense of allocating bits. Any bit At the beginning, when no audio is assigned, the corresponding output audio is zero, The error signal is the input speech itself. Therefore, the initial LPC power spectrum is It is assumed to be the power spectrum of the quantization noise. Then the maski calculated above Simplification of the calculation method for noise threshold in Schroeder et al. Using each version, at each of the 33 frequencies of the 64-point FFT The magnitude of the noise is estimated.   The simplified noise magnitude at each of the 33 frequencies is calculated as follows: Is done. First, the critical bands listed in Table 1 of the book chapter of Scharf in Tobias Using linear interpolation of the width, the critical bandwidth B at the ith frequency1Is calculated. Conclusion The result is an approximation of the term df / dx in equation (3) of Schroeder et al. 33 Is calculated in advance and stored in a table. Next, the i-th frequency For a number, the noise power NiTo the masking threshold MiCompare with Ni≤MiIn The noise level LiIs set to zero. Ni≧ MiIf, the noise The size is calculated as follows.     Li= Bi((Ni-Mi) / (1+ (Si/ Ni)Two))0.25   In the equation, SiIs a sample of the LPC power spectrum at the ith frequency Value.   Once the noise magnitude has been calculated for all 33 frequencies, the maximum noise A frequency having a magnitude is identified and one bit is assigned to this frequency. You. The noise power at this frequency is used to quantize the normalized FFT coefficients. Determined empirically from the signal-to-noise ratio (SNR) obtained during VQ codebook design (An example of the value of the reduction coefficient is 4 to 5 dB) ). The magnitude of the noise at this frequency is then updated using the reduced noise power. Be renewed. Next, a maximum value is identified from the updated noise magnitude array and one Bits are assigned to corresponding frequencies. This process repeats all available bits. Until they run out.   For 32 and 24 kb / sec TPC encoders, each of the 33 frequencies is suitable. Bits can be accepted during response bit allocation. On the other hand, T of 16 kb / s For PC encoders, the encoder is only able to use bits for the frequency range 0-4 kHz. (Ie, the first 16 FET coefficients) and the high frequency synthesis processor 140 Combining residual FFT coefficients in a higher frequency band of 4 to 8 kHz using In addition, better voice quality can be achieved.   Since the quantized LPC coefficient a can be used in a TPC decoder, Note that there is no need to transmit the packet allocation information. This The allocation information is a replica of the hearing model quantization control processor 50 in the decoder. Is determined by Thus, the TPC decoder converts such bit allocation information The adaptive bit allocation operation of the encoder can be replicated locally to obtain Wear. e. Transform coefficient quantization   The transform coefficient quantizer 120 uses the bit allocation signal ba to be included in tc. Quantize the transform coefficients. The DC term of the FFT is a real number and does not If such a bit is received, it is scalar-quantized. Of the bits it can accept The maximum number is four. For the 2nd to 16th FFT coefficients, the real part Uses conventional two-dimensional vector quantizer to simultaneously quantize and imaginary parts Is done. The maximum number of bits for this two-dimensional VQ is 6 bits. Remaining FF For the T coefficient, quantize the real and imaginary parts of two adjacent FFT coefficients simultaneously For this purpose, a conventional four-dimensional vector quantizer is used. After quantization of transform coefficients , The resulting VQ codebook index array IC is a key feature of the TPC encoder. Information. This index array IC is supplied to the multiplexer 180, where the index Combined with the site information bit. The result is transmitted through a communication channel to a TPC decoder. Is the last bit frame transmitted.   Transform coefficient quantizer 120 similarly computes the quantized value of the normalized transform coefficient. Decrypt. This is then the quantization of the corresponding mag element and the corresponding frequency band. By multiplying each of these coefficients by the calculated linear gain, To restore the gain level. The result is the output vector dtc. f. High frequency synthesis and noise filling   For a 16 kb / s encoder, the adaptive bit allocation should be in the 0-4 kHz band. Limited, processor 140 synthesizes a band of 4-8 kHz. Before doing it First, the hearing model quantizer control processor 130 firstly sets the frequency band of 4 to 7 kHz. For frequencies in the band, the ratio between the LPC power spectrum and the masking threshold Calculate the rate or signal-masking threshold ratio (SMR). 17th to 29th FFT coefficients (4-7kHz) are controlled by random phase and SMR It is synthesized using the absolute value that has been set. For frequencies where SMR> 5 dB , FFT coefficients are set to the quantized linear gain of the high frequency band . For frequencies where SMR ≦ 5 dB, the absolute value is the quantized value of the high frequency band. 2 dB below the obtained linear gain. About the 30th to 33rd FET coefficients Is between 2 dB and 30 dB higher than the quantized linear gain in the high frequency band. And the phase is again random.   For the 32 kb / s and 24 kb / s encoders, as described, Bit allocation is performed for the entire wavenumber band. However, 4-8 kHz Some frequencies in the z band may still not accept any bits. In this case, the high frequency synthesis and noise filling procedure described above does not accept any bits Applies to frequency only.   After applying such high frequency synthesis and noise filling to the vector dtc , The resulting output vector qtc is the quantization factor of the transform coefficients before normalization. Version. g. Inverse transformation and filter memory update   The inverse transform processor 150 is represented by a half-sized 33-element vector qtc. Performs an inverse FFT on the resulting 64-element composite vector. As a result, Quantized version of time-domain target vector tt for transcoding Is obtained as the output vector qtt.   In the zero initial filter state (filter memory), awc Inverse shaping filter 160, which is an all-zero filter with Filter the vector qtt to do so. At this time, the adder 170 adds dh to et. To obtain the quantized LPC prediction residual dt. This dt vector is then closed Update internal storage buffer in loop pitch tap quantizer and pitch estimator 80 Used to renew. This is also the zero input response generator for the next subframe. Of the zero input response processor 50 to establish a correction filter memory in preparation for Also used to excite the internal shaping filter of the unit. C. Embodiment of decryption   A decoding embodiment of the present invention is shown in FIG. For each frame, Multiplexer 200 converts all the main and side signals from the received bit stream. Separate information components. The main information, that is, the transform coefficient index array IC is used for transform coefficient decoding. Is supplied to the container 235. To decode this main information, a number of main information bits Adaptive bits to determine if is associated with each quantized transform coefficient Allocation must be performed.   The first step in adaptive bit allocation is to quantize LPC coefficients (allocation That affect the operation). The demultiplexer 200 is an LPC parameter. LSP codebook indices IL (1) to IL (7) for the data decoder 215 And the decoder provides 7 LS to obtain 16 quantized LSP coefficients. Perform a table lookup from the PVQ codebook. At this time, LPC Parameter decoder 215 has the same software as blocks 345, 350 and 355 in FIG. Performing the switching, interpolation and LSP-LPC coefficient conversion operations.   With the calculated LPC coefficient array a, the hearing model quantizer control processor 220 Is for each FFT coefficient in the same manner as the processor 130 in the TPC encoder. To determine the bit allocation (based on the quantized LPC parameters) (FIG. 1). ). Similarly, the shaping filter coefficient processor 225 and the shaping filter absolute value The answer processor 230 also has a corresponding processor 30 and 30 in the TPC encoder. And 100 replicas. Processor 230 is used by transform coefficient decoder 235 To generate the absolute value response mag of the shaping filter.   Once the bit allocation information is derived, the transform coefficient decoder 235 next It is possible to correctly decode the main information and obtain the quantized information of the normalized transform coefficients. it can. The decoder 235 similarly decodes the gain using the gain index array IG. For each subframe, there are two gain indicators (5 and 7 bits) These are the quantized logarithmic gain in the low frequency band and the mid and high frequency logarithms. The gain level is decoded into a quantized version of the logarithmic gain. At this time The quantized low frequency logarithmic gain is the quantized logarithmic gain of the middle and high frequency bands. For gain, leveled medium and high frequency log gain quantized versions It is added back. Next, all three quantized logarithmic gains are in the logarithmic (dB) domain. To the linear domain. Each of the three quantized linear gains has a corresponding Used to multiply the quantized version of the normalized transform coefficients in the waveband Can be. Each of the resulting 33 gain scaled quantized transform coefficients is , Then further multiply by the corresponding element in the shaping filter absolute value response array mag Is done. After these two scaling stages, the result is the decoded transform coefficient array dt c.   High frequency synthesis processor 240, inverse transform processor 245, and inverse shaping filter 250 is again the corresponding block (140, 150 and 1) in the TPC encoder 60) is an exact replica. Together they combine high frequency synthesis and noise Balance, inverse transform and inverse shaping filtering to produce the quantized excitation vector et. To achieve.   The pitch decoder and interpolator 205 provides the pitch for the last three subframes. Decode the 8-bit pitch index IP to obtain the first period, and then Of the first two subframes in the same manner as performed in block 70 To interpolate the pitch period. The pitch tap decoder and pitch predictor 210 has 3 One quantized pitch predictor tap b1K, B2K, B3KTo get each sub Decode the pitch tap index IT for the frame. Then this was interpolated Using the pitch period kpi, the same three vectors x as described in the encoder section1 , XTwo, And xThreeIs extracted. (These three vectors are the current Earlier than the frame by kpi-1, kpi and kpi + 1 samples). Then this Computes the pitch predicted version of the LPC residual as follows:   The adder 255 adds dh to et to obtain a quantized version of the LPC prediction residual d. Dt. This dt vector updates its internal storage buffer for dt To perform the pitch prediction in block 210 Feedback to the vessel.   The long-term post-filter 260 is a standard 16 kb / sec ITU-T G.728 standard. Basically similar to the long-term postfilter used in low-delay CELP encoders You. The main difference is that the three quantized pitch taps as voicing indicators Is the sum of And the scaling factor for the long-term post-filter coefficients is in G728. Therefore, it is 0.4 instead of 0.15. This voicing indicator If less than 0.5, the post-filtration operation is omitted and the output vector fdt Is the same as the input vector dt. If the indicator is greater than 0.5, A filtration operation is performed.   The LPC synthesis filter 265 is a standard LPC filter, ie, a quantized All-pole direct filter with an LPC coefficient array a. This translates the signal fdt into Filter and generate a long-term post-filtered quantized speech vector st. This st baek The tor is passed through a short-term post-filter 270 to output the final TPC decoder. A force audio signal fst is generated. Again, this short-term post-filter 270 Very similar to the short-term post-filter used in .728. The only difference Is in the following points. First, the polar control coefficient, the zero control coefficient, and the spectral tilt The dynamic control coefficients are 0.75, 0.65 and 0.15 in G.728, respectively. Instead of the corresponding values, they are 0.7, 0.55 and 0.4. Second, primary spectrum tilt The coefficients of the compensation filter are linearly interpolated between frames between samples. Thus, Possibly audible clicks due to discontinuities at frame boundaries Sounds can be avoided.   The long-term and short-term post-filters are the perceived coding noise in the output signal fst This has the effect of lowering the sound level and thus increasing the voice quality.

Claims (1)

【特許請求の範囲】 1. 音声信号のフレームを符号化する方法において、 予測残余信号を生成するべく線形予測フィルタを使用して音声信号から短期相 関関係を除去するステップと、 予測残余信号に基づき音声信号の開ループピッチ周期推定を決定するステップ と、 予測残余信号の量子化されたバージョンに基づいてフレームの2つ以上のサブ フレームについてのピッチフィルタタップの重みを決定するステップと、 開ループピッチ周期推定、2つ以上のサブフレームについてのピッチフィルタ タップの重み、及び予測残余信号に基づいて、ピッチ予測残余信号を形成するス テップと、 ピッチ予測残余信号を量子化するステップと、 を含んで成る方法。[Claims] 1. In a method for encoding a frame of an audio signal,   Use the linear prediction filter to generate a short-term phase from the speech signal to generate a prediction residual signal. Removing the relationship;   Determining an open loop pitch period estimate of the audio signal based on the predicted residual signal When,   Two or more sub-frames of a frame based on a quantized version of the prediction residual signal Determining the pitch filter tap weights for the frame;   Open loop pitch period estimation, pitch filter for two or more subframes Based on the tap weights and the prediction residual signal, a pitch prediction residual signal is formed. Tep,   Quantizing the pitch prediction residual signal; A method comprising:
JP9530382A 1996-02-26 1997-02-26 Multi-stage speech coder by transform coding of prediction residual signal with quantization by auditory model Pending JPH11504733A (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US1229696P 1996-02-26 1996-02-26
US60/012,296 1996-02-26
PCT/US1997/002898 WO1997031367A1 (en) 1996-02-26 1997-02-26 Multi-stage speech coder with transform coding of prediction residual signals with quantization by auditory models

Publications (1)

Publication Number Publication Date
JPH11504733A true JPH11504733A (en) 1999-04-27

Family

ID=21754300

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9530382A Pending JPH11504733A (en) 1996-02-26 1997-02-26 Multi-stage speech coder by transform coding of prediction residual signal with quantization by auditory model

Country Status (5)

Country Link
EP (1) EP0954851A1 (en)
JP (1) JPH11504733A (en)
CA (1) CA2219358A1 (en)
MX (1) MX9708203A (en)
WO (1) WO1997031367A1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041099A (en) * 2000-06-02 2002-02-08 Lucent Technol Inc Method for expressing masked threshold level, reconstituting method and its system
WO2005036527A1 (en) * 2003-10-07 2005-04-21 Matsushita Electric Industrial Co., Ltd. Method for deciding time boundary for encoding spectrum envelope and frequency resolution
JP2009537033A (en) * 2006-05-12 2009-10-22 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ Information signal coding
JP2014531063A (en) * 2011-10-24 2014-11-20 エルジー エレクトロニクスインコーポレイティド Method and apparatus for band-selective quantization of speech signal

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6397178B1 (en) 1998-09-18 2002-05-28 Conexant Systems, Inc. Data organizational scheme for enhanced selection of gain parameters for speech coding
ATE320651T1 (en) 2001-05-08 2006-04-15 Koninkl Philips Electronics Nv ENCODING AN AUDIO SIGNAL
SG10201604880YA (en) 2010-07-02 2016-08-30 Dolby Int Ab Selective bass post filter
WO2012161675A1 (en) * 2011-05-20 2012-11-29 Google Inc. Redundant coding unit for audio codec
CN111862995A (en) * 2020-06-22 2020-10-30 北京达佳互联信息技术有限公司 Code rate determination model training method, code rate determination method and device

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5012517A (en) * 1989-04-18 1991-04-30 Pacific Communication Science, Inc. Adaptive transform coder having long term predictor
FR2700632B1 (en) * 1993-01-21 1995-03-24 France Telecom Predictive coding-decoding system for a digital speech signal by adaptive transform with nested codes.

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041099A (en) * 2000-06-02 2002-02-08 Lucent Technol Inc Method for expressing masked threshold level, reconstituting method and its system
WO2005036527A1 (en) * 2003-10-07 2005-04-21 Matsushita Electric Industrial Co., Ltd. Method for deciding time boundary for encoding spectrum envelope and frequency resolution
US7451091B2 (en) 2003-10-07 2008-11-11 Matsushita Electric Industrial Co., Ltd. Method for determining time borders and frequency resolutions for spectral envelope coding
JP2009537033A (en) * 2006-05-12 2009-10-22 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ Information signal coding
JP2014531063A (en) * 2011-10-24 2014-11-20 エルジー エレクトロニクスインコーポレイティド Method and apparatus for band-selective quantization of speech signal

Also Published As

Publication number Publication date
EP0954851A1 (en) 1999-11-10
WO1997031367A1 (en) 1997-08-28
EP0954851A4 (en) 1999-11-10
MX9708203A (en) 1997-12-31
CA2219358A1 (en) 1997-08-28

Similar Documents

Publication Publication Date Title
US5790759A (en) Perceptual noise masking measure based on synthesis filter frequency response
US5710863A (en) Speech signal quantization using human auditory models in predictive coding systems
EP0764939B1 (en) Synthesis of speech signals in the absence of coded parameters
RU2262748C2 (en) Multi-mode encoding device
JP4662673B2 (en) Gain smoothing in wideband speech and audio signal decoders.
JP3490685B2 (en) Method and apparatus for adaptive band pitch search in wideband signal coding
JP3042886B2 (en) Vector quantizer method and apparatus
JP5226777B2 (en) Recovery of hidden data embedded in audio signals
MXPA96004161A (en) Quantification of speech signals using human auiditive models in predict encoding systems
JP4302978B2 (en) Pseudo high-bandwidth signal estimation system for speech codec
KR20030046451A (en) Codebook structure and search for speech coding
JPH08278799A (en) Noise load filtering method
JP3582589B2 (en) Speech coding apparatus and speech decoding apparatus
JPH11504733A (en) Multi-stage speech coder by transform coding of prediction residual signal with quantization by auditory model
JP4359949B2 (en) Signal encoding apparatus and method, and signal decoding apparatus and method
JP2000132193A (en) Signal encoding device and method therefor, and signal decoding device and method therefor
JP6713424B2 (en) Audio decoding device, audio decoding method, program, and recording medium
KR0155798B1 (en) Vocoder and the method thereof
JP2001142499A (en) Speech encoding device and speech decoding device
JP3192051B2 (en) Audio coding device
JPH06130994A (en) Voice encoding method
JPH0736484A (en) Sound signal encoding device
JP2000132195A (en) Signal encoding device and method therefor
JPH06195098A (en) Speech encoding method
GB2352949A (en) Speech coder for communications unit