JPH09152900A - 予測符号化における人間聴覚モデルを使用した音声信号量子化法 - Google Patents

予測符号化における人間聴覚モデルを使用した音声信号量子化法

Info

Publication number
JPH09152900A
JPH09152900A JP8247609A JP24760996A JPH09152900A JP H09152900 A JPH09152900 A JP H09152900A JP 8247609 A JP8247609 A JP 8247609A JP 24760996 A JP24760996 A JP 24760996A JP H09152900 A JPH09152900 A JP H09152900A
Authority
JP
Japan
Prior art keywords
signal
processor
gain
quantized
lpc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8247609A
Other languages
English (en)
Inventor
Juin-Hwey Chen
チェン ジュイン−フウェイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LE-SENTO TECHNOL Inc
Nokia of America Corp
Original Assignee
LE-SENTO TECHNOL Inc
Lucent Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LE-SENTO TECHNOL Inc, Lucent Technologies Inc filed Critical LE-SENTO TECHNOL Inc
Publication of JPH09152900A publication Critical patent/JPH09152900A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0003Backward prediction of gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0013Codebook search algorithms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 改良された音声信号、オーディオ信号の圧縮
(符号化)の技術を提供する。 【解決手段】 「変換予測符号化」ないしTPCと称さ
れる音声圧縮システムは、7kHzの帯域幅の音声(1
6kHzサンプリング)を、16から32kb/s(1
から2ビット/サンプル)の目標ビット速度範囲で符号
化するために設けられる。このシステムは、会話中の冗
長度を取り除くために、短期および長期の予測を使用し
ている。予測残差は、人間の聴覚知覚における知識を利
用して周波数領域に変換され符号化される。TPC符号
化器は、開ループの量子化だけを使用し、よって、複雑
さが著しく解消される。TPCの音声品質は、32kb
/sにおいて明白であり、24kb/sにおいて非常に
良好であり、また16kb/sにおいて受容可能なもの
である。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えば、音声信
号、オーディオ信号の圧縮(符号化)の技術に関するも
のである。
【0002】
【発明が解決しようとする課題】信号圧縮の文献に教示
されているように、音声波形と音楽波形は非常に異なる
符号化技術によって符号化される。16kb/sないし
それ以下における電話帯域幅(3.4kHz)での音声
符号化のような、音声符号化は、時間領域予測符号化器
により広く用いられている。これらの符号化器は、符号
化される音声波形を予測するために音声生成モデルを使
用している。予測された波形は、元の信号中の冗長を減
じるために、次いで、実際の(元の)信号から減算され
る。信号の冗長における簡約化により符号化を再度行う
ことができる。このような予測音声符号化器を含んだ例
としては、音声信号圧縮の分野において公知である、適
応予測符号化、マルチパルス線形予測符号化(Mult
i−Pulse Linear Predictive
Coding)、およびコード励起された線形予測符
号化(Code−Excited Linear Pr
ediction(CELP) Coding)などが
ある。
【0003】他方、64kb/sないしこれより高い速
度での広帯域(0−20kHz)の音楽符号化では、周
波数領域変化またはサブバンド符号化器が広く用いられ
ている。これらの音楽の符号化器は上記した音声符号化
器とは基本的に非常に異なるものである。この差異は、
音楽のソースは音声のものとは異なり、迅速な予測をす
るにはあまりに変化が激しいことによるものである。こ
の結果、音楽源のモデルは一般的には音楽の符号化にお
いては使用されない。その代わりに、音楽の符号化器は
知覚的に関連した信号のこれらの部分だけを符号化する
ために精密な人間の聴覚モデルを使用している。つま
り、音声生成モデルを通常使用する音声符号化器とは異
なり、音楽の符号化器は符号化をするために聴力モデル
(音楽受信)を採用している。
【0004】音楽の符号化器では、聴力モデルは符号化
される音楽のノイズマスキング能力を決定するために使
用される。「ノイズマスキング能力」の用語は、聴取者
がノイズに気付くことなしに音楽信号中に量子化ノイズ
をどれだけ生ぜしめることができるかを意味する。この
ノイズマスキング能力はまた、量子化器の解像度(例え
ば、量子化器の増分を設定するために使用される。通
常、音楽が「トーン状」になる程、音楽の量子化ノイズ
をマスキングすることができなくなり、したがって、必
要とされる量子化器の増分がより小さくなり、またこの
逆である。増分が小さくなれば対応する符号化の利得が
小さくなり、またこの逆である。このような音楽の符号
化器の例としては、AT&TのPerceptual
AudioCoder(PAC)およびISO MPE
G音声符号化規格(MPEG audio stand
ard)を含んでいる。
【0005】電話帯域幅の音声符号化と広帯域の音楽符
号化との間には、音声信号が16kHzでサンプリング
され7kHzの帯域幅を有する、広帯域音声符号化があ
る。7kHzの帯域幅の音声の特長は、得られた音声品
質が電話帯域幅の音声よりもずっと良くなることであ
り、また20kHzの音声信号よりも符号化のために必
要なビット速度がより低くなることである。これらの先
に提案された帯域幅の音声符号化器の中には、時間領域
予測符号化を使用したものもあり、周波数領域変換また
はサブバンド符号化を使用したものもあり、また時間領
域の技術と周波数領域の技術とを組み合わせたものもあ
る。
【0006】広帯域または他のものにおいて、予測音声
符号化に知覚の判定基準を含ませることは、合成された
音声信号の複数の候補の中から最良の合成された音声信
号を選択するという面において、知覚重み付けフィルタ
の使用が制限されてしまう。例えば、Atalなどに付
与された米国再特許第32、580号を参照。このよう
なフィルタは、符号化プロセスにおいてノイズを低減す
るのに有用なノイズ成形のある種のタイプを果たしてい
る。公知の符号化器には、そのような知覚重み付けフィ
ルタの形成において知覚モデルを採用することで、この
種の技術による改良を行うものがある。1993年10
月のProc.IEEE Workshop Spee
ch Coding for Telecomm.の第
9−10頁のW.W.Changなどによる「Audi
o Coding UsingMasking−Thr
eshold Adapted Perceptual
Filter」を参照。
【0007】
【課題を解決するための手段】従来の公知の音声ないし
オーディオ符号化器では、信号予測目的のための音声生
成モデル、および信号ノイズマスキング能力の解析によ
る量子化の解像度を設定するための聴覚モデルの両方を
利用していない。
【0008】本発明は、一方では、ノイズに対する人間
の聴覚感度のモデルで決定されるノイズマスキング信号
に基づいて信号を量子化する量子化プロセスを予測符号
化システムに組み合わせている。予測符号化システムの
出力は、このようにして、オーディオ知覚モデルにした
がって決定されたノイズマスキング信号の関数である解
像度(例えば、一様なスカラ量子化器における増分、あ
るいはベクトル量子化器においてコードベクトルを識別
するために使用されるビット数)を有する量子化器で量
子化される。
【0009】本発明によれば、信号は、音声情報の推定
値(あるいは予測)を表すものとして発生される。「音
声情報を表す元の信号」の用語は、音声自体だけではな
く、音声符号化システムにおいて共通に見出だされた音
声信号の派生物(例えば、線形予測残差信号(line
ar prediction residual si
gnal)およびピッチ予測残差信号(pitch p
redictionresidual signa
l))も意味する、広いものである。推定信号は、次い
で、元の信号と比較され、これらの比較された信号の間
の差を表す信号が形成される。この比較された信号の間
の差を表す信号は、次いで、人間オーディオ知覚によっ
て発生された知覚ノイズマスキング信号にしたがって、
量子化される。
【0010】本発明の例示した実施の形態では、「変換
予測符号化」あるいはTPCは、16〜32kb/sの
目標ビット速度で7kHzの帯域幅の音声を符号化する
ものである。その名前の通り、TPCは変換符号化技術
と予測符号化技術を単一の符号化器に組み込んだもので
ある。より詳しくは、この符号化器は、入力音声波形か
ら冗長度を取り除くために線形予測を使用し、次いで得
られた予測残差を符号化するために変換符号化技術を使
用している。変換された予測残差は、可聴のものを符号
化し、可聴でないものを無視するために、音声知覚モデ
ルの用語で表現された、人間音声知覚における知識に基
づいて量子化される。
【0011】例示した実施の形態の1つの重要なこと
は、信号の知覚ノイズマスキング能力が決定される方法
(例えば、「顕著な歪み」の知覚的なしきい値)および
続くビット割り当てが行われる方法にある。従来の音楽
の符号化器において行われているような、量子化されな
い入力信号を使用した知覚しきい値を決定するのではな
く、実施の形態におけるノイズマスキングのしきい値お
よびビット割り当ては、量子化された合成フィルタ、実
施の形態では量子化されたLPC合成フィルタの周波数
応答に基づいて、決定されるのである。この特徴は、受
信した符号化された広帯域の音声情報を符号化するため
に必要な知覚しきい値およびビット割り当ての処理を符
号化器がを反復するために、符号化器から符号化器への
ビット割り当て信号を通信する必要がない、という長所
をシステムにもたらす。その代わり、他の目的で通信さ
れている、合成フィルタの係数がビット速度を節約する
ために利用される。
【0012】例示した実施の形態の他の重要な特徴は、
TPC符号化器がどのようにして符号化器の周波数にお
いてビットを割り当てるか、および符号化器がどのよう
にして割り当てられたビットに基づいて量子化された出
力信号を発生するのかということである。特定の場合に
おいて、TPC符号化器はオーディオ帯域の一部(例え
ば、ビットは0と4kHzの間の係数にだけしか割り当
てられない)にしかビットを割り当てない。ビットは4
kHzと7kHzの間の係数を表すためには使用され
ず、よって、復号器はこの周波数範囲においては係数を
得ることができない。このような状況が発生した場合に
は、例えば、TCP符号機は非常に低い速度、例えば1
6kb/sで動作しなければならない。4kHzと7k
Hzの間の符号化された信号を表すビットがないにも拘
らず、復号器は、広帯域の応答が供給された場合にはこ
の範囲の信号を合成しなければならないのである。実施
の形態のこの特徴にしたがって、復号器は、他の利用可
能な情報、この範囲の周波数におけるノイズマスキング
しきい値に対する信号スペクトルの推定値の割合、に基
づいてこの周波数範囲の係数信号を発生、つまり合成す
る。係数に対する位相値はランダムに選択される。この
技術によって、全体の帯域のための音声信号係数を伝送
する必要なしに、復号器は広帯域の応答を提供すること
ができる。
【0013】広帯域音声符号器の可能な適用範囲として
は、ISDNのビデオ会議またはオーディオ会議、マル
チメディアオーディオ、「ハイファイ」電話方式、およ
び28.8kb/sないしそれより高速のモデルを使用
したダイヤル呼出ライン上での同時的な音声とデータ送
信(SVD)などがある。
【0014】
【発明の実施の形態】
A. 例示的な実施の形態の導入部 説明の便宜上、本発明の例示した実施の形態は、個々の
機能ブロック(「プロセッサ」と名前をつけた機能ブロ
ックを含む)を含むものとして表現される。これらのブ
ロックが表す機能は、限定されるものではないが、ソフ
トウェアを実行することができるハードウェアを含む、
共用または専用のハードウェアの使用により提供され
る。例えば、図1から図5および図8に表したプロセッ
サの機能は単一の共用プロセッサにより提供される
(「プロセッサ」の用語はソフトウェアを実行する機能
を有するハードウェアだけを示すものではない)。
【0015】例示した実施の形態はAT&TのDSP1
6あるいはDSP32Cのようなデジタル信号プロセッ
サ(DSP)、後述する動作を行うためのソフトウェア
を記憶した読み出し専用メモリ(ROM)、並びにDS
Pの結果を記憶するためのランダムアクセスメモリ(R
AM)などから構成される。大規模集積回路(VLS
I)の実施例、および汎用DSP回路を組み合わせたカ
スタムVLSIも同様に設けられる。
【0016】図1は本発明の例示的なTPC音声符号化
器の実施の形態を示したものである。このTPC符号化
器は、LPC解析プロセッサ10、LPC(つまり「短
期」)予測誤差フィルタ20、ピッチ予測(つまり「長
期」)プロセッサ30、変換プロセッサ40、聴覚モデ
ル量子化器制御プロセッサ50、残差量子化器60、並
びにビットストリームマルチプレクサ(MUX)70、
などから構成される。
【0017】この実施の形態では、短期残差は、LPC
予測誤差フィルタ20により、入力音声信号sから取り
除かれる。得られたLPC予測残差信号dには、音声化
された音声中のピッチ周期性によっていくらかの長期残
差がある。このような長期残差は次いで、ピッチ予測プ
ロセッサ30により取り除かれる。ピッチ予測の後、最
終的な予測残差信号eが、高速フーリエ変換(FFT)
を行う変換プロセッサ40により周波数領域に変換され
る。適応ビット割り当ては、聴覚モデル量子化器制御プ
ロセッサ50により決定された知覚的な重要度にしたが
って、残差量子化器60によりビットを予測残差FFT
係数に割り当てるために行われる。
【0018】(a)LPC予測子パラメータ(il )、
(b)ピッチ予測子パラメータ(i、p 、il )、
(c)変換利得レベル(ig )、並びに量子化された予
測残差(ir )を示す各コードブックインデックスは、
ビットストリーム中に多重化され、また側情報(sid
e information)としてチャネル上を伝送
される。このチャネルは、無線チャネル、コンピュータ
およびデータネットワーク、電話ネットワークを含む適
当な通信チャネルから構成され、また固体メモリ(例え
ば、半導体メモリ)、光メモリシステム(例えば、CD
−ROM)、磁気メモリ(例えば、ディスクメモリ)な
どを含みまたは有している。
【0019】TPC復号器は、基本的には、符号化器に
おいて行われた動作の逆を行うものである。この復号器
は、LPC予測パラメータ、ピッチ予測パラメータ、並
びに予想残差の利得レベルおよびFFT係数を復号す
る。復号されたFFT係数は、逆FFTを加えることに
より時間領域に逆変換される。得られた復号された予測
残差は次いでピッチ合成フィルタおよびLPC合成フィ
ルタを通過して音声信号が再構築される。
【0020】複雑さをできる限り低く抑えるために、T
PCでは開ループ量子化が採用されている。開ループ量
子化は、出力の音声の品質に対する影響に拘らず、量子
化されないパラメータとその量子化されたものとの間の
差を最小限にするように、量子化器が動作することを意
味するものである。これは、例えば、ピッチ予測子、利
得、および励起は、通常は閉ループ量子化されるCEL
Pとは逆である。符号化器のパラメータの閉ループ量子
化においては、量子化器のコードブック検索は、最終的
な再構築された出力音声における歪みを最小限にするよ
うにされる。当然のことであるが、これにより出力音声
の品質が向上するが、コードブック検索の複雑さが増し
て高価となる。
【0021】B. 例示的な符号化器の実施の形態 1. LPC解析および予測 図2にLPC解析プロセッサ10の詳細なブロックダイ
ヤグラムを示した。プロセッサ10は、窓処理(win
dowing)および自己相関プロセッサ210、スペ
クトル平滑化およびホワイトノイズ補正プロセッサ21
5、Levinson−Durbin再帰プロセッサ2
20、帯域幅拡張プロセッサ225、LPC−LSP変
換プロセッサ230、並びにLPCパワースペクトルプ
ロセッサ235、LSP量子化器240、LSP分類プ
ロセッサ245、LSP補間プロセッサ250、並びに
LSP−LPC変換プロセッサ255から構成される。
窓処理および自己相関プロセッサ210はLCP係数の
発生の処理を開始する。プロセッサ210自己相関係数
rを、従来の態様で、20ms毎に1つ発生し、これか
ら後述するようにLPC係数が計算される。1978年
の、New Jersey、Englewood Cl
iffsのPrentice−Hall、Inc.のR
abiner、L.R.などのDigital Pro
cessing of Speech Signals
(Rabinerなど)を参照。LPCのフレームサイ
ズは20ms(つまり16kHzのサンプリング速度で
320音声サンプル)である。各20msのフレーム
は、さらに、5つのサブフレームで、各4msの長さ
(つまり64サンプル)に分割される。LPC解析プロ
セッサは、従来の方法で、現在のフレームの最後の4m
sのサブフレームに中心付けされた、24msのハミン
グ窓(Hamming window)を使用する。
【0022】悪条件を緩和するため、従来の信号調整技
術が採用される。スペクトル平滑化技術(SST)およ
びホワイトノイズ補正技術が、スペクトル平滑化および
ホワイトノイズ補正プロセッサ215により、LPC解
析の前に加えられる。このSSTは、公知の技術であり
(1978年12月のIEEE Trans. Aco
ust. Speech、Signal Proces
sing、ASSP−26:587−596のTohk
uraなどによる「Spectral Smoothi
ng Technique in PARCOR Sp
eech Analysis−Synthesis」
(Tohkuraなど))、計算された自己相関係数ア
レイ(プロセッサ210からの)を、そのフーリエ変換
が40Hzの標準偏差でガウス分布の確率密度関数(p
df)に対応するガウス窓により多重化することを含ん
でいる。ホワイトノイズ補正は、同様に従来的なもので
あり(1989年11月のProc. IEEE Gl
obal Comm. Conf.、pp1237−1
241、TX、DallasのChen、J−Hによる
「A Robust Low−Delay CELP
Speech Coder at 16kbit/
s」)、ゼロ遅れの自己相関係数(つまり、エネルギー
項)を0.001%ずつ増大させる。
【0023】プロセッサ215により発生された係数は
次いで、Levinson−Durbin再帰プロセッ
サ220に供給され、従来の方法により、16のLPC
係数ai 、i=1、2、…、16(LPC予測子20の
オーダは16である)が発生される。
【0024】帯域幅拡張プロセッサ225は、別の信号
調整のために、各ai を係数gi で多重化し、gi
0.994である。これは30Hzの帯域幅の拡張に対
応する(Tohkuraなど)。
【0025】このような帯域幅の拡張の後には、LPC
予測子係数は、LPC−LSP変換プロセッサ230に
より従来の方法で線スペクトル対(LSP)係数に変換
される。本明細書に組み入れられる、1984年3月の
Proc.IEEE Int.Conf.Acous
t.、Speech、Signal Processi
ng、pp.1.10.1−1.10.4のSoon
g、F.K.などの「Line Spectrum P
air(LSP)and Speech DataCo
mpression」(Soongなど)を参照。
【0026】次いで、得られたLSP係数を量子化する
ために、ベクトル量子化(VQ)がベクトル量子化器2
40により供給される。プロセッサ240において採用
された特定のVQ技術は、本明細書中に組み込まれる、
1991年5月ののProc.IEEE Int.Co
nf.Acoust.、Speech、SignalP
rocessing、pp.661−664、Toro
nto、CanadaのPalowal、K.K.など
による「Efficient VectorQuant
ization of LPC Parameters
at 24 bits/frame」(Paliwa
lなど)において提案されている。16次元のLPCベ
クトルは、低周波端から計数した、2、2、2、2、
2、3、3の寸法を有する、7つのより小さいサブベク
トルに分割される。7つのサブベクトルのそれぞれは7
ビットに量子化される(つまり、128コードベクトル
のVQコードブックを使用して)。よって、7つのコー
ドブックインデックスil (1)〜il (7)があり、
各インデックスは7ビット長であり、LPCパラメータ
量子化において使用されるフレーム当たり全部で49ビ
ットである。これら49ビットは、側情報として復号器
に伝送されるために、MUX70に供給される。
【0027】Paliwalなどにおいて説明されてい
るように、プロセッサ240は、その検索をVQコード
ブックを通し従来の重み付け平均二乗誤差(WMSE)
の歪み尺度を使用して行う。使用されるコードブック
は、従来公知ののコードブック発生技術を使用して決定
される。出力音声の品質を大きく劣化することなしに復
号器の複雑さを減じるために、従来のMSE歪み尺度を
WMSE尺度の代えて使用することもできる。
【0028】通常、LSP係数は単調に増大する。しか
しながら、量子化はこのオーダの中断で得られる。この
中断により復号器におけるLPC合成フィルタが不安定
となる。この問題を回避するため、LSP分類プロセッ
サ245は、単調に増大する順序で回復を行い、また安
定性を確保するため、量子化されたLSP係数を分類す
る。
【0029】量子化されたLSP係数は、現在のフレー
ムの最後のサブフレームにおいて使用される。これらの
LSP係数と先のフレームの最後のサブフレームからの
LSP係数との間の線形補間が、最初の4つのサブフレ
ームに対するLSP係数を提供するために、LSP補間
プロセッサ250により従来のように行われる。補間さ
れ量子化されたLSP係数は次いで、従来の方法でLS
P−LPC変換プロセッサ255により各サブフレーム
において使用されるために、LPC予測子係数に逆変換
される。これは、符号化器と復号器の両方において行わ
れる。LSP補間は出力音声の平滑な再生を維持する点
において重要である。LSP補間により、LPC予測子
がサブフレーム(4ms)に一度だけ平滑な態様で更新
される。得られたLPC予測子20は復号器の入力信号
を予測するために使用される。入力信号およびその予測
したものとの間の差が、LPC予測残差dである。
【0030】2. ピッチ予測 ピッチ予測プロセッサ30は、図3に示したように、ピ
ッチ抽出プロセッサ410、ピッチタップ量子化器41
5、並びに3タップのピッチ予測誤差フィルタ420か
ら構成される。プロセッサ30は、音声化された音声に
おけるピッチの周期性による、LPC予測残差dにおけ
る冗長度を取り除くために使用される。プロセッサ30
により使用されるピッチ推定は、mフレームに一度だけ
(20ms毎に一度)更新される。ピッチ予測には、量
子化されまた復号器に伝送される2種類のパラメータ、
つまり、音声化された音声の略周期的な波形の周期に対
応するピッチ周期、および3つのピッチ予測子の係数
(タップ)がある。
【0031】LPC予測残差のピッチ周期は、本明細書
に組み入れられる、「Methodof Use of
Voice Message Coder/Deco
der」と題された米国特許第5、327、520号に
説明されている、効率的な2段階の検索技術の修正版を
使用して、ピッチ抽出プロセッサ410により決定され
る。プロセッサ410は、帯域幅を約800Hzに制限
するために、最初にLPC残差を3次の楕円ローパスフ
ィルタを通し、次いでローパスフィルタの出力の8:1
の分割を行う。分割された信号の自己相関係数は、分割
されない信号領域における32から280の時間遅れに
対応する、4から35の範囲の時間遅れに対して計算さ
れる。よって、ピッチ周期に対する許容可能な範囲は2
msから17.5ms、つまりピッチ周波数でd57H
zから500Hzである。これは、低いピッチの男性お
よび高いピッチの子供を含む全ての話し手に必須の通常
のピッチ範囲をカバーするには十分である。
【0032】プロセッサ410により分割された信号の
自己相関係数が計算された後は、最も小さい時間遅れを
有する自己相関係数の最初の大きなピークが識別され
る。これが第1段階の検索である。得られた時間遅れを
tとする。この値tは、分割されない時間領域における
時間遅れを得るために8が乗算される。得られた時間遅
れ8tは、実際のピッチ周期が最も存在する可能性のあ
る場所を指している。分割されない信号領域における元
の時間の解像度を保持するために、t−7からt+7の
範囲において第2段階の検索が行われる。元の分割され
ないLPC残差の自己相関係数dは、t−7からt+7
の時間遅れに対して計算される(32サンプルの下側の
境界および280サンプルの上側の境界に対して)。こ
の範囲における最大の自己相関係数に対応する時間遅れ
は次いで最終的なピッチ周期pとして識別される。この
ピッチ周期pは、従来のVQコードブックで8ビットに
符号化され、また8ビットのコードブックインデックス
p が側情報として復号器に伝送されるためにMUX7
0に供給される。ピッチ周期として選択することができ
る整数は280−32+1=249であるので、ピッチ
周期を表すためには8ビットで十分である。
【0033】3ピッチの予測子タップは、ピッチタップ
量子化器415により量子化された形式で結合的に決定
される。量子化器415は、64のピッチ予測子タップ
を表す64のコードベクトルを有する従来のVQコード
ブックで構成される。現在のフレーム内のピッチ予測残
差のエネルギーはコードブックを介しての検索の歪み尺
度として使用される。このような歪み尺度により、予測
子タップ自体に関する単純なMSE尺度よりも、より良
いピッチ予測利得を得ることができる。通常は、この歪
み尺度で、蓄力手法が使用された場合にはコードブック
検索の複雑さが非常に高くなる。しかしながら、量子化
器415は、この歪み尺度に対しては、従来公知(米国
特許第5、327、520号に開示された)の効率的な
コードブック検索技術を使用している。この技術の詳細
の説明は省略するが、基本的な考え方は次の通りであ
る。
【0034】残差エネルギー歪む尺度を最小限とするこ
とは、2つの9次元ベクトルの内積を最大とすることに
等しいことである。これら9次元のベクトルの1つは、
LPC予測残差の1つだけの自己相関係数を含んでい
る。他の9次元ベクトルは評価中の3つのピッチ予測子
タップの組から派生した積項だけを含んでいる。このよ
うなベクトルは信号依存であり、またピッチタップのコ
ードベクトルにのみ依存しているので、このような可能
姓のあるのは64のベクトルだけであり(各ピッチタッ
プコードベクトルに対して1つ)、またこれらは予め計
算され、またテーブルであるVQコードブックに記憶さ
れている。実際のコードブック検索においては、LPC
残差の自己相関の9次のベクトルが最初に計算される。
次に、その64の予め計算され記憶された9次のベクト
ルのそれぞれにおける得られたベクトルの内積が計算さ
れる。記憶されたテーブル内のベクトルの中で最大の内
積のものがウイナーであり、これから3つの量子化され
たピッチ予測子のタップが導出される。記憶されたテー
ブル内には64のベクトルがあるので、6ビットのイン
デックスil が3つの量子化されたピッチ予測子のタッ
プを表すには十分である。これらの6ビットはMUX7
0に対して、側情報として復号器に伝送のために供給さ
れる。
【0035】上記のようにして決定された量子化された
ピッチ周期およびピッチ予測子のタップは、フレーム毎
に一度だけピッチ予測誤差フィルタ420を更新するた
めに使用される。量子化されたピッチ周期およびピッチ
予測子のタップはフィルタ420により、LPC予測残
差を予測するために使用される。予測されたLPC予測
残差は次いで、実際のLPC予測残差から減じられる。
予測された分が量子化されないLPC予測残差から減じ
られた後は、量子化されないピッチ予測残差eを得るこ
とができ、これは後述する変換符号化手法を使用して符
号化される。
【0036】3. 予測残差の変換符号化 ピッチ予測残差eは、変換プロセッサ40により、サブ
フレーム毎に符号化される。プロセッサ40の詳細なブ
ロックダイヤグラムを図4に示した。プロセッサ40
は、FFTプロセッサ510、利得プロセッサ520、
利得量子化器530、利得補間プロセッサ540、並び
に正規化プロセッサ550などから構成される。
【0037】FFTプロセッサ510は、ピッチ予測残
差eの各フレームに対する従来の64点のFFTを計算
する。このサイズの変換は、オーディオ符号化技術にお
いて公知である所謂「プリエコー」歪みを回避するため
のものである。本明細書中に組み入れられる、1993
年10月のProc.IEEE、pp1385−142
2のJayant、N.などによる「Signal C
ompressionBased on Models
of Human Perception」を参照の
こと。
【0038】a. 利得計算および量子化 プロセッサ510により周波数領域に予測残差の各4m
sのサブフレームの後に、利得レベル(あるいは二乗平
均(RMS)値)が利得プロセッサ520により抽出さ
れ、また異なる周波数バンドに対して利得量子化器53
0により量子化される。現在のフレームにおける5つの
各サブフレームに対して、2つの利得値、つまり(1)
低周波数(0から1kHz)としての、プロセッサ51
0からの最初の5つのFFT係数のRMS値、並びに
(2)高周波(4から7kHz)としての、プロセッサ
510からの17番目から29番目のFFT係数のRM
S値、がプロセッサ520により抽出される。このよう
にして、2×5=10の利得が利得量子化器530によ
り使用のためにフレーム毎に抽出される。
【0039】各フレームにおいて、利得量子化器530
により採用される量子化スキームを高周波利得および低
周波利得に対して別々なものとしても良い。高周波(4
−7kHz)利得に対しては、量子化器530は、現在
のフレームの最後のサブフレームの高周波利得を、従来
のスカラ量子化を使用して5ビットに符号化される。こ
の量子化された利得は次いで、量子化器530により、
デシベル項で対数領域に変換される。32の可能な量子
化された利得レベル(5ビットで)しかないので、32
の対応するログ利得はテーブル内に予め計算され記憶さ
れ、また利得の線形領域からログ領域への変換はテーブ
ル索引により行われる。量子化器530は次いで、ログ
領域内で、この得られたログ利得と最後のフレームの最
後のサブフレームのログ利得の間の線形補間を行う。こ
のような補間により、サブフレーム1から4に対するロ
グ利得の近似(つまり、予測)を生じることができる。
次いで、利得プロセッサ520により供給される、サブ
フレーム1から4の線形利得はログ領域に変換され、ま
た補間されたログ利得は結果から抽出される。このよう
にして、それぞれ2次の2つのベクトルに分類される、
4つのログ利得補間誤差が生じる。
【0040】各2次のログ利得補間誤差ベクトルは、次
いで、従来同様に、単純なMSE歪み尺度を使用して7
ビットにベクトル量子化される。2つの7ビットコード
ブックインデックスは、現在のフレームの最後のサブフ
レームを表す5ビットのスカラに加えて、復号器への伝
送のためにMUX70に供給される。
【0041】利得量子化器530はまた、量子化された
ログ利得を得るために、得られた4つの量子化されたロ
グ利得補間誤差を4つの補間されたログ利得に戻す。こ
れらの4つの量子化されたログ利得は次いで、サブフレ
ーム1から4に対して4つの量子化された高周波利得を
得るために、線形領域に逆変換される。これらの高周波
量子化された利得は、サブフレーム5の高周波量子化さ
れた利得とともに、後述する処理のために利得補間プロ
セッサ540に供給される。
【0042】利得量子化器530は、量子化された高周
波利得および量子化されたピッチ予測タップに基づい
て、低周波(0−1kHz)利得の量子化を行う。高周
波利得を同じサブフレームの低周波ログ利得から減算し
て得られる、ログ利得差の統計量は、ピッチ予測子によ
り強く影響される。これらのフレームに大きなピッチ周
期性がない場合には、ログ利得差は平均ゼロであり、ま
た標準偏差がより小さい。他方、これらのフレームに強
い周期性がある場合には、ログ利得は大きな負の平均と
大きな標準偏差を有する。このような考察から、各フレ
ームに対する5つの低周波利得のための効率的な量子化
を行うための基礎が作れる。
【0043】64の量子化されたピッチ予測子タップの
それぞれに対して、大きな音声データベースを使用し
て、ログ利得差の条件平均および条件標準偏差が予め計
算される。得られた64のエントリテーブルは次いで、
利得量子化器530により、低周波利得の量子化の際に
使用される。
【0044】最後のサブフレームの低周波利得は次の方
法で量子化される。ピッチ予測タップを量子化しながら
得られたコードブックインデックスは、テーブル索引動
作において、特定の量子化されたピッチ予測子タップに
対するログ利得差の条件平均および条件標準偏差を抽出
するために使用される。最後のサブフレームのログ利得
差が次いで計算される。条件平均はこの量子化されない
ログ利得差から減じられ、また得られた平均が取り除か
れたログ利得差は、従来の標準偏差により分割される。
この操作により、基本的には、ゼロ平均の、スカラ量子
化を使用して利得量子化器530により4ビットで量子
化される、ユニット分散量が生成される。
【0045】量子化された値は、次いで、条件標準偏差
により乗算され、また量子化されたログ利得差を得るた
めにこの結果が条件平均に付加される。次に、量子化さ
れた高周波ログ利得が、最後のサブフレームの量子化さ
れた低周波ログ利得を得るために戻して加えられる。得
られた値は次いで、サブフレーム1から4に対して、低
周波ログ利得の線形補間を行うために使用される。この
補間は、先のフレームの最後のサブフレームの量子化さ
れた低周波ログ利得と現在のフレームの最後のサブフレ
ームの量子化された低周波ログ利得との間で行われる。
【0046】4つの低周波ログ利得補間誤差が次いで計
算される。まず、利得プロセッサ520により供給され
た線形利得がログ領域に変換される。次いで、補間され
た低周波ログ利得が変換された利得から減算される。得
られたログ利得補間誤差は、ログ利得差の条件標準偏差
により正規化される。正規化された補間誤差は、次い
で、2次の2つのベクトルに分類される。これらの2つ
のベクトルはそれぞれ、高周波の場合におけるVQスキ
ームと同様に、単純なMSE歪み尺度を使用して7ビッ
トに量子化されたベクトルである。2つの7ビットのコ
ードブックインデックスは、現在のフレームの最後のサ
ブフレームを表す4ビットのスカラに加えて、復号器へ
の伝送のためにMUX70に供給される。
【0047】利得量子化器は、元の大きさを回復するた
めに、同様に4つの量子化された値に条件標準偏差を乗
算し、次いで、この結果に補間されたログ利得が加えら
れる。得られた値は、サブフレーム1から4に対する、
量子化された低周波のログ利得である。最後に、全ての
5つの量子化された低周波ログ利得が、利得補間プロセ
ッサ540による次の使用のために、線形領域に変換さ
れる。
【0048】利得補間プロセッサ540は1から4kH
zの周波数帯に対する近似化された利得を決定する。ま
ず、量子化された高周波利得と同様に、13番目から1
6番目のFFT係数(3から4kHz)に対する利得レ
ベルが選択される。次いで、6番目から12番目のFF
T係数(1から3kHz)に対する利得レベルが、量子
化された低周波ログ利得と量子化された高周波ログ利得
との間の線形補間により得られる。得られた補間された
ログ利得の値は、次いで、線形領域に逆変換される。よ
って、利得補間プロセッサの処理の完了の際には、0か
ら7kHz各FFT係数(1番目から29番目のFFT
係数)は、これにより量子化されあるいは補間された利
得のいずれかを有している。これらの利得値のベクトル
は、次の処理のために利得正規化プロセッサ550に供
給される。
【0049】利得正規化プロセッサ550はFFTプロ
セッサ510により発生したFFT係数を、各係数をそ
の対応する利得で除算することで正規化する。得られた
利得が正規化されたFFT係数は次いで、残差量子化器
60により量子化される。
【0050】b. ビットストリーム 図7は、本発明の例示的な実施の形態のビットストリー
ムを示したものである。上記した通り、49ビット/フ
レームが、LPCパラメータを符号化するために割り当
てられ、8+6=14ビット/フレームが3タップのピ
ッチ予測子のために割り当てられ、また5+(2×7)
+4+(2×7)=37ビット/フレームが利得のため
に割り当てられる。よって、側部情報ビットの全部の数
は、20msフレーム当たり49+14+37=100
ビット、つまり4msサブフレーム当たり20ビットで
ある。符号化器が3つの異なる速度、つまり16、24
および32kb/sの1つで使用される場合について考
察する。16kHzのサンプリング速度においては、こ
れら3つの目標速度は1、1.5、および2ビット/サ
ンプルに翻訳される。側部情報に対して20ビット/サ
ブフレームが使用されるとすると、主情報(FFT係数
の符号化)を符号化する際に使用するための残りのビッ
ト数は、3つの速度16、24および32kb/sのそ
れぞれに対して、44、76、および108ビット/サ
ブフレームとなる。
【0051】c.適応ビット割り当て 本発明の原理にしたがって、異なる量子化精度の周波数
スペクトルの種々の部分にこれらの残りのビットを割り
当てる際に、TPC復号器における出力音声の知覚品質
を高めるために、適応ビット割り当てが行われる。これ
は、オーディオ信号におけるノイズに対する人の感度の
モデルを使用して行われる。このようなモデルは知覚オ
ーディオ符号化の分野においては公知である。例えば、
1970年のNew YorkおよびLondonのA
cademic PressのTobias、J.V.
などによる「Foundations of Mode
rn Auditory Theory」を参照のこ
と。また、本明細書中に組み入れられる、1979年1
2月のJ.Acoust. Soc.Amer.の6
6:1647−1652のSchroeder、M.
R.などによる「Optimizing Degita
l Speech Coders by Exploi
ting Masking Properties o
f the Human Ear」(Schoroed
erなど)を参照のこと。
【0052】聴覚モデルおよび量子化器の制御プロセッ
サ50はLPCパワースペクトルプロセッサ510、マ
スキングしきい値プロセッサ515、並びにビット割り
当てプロセッサ520から構成される。適応ビット割り
当てはサブフレーム毎に行われるが、本発明の例示的な
実施の形態は、計算の複雑さを減じるためにフレーム毎
に一度だけビット割り当てを行う・
【0053】ノイズマスキングしきい値およびビット割
り当てを導出するために量子化されない入力信号を使用
するよりはむしろ、従来の音楽符号化器において行われ
ているのと同様に、本実施の形態におけるノイズマスキ
ングしきい値およびビット割り当ては、量子化されたL
PC合成フィルタ(しばしば「LPCスペクトル」と称
される)の周波数応答から決定される。LPCスペクト
ルは、24msのLPC解析ウインド内の入力信号のス
ペクトルエンベロープの近似として考慮される。LPC
スペクトルは量子化されたLPC係数に基づいて決定さ
れる。量子化されたLPC係数は、LPC解析プロセッ
サ10により、聴覚モデルおybおい量子化器の制御プ
ロセッサ50のLPCスペクトルプロセッサ510に供
給される。プロセッサ510はLPCスペクトルを次の
ようにして決定する。量子化されたLPC係数(a)
は、64点のFFTによりまず変換される。最初の33
のFFT係数のべき(power)が計算され、またこ
れらのべきの値の再帰が次いで計算される。結果は、6
4点FFTの周波数解像度を有するLPCパワースペク
トルである。
【0054】LPCパワースペクトルが決定された後
は、推定されたノイズマスキングしきい値が、マスキン
グしきい値プロセッサ515により計算される。マスキ
ングしきい値TM は、本明細書に組み入れられる、米国
特許第5、314、457号に説明された方法の改良版
を使用して計算される。プロセッサ515は、聴音実験
から実験的に決定された周波数依存の減衰関数により、
プロセッサ510からのLPCパワースペクトルの33
のサンプルをスケーリングする。図6に示したように、
減衰関数は、LPCパワースペクトルのDC項に対して
12dBから開始し、700と800Hzの間で約15
dB増大し、次いで高周波になるにつれて短調に減少
し、最終的に8000Hzにおいて6dBまで減じる。
【0055】33の減衰されたLPCパワースペクトル
のサンプルのそれぞれは、次いで、特定の周波数に対し
て導出された「基底膜拡散関数」をスケーリングし、マ
スキングしきい値を計算するために使用される。与えら
れた周波数に対する拡散関数は、その周波数における単
一トーンのマスカー(masker)信号に応答するマ
スキングしきい値の形状に対応する。本明細書に組み込
まれるSchroederなどの式(5)には、このよ
うな拡散関数が「バーク」周波数の基準、あるいは臨界
帯周波数基準の用語で説明されている。基準化プロセス
はまず、0−16kHzでの64点のFFTの最初の3
3の周波数(つまり、0Hz、250Hz、500H
z、…、8000Hz)を「バーク」周波数基準に変換
することで開始される。
【0056】次いで、得られた33のバーク値のそれぞ
れに対して、、Schoederなどの式(5)を使用
してこれら33のアーク値において対応する拡散関数が
サンプリングされる。33の得られた拡散関数はテーブ
ル中に記憶され、これは、オフラインプロセスの一部と
して行われる。推定されたマスキングしきい値を計算す
るため、33の拡散関数のそれぞれが、減衰されたLP
Cパワースペクトルの対応するサンプリング値により乗
算され、また得られた33の基準化された拡散関数が一
緒に合計される。この結果は、ビット割り当てプロセッ
サ520に供給される推定されたマスキングしきい値関
数である。図9は、推定されたまスイングしきい値関数
を決定するためにプロセッサ520により行われる処理
を示したものである。
【0057】ここで、マスキングしきい値を推定するた
めのこの技術は、利用可能な唯一の技術ではない。複雑
さを低く抑えるために、ビット割り当てプロセッサ52
0は、残差の量子化のためのビットを割り当てるために
「欲張り」技術を使用する。この技術は、その次のビッ
ト割り当てへの影響を無視して、最も「必要な」周波数
要素に一度に1ビットを割り当てる。
【0058】ビット割り当てがなされない開始時には、
対応する出力信号はゼロである、また符号化誤差信号は
入力音声自体である。よって、最初は、LPCパワース
ペクトルは符号化されたノイズのパワースペクトルであ
ると推定される。次いで、64点のFFTの33の周波
数のそれぞれにおいてノイズの大きさが上記で計算され
たマスキングしきい値およびSchroederなどに
おけるノイズの大きさの計算法の単純化され手法を使用
して計算される。
【0059】33の周波数のぞれぞれにおいて単純化さ
れたノイズの大きさは、次のようにプロセッサ520に
より計算される。まず、i番目の周波数における臨界の
帯幅Bi が、Tobias中のScharfの本のテー
ブル1にリストされた臨界の帯幅の線形補間を使用して
計算される。この結果はSchroederなどの式
(3)におけるdf/dx項の推定値である。33の臨
界の帯域幅の値は予め計算されテーブルに記憶される。
次いで、i番目の周波数に対して、ノイズパワーNi
マスキングしきい値Mi と比較される。Ni ≦Mi の場
合には、ノイズの大きさLi はゼロに設定される。Ni
>Mi の場合には、ノイズの大きさLi は次のように計
算され、Si はi番目の周波数におけるLPCパワース
ペクトルのサンプル値である。 Li=Bi((Ni −Mi )/(1+(Si /Ni
2 ))0.25
【0060】ノイズの大きさが全ての33の周波数に対
してプロセッサ520により計算されたならば、最大の
ノイズの大きさの周波数が識別され、またこの周波数に
1ビットが割り当てられる。この周波数におけるノイズ
べきが次いで、予測残差FFT係数を量子化するための
VQコードブックの設計の間に得られる信号−ノイズ比
(SNR)から実験で決定される要素だけ減じられる
(減じられる要素の値は一例として4と5dBの間であ
る。)。この周波数におけるノイズの大きさは次いで減
じられたノイズべきを使用して更新される。次に、更新
されたノイズの大きさのアレイから最大のものが識別さ
れ、また対応する周波数に1ビットが割り当てられる。
このプロセスは、利用可能なビットがなくなるまで継続
される。
【0061】32と223kb/sのTPC符号化器に
対しては、33の周波数のそれぞれが適応ビット割り当
ての間にビットを受信する。16kb/sのTPC符号
化器に対しては、符号化器が0から4kHz(つまり、
最初の16のFFT係数)の周波数範囲にだけビットを
割り当て、また残差FFT係数を4から8kHzのより
高い周波数において合成する場合に、より良い音声品質
とすることができる。4から8kHzの残差FFT係数
を合成するための方法は、以下に、例示的な復号器を関
連して説明する。
【0062】なお、量子化されたLPC合成係数(a)
は同様にTPC復号器において利用可能であり、ビット
割り当て情報を伝送する必要はない。このビット割り当
て情報は、復号器内の聴覚モデル量子化器制御プロセッ
サ50のレプリカにより決定される。よって、TPC復
号器は、このようなビット割り当て情報を得るために、
復号器の適用型ビット割り当て動作を部分的に複写する
ことができる。
【0063】d. FFT係数の量子化 ビット割り当てが行われたならば、標準化された予測残
差FFT係数EN の実際の量子化は量子化器60により
行われる。FFTのDC項は実数だえり、またこれはビ
ット割り当ての間にいずれかのビットを受信する場合に
はスカラ量子化される。受信できる最大数は4である。
あるいは16番目のFFT係数に対して、従来の2次元
のベクトル量子化器が実数と虚数を一緒に量子化するた
めに使用することもできる。この2次元のVQに対する
ビットの最大数は6ビットである。17番目から30番
目のFFT係数に対しては、従来の4次元ベクトル量子
化器が2つの隣接するFFT係数の実部と虚部を量子化
するために使用される。
【0064】C. 例示的な復号器の実施の形態 本発明の例示的な復号器の実施の形態を図8に示した。
この例示した復号器は、図8のように接続された、多重
分離器(DEMUX)65、LPCパラメータ復号器8
0、聴覚モデル量子化分離器制御プロセッサ90、量子
化分離器70、逆変換プロセッサ100、ピッチ合成フ
ィルタ110、並びにLPC合成フィルタ120から構
成される。一般的な命題として、この実施の形態の復号
器は、主情報に関して例示した符号化器により行われた
のと逆の動作を行う。
【0065】各フレームに対して、DEMUX65は受
信したビットストリームから全ての主および側情報要素
を分離する。主情報は量子化分離器70に供給される。
「量子化分離」の用語は、本明細書では、インデックス
のような符号化された値に基づいて量子化された出力を
発生することを意味する。この主情報を量子化分離する
ため、主情報ビットのどれだけ多くのものが主情報の各
量子化された変換係数と関連しているかを決定するため
に適応ビット割り当てが行われる。
【0066】適応ビット割り当てにおける最初の段階
は、量子化されたLPC係数(割り当てに依存する)を
発生することである。上記したように、7つのLSPコ
ードブックインデックスil (1)〜il (7)が、量
子化されたLSP係数を表すために、復号器へのチャネ
ル上で通信される。量子化されたLSP係数は、DEM
UX65からの受信したLSPインデックスに応答した
LSPコードブック(上記したもの)のコピーを使用し
て、復号器80により合成される。最後に、LPC係数
が従来の方法でLSP係数から導出される。
【0067】LPC係数aを合成することで、聴覚モデ
ル量子化分離器制御プロセッサ90は、符号化器を参照
して上記したのと同様な方法で各FFT係数に対してビ
ット割り当てを決定する(量子化されたLPCパラメー
タに基づいて)。ビット割り当て情報が導出したなら
ば、量子化分離器70は、次いで、主FFT係数情報を
正確に復号し、また利得正規化された予測残差FFT係
数の量子化したものを得る。
【0068】ビットを全然受信したいこれらの周波数に
対して、復号されたFFT係数はゼロとなる。このよう
な「スペクトルの穴」の位置は時間とともに発展し、ま
たこれが多くの変換符号化器に共通な明確な人工の歪み
となる。このような人工の歪みを回避するため、量子化
分離器70はスペクトル穴を、量子化された利得より3
dB低いランダムな位相と大きさを有する低レベルのF
FT係数で満たす。
【0069】32と24kb/sの符号化器に対して
は、上記で復号器に関して説明しように、ビット割り当
ては全体の周波数帯域に対して行われる。16kb/s
の符号化器に対しては、ビット割り当ては0から4kH
z帯域に制限される。4から8kHzの帯域は次の方法
で合成される。まず、LPCパワースペクトルとマスキ
ングしきい値の間の比、つまり、信号対マスキングしき
い値の比(SMR)が4から7kHzの周波数に対して
計算される。17番目から29番目のFFT係数(4か
ら7kHz)は、ランダムで大きさの値がSMRにより
制御される位相を使用して合成される。SMR>5dB
でのこれらの周波数に対しては、残差FFT係数の大き
さは、量子化された高周波数の利得より4dB上にセッ
トされる(4から7kHzの帯域におけるFFT係数の
RMS値)。SMR≦5dBでのこれらの周波数に対し
ては、大きさは、量子化された高周波利得より3dB下
である。30番目から33番目のFFT係数では、量子
化された高周波利得よりも3dBから30dB下に設定
され、また位相はランダムである。図10は、FFT係
数の大きさと位相を合成する処理を例示したものであ
る。
【0070】全てのFFT係数が復号され、満たされ、
あるいは合成された際には、これらはスケーリングの準
備が完了した状態となる。スケーリングは、最初の4つ
のサブフレームの低周波と高周波帯域のログ利得補間誤
差のためのインデックスとともに、現在のフレームの最
後のサブフレームにそれぞれ対応する、高周波利得のた
めの5ビットのインデックスと低周波利得のための4ビ
ットをそれぞれ受信する(DEMUX 65から)、逆
変換プロセッサ100により行われる。これらの利得イ
ンデックスは復号され、また、利得計算および量子化の
セクションで説明したように、各FFT係数に対するス
ケーリング要素を得るためにこの結果が使用される。F
FT係数は次いで、それらの個々の利得によりスケーリ
ングされる。
【0071】得られた利得はスケーリングされ、また、
量子化されたFFT係数は、次いで、逆FFTを使用し
て逆変換プロセッサ100により時間領域に逆変換され
る。この逆変換により、時間領域量子化された予測残差
eが生成される。
【0072】時間領域量子化された予測残差eは、次い
で、ピッチ合成フィルタ110を通過する。フィルタ1
10は、量子化されたピッチ周期pに基づいて、量子化
されたLPC予測残差を生成するために、ピッチ予測値
を残差に加える。量子化されたピッチ周期は、DEMU
X65から得られた、8ビットのインデックスip から
復号される。ピッチ予測子タップは、同様にDEMUX
65から得られた、6ビットのインデックスil から復
号される。
【0073】最後に、量子化された出力音声sは、次い
で、LPCパラメータ復号器80から得られた、量子化
されたLPC係数aを使用して、LPC合成フィルタ1
20により発生される。
【0074】D. 検討 以上、本発明の多くの特定の実施の形態を示したが、こ
れらの実施の形態は本発明の応用において案出すること
ができる多くの特定の構成の例示にすぎないものであ
る。上記の説明から、当業者によれば、本発明の技術思
想と範囲を逸脱することなく、本発明の基本原理にした
がって種々の構成を案出できるものである。
【0075】例えば、SMR>5dBの範囲で4から7
kHzにおいてこれらお周波数におけるFFT位相情報
だけを符号化することで、良好な音声と音楽の品質が維
持される。また大きさは、ビット割り当ての説明の終り
付近で説明した高周波数合成法と同じ方法で決定するこ
とができる。
【0076】多くのCELPフィルタは、ピッチ予測を
より効率的に行うために、4から6ms毎に一度だけピ
ッチ予測子パラメータを更新する。このような更新は、
例示した実施の形態のTPC符号化器の場合にはより頻
繁に行われる。勿論、他の更新速度とすることもでき
る。
【0077】ノイズの大きさを推定するための他の方法
を使用することもできる。同様に、最大のノイズの大き
さを最小限にするよりはむしろ、全ての周波数に対する
ノイズの大きさの総和を最小限とできる。符号化器のセ
クションで先に説明した利得量子化スキームは非常に良
い符号化効率を有しており、また音声信号に対して良好
に動作するものである。他の利得量子化スキームを以下
に説明する。これは符号化効率があまり良くはないが、
より単純であり、また非音声信号に対しても有効であ
る。
【0078】他のスキームは、全体のフレームに対して
計算された時間領域ピッチ予測残差信号のRMS値であ
る、「フレーム利得」の計算から開始する。この値は、
次いで、dBに変換され、またスカラ量子化器で5ビッ
トに量子化される。各サブフレームに対して、3つの利
得値が、残差FFT係数から計算される。低周波利得お
よび高周波利得が先と同じ方法で、つまり、最初の5F
FT係数のRMS値と18番目から29番目のFFT係
数のRMS値として、計算される。加えて、中間周波数
利得は、6番目から16番目のFFT係数のRMS値と
して計算される。これら3つの利得値はdB値に変換さ
れ、またdBでのフレーム利得がこれらから抽出され
る。この結果は、3つの周波数帯域に対する正規化され
たサブフレームの利得である。
【0079】正規化された低周波サブフレーム利得は、
4ビットのスカラ量子化器により量子化される。正規化
された中間周波数および高周波数のサブフレーム利得
は、7ビットベクトル量子化器により一緒に量子化され
る。線形領域の量子化されたサブクレーム利得を得るた
めに、dBでのフレーム利得が正規化されたサブフレー
ム利得の量子化されたものに逆に加えられ、またこの結
果が線形領域に逆変換される。
【0080】線形補間が1から4kHzの周波数帯域の
ための利得を得るために行われた先の方法とは異なり、
この代わりの方法はそのような補間が必要でない。各残
差FFT係数は、専用のサブフレーム利得が決定された
3つの周波数帯域の1つに属する。線形領域における3
つの量子化されたサブフレーム利得のそれぞれは、サブ
フレーム利得が導出される周波数帯域における全ての残
余の全てのFFT係数を正規化ないしスケーリングする
ために使用される。
【0081】なお、この代わりの利得量子化スキーム
は、全ての利得を特定するためにより多くのビットを必
要とする。よって、与えられたビット速度に対しては、
残余のFFT係数を量子化するために利用可能なビット
が少なくなる。
【図面の簡単な説明】
【図1】本発明の例示的な符号化器の実施の形態を示し
た説明図である。
【図2】図1のLPC解析プロセッサの詳細なブロック
ダイヤグラムを示した説明図である。
【図3】図1のピッチ予測プロセッサの詳細なブロック
ダイヤグラムを示した説明図である。
【図4】図1の変換プロセッサの詳細なブロックダイヤ
グラムを示した説明図である。
【図5】図1の聴覚モデルおよび量子化器制御プロセッ
サの詳細なブロックダイヤグラムを示した説明図であ
る。
【図6】適応形ビット割り当てのためのマスキングしき
い値を決定する際に使用されるLPCパワースペクトル
の減衰関数を示した説明図である。
【図7】図1の符号化器の実施の形態の一般的なビット
割り当てを示した説明図である。
【図8】本発明の例示的な符号化器の実施の形態を示し
た説明図である。
【図9】推定されたマスキングしきい値関数を決定する
ために行われるプロセスを示したフローチャートであ
る。
【図10】図8の復号器により使用するための残余の高
速フーリエ変換の係数の大きさと位相を合成するために
行われる処理を示したフローチャートである。
【符号の説明】
10 LPC解析プロセッサ 20 LPC予測誤差フィルタ 30 ピッチ予測プロセッサ 40 変換プロセッサ 50 聴覚モデル量子化器制御プロセッサ 60 残差量子化器

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 音声情報を表す信号を符号化する方法に
    おいて、 音声情報を表す信号の推定値を表す第1の信号を発生
    し、 音声情報を表す信号を第1の信号と比較して前記比較さ
    れた各信号の間の差を表す第2の信号を形成し、 人間音声知覚のモデルにより決定された知覚ノイズマス
    キング信号に従って量子化器の解像度を決定し、 第2の信号を決定された量子化器の解像度にしたがって
    量子化し、並びに前記量子化された信号に基づいて符号
    化された信号を発生することを特徴とする方法。
JP8247609A 1995-09-19 1996-09-19 予測符号化における人間聴覚モデルを使用した音声信号量子化法 Pending JPH09152900A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/530980 1995-09-19
US08/530,980 US5710863A (en) 1995-09-19 1995-09-19 Speech signal quantization using human auditory models in predictive coding systems

Publications (1)

Publication Number Publication Date
JPH09152900A true JPH09152900A (ja) 1997-06-10

Family

ID=24115771

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8247609A Pending JPH09152900A (ja) 1995-09-19 1996-09-19 予測符号化における人間聴覚モデルを使用した音声信号量子化法

Country Status (7)

Country Link
US (1) US5710863A (ja)
EP (1) EP0764941B1 (ja)
JP (1) JPH09152900A (ja)
CA (1) CA2185731C (ja)
DE (1) DE69621393T2 (ja)
ES (1) ES2174030T3 (ja)
MX (1) MX9604161A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009537033A (ja) * 2006-05-12 2009-10-22 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 情報信号符号化

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08179796A (ja) * 1994-12-21 1996-07-12 Sony Corp 音声符号化方法
FR2729246A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
KR0155315B1 (ko) * 1995-10-31 1998-12-15 양승택 Lsp를 이용한 celp보코더의 피치 검색방법
JP3266819B2 (ja) * 1996-07-30 2002-03-18 株式会社エイ・ティ・アール人間情報通信研究所 周期信号変換方法、音変換方法および信号分析方法
US6584498B2 (en) 1996-09-13 2003-06-24 Planet Web, Inc. Dynamic preloading of web pages
US6377978B1 (en) 1996-09-13 2002-04-23 Planetweb, Inc. Dynamic downloading of hypertext electronic mail messages
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
US6055496A (en) * 1997-03-19 2000-04-25 Nokia Mobile Phones, Ltd. Vector quantization in celp speech coder
US7325077B1 (en) * 1997-08-21 2008-01-29 Beryl Technical Assays Llc Miniclient for internet appliance
US6031908A (en) * 1997-11-14 2000-02-29 Tellabs Operations, Inc. Echo canceller employing dual-H architecture having variable adaptive gain settings
US6470309B1 (en) * 1998-05-08 2002-10-22 Texas Instruments Incorporated Subframe-based correlation
US6253165B1 (en) * 1998-06-30 2001-06-26 Microsoft Corporation System and method for modeling probability distribution functions of transform coefficients of encoded signal
US6073093A (en) * 1998-10-14 2000-06-06 Lockheed Martin Corp. Combined residual and analysis-by-synthesis pitch-dependent gain estimation for linear predictive coders
US6138089A (en) * 1999-03-10 2000-10-24 Infolio, Inc. Apparatus system and method for speech compression and decompression
KR100675309B1 (ko) * 1999-11-16 2007-01-29 코닌클리케 필립스 일렉트로닉스 엔.브이. 광대역 오디오 송신 시스템, 송신기, 수신기, 코딩 디바이스, 디코딩 디바이스와, 송신 시스템에서 사용하기 위한 코딩 방법 및 디코딩 방법
US7058572B1 (en) * 2000-01-28 2006-06-06 Nortel Networks Limited Reducing acoustic noise in wireless and landline based telephony
ES2287122T3 (es) * 2000-04-24 2007-12-16 Qualcomm Incorporated Procedimiento y aparato para cuantificar de manera predictiva habla sonora.
US20020040299A1 (en) * 2000-07-31 2002-04-04 Kenichi Makino Apparatus and method for performing orthogonal transform, apparatus and method for performing inverse orthogonal transform, apparatus and method for performing transform encoding, and apparatus and method for encoding data
US7171355B1 (en) * 2000-10-25 2007-01-30 Broadcom Corporation Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals
GB0108080D0 (en) * 2001-03-30 2001-05-23 Univ Bath Audio compression
WO2003003350A1 (en) * 2001-06-28 2003-01-09 Koninklijke Philips Electronics N.V. Wideband signal transmission system
US7110942B2 (en) * 2001-08-14 2006-09-19 Broadcom Corporation Efficient excitation quantization in a noise feedback coding system using correlation techniques
US7206740B2 (en) * 2002-01-04 2007-04-17 Broadcom Corporation Efficient excitation quantization in noise feedback coding with general noise shaping
US7328151B2 (en) * 2002-03-22 2008-02-05 Sound Id Audio decoder with dynamic adjustment of signal modification
US7191136B2 (en) * 2002-10-01 2007-03-13 Ibiquity Digital Corporation Efficient coding of high frequency signal information in a signal using a linear/non-linear prediction model based on a low pass baseband
US20040167774A1 (en) * 2002-11-27 2004-08-26 University Of Florida Audio-based method, system, and apparatus for measurement of voice quality
AU2003274617A1 (en) * 2002-11-29 2004-06-23 Koninklijke Philips Electronics N.V. Audio coding
US20040167772A1 (en) * 2003-02-26 2004-08-26 Engin Erzin Speech coding and decoding in a voice communication system
US8473286B2 (en) * 2004-02-26 2013-06-25 Broadcom Corporation Noise feedback coding system and method for providing generalized noise shaping within a simple filter structure
WO2006028010A1 (ja) * 2004-09-06 2006-03-16 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置およびスケーラブル符号化方法
JP4954080B2 (ja) * 2005-10-14 2012-06-13 パナソニック株式会社 変換符号化装置および変換符号化方法
US9159333B2 (en) 2006-06-21 2015-10-13 Samsung Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
KR101393298B1 (ko) * 2006-07-08 2014-05-12 삼성전자주식회사 적응적 부호화/복호화 방법 및 장치
CN103854653B (zh) * 2012-12-06 2016-12-28 华为技术有限公司 信号解码的方法和设备
RU2662921C2 (ru) 2013-06-10 2018-07-31 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для кодирования, обработки и декодирования огибающей аудиосигнала путем моделирования представления совокупной суммы с использованием квантования и кодирования распределения
RU2660633C2 (ru) 2013-06-10 2018-07-06 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для кодирования, обработки и декодирования огибающей аудиосигнала путем разделения огибающей аудиосигнала с использованием квантования и кодирования распределения

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE32580E (en) * 1981-12-01 1988-01-19 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech coder
JPS60116000A (ja) * 1983-11-28 1985-06-22 ケイディディ株式会社 音声符号化装置
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
NL8700985A (nl) * 1987-04-27 1988-11-16 Philips Nv Systeem voor sub-band codering van een digitaal audiosignaal.
US5012517A (en) * 1989-04-18 1991-04-30 Pacific Communication Science, Inc. Adaptive transform coder having long term predictor
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
US5314457A (en) * 1993-04-08 1994-05-24 Jeutter Dean C Regenerative electrical
US5533052A (en) * 1993-10-15 1996-07-02 Comsat Corporation Adaptive predictive coding with transform domain quantization based on block size adaptation, backward adaptive power gain control, split bit-allocation and zero input response compensation

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009537033A (ja) * 2006-05-12 2009-10-22 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 情報信号符号化

Also Published As

Publication number Publication date
US5710863A (en) 1998-01-20
DE69621393D1 (de) 2002-07-04
ES2174030T3 (es) 2002-11-01
EP0764941A3 (en) 1998-06-10
MX9604161A (es) 1997-08-30
CA2185731A1 (en) 1997-03-20
EP0764941B1 (en) 2002-05-29
EP0764941A2 (en) 1997-03-26
DE69621393T2 (de) 2002-11-14
CA2185731C (en) 2001-02-13

Similar Documents

Publication Publication Date Title
CA2185746C (en) Perceptual noise masking measure based on synthesis filter frequency response
EP0764941B1 (en) Speech signal quantization using human auditory models in predictive coding systems
EP0764939B1 (en) Synthesis of speech signals in the absence of coded parameters
RU2262748C2 (ru) Многорежимное устройство кодирования
US6735567B2 (en) Encoding and decoding speech signals variably based on signal classification
JP4662673B2 (ja) 広帯域音声及びオーディオ信号復号器における利得平滑化
EP0720148B1 (en) Method for noise weighting filtering
MXPA96004161A (en) Quantification of speech signals using human auiditive models in predict encoding systems
US6081776A (en) Speech coding system and method including adaptive finite impulse response filter
KR100882771B1 (ko) 부호화 음향 신호를 지각적으로 개선 강화시키는 방법 및장치
JP4176349B2 (ja) マルチモードの音声符号器
KR20010101422A (ko) 매핑 매트릭스에 의한 광대역 음성 합성
EP1222659A1 (en) Lpc-harmonic vocoder with superframe structure
Ordentlich et al. Low-delay code-excited linear-predictive coding of wideband speech at 32 kbps
US6104994A (en) Method for speech coding under background noise conditions
JP2003504669A (ja) 符号化領域雑音制御
EP1672619A2 (en) Speech coding apparatus and method therefor
AU6672094A (en) Use of an auditory model to improve quality or lower the bit rate of speech synthesis systems
WO1997031367A1 (en) Multi-stage speech coder with transform coding of prediction residual signals with quantization by auditory models
WO2003001172A1 (en) Method and device for coding speech in analysis-by-synthesis speech coders
Viswanathan et al. Baseband LPC coders for speech transmission over 9.6 kb/s noisy channels
CA2303711C (en) Method for noise weighting filtering
Lee et al. The speech enhancement of the G. 723.1 vocoder using multi-order formant postfilter
Farrugia Combined speech and audio coding with bit rate and bandwidth scalability