JPH09152900A

JPH09152900A - 予測符号化における人間聴覚モデルを使用した音声信号量子化法

Info

Publication number: JPH09152900A
Application number: JP8247609A
Authority: JP
Inventors: Juin-Hwey Chen; チェンジュイン−フウェイ
Original assignee: LE-SENTO TECHNOL Inc; Lucent Technologies Inc
Current assignee: LE-SENTO TECHNOL Inc; Nokia of America Corp
Priority date: 1995-09-19
Filing date: 1996-09-19
Publication date: 1997-06-10
Also published as: US5710863A; DE69621393D1; ES2174030T3; EP0764941A3; MX9604161A; CA2185731A1; EP0764941B1; EP0764941A2; DE69621393T2; CA2185731C

Abstract

(57)【要約】【課題】改良された音声信号、オーディオ信号の圧縮
（符号化）の技術を提供する。【解決手段】「変換予測符号化」ないしＴＰＣと称さ
れる音声圧縮システムは、７ｋＨｚの帯域幅の音声（１
６ｋＨｚサンプリング）を、１６から３２ｋｂ／ｓ（１
から２ビット／サンプル）の目標ビット速度範囲で符号
化するために設けられる。このシステムは、会話中の冗
長度を取り除くために、短期および長期の予測を使用し
ている。予測残差は、人間の聴覚知覚における知識を利
用して周波数領域に変換され符号化される。ＴＰＣ符号
化器は、開ループの量子化だけを使用し、よって、複雑
さが著しく解消される。ＴＰＣの音声品質は、３２ｋｂ
／ｓにおいて明白であり、２４ｋｂ／ｓにおいて非常に
良好であり、また１６ｋｂ／ｓにおいて受容可能なもの
である。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、例えば、音声信
号、オーディオ信号の圧縮（符号化）の技術に関するも
のである。

【０００２】

【発明が解決しようとする課題】信号圧縮の文献に教示
されているように、音声波形と音楽波形は非常に異なる
符号化技術によって符号化される。１６ｋｂ／ｓないし
それ以下における電話帯域幅（３．４ｋＨｚ）での音声
符号化のような、音声符号化は、時間領域予測符号化器
により広く用いられている。これらの符号化器は、符号
化される音声波形を予測するために音声生成モデルを使
用している。予測された波形は、元の信号中の冗長を減
じるために、次いで、実際の（元の）信号から減算され
る。信号の冗長における簡約化により符号化を再度行う
ことができる。このような予測音声符号化器を含んだ例
としては、音声信号圧縮の分野において公知である、適
応予測符号化、マルチパルス線形予測符号化（Ｍｕｌｔ
ｉ−ＰｕｌｓｅＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅ
Ｃｏｄｉｎｇ）、およびコード励起された線形予測符
号化（Ｃｏｄｅ−ＥｘｃｉｔｅｄＬｉｎｅａｒＰｒ
ｅｄｉｃｔｉｏｎ（ＣＥＬＰ）Ｃｏｄｉｎｇ）などが
ある。

【０００３】他方、６４ｋｂ／ｓないしこれより高い速
度での広帯域（０−２０ｋＨｚ）の音楽符号化では、周
波数領域変化またはサブバンド符号化器が広く用いられ
ている。これらの音楽の符号化器は上記した音声符号化
器とは基本的に非常に異なるものである。この差異は、
音楽のソースは音声のものとは異なり、迅速な予測をす
るにはあまりに変化が激しいことによるものである。こ
の結果、音楽源のモデルは一般的には音楽の符号化にお
いては使用されない。その代わりに、音楽の符号化器は
知覚的に関連した信号のこれらの部分だけを符号化する
ために精密な人間の聴覚モデルを使用している。つま
り、音声生成モデルを通常使用する音声符号化器とは異
なり、音楽の符号化器は符号化をするために聴力モデル
（音楽受信）を採用している。

【０００４】音楽の符号化器では、聴力モデルは符号化
される音楽のノイズマスキング能力を決定するために使
用される。「ノイズマスキング能力」の用語は、聴取者
がノイズに気付くことなしに音楽信号中に量子化ノイズ
をどれだけ生ぜしめることができるかを意味する。この
ノイズマスキング能力はまた、量子化器の解像度（例え
ば、量子化器の増分を設定するために使用される。通
常、音楽が「トーン状」になる程、音楽の量子化ノイズ
をマスキングすることができなくなり、したがって、必
要とされる量子化器の増分がより小さくなり、またこの
逆である。増分が小さくなれば対応する符号化の利得が
小さくなり、またこの逆である。このような音楽の符号
化器の例としては、ＡＴ＆ＴのＰｅｒｃｅｐｔｕａｌ
ＡｕｄｉｏＣｏｄｅｒ（ＰＡＣ）およびＩＳＯＭＰＥ
Ｇ音声符号化規格（ＭＰＥＧａｕｄｉｏｓｔａｎｄ
ａｒｄ）を含んでいる。

【０００５】電話帯域幅の音声符号化と広帯域の音楽符
号化との間には、音声信号が１６ｋＨｚでサンプリング
され７ｋＨｚの帯域幅を有する、広帯域音声符号化があ
る。７ｋＨｚの帯域幅の音声の特長は、得られた音声品
質が電話帯域幅の音声よりもずっと良くなることであ
り、また２０ｋＨｚの音声信号よりも符号化のために必
要なビット速度がより低くなることである。これらの先
に提案された帯域幅の音声符号化器の中には、時間領域
予測符号化を使用したものもあり、周波数領域変換また
はサブバンド符号化を使用したものもあり、また時間領
域の技術と周波数領域の技術とを組み合わせたものもあ
る。

【０００６】広帯域または他のものにおいて、予測音声
符号化に知覚の判定基準を含ませることは、合成された
音声信号の複数の候補の中から最良の合成された音声信
号を選択するという面において、知覚重み付けフィルタ
の使用が制限されてしまう。例えば、Ａｔａｌなどに付
与された米国再特許第３２、５８０号を参照。このよう
なフィルタは、符号化プロセスにおいてノイズを低減す
るのに有用なノイズ成形のある種のタイプを果たしてい
る。公知の符号化器には、そのような知覚重み付けフィ
ルタの形成において知覚モデルを採用することで、この
種の技術による改良を行うものがある。１９９３年１０
月のＰｒｏｃ．ＩＥＥＥＷｏｒｋｓｈｏｐＳｐｅｅ
ｃｈＣｏｄｉｎｇｆｏｒＴｅｌｅｃｏｍｍ．の第
９−１０頁のＷ．Ｗ．Ｃｈａｎｇなどによる「Ａｕｄｉ
ｏＣｏｄｉｎｇＵｓｉｎｇＭａｓｋｉｎｇ−Ｔｈｒ
ｅｓｈｏｌｄＡｄａｐｔｅｄＰｅｒｃｅｐｔｕａｌ
Ｆｉｌｔｅｒ」を参照。

【０００７】

【課題を解決するための手段】従来の公知の音声ないし
オーディオ符号化器では、信号予測目的のための音声生
成モデル、および信号ノイズマスキング能力の解析によ
る量子化の解像度を設定するための聴覚モデルの両方を
利用していない。

【０００８】本発明は、一方では、ノイズに対する人間
の聴覚感度のモデルで決定されるノイズマスキング信号
に基づいて信号を量子化する量子化プロセスを予測符号
化システムに組み合わせている。予測符号化システムの
出力は、このようにして、オーディオ知覚モデルにした
がって決定されたノイズマスキング信号の関数である解
像度（例えば、一様なスカラ量子化器における増分、あ
るいはベクトル量子化器においてコードベクトルを識別
するために使用されるビット数）を有する量子化器で量
子化される。

【０００９】本発明によれば、信号は、音声情報の推定
値（あるいは予測）を表すものとして発生される。「音
声情報を表す元の信号」の用語は、音声自体だけではな
く、音声符号化システムにおいて共通に見出だされた音
声信号の派生物（例えば、線形予測残差信号（ｌｉｎｅ
ａｒｐｒｅｄｉｃｔｉｏｎｒｅｓｉｄｕａｌｓｉ
ｇｎａｌ）およびピッチ予測残差信号（ｐｉｔｃｈｐ
ｒｅｄｉｃｔｉｏｎｒｅｓｉｄｕａｌｓｉｇｎａ
ｌ））も意味する、広いものである。推定信号は、次い
で、元の信号と比較され、これらの比較された信号の間
の差を表す信号が形成される。この比較された信号の間
の差を表す信号は、次いで、人間オーディオ知覚によっ
て発生された知覚ノイズマスキング信号にしたがって、
量子化される。

【００１０】本発明の例示した実施の形態では、「変換
予測符号化」あるいはＴＰＣは、１６〜３２ｋｂ／ｓの
目標ビット速度で７ｋＨｚの帯域幅の音声を符号化する
ものである。その名前の通り、ＴＰＣは変換符号化技術
と予測符号化技術を単一の符号化器に組み込んだもので
ある。より詳しくは、この符号化器は、入力音声波形か
ら冗長度を取り除くために線形予測を使用し、次いで得
られた予測残差を符号化するために変換符号化技術を使
用している。変換された予測残差は、可聴のものを符号
化し、可聴でないものを無視するために、音声知覚モデ
ルの用語で表現された、人間音声知覚における知識に基
づいて量子化される。

【００１１】例示した実施の形態の１つの重要なこと
は、信号の知覚ノイズマスキング能力が決定される方法
（例えば、「顕著な歪み」の知覚的なしきい値）および
続くビット割り当てが行われる方法にある。従来の音楽
の符号化器において行われているような、量子化されな
い入力信号を使用した知覚しきい値を決定するのではな
く、実施の形態におけるノイズマスキングのしきい値お
よびビット割り当ては、量子化された合成フィルタ、実
施の形態では量子化されたＬＰＣ合成フィルタの周波数
応答に基づいて、決定されるのである。この特徴は、受
信した符号化された広帯域の音声情報を符号化するため
に必要な知覚しきい値およびビット割り当ての処理を符
号化器がを反復するために、符号化器から符号化器への
ビット割り当て信号を通信する必要がない、という長所
をシステムにもたらす。その代わり、他の目的で通信さ
れている、合成フィルタの係数がビット速度を節約する
ために利用される。

【００１２】例示した実施の形態の他の重要な特徴は、
ＴＰＣ符号化器がどのようにして符号化器の周波数にお
いてビットを割り当てるか、および符号化器がどのよう
にして割り当てられたビットに基づいて量子化された出
力信号を発生するのかということである。特定の場合に
おいて、ＴＰＣ符号化器はオーディオ帯域の一部（例え
ば、ビットは０と４ｋＨｚの間の係数にだけしか割り当
てられない）にしかビットを割り当てない。ビットは４
ｋＨｚと７ｋＨｚの間の係数を表すためには使用され
ず、よって、復号器はこの周波数範囲においては係数を
得ることができない。このような状況が発生した場合に
は、例えば、ＴＣＰ符号機は非常に低い速度、例えば１
６ｋｂ／ｓで動作しなければならない。４ｋＨｚと７ｋ
Ｈｚの間の符号化された信号を表すビットがないにも拘
らず、復号器は、広帯域の応答が供給された場合にはこ
の範囲の信号を合成しなければならないのである。実施
の形態のこの特徴にしたがって、復号器は、他の利用可
能な情報、この範囲の周波数におけるノイズマスキング
しきい値に対する信号スペクトルの推定値の割合、に基
づいてこの周波数範囲の係数信号を発生、つまり合成す
る。係数に対する位相値はランダムに選択される。この
技術によって、全体の帯域のための音声信号係数を伝送
する必要なしに、復号器は広帯域の応答を提供すること
ができる。

【００１３】広帯域音声符号器の可能な適用範囲として
は、ＩＳＤＮのビデオ会議またはオーディオ会議、マル
チメディアオーディオ、「ハイファイ」電話方式、およ
び２８．８ｋｂ／ｓないしそれより高速のモデルを使用
したダイヤル呼出ライン上での同時的な音声とデータ送
信（ＳＶＤ）などがある。

【００１４】

【発明の実施の形態】

Ａ．例示的な実施の形態の導入部説明の便宜上、本発明の例示した実施の形態は、個々の
機能ブロック（「プロセッサ」と名前をつけた機能ブロ
ックを含む）を含むものとして表現される。これらのブ
ロックが表す機能は、限定されるものではないが、ソフ
トウェアを実行することができるハードウェアを含む、
共用または専用のハードウェアの使用により提供され
る。例えば、図１から図５および図８に表したプロセッ
サの機能は単一の共用プロセッサにより提供される
（「プロセッサ」の用語はソフトウェアを実行する機能
を有するハードウェアだけを示すものではない）。

【００１５】例示した実施の形態はＡＴ＆ＴのＤＳＰ１
６あるいはＤＳＰ３２Ｃのようなデジタル信号プロセッ
サ（ＤＳＰ）、後述する動作を行うためのソフトウェア
を記憶した読み出し専用メモリ（ＲＯＭ）、並びにＤＳ
Ｐの結果を記憶するためのランダムアクセスメモリ（Ｒ
ＡＭ）などから構成される。大規模集積回路（ＶＬＳ
Ｉ）の実施例、および汎用ＤＳＰ回路を組み合わせたカ
スタムＶＬＳＩも同様に設けられる。

【００１６】図１は本発明の例示的なＴＰＣ音声符号化
器の実施の形態を示したものである。このＴＰＣ符号化
器は、ＬＰＣ解析プロセッサ１０、ＬＰＣ（つまり「短
期」）予測誤差フィルタ２０、ピッチ予測（つまり「長
期」）プロセッサ３０、変換プロセッサ４０、聴覚モデ
ル量子化器制御プロセッサ５０、残差量子化器６０、並
びにビットストリームマルチプレクサ（ＭＵＸ）７０、
などから構成される。

【００１７】この実施の形態では、短期残差は、ＬＰＣ
予測誤差フィルタ２０により、入力音声信号ｓから取り
除かれる。得られたＬＰＣ予測残差信号ｄには、音声化
された音声中のピッチ周期性によっていくらかの長期残
差がある。このような長期残差は次いで、ピッチ予測プ
ロセッサ３０により取り除かれる。ピッチ予測の後、最
終的な予測残差信号ｅが、高速フーリエ変換（ＦＦＴ）
を行う変換プロセッサ４０により周波数領域に変換され
る。適応ビット割り当ては、聴覚モデル量子化器制御プ
ロセッサ５０により決定された知覚的な重要度にしたが
って、残差量子化器６０によりビットを予測残差ＦＦＴ
係数に割り当てるために行われる。

【００１８】（ａ）ＬＰＣ予測子パラメータ（ｉ_l ）、
（ｂ）ピッチ予測子パラメータ（ｉ、_p 、ｉ_l ）、
（ｃ）変換利得レベル（ｉ_g ）、並びに量子化された予
測残差（ｉ_r ）を示す各コードブックインデックスは、
ビットストリーム中に多重化され、また側情報（ｓｉｄ
ｅｉｎｆｏｒｍａｔｉｏｎ）としてチャネル上を伝送
される。このチャネルは、無線チャネル、コンピュータ
およびデータネットワーク、電話ネットワークを含む適
当な通信チャネルから構成され、また固体メモリ（例え
ば、半導体メモリ）、光メモリシステム（例えば、ＣＤ
−ＲＯＭ）、磁気メモリ（例えば、ディスクメモリ）な
どを含みまたは有している。

【００１９】ＴＰＣ復号器は、基本的には、符号化器に
おいて行われた動作の逆を行うものである。この復号器
は、ＬＰＣ予測パラメータ、ピッチ予測パラメータ、並
びに予想残差の利得レベルおよびＦＦＴ係数を復号す
る。復号されたＦＦＴ係数は、逆ＦＦＴを加えることに
より時間領域に逆変換される。得られた復号された予測
残差は次いでピッチ合成フィルタおよびＬＰＣ合成フィ
ルタを通過して音声信号が再構築される。

【００２０】複雑さをできる限り低く抑えるために、Ｔ
ＰＣでは開ループ量子化が採用されている。開ループ量
子化は、出力の音声の品質に対する影響に拘らず、量子
化されないパラメータとその量子化されたものとの間の
差を最小限にするように、量子化器が動作することを意
味するものである。これは、例えば、ピッチ予測子、利
得、および励起は、通常は閉ループ量子化されるＣＥＬ
Ｐとは逆である。符号化器のパラメータの閉ループ量子
化においては、量子化器のコードブック検索は、最終的
な再構築された出力音声における歪みを最小限にするよ
うにされる。当然のことであるが、これにより出力音声
の品質が向上するが、コードブック検索の複雑さが増し
て高価となる。

【００２１】Ｂ．例示的な符号化器の実施の形態１．ＬＰＣ解析および予測図２にＬＰＣ解析プロセッサ１０の詳細なブロックダイ
ヤグラムを示した。プロセッサ１０は、窓処理（ｗｉｎ
ｄｏｗｉｎｇ）および自己相関プロセッサ２１０、スペ
クトル平滑化およびホワイトノイズ補正プロセッサ２１
５、Ｌｅｖｉｎｓｏｎ−Ｄｕｒｂｉｎ再帰プロセッサ２
２０、帯域幅拡張プロセッサ２２５、ＬＰＣ−ＬＳＰ変
換プロセッサ２３０、並びにＬＰＣパワースペクトルプ
ロセッサ２３５、ＬＳＰ量子化器２４０、ＬＳＰ分類プ
ロセッサ２４５、ＬＳＰ補間プロセッサ２５０、並びに
ＬＳＰ−ＬＰＣ変換プロセッサ２５５から構成される。
窓処理および自己相関プロセッサ２１０はＬＣＰ係数の
発生の処理を開始する。プロセッサ２１０自己相関係数
ｒを、従来の態様で、２０ｍｓ毎に１つ発生し、これか
ら後述するようにＬＰＣ係数が計算される。１９７８年
の、ＮｅｗＪｅｒｓｅｙ、ＥｎｇｌｅｗｏｏｄＣｌ
ｉｆｆｓのＰｒｅｎｔｉｃｅ−Ｈａｌｌ、Ｉｎｃ．のＲ
ａｂｉｎｅｒ、Ｌ．Ｒ．などのＤｉｇｉｔａｌＰｒｏ
ｃｅｓｓｉｎｇｏｆＳｐｅｅｃｈＳｉｇｎａｌｓ
（Ｒａｂｉｎｅｒなど）を参照。ＬＰＣのフレームサイ
ズは２０ｍｓ（つまり１６ｋＨｚのサンプリング速度で
３２０音声サンプル）である。各２０ｍｓのフレーム
は、さらに、５つのサブフレームで、各４ｍｓの長さ
（つまり６４サンプル）に分割される。ＬＰＣ解析プロ
セッサは、従来の方法で、現在のフレームの最後の４ｍ
ｓのサブフレームに中心付けされた、２４ｍｓのハミン
グ窓（Ｈａｍｍｉｎｇｗｉｎｄｏｗ）を使用する。

【００２２】悪条件を緩和するため、従来の信号調整技
術が採用される。スペクトル平滑化技術（ＳＳＴ）およ
びホワイトノイズ補正技術が、スペクトル平滑化および
ホワイトノイズ補正プロセッサ２１５により、ＬＰＣ解
析の前に加えられる。このＳＳＴは、公知の技術であり
（１９７８年１２月のＩＥＥＥＴｒａｎｓ．Ａｃｏ
ｕｓｔ．Ｓｐｅｅｃｈ、ＳｉｇｎａｌＰｒｏｃｅｓ
ｓｉｎｇ、ＡＳＳＰ−２６：５８７−５９６のＴｏｈｋ
ｕｒａなどによる「ＳｐｅｃｔｒａｌＳｍｏｏｔｈｉ
ｎｇＴｅｃｈｎｉｑｕｅｉｎＰＡＲＣＯＲＳｐ
ｅｅｃｈＡｎａｌｙｓｉｓ−Ｓｙｎｔｈｅｓｉｓ」
（Ｔｏｈｋｕｒａなど））、計算された自己相関係数ア
レイ（プロセッサ２１０からの）を、そのフーリエ変換
が４０Ｈｚの標準偏差でガウス分布の確率密度関数（ｐ
ｄｆ）に対応するガウス窓により多重化することを含ん
でいる。ホワイトノイズ補正は、同様に従来的なもので
あり（１９８９年１１月のＰｒｏｃ．ＩＥＥＥＧｌ
ｏｂａｌＣｏｍｍ．Ｃｏｎｆ．、ｐｐ１２３７−１
２４１、ＴＸ、ＤａｌｌａｓのＣｈｅｎ、Ｊ−Ｈによる
「ＡＲｏｂｕｓｔＬｏｗ−ＤｅｌａｙＣＥＬＰ
ＳｐｅｅｃｈＣｏｄｅｒａｔ１６ｋｂｉｔ／
ｓ」）、ゼロ遅れの自己相関係数（つまり、エネルギー
項）を０．００１％ずつ増大させる。

【００２３】プロセッサ２１５により発生された係数は
次いで、Ｌｅｖｉｎｓｏｎ−Ｄｕｒｂｉｎ再帰プロセッ
サ２２０に供給され、従来の方法により、１６のＬＰＣ
係数ａ_i 、ｉ＝１、２、…、１６（ＬＰＣ予測子２０の
オーダは１６である）が発生される。

【００２４】帯域幅拡張プロセッサ２２５は、別の信号
調整のために、各ａ_i を係数ｇⁱ で多重化し、ｇⁱ ＝
０．９９４である。これは３０Ｈｚの帯域幅の拡張に対
応する（Ｔｏｈｋｕｒａなど）。

【００２５】このような帯域幅の拡張の後には、ＬＰＣ
予測子係数は、ＬＰＣ−ＬＳＰ変換プロセッサ２３０に
より従来の方法で線スペクトル対（ＬＳＰ）係数に変換
される。本明細書に組み入れられる、１９８４年３月の
Ｐｒｏｃ．ＩＥＥＥＩｎｔ．Ｃｏｎｆ．Ａｃｏｕｓ
ｔ．、Ｓｐｅｅｃｈ、ＳｉｇｎａｌＰｒｏｃｅｓｓｉ
ｎｇ、ｐｐ．１．１０．１−１．１０．４のＳｏｏｎ
ｇ、Ｆ．Ｋ．などの「ＬｉｎｅＳｐｅｃｔｒｕｍＰ
ａｉｒ（ＬＳＰ）ａｎｄＳｐｅｅｃｈＤａｔａＣｏ
ｍｐｒｅｓｓｉｏｎ」（Ｓｏｏｎｇなど）を参照。

【００２６】次いで、得られたＬＳＰ係数を量子化する
ために、ベクトル量子化（ＶＱ）がベクトル量子化器２
４０により供給される。プロセッサ２４０において採用
された特定のＶＱ技術は、本明細書中に組み込まれる、
１９９１年５月ののＰｒｏｃ．ＩＥＥＥＩｎｔ．Ｃｏ
ｎｆ．Ａｃｏｕｓｔ．、Ｓｐｅｅｃｈ、ＳｉｇｎａｌＰ
ｒｏｃｅｓｓｉｎｇ、ｐｐ．６６１−６６４、Ｔｏｒｏ
ｎｔｏ、ＣａｎａｄａのＰａｌｏｗａｌ、Ｋ．Ｋ．など
による「ＥｆｆｉｃｉｅｎｔＶｅｃｔｏｒＱｕａｎｔ
ｉｚａｔｉｏｎｏｆＬＰＣＰａｒａｍｅｔｅｒｓ
ａｔ２４ｂｉｔｓ／ｆｒａｍｅ」（Ｐａｌｉｗａ
ｌなど）において提案されている。１６次元のＬＰＣベ
クトルは、低周波端から計数した、２、２、２、２、
２、３、３の寸法を有する、７つのより小さいサブベク
トルに分割される。７つのサブベクトルのそれぞれは７
ビットに量子化される（つまり、１２８コードベクトル
のＶＱコードブックを使用して）。よって、７つのコー
ドブックインデックスｉ_l （１）〜ｉ_l （７）があり、
各インデックスは７ビット長であり、ＬＰＣパラメータ
量子化において使用されるフレーム当たり全部で４９ビ
ットである。これら４９ビットは、側情報として復号器
に伝送されるために、ＭＵＸ７０に供給される。

【００２７】Ｐａｌｉｗａｌなどにおいて説明されてい
るように、プロセッサ２４０は、その検索をＶＱコード
ブックを通し従来の重み付け平均二乗誤差（ＷＭＳＥ）
の歪み尺度を使用して行う。使用されるコードブック
は、従来公知ののコードブック発生技術を使用して決定
される。出力音声の品質を大きく劣化することなしに復
号器の複雑さを減じるために、従来のＭＳＥ歪み尺度を
ＷＭＳＥ尺度の代えて使用することもできる。

【００２８】通常、ＬＳＰ係数は単調に増大する。しか
しながら、量子化はこのオーダの中断で得られる。この
中断により復号器におけるＬＰＣ合成フィルタが不安定
となる。この問題を回避するため、ＬＳＰ分類プロセッ
サ２４５は、単調に増大する順序で回復を行い、また安
定性を確保するため、量子化されたＬＳＰ係数を分類す
る。

【００２９】量子化されたＬＳＰ係数は、現在のフレー
ムの最後のサブフレームにおいて使用される。これらの
ＬＳＰ係数と先のフレームの最後のサブフレームからの
ＬＳＰ係数との間の線形補間が、最初の４つのサブフレ
ームに対するＬＳＰ係数を提供するために、ＬＳＰ補間
プロセッサ２５０により従来のように行われる。補間さ
れ量子化されたＬＳＰ係数は次いで、従来の方法でＬＳ
Ｐ−ＬＰＣ変換プロセッサ２５５により各サブフレーム
において使用されるために、ＬＰＣ予測子係数に逆変換
される。これは、符号化器と復号器の両方において行わ
れる。ＬＳＰ補間は出力音声の平滑な再生を維持する点
において重要である。ＬＳＰ補間により、ＬＰＣ予測子
がサブフレーム（４ｍｓ）に一度だけ平滑な態様で更新
される。得られたＬＰＣ予測子２０は復号器の入力信号
を予測するために使用される。入力信号およびその予測
したものとの間の差が、ＬＰＣ予測残差ｄである。

【００３０】２．ピッチ予測ピッチ予測プロセッサ３０は、図３に示したように、ピ
ッチ抽出プロセッサ４１０、ピッチタップ量子化器４１
５、並びに３タップのピッチ予測誤差フィルタ４２０か
ら構成される。プロセッサ３０は、音声化された音声に
おけるピッチの周期性による、ＬＰＣ予測残差ｄにおけ
る冗長度を取り除くために使用される。プロセッサ３０
により使用されるピッチ推定は、ｍフレームに一度だけ
（２０ｍｓ毎に一度）更新される。ピッチ予測には、量
子化されまた復号器に伝送される２種類のパラメータ、
つまり、音声化された音声の略周期的な波形の周期に対
応するピッチ周期、および３つのピッチ予測子の係数
（タップ）がある。

【００３１】ＬＰＣ予測残差のピッチ周期は、本明細書
に組み入れられる、「ＭｅｔｈｏｄｏｆＵｓｅｏｆ
ＶｏｉｃｅＭｅｓｓａｇｅＣｏｄｅｒ／Ｄｅｃｏ
ｄｅｒ」と題された米国特許第５、３２７、５２０号に
説明されている、効率的な２段階の検索技術の修正版を
使用して、ピッチ抽出プロセッサ４１０により決定され
る。プロセッサ４１０は、帯域幅を約８００Ｈｚに制限
するために、最初にＬＰＣ残差を３次の楕円ローパスフ
ィルタを通し、次いでローパスフィルタの出力の８：１
の分割を行う。分割された信号の自己相関係数は、分割
されない信号領域における３２から２８０の時間遅れに
対応する、４から３５の範囲の時間遅れに対して計算さ
れる。よって、ピッチ周期に対する許容可能な範囲は２
ｍｓから１７．５ｍｓ、つまりピッチ周波数でｄ５７Ｈ
ｚから５００Ｈｚである。これは、低いピッチの男性お
よび高いピッチの子供を含む全ての話し手に必須の通常
のピッチ範囲をカバーするには十分である。

【００３２】プロセッサ４１０により分割された信号の
自己相関係数が計算された後は、最も小さい時間遅れを
有する自己相関係数の最初の大きなピークが識別され
る。これが第１段階の検索である。得られた時間遅れを
ｔとする。この値ｔは、分割されない時間領域における
時間遅れを得るために８が乗算される。得られた時間遅
れ８ｔは、実際のピッチ周期が最も存在する可能性のあ
る場所を指している。分割されない信号領域における元
の時間の解像度を保持するために、ｔ−７からｔ＋７の
範囲において第２段階の検索が行われる。元の分割され
ないＬＰＣ残差の自己相関係数ｄは、ｔ−７からｔ＋７
の時間遅れに対して計算される（３２サンプルの下側の
境界および２８０サンプルの上側の境界に対して）。こ
の範囲における最大の自己相関係数に対応する時間遅れ
は次いで最終的なピッチ周期ｐとして識別される。この
ピッチ周期ｐは、従来のＶＱコードブックで８ビットに
符号化され、また８ビットのコードブックインデックス
ｉ_p が側情報として復号器に伝送されるためにＭＵＸ７
０に供給される。ピッチ周期として選択することができ
る整数は２８０−３２＋１＝２４９であるので、ピッチ
周期を表すためには８ビットで十分である。

【００３３】３ピッチの予測子タップは、ピッチタップ
量子化器４１５により量子化された形式で結合的に決定
される。量子化器４１５は、６４のピッチ予測子タップ
を表す６４のコードベクトルを有する従来のＶＱコード
ブックで構成される。現在のフレーム内のピッチ予測残
差のエネルギーはコードブックを介しての検索の歪み尺
度として使用される。このような歪み尺度により、予測
子タップ自体に関する単純なＭＳＥ尺度よりも、より良
いピッチ予測利得を得ることができる。通常は、この歪
み尺度で、蓄力手法が使用された場合にはコードブック
検索の複雑さが非常に高くなる。しかしながら、量子化
器４１５は、この歪み尺度に対しては、従来公知（米国
特許第５、３２７、５２０号に開示された）の効率的な
コードブック検索技術を使用している。この技術の詳細
の説明は省略するが、基本的な考え方は次の通りであ
る。

【００３４】残差エネルギー歪む尺度を最小限とするこ
とは、２つの９次元ベクトルの内積を最大とすることに
等しいことである。これら９次元のベクトルの１つは、
ＬＰＣ予測残差の１つだけの自己相関係数を含んでい
る。他の９次元ベクトルは評価中の３つのピッチ予測子
タップの組から派生した積項だけを含んでいる。このよ
うなベクトルは信号依存であり、またピッチタップのコ
ードベクトルにのみ依存しているので、このような可能
姓のあるのは６４のベクトルだけであり（各ピッチタッ
プコードベクトルに対して１つ）、またこれらは予め計
算され、またテーブルであるＶＱコードブックに記憶さ
れている。実際のコードブック検索においては、ＬＰＣ
残差の自己相関の９次のベクトルが最初に計算される。
次に、その６４の予め計算され記憶された９次のベクト
ルのそれぞれにおける得られたベクトルの内積が計算さ
れる。記憶されたテーブル内のベクトルの中で最大の内
積のものがウイナーであり、これから３つの量子化され
たピッチ予測子のタップが導出される。記憶されたテー
ブル内には６４のベクトルがあるので、６ビットのイン
デックスｉ_l が３つの量子化されたピッチ予測子のタッ
プを表すには十分である。これらの６ビットはＭＵＸ７
０に対して、側情報として復号器に伝送のために供給さ
れる。

【００３５】上記のようにして決定された量子化された
ピッチ周期およびピッチ予測子のタップは、フレーム毎
に一度だけピッチ予測誤差フィルタ４２０を更新するた
めに使用される。量子化されたピッチ周期およびピッチ
予測子のタップはフィルタ４２０により、ＬＰＣ予測残
差を予測するために使用される。予測されたＬＰＣ予測
残差は次いで、実際のＬＰＣ予測残差から減じられる。
予測された分が量子化されないＬＰＣ予測残差から減じ
られた後は、量子化されないピッチ予測残差ｅを得るこ
とができ、これは後述する変換符号化手法を使用して符
号化される。

【００３６】３．予測残差の変換符号化ピッチ予測残差ｅは、変換プロセッサ４０により、サブ
フレーム毎に符号化される。プロセッサ４０の詳細なブ
ロックダイヤグラムを図４に示した。プロセッサ４０
は、ＦＦＴプロセッサ５１０、利得プロセッサ５２０、
利得量子化器５３０、利得補間プロセッサ５４０、並び
に正規化プロセッサ５５０などから構成される。

【００３７】ＦＦＴプロセッサ５１０は、ピッチ予測残
差ｅの各フレームに対する従来の６４点のＦＦＴを計算
する。このサイズの変換は、オーディオ符号化技術にお
いて公知である所謂「プリエコー」歪みを回避するため
のものである。本明細書中に組み入れられる、１９９３
年１０月のＰｒｏｃ．ＩＥＥＥ、ｐｐ１３８５−１４２
２のＪａｙａｎｔ、Ｎ．などによる「ＳｉｇｎａｌＣ
ｏｍｐｒｅｓｓｉｏｎＢａｓｅｄｏｎＭｏｄｅｌｓ
ｏｆＨｕｍａｎＰｅｒｃｅｐｔｉｏｎ」を参照の
こと。

【００３８】ａ．利得計算および量子化プロセッサ５１０により周波数領域に予測残差の各４ｍ
ｓのサブフレームの後に、利得レベル（あるいは二乗平
均（ＲＭＳ）値）が利得プロセッサ５２０により抽出さ
れ、また異なる周波数バンドに対して利得量子化器５３
０により量子化される。現在のフレームにおける５つの
各サブフレームに対して、２つの利得値、つまり（１）
低周波数（０から１ｋＨｚ）としての、プロセッサ５１
０からの最初の５つのＦＦＴ係数のＲＭＳ値、並びに
（２）高周波（４から７ｋＨｚ）としての、プロセッサ
５１０からの１７番目から２９番目のＦＦＴ係数のＲＭ
Ｓ値、がプロセッサ５２０により抽出される。このよう
にして、２×５＝１０の利得が利得量子化器５３０によ
り使用のためにフレーム毎に抽出される。

【００３９】各フレームにおいて、利得量子化器５３０
により採用される量子化スキームを高周波利得および低
周波利得に対して別々なものとしても良い。高周波（４
−７ｋＨｚ）利得に対しては、量子化器５３０は、現在
のフレームの最後のサブフレームの高周波利得を、従来
のスカラ量子化を使用して５ビットに符号化される。こ
の量子化された利得は次いで、量子化器５３０により、
デシベル項で対数領域に変換される。３２の可能な量子
化された利得レベル（５ビットで）しかないので、３２
の対応するログ利得はテーブル内に予め計算され記憶さ
れ、また利得の線形領域からログ領域への変換はテーブ
ル索引により行われる。量子化器５３０は次いで、ログ
領域内で、この得られたログ利得と最後のフレームの最
後のサブフレームのログ利得の間の線形補間を行う。こ
のような補間により、サブフレーム１から４に対するロ
グ利得の近似（つまり、予測）を生じることができる。
次いで、利得プロセッサ５２０により供給される、サブ
フレーム１から４の線形利得はログ領域に変換され、ま
た補間されたログ利得は結果から抽出される。このよう
にして、それぞれ２次の２つのベクトルに分類される、
４つのログ利得補間誤差が生じる。

【００４０】各２次のログ利得補間誤差ベクトルは、次
いで、従来同様に、単純なＭＳＥ歪み尺度を使用して７
ビットにベクトル量子化される。２つの７ビットコード
ブックインデックスは、現在のフレームの最後のサブフ
レームを表す５ビットのスカラに加えて、復号器への伝
送のためにＭＵＸ７０に供給される。

【００４１】利得量子化器５３０はまた、量子化された
ログ利得を得るために、得られた４つの量子化されたロ
グ利得補間誤差を４つの補間されたログ利得に戻す。こ
れらの４つの量子化されたログ利得は次いで、サブフレ
ーム１から４に対して４つの量子化された高周波利得を
得るために、線形領域に逆変換される。これらの高周波
量子化された利得は、サブフレーム５の高周波量子化さ
れた利得とともに、後述する処理のために利得補間プロ
セッサ５４０に供給される。

【００４２】利得量子化器５３０は、量子化された高周
波利得および量子化されたピッチ予測タップに基づい
て、低周波（０−１ｋＨｚ）利得の量子化を行う。高周
波利得を同じサブフレームの低周波ログ利得から減算し
て得られる、ログ利得差の統計量は、ピッチ予測子によ
り強く影響される。これらのフレームに大きなピッチ周
期性がない場合には、ログ利得差は平均ゼロであり、ま
た標準偏差がより小さい。他方、これらのフレームに強
い周期性がある場合には、ログ利得は大きな負の平均と
大きな標準偏差を有する。このような考察から、各フレ
ームに対する５つの低周波利得のための効率的な量子化
を行うための基礎が作れる。

【００４３】６４の量子化されたピッチ予測子タップの
それぞれに対して、大きな音声データベースを使用し
て、ログ利得差の条件平均および条件標準偏差が予め計
算される。得られた６４のエントリテーブルは次いで、
利得量子化器５３０により、低周波利得の量子化の際に
使用される。

【００４４】最後のサブフレームの低周波利得は次の方
法で量子化される。ピッチ予測タップを量子化しながら
得られたコードブックインデックスは、テーブル索引動
作において、特定の量子化されたピッチ予測子タップに
対するログ利得差の条件平均および条件標準偏差を抽出
するために使用される。最後のサブフレームのログ利得
差が次いで計算される。条件平均はこの量子化されない
ログ利得差から減じられ、また得られた平均が取り除か
れたログ利得差は、従来の標準偏差により分割される。
この操作により、基本的には、ゼロ平均の、スカラ量子
化を使用して利得量子化器５３０により４ビットで量子
化される、ユニット分散量が生成される。

【００４５】量子化された値は、次いで、条件標準偏差
により乗算され、また量子化されたログ利得差を得るた
めにこの結果が条件平均に付加される。次に、量子化さ
れた高周波ログ利得が、最後のサブフレームの量子化さ
れた低周波ログ利得を得るために戻して加えられる。得
られた値は次いで、サブフレーム１から４に対して、低
周波ログ利得の線形補間を行うために使用される。この
補間は、先のフレームの最後のサブフレームの量子化さ
れた低周波ログ利得と現在のフレームの最後のサブフレ
ームの量子化された低周波ログ利得との間で行われる。

【００４６】４つの低周波ログ利得補間誤差が次いで計
算される。まず、利得プロセッサ５２０により供給され
た線形利得がログ領域に変換される。次いで、補間され
た低周波ログ利得が変換された利得から減算される。得
られたログ利得補間誤差は、ログ利得差の条件標準偏差
により正規化される。正規化された補間誤差は、次い
で、２次の２つのベクトルに分類される。これらの２つ
のベクトルはそれぞれ、高周波の場合におけるＶＱスキ
ームと同様に、単純なＭＳＥ歪み尺度を使用して７ビッ
トに量子化されたベクトルである。２つの７ビットのコ
ードブックインデックスは、現在のフレームの最後のサ
ブフレームを表す４ビットのスカラに加えて、復号器へ
の伝送のためにＭＵＸ７０に供給される。

【００４７】利得量子化器は、元の大きさを回復するた
めに、同様に４つの量子化された値に条件標準偏差を乗
算し、次いで、この結果に補間されたログ利得が加えら
れる。得られた値は、サブフレーム１から４に対する、
量子化された低周波のログ利得である。最後に、全ての
５つの量子化された低周波ログ利得が、利得補間プロセ
ッサ５４０による次の使用のために、線形領域に変換さ
れる。

【００４８】利得補間プロセッサ５４０は１から４ｋＨ
ｚの周波数帯に対する近似化された利得を決定する。ま
ず、量子化された高周波利得と同様に、１３番目から１
６番目のＦＦＴ係数（３から４ｋＨｚ）に対する利得レ
ベルが選択される。次いで、６番目から１２番目のＦＦ
Ｔ係数（１から３ｋＨｚ）に対する利得レベルが、量子
化された低周波ログ利得と量子化された高周波ログ利得
との間の線形補間により得られる。得られた補間された
ログ利得の値は、次いで、線形領域に逆変換される。よ
って、利得補間プロセッサの処理の完了の際には、０か
ら７ｋＨｚ各ＦＦＴ係数（１番目から２９番目のＦＦＴ
係数）は、これにより量子化されあるいは補間された利
得のいずれかを有している。これらの利得値のベクトル
は、次の処理のために利得正規化プロセッサ５５０に供
給される。

【００４９】利得正規化プロセッサ５５０はＦＦＴプロ
セッサ５１０により発生したＦＦＴ係数を、各係数をそ
の対応する利得で除算することで正規化する。得られた
利得が正規化されたＦＦＴ係数は次いで、残差量子化器
６０により量子化される。

【００５０】ｂ．ビットストリーム図７は、本発明の例示的な実施の形態のビットストリー
ムを示したものである。上記した通り、４９ビット／フ
レームが、ＬＰＣパラメータを符号化するために割り当
てられ、８＋６＝１４ビット／フレームが３タップのピ
ッチ予測子のために割り当てられ、また５＋（２×７）
＋４＋（２×７）＝３７ビット／フレームが利得のため
に割り当てられる。よって、側部情報ビットの全部の数
は、２０ｍｓフレーム当たり４９＋１４＋３７＝１００
ビット、つまり４ｍｓサブフレーム当たり２０ビットで
ある。符号化器が３つの異なる速度、つまり１６、２４
および３２ｋｂ／ｓの１つで使用される場合について考
察する。１６ｋＨｚのサンプリング速度においては、こ
れら３つの目標速度は１、１．５、および２ビット／サ
ンプルに翻訳される。側部情報に対して２０ビット／サ
ブフレームが使用されるとすると、主情報（ＦＦＴ係数
の符号化）を符号化する際に使用するための残りのビッ
ト数は、３つの速度１６、２４および３２ｋｂ／ｓのそ
れぞれに対して、４４、７６、および１０８ビット／サ
ブフレームとなる。

【００５１】ｃ．適応ビット割り当て本発明の原理にしたがって、異なる量子化精度の周波数
スペクトルの種々の部分にこれらの残りのビットを割り
当てる際に、ＴＰＣ復号器における出力音声の知覚品質
を高めるために、適応ビット割り当てが行われる。これ
は、オーディオ信号におけるノイズに対する人の感度の
モデルを使用して行われる。このようなモデルは知覚オ
ーディオ符号化の分野においては公知である。例えば、
１９７０年のＮｅｗＹｏｒｋおよびＬｏｎｄｏｎのＡ
ｃａｄｅｍｉｃＰｒｅｓｓのＴｏｂｉａｓ、Ｊ．Ｖ．
などによる「ＦｏｕｎｄａｔｉｏｎｓｏｆＭｏｄｅ
ｒｎＡｕｄｉｔｏｒｙＴｈｅｏｒｙ」を参照のこ
と。また、本明細書中に組み入れられる、１９７９年１
２月のＪ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍｅｒ．の６
６：１６４７−１６５２のＳｃｈｒｏｅｄｅｒ、Ｍ．
Ｒ．などによる「ＯｐｔｉｍｉｚｉｎｇＤｅｇｉｔａ
ｌＳｐｅｅｃｈＣｏｄｅｒｓｂｙＥｘｐｌｏｉ
ｔｉｎｇＭａｓｋｉｎｇＰｒｏｐｅｒｔｉｅｓｏ
ｆｔｈｅＨｕｍａｎＥａｒ」（Ｓｃｈｏｒｏｅｄ
ｅｒなど）を参照のこと。

【００５２】聴覚モデルおよび量子化器の制御プロセッ
サ５０はＬＰＣパワースペクトルプロセッサ５１０、マ
スキングしきい値プロセッサ５１５、並びにビット割り
当てプロセッサ５２０から構成される。適応ビット割り
当てはサブフレーム毎に行われるが、本発明の例示的な
実施の形態は、計算の複雑さを減じるためにフレーム毎
に一度だけビット割り当てを行う・

【００５３】ノイズマスキングしきい値およびビット割
り当てを導出するために量子化されない入力信号を使用
するよりはむしろ、従来の音楽符号化器において行われ
ているのと同様に、本実施の形態におけるノイズマスキ
ングしきい値およびビット割り当ては、量子化されたＬ
ＰＣ合成フィルタ（しばしば「ＬＰＣスペクトル」と称
される）の周波数応答から決定される。ＬＰＣスペクト
ルは、２４ｍｓのＬＰＣ解析ウインド内の入力信号のス
ペクトルエンベロープの近似として考慮される。ＬＰＣ
スペクトルは量子化されたＬＰＣ係数に基づいて決定さ
れる。量子化されたＬＰＣ係数は、ＬＰＣ解析プロセッ
サ１０により、聴覚モデルおｙｂおい量子化器の制御プ
ロセッサ５０のＬＰＣスペクトルプロセッサ５１０に供
給される。プロセッサ５１０はＬＰＣスペクトルを次の
ようにして決定する。量子化されたＬＰＣ係数（ａ）
は、６４点のＦＦＴによりまず変換される。最初の３３
のＦＦＴ係数のべき（ｐｏｗｅｒ）が計算され、またこ
れらのべきの値の再帰が次いで計算される。結果は、６
４点ＦＦＴの周波数解像度を有するＬＰＣパワースペク
トルである。

【００５４】ＬＰＣパワースペクトルが決定された後
は、推定されたノイズマスキングしきい値が、マスキン
グしきい値プロセッサ５１５により計算される。マスキ
ングしきい値Ｔ_M は、本明細書に組み入れられる、米国
特許第５、３１４、４５７号に説明された方法の改良版
を使用して計算される。プロセッサ５１５は、聴音実験
から実験的に決定された周波数依存の減衰関数により、
プロセッサ５１０からのＬＰＣパワースペクトルの３３
のサンプルをスケーリングする。図６に示したように、
減衰関数は、ＬＰＣパワースペクトルのＤＣ項に対して
１２ｄＢから開始し、７００と８００Ｈｚの間で約１５
ｄＢ増大し、次いで高周波になるにつれて短調に減少
し、最終的に８０００Ｈｚにおいて６ｄＢまで減じる。

【００５５】３３の減衰されたＬＰＣパワースペクトル
のサンプルのそれぞれは、次いで、特定の周波数に対し
て導出された「基底膜拡散関数」をスケーリングし、マ
スキングしきい値を計算するために使用される。与えら
れた周波数に対する拡散関数は、その周波数における単
一トーンのマスカー（ｍａｓｋｅｒ）信号に応答するマ
スキングしきい値の形状に対応する。本明細書に組み込
まれるＳｃｈｒｏｅｄｅｒなどの式（５）には、このよ
うな拡散関数が「バーク」周波数の基準、あるいは臨界
帯周波数基準の用語で説明されている。基準化プロセス
はまず、０−１６ｋＨｚでの６４点のＦＦＴの最初の３
３の周波数（つまり、０Ｈｚ、２５０Ｈｚ、５００Ｈ
ｚ、…、８０００Ｈｚ）を「バーク」周波数基準に変換
することで開始される。

【００５６】次いで、得られた３３のバーク値のそれぞ
れに対して、、Ｓｃｈｏｅｄｅｒなどの式（５）を使用
してこれら３３のアーク値において対応する拡散関数が
サンプリングされる。３３の得られた拡散関数はテーブ
ル中に記憶され、これは、オフラインプロセスの一部と
して行われる。推定されたマスキングしきい値を計算す
るため、３３の拡散関数のそれぞれが、減衰されたＬＰ
Ｃパワースペクトルの対応するサンプリング値により乗
算され、また得られた３３の基準化された拡散関数が一
緒に合計される。この結果は、ビット割り当てプロセッ
サ５２０に供給される推定されたマスキングしきい値関
数である。図９は、推定されたまスイングしきい値関数
を決定するためにプロセッサ５２０により行われる処理
を示したものである。

【００５７】ここで、マスキングしきい値を推定するた
めのこの技術は、利用可能な唯一の技術ではない。複雑
さを低く抑えるために、ビット割り当てプロセッサ５２
０は、残差の量子化のためのビットを割り当てるために
「欲張り」技術を使用する。この技術は、その次のビッ
ト割り当てへの影響を無視して、最も「必要な」周波数
要素に一度に１ビットを割り当てる。

【００５８】ビット割り当てがなされない開始時には、
対応する出力信号はゼロである、また符号化誤差信号は
入力音声自体である。よって、最初は、ＬＰＣパワース
ペクトルは符号化されたノイズのパワースペクトルであ
ると推定される。次いで、６４点のＦＦＴの３３の周波
数のそれぞれにおいてノイズの大きさが上記で計算され
たマスキングしきい値およびＳｃｈｒｏｅｄｅｒなどに
おけるノイズの大きさの計算法の単純化され手法を使用
して計算される。

【００５９】３３の周波数のぞれぞれにおいて単純化さ
れたノイズの大きさは、次のようにプロセッサ５２０に
より計算される。まず、ｉ番目の周波数における臨界の
帯幅Ｂ_i が、Ｔｏｂｉａｓ中のＳｃｈａｒｆの本のテー
ブル１にリストされた臨界の帯幅の線形補間を使用して
計算される。この結果はＳｃｈｒｏｅｄｅｒなどの式
（３）におけるｄｆ／ｄｘ項の推定値である。３３の臨
界の帯域幅の値は予め計算されテーブルに記憶される。
次いで、ｉ番目の周波数に対して、ノイズパワーＮ_i が
マスキングしきい値Ｍ_i と比較される。Ｎ_i ≦Ｍ_i の場
合には、ノイズの大きさＬ_i はゼロに設定される。Ｎ_i
＞Ｍ_i の場合には、ノイズの大きさＬ_i は次のように計
算され、Ｓⁱ はｉ番目の周波数におけるＬＰＣパワース
ペクトルのサンプル値である。Ｌｉ＝Ｂｉ（（Ｎ_i −Ｍ_i ）／（１＋（Ｓ_i ／Ｎ_i ）
² ））^0.25

【００６０】ノイズの大きさが全ての３３の周波数に対
してプロセッサ５２０により計算されたならば、最大の
ノイズの大きさの周波数が識別され、またこの周波数に
１ビットが割り当てられる。この周波数におけるノイズ
べきが次いで、予測残差ＦＦＴ係数を量子化するための
ＶＱコードブックの設計の間に得られる信号−ノイズ比
（ＳＮＲ）から実験で決定される要素だけ減じられる
（減じられる要素の値は一例として４と５ｄＢの間であ
る。）。この周波数におけるノイズの大きさは次いで減
じられたノイズべきを使用して更新される。次に、更新
されたノイズの大きさのアレイから最大のものが識別さ
れ、また対応する周波数に１ビットが割り当てられる。
このプロセスは、利用可能なビットがなくなるまで継続
される。

【００６１】３２と２２３ｋｂ／ｓのＴＰＣ符号化器に
対しては、３３の周波数のそれぞれが適応ビット割り当
ての間にビットを受信する。１６ｋｂ／ｓのＴＰＣ符号
化器に対しては、符号化器が０から４ｋＨｚ（つまり、
最初の１６のＦＦＴ係数）の周波数範囲にだけビットを
割り当て、また残差ＦＦＴ係数を４から８ｋＨｚのより
高い周波数において合成する場合に、より良い音声品質
とすることができる。４から８ｋＨｚの残差ＦＦＴ係数
を合成するための方法は、以下に、例示的な復号器を関
連して説明する。

【００６２】なお、量子化されたＬＰＣ合成係数（ａ）
は同様にＴＰＣ復号器において利用可能であり、ビット
割り当て情報を伝送する必要はない。このビット割り当
て情報は、復号器内の聴覚モデル量子化器制御プロセッ
サ５０のレプリカにより決定される。よって、ＴＰＣ復
号器は、このようなビット割り当て情報を得るために、
復号器の適用型ビット割り当て動作を部分的に複写する
ことができる。

【００６３】ｄ．ＦＦＴ係数の量子化ビット割り当てが行われたならば、標準化された予測残
差ＦＦＴ係数Ｅ^N の実際の量子化は量子化器６０により
行われる。ＦＦＴのＤＣ項は実数だえり、またこれはビ
ット割り当ての間にいずれかのビットを受信する場合に
はスカラ量子化される。受信できる最大数は４である。
あるいは１６番目のＦＦＴ係数に対して、従来の２次元
のベクトル量子化器が実数と虚数を一緒に量子化するた
めに使用することもできる。この２次元のＶＱに対する
ビットの最大数は６ビットである。１７番目から３０番
目のＦＦＴ係数に対しては、従来の４次元ベクトル量子
化器が２つの隣接するＦＦＴ係数の実部と虚部を量子化
するために使用される。

【００６４】Ｃ．例示的な復号器の実施の形態本発明の例示的な復号器の実施の形態を図８に示した。
この例示した復号器は、図８のように接続された、多重
分離器（ＤＥＭＵＸ）６５、ＬＰＣパラメータ復号器８
０、聴覚モデル量子化分離器制御プロセッサ９０、量子
化分離器７０、逆変換プロセッサ１００、ピッチ合成フ
ィルタ１１０、並びにＬＰＣ合成フィルタ１２０から構
成される。一般的な命題として、この実施の形態の復号
器は、主情報に関して例示した符号化器により行われた
のと逆の動作を行う。

【００６５】各フレームに対して、ＤＥＭＵＸ６５は受
信したビットストリームから全ての主および側情報要素
を分離する。主情報は量子化分離器７０に供給される。
「量子化分離」の用語は、本明細書では、インデックス
のような符号化された値に基づいて量子化された出力を
発生することを意味する。この主情報を量子化分離する
ため、主情報ビットのどれだけ多くのものが主情報の各
量子化された変換係数と関連しているかを決定するため
に適応ビット割り当てが行われる。

【００６６】適応ビット割り当てにおける最初の段階
は、量子化されたＬＰＣ係数（割り当てに依存する）を
発生することである。上記したように、７つのＬＳＰコ
ードブックインデックスｉ_l （１）〜ｉ_l （７）が、量
子化されたＬＳＰ係数を表すために、復号器へのチャネ
ル上で通信される。量子化されたＬＳＰ係数は、ＤＥＭ
ＵＸ６５からの受信したＬＳＰインデックスに応答した
ＬＳＰコードブック（上記したもの）のコピーを使用し
て、復号器８０により合成される。最後に、ＬＰＣ係数
が従来の方法でＬＳＰ係数から導出される。

【００６７】ＬＰＣ係数ａを合成することで、聴覚モデ
ル量子化分離器制御プロセッサ９０は、符号化器を参照
して上記したのと同様な方法で各ＦＦＴ係数に対してビ
ット割り当てを決定する（量子化されたＬＰＣパラメー
タに基づいて）。ビット割り当て情報が導出したなら
ば、量子化分離器７０は、次いで、主ＦＦＴ係数情報を
正確に復号し、また利得正規化された予測残差ＦＦＴ係
数の量子化したものを得る。

【００６８】ビットを全然受信したいこれらの周波数に
対して、復号されたＦＦＴ係数はゼロとなる。このよう
な「スペクトルの穴」の位置は時間とともに発展し、ま
たこれが多くの変換符号化器に共通な明確な人工の歪み
となる。このような人工の歪みを回避するため、量子化
分離器７０はスペクトル穴を、量子化された利得より３
ｄＢ低いランダムな位相と大きさを有する低レベルのＦ
ＦＴ係数で満たす。

【００６９】３２と２４ｋｂ／ｓの符号化器に対して
は、上記で復号器に関して説明しように、ビット割り当
ては全体の周波数帯域に対して行われる。１６ｋｂ／ｓ
の符号化器に対しては、ビット割り当ては０から４ｋＨ
ｚ帯域に制限される。４から８ｋＨｚの帯域は次の方法
で合成される。まず、ＬＰＣパワースペクトルとマスキ
ングしきい値の間の比、つまり、信号対マスキングしき
い値の比（ＳＭＲ）が４から７ｋＨｚの周波数に対して
計算される。１７番目から２９番目のＦＦＴ係数（４か
ら７ｋＨｚ）は、ランダムで大きさの値がＳＭＲにより
制御される位相を使用して合成される。ＳＭＲ＞５ｄＢ
でのこれらの周波数に対しては、残差ＦＦＴ係数の大き
さは、量子化された高周波数の利得より４ｄＢ上にセッ
トされる（４から７ｋＨｚの帯域におけるＦＦＴ係数の
ＲＭＳ値）。ＳＭＲ≦５ｄＢでのこれらの周波数に対し
ては、大きさは、量子化された高周波利得より３ｄＢ下
である。３０番目から３３番目のＦＦＴ係数では、量子
化された高周波利得よりも３ｄＢから３０ｄＢ下に設定
され、また位相はランダムである。図１０は、ＦＦＴ係
数の大きさと位相を合成する処理を例示したものであ
る。

【００７０】全てのＦＦＴ係数が復号され、満たされ、
あるいは合成された際には、これらはスケーリングの準
備が完了した状態となる。スケーリングは、最初の４つ
のサブフレームの低周波と高周波帯域のログ利得補間誤
差のためのインデックスとともに、現在のフレームの最
後のサブフレームにそれぞれ対応する、高周波利得のた
めの５ビットのインデックスと低周波利得のための４ビ
ットをそれぞれ受信する（ＤＥＭＵＸ６５から）、逆
変換プロセッサ１００により行われる。これらの利得イ
ンデックスは復号され、また、利得計算および量子化の
セクションで説明したように、各ＦＦＴ係数に対するス
ケーリング要素を得るためにこの結果が使用される。Ｆ
ＦＴ係数は次いで、それらの個々の利得によりスケーリ
ングされる。

【００７１】得られた利得はスケーリングされ、また、
量子化されたＦＦＴ係数は、次いで、逆ＦＦＴを使用し
て逆変換プロセッサ１００により時間領域に逆変換され
る。この逆変換により、時間領域量子化された予測残差
ｅが生成される。

【００７２】時間領域量子化された予測残差ｅは、次い
で、ピッチ合成フィルタ１１０を通過する。フィルタ１
１０は、量子化されたピッチ周期ｐに基づいて、量子化
されたＬＰＣ予測残差を生成するために、ピッチ予測値
を残差に加える。量子化されたピッチ周期は、ＤＥＭＵ
Ｘ６５から得られた、８ビットのインデックスｉ_p から
復号される。ピッチ予測子タップは、同様にＤＥＭＵＸ
６５から得られた、６ビットのインデックスｉ_l から復
号される。

【００７３】最後に、量子化された出力音声ｓは、次い
で、ＬＰＣパラメータ復号器８０から得られた、量子化
されたＬＰＣ係数ａを使用して、ＬＰＣ合成フィルタ１
２０により発生される。

【００７４】Ｄ．検討以上、本発明の多くの特定の実施の形態を示したが、こ
れらの実施の形態は本発明の応用において案出すること
ができる多くの特定の構成の例示にすぎないものであ
る。上記の説明から、当業者によれば、本発明の技術思
想と範囲を逸脱することなく、本発明の基本原理にした
がって種々の構成を案出できるものである。

【００７５】例えば、ＳＭＲ＞５ｄＢの範囲で４から７
ｋＨｚにおいてこれらお周波数におけるＦＦＴ位相情報
だけを符号化することで、良好な音声と音楽の品質が維
持される。また大きさは、ビット割り当ての説明の終り
付近で説明した高周波数合成法と同じ方法で決定するこ
とができる。

【００７６】多くのＣＥＬＰフィルタは、ピッチ予測を
より効率的に行うために、４から６ｍｓ毎に一度だけピ
ッチ予測子パラメータを更新する。このような更新は、
例示した実施の形態のＴＰＣ符号化器の場合にはより頻
繁に行われる。勿論、他の更新速度とすることもでき
る。

【００７７】ノイズの大きさを推定するための他の方法
を使用することもできる。同様に、最大のノイズの大き
さを最小限にするよりはむしろ、全ての周波数に対する
ノイズの大きさの総和を最小限とできる。符号化器のセ
クションで先に説明した利得量子化スキームは非常に良
い符号化効率を有しており、また音声信号に対して良好
に動作するものである。他の利得量子化スキームを以下
に説明する。これは符号化効率があまり良くはないが、
より単純であり、また非音声信号に対しても有効であ
る。

【００７８】他のスキームは、全体のフレームに対して
計算された時間領域ピッチ予測残差信号のＲＭＳ値であ
る、「フレーム利得」の計算から開始する。この値は、
次いで、ｄＢに変換され、またスカラ量子化器で５ビッ
トに量子化される。各サブフレームに対して、３つの利
得値が、残差ＦＦＴ係数から計算される。低周波利得お
よび高周波利得が先と同じ方法で、つまり、最初の５Ｆ
ＦＴ係数のＲＭＳ値と１８番目から２９番目のＦＦＴ係
数のＲＭＳ値として、計算される。加えて、中間周波数
利得は、６番目から１６番目のＦＦＴ係数のＲＭＳ値と
して計算される。これら３つの利得値はｄＢ値に変換さ
れ、またｄＢでのフレーム利得がこれらから抽出され
る。この結果は、３つの周波数帯域に対する正規化され
たサブフレームの利得である。

【００７９】正規化された低周波サブフレーム利得は、
４ビットのスカラ量子化器により量子化される。正規化
された中間周波数および高周波数のサブフレーム利得
は、７ビットベクトル量子化器により一緒に量子化され
る。線形領域の量子化されたサブクレーム利得を得るた
めに、ｄＢでのフレーム利得が正規化されたサブフレー
ム利得の量子化されたものに逆に加えられ、またこの結
果が線形領域に逆変換される。

【００８０】線形補間が１から４ｋＨｚの周波数帯域の
ための利得を得るために行われた先の方法とは異なり、
この代わりの方法はそのような補間が必要でない。各残
差ＦＦＴ係数は、専用のサブフレーム利得が決定された
３つの周波数帯域の１つに属する。線形領域における３
つの量子化されたサブフレーム利得のそれぞれは、サブ
フレーム利得が導出される周波数帯域における全ての残
余の全てのＦＦＴ係数を正規化ないしスケーリングする
ために使用される。

【００８１】なお、この代わりの利得量子化スキーム
は、全ての利得を特定するためにより多くのビットを必
要とする。よって、与えられたビット速度に対しては、
残余のＦＦＴ係数を量子化するために利用可能なビット
が少なくなる。

【図面の簡単な説明】

【図１】本発明の例示的な符号化器の実施の形態を示し
た説明図である。

【図２】図１のＬＰＣ解析プロセッサの詳細なブロック
ダイヤグラムを示した説明図である。

【図３】図１のピッチ予測プロセッサの詳細なブロック
ダイヤグラムを示した説明図である。

【図４】図１の変換プロセッサの詳細なブロックダイヤ
グラムを示した説明図である。

【図５】図１の聴覚モデルおよび量子化器制御プロセッ
サの詳細なブロックダイヤグラムを示した説明図であ
る。

【図６】適応形ビット割り当てのためのマスキングしき
い値を決定する際に使用されるＬＰＣパワースペクトル
の減衰関数を示した説明図である。

【図７】図１の符号化器の実施の形態の一般的なビット
割り当てを示した説明図である。

【図８】本発明の例示的な符号化器の実施の形態を示し
た説明図である。

【図９】推定されたマスキングしきい値関数を決定する
ために行われるプロセスを示したフローチャートであ
る。

【図１０】図８の復号器により使用するための残余の高
速フーリエ変換の係数の大きさと位相を合成するために
行われる処理を示したフローチャートである。

【符号の説明】

１０ＬＰＣ解析プロセッサ２０ＬＰＣ予測誤差フィルタ３０ピッチ予測プロセッサ４０変換プロセッサ５０聴覚モデル量子化器制御プロセッサ６０残差量子化器

Claims

【特許請求の範囲】

【請求項１】音声情報を表す信号を符号化する方法に
おいて、音声情報を表す信号の推定値を表す第１の信号を発生
し、音声情報を表す信号を第１の信号と比較して前記比較さ
れた各信号の間の差を表す第２の信号を形成し、人間音声知覚のモデルにより決定された知覚ノイズマス
キング信号に従って量子化器の解像度を決定し、第２の信号を決定された量子化器の解像度にしたがって
量子化し、並びに前記量子化された信号に基づいて符号
化された信号を発生することを特徴とする方法。