JP2887286B2

JP2887286B2 - デジタル的にコード化されたスピーチを圧縮するたの方法における改良

Info

Publication number: JP2887286B2
Application number: JP63084973A
Authority: JP
Inventors: ジュワン・フウェイ・チャン; アレン・ガーショー
Original assignee: BOISUKURAFUTO Inc
Current assignee: BOISUKURAFUTO Inc
Priority date: 1987-04-06
Filing date: 1988-04-05
Publication date: 1999-04-26
Anticipated expiration: 2014-04-26
Also published as: EP0503684A3; US4969192A; JPS6413200A; EP0294020A3; EP0503684A2; DE3856211D1; DE3856211T2; CA1336454C; EP0503684B1; EP0294020A2; AU1387388A

Description

【発明の詳細な説明】［発明の背景］この発明は、伝達または記憶のためにデジタル的にコ
ード化されたスピーチまたはオーディオ信号を圧縮する
ための実時間コーダに関し、より特定的に、実時間ベク
トル適合予測コード化システムに関する。

過去数年においては、スピーチコード化の多くの研究
は、16kb/sから150ビット/sへのビット速度に焦点を合
わせた。この範囲の最高限度において、中継品質（toll
quality）が、16kb/sにおいて、スケーラ量子化に基づ
く精巧な波形コーダによって達成され得ることが一般に
認められている。1984年ニュージャージー州イングルウ
ッド・クリフス、プレンティス−ホール・インコーポレ
ーテッドの、Ｎ・Ｓ・ジェイエンおよびＰ・ノールによ
る波形のデジタルコード化。他方の限度において、2400
ビット/sまたはそれ以下で動作する（線形予測コーダの
ような）コーダは、合成品質スピーチを与えるだけであ
る。これら２つの極端間の、特に、4.8kb/sと9.6kb/s間
のビット速度では、いずれの型のコーダも高品質スピー
チを得ることはできない。その理由の一部は、スケーラ
量子化が、１ビット／サンプルのビット速度でだめにな
る傾向があるからである。サンプルあたり１ビットの断
片で動作するその理論的最適性とその能力を介して、ベ
クトル量子化（VQ）は、9.6kb/s、または4.8kb/sでさえ
高品質スピーチを達成する可能性を提供する。Ｊ・マク
ホール、Ｓ・ルーカスおよびＨ・ギッシュの「スピーチ
コード化におけるベクトル量子化」IEEE会報第73巻第11
号1985年11月。

ベクトル量子化（VQ）は、もし、ベクトル次元が十分
に大きければ、究極の速度−歪限度に任意に近い性能に
達し得る。1971年ニュージャージー州イングルウッドク
リフス、プレンティス−ホール・インコーポレーテッ
ド、Ｔ・バーガー「速度歪理論」。しかしながら、複雑
さの考慮のため、小さなベクトル次元のみが実際のシス
テムでは使用でき、不幸なことに、小さな時限を用いる
直接波形VQは、適切な性能を与えない。性能を改善する
１つの可能な方法は、VQを、スケーラコード化機構で成
功のうちに用いられてきた他のデータ圧縮技術と組合わ
せることである。

16kb/s以下のスピーチコード化において、もっとも成
功したスケーラコード化システムの１つは、アタルおよ
びシュローダーによって開発された適合性予測コード化
（APC）である［Ｂ・Ｓ・アタルとＭ・Ｒ・シュローダ
ーの「スピーチ信号の適合性予測コード化」ベル・シス
テム・テクニック・J.第49巻第1973−1986頁1970年10
月、Ｂ・Ｓ・アタルとＭ・Ｒ・シュローダーの「スピー
チ信号の予測コード化と主観的な誤差基準」IEEE会報、
音響学、スピーチ、信号処理、第ASSP−27巻第３号1979
年６月、およびＢ・Ｓ・アタルの「低ビット速度におけ
るスピーチの予測コード化」IEEE会報通信第COM−30巻
第４号1982年４月］。この発明、ベクトル適合性予測コ
ード化（VAPC）の発展に導くのは、VQとAPCの組合わせ
たパワーである。VQとAPCのこのような組合わせは、4.8
ないし9.6kb/s間のビット速度で高品質のスピーチを提
供し、スケーラコーダとVQコーダのギャップを埋めるで
あろう。

APCの基本的な考えは、まず、適合性線形予測子を用
いるスピーチ波形の冗長を取り除き、それからスケーラ
量子化器を用いて予測残差を量子化することである。VA
PCにおいて、APCのスケーラ量子化器は、ベクトル量子
化器VQに取って代わられる。VQを用いる動機づけは二重
である。まず、隣接するスピーチサンプル相互間の線形
依存は本質的に線形予測で取り除かれるけれども、隣接
する予測残差サンプルは、VQに利用され得る非線形依存
性を未だ有しているかもしれない。第２に、VQは、サン
プルあたり１ビット以下の速度で動作し得る。これは、
スケーラ量子化器では達成できないが、低ビット速度で
スピーチをコード化するには必須である。

ベクトル適合性予測コーダ（VAPC）は、APCと、1985
年７月の、Ｖ・クーパーマンおよびＡ・ガーショの「16
kb/sにおけるスピーチのベクトル予測コード化」IEEE会
報、通信第COM−33巻第685−696頁で紹介された、ベク
トル予測コードから発展した。VAPCは、1985年３月テン
ピにおける音響学、スピーチ、信号処理の国際会議の会
報の「コード励起線形予測（CELP）：非常に低いビット
速度における高品質スピーチ」における、Ｍ・Ｒ・シュ
ローダーとＰ・Ｓ・アタルのコード励起線形予測（CEL
P）と幾分似た特徴を含んでいるが、計算の複雑さはず
っと少ない。

コンピュータシミュレーションにおいて、VAPCは、9.
6kb/sで非常に良いスピーチ品質を与え、18dBの信号対
騒音比率（SNR）と16dBのセグメントのSNRに達する。4.
8kb/sにおいて、VAPCもかなり良いスピーチ品質を達成
し、SNRとセグメントのSNRは、それぞれ、約13dBと11.5
dBである。これらの結果を達成するために必要とされる
計算は、（１フロップ、浮動小数点演算は、１乗算、１
加算＋その関連の索引づけとして定義される）１秒あた
り２ないし400万フロップのオーダにすぎず、今日の進
歩したデジタル信号化プロセッサチップの十分に能力範
囲内である。VAPCは、約4.8kb/sの予期されるビット速
度において素晴らしいスピーチ品質を達成するとして知
られ、しかし、その天文学的複雑さのために、現在は実
時間で実現されないが、CELPに代わる低い複雑さをもっ
たものとなるかもしれない。それは、そのコーダを実現
するために、１秒あたり４億フロップ以上を要求する。
スーパーコンピュータCRAY−１のCPU時間で、CELPは、
１秒のスピーチをコード化するために、CPU時間の125秒
必要とする。現在、4.8ないし9.6kb/sの範囲のコード化
速度で動作する、実時間、高品質スピーチコーダに対す
る大きな必要性がある。コード化速度のこの範囲におい
て、上記で述べられた２つのコーダ（APCとCELP）は、
高品質を達成することもできず、実現するには複雑すぎ
る。これに反して、ベクトル量子化（VQ）をAPCとCELP
双方の利点に結びつける、この発明は、実時間コード化
に対して十分に低い複雑さを伴って、高品質スピーチを
達成することができる。

［発明の目的と要約］この発明の目的は、実時間で、アナログスピーチまた
はオーディオ波形を、記憶および／または伝達のために
圧縮されたビット流れにコード化することで、再生のた
めに波形を後で再構成することである。

もう１つの目的は、前記スピーチまたはオーディオ信
号の知覚品質を高めるために、コード化システムまたは
他の源の劣化によって生じた騒音によって乱された、ス
ピーチまたはオーディオ信号の適合性ポストフィルタ化
を提供することである。

この発明の目的は、Ｋ個のスピーチサンプルの各ベク
トルを、時間変化の合成フィルタを励起するために、VQ
コードブックに記憶されたＭ個の固定ベクトルの各々を
用い、知覚的に意味のある歪の大きさを最少にする最良
合成化ベクトルを選ぶことにより、概算するシステムに
よって達成される。元のサンプル化されたスピーチは、
まずバッファされ、ベクトルとベクトルのフレームに分
類され、そこで、各フレームはＮ個のベクトルに分類さ
れ、各ベクトルはＫ個のスピーチサンプルを有してい
る。ピッチフィルタ化パラメータ（Ｐ）、線形予測計数
フィルタ化パラメータ（LPC）、知覚重みづけフィルタ
パラメータ（Ｗ）およびスピーチの連続するフレームの
各々に対する残差利得スケール因数（Ｇ）の予測分析
が、それから行なわれる。分析において決定されるパラ
メータは、知覚重みづけパラメータ以外は、フレームの
各入力ベクトルs_nを処理するために、フレームごとに量
子化され、リセットされる。パラメータＷに応答する知
覚重みづけフィルタは、コード化されたスピーチと元の
スピーチ間の知覚歪を最少にする、VPベクトルを選択す
るのを助けるために用いられる。量子化されないが、知
覚重みづけフィルタパラメータも、フレームごとにリセ
ットされる。

各フレームがバッファされた後、上記の分析が各フレ
ームの最初において完成され、Ｍ個の零状態応答ベクト
ルが計算され、零状態応答コードブックに記憶される。
これらのＭ個の零状態応答ベクトルは、因数Ｇによって
制御されるスケールユニットの後の、カスケードされた
LPC合成フィルタと知覚重みづけフィルタのメモリを零
に設定し、量子化されたLPCフィルタパラメータと量子
化されない知覚重みづけフィルタパラメータで、各フィ
ルタを制御し、１つの予め定められ固定されたコードブ
ックベクトルを用いて一度にカスケードされたフィルタ
を励起することにより、得られる。各VQコードブックベ
クトルに対するカスケードされたフィルタの出力ベクト
ルは、それから対応のアドレスにストアされ、すなわ
ち、VQコードブックのと同じ、一時的零状態応答コード
ブックの索引が割当てられる。１フレーム内で各入力ス
ピーチベクトルs_nをコード化する際に、そのベクトルの
予測されたピッチ_ｎは、そのフレームに対するパラメ
ータQG,QLPC,QPおよびQPPによって制御される、スケー
ルユニット、LPC合成フィルタおよびピッチ予測フィル
タを介して、索引コードとしてコード化された最後のベ
クトルを処理することにより、決定される。さらに、カ
スケードされたフィルタの零入力応答（前のベクトルの
励起からのリンギング）は、まずフィルタにセットされ
る。一旦、ピッチ予測ベクトル_ｎが入力信号ベクトル
s_nから引かれ、差分ベクトルd_nが知覚重みづけフィルタ
を介してフィルタされた差分ベクトルf_nを生じるために
通過され、前記フィルタの零入力応答ベクトルが、知覚
重みづけフィルタ化された差分ベクトルf_nから引かれ、
そして、結果として生じるベクトルv_nが、最小差分Δま
たは歪を有する１つを捜して、Ｍ個の記憶された零状態
応答ベクトルの各々と比較される。

最小歪を生じる、すなわち、v_nに最も近い、零状態応
答ベクトルの索引（アドレス）は、永久コードブックの
最良ベクトルを同定する。その索引（アドレス）は、そ
のベクトルの圧縮されたコードとして伝達され、最良整
合ベクトルを見つけるために、送信器と同一のVQコード
ブックを有する受信器によって用いられる。送信器にお
いて、その最良整合ベクトルは、次のスピーチベクトル
の評価値_ｎを発生するために、LPC合成フィルタとピ
ッチ予測フィルタを励起するために、その索引の伝達時
において用いられる。その最良整合ベクトルは、また上
記したように、次のスピーチベクトルs_nのためにそれを
設定するために、零入力応答フィルタを励起するために
用いられる。ベクトルのフレームに対する最良整合ベク
トルの索引は、永久コードブックと同一のコードブック
を送信器で用いて、フレームのベクトル索引をベクトル
に復号化する際に、受信器によって用いられるように、
ピッチ、ピッチ予測子およびコード化プロセスで用いら
れるLPC予測フィルタ化と利得を制御する、パラメータ
の索引からなる、「副次情報」と今後呼ばれる、フレー
ム分析情報と組合わされる。この副次情報は、マルチプ
レクサを介して、まず、続くVQ索引の各フレームに対し
て一度伝達されることが好ましいが、ベクトル索引のフ
レームをまず伝達し、それから副次情報を伝達すること
が可能であろう。なぜなら、ベクトル索引のそのフレー
ムは、両方の場合において、幾分かのバッファ化を必要
とするからであり、その差分が連続して送信されるスピ
ーチまたはオーディオフレームの最初において、初期の
遅延に幾分あるだけである。マルチプレクスされた索引
の結果として生じる流れは、通信チャネルを通ってデコ
ーダに伝達されるか、または後の復号化のために記憶さ
れる。

デコーダにおいて、ビット流れは、続く索引から副次
情報を分離するために、まずディマルチプレクスされ
る。各索引は、対応のベクトルを重複のコードブックか
ら引出すために、受信器において用いられる。引出され
たベクトルは、利得索引を適切なスケール因数に変換す
るためにテーブルを用いて、利得パラメータによってま
ずスケールされ、それから、送信器の零状態応答コード
ブックを利用する最良整合索引を選択する際に用いられ
た同じ副次情報によって、制御されるカスケードされた
LPC合成およびピッチ合成フィルタを励起するために用
いられる。ピッチ合成フィルタの出力は、コード化され
たスピーチであり、それは知覚的に元のスピーチに近
い。利得情報以外の、すべての副次情報は、合成された
スピーチの品質を高めるために、適合性ポストフィルタ
で用いられる。このポストフィルタ化技術は、どんな声
またはオーディオ信号を高めるためにも用いられてよ
い。必要とされるのは、ポストフィルタを適合させるた
めに用いられるパラメータを作り出すための分析部分だ
けである。このポストフィルタ化技術においては、予め
定められた線形予測係数パラメータにより制御される短
期遅延フィルタ処理が行なわれる。この短期遅延フィル
タ処理は、２つの全極伝達関数の比からなる極−零伝達
関数を用いて行なわれる。また、極−零伝達関数の零は
対応の極よりも小さな半径を有している。

可変フレーム速度コード化、迅速コードブック探索、
ピッチ予測とLPC予測のオーダの反転、および別の知覚
重みづけ技術の使用のような、この発明の他の修正およ
び変化が、当業者に生じるかもしれない。したがって、
本願発明を定義する請求の範囲は、それらの修正と変化
を包含することが企図される。

この発明の目的は、後で、スピーチまたはオーディオ
プログラムの再生時に、アナログスピーチまたはオーデ
ィオ波形の再構成のために、それらの波形を伝達および
／または記憶するためにコード化することであるが、今
後は、スピーチのみに言及がなされるが、説明され、請
求された発明は、オーディオ波形、またはサブバンドフ
ィルタ化されたスピーチまたはオーディオ波形にも適用
可能である。

［好ましい実施例の説明］実現の好ましい態様は、１つまたは２つのAT＆T DSP3
2チップのようなプログラム可能デジタル信号プロセス
チップと、入力サンプル化、バッファ化およびマルチプ
レクス化のような装置に必要なメモリとコントローラの
ための付属チップを用いることを意図する。このシステ
ムはデジタルなので、サンプルとともにすっかり合成さ
れる。図示と説明の簡略化のために、合成論理は図面に
は示されない。また簡略化のために、１つの信号ベクト
ルがもう１つのから引かれる各点において、減算機能
が、丸の中の＋符号によって示される加算器によって記
号で示される。引かれたベクトルは、入力において、−
の符号が付されている。実際には、減数の２の補数が形
成され、被減数に加えられる。しかしながら、好ましい
実現ではプログラム可能デジタル信号プロセッサが意図
されるが、一旦、必要な量が設計の初期のコストを正当
化すれば、この発明をデジタル信号プロセッサ専用の、
特殊の目的に実現するために、VLSI技術を用いる特別な
集積回路を設計し製作することも可能であろう。

第1a図を参照して、元のスピーチサンプルが、サンプ
ル化アナログ−デジタル変換器10からデジタル形式のs_n
となって、分析プロセッサ11に受信され、プロセッサは
それらをベクトルあたりＫ個のサンプルのベクトルs
_nに、フレームあたりＮ個のベクトルのフレームに分類
する。分析プロセッサは、次のフレームをコード化する
ために用いられるパラメータを計算するため、分析プロ
セッサは、１フレームのベクトル以上、たとえば、各ベ
クトルが20サンプルからなっており、フレームあたり８
ベクトルのフレームを２つ記憶する能力を有する、二重
バッファメモリにサンプルを記憶する。各フレームは１
つのバッファの外で処理されるので、入ってくる新しい
フレームは、他方のバッファに記憶され、そのためフレ
ームの処理が完成したとき、バッファされ、処理される
準備のできた新しいフレームがある。

分析プロセッサは、この発明の主題である、ベクトル
適合性予測コード化技術で用いられるフィルタのパラメ
ータを決定する。これらのパラメータは、ベクトル量子
化された（VQ）永久コードブック13と零状態応答（ZS
R）コードブック14の使用とともに発生されるベクトル
コードのフレームより丁度前に、マルチプレクサ12を介
して、副次情報として伝達される。副次情報は、フレー
ムの復号化されたベクトルを適切にフィルタするため
に、受信器を条件づける。分析プロセッサ11も、コード
化プロセスで用いられる他のパラメータを計算する。後
者は第1a図で破線で示され、知覚重みづけフィルタ18の
ためのＷ、LPC合成フィルタ15のための量子化されたLPC
予測子QLPC、ピッチ合成フィルタ16のための量子化され
たピッチQPとピッチ予測子QPPで示される、組のパラメ
ータからなる。スケールユニット17を制御するためのス
ケール因子Ｇも、分析プロセッサによって計算される。
副次情報として伝達される４つの量子化されたパラメー
タは、量子化されたピッチ索引、ピッチ予測子索引、LP
C予測子索引および利得索引として、量子化テーブルを
用いて、コード化される。分析プロセッサがこれらすべ
てのパラメータを計算する態様は、第３図を参照して説
明される。

マルチプレクサ12は、副次情報を、それが入手可能に
なればすぐ伝達することが好ましい。それはコード化さ
れた入力ベクトルのフレームに続き得るかもしれない
が、それがなされている間、Ｍ個の零状態応答ベクトル
が、零状態応答（ZSR）コードブック14に対して、第２
図に図示される、送信器の、利得スケールユニット17、
LPC合成フィルタ15および知覚重みづけフィルタ18に対
応する（第1a図）、利得スケールユニット17′、LPC合
成フィルタ15′、および知覚重みづけフィルタ18′を介
して、VQコードブック13の各ベクトル、たとえば、128
のベクトルを処理する態様で計算される。連動した切換
スイッチS₁とS₂は、処理された各固定VQベクトルがZSR
コードブックの同じ索引（アドレス）のメモリ場所に記
憶されていることを表明するために示されている。

各ベクトル処理の最初において、カスケードされたフ
ィルタ15′と18′の初期条件が零に設定される。これ
は、カスケードされたフィルタ15′と18′が行なうであ
ろうことをシミュレートし、前のベクトルはその対応の
VQコードブックから現われていない。すなわち、もし、
送信器の零入力応答フィルタ19の出力（第1a図）が、
（フレームの各ベクトルに対して伝達するために）VQコ
ード索引を計算する各段階で、そのように保持される
か、または記憶されれば、零状態応答出力を、ベクトル
f_nから引くことによって、スピーチベクトルのコード化
を簡単にすることが可能である。換言すれば、Ｍ＝128
とすれば、元のスピーチベクトルs_nをコード化する際に
用いられるために、VQコードブックに永久的に記憶され
ている128の異なるベクトルがある。それから、この128
のVQベクトルのすべては、シーケンスで読出され、スケ
ールユニット17′、LPC合成フィルタ15′、および知覚
重みづけフィルタ18′を介して、各段階でそれらのフィ
ルタを再設定することにより、前のベクトルの入力の経
歴を伴わずに供給される。結果とし生じるフィルタ出力
ベクトルは、それから、零状態応答コードブックの対応
場所に記憶される。それから、ベクトルv_nと零状態応答
ベクトルコードのすべてとの間の最良整合を見い出すこ
とによって、入力信号ベクトルs_nをコード化する間に、
知覚主みづけフィルタから引出されたベクトルf_nから、
前に選択されたVQベクトルの効果に対応する値を引くこ
とが必要である。それは、零入力応答フィルタ19を介し
て行なわれる。最良整合の索引（アドレス）は、ベクト
ルs_nに対して伝達される圧縮されたベクトルコードとし
て用いられる。128の零状態応答ベクトルのうち、最良
整合、すなわち最小歪を提供する唯一のベクトルがある
であろう。それが、「ノルムを計算せよ」と名付けられ
てコンピュータ20によって決定されるように、零状態応
答コードブックの場所38にあると仮定する。アドレスレ
ジスタ20aは、索引38を記憶するであろう。そして、VQ
索引として第1b図に示されている受信器に伝達されるの
がその索引である。

受信器において、ディマルチプレクサ21は、送信器の
フィルタとスケールユニットに対応するのと同じパラメ
ータで受信器を条件づける、副次情報を分離する。受信
器は、パラメータ索引をパラメータ値に翻訳するため
に、デコーダ22を用いる。フレームの各連続するベクト
ルのVQ索引は、送信器の固定VQコードブック13と同一
の、VQコードブック23をアドレスする。LPC合成フィル
タ24、ピッチ合成フィルタ25およびスケールユニット26
は、零状態コードブック値を計算する際に用いられ、順
に、各入力ベクトルに対するコード化索引を選択するプ
ロセスで用いられた、同じパラメータで条件づけられ
る。コード化索引を見つけて伝達する各段階において、
零入力応答フィルタ19は、最良整合探索に用いられる零
入力応答を呈示するために、入力ベクトルf_nから引かれ
るべき値を、VQベクトルから、伝達された索引の場所に
おいて計算する。

入力ベクトルs_nに対する最良整合を決定するために用
いられ得る、様々な手順がある。最も単純なのは、各零
状態応答ベクトルコード出力とベクトルv_n間の結果とし
て生じる歪を、その索引とともに記憶することである。
コードブック14に記憶される128のベクトルコードがあ
ると仮定すると、最良アドレスコンピュータ20に記憶さ
れる128の結果として生じる歪があるであろう。それか
ら、すべてが記憶された後で、最低歪値を求める探索が
コンピュータ20で行なわれる。その索引が、それからコ
ード化されたベクトルとして、マルチプレクサ12を介し
て受信器に、さらに、次の入力ベクトルs_nの処理で用い
られる対応のVQベクトルを読むためのVQコードブックに
伝達される。

要するに、VQコードブックは、２つの異なった段階で
用いられる（アクセスされる）ことが注目されるべきで
ある。第１は、各フレームの最初において、フレームに
よって決定された、LPC合成および知覚重みづけフィル
タパラメータを用いて、零状態応答コードブックに対す
るベクトルコードを計算すること、第２に、最良整合ベ
クトルの索引を探索中に、スケールユニット17を介し
て、フィルタ15および16を励起し、その間に、このよう
にして生じられた評価値_ｎが入力ベクトルs_nから引か
れることである。差分d_nは、最良整合探索に用いられ
る。

各入力ベクトルs_nに対する最良整合が見い出されるの
で、VQコードブックからの対応の予め定められた固定さ
れたベクトルが、フレームの次のベクトルに対する、零
入力応答フィルタ19を再設定するために用いられる。零
入力応答フィルタ19の機能は、そこで、VQコードブック
から以前に選択されたベクトルに対する、利得スケール
ユニット17′とフィルタ15′および18′の残差応答を見
つけることである。すなわち、選択されたベクトルは、
伝達されず、その索引のみが伝達される。受信器におい
て、その索引は、送信器のVQコードブック13に同一の、
VQコードブック23からの選択されたベクトルを読出すた
めに用いられる。

零入力応答フィルタ19は、ZSRコードブックを生じる
のに用いられるのと同じフィルタ化動作、すなわち第２
図に示される、利得Ｇ、LPC合成フィルタと重みづけフ
ィルタの組合わせである。一旦、最良コードブックベク
トル整合が決定されると、最良整合ベクトルが、入力と
してこのフィルタに与えられる（サンプルずつ、連続的
に）。入力スイッチs_iが閉じられ、出力スイッチs_oがこ
の時間開かれるので、第１のＫ個の出力サンプルは無視
される。（Ｋはベクトルの次元であり、典型的な値は20
である。）Ｋ個のすべてのサンプルが入力としてフィル
タに与えられるとすぐ、フィルタ入力スイッチs_iは開か
れ、出力スイッチs_oは閉じられる。ベクトルf_nの次のＫ
個のサンプル、知覚重みづけフィルタの出力は、到着し
始め、ベクトルf_nのサンプルから引かれる。このように
生じられた差分は、ZSRコードブック探索手続で用いら
れるために、静止レジスタで記憶されるベクトルv_nを形
成する、１組のＫ個のサンプルである。ZSRコードブッ
ク探索手順において、ベクトルv_nがZSRコードブックに
記憶される各ベクトルから引かれ、差分ベクトルΔが、
索引とともにコンピュータ20に供給され（または同じオ
ーダで記憶され）、それによって、ベクトルの索引をZS
Rコードブックの外に暗示する。コンピュータ20は、そ
れからどちらの差がより小さいか、すなわち、どちら
が、ベクトルv_nと（入力ベクトルs_nの１つのフレームに
対して）一時的に記憶された各ベクトル間の最良整合か
を決定する。その最良整合ベクトルの索引は、レジスタ
20aに記憶される。その索引は、ベクトルコードとして
伝達され、上記したように、そこに記憶されたベクトル
をスケールユニット17に読むために、VQコードブックに
アドレスするために用いられる。この探索プロセスは、
各ベクトルに対して、ZSRコードブックで繰返され、そ
れぞれ同じベクトルv_nを用いる。それから、最良ベクト
ルが決定される。

さて、第1b図を参照すると、次のことが注目されるべ
きである。すなわち、送信器のVQコードブック13を正確
に複写する、VQコードブック23の出力は、VQコードブッ
ク13にアドレスとして与えられた、最良整合索引から引
出されるベクトルと同一であり、利得ユニット26は送信
器の利得ユニット17と同一で、フィルタ24および25は、
受信器において、予測_ｎよりは近似_ｎがピッチ合成
フィルタ25の出力としてとられることを除いて、それぞ
れ、フィルタ15および16を正確に複写する。デジタルか
らアナログ形式に変換した後に、その結果は、非常に良
い品質で元のスピーチを再生する合成されたスピーチで
ある。

合成されたスピーチを、デジタルからアナログ形式に
変換する前に、適合性ポストフィルタ30を合成されたス
ピーチに適用することにより、知覚されるコード化され
た騒音が、フィルタされたスピーチに重大な歪を導入す
ることなく、非常に減じられるかもしれないことが見い
出された。第４図は、長期遅延フィルタ31と短期遅延フ
ィルタ32としての、適合性ポストフィルタの編成を図示
する。両方のフィルタは、それらで用いられているパラ
メータが、利得パラメータＧ以外は、副次情報として送
信器から受信されたものであるという点で適合性があ
る。適合性ポストフィルタ化の基本的な考えは、スペク
トル谷間領域のコード化されたスピーチの周波数構成要
素を減衰することである。低いビット速度において、か
なりの量の知覚されるコード化騒音は、その騒音をマス
クする強い共鳴がない、スペクトル谷間領域から来る。
ポストフィルタは、コード化された騒音をより知覚でき
ないものにするために、スペクトル谷間領域の騒音成分
を減衰する。しかしながら、このようなフィルタ化動作
は、スピーチスペクトルの形状に対する幾分かの歪を導
入することが避け難い。幸運にも、我々の耳は、スペク
トル谷間領域の歪に対してそれほど敏感ではない。それ
ゆえ、適合性ポストフィルタ化は、知覚されたスピーチ
におけるごくわずかな歪を導入するだけであるが、知覚
される雑音レベルを非常に減じる。適合性ポストフィル
タは、副次情報を決定するためのベクトルのフレームの
分析をさらに詳細に説明した後で、詳細に説明される。

第３図を参照すると、それは、第1a図のブロック11の
初期分析の組織を示す。入力スピーチサンプルs_nは、ま
ず、たとえば、各ベクトルが20サンプルを有する、８ベ
クトルからなるフレームを１つ以上記憶することができ
る、バッファ40に記憶される。

一旦、入力ベクトルs_nのフレームが記憶されると、用
いられるべきパラメータと、副次情報とし伝達されるべ
きそれらの索引が、興味あるフレーム以上よりの情報と
ともに分析を行なうために、そのフレームから、および
少なくとも前のフレームの一部から決定される。分析
は、見られるように、ピッチ検出器41、ピッチ量子化器
42およびピッチ予測計数量子化器43を用いて行なわれ
る。「ピッチ」と言われるものは、入力信号の観察され
たいかなる周期性にも適用され、それは人間の声道のひ
だの振動に対応する「ピッチ」の古典的な使用に必ずし
も対応する必要はないかもしれない。スピーチの直接の
出力は、またピッチ予測計数量子化器43で用いられる。
量子化されたピッチ（QP）と量子化されたピッチ予測子
（QPP）は、ブロック44でピッチ予測残差を計算するた
めに、また、第1a図の予測子として用いられるピッチ合
成フィルタ16の制御パラメータとして用いられる。ピッ
チ索引とピッチ予測索引のみが、伝達されるビットの数
を最小にするために、副次情報に含まれる。受信器にお
いて、デコーダ22は、ピッチ合成フィルタ25に対応の制
御パラメータを生じるために、各索引を用いるであろ
う。

ピッチ予測残差は、ブロック46のLPC分析のために、
バッファ45に記憶される。LPC分析からのLPC予測子は、
ブロック47で量子化される。量子化されたLPC予測子の
索引は、副次情報の４つの部分の３番目として伝達さ
れ、その一方で、量子化されたLPC予測子は、LPC合成フ
ィルタ15の制御のために、パラメータとして、またブロ
ック48で、LPC予測残差の実効値を計算するために用い
られる。この値（量子化されない残差利得）は、それか
ら、第1a図のスケールユニット17で利得制御Ｇを提供す
るために、ブロック49で量子化される。量子化された残
差利得の索引は、伝達される副次情報の４番目の部分で
ある。

前述のことに加えて、分析部分は、知覚重みづけフィ
ルタ18（第1a図）の組のパラメータＷがブロック51でそ
こから計算される、LPC予測子を作り出すために、ブロ
ック50でLPC分析を提供する。

第1b図の適合性ポストフィルタ30は、第４図を参照し
て説明される。それは、カスケードされた、長期遅延フ
ィルタ31と短期遅延フィルタ32からなる。長期遅延フィ
ルタは、受信器で入手可能である、復号化されたピッチ
予測情報から引出される。それは、ピッチ調和周波数間
の周波数成分を減衰する。短期遅延フィルタは、LPC予
測情報から引出され、それはフォルマント周波数間の周
波数成分を減衰する。

Ｍ・Ｒ・シュローダー、Ｂ・Ｓ・アタルおよびＪ・Ｌ
・ホールの「人間の耳のマスキング特性を利用すること
による、デジタルスピーチコーダの最適化」1979年12月
J.音響学学界Am.第66巻第６号第1647−1652頁によって
認められた、人間の聴覚認識の雑音マスキング効果が、
雑音スペクトル整形を用いることによってVAPCで利用さ
れる。しかしながら、雑音スペクトル整形において、或
る周波数の雑音成分を低くすることは、他の周波数にお
ける雑音成分を増加することによってのみ達成される。
［Ｂ・Ｓ・アタルとＭ・Ｒ・シュローダーの「スピーチ
信号の予測コード化と主観的な誤差基準」IEEE会報音響
学、スピーチおよび信号処理第ASSP−27巻第３号第247
−254頁、1979年６月］それゆえ、平均雑音レベルが非
常に高い、4800bpsの低いビット速度において、雑音を
あらゆる周波数でマスキングしきい値以下にすることは
たとえ不可能でなくても非常に難しい。スピーチフォル
マントは、知覚にとってはスペクトル谷間よりずっと重
要であるので、この発明の方策は、コード化の間、フォ
ルマント領域の雑音をできるだけ低く抑えることによっ
て、フォルマント情報を保つことである。もちろん、こ
の場合、スペクトル谷間における雑音成分がしきい値を
越すかもしれない。しかしながら、これらの雑音成分
が、ポストフィルタ32によって、後で減衰され得る。こ
のようなポストフィルタ化を行なうに際して、スペクト
ル谷間のスピーチ成分も、減衰されるであろう。幸運に
も、スペクトル谷間の強さに対する限度、または「やっ
と知覚できる差」は、大きくあり得る「Ｊ・Ｌ・フラナ
ガン、スピーチ分析、合成および知覚、アカデミック・
プレス、1972年ニューヨーク］。それゆえ、スペクトル
谷間の成分を減衰することによって、ポストフィルタ
は、スピーチ信号の最小限の歪のみを導入するが、実質
的な雑音削減を達成する。

適合性ポストフィルタ化は、ADPCMコード化されたス
ピーチを高めるのに用いられて成功した。Ｖ・ラマモー
シィとＪ・Ｓ・ジェイアンの「適合性ポストフィルタ化
によるADPCMスピーチの増進」AT＆T Bell Labs Tech.J.
第1465−1475頁、1984年10月、およびＮ・Ｓ・ジェイア
ンとＶ・ラマモーシィの「16kb/s−ADPCMスピーチの適
合性ポストフィルタ化」（会報ICASSP第829−832頁、19
86年４月日本東京）を参照されたい。上記の、ラマモー
シィ等によって用いられたポストフィルタは、極と零を
原点に向かって半径方向に移動することにより、２極６
−0ADPCM合成フィルタから引出される。もし、この考え
が全極LPC合成フィルタ1/［１−（ｚ）］に直接に拡
張されたなら、その結果は、対応のポストフィルタとし
て、I/［１−（z/α）］で、この場合０＜α＜１であ
る。このような全極ポストフィルタは実際に、知覚され
た雑音レベルを減じるが、十分な雑音削減は、フィルタ
化されたスピーチの厳しい消音化とともにのみ達成され
得る。これは、この全極ポストフィルタの周波数応答
が、一般に有声音のスピーチに対するローパススペクト
ル傾斜を有しているためである。

全極ポストフィルタ1/［１−（z/α）］のスペクト
ル傾斜は、極と同じ位相角を有するが、より小さい半径
の０を加えることによって、簡単に減じられ得る。結果
として生じる極−零ポストフィルタ32aの伝達関数は次
の形を有する。

ここにおいて、αおよびβは、さえずりを生じるほどに
非常に鋭く、雑音削減を達成しないほど非常に低いとい
うスペクトルピーク間の幾分かの兼ね合いを伴って、経
験的に決定される係数である。Ｈ（ｚ）の周波数応答
は、次のように表現し得る。

それゆえ、対数メモリにおいて、極−零ポストフィルタ
の周波数応答Ｈ（ｚ）は、単に、２つの全極ポストフィ
ルタの周波数応答相互間の差である。

αとβの典型的な値は、それぞれ、0.8と0.5である。
第５図より、α＝0.8に対する応答は、フォルマントピ
ークとスペクトル傾斜の双方を有し、一方α＝0.5の応
答は、スペクトル傾斜のみを有することが示される。す
なわち、等式２で、α＝0.8およびβ＝0.5の場合、β＝
0.5の応答を、α＝0.8の応答から引くことによって、ス
ペクトル傾斜を少なくとも部分的に取り除くことができ
る。結果として生じる周波数応答Ｈ（ｚ）は、第６図の
上のプロットで示される。

非公式の聞き取り試験において、消音効果は、分子項
［１−（z/β）］が、伝達関数Ｈ（ｚ）に含まれた後
に、かなり減じられたことが見い出された。しかしなが
ら、フィルタ化されたスピーチは、スペクトル傾斜を補
償する項［１−（z/β）］を伴っても、わずかに依然
として消音化されたままである。さらに消音化効果を減
じるために、伝達関数［１−μz^-1］（ここにおいてμ
は典型的に0.5）を有する、第１のオーダのフィルタ32b
が加えられた。このようなフィルタは、わずかにハイパ
スされたスペクトル傾斜を提供し、そのため消音化を減
じるのに役立つ。この第１のオーダのフィルタは、Ｈ
（ｚ）とともにカスケードされて用いられ、μ＝0.5と
ともに組合わされた周波数応答は、第６図の下方のプロ
ットで示される。

基本的に説明された、短期遅延ポストフィルタ32は、
スピーチフォルマントを増幅し、インタフォルマント谷
間を減衰する。理想のポストフィルタ周波数応答を得る
ために、ピッチ調波を増幅し、調波相互間の谷間を減衰
しなければならない。このような周波数応答の特性は、
ピッチ予測子の情報を用いて、長期遅延ポストフィルタ
で達成され得る。

VAPCにおいて、我々は３タップピッチ予測子を用い
る。このようなピッチ予測子に対応するピッチ合成フィ
ルタは、安定であることが保証されない。このような合
成フィルタの極は、ユニットサークルの外側にあるかも
しれないので、極を原点に移動することは、安定したLP
C合成フィルタの場合と同じような効果を得ることがで
きないかもしれない。たとえ、３タップピッチ合成フィ
ルタが安定化されなくても、その周波数応答は不所望の
スペクトル傾斜を有しているかもしれない。すなわち、
ピッチ合成フィルタの３タップ重みをスケールダウンす
ることによって、長期遅延ポストフィルタを得ること
は、適切ではない。

極および零双方を伴って、長期遅延ポストフィルタが
次のように選択され得る。

ここにおいて、ｐはピッチ分析によって決定され、C₉は
適合性スケール因数である。

単一の、または３タップピッチ予測子によって提供さ
れる情報が、値b₂またはb₁＋b₂＋b₃の和であると理解
し、γおよびλの因数は、以下の公式によって決定され
る。

γ＝Cz f（ｘ），λ＝Cp f（ｘ）,0＜Cz,Cp＜１（４）ここにおいて、ここにおいて、Uthは経験的に定められたしきい値（典
型的に0.6）であり、ｘは、１タップ、または３タップ
ピッチ予測子が用いられるかどうかによって、b₂または
b₁＋b₂＋b₃のどちらかとなり得る。量子化された３タッ
プピッチ予測子が好ましいので、それゆえに、既にVAPC
受信器において入手可能となっているので、ｘはVAPCポ
ストフィルタ化において次のように選ばれる。

他方、もし、ポストフィルタが騒がしいスピーチ入力
スピーチを高めるためにどこか他で用いられたら、別の
ピッチ分析が必要であり、ｘは単一の値b₂として選ばれ
るかもしれない。なぜなら、１タップピッチ予測子で十
分だからである。（単一で使われたときの値b₂は、単一
タップ予測子からの値を示し、それは実際は、b₁とb₃が
０に設定されたときの、３タップ予測子と同じであろ
う。）ゴールは、｛ｙ（ｎ）｝のパワーを、｛ｓ（ｎ）｝の
それと同じくらいにすることである。適切なスケール因
数は次のようにして選ばれる。

第１のオーダのフィルタ32bも、Ｈ（ｚ）のスペクト
ル傾斜においてより好く変化をたどるために適合させら
れ得る。しかしながら、たとえμ＝0.5の固定フィルタ
さえも十分満足できる結果を与えることが見い出され
た。μの固定値は、経験的に決められてよいであろう。

時折の大きな利得の逸脱を避けるために、自動利得制
御（AGC）が、適合性ポストフィルタの出力に加えられ
た。AGCの目的は、高められたスピーチを、フィルタ化
されない騒がしいスピーチと同じパワーを大体持つよう
にするようにスケールすることである。それには、スピ
ーチ入力ｓ（ｎ）で動作する利得（量）推定子33、ポス
トフィルタ化された出力ｒ（ｎ）で動作する利得（量）
推定子34および回路35を、スケール因数を２つの利得の
割合として計算するために含む。ポストフィルタ化され
た出力ｒ（ｎ）は、それからマルチプライヤ36でこの割
合によって乗算される。AGCは、そこでフィルタ化され
ないおよびフィルタ化されたスピーチのパワーを別々に
評価し、それから、２つの値の割合をスケール因数とし
て用いることによって達成される。フィルタ化されな
い、またはフィルタ化されたスピーチのサンプルのいず
れかのシーケンスを｛ｓ（ｎ）｝とすると、スピーチパ
ワーσ^２（ｎ）が以下の式を用いることによって評価さ
れる。

σ^２（ｎ）＝ζσ^２（ｎ−１）＋（１−ζ）s²（ｎ）,0＜ζ＜１（７） ζの適切な値は0.99である。

この部分で説明されたポストフィルタの複雑さは、VA
PCシステムの残り、または使われるかもしれない他のコ
ード化システムの全体の複雑さの小さな端数にすぎな
い。シミュレーションにおいて、このポストフィルタ
が、スピーチのほぼ無視できる歪を伴って、かなりの騒
音削減を達成する。可能性ある歪の影響をテストするた
めに、適合性ポストフィルタ化動作が、クリーンでコー
ド化されないスピーチに適用され、フィルタ化されない
元のと、そのフィルタ化されたものの音は本質的に同じ
で、このポストフィルタによって導入される歪は無視で
きることを示すことが見い出された。

この新規なポストフィルタ化技術は、本願発明ととも
に用いられるために開発されたが、その応用はそれとと
もに用いるのに限定されないことが注目されるべきであ
る。事実、この技術は、あらゆる騒がしいデジタルスピ
ーチ信号の品質を高めるためだけでなく、パラメータを
決定するための、バッファと分析部分を提供される際
の、他のスピーチコーダの復号化されたスピーチを高め
るためにも用いられ得る。

開示されたことは、商業的に入手可能なAT＆T DSP32
デジタル処理チップを用いて、ソフトウェアとともに実
現されるであろうスピーチまたはオーディオのための実
時間ベクトル適合性予測コーダ（VAPC）である。チップ
の最も新しいものにおいて、このチップは１秒あたり60
0万の命令の処理能力を有している（MIPS）。実時間ス
ピーチコード化の実現を容易にするために、4800bpsのV
APCの単純化されたものが入手可能である。この単純化
されたものは、ずっと低い複雑さを有するが、全く複雑
なものと同じスピーチ品質をほぼ有している。

実時間実現において、平均二乗誤差（MSE）歪を計算
する従来の差分二乗方策よりずっと効果的な、内積方策
は、ノルム（最小歪）を計算するために用いられる。テ
ストベクトルｖとＭ個のZSRコードブックベクトル、
z_j、ｊ＝1,2,…,M、ｊ番目のMSE歪は、以下のように計
算され得る。

各フレームの最初において、1/2 ‖Z_j‖^２を計算し記憶
することが可能である。DSP32プロセッサで、用いられ
る次元とコードブック寸法に対して、コードブック探索
の差分二乗方策は、実現するために約2.5MIPSを要求
し、一方内積方策は、約1.5MIPSを要求するのみであ
る。

VAPCの複雑さは、１秒あたり約300万の乗算−加算
と、データメモリの6kのワードのみである。しかしなが
ら、実現の総費用のため、単一のDSP32チップは、コー
ダを実現するには十分でなかった。それゆえ、２つのDS
P32チップが、VAPCを実現するために用いられた。250ns
というよりはむしろ、160nsの命令サイクル時間を有す
る、より速いDSP32チップが現在は入手可能で、１つのD
SP32チップのみを用いて、VAPCが実現され得ることが期
待される。

【図面の簡単な説明】第1a図は、この発明を実現化する、ベクトル適合性予測
コード化（VAPC）プロセッサのブロック図であり、第1b
図は、第1a図のシステムによって伝達されるコード化さ
れたスピーチのための受信器のブロック図である。第２図は、第1a図のシステムの零状態応答コードブック
に対するベクトルの適合計算を図示する概略図である。第３図は、第1a図のシステムの分析プロセッサのブロッ
ク図である。第４図は、第1b図の適合性ポストフィルタのブロック図
である。第５図は、LPCスペクトルと、αの異なった値の全極ポ
ストフィルタの対応周波数応答を図示する。隣接するプロット間のオ
フセットは、20dBである。第６図は、第５図で示されるLPCスペクトルに対応す
る、ポストフィルタ［１−μz^-1］［１−（z/β）］
／［１−（z/α）］の周波数応答を図示する。両方の
プロットにおいて、α＝0.8とβ＝0.5である。２つのプ
ロット間のオフセットは、20dBである。図において、10は変換器、11は分析プロセッサ、12はマ
ルチプレクサ、13は永久コードブック、14は零状態応答
コードブック、15は分析フィルタ、16はピッチ合成フィ
ルタ、17はスケールユニット、18は知覚重みづけフィル
タ、19は零入力応答フィルタ、21はディマルチプレク
サ、22はデコーダ、23はVQコードブック、24はLPC合成
フィルタ、25はピッチ合成フィルタ、26はスケールユニ
ットである。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特公昭59−12186（ＪＰ，Ｂ２) 特表昭55−500402（ＪＰ，Ａ) 特表昭62−500138（ＪＰ，Ａ)

Claims

(57)【特許請求の範囲】

【請求項１】デジタル的に処理されたスピーチまたはオ
ーディオ信号を受信側で、短期遅延フィルタ処理するこ
とにより改善するための適応的フィルタ処理方法であっ
て、前記短期遅延フィルタ処理は、予め定められた線形
予測係数パラメータに従って行なわれるものであり、前
記短期遅延フィルタ処理は、同じ関数形を有する２つの
全極伝達関数の比からなりかつ零点と前記零点に対応す
る極を有する極−零伝達関数を用いることを特徴としか
つ前記零点および前記極各々が複素平面上で半径および
位相により表わされ、かつ前記零点が前記極よりも小さ
な半径を有することを特徴とする、適応的フィルタ処理
方法。
【請求項２】前記短期遅延フィルタ処理は、長期遅延フ
ィルタ処理に縦続して行なわれ、前記長期遅延フィルタ
処理は予め定められたピッチおよびピッチ予測子パラメ
ータに従って行なわれることを特徴とする、特許請求の
範囲第１項記載の適応的フィルタ処理方法。
【請求項３】前記短期遅延フィルタ処理に縦続接続され
る一次フィルタ処理をさらに含み、前記一次フィルタ処
理は、μ＜１として、伝達関数１−μ・z^-iを用いるこ
とを特徴とする、特許請求の範囲第１項または第２項記
載の適応的フィルタ処理方法。
【請求項４】前記パラメータは処理前のデジタルスピー
チまたはオーディオ信号の解析により送信側で予め定め
られかつ前記パラメータは前記受信側へ前記デジタル的
に処理されたスピーチまたはオーディオ信号と共に送信
されることを特徴とする、特許請求の範囲第１項または
第２項記載の適応的フィルタ処理方法。
【請求項５】前記パラメータは、前記受信側で、受信し
たデジタル的に処理されたスピーチまたはオーディオ信
号の解析を行なうことにより予め定められることを特徴
とする、特許請求の範囲第１項または第２項記載の適応
的フィルタ処理方法。
【請求項６】前記線形予測係数パラメータは処理前のデ
ジタルスピーチまたはオーディオ信号の解析により送信
側で予め定められ、かつ前記線形予測係数パラメータは
前記受信側へ送信されかつ前記ピッチおよびピッチ予測
子パラメータは前記デジタル的に処理されたスピーチま
たはオーディオ信号を受信側で受信してその受けたデジ
タル的に処理されたスピーチまたはオーディオ信号の解
析を行なうことにより受信器側で予め定められることを
特徴とする、特許請求の範囲第２項記載の適応的フィル
タ処理方法。
【請求項７】フィルタ処理後に前記デジタル的に処理さ
れた信号の自動利得制御を、フィルタ処理されたスピー
チまたはオーディオ信号の大きさに比例する値σ２
（ｎ）と前記フィルタ処理前のスピーチまたはオーディ
オ信号の大きさに比例する値σ１（ｎ）を計算すること
により行ない、かつフィルタ処理されたスピーチまたは
オーディオ信号の利得を前記σ１（ｎ）対σ２（ｎ）の
比により調整することを特徴とする、特許請求の範囲第
１項ないし第６項のいずれかに記載の適応的フィルタ処
理方法。
【請求項８】前記ポストフィルタ処理は、前記長期遅延
ポストフィルタのための伝達関数として、 Cg（１＋γ・z^-p）／（１−λ・z^-p）の形の伝達関数を
用いて行なわれ、ここでCgは適応的スケーリング因子で
ありまた因子γおよびλは次式に従って決定され、 γ＝Cz・ｆ（ｘ）、λ＝Cp・ｆ（ｘ）、０＜Cz、Cp＜１但し、ｆ（ｘ）は次式で表わされ、ｘ＞１のとき;1 Uth≦ｘ≦１のとき;x ｘ＜Uthのとき;0 であり、但しUthはしきい値を示し、またｘは１タップ
または３タップピッチ予測子が用いられるかどうかに従
ってb2またはb1＋b2＋b3であることを特徴とする、特許
請求の範囲第２項記載の適応的フィルタ処理方法。
【請求項９】前記零点の位相と前記対応の極の位相は同
じである、特許請求の範囲第１項記載の適応的フィルタ
処理方法。