JPH05197400A

JPH05197400A - 低ビット・レート・ボコーダ手段および方法

Info

Publication number: JPH05197400A
Application number: JP4208591A
Authority: JP
Inventors: Bruce A Fette; ブルース・アラン・フェッテ; Cynthia A Jaskie; シンシア・アン・ジャスキー
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 1991-07-19
Filing date: 1992-07-14
Publication date: 1993-08-06
Also published as: EP0523979A3; EP0523979A2; US5255339A

Abstract

(57)【要約】【目的】４つのフレームからなるスーパーフレーム
（ＳＦ）を用いる低レート（例えば、６００ｂｐｓ）チ
ャンネル１８で音声情報１２を効率的に符号化する方法
および手段を提供する。【構成】この方法は、（１）異なる量子化器（そのう
ち一つが各スーパーフレームに選ばれる）を用いてスペ
クトル情報を符号化し、３ビット／ＳＦが最適量子化器
を識別し、２８〜３２ビット／ＳＦが量子化されたスペ
クトル情報を含む段階；（２）有声の場合に５ビット／
ＳＦを用いてピッチを符号化し、無声の場合にピッチ・
ビットを誤り訂正に割り当てる段階；（３）４ｄベクト
ル量子化器（４ｄＶＱ）により９〜１２ビット／ＳＦを
用いてエネルギを符号化する段階；（４）４ｄＶＱによ
り３〜４ビット／ＳＦを用いて発声を符号化する段階を
含み、１同期ビットおよび０〜１誤り訂正ビットを含ん
で全部で５４ビット／ＳＦとなる。独自の知覚的重み付
け方式と組み合わせると、チャンネル容量のほぼ４倍で
動作するボコーダの品質に匹敵する出力音声品質が得ら
れる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声符号化のための改
善された手段および方法に関し、さらに詳しくは、低ビ
ット・レートで音声を符号化することに関する。

【０００２】

【従来の技術および発明が解決しようとする課題】現代
の通信システムは、限定された帯域幅の環境において音
声情報を伝送するため符号化を多用している。入力音声
そのものを送らずに、音声は分析されて、その重要なパ
ラメータ（例えば、ピッチ，スペクトル，エネルギおよ
び発声(voicing) ）を判定し、これらのパラメータが伝
送される。受信機はこれらのパラメータを用いて、入力
音声の意味の通じる複製(replica) を合成する。この手
順では、中間チャンネル帯域幅が音声自体を伝送するた
めに必要とされるよりも小さくても、理解可能な音声が
伝送できる。このような機能を実行する装置を説明する
ために当技術分野において「ボコーダ(vocoder) 」とい
う造語が生まれている。

【０００３】図１は、ボコーダ通信システム１０を示
す。入力音声１２は音声分析器１４に与えられ、ここで
重要な音声パラメータが抽出され、符号器１６に送ら
れ、これらのパラメータは量子化され、電話または無線
リンクのような通信チャンネル１８に伝送するのに適し
た形式で合成される。通信チャンネル１８を通過する
と、符号化音声パラメータは復号器２０に現われ、ここ
でパラメータは分離され、音声合成器２２に送られ、こ
の音声合成器２２は量子化された音声パラメータを利用
して入力音声の複製を合成し、聴取者に伝達する。

【０００４】当技術分野で用いられる「ピッチ」とは一
般に声帯または声門の低音(buzzing) の期間または周波
数を表し、「スペクトル」とは一般に声管の周波数に依
存する特性を表し、「エネルギ」とは一般に音声波形の
大きさまたは強度またはエネルギを表し、「発声(voici
ng) 」とは声帯がアクティブかどうかを表し、「量子
化」とは有限数のディスクリート・レベルの一つを選ん
でこれらの一般に連続した音声パラメータを特徴付ける
ことを表す。特定音声パラメータの異なる量子化レベル
の数は、この音声パラメータを符号化するために割り当
てられるビット数によって設定される。以上の用語は当
技術分野において周知であり、ボコーディングに関連し
て一般に用いられる。

【０００５】ボコーダは、２００，４００，６００，８
００，９００，１２００，２４００，４８００，９６０
０ビット／秒またはその他のレートで動作して、とりわ
けビット・レートに応じてさまざまな結果が得られる。
伝送チャンネル帯域幅が狭くなるほど、許容ビット・レ
ートは小さくなる。許容ビット・レートが小さくなるほ
ど、明確で理解しやすい合成音声を与える符号化方式を
見つけるのは困難になる。さらに、実際的な通信システ
ムは、符号化方式の複雑さを考慮にいれなければならな
い。なぜならば、複雑すぎる符号化方式は実質的にリア
ルタイムで実行できず、あるいは妥当な寸法，速度，複
雑度およびコストのコンピュータ・プロセッサを用いて
実行することができないためである。ボコーダはハンド
ヘルド型および携帯型装置で多用されるので、プロセッ
サの消費電力も重要な検討事項である。

【０００６】従来のボコーダは広く利用されているが、
当技術分野で周知の限界が、特に低ビット・レートが望
ましい場合に生じている。そのため、改善されたボコー
ダ方法および装置、特に、低ビット・レートまたは中程
度のビット・レートで極めて理解しやすい音声を与える
ことのできるボコーダが必要とされている。

【０００７】本明細書で用いられる「符号化」とは総じ
て符号化および復号の両方、すなわち入力音声を記述す
る一連の量子化されたパラメータの生成と、この一連の
量子化パラメータをその後利用して、入力音声の複製を
合成することの両方を表す。また、本明細書で用いられ
る「知覚的な(perceptural) 」および「知覚的に(perce
ptually)」という単語は、音声がどのように知覚される
か、すなわち、人間の聴取者によって認識されるかを表
す。従って、「知覚的に重み付けする(perceptually we
ighting)」および「知覚的に重み付けされた(perceptua
lly weighted) 」とは、例えば、ある入力音声の分析か
ら得られた特性パラメータ（例えば、ピッチ，スペクト
ル，エネルギ，発生）を意図的に修正して、このような
（修正された）パラメータを利用して復元された合成音
声の理解しやすさ(intelligilility) を向上することを
表す。合成音声の理解しやすさを改善するのに効果的な
知覚的重み付け方式を開発することは、当技術分野で長
期的な研究課題である。

【課題を解決するための手段】本発明は、音声を符号化
する改善された手段および方法を提供し、低および中ビ
ット・レートで伝送するために音声を符号化するのに特
に有用である。

【０００８】最も一般的には、本発明の方法および装置
は、（１）所定の複数の異なる量子化を用いて入力音声
の選択された一部のスペクトル情報を量子化し、（２）
入力音声スペクトルに比較して、複数の異なる量子化の
それぞれについて知覚的に重み付けされた誤差を算出
し、（３）入力音声のこの部分で最小誤差を与える特定
の量子化を識別し、（４）最小誤差の異なる量子化方法
の識別と、この方法によって与えられた入力音声スペク
トル情報とを用いて、入力音声の選択された部分を符号
化する。この処理は、入力音声の連続する選択部分につ
いて反復される。知覚的重み付けは上記の処理と共に利
用され、復元された音声の理解しやすさをさらに改善す
ることが望ましい。

【０００９】入力音声はＬ個の音声サンプルを有するフ
レームに分割されることが望ましく、これらフレームは
Ｎフレームを有するスーパーフレームに結合される。た
だし、Ｎ≧２で、一般にＮ＝４である。最も好ましい量
子化を求めるために用いられる誤差は、スーパーフレー
ムにおいて加算されることが望ましい。隣接スーパーフ
レーム（例えば、一つ前、または一つ後のスーパーフレ
ーム）が補間によって影響を受ける場合、誤差は影響を
受けるフレームにおいても加算されることが望ましい。

【００１０】第１実施例では、スペクトル情報の異なる
量子化は、一度に２回選択されたスーパーフレーム内の
個々のフレームの組み合わせの量子化を含み、選択され
なかった残りのフレームは補間される。これは、ｍ＝１
〜Ｎで少なくともＳ＝ＳＵＭ（Ｎ−ｍ）個の選ぶべき異
なる量子化スペクトル情報値を与える。

【００１１】好適な実施例では、１つから２つの別の異
なる量子化スペクトル情報値も与えられ、第１の値は各
フレームを個別にベクトル量子化することによって与え
られることが好ましく、第２の値はスーパーフレーム内
の一つの所定の時間においてスカラー量子化を行ない、
前後のフレームに比較してスーパーフレームの他のフレ
ームについて補間することとによって与えられることが
好ましい。これは、スーパーフレームに対して全部でＳ
＋２個の別の量子化スペクトル情報値を与える。

【００１２】ＳまたはＳ＋１またはＳ＋２の異なるスペ
クトル量子化方法のそれぞれの量子化スペクトル・パラ
メータは、知覚的重み付けを利用して実際のスペクトル
・パラメータと比較され、どの異なるスペクトル量子化
方法がスーパーフレームにおいて加算された最小誤差を
与えるかを判定する。最良のスペクトル量子化方法およ
びこの方法から得られる量子化スペクトル値の識別は、
限られた数のビットを用いて符号化され、伝送される。

【００１３】従来、ピッチは発声の有無を考慮に入れて
各スーパーフレーム毎に一回量子化される。発声は、音
声合成中にピッチ補間目標として用いるのに最も適した
フレームを決定する。従来、エネルギおよび発声は２〜
８フレーム毎、一般的には各スーパーフレーム毎に一回
量子化される（ただし、Ｎ＝４）。

【００１４】スーパーフレーム毎に各量子化音声パラメ
ータに割り当てられるビットの数は、チャンネル容量と
音声の明確度との間で最良の妥協となるように選択され
る。また、同期ビットも一般に含まれる。一般に、スー
パーフレーム単位では、望ましいビット割当は、最適ス
ペクトル量子化方法を識別するための有効スーパーフレ
ーム・ビットＢ_sfが５〜６％，量子化スペクトル情報が
５０〜６０％，発声用が５〜８％，エネルギ用が１５〜
２５％，ピッチ用が９〜１０％，同期用が１〜２％およ
び誤り訂正用が０〜２％である例えば、標準的な２２．
５ミリ秒のフレーム期間を有する６００ｂｐｓボコーダ
の場合、１３．５ビットのみをフレーム毎に、すなわち
スーパーフレーム毎に５４ビットを送ることができる
（ただし、Ｎ＝４）。５４ビット／スーパーフレームは
次のように割り当てるのが望ましい。すなわち、Ｓ＋２
＝８個の異なる量子化方法のうちどの方法が最小誤差と
なるかを識別するための３ビット，量子化スペクトル情
報用の２８〜３２ビット，異なる発声の組み合わせを識
別するための３〜４ビット，エネルギ用の９〜１２ビッ
ト，ピッチ用の５ビット，同期用の１ビットおよび誤り
訂正用の０〜１ビットである。この組み合わせは、６０
０ｂｐｓレートで極めて理解しやすい音声を与える。

【００１５】

【実施例】本明細書で変数と共に用いられる「スカラー
量子化」（ＳＱ）という用語は、一つの量子化パラメー
タによる一つの値の変数の量子化を表す。例えば、Ｅ_i
がｉ番目の音声フレームの実際のＲＭＳエネルギＥとす
ると、Ｅ_iは、例えば６ビット・コードによって、２⁶＝
６４個の異なる量子化レベルＥ_jに「スカラー量子化」
される。ただし、Ｅ_jは実際のエネルギ・レベルＥ_iに最
も近い量子化エネルギ・レベルである。ビット数が大き
くなるにつれて、量子化の分解能も大きくなる。量子化
は線形である必要はない、例えば、Ｅをｄｂ単位で表す
ことにより、等しい量子化間隔は等しいエネルギの大き
さではなく、等しいエネルギ比率に相当する。すなわ
ち、異なるＥ_jは均等な間隔である必要はない。スカラ
ー量子化を行う手段および方法は、ボコーダ技術におい
て周知である。本明細書で用いられる「ベクトル量子
化」（ＶＱ）という用語は、一つの量子化された値によ
って複数の相関した変数を同時に量子化することを表
す。例えば、連続したフレームのエネルギ値が独立した
変数として扱われる場合、これらの値は高度に相関され
ている、すなわち、連続したフレームのエネルギ値が異
なるよりも類似している可能性の方がはるかに高いこと
が判明している。相関統計が、例えば大きな音声サンプ
ルにおいてその実際の発生率を調べることにより判明す
ると、一つの量子化された値は変数の各相関組合せに割
り当てることができる。大きな音声サンプルを調べるこ
とにより音声変数の特定の値が発生する可能性を判定す
ることは、当技術分野で周知の手順である。利用可能な
ビットが多いほど、量子化ベクトルによって記述できる
組み合わせの数も多くなる、すなわち、分解能は大きく
なる。

【００１６】複数の変数が一つの量子化ベクトル値によ
って表されるので、ベクトル量子化はより効率的な符号
化である。ベクトル量子化（ＶＱ）の「次元」の数は、
ベクトルによって表される変数またはパラメータの数を
示す。例えば、２ｄＶＱは２つの変数のベクトル量子化
を示し、４ｄＶＱは４つの変数のベクトル量子化を示
す。ベクトル量子化を行う手段および方法は、ボコーダ
技術において周知である。

【００１７】本明細書で用いられる「フレーム」という
用語は、単数または複数であっても、スペクトル情報が
ほとんど変わらないある期間のデジタル化された音声の
特定のサンプルを表す。音声のスペクトル情報は、唇，
下，歯などが動くにつれて変化する声管の音響特性によ
って設定される。従って、スペクトル情報は、これらの
身体の部分が通常の音声で動くレートにおいてのみ実質
的に変化する。スペクトル情報は、約１０〜３０ミリ秒
以下の期間ではほとんど変化しないことが知られてい
る。従って、フレーム期間はこの範囲になるように選択
されるのが一般的であり、約２０〜２５ミリ秒の範囲に
あるのがさらに一般的である。本発明に関して実施され
た実験で用いられたフレーム期間は２２．５ミリ秒であ
ったが、本発明はこれよりも長いまたは短いフレームに
おいても作用する。約１０〜１５ミリ秒より短いフレー
ムを用いることは役に立たない。フレームが短くなるに
つれて、より多くのフレームを分析しなければならず、
単位時間に伝送するフレーム・データも多くなる。しか
し、フレーム毎にはほとんど変化がないので、これは理
解しやすさをそれほど改善しない。逆の極端な例におい
て、約３０〜４０ミリ秒よりも長いフレームでは、一般
に合成音声の品質は劣化する。なぜならば、フレームが
十分長いと、フレーム内で大幅な変化が生じることがあ
るためである。従って、２０〜２５ミリ秒のフレーム期
間が実際的な妥協点であり、広く利用されている。

【００１８】本明細書で用いられる「スーパーフレー
ム」という用語は、単数または複数であっても、一連の
Ｎ個のフレーム（ただし、Ｎ≧２）を表し、これらのフ
レームは入力音声を特徴付けるために必要なパラメータ
を得る際の単位として部分的に処理あるいは考慮され
る。Ｎが小さい場合、良好な合成音声品質が得られるこ
ともあるが、ビット・レートが高くなるという欠点があ
る。Ｎが大きくなるにつれて、ビット・レートも低くす
ることができるが、スーパーフレーム中に大きな変化が
生じるので、与えられたビット・レートに対して音声品
質は結局劣化する。本発明は、異なる音声パラメータを
符号化し、スーパーフレームの大きさに対して分解能
（ビット数）をそれぞれに割り当てる方法を慎重に選択
することによって、低ビット・レートでも改善された音
声品質を与える。符号化する前にさまざまなパラメータ
に割り当てられる知覚的重み付けも重要である。

【００１９】説明の便宜上、また制限することを意図す
るものではないが、本発明は６００ｂｐｓチャンネル容
量と２２．５ミリ秒のフレーム期間の場合について説明
する。従って、フレーム当たり利用可能なビット総数
（６００ビット／秒ｘ２２．５ｘ１０^-3秒／フレーム＝
１３．５ビット／フレーム）がこの仮定から生じる。利
用可能なビット数は、さまざまな音声パラメータを記述
するためにビットを割り当てる際に考慮に入れられる。
この例示的な手段および方法を修正して他のビット・レ
ートにも対応できることは、本明細書における説明に基
づいて当業者に理解される。

【００２０】図２は、ボコーダ３０の簡略ブロック図を
示す。ボコーダ３０は、基本音声パラメータを判定する
分析器として、かつ、この音声パラメータに基づいて入
力音声の複製を復元する合成器として機能する。

【００２１】分析器（すなわち、符号器）として機能す
る場合、ボコーダ３０は入力３２において音声を受信
し、この音声は利得調整ブロック３４（例えば、ＡＧ
Ｃ）およびアナログ／デジタル（Ａ／Ｄ）変換器３６を
通る。Ａ／Ｄ３６は、デジタル化入力音声をマイクロプ
ロセッサまたはコントローラ３８に与える。マイクロプ
ロセッサ３８は、バス４０を介してＲＯＭ４２（例え
ば、ＥＰＲＯＭまたはＥＥＰＲＯＭ），可変メモリ（例
えばＳＲＡＭ）４４およびアドレス・デコーダ４６と通
信する。これらの素子は協調して、ＲＯＭ４２に保存さ
れた命令を実行し、着信デジタル化音声をフレームに分
割し、これらのフレームを分析して、音声の各フレーム
に関連する有意音声パラメータ、例えば、ピッチ，スペ
クトル，エネルギおよび発声などを判定する。これらの
パラメータは出力４８に送られ、その後、チャンネル符
号器（図１参照）に進み、最終的に受信機に伝送され
る。

【００２２】合成器（すなわち、復号器）として機能す
る場合、ボコーダ３０は入力５０を介してチャンネル・
デコーダから音声パラメータを受信する。これらの音声
パラメータは、ＳＲＡＭ４４およびデコーダ４６ならび
にＲＯＭ４２に保存されたプログラムと共に、マイクロ
プロセッサによって用いられ、デジタル化合成音声をＤ
／Ａ変換器５２に与え、このＤ／Ａ変換器５２はデジタ
ル化合成音声をアナログ形式に戻して、合成アナログ音
声を最適利得調整ブロック５４を介して出力５６に与
え、ラウド・スピーカまたはヘッドフォン（図示せず）
に伝達する。

【００２３】図２に示すようなボコーダは実在する。一
例として、モトローラ社製GeneralPurpose Voice Codin
g Module (GP-VCM), Part No. 01-P36780D001がある。
このモトローラ社製ボコーダは、例えば２４００ｂｐｓ
のＬＰＣ１０(Fed. Std. 1015)，４８００ｂｐｓのＣＥ
ＬＰ(Proposed Fed. Std 1016)，９６００ｂｐｓのＭＲ
ＥＬＰおよび１６００ｂｐｓのＣＶＳＤなど、周知のボ
コーダ・プロトコルを実行することができる。９６００
ｂｐｓのＭＲＥＬＰプロトコルは、モトローラ社のSTU-
IIIUUUtmUUU-SECTEL 1500UUUtmUUU secure telephones
に採用されている。ＲＯＭ４２を再プログラムすること
により、図２のボコーダは本発明に必要な機能、すなわ
ち、適切に量子化された音声パラメータ値を出力４８に
伝達することができ、そしてこのような量子化音声パラ
メータ値を入力５０で受け取ると、これを音声に戻すこ
とができる。

【００２４】本発明では、ピッチ，スペクトル，エネル
ギおよび発声情報は、目的の音声フレームで利用できる
と仮定する。本発明は、この情報を量子化して、それに
基づいて高品位な音声を合成する特に効率的かつ効果的
な手段および方法を提供する。

【００２５】被伝送音声の理解しやすさに影響を与える
重要な要因は、フレームごとに利用可能なビット数であ
る。これは、フレーム期間と有効チャンネル容量の組み
合わせ、すなわち、ビット／フレーム＝（チャンネル容
量）ｘ（フレーム期間）によって決まる。例えば、２
２．５ミリ秒の音声フレームに対応する６００ｂｐｓチ
ャンネルは、すべての音声パラメータ情報を符号化する
ためには１３．５ビット／フレームとなり、これは非常
に低く、フレーム単位で十分なパラメータ分解能は不可
能になる。従って、低ビット・レートでは、スーパーフ
レームを利用することが望ましい。

【００２６】フレームがＮ個の連続するフレームからな
るスーパーフレームにまとめられると、スーパーフレー
ム当たりのビット数Ｂ_sfはＮｘフレーム当たりの有効ビ
ット数Ｂ_fとなり、Ｎ＝４の上記の例では、音声パラメ
ータ情報を符号化するためにＢ_sf＝ＮｘＢ_f＝４ｘ１
３．５＝５４ビット／スーパーフレームとなる。しか
し、この手順は必然的に誤差を導入する。そのため、固
有誤差が最小限に押さえられるように音声パラメータを
量子化し、符号化する方法を見つけなければ、スーパー
フレーム量子化は成功しない。

【００２７】スーパーフレームを利用することは、従来
技術において説明されている。例えば、Kang et al., "
High Quality 800-bps Voice Processing Algorithm,"
NRLReport 9301, 1990 を参照されたい。２つまたは３
つの２０ミリ秒のフレームからなるスーパーフレームが
８００ｂｐｓボコーダで使用されており、すべての音声
パラメータ情報を符号化するため、スーパーフレーム当
たり３２〜４８ビットが有効となる。スペクトル量子化
は、実際の音声内の異なるスペクトル成分に適応しない
という点で固定されている。例えば、Ｎ＝２の場合、ス
ーパーフレームにおける平均ＬＳＦが量子化され、Ｎ＝
３の場合、知覚的重み付けと共に１８ビットを用いて低
周波数成分とフォーマット周波数の存在とを強調するこ
とにより、中心フレームＬＳＦが量子化される。レート
／歪み境界(Rate-Distortion Boundary)曲線上のスペク
トル情報の相対位置については考慮されていない。

【００２８】Ｎ≧２で十分な音声品質が得られるが、２
〜６の範囲のＮが便宜的であり、Ｎ＝４が好適な値であ
ることが判明している。許容ビット・レートが大きくな
るにつれて、匹敵する出力音声品質を得るため利用でき
るＮの値は小さくなる。例えば、高ビット・レート・チ
ャンネル（例えば、＞４８００ｂｐｓ）では、スーパー
フレームを採用することは余り有利ではないが、低ない
し中ビット・レート（例えば、≦４８００ｂｐｓ）で
は、スーパーフレームを採用することは、特に２４００
ｂｐｓ以下のビット・レートの場合には有利である。一
般に、（１）スーパーフレームは、良好な理解しやすさ
を得るために音声パラメータを適切に符号化するのに十
分なビットを与えなければならず、かつ、（２）スーパ
ーフレームは長い期間の音素(phoneme) よりも短くなく
てはならない。

【００２９】説明の便宜上、また限定することを意図す
るものではないが、本発明の手段および方法についてＮ
＝４で説明するが、より小さいまたはより大きいＮの値
も利用でき、すべての音声パラメータ（スペクトル，ピ
ッチ，エネルギおよび発声）について同じＮの値を用い
る必要はない、すなわち、スーパーフレームの大きさは
変えることができることが、以下の説明に基づいて当業
者に理解される。

【００３０】解決すべき課題は、フレームまたはスーパ
ーフレームごとの限られたビット数内で音声パラメータ
情報を符号化し効率的かつ効果的な方法を見つけて、高
品位な音声が限られた容量のチャンネルで伝送できるよ
うにすることである。本発明はそのための特に効果的か
つ効率的な手段および方法を提供し、主要音声パラメー
タ、すなわち、スペクトル，ピッチ，エネルギおよび発
声のそれぞれについて個別に説明する。

【００３１】スペクトル符号化当技術分野では、声管をモデル化するＬＰＣフィルタの
反射係数（ＲＣ）でスペクトル情報を説明するのが一般
的である。しかし、音声のスペクトル特性を特徴付ける
ためライン・スペクトル周波数（ＬＳＦ）（ライン・ス
ペクトル対（ＬＳＰ）ともいう）を用いるほうがより便
宜的である。入力音声からＲＣおよび／またはＬＳＦを
取り出す、すなわちある一つの方式（例えば、ＲＣ）を
もう一方の方式（例えば、ＬＳＦ）に変換またはその反
対を行なう手段および方法は、当技術分野において周知
である（Kang, et al., NRL Report 8857, January 198
5参照）。

【００３２】例えば、標準形態のMotorola General Pur
pose Voice Coding Module (GP-VCM) は、分析される音
声の各２２．５ミリ秒のフレームについてＲＣを生成す
る。入力音声のスペクトル情報のこのＲＣ方式をＬＳＦ
方式に変換し、またその逆を行なう方法については当業
者に理解される。１０次ＬＳＦは、音声の各フレームに
ついて考慮される。

【００３３】スペクトル情報に関して、低いスペクトル
精度で良好な時間分解能を与えることが知覚的により重
要な場合もあるが、低時間分解能で高スペクトル分解能
を与えることが知覚的に重要な場合もあることが判明し
ている。この概念は、６００ｂｐｓチャンネルおよび２
４００ｂｐｓチャンネルについて図３に示すようなレー
ト／歪み境界曲線によって表すことができる。図３は、
スペクトル情報の一定信号レートにおいて、異なる種類
の音声に対して実質的に一定の理解しやすさを維持する
ために必要なスペクトル（周波数）および時系列（時
間）精度の組み合わせの軌跡のプロットである。図３に
示す６００ｂｐｓおよび２４００ｂｐｓ信号レートは全
チャンネル容量を表し、全チャンネル容量の一部しか使
用できないスペクトル情報を送出するために用いられる
単なる信号レートというわけではない。

【００３４】例えば、音声が長い母音（例えば、"loop"
と言う単語の"oo"）からなる場合、良好な理解しやすさ
を得るためには、共振周波数（すなわち、高スペクトル
精度）について正確に知ることがより重要であり、この
長い母音がいつ開始しおよび／また終了するか（すなわ
ち、時間的精度）について正確に知ることは余り重要で
はない。逆に、音声が子音列（例えば、"strike"と言う
単語の"str" ）からなる場合、良好な理解しやすさを得
るためには、その正確な共振周波数を伝えること（スペ
クトル精度）よりも、高速なスペクトル変化をできるだ
け正確に伝えること（高い時間的精度）が重要である。
これらの極端な場合の中間の音声については、時間的精
度とスペクトル精度との間の効率的な妥協が望ましい。

【００３５】異なるスペクトル量子化方法の所定の組み
合わせを利用し、その後、入力音声に比較して最小誤差
の合成音声をどの量子化方法が生成したかの識別をボコ
ーディングされた情報の一部として送出し、かつ、この
最適量子化方法を利用して得られた量子化スペクトル値
を送出することによって、スペクトル情報を符号化する
特に効果的な手段が得られることが判明している。これ
らの所定の量子化方法を選択するために用いる手法につ
いて以下で説明する。Ｂ_siは、量子化スペクトル情報を
伝達するためのスーパーフレームごとに割り当てられる
ビット数であり、Ｂ_scはどのスペクトル量子化方法が用
いられたかを識別するためのスーパーフレームごとのビ
ット数である。

【００３６】一例としての６００ｂｐｓ，２２．５ミリ
秒フレーム，Ｎ＝４の構成の場合の有効Ｂ_sf＝５４ビッ
ト／スーパーフレームでは、スーパーフレームごとの量
子化スペクトル情報を表すためＢ_si＝２８〜３２ビット
が割り当てられ、スーパーフレームごとの異なる量子化
方法を表すためＢ_sc＝３ビットが割り当てられる。３つ
の識別または分類(categorization)ビットにより、最大
８つの異なる量子化方法が識別できるようになる。分類
ビットＢ_scは、さまざまな異なるスペクトル量子化方式
のレート／歪み境界曲線上の位置を符号化する。

【００３７】高速な子音の遷移の場合、各フレームを粗
量子化してこれらの遷移を捕捉することが最良の方法で
あることが判明している。これは、スーパーフレームの
各フレームについてＬＳＦを知覚的重み付けベクトル量
子化することによって行なわれることが好ましい。７〜
８ビット／フレーム（Ｂ_si＝２８〜３２）が１０次ＬＳ
Ｆ値を符号化するために用いられているので、スペクト
ル分解能は低く、時間分解能（各フレームに一つ）は比
較的高い。この種の量子化は、子音列を正確に表すのに
十分適しており、ここで知覚的に最も重要な情報は音声
の開始および／またはスペクトル遷移である。これは、
図３のレート／歪み境界曲線の右側の部分に作用するこ
とに相当する。

【００３８】定常音声（例えば、長い母音）の期間中、
スペクトル・パラメータを表すために利用できる最大ビ
ット数でスーパーフレームにおける１点を微量子化する
ことは、最良の結果を与えることが判明している。便宜
上、スーパーフレームの中心点が選ばれるが、スーパー
フレーム内の任意の他の点も利用できる。Ｎ＝４および
Ｂ_sf＝５４ビット／スーパーフレームの場合、周波数ル
ックアヘッド(frequench look-ahead)を有するＢ_si＝２
８〜３２ビットのデルタ周波数スカラー量子化器がスペ
クトル情報用に便宜上用いられる。この量子化方法を用
いる場合、スーパーフレームの４つのすべてのフレーム
は補間される。これにより、高い（例えば、Ｂ_si＝２８
〜３２ビット）スペクトル分解能が得られるが、時間分
解能は低くなる（スーパーフレームごとに一回）。にも
かかわらず、この量子化方法は、スーパーフレームにお
ける連続的な長い母音によって実質的に構成される音声
を正確に表すのに十分適している。これは、図３のレー
ト／歪み境界の左側の部分に作用することに相当する。

【００３９】非常に多くの異なる量子化方法が候補とな
るため、レート／歪み境界曲線の中央部分で作用する量
子化方法を選択することはさらに困難である。スーパー
フレームのＮ個のフレームを一度に２つとり、この選ば
れた２つのフレームのそれぞれを上記の長い母音を量子
化するために用いられるビット数の半分でベクトル量子
化し、Ｎ−２個の残りのフレームについて補間すること
によって最良の結果が得られることが判明している。Ｎ
＝４で、Ｂ_sf＝５４ビット／スーパーフレームの場合、
Ｂ_si＝２８〜３２ビットが量子化される２個のフレーム
間で分割され、この２個のフレームのそれぞれはＢ_si／
２＝１４〜１６ビットとなる。フレームを一度に２つと
ることにより、ｍ＝１〜ＮでＳ＝ＳＵＭ（Ｎ−ｍ）個の
可能な組み合わせとなる。従って、Ｎ＝４の場合、一度
に２つ取られる４個のフレームの６つの可能な異なる組
み合わせがあり、選ばれた２個のフレームのそれぞれは
有効スペクトル・ビットの半分で量子化される。これ
は、Ｎ＝４スーパーフレーム中にスペクトルおよび時系
列情報をほぼ等しく考慮する。これらの一度に２つのフ
レームは、Ｂ_si／４（例えば、７〜８）ビットの知覚的
に重み付けされたＶＱとＢ_si／４（例えば、７〜８）ビ
ットの知覚的に重み付けされた残留誤差ＶＱとを用いて
便宜的に量子化される。このような量子化を行なう手段
および方法は当技術分野において周知である（例えば、
Makhoul et al., Proceedings of the IEEE, Vol. 73,
November 1985, pages 1551-1558を参照）。

【００４０】Ｓ個の異なる一度に２つの量子化方法は、
レート／歪み境界の中央部分における音声について十分
な情報を与え、これは用いるべき最小量子化である。フ
レームごとに一度の量子化またはスーパーフレームごと
に一度の量子化を加えることによってえられるＳ＋１個
の異なる量子化の方がよく、フレームごとに一度の量子
化およびスーパーフレームごとに一度の量子化の両方を
含むＳ＋２個の異なる量子化によって最良の結果が得ら
れる。この構成が好ましい。以下で説明するように、限
られたビットのスペクトル量子化で固有の誤差や理解し
やすさの損失を低減するため、知覚的重み付けが用いら
れる。

【００４１】異なるスペクトル量子化方法のそれぞれ
は、スペクトル情報を量子化するために利用可能なＢ_si
ビットを最大限に利用することに留意されたい。ビット
は浪費されない。このことは、量子化方法の種類または
同一性を識別するために用いられるＢ_scビットについて
もいえる。４フレームからなるスーパーフレームは、８
つの可能な量子化方法がレート／歪み境界を十分に網羅
し、無駄なく３ビットで識別されるという利点を有す
る。

【００４２】分析器によって判定される実際のスペクト
ル情報に対応する異なるスペクトル量子化を判定する
と、これらの異なるスペクトル量子化は入力スペクトル
情報と比較され、知覚的重み付けを用いて誤差が求めら
れる。量子化された入力スペクトル情報と実際の入力ス
ペクトル情報との間の差を計算する手段および方法は、
当技術分野で周知である。適用される知覚的重み付け係
数について以下で説明する。

【００４３】次に、最小誤差を有するスペクトル量子化
方法が識別される。最小誤差の量子化方法を識別する分
類ビット・コードと、対応する量子化スペクトル情報ビ
ットとが共にチャンネル符号器に送られ、ピッチ，発声
およびエネルギ情報と合成され、受信機ボコーダに伝送
される。

【００４４】ＬＳＦ知覚的重み付け知覚的重み付けは、スペクトル量子化の性能を向上する
のに役立つ。量子化器誤差に対するスペクトル感度は、
１０のＬＳＦのそれぞれについて計算され、互いに近接
したＬＳＦに重みを付け、フォーマット周波数の存在を
知らせる。各ＬＳＦ（ｎ）（ｎ＝１〜１０）の場合、Ｄ
ｅｌｔａＦｒｅｑＤｗｎ（ｎ），ＬＳＦ（ｎ）−ＦＳＦ
（ｎ−１），ＤｅｌｔａＦｒｅｑＵｐ（ｎ），ＬＳＦ
（ｎ＋１）−ＬＳＦ（ｎ）が計算される。ＤｅｌｔａＦ
ｒｅｑＤｗｎまたはＤＥｌｔａＦｒｅｑＵｐが小さい場
合、スペクトル感度値は比較的大きく、このＬＳＦは正
確に量子化するために特に重要であることを知らせる。

【００４５】スペクトル感度は、１０個の量子化されて
いないＬＳＦ（ＳｐｅｃＳｅｎｓＵｎＱ（ｎ））と、１
０個の量子化されたＬＳＦ（ＳｐｅｃＳｅｎｓＱ
（ｎ））とについて計算される。これらの値は、重み
（ｎ）（ｎ＝１〜１０）と共に用いられ、フレームの一
つのＴｏｔａｌＳｐｅｃｔｒａｌＥｒｒ値を算出する。
ＴｏｔａｌＳｐｅｃｔｒａｌＥｒｒは、（ｎ＝１〜１０
において）重み付けされたＬＳＦ量子化距離と、各ＬＳ
Ｆの量子化されたおよび量子化されていないスペクトル
感度の和との積の平方を加算する。各ＬＳＦの重みは、
ＬＳＦを小さく変化させることによって生じるスペクト
ル誤差に比例し、１０個のＬＳＦのそれぞれについて正
確な量子化の相対的な重要性を実質的に階級付ける。

【００４６】上記のＴｏｔａｌＳｐｅｃｔｒａｌＥｒｒ
は、一つのフレームの量子化器誤差を特徴付ける。Ｔｏ
ｔａｌＳｐｅｃｔｒａｌＥｒｒと同じ等式を用いる同様
なスペクトル変化パラメータは、現在のフレームと前の
フレームの量子化されていないＬＳＦの間で計算され、
また現在のフレームとそれ以降のフレームとの間でも計
算される。これら２つのスペクトル変化値が加算される
と、ＳｐｅｃＣｈａｎｇｅＵｎＱ（ｍ）となる。同様
に、スペクトル変化が現在のフレームと前のフレームの
量子化されたＬＳＦの間で計算され、現在のフレームの
量子化されたスペクトルと、その後のフレームの量子化
されたスペクトルとの間でＴｏｔａｌＳｐｅｃｔｒａｌ
Ｅｒｒ（ｍ）と加算されると、これはＳｐｅｃＣｈａｎ
ｇｅＱ（ｍ）となる。

【００４７】ｍ＝１〜Ｎにおいて、Ｓｍｏｏｔｈｎｅｓ
ｓＥｒｒ（ｍ）は、各フレームについてＳｐｅｃＣｈａ
ｎｇｅＱおよびＳｐｅｃＣｈａｎｇｅＵｎＱから計算さ
れる。各フレームのＳｍｏｏｔｈｎｅｓｓＥｒｒは次式
のように計算される。

【００４８】 SmoothnessErr(m)=SpectralChangeQ(m)/SpectralChangeUnQ(m)-1.0 従って、量子化されたスペクトルが量子化されていない
スペクトルと同様な変化を有する場合、小さいスムーズ
ネス誤差が存在する。量子化されたスペクトルが量子化
されていないスペクトル変化よりもはるかに大きいスペ
クトル変化を有する場合、スムーズネス誤差は大きくな
る。

【００４９】最後に、Ｎ個のフレームのそれぞれについ
てＳｍｏｏｔｈｎｅｓｓＥｒｒとＴｏｔａｌＳｐｅｃｔ
ｒａｌＥｒｒとを加算することにより、スーパーフレー
ム全体についてＴｏｔａｌＰｅｒｃｅｐｔｕａｌＥｒｒ
値が計算される。

【００５０】慎重な聴取者試験では、異なる量子化器が
個別に試験され、その後すべて一緒に試験された（最良
を選ぶシステム）。各量子化器はＮ個のフレームで予想
どおり挙動し、子音に対してはＢ_si／４ＶＱが最高であ
り、母音に対してはスーパーフレームごとに一度のＢ_si
スカラー量子化器が最高であり、中間音に対しては一度
に２回のＢ_si／４＋Ｂ_si／４ＶＱがよかった。分析され
ているフレームの音声内容についてシステムが最適量子
化器を選択できるようにすべてのＳ＋２個の量子化器が
アクティブになると、合成音声の品質は、単体で動作す
る個別の音声量子化器の品質を上回る。

【００５１】有声／無声符号化試験システムの原音声パラメータを与えるために用いら
れたモトローラ社製ＧＰ−ＶＣＭは、フレームごとに２
度有声／無声（Ｖ／ＵＶ）判定情報を与えるが、これは
不可欠ではない。フレームごとに一度有声／無声情報を
送っても十分であることがわかっている。一部の従来の
システムでは、Ｖ／ＵＶ情報はＬＳＦパラメータ情報と
組み合わされるか、あるいはその情報に重畳されている
が、これはこれらの情報が相関しているためである。し
かし、スペクトル情報を符号化する本構成では、そうす
ることは実際的ではない。なぜならば、Ｓ個の一回に２
つ(two-at-a-time) の量子化方法や、スーパーフレーム
ごとに一回(once per superframe) の量子化方法ではＮ
−２個のフレームなど、量子化されていないフレームに
ついてＬＳＦ情報を得るため相関を利用しているためで
ある。

【００５２】４つのフレームからなるスーパーフレーム
では、１６の可能な発声の組み合わせ、すなわちバイナ
リ・ビット００００ないし１１１１のすべての組み合わ
せがある。「０」はフレームが無声であることを意味
し、「１」はフレームが有声であることを意味する。従
って、フレームごとに一回、すべての発声情報を送出す
るためには、４ビットで十分である。これは、スーパー
フレームごとに４ｘ４＝１６ビットとなる。しかし、１
６の可能な発声の組み合わせのうち、約半分は比較的確
率の低い事象であることが大きな音声データベースを調
べることにより判明している。これについて以下に示さ
れており、左側の表の８つの組み合わせの方が確率が高
く、右側の表の８つの組み合わせは確率が低い。

【００５３】

【表１】発声ビットヒット数発声ビットヒット数 0000 46815 1001 628 1111 38425 1101 592 1110 4161 1011 582 0111 4161 0110 450 0011 4029 0100 300 1100 4019 0010 290 0001 3891 1010 88 1000 3691 0101 78

【００５４】上の左側の表の統計的に確率の高い事象に
基づいて発声情報を符号化するため、３ビットの４次元
ベクトル量子化器（４ｄＶＱ）が用いられた。実際の音
声分析から最大数の発声判定に一致する量子化発声シー
ケンスが選択される。複数のＶＱ要素（量子化発声シー
ケンス）が実際の発声シーケンスに一致する関連(tie)
ある場合、隣接する左（以前）および右（以降）のスー
パーフレームとの最良の発声連続性を有するものをシス
テムは優先する。

【００５５】この３ビットＶＱ方法により、一般的な１
ビット／フレームの符号化で得られるものとほとんど等
しい品質の音声が得られるが、各フレームを別々に符号
化する従来に方法によるスーパーフレーム当たりＮｘ４
＝１６ビットに比べ少ないビット、例えば４フレームか
らなるスーパーフレームにおいて３ビットで得られる。
このことは、高能率符号器において重要な利点となる。
ここで節約されるビットは他の音声情報に有利に適用さ
れ、合成音声の全体的な品質を改善する。

【００５６】発声の知覚的重み付け発声のすべての場合が発声ＶＱによって表されるわけで
はないので、発声シーケンスの伝送において誤差が生じ
ることがある。発声誤差の知覚を最小限に押さえる発声
シーケンスを選択することにより、知覚される音声品質
劣化を最小限に押さえるため、知覚的重み付けが用いら
れる。

【００５７】Tremain et al.は、正しくない発声で符号
化されるフレームのＲＭＳエネルギを知覚的誤差の尺度
として用いている。このシステムでは、発声誤差を有す
るフレームからの知覚的誤差の寄与はＰＥ（Ｎ）＝発声誤差（Ｎ）＊有声確率（Ｎ）となり、全発声知覚的誤差はＶＰＥ＝Ｓｕｍ（Ｍ＝１〜Ｎ）ＰＥ（Ｍ）すなわち、各発声ＶＱコードブック・エントリで符号化
された場合に、各フレームからの知覚的誤差の和とな
る。有声確率(Voicedness)とは、そのフレームが発声さ
れる確率を表すパラメータであり、発声に相関する音響
特徴からの多くの票(votes) の和として導かれる。これ
には、高度の低周波エネルギ，７５〜４００Ｈｚ帯にお
ける周期性およびピーク／ＲＭＳ比の高いＬＰＣ残留が
含まれる。これらのパラメータは、有声確率が有声分が
高い場合の＋１から無声分が高い場合の−１までになる
ように重み付けされ、加算される。

【００５８】エネルギ符号化音声波形のエネルギ輪郭は、とくに遷移中において、理
解しやすさとって重要である。ＲＭＳエネルギが一般に
測定される。エネルギ開始(onset) およびオフセット
は、ある子音を別の子音と区別するのに重要な場合が多
いが、母音に関してはあまり重要ではない。従って、定
常状態におけるエネルギ精度を犠牲にしてもエネルギ遷
移の正確な符号化を重視する量子化方法を利用すること
が重要である。スーパーフレームごとに９〜１２ビット
の４次元ベクトル量子化器（４ｄＶＱ）を用いて、エネ
ルギ情報はスーパーフレームにおいて有利に量子化され
ることが判明している。１０ビット量子化器が好まし
い。これにより、２．５ビット／フレームしかならな
い。４ｄＶＱは、周知のLinde-Buzo-Gray 方法を利用し
て生成することができる。ボコーダはスーパーフレーム
ごとのＮエネルギ値をデシベル（ｄｂ）に変換し、その
後、２¹⁰＝１０２４個のベクトル量子化器エントリを最
良一致(best fit)について検索する。検索手順は、知覚
的に重み付けされた距離尺度を利用して、１０２４の可
能性のなかから最良の４次元量子化ベクトルを見つけ出
す。

【００５９】最も多いのは、ＲＭＳエネルギが４つのす
べてのフレームにおいて一定であることであり、あるい
は４つのフレームの１つに急激な上下があることがわか
っている。従って、符号化しなければならないＲＭＳエ
ネルギの組み合わせの総数はあまり多くない。それで
も、ベクトル量子化器をエネルギの知覚的に重要な上下
に集中させることが好ましい。

【００６０】知覚的なエネルギの重み付けは、前後のフ
レームに対してエネルギの上下で符号化誤差を重み付け
ることによって行なわれる。そのスケールは、１３ｄｂ
の上昇または下降が局部的な重み付けを２倍にするよう
になる。１つのフレームにおけるエネルギの下降または
パルスは知覚的重み付けを３倍にし、高速な遷移が生じ
た場合にその事象を強調する。好適な手順は次のように
なる：１．スーパーフレームにおける４つのフレームの
それぞれのＲＭＳエネルギをｄｂに変換する；２．ＶＱ
ＲＭＳエネルギ・ライブラリにおけるセルのそれぞれ
について、ＲＭＳエネルギ誤差は次式によって重み付け
される： Weight(i)=1+A₀*[ΔRMS_left+ΔRMS_right] ただし、i=1,2,3,...,N および RMS_error=RMS(i)-RMSVQ(i), ΔRMS_left=ABS(RMS(i)-RMS(i-1)), ΔRMS_right=ABS(RMS(i)-RMS(i+1)), RMSPW_error=SUM(i=1,N) [(Weight(i)*RMS_error(i)]**2 ここで* は乗算を表し、**は累乗を表し、ABS は絶対値
を表し、SUM はｉ＝１からｉ＝Ｎについてダミー変数に
おける和を表し、RMS はｄｂ単位の実際の平方根エネル
ギ値であり、RMSVQ はベクトル量子化されたRMS 値（こ
れは量子化誤差だけRMS 値と異なる）であり、「Weigh
t」は各フレームの知覚的重み付けであり、「left」お
よび「right 」は直前および直後のフレームをそれぞれ
表す。ＶＱＲＭＳエネルギ・ライブラリ内のセルは、当
技術分野で一般的なように、非常に多くの音声サンプル
のエネルギ特性を分析することによって決定される。Ｒ
ＭＳ量子化器は、ＲＭＳＶＱライブラリ内の各セルを
巡回し、４ｄＶＱベクトルをスーパーフレームの４つの
計算されたＲＭＳ値と比較し、どの知覚的に重み付けさ
れたセルが最良のＲＭＳエネルギ量子化ベクトルになる
かを判定する。次に、選択された知覚的に重み付けされ
たＲＭＳエネルギＶＱセルを表すビットが音声パラメー
タ・ビット列内に入れられ、受信機に伝送される。

【００６１】ピッチ符号化フレームごとに少なくとも６４の周波数があるように、
各フレームのピッチ周波数を符号化するため、少なくと
も６ビットが一般に用いられる。これは、Ｎ＝４の場合
２４ビット／スーパーフレームになり、低ビット・レー
トのチャンネルでは実際的ではない。従って、より少な
いビットで実質的に同じ情報を送出する方法を見つける
ことが望ましい。

【００６２】好適な実施例では、ピッチ情報はスーパー
フレームごとに５ビットのみ（すなわちＢ_p＝５）、つ
まり平均１．２５ビット／フレームのみを用いて量子化
される。これは、量子化ルックアップ・テーブルを利用
してスーパーフレームごとに一つのピッチ値のみを符号
化することによって便宜的に行なわれる。

【００６３】スーパーフレームごとのピッチ・ビットＢ
_pは、従来技術と同じ周波数範囲をカバーする。従っ
て、Ｂ_p＝５の場合、周波数ステップは対数周波数また
は対数期間スケールにおいて若干粗くなる。５ビットは
３２レベルのピッチ値を与え、これは標準的なＬＰＣピ
ッチ範囲の３オクターブにおいて対数的に分布される。
全スーパーフレームが無声の場合、ピッチは符号化され
ず、Ｂ_pビットは誤り訂正に割り当てられる。

【００６４】ピッチ符号化システムは、音声分析器から
受け取ったピッチ値をスーパーフレーム発声パターンの
関数として補間する。便宜上、ピッチ値はスーパーフレ
ームの中心点にあるとみなすことができる。しかし、も
しあれば発声遷移の生じるスーパーフレームにおける位
置を表すように選択することが望ましい。従って、標本
化点はスーパーフレームの任意の位置にあってもよい
が、発声遷移の軌跡が好ましい。

【００６５】スーパーフレームのすべてのフレームが有
声である場合、スーパーフレームにおける平均ピッチが
符号化される。スーパーフレームが発声開始を含んでい
る場合、平均は開始（スタート）におけるピッチ値にシ
フトされる。スーパーフレームが発声オフセット（停
止）を含む場合、平均はオフセットにおけるピッチ値に
シフトされる。このように、時間と共に徐々に変わるピ
ッチ輪郭は、スーパーフレームごとに一回量子化される
としても、より正確に補間される。

【００６６】ピッチの知覚的重み付けピッチは、スーパーフレームごとに一回、５ビットで符
号化される。３２個の値は、７０Ｈｚから４００Ｈｚの
周波数範囲の対数において均一に分布される。スーパー
フレームの４つのすべてのフレームが有声である場合、
ピッチは４つのすべてのフレームの平均ピッチに最も近
いピッチ符号として符号化される。スーパーフレームが
発声の開始を含んでいる場合、開始を有するフレームの
ピッチ周波数に対する重み付けの２倍で平均が計算され
る。同様に、スーパーフレームが発声オフセットを含む
場合、最後の有声フレームにそのピッチ値に対する重み
の２倍が付けられる。これにより、符号器はピッチ更新
レートが遅くても発声の開始および終了においてピッチ
曲線をより正確にモデル化することが可能になる。 Onset(m)=/Voicing(m-1) .and. Voicing(m) Offset(m)=Voicing(m) .and. /Voicing(m+1) PWeight(m)=Voicing(m)*(1+Onset(m)+Offset(m)) AvgPitch= SUM(m=1,4)(Pweight(m)*Pitch(m))/Sum(m=1,4)(Pweight (m)) 誤差管理音声情報が低または中レートで符号化されると、各ビッ
トは期間，振幅またはスペクトル形状のいずれかで音声
の有意量を表す。１ビット誤差は、高ビット・レートか
つより高い冗長度で符号化された音声の場合に比べ、は
るかに目立つ欠陥(artifacts) を生じる。

【００６７】さらに、本明細書のようにベクトル量子化
器を用いる場合、１ビット誤差は著しく異なるパラメー
タ値を生じることがあるが、スカラー符号器の場合に
は、ビット誤差は一つのパラメータのみをシフトさせる
のが一般的である。１ビット誤差に起因する大きな欠陥
を最小限に押さえるため、すべてのＶＱライブラリは最
大固有ベクトルの対角線または分散(variance)の主軸と
共に分類(sort)される。一般に、この構成では、ビット
誤差によってかなり同様なパラメータ・セットが生じ
る。

【００６８】スーパーフレームのすべてのフレームが無
声の場合、ピッチ・ビットは誤り訂正用として利用でき
る。統計的には、これは約４０〜４５パーセントの時間
で生じると期待される。好適な実施例では、Ｂ_pビット
は（例えば３ビットの）フォーワード誤り訂正ビットと
して再度割り当てられ、Ｂ_sc符号を訂正し、また残りの
ビット（例えば２ビット）はすべて０と定義され、これ
は発声フィールドがすべて０であると正しく解釈され、
ビット誤差がないことを確認するために用いられる。

【００６９】さらに、スペクトル符号の一部におけるビ
ット誤差は検出可能な欠陥を導入することがあり、その
ため欠陥によって生じる外乱を緩和することができる。
例えば、スペクトルが（８＋８ビット）のＶＱおよび残
留ＶＱと共にＳ個の（一度の２フレーム）量子化器の一
つを用いて符号化される場合、いずれかのＶＱにおける
ビット誤差は人間の音声としては非単調または非現実的
なＬＳＦ周波数を生じることがある。同じ効果は、スカ
ラー（スーパーフレームごとに一回）量子化器において
も発生することがある。これらの非現実的周波数符号は
検出され、除去(trap out)されて、疑わしいスペクトル
情報は直前のフレームの値においてクランプすることに
より、あるいは隣接フレームから補外または補間するこ
とによって置換される。これは、送信機のおける符号化
誤差や、受信機における復号誤差または伝送誤差に対す
る感度を大幅に低減する。

【００７０】チャンネル容量や、主要音声パラメータに
対するビットの割り当てに応じて、伝送誤り訂正用にパ
リティ・ビットを加えてもよい。例図４ないし図７は、高品位６００ｂｐｓボコーダを作製
するために適用される本発明の方法を示すフローチャー
トである。汎用コンピュータまたは図２に示すようなボ
コーダのメモリに入れられると、図４，図５のフローチ
ャートとして示されるプログラムはコンピュータ・シス
テムを再構築して、音声を取り込み、本明細書の説明に
従ってこの音声を量子化し、符号化して伝送する。受信
機では、プログラムはプロセッサを再構築して、符号化
ビット列を受信し、量子化された音声パラメータを抽出
し、それに基づいて音声を合成し、聴取者に伝達する。

【００７１】図４，図５において、音声１００は例えば
モトローラ社製ＧＰ−ＶＣＭのような音声分析器１０２
に送られ、この分析器は（多くの音声のフレームが望ま
しいが）この例では音声の４つのフレームのスペクト
ル，ピッチ，発声およびエネルギを取り出す。ブロック
１００の下にあり点線の矢印のついた角の丸いブロック
１０１は、このブロックが指し示すブロックにおいて実
行される機能を示し、それ自体では機能的でない。

【００７２】ブロック１０２によって与えられる音声分
析情報はブロック１０４に送られ、ここで発声判定が行
なわれる。その結果、２つのエントリが関連する（ブロ
ック１０６参照）場合には、ブロック１０８をアクティ
ブにする命令が送られ、これはブロック１１０に進み、
それ以外の場合には、情報はブロック１１０に直接流れ
る。この時点で、発声量子化は完了する。

【００７３】ブロック１１０，１１２において示される
ように、ここでＲＭＳエネルギ量子化が行なわれ、ブロ
ック１１４においてピッチが量子化される。ブロック１
１４〜１３６において、モトローラ社製ＧＰ−ＶＣＭに
よって与えられるＲＣがＬＳＦに変換され、別のスペク
トル量子化が実行され、最も適合する(best fit)ものが
選ばれる。補間のためにブロック１１８においてルック
・アヘッドおよびルック・バック機能が設けられている
ことに留意されたい。ブロック１２０（図５）は、先に
説明したように、スーパーフレームの各フレームを一つ
の異なるスペクトル量子化方式として個別に量子化す
る。ブロック１２２〜１３０は、前に説明したように一
度に２回(two-at-a-time) の量子化を行ない、ブロック
１３２はスーパーフレームごとに一回(once-per-superf
rame) の量子化を行なう。知覚的に重み付けされた誤差
全体は、ブロック１３２において判定され、ブロック１
３４〜１３６において比較が行なわれる。

【００７４】量子化された音声パラメータのすべてを与
えると、ブロック１３８においてビットがビット列内に
入れられ、スクランブルされ（暗号化が望ましい場
合）、チャンネル送信機１４０に送られる。図４，図５
において実行される機能は、図２の装置によって容易に
行なうことができる。

【００７５】受信機の機能は図６，図７に示されてい
る。図５のブロック１４０からの送信信号は、図６のブ
ロック１５０において受信され、復号器１５２に送られ
る。ブロック１５０の下のブロック１５１は、図４，図
５の符号１０１と同様な符号にすぎない。

【００７６】ブロック１５２はスクランブルを解除し、
量子化された音声パラメータを分離し、これをブロック
１５４に送り、ここで発声が復号される。音声情報はブ
ロック１５６，１５８に送られ、ピッチが復号され、そ
の後ブロック１６０に送られ、エネルギ情報が抽出され
る。

【００７７】スペクトル情報は、図示のようにブロック
１６２〜１８６において復元される。「補間」と記され
たブロック（１６８，１７５）は、ブロック１７８を指
す矢印１６９によって識別される機能を表し、ブロック
１６８，１７５で行なわれる補間分析はブロック１７８
で行なわれるものと同様であることを示す。ブロック１
８８において、ＬＳＦはＬＰＣ反射係数に変換されるこ
とが望ましく、それによってブロック１９０のモトロー
ラ社製ＧＰ−ＶＣＭはこの係数と、ピッチ，エネルギお
よび発声の他の音声パラメータとを利用して、音声１９
２を合成して聴取者に伝達することができるようにな
る。

【００７８】図４〜図７によって説明される一連の事象
は音声のそれぞれのフレームに対して実行され、この処
理は音声がボコーダを流れている限り何度も繰り返され
ることが当業者に理解される。量子化／符号化および量
子化解除(dequantization)／復号は特定の順序、例え
ば、最初に発声、次にエネルギ、次にピッチ、そしてス
ペクトルという順序で行なわれると図４以降に示されて
いるが、これは便宜上にすぎず、この順序は変えてもよ
く、あるいは量子化／符号化は並列に進んでもよいが、
ただし、すでに説明したように発声情報はピッチ符号化
等に必要であることが、本明細書の説明に基づいて当業
者に理解される。従って、図４〜図７の例に示される順
序は限定することを意図するものではない。

【００７９】評価結果上記の一例としての６００ｂｐｓボコーダの音声品質の
試験から、従来の２４００ｂｐｓのＬＰＣ１０／Ｅボコ
ーダの品質に匹敵する音声品質が得られることがわか
る。今回用いられた大幅な低チャンネル容量化を考える
と、これは大きな改善である。

【００８０】スケーリング本発明の方法および手段は、以上説明してきた特定例で
示されたレート以外のチャンネル通信レートを用いるシ
ステムにも適用される。一般に、スーパーフレーム単位
では、望ましいビット割り当ては、最適スペクトル量子
化方法を識別するためのＢ_sfが５〜６％，量子化スペク
トル情報が５０〜６０％，発声が５〜８％，エネルギが
１５〜２５％，ピッチが９〜１０％，同期が１〜２％，
誤り訂正が０〜２％である。これらの数値は、スーパー
フレーム当たりの有効なビットＢ_sfのパーセント値を示
す。

【００８１】本発明は問題を解決し、前に述べた目的を
達成し、本明細書で指摘した実質的な利点、すなわち、
音声パラメータが特に簡単かつ効率的な方法で低ビット
・レート通信用に符号化され、簡単な方程式により知覚
的重み付けが音声パラメータ量子化に適用され、従来の
知覚的重み付け方式に比べて演算の複雑度を低減し、し
かも優れた性能を発揮することであり、またスペクト
ル，エネルギ，発声およびピッチ情報を符号化し、従来
の方法で固有の誤差や理解しにくさを低減し、あるいは
避けることができる特に効率的な方法が発見されたこと
が、以上の説明に基づき当業者に明らかである。

【００８２】本発明について具体的な方法や装置に関し
て説明してきたが、これらは説明の便宜上にすぎず、限
定されるものではなく、また本明細書における説明に基
づいて当業者に理解されるように、本発明は他の装置や
段階にも適用され、本開示に基づいて当業者に想起され
るこれらおよび他の変形は特許請求の範囲に含むものと
する。

【図面の簡単な説明】

【図１】ボコーダ通信システムの簡略ブロック図であ
る。

【図２】図１の通信システムで用いられる音声分析器／
合成器／符号器の簡略ブロック図である

【図３】異なるビット・レートで動作するボコーダのレ
ート／歪み境界曲線である。

【図４】本発明による一例の６００ｂｐｓボコーダのフ
ローチャートである。

【図５】本発明による一例の６００ｂｐｓボコーダのフ
ローチャートである。

【図６】本発明による一例の６００ｂｐｓボコーダのフ
ローチャートである。

【図７】本発明による一例の６００ｂｐｓボコーダのフ
ローチャートである。

【符号の説明】

１０ボコーダ通信システム１２入力音声１４音声分析器１６符号器１８通信チャンネル２０復号器２２音声合成器２４入力音声の複製３０ボコーダ３２入力３４利得調整ブロック３６Ａ／Ｄ変換器３８マイクロプロセッサ４０バス４２ＲＯＭ４４ＳＲＡＭ４６アドレス・デコーダ４８出力５０入力５２Ｄ／Ａ変換器５４利得調整ブロック５６出力

Claims

【特許請求の範囲】

【請求項１】入力音声（５２，１００）を分析符号化
する方法において、前記入力音声（５２，１００）はス
ペクトル情報によって少なくとも特徴付けられるフレー
ムに分割される方法であって：Ｎ≧３個のフレームから
なるスーパーフレーム（１０２）を形成する段階；Ｎ個
のフレームのＳ個の組み合わせを一度に２回選択（１２
２）（ただし、Ｓ＝ＳＵＭ（Ｎ−ｍ），ｍ＝１〜Ｎ）
し、選択されたフレームを与える段階；前記選択された
フレームのスペクトル情報を量子化（１２４）し、Ｓ個
の異なる量子化されたスペクトル情報値を与える段階；
量子化されていない入力音声スペクトルに比べて、前記
Ｓ個の異なる量子化されたスペクトル情報値のうちどれ
が最小誤差となるかを判定する（１２６，１２８，１３
０，１３２，１３４，１３６）段階；および前記の段階
で判定された量子化されたスペクトル情報の最小誤差値
を用いて、前記入力音声（５２，１００）を符号化する
（１３６，１３８）段階；によって構成されることを特
徴とする方法。
【請求項２】入力音声（５２，１００）を分析符号化
する装置（３０）であって：前記入力音声（５２，１０
０）をフレームに分割（１０２）する手段（３８）；入
力音声（５２，１００）のフレームについてスペクトル
情報を判定（１１６）する手段（３８）；Ｎ≧２個のフ
レームからなるスーパーフレームを形成する（１０２）
手段（３８）；Ｎ個のフレームのＳ個の組み合わせ（た
だし、Ｓ＝ＳＵＭ（Ｎ−ｍ），ｍ＝１〜Ｎ）を選択（１
２２，１２４，１２６，１２８，１３０）し、選択され
たフレームのスペクトル情報を量子化（１２２，１２
４，１２６，１２８，１３０，１３２）して、前記入力
音声（５２，１００）からある誤差量だけ異なる復元音
声（１９２）となるＳ個の異なる量子化されたスペクト
ル情報値を与える手段（３８）；量子化されていない入
力音声スペクトルに比べ、前記Ｓ個のスペクトル情報値
のうちどれが最小誤差を有するかを判定する（１３２，
１３４，１３６）手段（３８）；および前記段階で判定
された量子化された最小誤差のスペクトル情報値を用い
て、前記入力音声（５２，１００）を符号化する手段
（３８）；によって構成されることを特徴とする装置
（３０）。