JPH05197400A - 低ビット・レート・ボコーダ手段および方法 - Google Patents

低ビット・レート・ボコーダ手段および方法

Info

Publication number
JPH05197400A
JPH05197400A JP4208591A JP20859192A JPH05197400A JP H05197400 A JPH05197400 A JP H05197400A JP 4208591 A JP4208591 A JP 4208591A JP 20859192 A JP20859192 A JP 20859192A JP H05197400 A JPH05197400 A JP H05197400A
Authority
JP
Japan
Prior art keywords
speech
bit
frames
superframe
bits
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4208591A
Other languages
English (en)
Inventor
Bruce A Fette
ブルース・アラン・フェッテ
Cynthia A Jaskie
シンシア・アン・ジャスキー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of JPH05197400A publication Critical patent/JPH05197400A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)

Abstract

(57)【要約】 【目的】 4つのフレームからなるスーパーフレーム
(SF)を用いる低レート(例えば、600bps)チ
ャンネル18で音声情報12を効率的に符号化する方法
および手段を提供する。 【構成】 この方法は、(1)異なる量子化器(そのう
ち一つが各スーパーフレームに選ばれる)を用いてスペ
クトル情報を符号化し、3ビット/SFが最適量子化器
を識別し、28〜32ビット/SFが量子化されたスペ
クトル情報を含む段階;(2)有声の場合に5ビット/
SFを用いてピッチを符号化し、無声の場合にピッチ・
ビットを誤り訂正に割り当てる段階;(3)4dベクト
ル量子化器(4dVQ)により9〜12ビット/SFを
用いてエネルギを符号化する段階;(4)4dVQによ
り3〜4ビット/SFを用いて発声を符号化する段階を
含み、1同期ビットおよび0〜1誤り訂正ビットを含ん
で全部で54ビット/SFとなる。独自の知覚的重み付
け方式と組み合わせると、チャンネル容量のほぼ4倍で
動作するボコーダの品質に匹敵する出力音声品質が得ら
れる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声符号化のための改
善された手段および方法に関し、さらに詳しくは、低ビ
ット・レートで音声を符号化することに関する。
【0002】
【従来の技術および発明が解決しようとする課題】現代
の通信システムは、限定された帯域幅の環境において音
声情報を伝送するため符号化を多用している。入力音声
そのものを送らずに、音声は分析されて、その重要なパ
ラメータ(例えば、ピッチ,スペクトル,エネルギおよ
び発声(voicing) )を判定し、これらのパラメータが伝
送される。受信機はこれらのパラメータを用いて、入力
音声の意味の通じる複製(replica) を合成する。この手
順では、中間チャンネル帯域幅が音声自体を伝送するた
めに必要とされるよりも小さくても、理解可能な音声が
伝送できる。このような機能を実行する装置を説明する
ために当技術分野において「ボコーダ(vocoder) 」とい
う造語が生まれている。
【0003】図1は、ボコーダ通信システム10を示
す。入力音声12は音声分析器14に与えられ、ここで
重要な音声パラメータが抽出され、符号器16に送ら
れ、これらのパラメータは量子化され、電話または無線
リンクのような通信チャンネル18に伝送するのに適し
た形式で合成される。通信チャンネル18を通過する
と、符号化音声パラメータは復号器20に現われ、ここ
でパラメータは分離され、音声合成器22に送られ、こ
の音声合成器22は量子化された音声パラメータを利用
して入力音声の複製を合成し、聴取者に伝達する。
【0004】当技術分野で用いられる「ピッチ」とは一
般に声帯または声門の低音(buzzing) の期間または周波
数を表し、「スペクトル」とは一般に声管の周波数に依
存する特性を表し、「エネルギ」とは一般に音声波形の
大きさまたは強度またはエネルギを表し、「発声(voici
ng) 」とは声帯がアクティブかどうかを表し、「量子
化」とは有限数のディスクリート・レベルの一つを選ん
でこれらの一般に連続した音声パラメータを特徴付ける
ことを表す。特定音声パラメータの異なる量子化レベル
の数は、この音声パラメータを符号化するために割り当
てられるビット数によって設定される。以上の用語は当
技術分野において周知であり、ボコーディングに関連し
て一般に用いられる。
【0005】ボコーダは、200,400,600,8
00,900,1200,2400,4800,960
0ビット/秒またはその他のレートで動作して、とりわ
けビット・レートに応じてさまざまな結果が得られる。
伝送チャンネル帯域幅が狭くなるほど、許容ビット・レ
ートは小さくなる。許容ビット・レートが小さくなるほ
ど、明確で理解しやすい合成音声を与える符号化方式を
見つけるのは困難になる。さらに、実際的な通信システ
ムは、符号化方式の複雑さを考慮にいれなければならな
い。なぜならば、複雑すぎる符号化方式は実質的にリア
ルタイムで実行できず、あるいは妥当な寸法,速度,複
雑度およびコストのコンピュータ・プロセッサを用いて
実行することができないためである。ボコーダはハンド
ヘルド型および携帯型装置で多用されるので、プロセッ
サの消費電力も重要な検討事項である。
【0006】従来のボコーダは広く利用されているが、
当技術分野で周知の限界が、特に低ビット・レートが望
ましい場合に生じている。そのため、改善されたボコー
ダ方法および装置、特に、低ビット・レートまたは中程
度のビット・レートで極めて理解しやすい音声を与える
ことのできるボコーダが必要とされている。
【0007】本明細書で用いられる「符号化」とは総じ
て符号化および復号の両方、すなわち入力音声を記述す
る一連の量子化されたパラメータの生成と、この一連の
量子化パラメータをその後利用して、入力音声の複製を
合成することの両方を表す。また、本明細書で用いられ
る「知覚的な(perceptural) 」および「知覚的に(perce
ptually)」という単語は、音声がどのように知覚される
か、すなわち、人間の聴取者によって認識されるかを表
す。従って、「知覚的に重み付けする(perceptually we
ighting)」および「知覚的に重み付けされた(perceptua
lly weighted) 」とは、例えば、ある入力音声の分析か
ら得られた特性パラメータ(例えば、ピッチ,スペクト
ル,エネルギ,発生)を意図的に修正して、このような
(修正された)パラメータを利用して復元された合成音
声の理解しやすさ(intelligilility) を向上することを
表す。合成音声の理解しやすさを改善するのに効果的な
知覚的重み付け方式を開発することは、当技術分野で長
期的な研究課題である。
【課題を解決するための手段】本発明は、音声を符号化
する改善された手段および方法を提供し、低および中ビ
ット・レートで伝送するために音声を符号化するのに特
に有用である。
【0008】最も一般的には、本発明の方法および装置
は、(1)所定の複数の異なる量子化を用いて入力音声
の選択された一部のスペクトル情報を量子化し、(2)
入力音声スペクトルに比較して、複数の異なる量子化の
それぞれについて知覚的に重み付けされた誤差を算出
し、(3)入力音声のこの部分で最小誤差を与える特定
の量子化を識別し、(4)最小誤差の異なる量子化方法
の識別と、この方法によって与えられた入力音声スペク
トル情報とを用いて、入力音声の選択された部分を符号
化する。この処理は、入力音声の連続する選択部分につ
いて反復される。知覚的重み付けは上記の処理と共に利
用され、復元された音声の理解しやすさをさらに改善す
ることが望ましい。
【0009】入力音声はL個の音声サンプルを有するフ
レームに分割されることが望ましく、これらフレームは
Nフレームを有するスーパーフレームに結合される。た
だし、N≧2で、一般にN=4である。最も好ましい量
子化を求めるために用いられる誤差は、スーパーフレー
ムにおいて加算されることが望ましい。隣接スーパーフ
レーム(例えば、一つ前、または一つ後のスーパーフレ
ーム)が補間によって影響を受ける場合、誤差は影響を
受けるフレームにおいても加算されることが望ましい。
【0010】第1実施例では、スペクトル情報の異なる
量子化は、一度に2回選択されたスーパーフレーム内の
個々のフレームの組み合わせの量子化を含み、選択され
なかった残りのフレームは補間される。これは、m=1
〜Nで少なくともS=SUM(N−m)個の選ぶべき異
なる量子化スペクトル情報値を与える。
【0011】好適な実施例では、1つから2つの別の異
なる量子化スペクトル情報値も与えられ、第1の値は各
フレームを個別にベクトル量子化することによって与え
られることが好ましく、第2の値はスーパーフレーム内
の一つの所定の時間においてスカラー量子化を行ない、
前後のフレームに比較してスーパーフレームの他のフレ
ームについて補間することとによって与えられることが
好ましい。これは、スーパーフレームに対して全部でS
+2個の別の量子化スペクトル情報値を与える。
【0012】SまたはS+1またはS+2の異なるスペ
クトル量子化方法のそれぞれの量子化スペクトル・パラ
メータは、知覚的重み付けを利用して実際のスペクトル
・パラメータと比較され、どの異なるスペクトル量子化
方法がスーパーフレームにおいて加算された最小誤差を
与えるかを判定する。最良のスペクトル量子化方法およ
びこの方法から得られる量子化スペクトル値の識別は、
限られた数のビットを用いて符号化され、伝送される。
【0013】従来、ピッチは発声の有無を考慮に入れて
各スーパーフレーム毎に一回量子化される。発声は、音
声合成中にピッチ補間目標として用いるのに最も適した
フレームを決定する。従来、エネルギおよび発声は2〜
8フレーム毎、一般的には各スーパーフレーム毎に一回
量子化される(ただし、N=4)。
【0014】スーパーフレーム毎に各量子化音声パラメ
ータに割り当てられるビットの数は、チャンネル容量と
音声の明確度との間で最良の妥協となるように選択され
る。また、同期ビットも一般に含まれる。一般に、スー
パーフレーム単位では、望ましいビット割当は、最適ス
ペクトル量子化方法を識別するための有効スーパーフレ
ーム・ビットBsfが5〜6%,量子化スペクトル情報が
50〜60%,発声用が5〜8%,エネルギ用が15〜
25%,ピッチ用が9〜10%,同期用が1〜2%およ
び誤り訂正用が0〜2%である例えば、標準的な22.
5ミリ秒のフレーム期間を有する600bpsボコーダ
の場合、13.5ビットのみをフレーム毎に、すなわち
スーパーフレーム毎に54ビットを送ることができる
(ただし、N=4)。54ビット/スーパーフレームは
次のように割り当てるのが望ましい。すなわち、S+2
=8個の異なる量子化方法のうちどの方法が最小誤差と
なるかを識別するための3ビット,量子化スペクトル情
報用の28〜32ビット,異なる発声の組み合わせを識
別するための3〜4ビット,エネルギ用の9〜12ビッ
ト,ピッチ用の5ビット,同期用の1ビットおよび誤り
訂正用の0〜1ビットである。この組み合わせは、60
0bpsレートで極めて理解しやすい音声を与える。
【0015】
【実施例】本明細書で変数と共に用いられる「スカラー
量子化」(SQ)という用語は、一つの量子化パラメー
タによる一つの値の変数の量子化を表す。例えば、Ei
がi番目の音声フレームの実際のRMSエネルギEとす
ると、Eiは、例えば6ビット・コードによって、26
64個の異なる量子化レベルEjに「スカラー量子化」
される。ただし、Ejは実際のエネルギ・レベルEiに最
も近い量子化エネルギ・レベルである。ビット数が大き
くなるにつれて、量子化の分解能も大きくなる。量子化
は線形である必要はない、例えば、Eをdb単位で表す
ことにより、等しい量子化間隔は等しいエネルギの大き
さではなく、等しいエネルギ比率に相当する。すなわ
ち、異なるEjは均等な間隔である必要はない。スカラ
ー量子化を行う手段および方法は、ボコーダ技術におい
て周知である。 本明細書で用いられる「ベクトル量子
化」(VQ)という用語は、一つの量子化された値によ
って複数の相関した変数を同時に量子化することを表
す。例えば、連続したフレームのエネルギ値が独立した
変数として扱われる場合、これらの値は高度に相関され
ている、すなわち、連続したフレームのエネルギ値が異
なるよりも類似している可能性の方がはるかに高いこと
が判明している。相関統計が、例えば大きな音声サンプ
ルにおいてその実際の発生率を調べることにより判明す
ると、一つの量子化された値は変数の各相関組合せに割
り当てることができる。大きな音声サンプルを調べるこ
とにより音声変数の特定の値が発生する可能性を判定す
ることは、当技術分野で周知の手順である。利用可能な
ビットが多いほど、量子化ベクトルによって記述できる
組み合わせの数も多くなる、すなわち、分解能は大きく
なる。
【0016】複数の変数が一つの量子化ベクトル値によ
って表されるので、ベクトル量子化はより効率的な符号
化である。ベクトル量子化(VQ)の「次元」の数は、
ベクトルによって表される変数またはパラメータの数を
示す。例えば、2dVQは2つの変数のベクトル量子化
を示し、4dVQは4つの変数のベクトル量子化を示
す。ベクトル量子化を行う手段および方法は、ボコーダ
技術において周知である。
【0017】本明細書で用いられる「フレーム」という
用語は、単数または複数であっても、スペクトル情報が
ほとんど変わらないある期間のデジタル化された音声の
特定のサンプルを表す。音声のスペクトル情報は、唇,
下,歯などが動くにつれて変化する声管の音響特性によ
って設定される。従って、スペクトル情報は、これらの
身体の部分が通常の音声で動くレートにおいてのみ実質
的に変化する。スペクトル情報は、約10〜30ミリ秒
以下の期間ではほとんど変化しないことが知られてい
る。従って、フレーム期間はこの範囲になるように選択
されるのが一般的であり、約20〜25ミリ秒の範囲に
あるのがさらに一般的である。本発明に関して実施され
た実験で用いられたフレーム期間は22.5ミリ秒であ
ったが、本発明はこれよりも長いまたは短いフレームに
おいても作用する。約10〜15ミリ秒より短いフレー
ムを用いることは役に立たない。フレームが短くなるに
つれて、より多くのフレームを分析しなければならず、
単位時間に伝送するフレーム・データも多くなる。しか
し、フレーム毎にはほとんど変化がないので、これは理
解しやすさをそれほど改善しない。逆の極端な例におい
て、約30〜40ミリ秒よりも長いフレームでは、一般
に合成音声の品質は劣化する。なぜならば、フレームが
十分長いと、フレーム内で大幅な変化が生じることがあ
るためである。従って、20〜25ミリ秒のフレーム期
間が実際的な妥協点であり、広く利用されている。
【0018】本明細書で用いられる「スーパーフレー
ム」という用語は、単数または複数であっても、一連の
N個のフレーム(ただし、N≧2)を表し、これらのフ
レームは入力音声を特徴付けるために必要なパラメータ
を得る際の単位として部分的に処理あるいは考慮され
る。Nが小さい場合、良好な合成音声品質が得られるこ
ともあるが、ビット・レートが高くなるという欠点があ
る。Nが大きくなるにつれて、ビット・レートも低くす
ることができるが、スーパーフレーム中に大きな変化が
生じるので、与えられたビット・レートに対して音声品
質は結局劣化する。本発明は、異なる音声パラメータを
符号化し、スーパーフレームの大きさに対して分解能
(ビット数)をそれぞれに割り当てる方法を慎重に選択
することによって、低ビット・レートでも改善された音
声品質を与える。符号化する前にさまざまなパラメータ
に割り当てられる知覚的重み付けも重要である。
【0019】説明の便宜上、また制限することを意図す
るものではないが、本発明は600bpsチャンネル容
量と22.5ミリ秒のフレーム期間の場合について説明
する。従って、フレーム当たり利用可能なビット総数
(600ビット/秒x22.5x10-3秒/フレーム=
13.5ビット/フレーム)がこの仮定から生じる。利
用可能なビット数は、さまざまな音声パラメータを記述
するためにビットを割り当てる際に考慮に入れられる。
この例示的な手段および方法を修正して他のビット・レ
ートにも対応できることは、本明細書における説明に基
づいて当業者に理解される。
【0020】図2は、ボコーダ30の簡略ブロック図を
示す。ボコーダ30は、基本音声パラメータを判定する
分析器として、かつ、この音声パラメータに基づいて入
力音声の複製を復元する合成器として機能する。
【0021】分析器(すなわち、符号器)として機能す
る場合、ボコーダ30は入力32において音声を受信
し、この音声は利得調整ブロック34(例えば、AG
C)およびアナログ/デジタル(A/D)変換器36を
通る。A/D36は、デジタル化入力音声をマイクロプ
ロセッサまたはコントローラ38に与える。マイクロプ
ロセッサ38は、バス40を介してROM42(例え
ば、EPROMまたはEEPROM),可変メモリ(例
えばSRAM)44およびアドレス・デコーダ46と通
信する。これらの素子は協調して、ROM42に保存さ
れた命令を実行し、着信デジタル化音声をフレームに分
割し、これらのフレームを分析して、音声の各フレーム
に関連する有意音声パラメータ、例えば、ピッチ,スペ
クトル,エネルギおよび発声などを判定する。これらの
パラメータは出力48に送られ、その後、チャンネル符
号器(図1参照)に進み、最終的に受信機に伝送され
る。
【0022】合成器(すなわち、復号器)として機能す
る場合、ボコーダ30は入力50を介してチャンネル・
デコーダから音声パラメータを受信する。これらの音声
パラメータは、SRAM44およびデコーダ46ならび
にROM42に保存されたプログラムと共に、マイクロ
プロセッサによって用いられ、デジタル化合成音声をD
/A変換器52に与え、このD/A変換器52はデジタ
ル化合成音声をアナログ形式に戻して、合成アナログ音
声を最適利得調整ブロック54を介して出力56に与
え、ラウド・スピーカまたはヘッドフォン(図示せず)
に伝達する。
【0023】図2に示すようなボコーダは実在する。一
例として、モトローラ社製GeneralPurpose Voice Codin
g Module (GP-VCM), Part No. 01-P36780D001がある。
このモトローラ社製ボコーダは、例えば2400bps
のLPC10(Fed. Std. 1015),4800bpsのCE
LP(Proposed Fed. Std 1016),9600bpsのMR
ELPおよび1600bpsのCVSDなど、周知のボ
コーダ・プロトコルを実行することができる。9600
bpsのMRELPプロトコルは、モトローラ社のSTU-
IIIUUUtmUUU-SECTEL 1500UUUtmUUU secure telephones
に採用されている。ROM42を再プログラムすること
により、図2のボコーダは本発明に必要な機能、すなわ
ち、適切に量子化された音声パラメータ値を出力48に
伝達することができ、そしてこのような量子化音声パラ
メータ値を入力50で受け取ると、これを音声に戻すこ
とができる。
【0024】本発明では、ピッチ,スペクトル,エネル
ギおよび発声情報は、目的の音声フレームで利用できる
と仮定する。本発明は、この情報を量子化して、それに
基づいて高品位な音声を合成する特に効率的かつ効果的
な手段および方法を提供する。
【0025】被伝送音声の理解しやすさに影響を与える
重要な要因は、フレームごとに利用可能なビット数であ
る。これは、フレーム期間と有効チャンネル容量の組み
合わせ、すなわち、ビット/フレーム=(チャンネル容
量)x(フレーム期間)によって決まる。例えば、2
2.5ミリ秒の音声フレームに対応する600bpsチ
ャンネルは、すべての音声パラメータ情報を符号化する
ためには13.5ビット/フレームとなり、これは非常
に低く、フレーム単位で十分なパラメータ分解能は不可
能になる。従って、低ビット・レートでは、スーパーフ
レームを利用することが望ましい。
【0026】フレームがN個の連続するフレームからな
るスーパーフレームにまとめられると、スーパーフレー
ム当たりのビット数BsfはNxフレーム当たりの有効ビ
ット数Bfとなり、N=4の上記の例では、音声パラメ
ータ情報を符号化するためにBsf=NxBf=4x1
3.5=54ビット/スーパーフレームとなる。しか
し、この手順は必然的に誤差を導入する。そのため、固
有誤差が最小限に押さえられるように音声パラメータを
量子化し、符号化する方法を見つけなければ、スーパー
フレーム量子化は成功しない。
【0027】スーパーフレームを利用することは、従来
技術において説明されている。例えば、Kang et al., "
High Quality 800-bps Voice Processing Algorithm,"
NRLReport 9301, 1990 を参照されたい。2つまたは3
つの20ミリ秒のフレームからなるスーパーフレームが
800bpsボコーダで使用されており、すべての音声
パラメータ情報を符号化するため、スーパーフレーム当
たり32〜48ビットが有効となる。スペクトル量子化
は、実際の音声内の異なるスペクトル成分に適応しない
という点で固定されている。例えば、N=2の場合、ス
ーパーフレームにおける平均LSFが量子化され、N=
3の場合、知覚的重み付けと共に18ビットを用いて低
周波数成分とフォーマット周波数の存在とを強調するこ
とにより、中心フレームLSFが量子化される。レート
/歪み境界(Rate-Distortion Boundary)曲線上のスペク
トル情報の相対位置については考慮されていない。
【0028】N≧2で十分な音声品質が得られるが、2
〜6の範囲のNが便宜的であり、N=4が好適な値であ
ることが判明している。許容ビット・レートが大きくな
るにつれて、匹敵する出力音声品質を得るため利用でき
るNの値は小さくなる。例えば、高ビット・レート・チ
ャンネル(例えば、>4800bps)では、スーパー
フレームを採用することは余り有利ではないが、低ない
し中ビット・レート(例えば、≦4800bps)で
は、スーパーフレームを採用することは、特に2400
bps以下のビット・レートの場合には有利である。一
般に、(1)スーパーフレームは、良好な理解しやすさ
を得るために音声パラメータを適切に符号化するのに十
分なビットを与えなければならず、かつ、(2)スーパ
ーフレームは長い期間の音素(phoneme) よりも短くなく
てはならない。
【0029】説明の便宜上、また限定することを意図す
るものではないが、本発明の手段および方法についてN
=4で説明するが、より小さいまたはより大きいNの値
も利用でき、すべての音声パラメータ(スペクトル,ピ
ッチ,エネルギおよび発声)について同じNの値を用い
る必要はない、すなわち、スーパーフレームの大きさは
変えることができることが、以下の説明に基づいて当業
者に理解される。
【0030】解決すべき課題は、フレームまたはスーパ
ーフレームごとの限られたビット数内で音声パラメータ
情報を符号化し効率的かつ効果的な方法を見つけて、高
品位な音声が限られた容量のチャンネルで伝送できるよ
うにすることである。本発明はそのための特に効果的か
つ効率的な手段および方法を提供し、主要音声パラメー
タ、すなわち、スペクトル,ピッチ,エネルギおよび発
声のそれぞれについて個別に説明する。
【0031】スペクトル符号化 当技術分野では、声管をモデル化するLPCフィルタの
反射係数(RC)でスペクトル情報を説明するのが一般
的である。しかし、音声のスペクトル特性を特徴付ける
ためライン・スペクトル周波数(LSF)(ライン・ス
ペクトル対(LSP)ともいう)を用いるほうがより便
宜的である。入力音声からRCおよび/またはLSFを
取り出す、すなわちある一つの方式(例えば、RC)を
もう一方の方式(例えば、LSF)に変換またはその反
対を行なう手段および方法は、当技術分野において周知
である(Kang, et al., NRL Report 8857, January 198
5参照)。
【0032】例えば、標準形態のMotorola General Pur
pose Voice Coding Module (GP-VCM) は、分析される音
声の各22.5ミリ秒のフレームについてRCを生成す
る。入力音声のスペクトル情報のこのRC方式をLSF
方式に変換し、またその逆を行なう方法については当業
者に理解される。10次LSFは、音声の各フレームに
ついて考慮される。
【0033】スペクトル情報に関して、低いスペクトル
精度で良好な時間分解能を与えることが知覚的により重
要な場合もあるが、低時間分解能で高スペクトル分解能
を与えることが知覚的に重要な場合もあることが判明し
ている。この概念は、600bpsチャンネルおよび2
400bpsチャンネルについて図3に示すようなレー
ト/歪み境界曲線によって表すことができる。図3は、
スペクトル情報の一定信号レートにおいて、異なる種類
の音声に対して実質的に一定の理解しやすさを維持する
ために必要なスペクトル(周波数)および時系列(時
間)精度の組み合わせの軌跡のプロットである。図3に
示す600bpsおよび2400bps信号レートは全
チャンネル容量を表し、全チャンネル容量の一部しか使
用できないスペクトル情報を送出するために用いられる
単なる信号レートというわけではない。
【0034】例えば、音声が長い母音(例えば、"loop"
と言う単語の"oo")からなる場合、良好な理解しやすさ
を得るためには、共振周波数(すなわち、高スペクトル
精度)について正確に知ることがより重要であり、この
長い母音がいつ開始しおよび/また終了するか(すなわ
ち、時間的精度)について正確に知ることは余り重要で
はない。逆に、音声が子音列(例えば、"strike"と言う
単語の"str" )からなる場合、良好な理解しやすさを得
るためには、その正確な共振周波数を伝えること(スペ
クトル精度)よりも、高速なスペクトル変化をできるだ
け正確に伝えること(高い時間的精度)が重要である。
これらの極端な場合の中間の音声については、時間的精
度とスペクトル精度との間の効率的な妥協が望ましい。
【0035】異なるスペクトル量子化方法の所定の組み
合わせを利用し、その後、入力音声に比較して最小誤差
の合成音声をどの量子化方法が生成したかの識別をボコ
ーディングされた情報の一部として送出し、かつ、この
最適量子化方法を利用して得られた量子化スペクトル値
を送出することによって、スペクトル情報を符号化する
特に効果的な手段が得られることが判明している。これ
らの所定の量子化方法を選択するために用いる手法につ
いて以下で説明する。Bsiは、量子化スペクトル情報を
伝達するためのスーパーフレームごとに割り当てられる
ビット数であり、Bscはどのスペクトル量子化方法が用
いられたかを識別するためのスーパーフレームごとのビ
ット数である。
【0036】一例としての600bps,22.5ミリ
秒フレーム,N=4の構成の場合の有効Bsf=54ビッ
ト/スーパーフレームでは、スーパーフレームごとの量
子化スペクトル情報を表すためBsi=28〜32ビット
が割り当てられ、スーパーフレームごとの異なる量子化
方法を表すためBsc=3ビットが割り当てられる。3つ
の識別または分類(categorization)ビットにより、最大
8つの異なる量子化方法が識別できるようになる。分類
ビットBscは、さまざまな異なるスペクトル量子化方式
のレート/歪み境界曲線上の位置を符号化する。
【0037】高速な子音の遷移の場合、各フレームを粗
量子化してこれらの遷移を捕捉することが最良の方法で
あることが判明している。これは、スーパーフレームの
各フレームについてLSFを知覚的重み付けベクトル量
子化することによって行なわれることが好ましい。7〜
8ビット/フレーム(Bsi=28〜32)が10次LS
F値を符号化するために用いられているので、スペクト
ル分解能は低く、時間分解能(各フレームに一つ)は比
較的高い。この種の量子化は、子音列を正確に表すのに
十分適しており、ここで知覚的に最も重要な情報は音声
の開始および/またはスペクトル遷移である。これは、
図3のレート/歪み境界曲線の右側の部分に作用するこ
とに相当する。
【0038】定常音声(例えば、長い母音)の期間中、
スペクトル・パラメータを表すために利用できる最大ビ
ット数でスーパーフレームにおける1点を微量子化する
ことは、最良の結果を与えることが判明している。便宜
上、スーパーフレームの中心点が選ばれるが、スーパー
フレーム内の任意の他の点も利用できる。N=4および
sf=54ビット/スーパーフレームの場合、周波数ル
ックアヘッド(frequench look-ahead)を有するBsi=2
8〜32ビットのデルタ周波数スカラー量子化器がスペ
クトル情報用に便宜上用いられる。この量子化方法を用
いる場合、スーパーフレームの4つのすべてのフレーム
は補間される。これにより、高い(例えば、Bsi=28
〜32ビット)スペクトル分解能が得られるが、時間分
解能は低くなる(スーパーフレームごとに一回)。にも
かかわらず、この量子化方法は、スーパーフレームにお
ける連続的な長い母音によって実質的に構成される音声
を正確に表すのに十分適している。これは、図3のレー
ト/歪み境界の左側の部分に作用することに相当する。
【0039】非常に多くの異なる量子化方法が候補とな
るため、レート/歪み境界曲線の中央部分で作用する量
子化方法を選択することはさらに困難である。スーパー
フレームのN個のフレームを一度に2つとり、この選ば
れた2つのフレームのそれぞれを上記の長い母音を量子
化するために用いられるビット数の半分でベクトル量子
化し、N−2個の残りのフレームについて補間すること
によって最良の結果が得られることが判明している。N
=4で、Bsf=54ビット/スーパーフレームの場合、
si=28〜32ビットが量子化される2個のフレーム
間で分割され、この2個のフレームのそれぞれはBsi
2=14〜16ビットとなる。フレームを一度に2つと
ることにより、m=1〜NでS=SUM(N−m)個の
可能な組み合わせとなる。従って、N=4の場合、一度
に2つ取られる4個のフレームの6つの可能な異なる組
み合わせがあり、選ばれた2個のフレームのそれぞれは
有効スペクトル・ビットの半分で量子化される。これ
は、N=4スーパーフレーム中にスペクトルおよび時系
列情報をほぼ等しく考慮する。これらの一度に2つのフ
レームは、Bsi/4(例えば、7〜8)ビットの知覚的
に重み付けされたVQとBsi/4(例えば、7〜8)ビ
ットの知覚的に重み付けされた残留誤差VQとを用いて
便宜的に量子化される。このような量子化を行なう手段
および方法は当技術分野において周知である(例えば、
Makhoul et al., Proceedings of the IEEE, Vol. 73,
November 1985, pages 1551-1558を参照)。
【0040】S個の異なる一度に2つの量子化方法は、
レート/歪み境界の中央部分における音声について十分
な情報を与え、これは用いるべき最小量子化である。フ
レームごとに一度の量子化またはスーパーフレームごと
に一度の量子化を加えることによってえられるS+1個
の異なる量子化の方がよく、フレームごとに一度の量子
化およびスーパーフレームごとに一度の量子化の両方を
含むS+2個の異なる量子化によって最良の結果が得ら
れる。この構成が好ましい。以下で説明するように、限
られたビットのスペクトル量子化で固有の誤差や理解し
やすさの損失を低減するため、知覚的重み付けが用いら
れる。
【0041】異なるスペクトル量子化方法のそれぞれ
は、スペクトル情報を量子化するために利用可能なBsi
ビットを最大限に利用することに留意されたい。ビット
は浪費されない。このことは、量子化方法の種類または
同一性を識別するために用いられるBscビットについて
もいえる。4フレームからなるスーパーフレームは、8
つの可能な量子化方法がレート/歪み境界を十分に網羅
し、無駄なく3ビットで識別されるという利点を有す
る。
【0042】分析器によって判定される実際のスペクト
ル情報に対応する異なるスペクトル量子化を判定する
と、これらの異なるスペクトル量子化は入力スペクトル
情報と比較され、知覚的重み付けを用いて誤差が求めら
れる。量子化された入力スペクトル情報と実際の入力ス
ペクトル情報との間の差を計算する手段および方法は、
当技術分野で周知である。適用される知覚的重み付け係
数について以下で説明する。
【0043】次に、最小誤差を有するスペクトル量子化
方法が識別される。最小誤差の量子化方法を識別する分
類ビット・コードと、対応する量子化スペクトル情報ビ
ットとが共にチャンネル符号器に送られ、ピッチ,発声
およびエネルギ情報と合成され、受信機ボコーダに伝送
される。
【0044】LSF知覚的重み付け 知覚的重み付けは、スペクトル量子化の性能を向上する
のに役立つ。量子化器誤差に対するスペクトル感度は、
10のLSFのそれぞれについて計算され、互いに近接
したLSFに重みを付け、フォーマット周波数の存在を
知らせる。各LSF(n)(n=1〜10)の場合、D
eltaFreqDwn(n),LSF(n)−FSF
(n−1),DeltaFreqUp(n),LSF
(n+1)−LSF(n)が計算される。DeltaF
reqDwnまたはDEltaFreqUpが小さい場
合、スペクトル感度値は比較的大きく、このLSFは正
確に量子化するために特に重要であることを知らせる。
【0045】スペクトル感度は、10個の量子化されて
いないLSF(SpecSensUnQ(n))と、1
0個の量子化されたLSF(SpecSensQ
(n))とについて計算される。これらの値は、重み
(n)(n=1〜10)と共に用いられ、フレームの一
つのTotalSpectralErr値を算出する。
TotalSpectralErrは、(n=1〜10
において)重み付けされたLSF量子化距離と、各LS
Fの量子化されたおよび量子化されていないスペクトル
感度の和との積の平方を加算する。各LSFの重みは、
LSFを小さく変化させることによって生じるスペクト
ル誤差に比例し、10個のLSFのそれぞれについて正
確な量子化の相対的な重要性を実質的に階級付ける。
【0046】上記のTotalSpectralErr
は、一つのフレームの量子化器誤差を特徴付ける。To
talSpectralErrと同じ等式を用いる同様
なスペクトル変化パラメータは、現在のフレームと前の
フレームの量子化されていないLSFの間で計算され、
また現在のフレームとそれ以降のフレームとの間でも計
算される。これら2つのスペクトル変化値が加算される
と、SpecChangeUnQ(m)となる。同様
に、スペクトル変化が現在のフレームと前のフレームの
量子化されたLSFの間で計算され、現在のフレームの
量子化されたスペクトルと、その後のフレームの量子化
されたスペクトルとの間でTotalSpectral
Err(m)と加算されると、これはSpecChan
geQ(m)となる。
【0047】m=1〜Nにおいて、Smoothnes
sErr(m)は、各フレームについてSpecCha
ngeQおよびSpecChangeUnQから計算さ
れる。各フレームのSmoothnessErrは次式
のように計算される。
【0048】 SmoothnessErr(m)=SpectralChangeQ(m)/SpectralChangeUnQ(m)-1.0 従って、量子化されたスペクトルが量子化されていない
スペクトルと同様な変化を有する場合、小さいスムーズ
ネス誤差が存在する。量子化されたスペクトルが量子化
されていないスペクトル変化よりもはるかに大きいスペ
クトル変化を有する場合、スムーズネス誤差は大きくな
る。
【0049】最後に、N個のフレームのそれぞれについ
てSmoothnessErrとTotalSpect
ralErrとを加算することにより、スーパーフレー
ム全体についてTotalPerceptualErr
値が計算される。
【0050】慎重な聴取者試験では、異なる量子化器が
個別に試験され、その後すべて一緒に試験された(最良
を選ぶシステム)。各量子化器はN個のフレームで予想
どおり挙動し、子音に対してはBsi/4VQが最高であ
り、母音に対してはスーパーフレームごとに一度のBsi
スカラー量子化器が最高であり、中間音に対しては一度
に2回のBsi/4+Bsi/4VQがよかった。分析され
ているフレームの音声内容についてシステムが最適量子
化器を選択できるようにすべてのS+2個の量子化器が
アクティブになると、合成音声の品質は、単体で動作す
る個別の音声量子化器の品質を上回る。
【0051】有声/無声符号化 試験システムの原音声パラメータを与えるために用いら
れたモトローラ社製GP−VCMは、フレームごとに2
度有声/無声(V/UV)判定情報を与えるが、これは
不可欠ではない。フレームごとに一度有声/無声情報を
送っても十分であることがわかっている。一部の従来の
システムでは、V/UV情報はLSFパラメータ情報と
組み合わされるか、あるいはその情報に重畳されている
が、これはこれらの情報が相関しているためである。し
かし、スペクトル情報を符号化する本構成では、そうす
ることは実際的ではない。なぜならば、S個の一回に2
つ(two-at-a-time) の量子化方法や、スーパーフレーム
ごとに一回(once per superframe) の量子化方法ではN
−2個のフレームなど、量子化されていないフレームに
ついてLSF情報を得るため相関を利用しているためで
ある。
【0052】4つのフレームからなるスーパーフレーム
では、16の可能な発声の組み合わせ、すなわちバイナ
リ・ビット0000ないし1111のすべての組み合わ
せがある。「0」はフレームが無声であることを意味
し、「1」はフレームが有声であることを意味する。従
って、フレームごとに一回、すべての発声情報を送出す
るためには、4ビットで十分である。これは、スーパー
フレームごとに4x4=16ビットとなる。しかし、1
6の可能な発声の組み合わせのうち、約半分は比較的確
率の低い事象であることが大きな音声データベースを調
べることにより判明している。これについて以下に示さ
れており、左側の表の8つの組み合わせの方が確率が高
く、右側の表の8つの組み合わせは確率が低い。
【0053】
【表1】 発声ビット ヒット数 発声ビット ヒット数 0000 46815 1001 628 1111 38425 1101 592 1110 4161 1011 582 0111 4161 0110 450 0011 4029 0100 300 1100 4019 0010 290 0001 3891 1010 88 1000 3691 0101 78
【0054】上の左側の表の統計的に確率の高い事象に
基づいて発声情報を符号化するため、3ビットの4次元
ベクトル量子化器(4dVQ)が用いられた。実際の音
声分析から最大数の発声判定に一致する量子化発声シー
ケンスが選択される。複数のVQ要素(量子化発声シー
ケンス)が実際の発声シーケンスに一致する関連(tie)
ある場合、隣接する左(以前)および右(以降)のスー
パーフレームとの最良の発声連続性を有するものをシス
テムは優先する。
【0055】この3ビットVQ方法により、一般的な1
ビット/フレームの符号化で得られるものとほとんど等
しい品質の音声が得られるが、各フレームを別々に符号
化する従来に方法によるスーパーフレーム当たりNx4
=16ビットに比べ少ないビット、例えば4フレームか
らなるスーパーフレームにおいて3ビットで得られる。
このことは、高能率符号器において重要な利点となる。
ここで節約されるビットは他の音声情報に有利に適用さ
れ、合成音声の全体的な品質を改善する。
【0056】発声の知覚的重み付け 発声のすべての場合が発声VQによって表されるわけで
はないので、発声シーケンスの伝送において誤差が生じ
ることがある。発声誤差の知覚を最小限に押さえる発声
シーケンスを選択することにより、知覚される音声品質
劣化を最小限に押さえるため、知覚的重み付けが用いら
れる。
【0057】Tremain et al.は、正しくない発声で符号
化されるフレームのRMSエネルギを知覚的誤差の尺度
として用いている。このシステムでは、発声誤差を有す
るフレームからの知覚的誤差の寄与は PE(N)=発声誤差(N)*有声確率(N) となり、全発声知覚的誤差は VPE=Sum(M=1〜N)PE(M) すなわち、各発声VQコードブック・エントリで符号化
された場合に、各フレームからの知覚的誤差の和とな
る。有声確率(Voicedness)とは、そのフレームが発声さ
れる確率を表すパラメータであり、発声に相関する音響
特徴からの多くの票(votes) の和として導かれる。これ
には、高度の低周波エネルギ,75〜400Hz帯にお
ける周期性およびピーク/RMS比の高いLPC残留が
含まれる。これらのパラメータは、有声確率が有声分が
高い場合の+1から無声分が高い場合の−1までになる
ように重み付けされ、加算される。
【0058】エネルギ符号化 音声波形のエネルギ輪郭は、とくに遷移中において、理
解しやすさとって重要である。RMSエネルギが一般に
測定される。エネルギ開始(onset) およびオフセット
は、ある子音を別の子音と区別するのに重要な場合が多
いが、母音に関してはあまり重要ではない。従って、定
常状態におけるエネルギ精度を犠牲にしてもエネルギ遷
移の正確な符号化を重視する量子化方法を利用すること
が重要である。スーパーフレームごとに9〜12ビット
の4次元ベクトル量子化器(4dVQ)を用いて、エネ
ルギ情報はスーパーフレームにおいて有利に量子化され
ることが判明している。10ビット量子化器が好まし
い。これにより、2.5ビット/フレームしかならな
い。4dVQは、周知のLinde-Buzo-Gray 方法を利用し
て生成することができる。ボコーダはスーパーフレーム
ごとのNエネルギ値をデシベル(db)に変換し、その
後、210=1024個のベクトル量子化器エントリを最
良一致(best fit)について検索する。検索手順は、知覚
的に重み付けされた距離尺度を利用して、1024の可
能性のなかから最良の4次元量子化ベクトルを見つけ出
す。
【0059】最も多いのは、RMSエネルギが4つのす
べてのフレームにおいて一定であることであり、あるい
は4つのフレームの1つに急激な上下があることがわか
っている。従って、符号化しなければならないRMSエ
ネルギの組み合わせの総数はあまり多くない。それで
も、ベクトル量子化器をエネルギの知覚的に重要な上下
に集中させることが好ましい。
【0060】知覚的なエネルギの重み付けは、前後のフ
レームに対してエネルギの上下で符号化誤差を重み付け
ることによって行なわれる。そのスケールは、13db
の上昇または下降が局部的な重み付けを2倍にするよう
になる。1つのフレームにおけるエネルギの下降または
パルスは知覚的重み付けを3倍にし、高速な遷移が生じ
た場合にその事象を強調する。好適な手順は次のように
なる:1.スーパーフレームにおける4つのフレームの
それぞれのRMSエネルギをdbに変換する;2.VQ
RMSエネルギ・ライブラリにおけるセルのそれぞれ
について、RMSエネルギ誤差は次式によって重み付け
される: Weight(i)=1+A0*[ΔRMSleft+ΔRMSright] ただし、i=1,2,3,...,N および RMSerror=RMS(i)-RMSVQ(i), ΔRMSleft=ABS(RMS(i)-RMS(i-1)), ΔRMSright=ABS(RMS(i)-RMS(i+1)), RMSPWerror=SUM(i=1,N) [(Weight(i)*RMSerror(i)]**2 ここで* は乗算を表し、**は累乗を表し、ABS は絶対値
を表し、SUM はi=1からi=Nについてダミー変数に
おける和を表し、RMS はdb単位の実際の平方根エネル
ギ値であり、RMSVQ はベクトル量子化されたRMS 値(こ
れは量子化誤差だけRMS 値と異なる)であり、「Weigh
t」は各フレームの知覚的重み付けであり、「left」お
よび「right 」は直前および直後のフレームをそれぞれ
表す。VQRMSエネルギ・ライブラリ内のセルは、当
技術分野で一般的なように、非常に多くの音声サンプル
のエネルギ特性を分析することによって決定される。R
MS量子化器は、RMS VQライブラリ内の各セルを
巡回し、4dVQベクトルをスーパーフレームの4つの
計算されたRMS値と比較し、どの知覚的に重み付けさ
れたセルが最良のRMSエネルギ量子化ベクトルになる
かを判定する。次に、選択された知覚的に重み付けされ
たRMSエネルギVQセルを表すビットが音声パラメー
タ・ビット列内に入れられ、受信機に伝送される。
【0061】ピッチ符号化 フレームごとに少なくとも64の周波数があるように、
各フレームのピッチ周波数を符号化するため、少なくと
も6ビットが一般に用いられる。これは、N=4の場合
24ビット/スーパーフレームになり、低ビット・レー
トのチャンネルでは実際的ではない。従って、より少な
いビットで実質的に同じ情報を送出する方法を見つける
ことが望ましい。
【0062】好適な実施例では、ピッチ情報はスーパー
フレームごとに5ビットのみ(すなわちBp=5)、つ
まり平均1.25ビット/フレームのみを用いて量子化
される。これは、量子化ルックアップ・テーブルを利用
してスーパーフレームごとに一つのピッチ値のみを符号
化することによって便宜的に行なわれる。
【0063】スーパーフレームごとのピッチ・ビットB
pは、従来技術と同じ周波数範囲をカバーする。従っ
て、Bp=5の場合、周波数ステップは対数周波数また
は対数期間スケールにおいて若干粗くなる。5ビットは
32レベルのピッチ値を与え、これは標準的なLPCピ
ッチ範囲の3オクターブにおいて対数的に分布される。
全スーパーフレームが無声の場合、ピッチは符号化され
ず、Bpビットは誤り訂正に割り当てられる。
【0064】ピッチ符号化システムは、音声分析器から
受け取ったピッチ値をスーパーフレーム発声パターンの
関数として補間する。便宜上、ピッチ値はスーパーフレ
ームの中心点にあるとみなすことができる。しかし、も
しあれば発声遷移の生じるスーパーフレームにおける位
置を表すように選択することが望ましい。従って、標本
化点はスーパーフレームの任意の位置にあってもよい
が、発声遷移の軌跡が好ましい。
【0065】スーパーフレームのすべてのフレームが有
声である場合、スーパーフレームにおける平均ピッチが
符号化される。スーパーフレームが発声開始を含んでい
る場合、平均は開始(スタート)におけるピッチ値にシ
フトされる。スーパーフレームが発声オフセット(停
止)を含む場合、平均はオフセットにおけるピッチ値に
シフトされる。このように、時間と共に徐々に変わるピ
ッチ輪郭は、スーパーフレームごとに一回量子化される
としても、より正確に補間される。
【0066】ピッチの知覚的重み付け ピッチは、スーパーフレームごとに一回、5ビットで符
号化される。32個の値は、70Hzから400Hzの
周波数範囲の対数において均一に分布される。スーパー
フレームの4つのすべてのフレームが有声である場合、
ピッチは4つのすべてのフレームの平均ピッチに最も近
いピッチ符号として符号化される。スーパーフレームが
発声の開始を含んでいる場合、開始を有するフレームの
ピッチ周波数に対する重み付けの2倍で平均が計算され
る。同様に、スーパーフレームが発声オフセットを含む
場合、最後の有声フレームにそのピッチ値に対する重み
の2倍が付けられる。これにより、符号器はピッチ更新
レートが遅くても発声の開始および終了においてピッチ
曲線をより正確にモデル化することが可能になる。 Onset(m)=/Voicing(m-1) .and. Voicing(m) Offset(m)=Voicing(m) .and. /Voicing(m+1) PWeight(m)=Voicing(m)*(1+Onset(m)+Offset(m)) AvgPitch= SUM(m=1,4)(Pweight(m)*Pitch(m))/Sum(m=1,4)(Pweight (m)) 誤差管理 音声情報が低または中レートで符号化されると、各ビッ
トは期間,振幅またはスペクトル形状のいずれかで音声
の有意量を表す。1ビット誤差は、高ビット・レートか
つより高い冗長度で符号化された音声の場合に比べ、は
るかに目立つ欠陥(artifacts) を生じる。
【0067】さらに、本明細書のようにベクトル量子化
器を用いる場合、1ビット誤差は著しく異なるパラメー
タ値を生じることがあるが、スカラー符号器の場合に
は、ビット誤差は一つのパラメータのみをシフトさせる
のが一般的である。1ビット誤差に起因する大きな欠陥
を最小限に押さえるため、すべてのVQライブラリは最
大固有ベクトルの対角線または分散(variance)の主軸と
共に分類(sort)される。一般に、この構成では、ビット
誤差によってかなり同様なパラメータ・セットが生じ
る。
【0068】スーパーフレームのすべてのフレームが無
声の場合、ピッチ・ビットは誤り訂正用として利用でき
る。統計的には、これは約40〜45パーセントの時間
で生じると期待される。好適な実施例では、Bpビット
は(例えば3ビットの)フォーワード誤り訂正ビットと
して再度割り当てられ、Bsc符号を訂正し、また残りの
ビット(例えば2ビット)はすべて0と定義され、これ
は発声フィールドがすべて0であると正しく解釈され、
ビット誤差がないことを確認するために用いられる。
【0069】さらに、スペクトル符号の一部におけるビ
ット誤差は検出可能な欠陥を導入することがあり、その
ため欠陥によって生じる外乱を緩和することができる。
例えば、スペクトルが(8+8ビット)のVQおよび残
留VQと共にS個の(一度の2フレーム)量子化器の一
つを用いて符号化される場合、いずれかのVQにおける
ビット誤差は人間の音声としては非単調または非現実的
なLSF周波数を生じることがある。同じ効果は、スカ
ラー(スーパーフレームごとに一回)量子化器において
も発生することがある。これらの非現実的周波数符号は
検出され、除去(trap out)されて、疑わしいスペクトル
情報は直前のフレームの値においてクランプすることに
より、あるいは隣接フレームから補外または補間するこ
とによって置換される。これは、送信機のおける符号化
誤差や、受信機における復号誤差または伝送誤差に対す
る感度を大幅に低減する。
【0070】チャンネル容量や、主要音声パラメータに
対するビットの割り当てに応じて、伝送誤り訂正用にパ
リティ・ビットを加えてもよい。例 図4ないし図7は、高品位600bpsボコーダを作製
するために適用される本発明の方法を示すフローチャー
トである。汎用コンピュータまたは図2に示すようなボ
コーダのメモリに入れられると、図4,図5のフローチ
ャートとして示されるプログラムはコンピュータ・シス
テムを再構築して、音声を取り込み、本明細書の説明に
従ってこの音声を量子化し、符号化して伝送する。受信
機では、プログラムはプロセッサを再構築して、符号化
ビット列を受信し、量子化された音声パラメータを抽出
し、それに基づいて音声を合成し、聴取者に伝達する。
【0071】図4,図5において、音声100は例えば
モトローラ社製GP−VCMのような音声分析器102
に送られ、この分析器は(多くの音声のフレームが望ま
しいが)この例では音声の4つのフレームのスペクト
ル,ピッチ,発声およびエネルギを取り出す。ブロック
100の下にあり点線の矢印のついた角の丸いブロック
101は、このブロックが指し示すブロックにおいて実
行される機能を示し、それ自体では機能的でない。
【0072】ブロック102によって与えられる音声分
析情報はブロック104に送られ、ここで発声判定が行
なわれる。その結果、2つのエントリが関連する(ブロ
ック106参照)場合には、ブロック108をアクティ
ブにする命令が送られ、これはブロック110に進み、
それ以外の場合には、情報はブロック110に直接流れ
る。この時点で、発声量子化は完了する。
【0073】ブロック110,112において示される
ように、ここでRMSエネルギ量子化が行なわれ、ブロ
ック114においてピッチが量子化される。ブロック1
14〜136において、モトローラ社製GP−VCMに
よって与えられるRCがLSFに変換され、別のスペク
トル量子化が実行され、最も適合する(best fit)ものが
選ばれる。補間のためにブロック118においてルック
・アヘッドおよびルック・バック機能が設けられている
ことに留意されたい。ブロック120(図5)は、先に
説明したように、スーパーフレームの各フレームを一つ
の異なるスペクトル量子化方式として個別に量子化す
る。ブロック122〜130は、前に説明したように一
度に2回(two-at-a-time) の量子化を行ない、ブロック
132はスーパーフレームごとに一回(once-per-superf
rame) の量子化を行なう。知覚的に重み付けされた誤差
全体は、ブロック132において判定され、ブロック1
34〜136において比較が行なわれる。
【0074】量子化された音声パラメータのすべてを与
えると、ブロック138においてビットがビット列内に
入れられ、スクランブルされ(暗号化が望ましい場
合)、チャンネル送信機140に送られる。図4,図5
において実行される機能は、図2の装置によって容易に
行なうことができる。
【0075】受信機の機能は図6,図7に示されてい
る。図5のブロック140からの送信信号は、図6のブ
ロック150において受信され、復号器152に送られ
る。ブロック150の下のブロック151は、図4,図
5の符号101と同様な符号にすぎない。
【0076】ブロック152はスクランブルを解除し、
量子化された音声パラメータを分離し、これをブロック
154に送り、ここで発声が復号される。音声情報はブ
ロック156,158に送られ、ピッチが復号され、そ
の後ブロック160に送られ、エネルギ情報が抽出され
る。
【0077】スペクトル情報は、図示のようにブロック
162〜186において復元される。「補間」と記され
たブロック(168,175)は、ブロック178を指
す矢印169によって識別される機能を表し、ブロック
168,175で行なわれる補間分析はブロック178
で行なわれるものと同様であることを示す。ブロック1
88において、LSFはLPC反射係数に変換されるこ
とが望ましく、それによってブロック190のモトロー
ラ社製GP−VCMはこの係数と、ピッチ,エネルギお
よび発声の他の音声パラメータとを利用して、音声19
2を合成して聴取者に伝達することができるようにな
る。
【0078】図4〜図7によって説明される一連の事象
は音声のそれぞれのフレームに対して実行され、この処
理は音声がボコーダを流れている限り何度も繰り返され
ることが当業者に理解される。量子化/符号化および量
子化解除(dequantization)/復号は特定の順序、例え
ば、最初に発声、次にエネルギ、次にピッチ、そしてス
ペクトルという順序で行なわれると図4以降に示されて
いるが、これは便宜上にすぎず、この順序は変えてもよ
く、あるいは量子化/符号化は並列に進んでもよいが、
ただし、すでに説明したように発声情報はピッチ符号化
等に必要であることが、本明細書の説明に基づいて当業
者に理解される。従って、図4〜図7の例に示される順
序は限定することを意図するものではない。
【0079】評価結果 上記の一例としての600bpsボコーダの音声品質の
試験から、従来の2400bpsのLPC10/Eボコ
ーダの品質に匹敵する音声品質が得られることがわか
る。今回用いられた大幅な低チャンネル容量化を考える
と、これは大きな改善である。
【0080】スケーリング 本発明の方法および手段は、以上説明してきた特定例で
示されたレート以外のチャンネル通信レートを用いるシ
ステムにも適用される。一般に、スーパーフレーム単位
では、望ましいビット割り当ては、最適スペクトル量子
化方法を識別するためのBsfが5〜6%,量子化スペク
トル情報が50〜60%,発声が5〜8%,エネルギが
15〜25%,ピッチが9〜10%,同期が1〜2%,
誤り訂正が0〜2%である。これらの数値は、スーパー
フレーム当たりの有効なビットBsfのパーセント値を示
す。
【0081】本発明は問題を解決し、前に述べた目的を
達成し、本明細書で指摘した実質的な利点、すなわち、
音声パラメータが特に簡単かつ効率的な方法で低ビット
・レート通信用に符号化され、簡単な方程式により知覚
的重み付けが音声パラメータ量子化に適用され、従来の
知覚的重み付け方式に比べて演算の複雑度を低減し、し
かも優れた性能を発揮することであり、またスペクト
ル,エネルギ,発声およびピッチ情報を符号化し、従来
の方法で固有の誤差や理解しにくさを低減し、あるいは
避けることができる特に効率的な方法が発見されたこと
が、以上の説明に基づき当業者に明らかである。
【0082】本発明について具体的な方法や装置に関し
て説明してきたが、これらは説明の便宜上にすぎず、限
定されるものではなく、また本明細書における説明に基
づいて当業者に理解されるように、本発明は他の装置や
段階にも適用され、本開示に基づいて当業者に想起され
るこれらおよび他の変形は特許請求の範囲に含むものと
する。
【図面の簡単な説明】
【図1】ボコーダ通信システムの簡略ブロック図であ
る。
【図2】図1の通信システムで用いられる音声分析器/
合成器/符号器の簡略ブロック図である
【図3】異なるビット・レートで動作するボコーダのレ
ート/歪み境界曲線である。
【図4】本発明による一例の600bpsボコーダのフ
ローチャートである。
【図5】本発明による一例の600bpsボコーダのフ
ローチャートである。
【図6】本発明による一例の600bpsボコーダのフ
ローチャートである。
【図7】本発明による一例の600bpsボコーダのフ
ローチャートである。
【符号の説明】
10 ボコーダ通信システム 12 入力音声 14 音声分析器 16 符号器 18 通信チャンネル 20 復号器 22 音声合成器 24 入力音声の複製 30 ボコーダ 32 入力 34 利得調整ブロック 36 A/D変換器 38 マイクロプロセッサ 40 バス 42 ROM 44 SRAM 46 アドレス・デコーダ 48 出力 50 入力 52 D/A変換器 54 利得調整ブロック 56 出力

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 入力音声(52,100)を分析符号化
    する方法において、前記入力音声(52,100)はス
    ペクトル情報によって少なくとも特徴付けられるフレー
    ムに分割される方法であって:N≧3個のフレームから
    なるスーパーフレーム(102)を形成する段階;N個
    のフレームのS個の組み合わせを一度に2回選択(12
    2)(ただし、S=SUM(N−m),m=1〜N)
    し、選択されたフレームを与える段階;前記選択された
    フレームのスペクトル情報を量子化(124)し、S個
    の異なる量子化されたスペクトル情報値を与える段階;
    量子化されていない入力音声スペクトルに比べて、前記
    S個の異なる量子化されたスペクトル情報値のうちどれ
    が最小誤差となるかを判定する(126,128,13
    0,132,134,136)段階;および前記の段階
    で判定された量子化されたスペクトル情報の最小誤差値
    を用いて、前記入力音声(52,100)を符号化する
    (136,138)段階;によって構成されることを特
    徴とする方法。
  2. 【請求項2】 入力音声(52,100)を分析符号化
    する装置(30)であって:前記入力音声(52,10
    0)をフレームに分割(102)する手段(38);入
    力音声(52,100)のフレームについてスペクトル
    情報を判定(116)する手段(38);N≧2個のフ
    レームからなるスーパーフレームを形成する(102)
    手段(38);N個のフレームのS個の組み合わせ(た
    だし、S=SUM(N−m),m=1〜N)を選択(1
    22,124,126,128,130)し、選択され
    たフレームのスペクトル情報を量子化(122,12
    4,126,128,130,132)して、前記入力
    音声(52,100)からある誤差量だけ異なる復元音
    声(192)となるS個の異なる量子化されたスペクト
    ル情報値を与える手段(38);量子化されていない入
    力音声スペクトルに比べ、前記S個のスペクトル情報値
    のうちどれが最小誤差を有するかを判定する(132,
    134,136)手段(38);および前記段階で判定
    された量子化された最小誤差のスペクトル情報値を用い
    て、前記入力音声(52,100)を符号化する手段
    (38);によって構成されることを特徴とする装置
    (30)。
JP4208591A 1991-07-19 1992-07-14 低ビット・レート・ボコーダ手段および方法 Pending JPH05197400A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/732,977 US5255339A (en) 1991-07-19 1991-07-19 Low bit rate vocoder means and method
US732977 1991-07-19

Publications (1)

Publication Number Publication Date
JPH05197400A true JPH05197400A (ja) 1993-08-06

Family

ID=24945695

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4208591A Pending JPH05197400A (ja) 1991-07-19 1992-07-14 低ビット・レート・ボコーダ手段および方法

Country Status (3)

Country Link
US (1) US5255339A (ja)
EP (1) EP0523979A3 (ja)
JP (1) JPH05197400A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002525662A (ja) * 1998-09-11 2002-08-13 モトローラ・インコーポレイテッド 遅延輪郭調整を利用して情報信号を符号化する方法および装置
JP2002527778A (ja) * 1998-10-06 2002-08-27 タレス スピーチコーダパラメータの量子化方法
JP2011150357A (ja) * 1999-09-22 2011-08-04 Microsoft Corp スーパーフレーム構造のlpcハーモニックボコーダ
USRE43099E1 (en) 1996-12-19 2012-01-10 Alcatel Lucent Speech coder methods and systems

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993005502A1 (en) * 1991-09-05 1993-03-18 Motorola, Inc. Error protection for multimode speech coders
FR2702590B1 (fr) * 1993-03-12 1995-04-28 Dominique Massaloux Dispositif de codage et de décodage numériques de la parole, procédé d'exploration d'un dictionnaire pseudo-logarithmique de délais LTP, et procédé d'analyse LTP.
US5659659A (en) * 1993-07-26 1997-08-19 Alaris, Inc. Speech compressor using trellis encoding and linear prediction
US5602961A (en) * 1994-05-31 1997-02-11 Alaris, Inc. Method and apparatus for speech compression using multi-mode code excited linear predictive coding
US5751903A (en) * 1994-12-19 1998-05-12 Hughes Electronics Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset
JPH09152896A (ja) * 1995-11-30 1997-06-10 Oki Electric Ind Co Ltd 声道予測係数符号化・復号化回路、声道予測係数符号化回路、声道予測係数復号化回路、音声符号化装置及び音声復号化装置
US5774849A (en) * 1996-01-22 1998-06-30 Rockwell International Corporation Method and apparatus for generating frame voicing decisions of an incoming speech signal
US5806027A (en) * 1996-09-19 1998-09-08 Texas Instruments Incorporated Variable framerate parameter encoding
JP3067676B2 (ja) * 1997-02-13 2000-07-17 日本電気株式会社 Lspの予測符号化装置及び方法
US5832443A (en) * 1997-02-25 1998-11-03 Alaris, Inc. Method and apparatus for adaptive audio compression and decompression
US6044343A (en) * 1997-06-27 2000-03-28 Advanced Micro Devices, Inc. Adaptive speech recognition with selective input data to a speech classifier
US6032116A (en) * 1997-06-27 2000-02-29 Advanced Micro Devices, Inc. Distance measure in a speech recognition system for speech recognition using frequency shifting factors to compensate for input signal frequency shifts
US6070136A (en) * 1997-10-27 2000-05-30 Advanced Micro Devices, Inc. Matrix quantization with vector quantization error compensation for robust speech recognition
US6067515A (en) * 1997-10-27 2000-05-23 Advanced Micro Devices, Inc. Split matrix quantization with split vector quantization error compensation and selective enhanced processing for robust speech recognition
US6092040A (en) * 1997-11-21 2000-07-18 Voran; Stephen Audio signal time offset estimation algorithm and measuring normalizing block algorithms for the perceptually-consistent comparison of speech signals
US6208959B1 (en) 1997-12-15 2001-03-27 Telefonaktibolaget Lm Ericsson (Publ) Mapping of digital data symbols onto one or more formant frequencies for transmission over a coded voice channel
FI113571B (fi) * 1998-03-09 2004-05-14 Nokia Corp Puheenkoodaus
US6094629A (en) * 1998-07-13 2000-07-25 Lockheed Martin Corp. Speech coding system and method including spectral quantizer
US6192335B1 (en) 1998-09-01 2001-02-20 Telefonaktieboiaget Lm Ericsson (Publ) Adaptive combining of multi-mode coding for voiced speech and noise-like signals
US6219642B1 (en) 1998-10-05 2001-04-17 Legerity, Inc. Quantization using frequency and mean compensated frequency input data for robust speech recognition
US6347297B1 (en) 1998-10-05 2002-02-12 Legerity, Inc. Matrix quantization with vector quantization error compensation and neural network postprocessing for robust speech recognition
US6463407B2 (en) * 1998-11-13 2002-10-08 Qualcomm Inc. Low bit-rate coding of unvoiced segments of speech
US6658112B1 (en) * 1999-08-06 2003-12-02 General Dynamics Decision Systems, Inc. Voice decoder and method for detecting channel errors using spectral energy evolution
ATE553472T1 (de) * 2000-04-24 2012-04-15 Qualcomm Inc Prädikitve dequantisierung von stimmhaften sprachsignalen
EP1303857A1 (en) * 2000-07-05 2003-04-23 Koninklijke Philips Electronics N.V. Method of converting line spectral frequencies back to linear prediction coefficients
FR2839836B1 (fr) * 2002-05-16 2004-09-10 Cit Alcatel Terminal de telecommunication permettant de modifier la voix transmise lors d'une communication telephonique
US7668712B2 (en) 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
US7701886B2 (en) * 2004-05-28 2010-04-20 Alcatel-Lucent Usa Inc. Packet loss concealment based on statistical n-gram predictive models for use in voice-over-IP speech transmission
US8219391B2 (en) * 2005-02-15 2012-07-10 Raytheon Bbn Technologies Corp. Speech analyzing system with speech codebook
US7707034B2 (en) 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US7177804B2 (en) 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7831421B2 (en) 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
US8477760B2 (en) * 2005-11-29 2013-07-02 Alcatel Lucent Paris Method and apparatus for performing active packet bundling in a voice over IP communications system based on voice concealability
US8423852B2 (en) * 2008-04-15 2013-04-16 Qualcomm Incorporated Channel decoding-based error detection
EP2301021B1 (en) * 2008-07-10 2017-06-21 VoiceAge Corporation Device and method for quantizing lpc filters in a super-frame
MY180423A (en) * 2014-07-28 2020-11-28 Samsung Electronics Co Ltd Signal encoding method and apparatus, and signal decoding method and apparatus
CN107077855B (zh) 2014-07-28 2020-09-22 三星电子株式会社 信号编码方法和装置以及信号解码方法和装置

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3873776A (en) * 1974-01-30 1975-03-25 Gen Electric Alarm arrangement for a time-division multiplex, pulse-code modulation carrier system
US4220819A (en) * 1979-03-30 1980-09-02 Bell Telephone Laboratories, Incorporated Residual excited predictive speech coding system
US4330689A (en) * 1980-01-28 1982-05-18 The United States Of America As Represented By The Secretary Of The Navy Multirate digital voice communication processor
US4625286A (en) * 1982-05-03 1986-11-25 Texas Instruments Incorporated Time encoding of LPC roots
US4536886A (en) * 1982-05-03 1985-08-20 Texas Instruments Incorporated LPC pole encoding using reduced spectral shaping polynomial
DE3276651D1 (en) * 1982-11-26 1987-07-30 Ibm Speech signal coding method and apparatus
US4516241A (en) * 1983-07-11 1985-05-07 At&T Bell Laboratories Bit compression coding with embedded signaling
US4630300A (en) * 1983-10-05 1986-12-16 United States Of America As Represented By The Secretary Of The Navy Front-end processor for narrowband transmission
IT1180126B (it) * 1984-11-13 1987-09-23 Cselt Centro Studi Lab Telecom Procedimento e dispositivo per la codifica e decodifica del segnale vocale mediante tecniche di quantizzazione vettoriale
CA1245363A (en) * 1985-03-20 1988-11-22 Tetsu Taguchi Pattern matching vocoder
US4922539A (en) * 1985-06-10 1990-05-01 Texas Instruments Incorporated Method of encoding speech signals involving the extraction of speech formant candidates in real time
US4797925A (en) * 1986-09-26 1989-01-10 Bell Communications Research, Inc. Method for coding speech at low bit rates
US4890327A (en) * 1987-06-03 1989-12-26 Itt Corporation Multi-rate digital voice coder apparatus
US4910781A (en) * 1987-06-26 1990-03-20 At&T Bell Laboratories Code excited linear predictive vocoder using virtual searching
US4899385A (en) * 1987-06-26 1990-02-06 American Telephone And Telegraph Company Code excited linear predictive vocoder
US4815134A (en) * 1987-09-08 1989-03-21 Texas Instruments Incorporated Very low rate speech encoder and decoder
JPH069345B2 (ja) * 1987-09-26 1994-02-02 シャープ株式会社 音声分析合成装置
US4852179A (en) * 1987-10-05 1989-07-25 Motorola, Inc. Variable frame rate, fixed bit rate vocoding method
US4817157A (en) * 1988-01-07 1989-03-28 Motorola, Inc. Digital speech coder having improved vector excitation source
US4896361A (en) * 1988-01-07 1990-01-23 Motorola, Inc. Digital speech coder having improved vector excitation source
DE3883519T2 (de) * 1988-03-08 1994-03-17 Ibm Verfahren und Einrichtung zur Sprachkodierung mit mehreren Datenraten.
EP0331857B1 (en) * 1988-03-08 1992-05-20 International Business Machines Corporation Improved low bit rate voice coding method and system
FR2631146B1 (fr) * 1988-05-04 1991-05-10 Thomson Csf Procede et dispositif de codage de l'energie du signal vocal dans des vocodeurs a tres faibles debits
US4914699A (en) * 1988-10-11 1990-04-03 Itt Corporation High frequency anti-jam communication system terminal
US4975956A (en) * 1989-07-26 1990-12-04 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
US4980916A (en) * 1989-10-26 1990-12-25 General Electric Company Method for improving speech quality in code excited linear predictive speech coding

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE43099E1 (en) 1996-12-19 2012-01-10 Alcatel Lucent Speech coder methods and systems
JP2002525662A (ja) * 1998-09-11 2002-08-13 モトローラ・インコーポレイテッド 遅延輪郭調整を利用して情報信号を符号化する方法および装置
JP2002527778A (ja) * 1998-10-06 2002-08-27 タレス スピーチコーダパラメータの量子化方法
JP2011150357A (ja) * 1999-09-22 2011-08-04 Microsoft Corp スーパーフレーム構造のlpcハーモニックボコーダ

Also Published As

Publication number Publication date
EP0523979A3 (en) 1993-09-29
EP0523979A2 (en) 1993-01-20
US5255339A (en) 1993-10-19

Similar Documents

Publication Publication Date Title
JPH05197400A (ja) 低ビット・レート・ボコーダ手段および方法
EP1222659B1 (en) Lpc-harmonic vocoder with superframe structure
EP2038883B1 (en) Vocoder and associated method that transcodes between mixed excitation linear prediction (melp) vocoders with different speech frame rates
JP4270866B2 (ja) 非音声のスピーチの高性能の低ビット速度コード化方法および装置
JP2002533772A (ja) 可変レートスピーチコーディング
AU768744B2 (en) Method for quantizing speech coder parameters
EP1204968B1 (en) Method and apparatus for subsampling phase spectrum information
EP1597721B1 (en) 600 bps mixed excitation linear prediction transcoding
JPH11513813A (ja) 反復的な音の圧縮システム
JPH09508479A (ja) バースト励起線形予測
Drygajilo Speech Coding Techniques and Standards
Koyama et al. Fully vector-quantized multipulse LPC at 4800 bps
Viswanathan et al. A harmonic deviations linear prediction vocoder for improved narrowband speech transmission
GB2352949A (en) Speech coder for communications unit
GB2266213A (en) Digital signal coding
Viswanathan et al. Medium and low bit rate speech transmission
Gardner et al. Survey of speech-coding techniques for digital cellular communication systems