JP2002527778A

JP2002527778A - スピーチコーダパラメータの量子化方法

Info

Publication number: JP2002527778A
Application number: JP2000575121A
Authority: JP
Inventors: フィリップグルネイ，; フレデリックシャルティエ，
Original assignee: タレス
Priority date: 1998-10-06
Filing date: 1999-10-01
Publication date: 2002-08-27
Anticipated expiration: 2019-10-01
Also published as: AU768744B2; DE69902480D1; CA2345373A1; MXPA01003150A; JP4558205B2; ATE222016T1; AU5870299A; FR2784218A1; KR20010075491A; IL141911A0; EP1125283B1; WO2000021077A1; DE69902480T2; FR2784218B1; EP1125283A1; TW463143B; US6687667B1

Abstract

(57)【要約】Ｎ個の連続したフレームのパラメータを集めて（１７）スーパーフレームを作成し、各スーパーフレームの中でヴォイシングの遷移周波数をベクトル量子化（１８）し、劣化を生じないように、最も頻度の低いパターンを最も頻繁に発生するパターンの中の絶対誤差が最も近いものによって置換して最も頻繁に発生するパターンのみを送信し、スーパーフレームごとに１つの値をスカラー量子化してピッチ（１９）を符号化し、ベクトル量子化されたサブパケットの値から少ない数の値のみを選択してエネルギー（２０）を符号化し、合成部では送信された値に対して補間又は補外を行って送信されなかったエネルギー値を復活させ、特定の数のフィルタのみを選択して、ベクトル量子化（２１）を使用してスペクトル包絡パラメータを線形予測合成フィルタによる符号化のために符号化し、送信されなかったパラメータを送信されたフィルタのパラメータを補間又は補外処理することによって復活させる方法。

Description

【発明の詳細な説明】

【０００１】本発明はスピーチエンコーディング方法に関する。当該方法は、特に１２００
ｂｐｓ程度の非常に低いビットレートの、衛星通信、インターネット電話、静的
自動応答装置、音声ページャに採用される音声符号化器において使用することが
できる。

【０００２】音声符号化器の目的は、人間の耳にとって元の音声信号になるべく近く聞こえ
る音声信号を、可能な限り少ない２値化データで再生することである。

【０００３】この目的のために、音声符号化器は音声信号の完全にパラメータ化されたモデ
ルを使用する。使用されるパラメータは、剛性フィルタを刺激してパラメータ化
するための、発音された声の周期特性や発音されていない音のランダム特性、「
ピッチ」とも呼ばれる発音された声の基本周波数、エネルギーの時間変化と信号
のスペクトルの包絡線等である。フィルタリングは、一般に、線形予測デジタル
フィルタによって行われる。

【０００４】これらの種々のパラメータは、音声信号について、パラメータや符号化器に依
存するが、１０ｍｓから３０ｍｓの時間フレーム毎に、１回から数回程度、周期
的に推定される。これらの値は分析装置で準備され、一般的には別の合成装置に
伝達される。

【０００５】低ビットレート音声符号化器の分野では、ＬＰＣ１０として知られる２４００
ｂｉｔ／秒符号化器が長い間使用されてきた。この符号化器の構造と、低ビット
レートにおける動作は以下の文献に開示されている。ＮＡＴＯ標準ＳＴＡＮＡＧ−４１９８−Ｅｄ１「２４００ｂｐｓで線形予測符
号化された音声の共通な取り扱いを確保するためのパラメータと符号化特性(Par
ameters and coding characteristics that must be common to assure interop
erability of 2400 bps linear predictive encoded speech)」１９８４年２月
１３日、および、B. Mouy, D de la NoueとG. Goudezeuneによる「ＮＡＴＯＳ
ＴＡＮＡＧ４４７９：ＨＦ−ＥＣＣＭシステムにおける８００ｂｐｓ音声符号
化器とチャネル符号化のための標準(A Standard for an 800 bps Vocoder and C
hannel Coding in HF-ECCM system)」、音響、音声と信号処理に関するＩＥＥＥ
国際コンファレンス、デトロイト、１９５５年５月、４８０−４８３ページ。

【０００６】これらの音声符号化器によって再生される人の声は完全に聞き取れはするもの
の、音質が劣悪なために、この適用分野は専門的又は軍事的な分野に限定されて
いる。近年、ＭＢＥ、ＰＷＩやＭＥＬＰと呼ばれる新しいモデルが導入されるに
伴って、低ビットレートスピーチ符号化は大幅に改善された。

【０００７】ＭＢＥモデルは、D. W. GriffinとJ. S. Limによる「マルチバンド音声符号化
励振(Multiband Vocoders Excitation)」、音響、音声と信号処理に関するＩＥ
ＥＥ論文集、第３６巻、第８号、１２２３−１２３５ページ、１９８８年に記載
されている。

【０００８】ＰＷＩモデルは、W. B. KleijnとJ. Haogenによる「符号化と合成のための波
形補間(Waveform Interpolation for Coding and Synthesis)」、W. B. Kleijn
とK.K. Paliwal編の「音声符号化と合成」Elsevier出版、１９９５年に記載され
ている。

【０００９】最後に、ＭＥＬＰモデルは、L. M. Supplee, R. P. Cohn, J.S. ColluraとA.
V. McCreeによる「ＭＥＬＰ：２４００ｂｉｔ／ｓにおける新しい連邦標準(MELP
: The New Federal Standard At 2400 bits/s)、音響、音声と信号処理に関する
ＩＥＥＥ国際コンファレンス、１５９１から１５９４ページ、ミュンヘン、１９
９７年に記載されている。

【００１０】これらの２４００ｂｉｔ／ｓモデルで再生された音声は大部分の民間及び商業
分野で許容できるものになった。しかし、２４００ｂｉｔ／ｓ以下のビットレー
トでは（代表的には１２００ｂｉｔ／ｓあるいはそれ以下）、再生スピーチの品
質は不十分で、この欠点を補うために、別の技術が使用されている。第１の技術
は、２種類のバリエーションがそれぞれ、既に紹介したB. Mouy, P. de la Noue
とG. Goudezeuneの文献と、Y. Shohamによる「１．２から２．４ｋｂｐｓにおけ
る極めて単純化された補間を伴う音声符号化(Very Low Complexity Interpolati
ve Speech Coding at 1.2 To 2.4 Kbps)」音響、音声と信号処理に関するＩＥＥ
Ｅ国際コンファレンス、１５９９−１６０２ページ、ミュンヘン、１９９７年４
月に記載されている、セグメント分割音声符号化技術である。

【００１１】しかしながら、今のところ、セグメント分割音声符号化器は民生及び商業用に
利用するために十分な品質を有していないように見える。

【００１２】第２の技術は、認識と合成の原理を組み合わせて用いる音声符号化器で使用さ
れている技術である。この分野の研究は基礎研究分野にとどまっている。使用さ
れているビットレートは１２００ｂｉｔ／ｓよりもはるかに低く（代表的な値は
５０から２００ｂｉｔ／ｓ）であり、品質は低く、しばしば人の声を認識するこ
とができない。この種の音声符号化器は、J. Cernocky, G. BaudoinとG. Cholle
tによる「音声アプローチを超えるセグメント分割音声符号化器(Segmental Voco
der - Going Beyond The Phonetic Approach)」、音響、音声と信号処理に関す
るＩＥＥＥ国際コンファレンス、６０５−６９８ページ、シアトル、１９９８年
５月１２−１５日に開示されている。

【００１３】本発明の目的は上述の欠点を解消することである。

【００１４】上記の目的を達成するために、本発明は、音声信号のパラメータを符号化して
送信する分析部と、該送信されたパラメータを受信して復号化する合成部とを使
用して、非常に低いビットレートの音声符号化器によって音声通信のための音声
符号化と復号化を行い、線形予測合成フィルタを使用して音声信号を再構成し、
パラメータを分析し、ピッチと、音声遷移周波数とエネルギーとスペクトル包絡
線を、音声信号を所定の長さのフレームに分割して記述する方法であって、Ｎ個
の連続するフレームのパラメータを集めてスーパーフレームを作成し、スーパー
フレームごとに音声の遷移周波数のベクトル量子化を行い、もっとも頻繁に発生
する形状のみを劣化させないように送信し、最も頻度の低い形状を最も頻繁に発
生する形状の中の絶対誤差が最も近いものによって置換し、スーパーフレームご
とに１つの値をスカラー量子化してピッチを符号化し、ベクトル量子化されたサ
ブパケットの値から少ない数の値のみを選択してエネルギーを符号化し、送信さ
れた値に対して補間又は補外を行って送信されなかったエネルギー値を復活させ
、特定の数のフィルタのみを選択することによって、ベクトル量子化を使用して
スペクトル包絡パラメータを線形予測合成フィルタによる符号化のために符号化
し、送信されなかったパラメータを送信されたフィルタのパラメータを補間又は
補外処理することによって復活させる方法によって達成する。

【００１５】本発明の他の特徴と利点は図面を参照して行う以下の記述によって明らかにす
る。図１は、本発明の実施において使用するＨＳＸ型の音声符号化器の混合励振モ
デルを示す図である。図２は、本発明において使用するＨＳＸ型の音声符号化器の「分析」部の機能
を示す図である。図３は、本発明において使用するＨＳＸ型の音声符号化器の合成部分の機能を
示す図である。図４は、本発明にかかる方法の主要な処理過程を示すフローチャートである。図５は、連続した３つのフレームの音声遷移周波数の形状の分布を示す表であ
る。図６は、本発明を実行するために使用する音声遷移周波数のベクトル量子化表
である。図７は、本発明において、音声信号のエネルギーを符号化するための選択と補
間を示したリストである。図８は、線形予測ＬＰＣフィルタの符号化のための補間／補外と選択を示すリ
ストである。図９は、本発明に基づく１２００ｂｉｔ／ｓＨＳＸ型の音声符号化器による符
号化に必要なビットの配分表である。

【００１６】本発明の方法では、１２００ｂｉｔ／ｓ高性能音声符号化器を作成する基本とし
て、ＨＳＸまたは「調和確率過程励振」音声符号化器として知られている音声符
号化器を使用する。

【００１７】この種の音声符号化器は、C. Laflamme, R. Salami, R. MatmtiとJ. P. Adoul
による「４ｋｂｉｔ／ｓ以下による調和確率過程励振（ＨＳＸ）音声符号化(Har
monic Stochastic Excitation (HSX) Speech Coding Below 4kbits/s)」、音響
、音声と信号解析に関するＩＥＥＥ国際コンファレンス、２０４−２０７ページ
、アトランタ、１９９６年５月に記載されている。

【００１８】本発明に基づく方法は、最も少ないｂｉｔ／ｓレートによって、複雑な音声信
号を完全に再生することを可能にする最も有効なパラメータ符号化に関するもの
である。

【００１９】図１に概念を示すように、ＨＳＸ音声符号化器は、合成部で単純な混合励振モ
デルを使用する線形予測音声符号化器である。このモデルでは、周期的なパルス
の連続がＬＰＣ合成フィルタの低周波数を励起し、ノイズのレベルが同フィルタ
の高周波数を励起する。図１は、２つのフィルタチャネルを有する混合励起の原
理を説明するものである。周期的なパルスの連続によって刺激される第１のチャ
ネルｌ₁はローパスフィルタ処理を行い、確率過程としてのノイズ信号で刺激さ
れる第２のチャネルｌ₂がハイパスフィルタとして作用する。２つのチャネルの
フィルタのカットオフ又は遷移周波数ｆ_cは同じであり、時間と共に変化する。
２つのチャネルのフィルタは互いに相補的である。加算器２は２つのチャネルか
ら得られた信号を合計する。加算器２の出力部で得られるスペクトル信号が平坦
になるように、ゲインｇアンプ３が第１のフィルタチャネルのゲインを調節する
。

【００２０】音声符号化器の分析部の機能を図２に示す。分析を行うために、音声信号はま
ずハイパスフィルタ４を通され、次に、８ｋＨｚで採取した１８０のサンプルか
らなる２２．５ｍｓ長のフレームにセグメント分割される。各フレームに対して
ステップ５で２つの線形予測解析を行う。ステップ６と７では、部分的に白色化
された信号を、４つのサブバンドにフィルタ処理する。ロバストピッチフォロア
８が第１のサブバンドを実施する。声を含む音声の低周波数帯と音声を含まない
音声の高周波数帯との間の遷移周波数ｆ_cは、４つのサブバンドについてステッ
プ９で測定される音声レートによって決定される。最終的に、エネルギーを測定
してステップ１０でピッチが同期するようにフレームごとに４回符号化する。

【００２１】ピッチフォロアと音声分析装置９の特性が、決定を１フレーム分遅らせること
によって大幅に改善されるので、その結果得られるパラメータ、つまり、合成フ
ィルタ、ピッチ、ヴォイシング、遷移周波数とエネルギーの係数は１フレーム分
遅れて符号化される。

【００２２】図３に示す音声符号化器ＨＳＸの合成部では、図１に示すように、調和信号と
、スペクトルの包絡線が調和信号と相補的なランダム信号を合計することによっ
て、合成フィルタの励振信号を作成する。調和成分は、求める周期の間隔をあけ
て複数のパルスを予め設計されたバンドパスフィルタ１１を通すことによって作
成する。ランダム成分は、フーリエ逆変換と時間重ね合わせ操作を組み合わせた
発生装置１２によって得られる。合成ＬＰＣフィルタ１４は、フレームごとに４
回補間処理を行う。フィルタ１４の出力部に設けられた聴覚フィルタ１５が、元
の音声信号に含まれる鼻音の特徴を再現する。最終的に、自動ゲイン制御装置に
よって、出力信号のピッチ同期したエネルギーが送信された信号のエネルギーと
同じになるように調整される。

【００２３】ビットレートが１２００ｂｉｔ／ｓのように低いと、２２．５ｍｓごとに４つ
のパラメータ、つまり、ピッチ、音声遷移周波数、エネルギーとＬＰＣフィルタ
係数を、フレームごとに２つ、正確に符号化することは不可能である。

【００２４】安定した時間の中の所々に急速な変化を含むパラメータの変化の時間的な特徴
を最も有効に使用するために、本発明による方法では、、図４に示す５つの主要
な過程１７から２１を含む。ステップ１７では、音声符号化器はＮ個の音声符号
化フレームを組み合わせてスーパーフレームを作成する。例えば、Ｎの値として
３を選択する。これは、この場合に、２値ビットレートの削減と量子化方法によ
ってもたらされる遅延との間に適当なバランスが得られるからである。さらに、
この方法では、現在の誤り訂正を伴う符号化とインターレース技術を利用するこ
とができる。

【００２５】音声遷移周波数は、４つの周波数、例えば０、７５０、２０００と３６２５Ｈ
ｚのみを使用して、ベクトル量子化を使用してステップ１８で符号化される。こ
の条件では、各周波数を符号化して３つのフレームからなるスーパーフレームの
ヴォイシング特性を正確に送信するためには、フレームごとに２ビット、全体で
６ビットあれば十分である。しかし、極めて希にのみ起きるヴォイシング特性が
存在するので、これらは再生された音声の聞き取りの容易さや品質に有意な役目
を果たさないので、通常の音声信号の処理にとって特徴を表すものと考える必要
はない。これは、例えば、フレームが完全に０から３６２５Ｈｚの音声を含んで
おり、音声を全く含まない２つのフレームの間に存在するような場合である。

【００２６】図５に示す一覧表は、１２３１５８個の音声フレームを有するデータベースの
連続する３つのフレームのヴォイシングパターンの分布状態を示すものである。
この表では、最も頻度の低い３２種類のパターンは、部分的又は完全に音声を含
むフレームの４％未満において発生するに過ぎない。これらのパターンを、最も
出現頻度が高い３２のパターンのうちの絶対値が最も近いものによって置き換え
ることで生じる音質劣化は、感知不能である。このことは、スーパーフレームに
対してヴォイシング送信周波数のベクトル量子化を行うことで１ビットを節約す
ることができることを示している。音声パターンのベクトル量子化を図６におい
て２２で参照する表に示す。表２２は、アドレスビットの誤差によって生じる平
均二乗誤差を最小にするようにしたものである。

【００２７】ピッチはステップ１９で符号化される。１６から１４８の間のサンプルゾーン
と対数軸に関して均一な量子化ピッチを有する６ビットのスカラー量子化器を有
する。３つの連続するフレームに対して１つの値が送信される。３つのピッチの
値と量子化される値の算出と、量子化された値から３つのピッチの値を再生する
方法は、解析のヴォイシング遷移周波数による相違を有する。この方法を以下に
示す。

【００２８】１．音声を有するフレームがなければ、６ビットをゼロに設定し、復号化ピッ
チは任意の値、例えば、スーパーフレームを構成する各フレームについて４５サ
ンプル、に固定する。２．前のスーパーフレームの最後のフレームと、現在のスーパーフレームのす
べてのフレームが音声を含んでいれば、換言すれば、ヴォイシングの遷移周波数
がゼロよりも大きければ、量子化された値は、現在のスーパーフレームの最後の
フレームのピッチの値であって、この値が次に標的となる。復号化器では、現在
のスーパーフレームの３番目のフレームのピッチの復号価値が量子化の標的とし
て、現在のスーパーフレームの最初の２つのフレームの復号化されたピッチの値
は、前のスーパーフレームから伝達された値と量子化された標的値との間を線形
補間することで再現される。３．その他すべての音声パターンに関して、量子化されるのは、現在のスーパ
ーフレームの３つのフレームのピッチの値に重み付けを行った値である。重み付
け係数は、対象となるフレームのヴォイシング遷移周波数に、以下に示すように
比例する。

【数１】

【００２９】復号化器では、現在のスーパーフレームを構成する３つのフレームの復号化さ
れたピッチの値は、量子化された重み付け平均値に等しい。

【００３０】さらに、２と３の場合には、記憶された音声に自然な感じを与え、過剰に周期
的な信号の作成を抑制する目的で、フレーム１、２と３の合成に使用するピッチ
の値に対して軽いトレモロを意図的に加える。この関係を以下に示す。使用するピッチ（１）＝０．９９５ｘ復号化されたピッチ（１）使用するピッチ（２）＝１．００５ｘ復号化されたピッチ（２）使用するピッチ（３）＝１．０００ｘ復号化されたピッチ（３）

【００３１】ピッチの値のスカラー量子化を行うのは、これによって連続する２値データに
誤差が広がることを抑制できるからである。さらに、符号化パターン２と３は互
いに近似しているので、ヴォイシング周波数の誤った復号化に影響を受けない。

【００３２】エネルギーの符号化はステップ２０で行われる。図７の表２３に示すように、
R. M. Grayによる「ベクトル量子化(Vector Quantization)」、ＩＥＥＥジャー
ナル、ＡＳＰマガジン、第１巻、４−２９ページ、１９８４年４月に記載されて
いるタイプのベクトル量子化を使用する。分析部で、各スーパーフレームに対し
て、０から１１の番号を付番した１２のエネルギーの値を計算し、１２のうちの
６つだけを送信する。分析部の３つの値を有する２つのベクトルを構成すること
ができる。各ベクトルは６ビットで量子化される。選択されたパターンの番号を
送信するために２ビット使用する。合成部での復号化において、補間によって量
子化されていないエネルギーの値を再生する。

【００３３】図７に示した表に記載されているように、認められる選択パターンは４つだけ
である。このパターンは、１２の安定なエネルギーの値に関するベクトルか、フ
レーム１、２、３を通じてエネルギーが急激に変化するベクトルを有効に符号化
するために最適化されたものである。分析部では、エネルギーベクトルを４つの
パターンのうちの１つを使用して符号化し、実際に送信されるパターンは合計二
乗誤差を最小にするものである。

【００３４】この過程で、送信されるダイアグラムの番号を指定するビットは、その値の誤
差はエネルギーの値の変化に極一時的な影響を与えるだけなので敏感とは考えら
れていない。さらに、エネルギー値のベクトル量子化表は、アドレスビットの誤
差によって生じる平均二乗誤差を最小にするように調整されている。

【００３５】音声信号の包絡線をモデル化する係数の符号化はステップ２１においてベクト
ル量子化する。この符号化によって合成部で使用するデジタルフィルタの係数を
決定することが可能になる。０から５までの番号を付番した１０の係数を有する
６つのＬＰＣフィルタが、各スーパーフレームに対して分析部で算出され、６つ
のフィルタのうちの３つのみが送信される。６つのベクトルは、例えば、F. Ita
kuraによる「線形予測係数の線スペクトル表現(Line Spectrum Representation
of Linear Predictive Coefficients)」米国音響学会誌第５７巻、Ｐ．Ｓ．３５
、１９７５年に開示された方法に従って、ＬＳＦスペクトル線の１０個の組から
なる６つのベクトルに変換される。線スペクトルの組はエネルギー符号化におい
て使用したのと同様な手法で符号化することができる．この方法は、３つのＬＰ
Ｃフィルタの選択と、各ベクトルの１８ビットへの量子化からなる。当該量子化
は、例えば、それぞれに９ビットが割り当てられる５つの連続したＬＳＦフィル
タの２つのサブパケットに関連するＳＰＬＩＴ−ＶＱ型の予測係数を０．６とし
たオープンループ予測ベクトル量子化器によって行うことができる。使用された
選択パターンの番号を送信するために２ビットが使用される。復号化器のレベル
では、ＬＰＣフィルタが量子化されないときは、例えば、線形補間によって量子
化されたＬＰＣフィルタの値、又は前のフィルタＬＰＣの重複を有する補外によ
って推定される。例えば、パケットによるベクトル量子化方法は、K.K. Paliwal
, B.S. Atalによる「２４ビット／フレームのＬＰＣパラメータの有効なベクト
ル量子化(Efficient Vector Quantization of LPC Parameters at 24 bit/frame
)」、音声と楽音処理に関するＩＥＥＥ論文集、第１巻、１９９３年１月に開示
された方法に準拠することができる。

【００３６】図８の表２４に記載されているように、認められている選択パターンは４つの
みである。これらのパターンは、スペクトル包絡線が安定な領域かフレーム１、
２、３を通じてスペクトルの包絡が急激に変化する領域を有効に符号化すること
を可能にする。すべてのＬＰＣフィルタが次に、４つのパターンのいずれかにし
たがって、符号化されるが、実際に送信されるパターンは合計二乗誤差を最小に
するものである。

【００３７】エネルギーの符号化と同様に、パターンの特性を指定するビットは、その値に
誤差があってもＬＰＣフィルタの時刻変化には極わずかの影響しか与えないので
、感度が高いとは考えられていない。さらに、ＬＳＦフィルタのベクトル量子化
表が、合成部において、アドレッシングビットの誤差によって生じる平均二乗誤
差が最小になるように設定される。

【００３８】本発明に基づく符号化方法によるＬＳＦ、エネルギー、ピッチとヴォイシング
パラメータの送信のためのビット割り当てを図９の表に示す。ここでは、６７．
５ｍｓごとにパラメータの符号化を行い、各スーパーフレームにおいて信号パラ
メータの符号化に８１ビットを使用することができる、１２００ｂｉｔ／ｓ音声
符号化器を前提としている。上記８１ビットは、５４のＬＳＦビット、ＬＳＦフ
ィルタパターンのデシメーション用の２ビット、エネルギー用の６ビット２つ、
ピッチ用の６ビット及びヴォイシング用の５ビットを含む。

【図面の簡単な説明】

【図１】図１は、本発明の実施において使用するＨＳＸ型の音声符号化器
の混合励振モデルを示す図である。

【図２】図２は、本発明において使用するＨＳＸ型の音声符号化器の「分
析」部の機能を示す図である。

【図３】図３は、本発明において使用するＨＳＸ型の音声符号化器の合成
部分の機能を示す図である。

【図４】図４は、本発明にかかる方法の主要な処理過程を示すフローチャ
ートである。

【図５】図５は、連続した３つのフレームの音声遷移周波数の形状の分布
を示す表である。

【図６】図６は、本発明を実行するために使用する音声遷移周波数のベク
トル量子化表である。

【図７】図７は、本発明において、音声信号のエネルギーを符号化するた
めの選択と補間を示したリストである。

【図８】図８は、線形予測ＬＰＣフィルタの符号化のための補間／補外と
選択を示すリストである。

【図９】図９は、本発明に基づく１２００ｂｉｔ／ｓＨＳＸ型の音声符号
化器による符号化に必要なビットの配分表である。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＬ，ＳＺ，ＴＺ，ＵＧ，ＺＷ )，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ

Claims

【特許請求の範囲】

【請求項１】音声信号（１１、・・・１６）のパラメータを符号化して送
信する分析部（４、・・・１０）と、該送信されたパラメータを受信して復号化
する合成部とを具備し、合成部は、パラメータを解析し、音声信号を連続する所
定の長さの複数のフレームに分割してピッチ（８）とヴォイシング遷移周波数（
９）とエネルギー（１０）とスペクトル包絡線（５）とを記述することを内容と
する線形予測合成フィルタを通じて音声信号を再生する音声通信のための音声符
号化と復号化方法であって、Ｎ個の連続するフレームのパラメータを集めて（１
７）スーパーフレームを作成し、スーパーフレームごとに音声の遷移周波数のベ
クトル量子化（１８）を行い、劣化を生じないように、最も頻度の低いパターン
を最も頻繁に発生するパターンの中の絶対誤差が最も近いものによって置換して
最も頻繁に発生するパターンのみを送信し、スーパーフレームごとに１つの値を
スカラー量子化してピッチ（１９）を符号化し、ベクトル量子化されたサブパケ
ットの値から少ない数の値のみを選択してエネルギー（２０）を符号化し、合成
部では送信された値に対して補間又は補外を行って送信されなかったエネルギー
値を復活させ、特定の数のフィルタのみを選択して、ベクトル量子化（２１）を
使用してスペクトル包絡パラメータを線形予測合成フィルタによる符号化のため
に符号化し、送信されなかったパラメータを送信されたフィルタのパラメータを
補間又は補外処理することによって復活させることを特徴とする方法。
【請求項２】ピッチの量子化された値は、すべてにわたって音声を含む安
定領域のピッチの最後の値か、全域に渡って音声を含むわけではない領域の、ヴ
ォイシング遷移周波数で重み付けを行った平均値のうちのいずれかであることを
特徴とする請求項１に記載の方法。
【請求項３】ピッチの値がスーパーフレームの最後の値であったときに、
補間によって他の値を作成することを特徴とする請求項２に記載の方法。
【請求項４】合成部で使用するピッチの値は復号化されたピッチを再生さ
れた音声に軽微なトレモロを生じさせる係数を掛けたものであることを特徴とす
る請求項３に記載の方法。
【請求項５】パラメータは連続するＮ＝３個のフレームについて集合させ
ることを特徴とする請求項１ないし４のいずれかに記載の方法。
【請求項６】ヴォイシング周波数は４つあり、３つの周波数がグループ化
された３２のパターンを有する量子化表（２２）によってベクトル符号化される
請求項５に記載の方法。
【請求項７】フレームごとにエネルギーを４回測定し、スーパーフレーム
に対応する１２のエネルギーの値のうちの６つのみを、３つの値を有する２つの
ベクトルとして送信する（２３）ことを特徴とする請求項５又は６のいずれかに
記載の方法。
【請求項８】エネルギー（２３）を４つのパターンで符号化し、各パター
ンは２つのベクトルによって表現し、第１のベクトルは、スーパーフレームに対
応する１２のエネルギーベクトルが安定な第１のパターンに対応し、その他のパ
ターンはフレームごとに定義され、合計二乗誤差が最小となるパターンを送信す
る請求項７に記載の方法。
【請求項９】 −第１のパターンにおいては、第１のベクトルの１、３、５
番目のエネルギーと、第２のベクトルの７、９、１１番目のエネルギーの値を送
信し、 −第２のパターンにおいては、第１のベクトルの０、１、２番目のエネルギー
と、第２のベクトルの３，７，１１番目のエネルギーを送信し、 −第３のパターンにおいては、第１のベクトルの１、４、５番目のエネルギー
と、第２のベクトルの６、７、１１番目のエネルギーのみを送信し、 −第４のパターンでは、第１のベクトルの２、５、８番目のエネルギーと、第
２のベクトルの第９、１０、１１番目のエネルギーのみを送信する請求項８に記
載の方法。
【請求項１０】線形予測フィルタの符号化パラメータを、４つのパターン
にしたがって、スペクトル包絡線が最も安定するように選択し、つまり、スーパ
ーフレームの１、２又は３番目のフレームに対するスペクトルの包絡線が最も急
速に変化する領域を選択することを特徴とする請求項１ないし９のうちのいずれ
かに記載の方法。
【請求項１１】合成部６では、０から５までの番号を付番した係数を有す
る線形予測フィルタを使用し（２４）、 −第１のパターンでは、スペクトルの包絡線が安定なときはフィルタ１、３、
５のみの係数を送信し、 −第１のフレームに対応する第２のパターンでは、フィルタ０、１、４のみの
係数を送信し、 −第２のフレームに相当する第３のパターンでは、フィルタ２、３、５の係数
のみを送信し、 −第３のフレームに対応する第４のパターンでは、フィルタ１、４、５の係数
のみを送信し、有効に送信されるパターンは合計二乗誤差を最小にするものであり、送信され
ないフィルタの係数は合成部において補間か補外によって算出することを特徴と
する請求項１０に記載の方法。
【請求項１２】合成フィルタのＬＳＦ係数は５４ビットに符号化され、こ
れにデシメーションパターンの送信用に２ビットを追加し、エネルギーは６ビッ
トの２倍で符号化してこれにデシメーションパターンの送信のために２ビットを
追加し、ピッチは６ビットで符号化してヴォイシング遷移周波数を５ビットで符
号化して、６７．５ｍｓのスーパーフレームを合計８１ビットとすることを特徴
とする請求項１ないし１１のいずれかに記載の方法。