JP5343098B2

JP5343098B2 - スーパーフレーム構造のｌｐｃハーモニックボコーダ

Info

Publication number: JP5343098B2
Application number: JP2011038935A
Authority: JP
Inventors: ゲルショウアレン; カパマンウラジミール; ワンティアン; コイシダカズヒト
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1999-09-22
Filing date: 2011-02-24
Publication date: 2013-11-13
Anticipated expiration: 2020-09-20
Also published as: AU7830300A; DE60024123T2; ATE310304T1; JP2011150357A; US7315815B1; ES2250197T3; DK1222659T3; US20050075869A1; EP1222659B1; DE60024123D1; JP2003510644A; US7286982B2; WO2001022403A1; EP1222659A1; JP4731775B2

Description

本発明は一般にディジタル通信に関し、より詳細には、パラメトリック音声符号化および復号の方法および装置に関する。

（背景をなす特許および刊行物）
背景をなす以下の特許および刊行物を、角括弧内の番号（例えば［１］）を使用して時々参照する。

[1] Gersho, A., “ADVANCES IN SPEECH AND AUDIO COMPRESSION”, Proceedings of the IEEE, Vol. 82, No. 6, pp. 900-918, June 1994.
[2] McCree et al., “A 2.4 KBIT/S MELP CODER CANDIDATE FOR THE NEW U. S. FEDERAL STANDARD”, 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings, Atlanta, GA (Cat. No. 96CH35903), Vol. 1., pp. 200-203, 7-10 May 1996.
[3] Supplee, L. M. et al., “MELP: THE NEW FEDERAL STANDARD AT 2400 BPS”, 1997 IEEE International Conference on Acoustics, Speech, and Signal Processing proceedings (Cat. No. 97CB36052), Munich, Germany, Vol. 2, pp. 21-24, April 1997.
[4] McCree, A. V. et al., “A MIXED EXCITATION LPC VOCODER MODEL FOR LOW BIT RATE SPEECH CODING”, IEEE Transactions on Speech and Audio Processing, Vol. 3, No. 4, pp. 242-250, July 1995.
[5] Specifications for the Analog to Digital Conversion of Voice by 2, 400 Bit/Second Mixed Excitation Linear Prediction FIPS, Draft document of proposed federal standard, dated May 28, 1998.
[6] U. S. Patent No. 5,699, 477.
[7] Gersho, A. et al., “VECTOR QUANTIZATION AND SIGNAL COMPRESSION”, Dordrecht, Netherlands: Kluwer Academic Publishers, 1992, xxii+732 pp.
[8] W. P. LeBlanc, et al., “EFFICIENT SEARCH AND DESIGN PROCEDURES FOR ROBUST MULTI-STAGE VQ OF LPC PARAMETERS FOR 4 KB/S SPEECH CODING” in IEEE Trans. Speech & Audio Processing, Vol. 1, pp. 272-285, Oct. 1993.
[9] Mouy, B. M.; de la Noue, P. E., “VOICE TRANSMISSION AT A VERY LOW BIT RATE ON A NOISY CHANNEL: 800 BPS VOCODER WITH ERROR PROTECTION TO 1200 BPS”, ICASSP-92: 1992 IEEE International Conference Acoustics, Speech and Signal, San Francisco, CA, USA, 23-26 March 1992, New York, NY, USA: IEEE, 1992, Vol. 2, pp. 149-152.
[10] Mouy, B.; De La Noue, P.; Goudezeune, G.“NATO STANAG 4479: A STANDARD FOR AN 800 BPS VOCODER AND CHANNEL CODING IN HF-ECCM SYSTEM”, 1995 International Conference on Acoustics, Speech, and Signal Processing. Conference Proceedings, Detroit, MI, USA, 9-12 May 1995; New York, NY, USA: IEEE, 1995, Vol. 1, pp. 480-483.
[11] Kemp, D. P.; Collura, J. S.; Tremain, T. E.“MULTI-FRAME CODING OF LPC PARAMETERS 600-800 BPS”, ICASSP 91, 1991 International Conference on Acoustics, Speech and Signal Processing, Toronto, Ont., Canada, 14-17 May 1991; New York, NY, USA: IEEE, 1991, Vol. 1, pp. 609-612.
[12] U. S. Patent No. 5,255, 339.
[13] U. S. Patent. 4,815, 134.
[14] Hardwick, J. C.; Lim, J. S., “A 4.8 KBPS MULTI-BAND EXCITATION SPEECH CODER”, ICASSP 1988 International Conference on Acoustics, Speech, and Signal, New York, NY, USA, 11-14 April 1988, New York, NY, USA: IEEE, 1988. Vol. 1, pp. 374-377.
[15] Nishiguchi, L.; Iijima, K.; Matsumoto, J, “HARMONIC VECTOR EXCITATION CODING OF SPEECH AT 2.0 KBPS”, 1997 IEEE Workshop on Speech Coding for Telecommunications Proceedings, Pocono Manor, PA, USA, 7-10 Sept. 1997, New York, NY, USA: IEEE, 1997, pp. 39-40.
[16] Nomura, T., Iwadare, M., Serizawa, M., Ozawa, K., “A BITRATE AND BANDWIDTH SCALABLE CELP CODER”, ICASSP 1998 International Conference on Acoustics, Speech, and Signal, Seattle, WA, USA, 12-15 May 1998, IEEE, 1998, Vol. 1, pp. 341-344.

（発明の背景）
（１．発明の分野）
本発明は一般にディジタル通信に関し、より詳細には、パラメトリック音声符号化および復号の方法および装置に関する。

（２．背景技術の説明）
定義として、ディジタル化された波形サンプルではなく音声パラメータを送信する音声符号化方法を記述するために用語「ボコーダ」を頻繁に使用することに留意されたい。ディジタル化波形サンプルを生成する際は、入来する波形を周期的にサンプリングしてディジタル化波形データのストリームにディジタル化するが、このストリームは、変換して元の波形とほぼ同一のアナログ波形に戻すことができる。音声パラメータを使用する音声符号化は、符号化された音声にかなり類似する音声を続いて合成できるほど十分な精度をもたらす。音声パラメータ符号化を用いると、ディジタル化波形の場合のように音声波形を正確に再生するのに十分な情報が提供されることはないことに留意されたい。しかし、波形サンプルで必要とされるレートよりも低いレートで音声を符号化することができる。

音声符号化の世界では、音声符号化および復号のシステムを指すのに用語「コーダ」がしばしば使用されるが、この用語はそれ自体でエンコーダも指すことが多い。本明細書で使用するときは、用語エンコーダは一般に、音声信号を圧縮データ信号（ビットストリーム）にマッピングする符号化操作について言い、用語デコーダは一般に、データ信号を再構築されたまたは合成された音声信号にマッピングする復号操作について言う。

音声のディジタル圧縮（音声圧縮とも呼ばれる）は、現代の通信システムにおいてますます重要になっている。高周波（ＨＦ）およびその他の無線チャネルを介した効率的かつ安全な音声通信、衛星音声ページングシステム、マルチプレーヤインターネットゲーム、ならびに多数の追加用途には、５００ｂｐｓ（ビット／秒）から２ｋｂｐｓ（キロビット／秒）までの範囲の、低い音声送信ビットレートの必要性が望まれている。２．４ｋｂｐｓ以下の場合、ほとんどの圧縮方法（「符号化方法」とも呼ばれる）は、パラメトリックボコーダに基づく。現代の当該ボコーダの大部分は、旧来の線形予測符号化（ＬＰＣ）ボコーダの変形およびこの技法の改良形に基づくか、あるいはハーモニックコーダや多帯域励起コーダ（ｍｕｌｔｉｂａｎｄｅｘｃｉｔａｔｉｏｎｃｏｄｅｒ）などの正弦波符号化方法に基づく［１］。最近、ＭＥＬＰ（ＭｉｘｅｄＥｘｃｉｔａｔｉｏｎＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）と呼ばれる、ＬＰＣボコーダの向上バージョンが開発された［２、５、６］。本発明は、前述の従来の符号化方法で必要とされるよりも低いビットレートで、同様の音声品質レベルを提供することができる。

ＭＥＬＰ符号化は他のフレームベースの符号化方法に勝る利点を有するので、本発明は一般に、ＭＥＬＰと共に使用する場合に関して述べる。ただし本発明は、ハーモニックコーダ［１５］や多帯域励起（ＭＢＥ）タイプのコーダ［１４］など、様々なコーダに適用することができる。

ＭＥＬＰエンコーダは、入力音声を観測し、デコーダに送信するためのデータを２２．５ミリ秒フレームごとに生成する。このデータは、線スペクトル周波数（ＬＳＦ）（線形予測パラメータの一形式）、フーリエ絶対値（Ｆｏｕｒｉｅｒｍａｇｎｉｔｕｄｅ、「スペクトル絶対値」と呼ばれることもある）、利得（１フレームにつき２つ）、ピッチ、およびボイシングを表すビットからなり、追加で非周期性フラグビット（ａｐｅｒｉｏｄｉｃｆｌａｇｂｉｔ）、エラー保護ビット、および同期（ｓｙｎｃ）ビットも含む。図１に、従来の２．４ｋｂｐｓＭＥＬＰエンコーダで用いられるバッファ構造を示す。その他のハーモニックまたはＭＢＥ符号化方法で採用されるエンコーダは、同一または類似のパラメータの多くを表すデータを生成する（通常これらはＬＳＦ、スペクトル絶対値、利得、ピッチ、およびボイシングである）。ＭＥＬＰデコーダは、これらのパラメータをフレームごとに受け取り、元のフレームに近い対応する音声フレームを合成する。

異なる通信システムには、異なるビットレートの音声コーダが必要である。例えば、安全な音声電話通信システムには２．４ｋｂｐｓのビットレートが必要であることが多いのに対して、高周波（ＨＦ）無線チャネルは、容量が厳しく制限され、拡張エラー訂正が必要な場合があり、音声パラメータを表すには１．２ｋｂｐｓのビットレートが最適である場合がある。用途によっては、あるシステム用にあるビットレートで元々符号化された音声信号が別のシステム用に他のビットレートで符号化された音声信号に後で変換されるように、異なる通信システムを相互接続する必要がある。この変換は「トランスコーディング」と呼ばれ、通常２つの通信システム間のゲートウェイに位置する「トランスコーダ」によって行うことができる。

本発明の目的とするところは、パラメトリック音声符号化および復号の方法および装置を提供することにある。

（発明の簡単な概要）
一般的に言えば、本発明は、ＭＥＬＰなど既存のボコーダ技法を採用して、ほぼ同じ再生音声品質を維持しながら、ビットレートを通常２分の１に大きく低減する。本発明の中では既存のボコーダ技法を利用し、したがってこれらを「ベースライン」符号化、または別法として「従来型」パラメトリック音声符号化と呼ぶ。

限定ではなく例として、本発明は、２．４ｋｂｐｓＭＥＬＰコーダと同様の分析モジュールを有する１．２ｋｂｐｓボコーダを含み、これに追加のスーパーフレームボコーダがオーバーレイされる。本発明の１．２ｋｂｐｓボコーダの場合、スーパーフレームボコーダ内では、連続する３つのフレームを含むブロック、すなわち「スーパーフレーム」構造を採用して、送信すべきパラメータをより効率的に量子化する。記述を簡単にするために、スーパーフレームは３つのフレームを符号化するように選択される。というのは、この割合がよく機能することがわかっているからである。ただし、この発明的な方法は、どんな離散的なフレーム数を含むスーパーフレームにも適用することができることに留意されたい。スーパーフレーム構造については、前の特許および刊行物［９］、［１０］、［１１］、［１３］の中で言及されている。ＭＥＬＰ符号化標準の中では、１つのフレームが分析されるたびに（例えば２２．５ミリ秒ごとに）、そのパラメータが符号化されて送信される。しかし本発明では、スーパーフレームの各フレームがバッファ中で同時に利用可能であり、各フレームは分析されて、スーパーフレーム内の３つのフレームすべてのパラメータが同時に量子化に利用可能である。このことは追加の符号化遅延を導入するものの、３つのフレームを別々にではなく一緒に量子化することにより、これらのフレームのパラメータ間に存在する時間相関を効率的に活用することができる。

本発明の１．２ｋｂｐｓコーダのフレームサイズは、ＭＥＬＰ標準のコーダと同じ毎秒８０００サンプルのサンプリングレートで２２．５ミリ秒（すなわち１８０音声サンプル）であることが好ましい。ただし、大きなピッチエラーを回避するために、本発明ではルックアヘッドの長さを１２９サンプル増加させる。これに関し、用語「ルックアヘッド」は、現在のフレームを符号化するのに必要な処理のためにバッファ中で利用可能であるはずの、現在のフレームの境界を越えた「未来の」音声セグメントの継続時間を指すことに留意されたい。本発明の１．２ｋｂｐｓコーダ中ではピッチスムーザも使用し、１．２ｋｂｐｓコーダの場合のアルゴリズム遅延は１０３．７５ミリ秒である。１．２ｋｂｐｓコーダの場合に送信されるパラメータは、２．４ｋｂｐｓＭＥＬＰコーダの場合と同じである。

ＭＥＬＰ符号化標準の中では、各フレームにつき、低帯域ボイシング決定または無声／有声決定（Ｕ／Ｖ決定）が見出される。低帯域ボイシングの値が「１」のときは、フレームは「有声」であると言い、「０」のときは「無声」であると言う。このボイシング条件が、異なる２つのビット割振りのどちらをフレームに使用するかを決定する。しかし、本発明の１．２ｋｂｐｓコーダでは、各スーパーフレームがいくつかの符号化状態のうちの１つに分類され、各状態につきビット割振りが異なる。状態選択は、スーパーフレームのＵ／Ｖ（無声または有声）パターンに従って行われる。チャネルビットエラーのせいでデコーダが誤った状態識別を行った場合、このスーパーフレームに対して合成音声の深刻な劣化が生じる。したがって本発明の一態様は、チャネルエラーによるエンコーダとデコーダとの状態不一致の影響を低減する技法を含み、この技法は、開発されてデコーダに統合された。

本発明では、３つの音声フレームがメモリバッファ中で同時に利用可能であり、各フレームは、従来型のＭＥＬＰ分析モジュールによって別々に分析され、３つのフレームそれぞれにつき（量子化前の）パラメータ値が生成される。これらのパラメータは、まとめて後続の処理および量子化に利用可能である。ピッチスムーザは、３つのフレームに関するピッチおよびＵ／Ｖ決定を観測し、バッファリングされた音声データに対する追加の分析も行って、ピッチ平滑化操作で使用する２つのタイプ（オンセットまたはオフセット）の一方に各フレームを分類するのに必要なパラメータを抽出する。次いでスムーザは、ピッチ決定の修正（平滑化）バージョンを出力し、次いで、スーパーフレームに対するこれらのピッチ値が量子化される。バンドパスボイシングスムーザは、３つのフレームに関するバンドパスボイシング強度を観測し、かつ、バッファリングされた音声から直接抽出されたエネルギー値を検査し、次いで、３つのフレームそれぞれに関するカットオフ周波数を決定する。バンドパスボイシング強度は、音声スペクトルの５つの周波数帯それぞれにおけるボイシングの程度を記述するための、ＭＥＬＰエンコーダによって生成されるパラメータである。カットオフ周波数は、後で定義するが、音声スペクトルの有声部分の帯域幅の時間進展を記述する。スーパーフレーム中の各有声フレームに関するカットオフ周波数は２ビットで符号化される。スーパーフレームに関するＬＳＦパラメータ、ジッタパラメータ、およびフーリエ絶対値パラメータがそれぞれ量子化される。カンタイザ（ｑｕａｎｔｉｚｅｒ）から、送信用の２進データが得られる。簡単にするために、エラー訂正ビット、同期ビット、パリティビット、および送信に向けてビットをシリアルデータストリームに多重化することについては記述しない。これらはすべて当業者に周知である。受信側では、様々なパラメータに対するデータビットが抽出され、復号され、逆カンタイザに加えられる。逆カンタイザは、圧縮データから、量子化されたパラメータ値を再生する。受信側は通常、スーパーフレームの開始点を識別する同期モジュールと、エラー訂正復号および多重分離の手段とを備える。各フレームに関する復元済みパラメータは、シンセサイザに加えることができる。復号後、合成された音声フレームは、連結されて音声出力信号を形成する。シンセサイザは、ＭＥＬＰなど従来型のフレームベースのシンセサイザとすることもでき、本明細書に開示する代替方法によって提供することもできる。

本発明の目的は、フレームをスーパーフレームにグループ化して新規な量子化技法をスーパーフレームパラメータに対して実施することにより、より大きな符号化効率を導き、ある音声フレームから別の音声フレームへの相関関係を利用することである。

本発明の別の目的は、ベースラインエンコーダおよびデコーダの既存の音声処理機能を維持できるようにして、向上したコーダがベースラインコーダの動作で見出されるパラメータに作用するようにし、それにより、すでにベースラインエンコーダおよびデコーダによって得られている実験結果および設計結果の財産を保持し、しかもなおビットレートの大幅な低減ももたらすことである。

本発明の別の目的は、向上したエンコーダから得られたビットストリームを、ベースラインデコーダによって認識されるビットストリームに変換（トランスコード）する、トランスコーディングのための機構を提供し、同様に、ベースラインエンコーダからきたビットストリームを、向上したデコーダによって認識できるビットストリームに変換する方式を提供することである。このトランスコーディング機能は、ベースラインコーダ／デコーダを実装した端末装置が、向上したコーダ／デコーダを実装した端末装置と通信しなければならない適用例で重要である。

本発明の別の目的は、ＭＥＬＰエンコーダの性能を改善する方法を提供することであり、新しい方法はピッチおよびボイシングパラメータを生成する。

本発明の別の目的は、ＭＥＬＰ復号プロシージャに代わる新しい復号プロシージャを提供し、合成音声品質を維持しながらも複雑さを大きく低減することである。

本発明の別の目的は、２．４ｋｂｐｓで動作するＭＥＬＰ標準のコーダとほぼ等しい品質をもたらす１．２ｋｂｐｓ符号化方式を提供することである。

本発明の他の目的および利点は本明細書の後続の部分で明らかにするが、この中では、本発明を限定することなくその好ましい実施形態を完全に開示する目的で詳細な説明を提供する。

本発明は、後続の図面を参照することによってより完全に理解されるであろうが、これらの図面は例示のためのものにすぎない。

従来の２．４ｋｂｐｓＭＥＬＰコーダの入力音声バッファ構造内で用いられるデータ位置の図であり、図示の各単位が音声のサンプルを示す図である。本発明の１．２ｋｂｐｓコーダの入力スーパーフレーム音声バッファ構造内で用いられるデータ位置の図であり、図示の各単位が音声のサンプルを示す図である。本発明の１．２ｋｂｐｓエンコーダの機能ブロック図である。本発明の１．２ｋｂｐｓデコーダの機能ブロック図である。本発明の１．２ｋｂｐｓエンコーダ内のデータ位置の図であって、本発明内でピッチスムーザパラメータを計算するための計算位置を示し、図示の各単位が音声のサンプルを示す図である。トランスコーダによって２４００ｂｐｓストリームにアップコンバートされる１２００ｂｐｓストリームの機能ブロック図である。トランスコーダによって１２００ｂｐｓストリームにダウンコンバートされる２４００ｂｐｓストリームの機能ブロック図である。本発明による発明原理を採用したディジタルボコーダ端末内のハードウェアの機能ブロック図である。

（発明の詳細な説明）
例示の目的で、本発明は、図２から図６までを参照しながら述べる。本明細書に開示する基本概念を逸脱することなく、装置の構成および各部の詳細は様々である場合があり、方法の具体的なステップおよびシーケンスは様々である場合があることを理解されたい。

（１．ボコーダの概観）
本発明の１．２ｋｂｐｓエンコーダは、従来の２．４ｋｂｐｓＭＥＬＰコーダ中で使用されるものと同様の分析モジュールを採用するが、ブロック、すなわち「スーパーフレーム」エンコーダを追加しており、これは、連続する３つのフレームを符号化し、送信されるパラメータをより効率的に量子化して、１．２ｋｂｐｓボコーディングを実現する。本発明は１スーパーフレームにつき３フレームを使用する場合に関して述べるが、本発明の方法はその他の整数のフレームを含むスーパーフレームにも適用できることを、当業者なら理解するであろう。さらに、本発明はベースラインコーダとしてＭＥＬＰを使用する場合に関して述べるが、本発明の方法はその他のハーモニックボコーダにも適用できることを、当業者なら理解するであろう。このようなボコーダは、音声フレームの分析から抽出されるパラメータのセットが類似はするが同一ではない場合があり、フレームサイズおよびビットレートが本明細書に提示する記述で用いるものとは異なる場合がある。

ＭＥＬＰエンコーダ内でフレームが分析されるとき（例えば２２．５ミリ秒ごと）は、音声パラメータがフレームごとに符号化され、次いで送信されることを理解されたい。しかし本発明では、スーパーフレームを形成するフレームのグループからのデータが、スーパーフレーム中の３つのフレームすべてのパラメータで収集および処理され、これらのパラメータは同時に量子化に利用可能である。このことは追加の符号化遅延を導入するものの、３つのフレームを別々にではなく一緒に量子化することにより、これらのフレームのパラメータ間に存在する時間相関を効率的に活用することができる。

本発明によって採用されるフレームサイズは、元々のＭＥＬＰコーダ中で使いられるサンプルレートと同じ毎秒８０００サンプルのサンプリングレートで２２．５ミリ秒（すなわち１８０音声サンプル）であることが好ましい。図１に、従来の２．４ｋｂｐｓＭＥＬＰのバッファ構造を示す。大きなピッチエラーの発生を回避するために、好ましい実施形態ではルックアヘッドバッファの長さを１２９サンプル増加させているが、本発明は様々なルックアヘッドレベルで実施することができる。加えて、ピッチスムーザを導入してピッチエラーをさらに減少させている。述べる１．２ｋｂｐｓコーダの場合のアルゴリズム遅延は１０３．７５ミリ秒である。１．２ｋｂｐｓコーダの場合に送信されるパラメータは、２．４ｋｂｐｓＭＥＬＰコーダの場合と同じである。図２に、本発明のバッファ構造を見ることができる。

（１．１ビット割振り）
ＭＥＬＰ符号化を用いるときは、低帯域ボイシング決定またはＵ／Ｖ決定が各フレームごとに見出され、ボイシング値が１のときは「有声」フレーム、０のときは無声フレームである。しかし本発明の１．２ｋｂｐｓコーダでは、各スーパーフレームが、異なる量子化方式を採用するいくつかの符号化状態のうちの１つに分類される。状態選択は、スーパーフレームのＵ／Ｖパターンに従って行われる。チャネルビットエラーのせいでデコーダが誤った状態識別を行った場合、このスーパーフレームに対して合成音声の深刻な劣化が生じる。したがって、チャネルエラーによるエンコーダとデコーダとの状態不一致の影響を低減する技法を開発し、デコーダに統合した。比較のために、２．４ｋｂｐｓＭＥＬＰコーダと１．２ｋｂｐｓコーダの両方に対するビット割振り方式を表１に示す。

図３Ａは、本発明による１．２ｋｂｐｓ符号化方式１０の一般的なブロック図である。入力音声１２がスーパーフレームバッファ１４と呼ばれるメモリバッファを満たすが、スーパーフレームバッファ１４は、スーパーフレームを含み、さらに、３つのフレームのうちで最も古いフレームの開始に先行した履歴サンプルと、３つのフレームのうちで一番最近のフレームに続くルックアヘッドサンプルとを記憶する。好ましい実施形態でこのバッファに記憶されるサンプルの実際の範囲は、図２に示すとおりである。スーパーフレームバッファ１４内のフレームは、従来型のＭＥＬＰ分析モジュール１６、１８、２０によって別々に分析されるが、これらの分析モジュールは、スーパーフレームバッファ１４内の各フレームにつき、量子化前のパラメータ値のセット２２を生成する。具体的には、ＭＥＬＰ分析モジュール１６は、スーパーフレームバッファに記憶された最初の（最も古い）フレームに作用し、別のＭＥＬＰ分析モジュール１８は、バッファに記憶された２番目のフレームに作用し、別のＭＥＬＰ分析モジュール２０は、バッファに記憶された３番目の（最も新しい）フレームに作用する。各ＭＥＬＰ分析ブロックは、１つのフレームと、このフレームに関連する前のサンプルおよび未来のサンプルにアクセスすることができる。ＭＥＬＰ分析モジュールによって生成されたパラメータは、収集されて、量子化前のパラメータのセットを形成し、メモリユニットに記憶される。このセットは後続の処理および量子化に利用可能である。ピッチスムーザ２４は、平滑化分析ブロック２６によって計算されるパラメータのセットと共に、スーパーフレームバッファ１４内のフレームに関するピッチ値を観測し、ピッチ値の修正バージョンを出力する。ここで出力は量子化される（２８）。バンドパスボイシングスムーザ３０は、エネルギー分析モジュール３１によって計算される平均エネルギー値を観測し、スーパーフレームバッファ１４内のフレームに関するバンドパスボイシング強度も観測し、これらをバンドパスボイシングカンタイザ３２によって後で量子化されるように適切に修正する。ＬＳＰカンタイザ３４、ジッタカンタイザ３６、およびフーリエ絶対値カンタイザ３８がそれぞれ、符号化済みデータを出力する。各カンタイザから、送信用の符号化済み２進データが得られる。簡単にするために、エラー訂正データビットおよび同期ビットの生成、ならびに送信に向けてビットをシリアルデータストリームに多重化することは図示していないが、これらをどのように実施するかは、当業者なら容易に理解するであろう。

図３Ｂに示すデコーダ５０では、様々なパラメータについてのデータビットがチャネルデータ５２に含まれており、チャネルデータ５２は復号逆カンタイザ５４に入る。復号逆カンタイザ５４は、抽出、復号を行い、逆カンタイザを適用して、圧縮データから量子化済みパラメータ値を再生する。同期モジュール（スーパーフレームの開始点を識別する）およびエラー訂正復号および多重分離は図示していないが、これらをどのように実装するかは、当業者なら容易に理解するであろう。次いで、各フレームに関する復元済みパラメータは、従来型のＭＥＬＰシンセサイザ５６、５８、６０に加えられる。本発明は、従来技術のＭＥＬＰシンセサイザとは全く異なる、フレームごとに音声を合成する代替方法も含むことに留意されたい。復号後、合成された音声フレーム６２、６４、６６が連結されて、音声出力信号６８を形成する。

（２．音声分析）
（２．１概観）
エンコーダの基本構造は、スーパーフレーム構造を利用するために新しいピッチスムーザおよびバンドパスボイシングスムーザが追加されたことを除いては、２．４ｋｂｐｓＭＥＬＰコーダ中で使用されるのと同じ分析モジュールに基づく。コーダは、２．４ｋｂｐｓＭＥＬＰコーダ中で使用されるのと同じ、各フレームに作用するＭＥＬＰ分析アルゴリズムを使用して、スーパーフレーム中の連続する３つのフレームから特徴パラメータを抽出する。ピッチおよびバンドパスボイシングパラメータは、平滑化によって向上する。この向上は、隣接する３つのフレームおよびルックアヘッドが同時に利用可能であることから可能である。このようにしてスーパーフレームに作用することにより、３つのフレームすべてに関するパラメータが量子化モジュールへの入力データとして利用可能であり、したがって、各フレームを別々に独立して量子化するときに可能となるよりも効率的な量子化ができる。

（２．２ピッチスムーザ）
ピッチスムーザは、ＭＥＬＰ分析モジュールからスーパーフレーム中の各フレームに関するピッチ推定値をとり、図３Ａの平滑化分析モジュール２６からパラメータのセットをとる。平滑化分析モジュール２６は、半フレーム（１１．２５ミリ秒）ごとに、スーパーフレームバッファに記憶された音声サンプルを直接観測することから新しいパラメータを計算する。図４に、現在のスーパーフレーム中の９つの計算位置を示す。各計算位置は、パラメータが計算されるウィンドウの中心にある。次いで、計算されたパラメータは、追加情報としてピッチスムーザに加えられる。

１．２ｋｂｐｓエンコーダでは、ピッチ平滑化プロセスを導くために、各フレームは２つの範疇に分類され、オンセットフレームまたはオフセットフレームのいずれかを構成する。平滑化分析モジュール２６によって計算されてからオンセット／オフセット分類のためにピッチスムーザモジュール２４によって使用される新しい波形特徴パラメータは、以下のとおりである。

記述省略形
ｄＢで表したエネルギー subEnergy
零交差レート zeroCrosRate
ピーク度測定値 peakiness
入力音声の最大相関係数 corx
５００Ｈｚローパスフィルタにかけた音声の最大相関係数 lowBandCorx
ローパスフィルタにかけた音声のエネルギー lowBandEn
ハイパスフィルタにかけた音声のエネルギー highBandEn

入力音声は、ｘ（ｎ）、ｎ＝．．．，０，１，．．．．として示され、ｘ（０）は、現在の計算位置から左に４５サンプルの音声サンプルに対応し、ｎはフレームサイズの半分の９０サンプルである。パラメータは以下のように計算される。

（１）エネルギー：

（２）零交差レート：

上式で、角括弧中の式は、積ｘ（ｉ）＊ｘ（ｉ＋１）が負のとき（すなわち零交差が起こるとき）は値１を有し、そうでないときは値０を有する。

（３）音声領域中のピーク度測定値：

ピーク度測定値は、ＭＥＬＰコーダにおける場合のように定義されるが［５］、この測定値は、ＭＥＬＰでは音声信号から導出される予測残差信号から計算されるのに対し、この場合は、音声信号自体から計算される。

（４）ピッチ探索範囲における最大相関係数：
最初に、入力音声信号は８００Ｈｚのカットオフ周波数でローパスフィルタに通され、以下のとおりとなる。

Ｈ（ｚ）＝０．３０６９／（１−２．４５５２ｚ^-1＋２．４５５２ｚ^-2−１．１５２ｚ^-3＋０．２０９９ｚ^-4）

ローパスフィルタにかけられた信号は、２番目のＬＰＣ逆フィルタに通される。逆フィルタにかけられた信号をｓ_lv（ｎ）として示す。ｓ_lv（ｎ）からＤＣ成分が除去されて、

が得られる。次いで、以下の式によって自己相関関数が計算される。

上式で、Ｍ＝７０である。サンプルは、現在の計算位置が自己相関ウィンドウの中心に整合するように選択されるスライディングウィンドウを使用して選択される。最大相関係数パラメータｃｏｒｘは、関数ｒ_kの最大値である。対応するピッチはｌである。

（５）ローパスフィルタにかけた音声の最大相関係数：
標準的なＭＥＬＰでは、バンドパスボイシング分析において５つのフィルタが使用される。第１のフィルタは、実際は０〜５００Ｈｚの通過帯域のローパスフィルタである。同じフィルタを入力音声に対して使用して、ローパスフィルタにかけた信号ｓ_l（ｎ）が生成される。次いで、（４）で定義した相関関数がｓ_l（ｎ）について計算される。指数の範囲は、［ｍａｘ（２０，ｌ−５），ｍｉｎ（１５０，ｌ＋５）］に限定される。相関関数の最大値はｌｏｗＢａｎｄＣｏｒｘとして示す。

（６）低帯域エネルギーおよび高帯域エネルギー：
ＬＰＣ分析モジュール中では、最初の１７個の自己相関係数ｒ（ｎ）、ｎ＝０，．．．，１６が計算される。自己相関係数をフィルタリングすることにより、低帯域エネルギーおよび高帯域エネルギーが得られる。

Ｃ_l（ｎ）およびＣ_h（ｎ）は、ローパスフィルタおよびハイパスフィルタの係数である。２ｋＨｚのカットオフ周波数の場合、各フィルタにつき１６個のフィルタ係数が選択され、これらは標準的なＦＩＲフィルタ設計技法によって得られる。

以上に挙げたパラメータを使用して、半フレームごとに大まかなＵ／Ｖ決定が行われる。以下に示す、ボイシング決定を行うための分類ロジックが、ピッチスムーザモジュール２４中で実施される。ｖｏｉｃｅｄＥｎおよびｓｉｌｅｎｃｅＥｎは、有声フレームおよびサイレンスフレームの移動平均エネルギーである。

structure {
subEnergy; /* energy in dB */
zeroCorsRate; /* zero crossing rate */
peakiness; /* peakiness measurement */
corx; /* maximum correlation coefficient of input speech */
lowBandCorx; /* maximum correlation coefficient of
500Hz low pass filtered speech */
lowBandEn; /* Energy of low pass filtered speech */
highBandEn; /* Energy of high pass filtered speech */
} classStat[9];

if (classStat -> subEnergy < 30){
classy = SILENCE;
} else if (classStat -> subEnergy < 0.35*voicedEn + 0.65*silenceEn){
if ( (classStat->zeroCrosRate > 0.6) &&
((classStat->corx < 0.4) || (classStat -> lowBandCorx < 0.5)))
classy = UNVOICED;
else if ( (classStat->lowBandCorx > 0.7) ||
((classStat->lowBandCorx > 0.4) && (classStat->corx > 0.7)))
classy = VOICED;
else if ( (classStat->zeroCrosRate-classStat[-1].zeroCrosRate > 0.3) ||
(classStat->subEnergy-classStat [-1]. subEnergy > 20 ||
(classStat->peakiness > 1.6))
classy = TRANSITION;
else if ((classStat->zeroCrosRate > 0.55 ||
((classStat->highBandEn > classStat -> lowBandEn-5) &&
(classStat->zeroCrosRate > 0.4)))
classy = UNVOICED;
else classy = SILENCE;
}else{
if ( (classStat->zeroCrosRate-classStat[-1].zeroCrosRate > 0.2) ||
(classStat->subEnergy-classStat [-1]. subEnergy > 20) ||
(classStat->peakiness > 1.6)){
if ( (classStat->lowBandCorx > 0.7) || (classStat->corx > 0.8))
classy = VOICED;
else
classy = TRANSITION;
} else if (classStat -> zeroCrosRate < 0.2){
if ( (classStat->lowBandCorx > 0.5 ||
( (classStat->lowBandCorx > 0.3) && (classStat->corx > 0.6))
classy = VOICED;
else if (classStat->subEnergy > 0.7*voicedEn+0.3*silenceEn) {
if (classStat->peakiness > 1.5)
classy = TRANSITION;
else {
classy = VOICED;
}
}else{
classy = SILENCE;
}
}else if (ctassStat -> zeroCrosRate < 0.5){
if ( (classStat->lowBandCorx > 0.55 ||
( (ctassStat->lowBandCorx > 0.3) && (classStat->corx > 0.65)))
classy = VOICED;
else if ( (classStat->subEnergy < 0.4*voicedEn+0.6*silenceEn) & &
(classStat->highBandEn < classStat-> lowBandEn-10))
classy = SILENCE;
else if (classStat->peakiness > 1.4)
classy = TRANSITION;
else
classy = UNVOICED;
} else if (classStat -> zeroCrosRate < 0.7){
if ( ((classStat->lowBandCorx > 0.6) && (classStat-> corx > 0.3)) ||
((classStat->lowBandCorx > 0.4) && (classStat->corx > 0.7)))
classy = VOICED;
else if (classStat->peakiness > 1.5)
classy = TRANSITION;
else
classy = UNVOICED;
} else {
if ( ((classStat->lowBandCorx > 0.65) && (classStat->corx > 0.3)) ||
( (classStat->lowBandCorx > 0.45) && (classStat->corx > 0.7)))
classy = VOICED;
else if (classStat->peakiness > 2.0)
classy = TRANSITION;
else
classy = UNVOICED;
}
}

次いで、各サブフレームに関するＵ／Ｖ決定を用いて、フレームをオンセットまたはオフセットに分類する。この分類はエンコーダ内部のものであり、送信されるものではない。現在のフレームごとに、まずオフセットの可能性をチェックする。現在の有声フレームに一連の無声フレームが続いている場合、あるいはエネルギーが少なくとも１フレーム内で８ｄＢ、または１と半フレーム内で１２ｄＢに減少する場合は、オフセットフレームが選択される。オフセットフレームのピッチは平滑化されない。

現在のフレームが第１の有声フレームである場合、あるいはエネルギーが少なくとも１フレーム内で８ｄＢ、または１と半フレーム内で１２ｄＢに増加する場合は、現在のフレームはオンセットフレームとして分類される。オンセットフレームの場合は、ルックアヘッド領域で評価される自己相関関数の極大のうちの１つからルックアヘッドピッチ候補が推定される。まず、上に挙げた自己相関関数の、最も大きい８つの極大が選択される。これらの極大は、現在の計算位置に対してＲ⁽⁰⁾（ｉ）、ｉ＝０，．．．，７として示される。次の２つの計算位置に対する極大は、Ｒ⁽¹⁾（ｉ）、Ｒ⁽²⁾（ｉ）である。各計算位置に対して費用関数が計算され、現在の計算位置に対する費用関数を用いて予測ピッチが推定される。まず、Ｒ⁽²⁾（ｉ）に対する費用関数が以下のように計算される。

Ｃ⁽²⁾（ｉ）＝Ｗ［１−Ｒ⁽²⁾（ｉ）］

上式で、Ｗは定数１００である。極大Ｒ⁽¹⁾（ｉ）それぞれにつき、対応するピッチはｐ⁽¹⁾（ｉ）として示される。費用関数Ｃ⁽¹⁾（ｉ）は、以下のように計算される。

C⁽¹⁾(i)=W[1-R⁽¹⁾(i)]+|p⁽¹⁾(i)-p⁽²⁾(k_i)|+C⁽²⁾(k_i)

指数ｋ_iは、以下のように選択される。

上式で、ｌの範囲が空集合である場合は、範囲ｌ∈［０，７］が用いられる。費用関数Ｃ⁽⁰⁾（ｉ）は、Ｃ⁽¹⁾（ｉ）と同様にして計算される。予測ピッチは、以下のように選択される。

元のピッチ推定値とルックアヘッドピッチとの差が１５％よりも大きい場合、ルックアヘッドピッチ候補は現在のピッチとして選択される。

現在のフレームがオフセットでもオンセットでもない場合は、ピッチ変動がチェックされる。ピッチジャンプが検出される場合、これはピッチが減少してから増加すること、または増加してから減少することを意味し、前のフレームのピッチと次のフレームのピッチとの間の補間を用いて現在のフレームのピッチが平滑化される。スーパーフレーム中の最後のフレームの場合は、次のフレームのピッチが利用可能ではなく、したがって次のフレームのピッチ値の代わりに予測ピッチ値を用いる。以上のピッチスムーザは、通常なら発生するであろう大きなピッチエラーの多くを検出し、正式な主観的品質テストにおいて著しい品質改善をもたらした。

（２．３バンドパスボイシングスムーザ）
ＭＥＬＰ符号化では、入力音声は５つのサブバンドにフィルタリングされる。これらの各サブバンドについてバンドパスボイシング強度が計算され、各ボイシング強度は０と１の間の値に正規化される。続いてこれらの強度が０または１に量子化されて、バンドパスボイシング決定が得られる。量子化された低帯域（０から５００Ｈｚ）ボイシング強度は、フレームの無声または有声（Ｕ／Ｖ）特性を決定する。残りの４つの帯域の２進ボイシング情報は、フレームのスペクトルのハーモニックまたはノンハーモニック特性を部分的に記述し、４ビットのコードワードで表すことができる。本発明では、バンドパスボイシングスムーザを使用して、スーパーフレーム中の各フレームに関するこの情報をよりコンパクトに記述し、この情報の時間進展をフレーム全体にわたって平滑化する。最初に、各フレームに関する残りの４つの帯域に対する４ビットのコードワード（有声の場合は１、無声の場合は０）を、許容される４つの値のうちの１つによって単一のカットオフ周波数にマッピングする。このカットオフ周波数は、有声（またはハーモニック）特性を有するより低いスペクトル領域と無声特性を有するより高い領域との間の境界をおおむね識別する。次いでスムーザは、スーパーフレーム中の３つのカットオフ周波数を修正して、フレームのスペクトル特性に関するより自然な時間進展を生成する。各フレーム決定に対する４ビットの２進ボイシングコードワードは、表２に示す２ビットのコードブックを使用して４つのコードワードにマッピングされる。このコードブックのエントリは、４つのカットオフ周波数、すなわち５００Ｈｚ、１０００Ｈｚ、２０００Ｈｚ、４０００Ｈｚに相当し、これらはそれぞれ、表２に示すマッピングテーブル中の００００、１０００、１１００、１１１１の符号が付いた欄に対応する。例えば、有声フレームに関するバンドパスボイシングパターンが１００１のとき、このインデックスは１０００にマッピングされ、これは１０００Ｈｚのカットオフ周波数に対応する。

現在のスーパーフレームの最初の２フレームの場合は、前のフレームと次のフレームのバンドパスボイシング情報に従ってカットオフ周波数が平滑化される。３番目のフレームにおけるカットオフ周波数は、変更されないままである。有声フレームの平均エネルギーをＶＥとして示す。ＶＥの値は、先行する２つのフレームが有声である各有声フレームにおいて更新される。更新規則は以下のとおりである。

フレームｉの場合、現在のフレームのエネルギーをｅｎ_iとして示す。５つの帯域に対するボイシング強度を、ｂｐ［ｋ］_i、ｋ＝１，．．．，５として示す。カットオフ周波数ｆ_iを平滑化するために、以下の３つの条件が考慮される。

（１）前のフレームと次のフレームのカットオフ周波数が共に２０００Ｈｚよりも上の場合は、以下のプロシージャを実行する。

(f_i<2000and((en_i>VE-5dB)or(bp[2]_i-1>0.5andbp[3]_i-1>0.5)))の場合
ｆ_i＝２０００Ｈｚ

（ｆ_i＜１０００）の場合
ｆ_i＝１０００Ｈｚ

（２）前のフレームと次のフレームのカットオフ周波数が共に１０００Ｈｚよりも上の場合は、以下のプロシージャを実行する。
(f_i<1000and((en_i>VE-10dB)or(bp[2]_i-1>0.4)))の場合
ｆ_i＝１０００Ｈｚ

（３）前のフレームと次のフレームのカットオフ周波数が共に１０００Ｈｚよりも下の場合は、以下のプロシージャを実行する。
(f_i>2000and((en_i<VE-5dB and bp[3]_i-1<0.7)))の場合
ｆ_i＝２０００Ｈｚ

（３．量子化）
（３．１概観）
１．２ｋｂｐｓコーダの送信パラメータは、２．４ｋｂｐｓＭＥＬＰコーダの送信パラメータと同じだが、例外として１．２ｋｂｐｓコーダでは、パラメータはフレームごとに送信されるのではなく、各スーパーフレームにつき１度送信される。表１にビット割振りを示す。補間およびベクトル量子化（ＶＱ）を用いることにより、長いブロックサイズ（スーパーフレーム）を活かした新しい量子化方式が設計された。有声および無声の音声の統計的な特性を考慮する。メモリを節約し、トランスコーディングを容易にするために、２．４ｋｂｐｓＭＥＬＰコーダと同じフーリエ絶対値コードブックを１．２ｋｂｐｓコーダでも使用する。

（３．２ピッチ量子化）
ピッチパラメータは、有声フレームだけに適用可能である。３つのフレームにわたり、異なるＵ／Ｖの組合せには異なる量子化方式を用いる。本明細書では、スーパーフレームのピッチ値を量子化する方法の詳細を特定のボイシングパターンの場合について述べる。この章で述べる量子化方法は、ボイシングパターンの合同量子化で用いることができ、ピッチについては後続の章で述べる。表３に、ピッチ量子化方式を要約してある。ボイシングパターンが有声フレームを２つまたは３つ含んでいるスーパーフレーム内では、ピッチパラメータはベクトル量子化される。有声フレームを１つしか含まないボイシングパターンの場合は、ＭＥＬＰ標準で指定されているスカラ量子化を有声フレームのピッチに適用する。各フレームが無声であるＵＵＵボイシングパターンの場合は、ピッチ情報のためのビットは必要ない。Ｕは「Ｕｎｖｏｉｃｅｄ（無声）」を示し、Ｖは「Ｖｏｉｃｅｄ（有声）」を示すことに留意されたい。

２．４ｋｂｐｓ標準のピッチ分析から得られる各ピッチ値Ｐは、量子化前に対数値ｐ＝ｌｏｇＰに変換される。各スーパーフレームにつき、各有声フレームに関する対数ピッチ値に等しい成分と、各無声フレームに関する０の値に等しい成分とで、ピッチベクトルが構築される。２つまたは３つの有声フレームを有するボイシングパターンの場合、ピッチベクトルは、ＶＱ（ＶｅｃｔｏｒＱｕａｎｔｉｚａｔｉｏｎ、ベクトル量子化）アルゴリズムを用いて、ピッチの進展を考慮した新しいひずみ測定値で量子化される。このアルゴリズムは、コードブック探索にピッチ差分を組み込むが、これにより、ピッチの時間進展を考慮することが可能になる。標準的なＶＱコードブック設計が使用される［７］。ＶＱ符号化アルゴリズムは、コードブック探索にピッチ差分を組み込むが、これにより、ＶＱコードブックエントリを選択する際にピッチの時間進展を考慮することが可能になる。この機能は、ピッチ軌跡をうまく追跡することの重要性の認知が動因となる。このアルゴリズムは、最良のインデックスを得るための３つのステップを有する。

ステップ１：重み付き平方ユークリッド距離の測定を用いてＭ個の最良候補を選択する

また、ｐ_iは量子化されていない対数ピッチであり、

は量子化された対数ピッチ値である。上式は、コードブック探索において有声フレームだけが考慮されることを示している。

ステップ２：以下の式を使用して、量子化されていない対数ピッチ値の差分を計算する

ｉ＝１，２，３の場合、ｐ₀は、前のスーパーフレームの最後の対数ピッチ値である。ステップ１で選択された候補対数ピッチ値に対して、式（２）のΔｐ_iおよびｐ_iを

でそれぞれ置き換えることによって候補の差分を計算する。

はｐ₀の量子化バージョンである。

ステップ３：Ｍ個の最良候補から、以下の式を最小にするインデックスを選択する

上式で、δはピッチ差分の寄与を制御するパラメータであり、１に設定される。

有声フレームを１つしか含まないスーパーフレームの場合、ピッチのスカラ量子化が行われる。ピッチ値は、２０から１６０までのサンプル範囲の９９レベル均一カンタイザによって対数目盛り上で量子化される。このカンタイザは、２．４ｋｂｐｓＭＥＬＰ標準におけるものと同じであり、９９個のレベルは７ビットのピッチコードワードにマッピングされ、ハミング重み１または２を有する２８個の未使用コードワードがエラー保護のために使用される。

（３．３ピッチおよびＵ／Ｖ決定の合同量子化）
各スーパーフレームに関するＵ／Ｖ決定およびピッチパラメータは、１２ビットを使用して合同で量子化される。表４に合同量子化方式を要約してある。言い換えれば、スーパーフレームに対するボイシングパターンまたはモード（可能な８つのパターンのうちの１つ）、および３つのピッチ値のセットが、合同量子化方式への入力を形成し、その出力は１２ビットワードである。続いてデコーダが、テーブルルックアップによって、この１２ビットワードを特定のボイシングパターンおよび量子化された３つのピッチ値のセットにマッピングする。

この方式では、１２ビットの割振りは、３モードビット（スーパーフレーム中の３つのフレームに関するＵ／Ｖ決定の、可能な８つの組合せを表す）と、ピッチ値のための残りの９ビットとで構成される。この方式は、別々の６つのピッチコードブックを採用し、表４に示すように５つは９ビットを有し（すなわちそれぞれ５１２エントリ）、１つはスカラカンタイザである。具体的なコードブックは、量子化されたボイシングパターンを表す３ビットコードワードのビットパターンに従って決定される。したがって、まずＵ／Ｖボイシングパターンが表４に示すように３ビットコードワードに符号化され、次いでこれを用いて、示す６つのコードブックのうちの１つが選択される。次いで、選択されたコードブックによって３つのピッチ値の順序集合がベクトル量子化され、３つのピッチ値の量子化済みセットを識別する９ビットコードワードが生成される。ＶＶＶ（有声−有声−有声）モードのスーパーフレームには４つのコードブックが割り当てられることに留意されたい。これは、ＶＶＶタイプのスーパーフレームにおけるピッチベクトルがそれぞれ２０４８個のコードワードのうちの１つによって量子化されることを意味する。スーパーフレーム中の有声フレームの数が２以上でない場合は、３ビットコードワードは０００にセットされ、９ビットコードブック内で異なるモード間の区別が決定される。後者のケースは、４つのモードすなわちＵＵＵ、ＶＵＵ、ＵＶＵ、ＵＵＶからなることに留意されたい（Ｕは無声フレームを示し、Ｖは有声フレームを示し、３つの記号はスーパーフレーム中の３つのフレームの順序集合のボイシング状況を示す）。この場合、１２８個のピッチ値を有する３つのモードとピッチ値を有しない１つのモードがあるので、９ビットが利用可能であることは、モード情報ならびにピッチ値を表すのに十分すぎるほどである。

（３．４パリティビット）
送信エラーに対するロバスト性を向上させるために、先に３．３章で定義したスーパーフレーム中の３つのモードビット（ボイシングパターンを表す）についてパリティチェックビットが計算され、送信される。

（３．５ＬＳＦ量子化）
表５に、線スペクトル周波数（ＬＳＦ）を量子化するためのビット割振りを示すが、３つのフレームに対する元のＬＳＦベクトルをｌ₁、ｌ₂、ｌ₃で示してある。ＵＵＵ、ＵＵＶ、ＵＶＵ、ＶＵＵのモードでは、無声フレームのＬＳＦベクトルは９ビットコードブックを使用して量子化され、有声フレームのＬＳＦベクトルは、［８］に記述されている手法に基づいて２４ビット多段ＶＱ（ＭＳＶＱ）カンタイザで量子化される。

その他のＵ／Ｖパターンの場合のＬＳＦベクトルは、以下の前方−後方補間方式を用いて符号化される。この方式は次のように機能する。前のフレームの量子化済みＬＳＦベクトルを

で示す。まず、現在のスーパーフレーム中の最後のフレームｌ₃を、無声フレームの場合は９ビットコードブックを使用して、あるいは有声フレームの場合は２４ビットＭＳＶＱを使用して直接に

に量子化する。次いで、以下の式を使用して

を補間することにより、ｌ₁およびｌ₂の予測値を得る。

上式で、ａ₁（ｊ）およびａ₂（ｊ）は補間係数である。

ＭＳＶＱ（多段ベクトル量子化）コードブックの設計は、［８］に説明されているプロシージャに従う。

係数はコードブックに記憶され、以下のひずみ測定値を最小化することによって最良の係数が選択される。

上式で、係数ｗ_i（ｊ）は、２．４ｋｂｐｓＭＥＬＰ標準におけるものと同じである。最良の補間係数を得た後、フレーム１および２に対する残差ＬＳＦベクトルを以下の式によって計算する。

次いで、重み付き多段ベクトル量子化を用いて、２０次元の残差ベクトルＲ＝［ｒ₁（１），ｒ₁（２），．．．，ｒ₁（１０），ｒ₂（１），ｒ₂（２），．．．，ｒ₂（１０）］を量子化する。

（３．６補間コードブックの設計方法）
補間係数は次のようにして得られた。各スーパーフレームに対する最適な補間係数は、ｌ₁，ｌ₂とｌ_i1，ｌ_i2の間の重み付き平均二乗誤差を最小にすることによって計算された。この結果を以下のように示すことができる。

コードブック設計のための訓練データベースの各エントリは、４０次元ベクトル

および以下に述べる訓練プロシージャを採用する。

このデータベースは、

として示され、

は４０次元ベクトルである。出力コードブックはＣ＝｛（ａ_1,m，ａ_2,m），ｍ＝０，．．．Ｍ−１｝であり、（ａ_1,m，ａ_2,m）＝［ａ_1,m（１），．．．，ａ_1,m（１０），ａ_2,m（１），．．．，ａ_2,m（１０）］は２０次元ベクトルである。

３．６．１次に、コードブック訓練の２つの主要プロシージャについて述べる。コードブックＣ＝｛（ａ_1,m，ａ_2,m）、ｍ＝０，．．．Ｍ’−１｝とした場合、各データベースエントリ

が特定の重心に関連付けられる。以下の式を使用して、エントリ（入力ベクトル）とコードブック中の各重心との間の誤差関数を計算する。エントリＬ_nは、最小誤差をもたらす重心に関連付けられる。このステップは、入力ベクトルに対する区分を規定する。

３．６．２特定の区分がある場合、コードブックは更新される。Ｎ’個のデータベースエントリが重心Ａ_m＝（ａ_1,m，ａ_2,m）に関連付けられると仮定すると、重心は、以下の式を使用して更新される。

補間係数コードブックは、いくつかのコードブックサイズについて訓練およびテストされた。１６個のエントリを有するコードブックが非常に効率的であることがわかった。以上のプロシージャは、ベクトル量子化および［７］に記述されているコードブック設計の一般概念に精通している技術者には容易に理解される。

（３．７利得量子化）
１．２ｋｂｐｓコーダでは、１フレームにつき２つの利得パラメータが計算され、１スーパーフレームにつき６つの利得となる。６つの利得パラメータは、１０ビットベクトルカンタイザを使用して、対数領域中で定義されるＭＳＥ基準でベクトル量子化される。

（３．８バンドパスボイシング量子化）
Ｕ／Ｖ決定から、合計５つの帯域のうちで最も低い帯域に対するボイシング情報が決定される。残りの４つの帯域のボイシング決定は、有声フレームだけに対して採用される。４つの帯域の２進数ボイシング決定（有声の場合は１、無声の場合は０）は、表２に示す２ビットコードブックを使用して量子化される。このプロシージャにより、各有声フレームに使用される２ビットが得られる。表６に、種々の符号化モードでバンドパスボイシング量子化に必要なビット割振りを示す。

（３．９フーリエ絶対値の量子化）
フーリエ絶対値ベクトルは、有声フレームだけに対して計算される。表７に、フーリエ絶対値に対する量子化プロシージャを要約してある。スーパーフレーム中の３つのフレームに関する量子化前のフーリエ絶対値ベクトルをｆ_i、ｉ＝１，２，３として示す。ｆ₀で示してあるのは、前のスーパーフレーム中の最後のフレームのフーリエ絶対値ベクトルであり、

は量子化されたベクトルｆ_iを示し、Ｑ（．）は、ＭＥＬＰ標準の中で使用されるのと同じ８ビットコードブックを使用したときのフーリエ絶対値ベクトルに対するカンタイザ関数を示す。表７に示すように、スーパーフレーム中の３つのフレームに関する量子化されたフーリエ絶対値ベクトルが得られる。

（３．１０非周期性フラグ量子化）
１．２ｋｂｐｓコーダは、非周期性フラグの量子化のために１スーパーフレームにつき１ビットを使用する。２．４ｋｂｐｓＭＥＬＰ標準では、非周期性フラグは１フレームに付き１ビットを必要とし、１スーパーフレームでは３ビットである。表８に示す量子化プロシージャを用いて、１スーパーフレームにつき１ビットに圧縮することが達成される。この表では、「Ｊ」および「−」は、それぞれ非周期性フラグがセットされている状態およびセットされていない状態を示す。

（３．１１エラー保護）
（３．１１．１モード保護）
パリティビットの他にも、ＶＶＶモードのスーパーフレームを除いたすべてのスーパーフレーム中で利用可能な予備ビットを採用することによって、追加のモードエラー保護技法がスーパーフレームに適用される。１．２ｋｂｐｓコーダは、各有声フレームに対するバンドパスボイシングの量子化のために２ビットを使用する。したがって、有声フレームを１つ有するスーパーフレームでは、２つのバンドパスボイシングビットが予備であり、これをモード保護に使用することができる。無声フレームを２つ有するスーパーフレームでは、モード保護に４ビットを使用することができる。さらに、ＵＵＵおよびＶＶＵモードでは、ＬＳＦ量子化の４ビットがモード保護に使用される。表９に、これらのモード保護ビットがどのように使用されるかを示す。モード保護は、１．１章で述べた符号化状態の保護を意味する。

（３．１１．２ＵＵＵスーパーフレームに対する前方エラー訂正）
ＵＵＵモードでは、利得インデックスの最初の８つのＭＳＢが２つの４ビットグループに分割され、各グループがハミング（８，４）符号で保護される。利得インデックスの残りの２ビットは、ハミング（７，４）符号で保護される。ハミング（７，４）符号はシングルビットエラーを訂正し、（８，４）符号はシングルビットエラーを訂正して、さらにダブルビットエラーも検出することに留意されたい。ＵＵＵスーパーフレーム中の各フレームに対するＬＳＦビットは、巡回冗長検査（ＣＲＣ）により、シングルビットエラーおよびダブルビットエラーを検出するＣＲＣ（１３，９）符号を使用して保護される。

（４．デコーダ）
（４．１ビットのアンパックおよびエラー訂正）
デコーダ内では、受信されたビットがチャネルからアンパックされ、パラメータコードワードに組み立てられる。ほとんどのパラメータに対する復号プロシージャはモード（Ｕ／Ｖパターン）によって決まるので、ピッチおよびＵ／Ｖ決定に割振られた１２ビットが最初に復号される。３ビットコードブック中のビットパターンが０００の場合、９ビットコードワードは、ＵＵＵ、ＵＵＶ、ＵＶＵ、ＶＵＵのモードを指定する。９ビットコードブックの符号がすべて０の場合、または１つのビットがセットされている場合は、ＵＵＵモードが使用される。符号の２つのビットがセットされている場合、またはピッチのために使用されないインデックスを指定する場合は、フレーム消去が指示される。

Ｕ／Ｖパターンが復号された後、得られたモード情報は、パリティビットおよびモード保護ビットを使用してチェックされる。エラーが検出された場合はモード訂正アルゴリズムが実施される。このアルゴリズムは、パリティビットおよびモード保護ビットを使用してモードエラーの訂正を試みる。訂正不可能エラーが検出された場合は、モードエラーパターンに従って、各パラメータに異なる復号方法が適用される。さらに、パリティエラーが見つかった場合は、パラメータ平滑化フラグがセットされる。表１０に訂正プロシージャを記述する。

ＵＵＵモードでは、モード情報中にエラーがなかったと仮定すると、利得パラメータを表す２つの（８，４）ハミング符号が復号されて、シングルビットエラーが訂正され、ダブルエラーが検出される。訂正不可能エラーが検出された場合は、フレーム消去が指示される。そうでない場合は、利得のための（７，４）ハミング符号およびＬＳＦのための（１３，９）ＣＲＣ（巡回冗長検査）符号が復号されて、それぞれ、シングルエラーが訂正され、シングルエラーおよびダブルエラーが検出される。ＣＲＣ（１３，９）符号中にエラーが見つかった場合は、前のＬＳＦを繰り返すか近傍の正しいＬＳＦ間を補間することにより、正しくないＬＳＦが置き換えられる。

ハミングデコーダによって現在のスーパーフレーム中でフレーム消去が検出された場合、またはチャネルから直接に消去が信号送信された場合は、フレーム反復機構が実施される。現在のスーパーフレームのパラメータすべてが、前のスーパーフレームの最後のフレームからのパラメータで置き換わる。

消去が検出されなかったスーパーフレームの場合、残りのパラメータが復号される。平滑化が必要な場合は、以下の式によって事後平滑化パラメータが得られる。

上式で、

は、それぞれ現在のフレームの復号済みパラメータ、および前のフレームの対応パラメータを表す。

（４．２ピッチ復号）
表４に示すように、ピッチ復号が行われる。無声フレームの場合、ピッチ値は５０サンプルに設定される。

（４．３ＬＳＦ復号）
４．４章および表５に記述するように、ＬＳＦが復号される。ＬＳＦは、昇順で、かつ最低限の分離でチェックされる。

（４．４利得復号）
利得インデックスを使用して、６つの利得パラメータを含むコードワードが１０ビットＶＱ利得コードブックから取り出される。

（４．５バンドパスボイシングの復号）
無声フレームでは、バンドパスボイシング強度はすべて０にセットされる。有声フレームでは、Ｖｂｐ₁は１にセットされ、残りのボイシングパターンは表２に示すように復号される。

（４．６フーリエ絶対値の復号）
無声フレームのフーリエ絶対値は、１に等しくセットされる。現在のスーパーフレームの最後の有声フレームの場合は、フーリエ絶対値は直接復号される。他の有声フレームのフーリエ絶対値は、表７に示すように線形補間の反復によって生成される。

（４．７非周期性フラグ復号）
表８に示すように、新しいフラグから非周期性フラグが得られる。非周期性フラグが１の場合はジッタが２５％に設定され、そうでない場合はジッタが０％に設定される。

（４．８ＭＥＬＰ合成）
デコーダの基本構造は、ＭＥＬＰ標準におけるものと同じだが、例外として、各ピッチ周期ごとに励起信号を生成するための新しいハーモニック合成方法が導入される。元々の２．４ｋｂｐｓＭＥＬＰアルゴリズムでは、フィルタリングされたパルス励起およびノイズ励起の合計として混合励起が生成される。パルス励起は、１ピッチ周期の長さの逆離散フーリエ変換（ＩＤＦＴ）を用いて計算され、ノイズ励起は時間領域で生成される。新しいハーモニック合成アルゴリズムでは、混合励起は完全に周波数領域で生成され、次いでこれは、逆離散フーリエ変換操作を実施して時間領域に変換される。これにより、パルスおよびノイズ励起のバンドパスフィルタリングの必要性が回避され、したがってデコーダの複雑さが低減される。

新しいハーモニック合成プロシージャでは、周波数領域における励起は、カットオフ周波数およびフーリエ絶対値ベクトルＡ_l、ｌ＝１，２，．．．，Ｌに基づいて各ピッチ周期ごとに生成される。カットオフ周波数は、前述のようにバンドパスボイシングパラメータから得られ、次いで、各ピッチ周期ごとに補間される。フーリエ絶対値は、ＭＥＬＰ標準における場合と同様にして補間される。

ピッチ長をＮとして示すと、対応する基本周波数はｆ₀＝２π／Ｎで記述される。この場合、フーリエ絶対値ベクトルの長さはＬ＝Ｎ／２によって得られる。経験的に導出されたアルゴリズムを採用して、以下のようにカットオフ周波数Ｆから２つの遷移周波数Ｆ_HおよびＦ_Lが決定される。

これらの遷移周波数は、２つの周波数成分インデックスＶ_HおよびＶ_Lに相当する。Ｖ_Lよりも下のすべての周波数サンプルには有声モデルが使用され、Ｖ_LとＶ_Hの間の周波数サンプルには混合モデルが使用され、Ｖ_Hよりも上の周波数サンプルには無声モデルが使用される。混合モデルを定義するために、カットオフ周波数に応じた値で利得係数ｇが選択される（カットオフ周波数Ｆが高いほど利得係数は小さくなる）。

励起の周波数成分の絶対値および位相は、以下のように決定される。

上式で、ｌは、ＩＤＦＴ周波数範囲の特定の周波数成分を識別するインデックスであり、φ₀は、ピッチパルスがピッチ周期境界に来るのを避けるために選択される定数である。位相φ_RND（ｌ）は、ｌの各値ごとに独立して生成される、−２πと２πの間で一様に分布する乱数である。

言い換えれば、各ピッチ期間中の混合励起信号のスペクトルは、カットオフ周波数によって決定されるスペクトルの３つの領域を考慮することによってモデリングされ、これはＦ_LからＦ_Hまでの遷移間隔を決定する。０からＦ_Lまでの低い領域では、フーリエ絶対値は直接にスペクトルを決定する。Ｆ_Hよりも上の高い領域では、フーリエ絶対値は利得係数ｇに応じて縮小する。Ｆ_LからＦ_Hまでの遷移領域では、フーリエ絶対値は、遷移領域にわたって１からｇまで下降する直線的な減少の重み係数に応じて縮小する。低い領域には線形に増加する位相が使用され、高い領域にはランダムな位相が使用される。遷移領域では、位相は、線形位相と重み付きランダム位相の合計であり、重みは遷移領域にわたって０から１まで線形に増加する。次いで、混合励起の周波数サンプルが、逆離散フーリエ変換を用いて時間領域に変換される。

（５．トランスコーダ）
（５．１概念）
アプリケーションによっては、異なる２つの音声符号化方式の間で相互運用できるようにすることが重要である。特に、２４００ｂｐｓＭＥＬＰコーダと１２００ｂｐｓのスーパーフレームコーダとの間の相互運用性を可能にすることが有用である。図５Ａおよび５Ｂのブロック図に、トランスコーダの一般的な動作を示す。図５Ａのアップコンバート用トランスコーダ７０中では、音声が１２００ｂｐｓボコーダ７４に入力され（７２）、ボコーダ７４の出力は１２００ｂｐｓの符号化済みビットストリームであり（７６）、このビットストリームは「アップトランスコーダ」７８によって、２４００ｂｐｓＭＥＬＰデコーダ８２で復号できる形の２４００ｂｐｓビットストリーム８０に変換され、ＭＥＬＰデコーダ８２は合成音声８４を出力する。反対に、図３Ｂのダウンコンバート用トランスコーダ９０中では、音声が２４００ｂｐｓＭＥＬＰエンコーダ９４に入力され（９２）、ＭＥＬＰエンコーダ９４は２４００ｂｐｓビットストリーム９６を「ダウントランスコーダ」９８に出力し、ダウントランスコーダ９８は、パラメトリックデータストリームを、１２００ｂｐｓデコーダ１０２で復号できる１２００ｂｐｓビットストリーム１００に変換し、デコーダ１０２は合成音声１０４を出力する。全二重（両方向）音声通信では、相互運用性を提供するためにアップトランスコーダとダウントランスコーダの両方が必要である。

アップトランスコーダを実現する簡単な方式は、１２００ｂｐｓビットストリームを１２００ｂｐｓデコーダで復号して、回復された音声信号の生ディジタル表現を入手し、次いでこれを２４００ｂｐｓエンコーダで再符号化するものである。同様に、ダウントランスコーダを実現する簡単な方法は、２４００ｂｐｓビットストリームを２４００ｂｐｓデコーダで復号して、回復された音声信号の生ディジタル表現を入手し、次いでこれを１２ｂｐｓエンコーダに再符号化するものである。アップトランスコーダおよびダウントランスコーダを実現するこの手法は、いわゆる「タンデム」符号化に対応し、音声品質がかなり劣化すること、およびトランスコーダの複雑さが必要以上に高くなることの欠点を有する。トランスコーダの効率は、タンデム符号化に関連する品質劣化の多くを回避しながら複雑さを低減する以下のトランスコーディング方法によって改善される。

（５．２ダウントランスコーダ）
ダウントランスコーダでは、同期化およびチャネルエラー訂正復号が行われた後、各パラメータを表すビットが、連続する３つのフレーム（スーパーフレームを構成する）それぞれに対するビットストリームから別々に抽出され、パラメータ情報のセットがパラメータバッファに記憶される。各パラメータセットは、連続する３つのフレームに関する所与のパラメータの値からなる。より低いレートのビットストリームに再符号化するために、スーパーフレームパラメータを量子化するのに用いた方法と同じ方法を、ここでも各パラメータセットに適用する。例えば、スーパーフレーム中の３つのフレームそれぞれに関するピッチおよびＵ／Ｖ決定が、３．２章で述べたピッチおよびＵ／Ｖ量子化方式にかけられる。この場合、パラメータセットは、それぞれ７ビットで表される３つのピッチ値と、それぞれ１ビットによってもたらされる３つのＵ／Ｖ決定とで構成され、合計２４ビットとなる。これが２４００ｂｐｓビットストリームから抽出され、再符号化操作によって１２ビットに変換されて、スーパーフレームに関するピッチおよびボイシングを表す。このようにすれば、ダウントランスコーダはＭＥＬＰ分析機能を実施する必要はなく、スーパーフレームに必要な量子化操作を行うだけである。ダウントランスコーディング操作の一部として、パリティチェックビット、同期ビット、およびエラー訂正ビットを再生成しなければならないことに留意されたい。

（５．３アップトランスコーダ）
アップトランスコーダの場合、１２００ｂｐｓの入力ビットストリームが、各スーパーフレームに関する量子化済みパラメータを含む。同期化およびエラー訂正復号を実施した後、アップトランスコーダは、スーパーフレームに関する各パラメータを表すビットを抽出し、これを、現在のスーパーフレーム中の３つのフレームそれぞれに関するこのパラメータの対応する値を別々に指定する、より多数のビットにマッピング（再符号化）する。このマッピングを行うこの方法はパラメータに依存するが、この方法について以下に述べる。スーパーフレームのフレームのパラメータがすべて決定されると、３つの音声フレームを表すビットのシーケンスが生成される。同期ビットおよびパリティビットの挿入ならびにエラー訂正符号化の後、このデータシーケンスから２４００ｂｐｓビットストリームが生成される。

以下は、スーパーフレームに対するパラメータビットを３つのフレームのそれぞれに対する別々のパラメータビットにマッピング（復号）する一般的な手法についての記述である。１２００ｂｐデコーダ中で、前述のように各パラメータに対して量子化テーブルおよびコードブックが使用される。復号動作では、１つまたは複数のパラメータを表す２進ワードを取り入れて、各パラメータに対する値、例えばコードブックに記憶されている特定のＬＳＦ値やピッチ値を出力する。これらのパラメータ値は量子化される。すなわち、２４００ｂｐｓＭＥＬＰコーダの量子化テーブルを採用する新しい量子化動作への入力として加えられる。この再量子化により、２４００ｂｐｓＭＥＬＰデコーダで復号するのに適した形でパラメータ値を表す新しい２進ワードがもたらされる。

量子化の使用を示す例として、特定のスーパーフレームに関するピッチおよびボイシング情報を含むビットが１２００ｂｐｓビットストリームから抽出され、スーパーフレーム中の３つのフレームに対する３つのボイシング（Ｕ／Ｖ）決定および３つのピッチ値に復号される。３つのボイシング決定は２進数であり、２４００ｂｐｓＭＥＬＰビットストリームのためのボイシングビットとして直接使用可能である（３つのフレームのそれぞれにつき１ビット）。３つのピッチ値は、それぞれをＭＥＬＰピッチスカラカンタイザにかけることによって再量子化され、各ピッチ値につき７ビットワードが得られる。述べたこの発明的方法に従ったピッチ再量子化は、当業者なら多くの代替実装形態を設計することができる。

具体的な代替形態の一つは、スーパーフレームの単一のフレームだけが有声であるときにピッチ再量子化をとばすことによって生み出すことができる。というのはこの場合、有声フレームに関するピッチ値はすでに、ＭＥＬＰボコーダのフォーマットと一致する量子化済みの形で指定されているからである。同様に、フーリエ絶対値についても、スーパーフレームの最後のフレームはすでにＭＥＬＰフォーマットでスカラ量子化されているので、このフレームに再量子化は必要ない。ただし、スーパーフレームの他の２つのフレームに関する補間済みフーリエ絶対値は、ＭＥＬＰ量子化方式で再量子化する必要がある。ジッタまたは非周期性フラグは、表８の最後の２つの欄を用いたテーブルルックアップによって単純に得られる。

（６．ディジタルボコーダ端末ハードウェア）
図６に、本発明の音声符号化方法に従って動作するエンコーダおよびデコーダを備えたディジタルボコーダ端末を示す。マイクロホンＭＩＣ１１２は、アナログ出力信号１１４を提供する入力音声トランスデューサであり、アナログ出力信号１１４は、アナログディジタルコンバータ（Ａ／Ｄ）１１６によってサンプリングされディジタル化される。得られたサンプリング済みおよびディジタル化済みの音声１１８は、ＤＳＰコントローラチップ１２０内で、音声符号化操作を符号化ブロック１２２中で行うことによってディジタル処理され圧縮される。符号化ブロック１２２は、本発明によりＤＳＰ／コントローラ内のソフトウェア中に実装される。

ディジタル信号プロセッサ（ＤＳＰ）１２０は、ＴｅｘａｓＩｎｓｔｒｕｍｅｎｔｓＴＭＣ３２０Ｃ５４１６集積回路を例とし、音声データおよび中間データおよびパラメータを記憶するのに十分なバッファ空間を備えるランダムアクセスメモリ（ＲＡＭ）を含む。ＤＳＰ回路はまた、前述のように、ボコーダ動作を実施するプログラム命令を収録するための読出し専用メモリ（ＲＯＭ）も含む。ＤＳＰは、本発明で述べたボコーダ動作を行うのによく適している。符号化動作から得られるビットストリーム１２４は、低レートのビットストリーム、Ｔｘデータストリームである。Ｔｘデータ１２４は、チャネルインタフェースユニット１２６に入り、チャネル１２８を介して送信される。

受信側では、チャネル１２８からのデータがチャネルインタフェースユニット１２６に入り、チャネルインタフェースユニット１２６はＲｘビットストリーム１３０を出力する。Ｒｘデータ１３０は、復号ブロック内の音声復号動作のセットに加えられる。これらの動作については前に述べた。得られたサンプリング済みおよびディジタル化済み音声１３４は、ディジタルアナログコンバータ（Ｄ／Ａ）１３６に加えられる。Ｄ／Ａは、再構築したアナログ音声１３８を出力する。再構築済みアナログ音声１３８は、スピーカ１４０に加えられるか、再構築済みの音を再生するその他のオーディオトランスデューサに加えられる。

図６は、この発明原理を実施することのできるハードウェアの一構成を表したものである。この発明原理は、音声データの符号化および復号化に関して本明細書に述べた処理機能をサポートできる様々な形のボコーダ実装形態で実施することができる。具体的には、この発明的な実装形態の範囲に含まれる多くの変形のうちの少数でしかないが、次のようなものがある。
（ａ）伝送パスが従来の電話回線であるときに使用するために、音声帯域データモデムを含むチャネルインタフェースユニットを使用する。
（ｂ）適した暗号化デバイスを介して暗号化したディジタル信号を送信に使用し、受信のために記述され、安全な伝送を実現する。この場合、暗号化ユニットもまたチャネルインタフェースユニットに含まれることになる。
（ｃ）伝送チャネルがワイヤレス無線リンクである場合に電波で無線信号を伝送するために、無線周波モジュレータおよびデモジュレータを含むチャネルインタフェースユニットを使用する。
（ｄ）複数の音声および／またはデータチャネルで無線信号を伝送するために、多重化および多重分離の装置を含むチャネルインタフェースユニットを使用する。この場合、複数のＴｘおよびＲｘ信号がチャネルインタフェースユニットに接続されることになる。
（ｅ）離散的コンポーネント、または離散的要素と処理要素が混合したものを採用して、ＤＳＰ／コントローラの命令処理動作を置き換える。採用できる例には、プログラマブルゲートアレイ（ＰＧＡ）が含まれる。本発明は、処理要素を必要とせず完全にハードウェア中で実施するようにすることもできることに留意されたい。

この発明原理をサポートするためのハードウェアは、述べたデータ操作をサポートするだけでよい。しかし、ＤＳＰ／プロセッサチップを使用するのが、現在の最新技術で音声コーダまたはボコーダを実装するのに使用される最も一般的な回路である。

以上の記述は多くの限定を含むが、これらは本発明の範囲を限定するものと見なすべきではなく、現時点で好ましい本発明の実施形態のいくつかの例示を提供するにすぎないと見なすべきである。したがって、本発明の範囲は、添付の特許請求の範囲およびこれらの法的均等物によって決定すべきである。

Claims

スーパーフレームベースで符号化された音声データストリームを受け取り、それをフレームベースで符号化された音声データストリームに変換するアップトランスコーダ装置であって、
（ａ）前記スーパーフレームベースで符号化された音声データストリームから、複数のフレームを含むスーパーフレームに関する複数のスーパーフレームパラメータを表すビットを抽出する手段と、
（ｂ）前記複数のフレームを含むスーパーフレームに関する前記複数のスーパーフレームパラメータを表す前記ビットを収集するスーパーフレームバッファと、
（ｃ）前記複数のスーパーフレームパラメータのうちの少なくとも一部に対するビットを、前記スーパーフレームの前記複数のフレームの各フレームに関する複数のパラメータ値に逆量子化するデコーダと、
（ｄ）前記複数のフレームの各フレームに関する前記複数のパラメータ値をフレームベースのデータに量子化し、フレームベースで符号化された音声データストリームを生成する、フレームベースのエンコーダと、
（ｅ）前記フレームベースで符号化された音声データストリームを出力する手段と
を備えることを特徴とするアップトランスコーダ装置。
請求項１に記載のアップトランスコーダ装置であって、前記複数のスーパーフレームパラメータ、および前記複数のフレームの各フレームに関する前記複数のパラメータ値は、ピッチ、ボイシング決定、および線形予測係数に関するＬＳＦ値のうちの１つまたは複数を含むことを特徴とするアップトランスコーダ装置。
請求項１に記載のアップトランスコーダ装置であって、前記複数のスーパーフレームパラメータのうちの１つまたは複数は、前記フレームベースで符号化された音声データストリームにおいて、前記デコーダによる逆量子化なしで、かつ、前記フレームベースのエンコーダによる量子化なしで再生され、そうすることによって、前記複数のスーパーフレームパラメータのうちの前記１つまたは複数の再量子化をとばすことを特徴とするアップトランスコーダ装置。
請求項３に記載のアップトランスコーダ装置であって、前記複数のスーパーフレームパラメータのうちの１つまたは複数のピッチ値は、前記フレームベースで符号化された音声データストリームにおいて、前記デコーダによる逆量子化なしで、かつ、前記フレームベースのエンコーダによる量子化なしで再生されることを特徴とするアップトランスコーダ装置。
請求項３に記載のアップトランスコーダ装置であって、記複数のスーパーフレームパラメータのうちの１つまたは複数のボイシング決定値は、前記フレームベースで符号化された音声データストリームにおいて、前記デコーダによる逆量子化なしで、かつ、前記フレームベースのエンコーダによる量子化なしで再生されることを特徴とするアップトランスコーダ装置。
請求項３に記載のアップトランスコーダ装置であって、記複数のスーパーフレームパラメータのうちの１つまたは複数のフーリエ絶対値は、前記フレームベースで符号化された音声データストリームにおいて、前記デコーダによる逆量子化なしで、かつ、前記フレームベースのエンコーダによる量子化なしで再生されることを特徴とするアップトランスコーダ装置。
請求項３に記載のアップトランスコーダ装置であって、記複数のスーパーフレームパラメータのうちの１つまたは複数の非周期性フラグ値は、前記フレームベースで符号化された音声データストリームにおいて、前記デコーダによる逆量子化なしで、かつ、前記フレームベースのエンコーダによる量子化なしで再生されることを特徴とするアップトランスコーダ装置。
請求項１に記載のアップトランスコーダ装置であって、前記デコーダはスーパーフレームＭＥＬＰデコーダであり、前記フレームベースのエンコーダはＭＥＬＰエンコーダであることを特徴とするアップトランスコーダ装置。
フレームベースで符号化された音声データストリームを受け取り、それをスーパーフレームベースで符号化された音声データストリームに変換するダウントランスコーダ装置であって、
（ａ）前記フレームベースで符号化された音声データストリームから、パラメトリック音声データの複数のフレームに関する複数のフレームベースの音声パラメータを表すビットを抽出する手段と、
（ｂ）前記複数のフレームに関する複数のフレームベースの音声パラメータを表す前記ビットを収集するバッファと、
（ｃ）パラメトリック音声データの前記複数のフレームの各フレームに関する前記複数のフレームベースの音声パラメータの少なくとも一部に関する前記ビットを、前記複数のフレームの各フレームに関する複数の量子化済みパラメータ値に逆量子化するデコーダと、
（ｄ）前記複数のフレームの各フレームに関する前記複数の量子化済みパラメータを収集し、前記複数のフレームを含むスーパーフレームに関するスーパーフレームパラメトリック音声データのセットを生成し、前記スーパーフレームパラメトリック音声データを量子化および符号化して、送出スーパーフレームベースの符号化済み音声データストリームにするスーパーフレームエンコーダと、
（ｅ）前記スーパーフレームベースで符号化された音声データストリームを出力する手段と
を備えることを特徴とするダウントランスコーダ装置。
請求項９に記載のダウントランスコーダ装置であって、前記スーパーフレームパラメトリック音声データ、および前記複数のフレームの各フレームに関する前記複数のフレームベースのパラメータ値は、ピッチ、ボイシング決定、および線形予測係数に関するＬＳＦ値のうちの１つまたは複数を含むことを特徴とするダウントランスコーダ装置。
請求項９に記載のダウントランスコーダ装置であって、前記デコーダはＭＥＬＰデコーダであり、前記スーパーフレームエンコーダはスーパーフレームＭＥＬＰエンコーダであることを特徴とするダウントランスコーダ装置。
請求項９に記載のダウントランスコーダ装置であって、前記複数のフレームベースの音声パラメータのうちの少なくとも一部は、前記ダウントランスコーダ装置の外部のフレームベースのエンコーダによるＭＥＬＰ分析によって導出されたものであり、前記ダウントランスコーダ装置は、前記複数のフレームベースの音声パラメータの前記少なくとも一部に関するＭＥＬＰ分析を実施せずに、前記スーパーフレームパラメトリック音声データのセットを生成することを特徴とするダウントランスコーダ装置。
スーパーフレームベースで符号化された音声データストリームを、フレームベースで符号化された音声データストリームにアップトランスコーディングする方法であって、
前記スーパーフレームベースで符号化された音声データストリームのスーパーフレームデータを受け取り、前記スーパーフレームベースで符号化された音声データストリームから、複数のフレームを含むスーパーフレームに関する複数のスーパーフレームパラメータを表すビットを抽出するステップと、
前記複数のスーパーフレームパラメータのうちの少なくとも一部に対するビットを、前記スーパーフレームの前記複数のフレームに関する複数のパラメータ値に逆量子化して、前記複数のフレームの各フレームが、前記複数のパラメータ値のセットに関連するようにするステップと、
前記複数のフレームの各フレームに関する前記複数のパラメータ値のセットを量子化し、フレームベースで符号化された音声データストリームを生成するステップと、
前記フレームベースで符号化された音声データストリームを出力するステップと
を備えることを特徴とする方法。
請求項１３に記載の方法であって、前記複数のスーパーフレームパラメータ、および前記複数のフレームの各フレームに関する前記複数のパラメータ値は、ピッチ、ボイシング決定、および線形予測係数に関するＬＳＦ値のうちの１つまたは複数を含むことを特徴とする方法。
請求項１３に記載の方法であって、前記複数のスーパーフレームパラメータのうちの１つまたは複数は、前記フレームベースで符号化された音声データストリームにおいて、逆量子化および量子化なしで再生され、そうすることによって、前記複数のスーパーフレームパラメータのうちの前記１つまたは複数の再量子化をとばすことを特徴とする方法。
請求項１５に記載の方法であって、前記複数のスーパーフレームパラメータのうちの１つまたは複数のピッチ値は、前記フレームベースで符号化された音声データストリームにおいて、逆量子化および量子化なしで再生されることを特徴とする方法。
請求項１５に記載の方法であって、前記複数のスーパーフレームパラメータのうちの１つまたは複数のボイシング決定値は、前記フレームベースで符号化された音声データストリームにおいて、逆量子化および量子化なしで再生されることを特徴とする方法。
請求項１５に記載の方法であって、前記複数のスーパーフレームパラメータのうちの１つまたは複数のフーリエ絶対値は、前記フレームベースで符号化された音声データストリームにおいて、逆量子化および量子化なしで再生されることを特徴とする方法。
請求項１５に記載の方法であって、前記複数のスーパーフレームパラメータのうちの１つまたは複数の非周期性フラグ値は、前記フレームベースで符号化された音声データストリームにおいて、逆量子化および量子化なしで再生されることを特徴とする方法。
フレームベースで符号化された音声データストリームを、スーパーフレームベースで符号化された音声データストリームにダウントランスコーディングする方法であって、
前記フレームベースで符号化された音声データストリームのフレームベースのパラメトリック音声データの複数のフレームを受け取り、前記フレームベースで符号化された音声データストリームから、前記複数のフレームに関する複数のフレームベースの量子化済み音声パラメータを表すビットを抽出するステップと、
前記複数のフレームベースの音声パラメータの少なくとも一部を、前記複数のフレームの各フレームに関する複数のパラメータ値のセットに逆量子化するステップと、
前記複数のフレームに関する前記複数のパラメータ値を、前記複数のフレームを含むスーパーフレームに関するスーパーフレームベースのパラメトリック音声データに量子化して、スーパーフレームベースで符号化された音声データストリームを生成するステップと、
前記スーパーフレームベースで符号化された音声データストリームを出力するステップと
を備えることを特徴とする方法。
請求項２０に記載の方法であって、前記スーパーフレームベースのパラメトリック音声データ、および前記複数のフレームの各フレームに関する前記複数のパラメータ値は、ピッチ、ボイシング決定、および線形予測係数に関するＬＳＦ値のうちの１つまたは複数を含むことを特徴とする方法。
請求項２０に記載の方法であって、前記複数のフレームベースの音声パラメータのうちの少なくとも一部は、ダウントランスコーダ装置の外部のフレームベースのエンコーダによるＭＥＬＰ分析によって導出されたものであり、前記ダウントランスコーダ装置は、前記複数のフレームベースの音声パラメータの前記少なくとも一部に関するＭＥＬＰ分析を実施せずに、前記スーパーフレームベースのパラメトリック音声データのセットを生成することを特徴とする方法。