JPH08505959A

JPH08505959A - ベクトル量子化ベース音声符号化／複号化を用いたテキスト−音声合成システム

Info

Publication number: JPH08505959A
Application number: JP6517160A
Authority: JP
Inventors: シャンカーナラヤン
Original assignee: アップルコンピューターインコーポレイテッド
Priority date: 1993-01-21
Filing date: 1994-01-18
Publication date: 1996-06-25
Also published as: WO1994017518A1; US5717827A; AU6125194A; EP0680654A1; EP0680654B1; DE69413002T2; DE69413002D1

Abstract

(57)【要約】テキスト−音声合成システムは、一組の量子化ベクトルを記憶するメモリを含む。第１の処理モジュールは、一連の対応サウンド・セグメント・コードに対するノイズ補償量子化べクトルの文字列を識別するために一連のテキストに応じて生成されたサウンド・セグメント・コードに応答する。デコーダは、量子化べクトルの文字列に応じて音声データ・シーケンスを生成する。音声変換器は、処理モジュールに結合され、音声データ・シーケンスに応じて音を生成する。量子化ベクトルは、量子化に用いるサウンド・サンプルと量子化ノイズを非相関関係にするためにプリエンファシスを有しているサウンド・セグメント・データの量子化を表わす。サウンド・セグメント・データを減圧することにおいて、インバース線形予測フィルタは、プリエンファシスを反転するために量子化ベクトルの識別された文字列に適用される。また、量子化ベクトルは、サウンド・セグメント・データのピッチ・フィルタリングの結果の量子化を表わす。それゆえに、インバース・ピッチ・フィルタは、音声データ・シーケンスを生成するモジュールにおける量子化ベクトルの識別された文字列に適用される。

Description

【発明の詳細な説明】ベクトル量子化ベース音声符号化／復号化を用いたテキスト−音声合成システム発明の分野本発明は、コンピュータ・システムのテキストを合成音声に変換することに関し、特に音声データの記憶及び検索に対するようなシステムに用いる技術に関する。発明の背景テキスト−音声合成（text-to-speech）システムでは、コンピュータに記憶されたテキストは、合成音声に変換される。正当に評価されるように、この種のシステムは、妥当なコストであるならば、広範囲にわたるアプリケーションを持ちうる。例えば、テキスト−音声合成システムは、電子メールを記憶しているコンピュータに電子メールを表している音声の合成をもたらすことによって、電話回線の両端で遠隔的に電子メールを再検討するために用いることができる。また、そのようなシステムは、視覚的に障害がある人々に対して読書するために用いることができる。ワード・プロセッシング・コンテキストでは、テキスト−音声合成システムは、大きな文書（large document）の校正を助成するために用いられうる。しかしながら、妥当なコストを有する従来のシステムでは、音声の質が比較的悪く、それを用いることを不快にするかまたは理解することを難しくする。良質な音声を達成するために、従来の音声合成システムは、非常に高価な特殊なハードウェア、かつ／または音（sound）を発生するコンピュータ・システムに多量のメモリ空間を必要とする。テキスト−音声合成システムでは、アルゴリズムは、入力テキスト文字列を再検討し、かつテキスト文字列の単語（words）を合成音声に変換されなければならない一連のダイフォーン（diphones:二重単音）に変換する。また、テキスト −音声合成システムは、音の持続時間及び音声に含まれる音（サウンド）のピッチ（高低）を調整するために用いられるイントネーション制御を生成すべく単語型（word type）及びコンテキストに基づいてテキストを分析（解析）する。二重単音は、一つの音、または音素（phoneme）と、隣接音、または音素との間の遷移を含む一単位の音声から構成される。二重単音は、一般に一つの音素の中心から始まり近隣の音素の中心で終わる。これは、音間の遷移を比較的よく保存する。アメリカ英語（American English）ベーステキスト−音声合成システムは、特定の実施に基づいて、単音（phones）と称されるおおよそ５０の異なる音（サウンド）を用いる。これら５０の異なる音のうち、標準言語（standard language ）は、可能な２５００の単音対（phone pairs）のうちの約１８００の二重単音を用いる。それゆえに、テキスト−音声合成システムは、１８００の二重単音を再生することが可能でなけらばならない。各二重単音に対して直接的に音声データを記憶することは、莫大な量のメモリを必要とする。それゆえに、二重単音を記憶するために必要なメモリの量を制限（限定）すべく圧縮技術が発展（進化）した。しかしながら、成功であるためには、システムが非常に高品質な再生でハードウェア・プラットフォームズ（hardware platforms）の広範囲にわたり実行可能であるように、二重単音データを減圧する（decompressing）ためのデコーダの計算の複雑性は、非常に低くなけらばならない。この問題に対処する従来技術のシステムは、「人工音声に対する記憶波形の圧縮」（COMPRESSION OF STORED WAVE FORMS FOR ARTIFICIAL SPEECH）と題するS pragueによる米国特許第8,452,168号、及び「実時間テキスト−音声合成変換システム」（REAL-TIME TEXT-TO-SPEECH CONVERSION SYSTEM）と題するJacks et a l.による米国特許第4,692,941号の一部分に記載されている。音声合成に関する更なる背景は、「音声合成に対する方法及び装置」（METHOD AND APPARATUSFOR SPEECH SYNTHESIZING）と題するMozer et al.による米国特許第4,384,169号に見出されうる。発明の目的および概要この分野における従来の研究にもかかわらず、テキスト−音声合成システムの使用は、広範な受容を獲得していない。従って、種々のマイクロコンピュータ・プラットフォーム（microcomputer platforms）に移植可能であり、かつ他の使用のためにそのようなプラットフォームにおけるメモリ空間を節約して使うソフトウェア専用テキスト−音声合成システム（software only text-to-speech sys tem）を提供することが望ましい。本発明は、実行のために比較的少量のホスト・システムのメモリを使用する種々のパーソナル・コンピュータ・プラットフォームのアプリケーションに適するソフトウェア専用実時間テキスト−音声合成システム（software only real tim e,text-to-speech system）を提供する。システムは、次のものを含む音声に関するある一定の特殊な知識を利用する音声圧縮アルゴリズムに基づく：１）音声データの隣接サンプルは、かなりの相関関係がある。それゆえに、固定線形予測フィルタは、隣接サンプル間の相関関係を部分的に除去するために用いられうる。２）音声に対する声（voice to speech）（例えば、母音、鼻音、等）の場合には、音声波形は、ゆっくり変化する周期的信号と考慮できる。それゆえに、適応ピッチ予測子（adaptive pitch predictor）は、音声データにおける冗長性を除去しかつ高データ圧縮を達成するために用いることができる。３）そして、ベクトル量子化は、相関データ・ベクトルを符号化すべく非常に効率的なアプローチである。それは、本発明に従って部分的に非相関な音声データに適用でき、かつノイズ・シェーピングは、合成音声の主観的品質を改善すべくベクトル量子化処理に組み込むことができる。更に、種々の異なる圧縮レート（compression rates）は、ベクトル量子化に用いるベクトル・サイズを単に変化することによって達成することができる。それゆえに、一つの態様によれば、本発明は、音声を表している一連のサウンド・セグメント・コード（sound segment codes：音区分符号）に応じて音声を合成する装置として特徴付けることができる。システムは、一組のノイズ補償量子化ベクトルを記憶するメモリを含む。装置におけるプロセッシング・モジュールは、一連の対応するサウンド・セグメント・コードに対して一組のノイズ補償量子化ベクトルの文字列を識別すべく一連のサウンド・セグメント・コードに応答する。第２のプロセッシング・モジュールは、ノイズ補償量子化ベクトルの文字列に応じて音声データ・シーケンスを生成する。そして、音声変換器は、プロセッシング・モジュールに結合され、かつ音声データ・シーケンスに応じて音を生成する。この態様によるノイズ補償に対して、音は、ノイズ・シェープ・データ及びノイズ・シェープ・データに適応される第１の組の量子化ベクトルを用いて符号化される。復号において、第１の組とは異なる第２の組のノイズ補償ベクトルが改善された高品質音（improved quality sound）を取り戻すべく用いられる。本発明の別の態様は、フィルタされたサウンド・セグメント・データを表わすべく量子化ベクトルを利用すること、及びインバース・フィルタを音声データ・シーケンスのジェネレーション（generation:発生、世代）の量子化ベクトルの文字列に適用するためにモジュールを供給することを含む。この態様によれば、量子化ベクトルは、量子化に用いられるサウンド・サンプル（sound samples）と量子化ノイズを非相関関係にすべくスペクトル平滑化（spectral flattening ）に対するサウンド・セグメント・データの線形予測フィルタリングの結果の量子化を表しうる。サウンド・セグメント・データを減圧することにおいて、インバース線形予測フィルタは、サウンド・データを取り戻すべく量子化ベクトルの識別された文字列に適用される。また、量子化ベクトルは、サウンド・セグメント・データのピッチ・フィルタリングの結果の量子化を表わす。それゆえに、インバース・ピッチ・フィルタは、音声データ・シーケンスを発生するモジュールにおいて量子化ベクトルの識別された文字列に適用される。インバース線形予測フィルタ及びインバース・ピッチ・フィルタを用いるシステムでは、サウンド・セグメント・コードは、インバース・フィルタリング段階を実行するのに用いるパラメータも含む。好ましいシステムでは、これらのパラメータは、復号（decoding）に用いられるフィルタ係数と共に、選択されて、復号が増倍（multiplication）なしで実行できる。即ち、移動及び追加は、これら特定的に選択された値により要求されるあらゆる増倍を置き換える。本発明は、テキストに応じて音声を合成する装置としても特徴付けることができる。このシステムは、受け取ったテキストを上述したように復号される一連のサウンド・セグメント・コードに変換するモジュールを含む。テキスト変換子（ text translator）は、対応二重単音に対する一組の量子化ベクトルの文字列を識別しているデータを含むエントリーを有している符号化された二重単音の表（ table）を含む。一連のサウンド・セグメント・コードは、それゆえにテキストを表している符号化された二重単音の表に対する一連のインデックス（indices ：指標、索引）を含む。所与のサウンド・セグメント・コードに対する量子化ベクトルの文字列は、符号化された二重単音の表のエントリーをアクセスすることによって識別される。音声データ波形を生成するモジュールは、合成音声の質を改善するモジュールも含む。そのようなモジュールは、特定及び隣接二重単音データ文字列間の非連続性を円滑にすべく一連の特定二重単音の終りを隣接二重単音の始まりと混ぜ合わせるルーチンを含む。更に、量子化された音声データの文字列は、量子化ベクトルの文字列によって表される音のピッチ及び持続時間を調整するシステムに適用されうる。本発明の別の態様によれば、音声を合成する装置は、符号化された二重単音の表を生成するエンコーダを含みうる。この態様では、エンコーダは、対応する二重単音に対するサンプル（標本化）された音声を受取り、音声サンプルと量子化ノイズを部分的に非相関関係にすべく固定線形予測フィルタを適用し、線形予測フィルタの出力にピッチ・フィルタを適用し、かつ合成組のベクトル（a result ing set of vectors）を生成すべくノイズ・シェーピング・フィルタを適用する。合成組のベクトルは、次にベクトル量子化表のベクトルに整合される。ベクトル量子化表のベクトルは、減圧音声（decompressed speech）の質を本質的に改善すべく同じノイズ・シェーピング・フィルタによって音声データを復号するために用いられる量子化ベクトルまたはその微分に関連付けられる。この符号化技術は、非常に簡単な復号技術の使用を許容し、少量のメモリを必要とし、かつ非常に高品質な音声を生成する。従って、本発明は、デコーダの複雑性を絶対最小限に維持しつつ、より高いレベルの圧縮が達成されるテキスト−音声合成システム用音声圧縮／減圧技術に関する。圧縮比は、コンピュータで利用可能なＲＡＭにより変えることができる。非圧縮形式で音声を記憶するために、サンプル当たり通常８〜１６ビットが必要である。本発明の音声圧縮技術を用いことにより、各サンプルを記憶するために必要なビットの数は、０．５ビットにまで低減できる（即ち、音声の約１６サンプルがメモリの８ビットを用いて記憶できる）。しかしながら、より大きなＲＡＭ空間が利用可能である場合には、サンプル当たり約４ビットを用いて、より高品質の合成音声を生成することができる。本発明の他の態様及び利点は、以下の図面、詳細の説明及び請求の範囲を再検討することにより、理解されるであろう。実施例以下、添付した図面を参照して本発明の好ましい実施例を詳細に説明する。図１及び図２は、本発明を組み込んでいるシステムの概要を示す。図３は、本発明による二重単音記録が記憶される基本的な方法を示す。図４〜図６は、本発明のベクトル量子化に基づく符号化方法を示す。図７は、本発明による復号アルゴリズムを示す。図８及び図９は、隣接二重単音記録の始まり及び終りを混ぜ合わせるための好ましい技術を示す。図１０〜図１８は、テキスト−音声合成システムにおける音のピッチ及び持続時間の制御のための技術を示す。Ｉ．システム概要（図１〜図３）図１は、本発明によるベクトル量子化に基づくテキスト−音声合成システムを組み込んでいる基本マイクロコンピュータ・プラットフォームを示す。プラットフォームは、ホスト・システム・バス１１に結合された中央処理装置（CPU）１０を含む。キーボード１２または他のテキスト入力装置は、システムに備えられる。また、ディスプレイ・システム１３は、ホスト・システム・バスに結合される。ホスト・システムは、ディスク・ドライブ１４のような不揮発性記憶システムも含む。更に、システムは、ホスト・メモリ１５を含む。ホスト・メモリは、テキスト−音声合成（text-to-speech:TTS）符号を含み、符号化音声表（encoded vo ice tables）、バッファ、及び他のホスト・メモリを含んでいる。テキスト−音声合成符号は、スピーカ１７を含む音声出力モジュール１６に供給する音声データを生成するために用いられる。本発明によれば、符号化音声表は、テキストを二重単音の文字列に変換するために用いられるＴＴＳ辞書を含む。二重単音を量子化ベクトルの識別された文字列に変換する二重単音表が更に含まれている。量子化ベクトル表は、二重単音表のサウンド・セグメント・コードを音声出力のための音声データに復号するために用いられる。また、システムは、必要な場合にホスト・メモリ１５にロードされる符号化のためのベクトル量子化表を含みうる。図１に示したプラットフォームは、あらゆる一般的なマイクロコンピュータ・システムを表わし、マッキントッシュ・ベース・システム、ＤＯＳベース・システム、ＵＮＩＸベース・システムまたは他の型のマイクロコンピュータを含んでいる。復号のための本発明によるテキスト−音声合成符号及び符号化音声表は、比較的少量のホスト・メモリ１５を占有する。例えば、本発明によるテキスト− 音声合成復号システムは、主メモリの６４０キロバイト以下を占有し、しかも高品質の、自然な音の合成音声を生成するように実施されうる。テキスト−音声合成符号により実行される基本アルゴリズムを図２に示す。システムは、まず入力テキストを受取る（ブロック２０）。入力テキストは、ＴＴＳ辞書を用いて二重単音文字列に変換される（ブロック２１）。同時に、入力テキストは、イントネーション制御データを生成し、音声を形成している二重単音のピッチ及び持続時間を制御するために分析される（ブロック２２）。テキストが二重単音文字列に変換された後、二重単音文字列は、ベクトル量子化データ・フレームを生成するために減圧される（ブロック２３）。ベクトル量子化（ＶＱ）データ・フレームが生成された後、あらゆる不連続性を円滑にするために隣接二重単音の始まり及び終りが混ぜ合わせられる（ブロック２４）。次に、二重単音ＶＱデータ・フレームの持続時間及びピッチは、イントネーション制御データに応じて調整される（ブロック２６）。そして、音声データは、実時間音声生成のために音声出力システムに供給される（ブロック２７）。十分な処理能力を有するシステムに対して、適応ポスト・フィルタが音声の質を更に改善するために適用されうる。ＴＴＳ辞書は、この分野で知られた種々の技術のいずれか一つを用いることによって実施できる。本発明によれば、二重単音記録は、高圧縮フォーマット（highly compressed format）で図３に示すように実施される。図３に示すように、左の二重単音３０に対する記録及び右の二重単音３１に対する記録が示されている。左の二重単音３０に対する記録は、二重単音におけるピッチ周期の数ＮＬのカウント（計数）３２を含む。次に、ｉが対応している圧縮フレーム記録に対するピッチ値の０からＮＬ−１になる、各ピッチ周期に対する数ＬＰ_iを記憶している長さＮＬの表を指すポインタ３３が含まれる。そして、ポインタ３４は、それぞれが左の二重単音に対する符号化音声の公称（nomina l）ピッチに関する符号化フレーム・サイズの固定設定長（fixed set length）を有している、ＭＬベクトル量子化圧縮音声記録の表３６に含まれる。公称ピッチは、音声データ・ベースの所与のピッチ周期に対するサンプルの平均数に基づいている。同様な構造が右の二重単音３１に対して認識できる。ベクトル量子化を用いると、圧縮音声記録の長さは、生成された音声の質に対して非常に短い。ベクトル量子化音声記録のフォーマットは、図４〜図７を参照して以下に説明するフレーム・エンコーダ・ルーチン及びフレーム・デコーダ・ルーチンを参照して更に理解することができる。 II．エンコーダ／デコーダ・ルーチン（図４〜図７）エンコーダ・ルーチンを図４に示す。エンコーダは、音声データのフレームｓ_n を入力として受け入れる。好ましいシステムでは、音声サンプルは、１２または１６ビットの２の補数として表され、２２，２５２Ｈｚでサンプルされる。このデータは、Ｎの長さを有している非重畳フレーム（non-overlapping frames）ｓ_nに分割される。ここで、Ｎは、フレーム・サイズと称する。Ｎの値は、音声データの公称ピッチに依存する。記録された音声の公称ピッチが１６５サンプル（または１３５Ｈｚ）よりも少ないならば、Ｎの値は、９６に選択される。さもなければ、１６０のフレーム・サイズが用いられる。エンコーダは、所望の圧縮レートに依存する、Ｎ−ポイント・データ・シーケンスｓ_nをより短い長さのバイト・ストリームに変形する。例えば、Ｎ＝１６０でかつ非常に高いデータ圧縮が所望であるならば、出力バイト・ストリームは、１２エイト・ビット・バイト（12 eight bit bytes）のように短くできる。エンコーダのブロック図を図４に示す。それゆえに、ルーチンは、フレームｓ_nを受け入れることによって開始する（ブロック５０）。ＤＣまたは６０Ｈｚ電力線ノイズのような、低周波数ノイズを除去し、かつオフセット・フリー音声データを生成するために、信号ｓ_nがハイパス（高域）フィルタを通過する。これを達成するための好ましいシステムで用いられる差分式は、０≦ｎ＜Ｎに対する式１に示される。ｘ_n＝ｓ_n−ｓ_n-1＋０．９９９＊ｘ_n-1 式１ここで、値ｘ_nは、“オフセット・フリー”信号である。変数ｓ_-1及びｘ_-1は、各二重単音に対してゼロに初期化されかつ式２の関係を用いて実質的に更新される。ｘ_-1＝ｘ_N及びｓ_-1＝ｓ_N 式２この段階は、オフセット補償またはＤＣ除去と称することができる（ブロック５１）。音声サンプルと量子化ノイズを部分的に非相関関係にするために、シーケンスｘ_nは、固定一次線形予測フィルタを通り抜ける。これを達成するための差分式は、式３に示される。ｙ_n＝ｘ_n−０．８７５＊ｘ_n-1 式３式３の線形予測フィルタリングは、フレームｙ_nを生成する（ブロック５２）。式３において０．８７５に等しい、フィルタ・パラメータは、異なる音声サンプリング・レートが用いられるならば、変更されなけらばならない。ｘ_-1の値は、各二重単音に対してゼロに初期化されるが、以下に説明するようにインバース線形予測フィルタリングの段階で更新される（ブロック６０）。例えば、フィルタ・パラメータが符号化されるべき二重単音に依存するフィル適応フィルタ、または高次フィルタを含んでいる、種々のフィルタ型を用いることが可能である。式３により生成されたシーケンスｙ_nは、最適ピッチ値Ｐ_opt、及び関連利得因子（associated gain factor）βを決定するために利用される。Ｐ_optは、以下に示されるように式４、５、６及び７によって規定される関数Ｓ_xy（Ｐ）、Ｓ_xx （Ｐ）、Ｓ_yy（Ｐ）、及びコヒーレンス関数Ｃｏｈ（Ｐ）を用いて計算される。Ｃｏｈ（Ｐ）＝Ｓ_xy（Ｐ）＊Ｓ_xy（Ｐ）／（Ｓ_xx（Ｐ）＊Ｓ_yy（Ｐ））式７ＰＢＵＦは、ゼロに初期化され、かつ以下に説明するようにピッチ・バッファ更新ブロック５９で更新される、サイズＰ_maxのピッチ・バッファである。Ｐ_opt 、は、Ｃｏｈ（Ｐ）が最大でありかつＳ_xy（Ｐ）が正であるようなＰの値である。考慮するＰの範囲は、符号化される音声の公称ピッチに依存する。範囲は、フレーム・サイズが９６に等しければ（９６から３５０まで）であり、フレーム・サイズが１６０に等しければ（１６０から４１４まで）である。Ｐ_maxは、公称ピッチが１６０以下ならば、３５０であり、さもなくば４１４に等しい。パラメータＰ_optは、８ビットを用いて表すことができる。Ｐ_optの計算は、図５を参照して理解することができる。図５では、バッファＰＢＵＦがシーケンス１００によって表されかつフレームｙ_nがシーケンス１０１によって表される。先行するフレームがフレームｙ_nに実質的に等しい音声データのセグメントでは、ＰＢＵＦ及びＹ_nは、図５に示すようにみえる。Ｐ_optは、ベクトルｙ_n１０１がＰＢＵＦ１００における類似長さの対応するセグメントにできるだけ近く整合する、ポイント１０２での値を有する。ピッチ・フィルタ利得パラメータβは、式８の表現を用いて決定される。 β＝Ｓ_xy（Ｐ_opt）／Ｓ_yy（Ｐ_opt）式８ βは、４ビットに量子化され、βの量子化値は、１／１６刻みで、１／１６から１までの範囲でありうる。次に、ピッチ・フィルタが適用される（ブロック５４）。プリエンファサイズされた（pre-emphasized）音声データｙ_nにおける長期相関関係（long term cor relations）は、式９の関係を用いて除去される。ｒ_n＝ｙ_n−β＊ＰＢＵＦ_Pmax-Popt+n、０≦ｎ＜Ｎ式９これは、残留信号（residual signal）ｒ_nの計算を結果として生ずる。次に、スケーリング・パラメータ（scaling parameter）Ｇがブロック利得推定ルーチン（bloc gain estimation routine）を用いて生成される（ブロック５５）。処理の後続段階の計算精度を増大するために、残留信号ｒ_nは、リスケールされる。スケーリング・パラメータＧは、まず信号ｒ_nの最大の大きさを決定しかつ７−レベル量子化器を用いてそれを量子化することによって得られる。パラメータＧは、次の７つの値の一つを取ることができる：２５６、５１２、１０２４、４０９６、８１９２、及び１６３８４。これらの量子化レベルを選択する重要性は、リスケーリング操作（rescaling operation）が移動操作（shift operation s）だけを用いて実施できることである。次に、ルーチンは、全探索ベクトル量子化符号を用いて残留符号化に進む（ブロック５６）。残留信号r_nを符号化するために、ｎポイント・シーケンスｒ_nは、長さＭの非重畳ブロックに分割される。ここで、Ｍは、“ベクトル・サイズ” と称される。それゆえに、Ｍサンプル・ブロックｂ_ijが生成される。ここで、ｉは、ブロック数のゼロからＭ−１までのインデックスであり、ｊは、ブロック内のサンプルのゼロからＮ／Ｍ−１までのインデックスである。各ブロックは、式１０に示されるように規定されうる。ｂ_ij＝ｒ_Mi+j、（０≦ｉ＜Ｎ／Ｍかつｊ≦０＜Ｍ）式１０これらＭサンプル・ブロックｂ_ijのそれぞれは、ベクトル量子化を用いて８ビット数に符号化される。Ｍの値は、所望の圧縮レートに依存する。例えば、Ｍが１６に等しいときに、非常に高い圧縮が達成される（即ち、１６残留サンプルは、８ビットだけを用いて符号化される）。しかしながら、復号音声品質（decode d speech quality）は、Ｍ＝１６では、ある程度雑音があるということを認めうる。他方、Ｍ＝２では、減圧音声品質（decompressed speech quality）は、非圧縮音声（uncompressed speech）のそれに非常に近い。しかしながら、圧縮音声記録の長さは、より長い。好ましい実施例では、値Ｍは、値２、４、８、及び１６を取ることができる。ベクトル量子化は、図６に示すように実行される。それゆえに、全ブロックｂ_ij に対して、一連の量子化ベクトルが識別される（ブロック１２０）。最初に、ブロックｂ_ijの構成要素は、ノイズ・シェーピング・フィルタを通り抜けかつ式１１に示すようにスケールされる（ブロック１２１）。ｗ_j ＝０．８７５＊ｗ_j-1−０．５＊ｗ_j-2＋０．４３７５＊ｗ_j-3＋ｂ_ij、０≦ｊ＜Ｍｖ_ij＝Ｇ＊ｗ_i、０≦ｊ＜Ｍ式１１それゆえに、ｖ_ijは、ベクトルｖ_iのｊ番目の構成要素であり、かつ値ｗ_-1、ｗ_-2及びｗ_-3は、ノイズ・シェーピング・フィルタの状態であり各二重単音に対してゼロに初期化されている。フィルタ係数は、減圧音声の主観的品質を改善するために量子化ノイズ・スペクトルを形造るべく選択される。各ベクトルが符号化されかつ復号された後、これらの状態は、ブロック１２４〜１２６を参照して以下に説明するように更新される。次に、ルーチンは、ベクトル量子化表における最良整合（best match）を指すポインタを見つける（ブロック１２２）。ベクトル量子化表１２３は、一連のベクトルＣ₀からＣ₂₅₅からなる（ブロック１２３）。それゆえに、ベクトルｖ_iは、予め計算されかつ符号表１２３に記憶される、２５６Ｍ−ポイント・ベクトルに対抗して比較される。ｖ_iに最も近いベクトルＣ_qiは、式１２により決定される。ｐ＝０から２５５に対する値Ｃ_pは、ベクトル量子化符号表１２３からのｐ^th符号化ベクトルを表わす。最も近いベクトルＣ_qiは、式１３の技術を用いて効率的に決定することもできる。全ｐ（０≦ｐ≦２５５）に対してｖ_i ^T・Ｃ_qi≦ｖ_i ^T・Ｃ_p 式１３式１３では、値ｖ^Tは、ベクトルｖの転置を表し、“・”は、不等式における内積演算を表わす。表１２３の符号化ベクトルＣ_pは、ノイズ・フィルタ値（noise filteredvalue ）ｖ_ijに整合するために利用される。しかしながら、復号では、一連のＱＶ_pからなる復号ベクトル表１２５が用いられる。値ＱＶ_pは、ベクトル量子化技術を用いて高品質音データを達成する目的のために選択される。それゆえに、ベクトルＣ_qiを見つけた後、ベクトルＱＶ_qiをアクセスするためにポインタｑが利用される。図４の段階５５で生成されるベクトルｂ_iに対応している復号サンプルは、Ｍ−ポイント・ベクトル（１／Ｇ）＊ＱＶ_qiである。ベクトルＣ_pは、式１１のノイズ・シェーピング・フィルタ操作によるベクトルＱＶ_pに関する。それゆえに、復号ベクトルＱＶ_pがアクセスされる場合には、インバース・ノイズ・シェーピング・フィルタが復号操作において計算される必要はない。図６の表１２６は、ノイズ補償量子化ベクトルをそれゆえに含む。残留信号ｒ_nを形成するベクトルｂ_ijに対する符号化ベクトルを計算することを係属することにおいて、ベクトルｂ_iを指すポインタの復号ベクトルがアクセスされる（ブロック１２４）。その復号ベクトルは、フィルタ及びＰＢＵＦ更新に用いられる（ブロック１２６）。ノイズ・シェーピング・フィルタに対して、復号されたサンプルが各サブ−ブロックｂ_jについて計算された後、誤りベクトル（ｂ_j−ＱＶ_qi）が図１４に示すようにノイズ・シェーピング・フィルタを通り抜ける。ｗ_j＝０．８７５＊ｗ_j-1−０．５＊ｗ_j-2＋０．４３７５＊ｗ_j-3 ＋［ｂ_ij−ＱＶ_qi（ｊ）］、０≦ｊ＜Ｍ式１４式１４では、値ＱＶ_qi（ｊ）は、復号ベクトルＱＶ_qiのｊ^th構成要素を表わす。次のブロックに対するノイズ・シェーピング・フィルタ状態は、式１５に示すように更新される。ｗ_-1＝ｗ_M-1 ｗ_-2＝ｗ_M-2 ｗ_-3＝ｗ_M-3 式１５この符号化及び復号は、復号ベクトル表１２５に対するＮ／Ｍインデックスを得るためにＮ／Ｍサブ−ブロックの全てに対して実行される。ｎがゼロからＮ／Ｍ−１までの、インデックスＱ_nのこの文字列は、残留信号ｒ_nついての復号ベクトルの文字列に対する識別子を表わす。それゆえに、４つのパラメータがＮ−ポイント・データ・シーケンスｙ_nを表わす：１）最適ピッチ、Ｐ_opt（８ビット）２）ピッチ・フィルタ利得、β（４ビット）３）スケーリング・パラメータ、Ｇ（３ビット）、及び４）復号表インデックスの文字列、Ｑ_n（０≦ｎ＜Ｎ／Ｍ）パラメータβ及びＧは、単一バイトに符号化できる。それゆえに、音声のＮサンプルを表わすために（Ｎ／Ｍ）プラス２バイトだけが用いられる。例えば、公称ピッチが１００サンプル長であり、かつＭ＝１６ると仮定する。この場合には、音声の９６サンプルのフレームが８バイトによって表される：Ｐ_opt、に対して１バイト、β及びＧに対して１バイト、及び復号表インデックスＱ_nに対して６バイト。非圧縮音声が１６ビット・サンプルから構成されるならば、これは、２４：１の圧縮を表す。図４に戻ると、音声データを識別している４つのパラメータが記憶される（ブロック５７）。好ましいシステムでは、それらは、フレームの構造が以下のように特徴付けられる図３に示されるような構造に記憶される： #define NumOfVectorsPerFrame 〈FrameSize/VectorSize〉 struct frame｛ unsigned Gain：４； unsigned Beta：３； unsigned UnusedBit：１； unsigned charPitch； unsigned charVQcodes［NumOfVectorsPerFrame］；｝；このフレーム構造を利用している図３の二重単音記録は、以下のように特徴付けられる： DiphoneRecord ｛ char LeftPhone，RightPhone； short LeftPitchPeriodCount，RightPitchPeriodCount； short ^*LeftPeriods，^*RightPeriods； struct frame ^*LeftData，^*RightData；｝これらの記憶されたパラメータは、テキスト−音声合成に必要な二重単音の識別を一意に提供する。図６を参照して上述したように、エンコーダは、フィルタ及びＰＢＵＦ値を更新するために符号化されたデータを復号することを続ける。これに含まれる最初の段階は、インバース・ピッチ・フィルタである（ブロック５８）。残留信号r ’_nを表わすべく復号ベクトルの文字列を連結することによって形成された復号信号に対応しているベクトルｒ’_nにより、インバース・フィルタは、式１６に示されるように実施される。ｙ’_n＝ｒ’_n＋β＊ＰＢＵＦ_Pmax-Popt+n、０≦ｎ＜Ｎ式１６次に、ピッチ・バッファは、インバース・ピッチ・フィルタの出力で更新される（ブロック５９）。ピッチ・バッファＰＢＵＦは、式１７に示されるように更新される。ＰＢＵＦ_n＝ＰＢＵＦ_(n+N) ０≦ｎ＜（Ｐ_max−Ｎ）ＰＢＵＦ_(Pmax-N+n)＝ｙ’_n ０≦ｎ＜Ｎ式１７そして、線形予測フィルタ・パラメータは、インバース線形予測フィルタ段階を用いて更新される（ブロック６０）。インバース・ピッチ・フィルタの出力は、復号音声を得るために一次インバース線形予測フィルタを通り抜ける。このフィルタを実施するための差分式は、式１８に示される。ｘ’_n＝０．８７５＊ｘ’_n-1＋ｙ’_n 式１８式１８では、ｘ’_nは、減圧音声である。これから、次のフレームに対するｘ_- ₁ の値は、ブロック５２の段階で使用する値ｘ_Nに設定される。図７は、デコーダ・ルーチンを示す。デコーダ・モジュールは、エンコーダ・モジュールによって生成された、データの（Ｎ／Ｍ）＋２バイトを入力として受け入れ、かつ音声のＮサンプルを出力として適用する。Ｎの値は、音声データの公称ピッチに依存しかつＭの値は、所望の圧縮レートに依存する。ソフトウェア専用テキスト−音声合成システムでは、デコーダの計算の複雑性は、テキスト−音声合成システムが遅いコンピュータでも実時間で実行できることを確実にするためにできるだけ小さくなけらばならない。エンコーダのブロック図が図７に示されている。ルーチンは、ブロック２００で二重単音記録を受け入れることによって開始する。最初の段階は、パラメータＧ、β、Ｐ_opt、及びベクトル量子化文字列Ｑ_nを解析することを含む（ブロック２０１）。次に、残留信号ｒ’_nが復号される（ブロック２０２）。これは、復号量子化ベクトル表１２５へのアクセスによりブロック２０３で概略的に示すようにベクトル量子化文字列に対して復号ベクトルをアクセスしかつ連結することを含む。残留信号ｒ’_nが復号された後、インバース・ピッチ・フィルタが適用される（ブロック２０４）。このインバース・ピッチ・フィルタは、式１９に示すように実施される：ｙ’_n＝ｒ’_n＋β＊ＳＰＢＵＦ（Ｐ_max−Ｐ_opt＋ｎ）、０≦ｎ＜Ｎ式１９ＳＰＢＵＦは、エンコーダ・ピッチ・バッファＰＢＵＦに関して上述したように、各二重単音に対してゼロに初期化される長さＰ_maxのシンセサイザー・ピッチ・バッファである。各フレームに対して、合成ピッチ・バッファが更新される（ブロック２０５）。それが更新される方法は、式２０に示される：ＳＰＢＵＦ_n＝ＳＰＢＵＦ_(n+N) ０≦ｎ＜（Ｐ_max−Ｎ）ＳＰＢＵＦ_(Pmax-N+n)＝ｙ’_n ０≦ｎ＜Ｎ式２０ＳＰＢＵＦを更新した後、シーケンスｙ’_nがインバース線形予測フィルタリング段階に適用される（ブロック２０６）。それゆえに、インバース・ピッチ・フィルタｙ’_nの出力は、復号音声を得るために一次インバース線形予測フィルタを通り抜ける。インバース線形予測フィルタを実施するための差分式は、式２１に示される：ｘ’_n＝0．８７５＊ｘ’_n-1＋ｙ’_n 式２１式２１では、ベクトルｘ’_nは、減圧音声に対応する。このフィルタリング動作は、いかなる増倍も必要としないで簡単なシフト動作を用いて実施できる。従って、それは非常に素早く実行しかつ非常に少量のホスト・コンピュータ資源を利用する。上述したアルゴリズムによる音声の符号化及び復号は、従来技術のシステムと比較して多数の利点を供給する。第１に、この技術は、低い処理能力を有するコンピュータ・システム上でのソフトウェア専用テキスト−音声合成システムの実施に用いられるのに十分に簡単なデコーダにより更に高い音声圧縮レートを提供する。第２に、技術は、圧縮レートとシンセサイザー音声品質の間で非常に柔軟なトレード・オフ（妥協）を提供する。最上位モデル（high-end）コンピュータ・システムは、更に大きなＲＡＭメモリを要求事項としてより高品質な合成音声を選ぶことができる。 III．不連続性円滑に対する波形混合（図８及び図９）図２を参照して上述したように、ベクトル量子化技術を用いて生成された音声データの合成フレームは、テキスト文字列における二重単音間で多少の不連続性を結果として生じうる。それゆえに、テキスト−音声合成システムは、そのような不連続性を円滑にするために二重単音データ・フレームを混ぜ合わせるモジュールを供給する。好ましい実施例の混合技術は、図８及び図９に示される。二つの連結二重単音は、終了フレーム（ending frame）と開始フレーム（begi nning frame）を有する。左の二重単音の終了フレームは、生成されたクリック音または可聴不連続性なしで右の二重単音の開始フレームに混ぜ合わせられなければならない。第１の二重単音の右の境界と第２の二重単音の左の境界は、ほとんどの状況において同じ音素に対応するので、それらは、連結のポイント（地点）で類似に見えるものと予想される。しかしながら、二つの二重単音符号化は、異なるコンテキストから抽出されるので、それらは、同じであるようには見えない。この混合技術は、連結のポイントにおける不連続性を取り除くために適用される。図９では、左の二重単音の、ここでは一ピッチ周期に言及する、最後のフレームは、頁の頂部においてＬ_n（０≦ｎ＜ＰＬ）で示される。右の二重単音の第１のフレーム（ピッチ周期）は、Ｒ_n（０≦ｎ＜ＰＲ）で示される。本発明によるＬ_nとＲ_nの混合は、これら二つのピッチ周期だけを変更しかつ図８を参照して説明したように実行される。図９の波形は、アルゴリズムを説明するために選択されており、実際の音声データを表さないこともある。それゆえに、図８に示すアルゴリズムは、シーケンスで左及び右の二重単音を受け取ることで始まる（ブロック３００）。次に、左の二重単音の最後のフレームは、バッファＬ_nに記憶される（ブロック３０１）。また、右の二重単音の最初（第１）のフレームは、バッファＲ_nに記憶される（ブロック３０２）。次に、アルゴリズムは、拡張フレームを形成するために左のフレームＬ_nを複製しかつ連結する（ブロック３０３）。次の段階では、複製された左のフレーム間の拡張フレームにおける不連続性は、円滑にされる（ブロック３０４）。この円滑かつ拡張された左のフレームは、図９においてＥｌ_nと称される。拡張シーケンスＥｌ_n（０≦ｎ＜ＰＬ）は、式２２に示すように最初の段階で得られる：Ｅｌ_n＝Ｌ_n ｎ＝０，１，．．．，ＰＬ−１Ｅｌ_PL+n＝Ｌ_n ｎ＝０，１，．．．，ＰＬ−１式２２そして、ポイントｎ＝Ｐ^Lからの不連続性円滑は、式２３のフィルタにより実行される：Ｅｌ_PL+n＝Ｅｌ_PL+n＋［Ｅｌ_(PL-1)−Ｅｌ’_(PL-1)］＊Δⁿ⁺¹、ｎ＝０，１，．．．，（ＰＬ／２）式２３式２３では、値Δは、１５／１６に等しくかつＥｌ’_(PL-1)＝Ｅｌ₂＋３＊（Ｅｌ₁−Ｅｌ₀）である。それゆえに、図９に示すように、拡張シーケンスＥｌ_nは、左側で実質的にＬ_nに等しく、ポイントＰ_Lで開始する円滑領域を有しかつポイント２Ｐ_Lに向かってＬ_nのオリジナル形状に収束する。Ｌ_nが完全に周期的であるならば、Ｅｌ_PL-1＝Ｅｌ’_PL-1である。次の段階では、ベクトルＥｌ_nとＲ_nの最適整合が見出される。この整合ポイントは、Ｐ_optと称される（ブロック３０５）。これは、Ｒ_nに最も近く整合するＥｌ_nのセクションを見出すためにＲ_nをＥｌ_nと比較することによって図９に示すように実際に達成される。この最適混合ポイント決定は、ＷがＰＬ及びＰＲの最小であり、かつＡＭＤＦが平均の大きさの差分関数（average magnitude differ ence function）を表わす式２３を用いて実行される。この関数は、０からＰＬ−１の範囲におけるｐの値に対して計算される。オペレーション（動作）における垂直棒（vertical bars）は、絶対値を表わす。Ｗは、ＡＭＤＦ計算に対するウィンドウ・サイズ（window size）である。Ｐ_optは、ＡＭＤＦ（ｐ）が最小である値になるように選択される。これは、シーケンスＥｌ_n+p（０≦ｎ＜Ｗ）及びＲ_n（0≦ｎ＜Ｗ）が互いに非常に近いポイントにｐ＝Ｐ_optが対応することを意味する。最適混合ポイントＰ_optを決定した後、波形は、混ぜ合わされる（ブロック３０６）。混合は、Ｅｌ_nトレース（trace）のＰ_optで始まる図９に示す第１の重みランプ（weighting ramp）ＷＬを利用する。第２のランプでは、ＷＲは、Ｐ_op _t でライン・アップされるＲ_nトレースで図９に示されている。それゆえに、混合動作の始まりでは、Ｅｌ_nの値が強調される。混合動作の終りでは、Ｒ_nの値が強調される。混合する前に、Ｌ_nの長さＰＬは、変更されたＬ_nとＲ_nが連結されるときに波形が可能な限り連続であることを確実にすべく必要なときに変更される。それゆえに、Ｐ_opt、がＰＬ／２よりも大きいならば、長さＰ’Ｌは、Ｐ_optに設定される。さもなくば、長さＰ’Ｌは、Ｗ＋Ｐ_optに等しくかつシーケンスＬ_nは、０≦ ｎ≦（Ｐ’Ｌ−１）に対してＥｌ_nに等しい。Ｐ_optで始まる混合ランプは、式２５に示される：Ｒ_n＝Ｅｌ_Popt＋（Ｒ_n−Ｅｌ_n+Popt）＊（ｎ＋１）／Ｗ、０≦ｎ＜ＷＲ_n＝Ｒ_n、Ｗ≦ｎ＜ＰＲ式２５それゆえに、シーケンスＬ_nとＲ_nは、混合されたＲ_nを得るためにウィンドウ化されかつ加えられる。Ｌ_nの始まり及びＲ_nの終りは、隣接フレームとのあらゆる不連続性を防止するために保存される。この混合技術は、あらゆる連結音声合成によって生成された合成音声における混合ノイズを最小にするものであると信じられている。 IV．ピッチ及び持続時間変更（図１０〜図１８）図２に関して上述したように、テキスト分析プログラムは、テキストを分析し、合成されることが必要な各単音のピッチ輪郭（contour）及び持続時間を決定し、イントネーション制御信号を生成する。単音に対する一般的な制御は、ＡＥのような、所与の音素が２００ミリ秒の持続時間を有すべきでありかつピッチが２２０Ｈｚから３００Ｈｚまで線形的に上昇すべきであるということを示す。この必要事項は、図１０に図式で示す。図１０に示すように、Ｔは、音素の所望の持続時間（例えば、２００ミリ秒）に等しい。周波数f_bは、Ｈｚで表された所望の開始ピッチである。周波数ｆ_eは、Ｈｚで表された所望の終了ピッチである。ラベルＰ₁、Ｐ₂、．．．、Ｐ₆は、所望のピッチ周波数ｆ_b、ｆ₂、．．．、ｆ₆を達成するための各フレームのサンプルの数を示す。サンプルの所望の数Ｐ_iと所望のピッチ周波数ｆ_i（ｆ₁＝ｆ_b）の間の関係は、関係式によって規定される：Ｐ_i＝Ｆ_s／ｆ_i、ここでＦ_sは、データに対するサンプリング周波数である。図１０に示すように、音素のより低い周波数周期に対するピッチ周期は、音素のより高い周波数周期に対するピッチ周期よりも長い。公称周波数がＰ₃であるならば、アルゴリズムは、フレームＰ₁及びＰ₂に対するピッチ周期を延長しかつフレームＰ₄、Ｐ₅及びＰ₆に対するピッチ周期を減少することを必要とする。また、音素の所与の持続時間Ｔは、所望の持続時間周期を達成するためにいくつのピッチ周期が符号化音素に挿入されるかまたは符号化音素から除去されるべきかを示す。図１１から図１８は、そのようなアルゴリズムの好ましい実施を示す。図１１は、図１２のグラフを参照して、ピッチ周期を増大するためのアルゴリズムを示す。アルゴリズムは、Ｎが符号化フレームのピッチ周期である、Ｎ＋Δ にピッチ周期を増大するための制御を受け取ることによって始まる（ブロック３５０）。次の段階では、ピッチ周期データは、バッファｘ_nに記憶される（ブロック３５１）、ｘ_nは、頁の頂部において図１２に示されている。次の段階では、左のベクトルＬ_nは、Δを参照してピッチ周期データｘ_nに重み関数ＷＬを適用することによって生成される（ブロック３５２）。この重み関数は、Ｍ＝Ｎ− Δである、式２６に示されている：Ｌ_n＝ｘ_n ０≦ｎ＜Δに対してＬ_n＝ｘ_n＊（Ｎ−ｎ）／（Ｍ＋１） Δ≦ｎ＜Ｎに対して式２６図１２に示すように、重み関数ＷＬは、最初のサンプルからサンプルΔまで一定であり、かつΔからＮまで減少する。次に、重み関数ＷＲは、図１２に示すようにｘ_nに適用される（ブロック３５３）。この重み関数は、式２７に示すように実行される：Ｒ_n＝ｘ_n+Δ＊（ｎ＋１）／（Ｍ＋１）０≦ｎ＜Ｎ−Δ Ｒ_n＝ｘ_n+Δ Ｎ−Δ≦ｎ＜Ｎ式２７図１２に示すように、重み関数ＷＲは、０からＮ−Δまで増大しかつＮ−ΔからＮまで一定に維持される。合成波形Ｌ_n及びＲ_nは、図１２に概念的に示されている。示されているように、Ｌ_nはシーケンスｘ_nの始まりを維持し、Ｒ_nはデータｘ_nの終りを維持する。ピッチ変更シーケンスｙ_nは、式２８に示すように二つのシーケンスを加えることによって形成される（ブロック３５４）：ｙ_n＝Ｌ_n＋Ｒ_(n-Δ₎ 式２８これは、Ｌ_nの下にΔ（ΔbeloW L_n）によりシフトされたＲ_nを置き換えることによって図１２に図式的に示す。ΔによりシフトされたＲ_nとＬ_nの組合せは、図１２の底部にｙ_nで示されている。ｙ_nに対するピッチ周期は、Ｎ＋Δである。ｙ_nの始まりは、ｘ_nの始まりと同じであり、ｙ_nの終りは、実質的にｘ_nの終りと同じである。これは、シーケンスの隣接フレームを有する連続性を維持し、かつデータのピッチ周期を延長しつつ円滑遷移を達成する。式２８は、ｎ≦Ｎに対してＬ_nが０であり、かつｎ＜０に対してＲ_nが０であるという想定で実行される。これは、図１２に絵図的に示されている。サンプル当たりせいぜい一つの増倍（multiply）を必要とするこのスキームの効率的な実施は、式２９に示される：ｙ_n＝ｘ_n ０≦ｎ＜Δ ｙ_n＝ｘ_n＋［ｘ_n-Δ−ｘ_n-］＊〈ｎ−Δ＋1〉／〈Ｎ−Δ＋１〉 Δ≦ｎ＜Ｎｙ_n＝ｘ_n-Δ Ｎ≦ｎ＜Ｎ_d 式２９これは、Ｎ＋Δのピッチ周期を有する新しいピッチ周期を結果として生ずる。ピッチ周期が減少しなければならないという場合もある。ピッチ周期を減少するためのアルゴリズムは、図１４のグラフを参照して図１３に示す。それゆえに、アルゴリズムは、ピッチ周期がＮ−Δまで減少されなければならないことを示している制御信号で始まる（ブロック４００）。第１の段階は、二つの連続ピッチ周期をバッファｘ_nに記憶することである（ブロック４０１）。それゆえに、図１４に示すようにバッファｘ_nは、第１のピッチ周期の長さであるＮ₁と、第２のピッチ周期の長さであるＮ_rを有する二つの連続ピッチ周期からなる。次に、二つのシーケンスＬ_nとＲ_nは、重み関数ＷＬ及びＷＲを用いて概念的に生成される（ブロック４０２及び４０３）。重み関数ＷＬは、第１のピッチ周期の始まりを強調し、重み関数ＷＲは、第２のピッチ周期の終りを強調する。これらの関数は、式３０及び式３１にそれぞれ示すように概念的に表すことができる：Ｌ_n＝ｘ_n ０≦ｎ＜Ｎ₁−ＷＬ_n＝ｘ_n＊〈Ｎ₁−ｎ〉／〈Ｗ＋１〉Ｗ≦ｎ＜Ｎ₁ Ｌ_n＝０その他式３０Ｒ_n＝ｘ_n＊〈ｎ−Ｎ₁＋Ｗ−Δ＋１〉／〈Ｗ＋１〉Ｎ₁−Ｗ＋Δ≦ｎ＜Ｎ₁＋Δ Ｒ_n＝ｘ_n Ｎ₁＋Δ≦ｎ＜Ｎ₁＋Ｎ_r Ｒ_n＝０その他式３１これらの式において、Δは、Ｎ₁と所望ピッチ周期Ｎ_dの間の差に等しい。２＊ ΔがＮ_dよりも大きくなければ、値Ｗは、２＊Δに等しく、２＊ΔがＮ_dよりも大きいならば、Ｗは、Ｎ_dに等しい。これら二つのシーケンスＬ_nとＲ_nは、ピッチ変更シーケンスｙ_nを形成すベく混ぜ合わされる（ブロック４０４）。ピッチ変更シーケンスｙ_nの長さは、所望の長さと右の音素フレームＮ_rの長さの和に等しい。それは、式３２に示すように二つのシーケンスを加えることによって形成される：ｙ_n＝Ｌ_n＋Ｒ_(n+Δ₎ 式３２それゆえに、ピッチ周期が減少する場合には、一つのピッチ周期の長さのみが変化するだけでも、データの二つの連続ピッチ周期は、影響を受ける。短期間エネルギーがピッチ周期内で最も低い位置（場所）でピッチ周期が分割されるので、これはなされる。それゆえに、この方策は、ピッチ周期の低エネルギー部分のみに影響を及ぼす。これは、ピッチ変更による音声の品質における劣化を最小にする。図１４における図は、簡略化されており、実際のピッチ周期データを表していないということに注目すべきである。サンプル当たりせいぜい一つの倍増を必要とする、このスキームの効率的実施は、式３３及び３４に示される。長さＮ_dの第１のピッチ周期は、式３３によって与えられる：ｙ_n＝ｘ_n ０≦ｎ＜Ｎ₁−Ｗｙ_n＝ｘ_n＋［ｘ_n+Δ−ｘ_n］＊〈n−Ｎ₁＋Ｗ＋１〉／〈Ｗ＋１〉Ｎ₁−Ｗ≦ｎ＜Ｎ_d 式３３長さＮ_rの第２のピッチ周期は、式３４に示すように生成される：ｙ_n ＝ｘ_n-Δ＋［ｘ_n−ｘ_n-Δ］＊〈ｎ−Δ−Ｎ₁＋Ｗ＋１〉／〈Ｗ＋１〉Ｎ₁≦ｎ＜Ｎ₁＋Δ ｙ_n＝ｘ_n Ｎ₁₊Δ≦ｎ＜Ｎ₁＋Ｎ_r 式３４図１４に示すように、シーケンスＬ_nは、ポイントＮ₁−Ｗまでは第１のピッチ周期に本質的に等しい。そのポイントでは、減少ランプＷＬは、第１のピッチ周期の影響（作用）を抑制（減衰）するために信号に適用される。また、示されるように、重み関数ＷＲは、ポイントＮ₁−Ｗ＋Δで始まりかつポイントＮ₁＋Δまで増大ランプをシーケンスｘ_nに適用する。そのポイントから、一定の値が適用される。これは、右シーケンスの影響を抑制する効果を有し、重み関数の開始中に左を強調し、そして右シーケンスを強調しかつ左を抑制しているｘ_nの終了セグメントに実質的に等しい終了セグメントを生成する。二つの関数が混ぜ合わされる場合には、合成波形ｙ_nは、シーケンスの開始においてｘ_n の開始に実質的に等しく、ポイントＮ₁−Ｗでは、ポイントＮ₁まで変更シーケンスが生成される。Ｎ₁から終了まで、Δによって移動されたシーケンスｘ_nが結果として生ずる。所与の音の持続時間を増大するためにピッチ周期の挿入の必要性が生起される。ピッチ周期は、図１６の図を参照して図１５に示したアルゴリズムにより挿入される。アルゴリズムは、ピッチ周期をフレームＬ_n及びＲ_n間に挿入すべく制御信号を受け取ることにより開始する（ブロック４５０）。次に、音声二重単音の二つの隣接ピッチ周期であるＬ_n及びＲ_nの両方がバッファに記憶される（ブロック４５１）。（普遍性を失わずに、説明は、二つのシーケンスが同等長さＮであると想定する。）Ｌ_nとｘ_n間及びｘ_nとＲ_n間の不連続性をもたらすことなく、同じ持続時間のピッチ周期ｘ_nを挿入するために、ピッチ周期ｘ_nは、ｎ＝０についてＲ_nに似ているべきであり（ｘ_n連続性に対してＬ_nを保存する）、かつｎ＝ＮについてＬ_nに似ているべきである（Ｒ_n連続性に対してｘ_nを保存する）。これは、式３５に示すようにｘ_nを規定することによって達成される：ｘ_n＝Ｒ_n＋〈Ｌ_n−Ｒ_N〉＊［〈ｎ＋１〉／〈Ｎ＋１〉］０≦ｎ＜Ｎ−１式３５概念的に、図１５に示すように、アルゴリズムは、左ベクトルＷＬ（Ｌ_n）を生成することによって進行し、信号Ｌ_nに対する増大ランプＷＬに本質的に適用する（ブロック４５２）。右ベクトルＷＲ（Ｒ_n）は、図１６に示すように本質的に減少ランプである重みベクトルＷＲを用いて生成される（ブロック４５３）。それゆえに、Ｌ_nの終了は、左ベクトルで強調され、Ｒ_nの開始は、ベクトルＷＲで強調される。次に、ＷＲ（Ｌ_n）及びＷＲ（Ｒ_n）は、挿入周期ｘ_nを生成するために混ぜ合わされる（ブロック４５４）。ピッチ周期を挿入するための計算の必要事項は、それゆえに、単にサンプル当たり一つの乗算と二つの加算である。そして、Ｌ_n、ｘ_n及びＲ_nの連結は、挿入ピッチ周期を有するシーケンスを生成する（ブロック４５５）。ピッチ周期の除去は、図１８のグラフを参照して図１７に示されるように達成される。ピッチ周期を挿入するアルゴリズムに非常に類似する、このアルゴリズムは、Ｌ_nに続くピッチ周期Ｒ_nの除去を示している制御信号を受け取ることにより開始する（ブロック５００）。次に、ピッチ周期Ｌ_n及びＲ_nは、バッファに記憶される（ブロック５０１）。これは、頁の頂部において図１８に絵図的に示されている。再び、普遍性を失うことなく、二つのシーケンスは、同等長さＮを有するものであると想定される。アルゴリズムは、ｎがＮにアプローチするときに、Ｒ_nに似るようにＲ_n（除去される）に先行するピッチ周期Ｌ_nを変更すべく動作する。これは、式３６似示すようになされる：Ｌ’_n＝Ｌ_n＋〈Ｒ_n−Ｌ_N〉＊［〈ｎ＋１〉／〈Ｎ＋１〉］０≦ｎ＜Ｎ−１式３６式３６では、合成シーケンスＬ’_nは、図１８の底部に示されている。概念的に、式３６は、重み関数ＷＬをシーケンスＬ_nに適用する（ブロック５０２）。これは、示したようにシーケンスＬ_nの開始を強調する。次に、右ベクトルＷＲ（Ｒ_n）は、重み関数ＷＲを、Ｒ_nの終了を強調するシーケンスＲ_nに適用することによって生成される（ブロック５０３）。ＷＬ（Ｌ_n）とＷＲ（Ｒ_n）は、合成ベクトルＬ’_nを生成するために混ぜ合わされる（ブロック５０４）。そして、シーケンスＬ_n−Ｒ_nは、ピッチ周期文字列のシーケンスＬ’_nで置き換えられる（ブロック５０５）。 IV．結論従って、本発明は、効率的であり、非常に少量のメモリを使用し、かつ種々の標準マイクロコンピュータ・プラットフォームに移植できるソフトウェア専用テキスト−音声合成システムを提供する。それは、音声データについての知識を利用し、音声圧縮を生成するために、混ぜ合わせ、ほんの少しの計算資源で非常に高品質な音声を生成する持続時間制御ルーチンについての知識を利用する。圧縮及び減圧を実行するためのソフトウェア、混合、そして持続時間及びピッチ制御ルーチンのソース符号一覧表（source code listing）が、本発明の好ましい実施例の一例として付録に与えられている。本発明の好ましい実施例の前記説明は、説明及び記述の目的で与えられたものである。それは、網羅的であることまたは発明を開示された厳密な形に限定することを企図したものではない。当然に、多くの変更及び変形が当業者には明らかであろう。実施例は、本発明の原理及びその実際的アプリケーションを最もよく説明するために選択されかつ記述されており、当業者に種々の実施例に対しかつ考えられる特定の使用に適するような種々の変更を有する発明を理解させることができる。本発明の範疇は後述する請求の範囲及びそれらの同等物によって規定されることを企図する。図面の簡単な説明図１は、本発明のテキスト合成システムを組み込んでいる一般的なハードウェア・プラットフォームのブロック図である。図２は、本発明による基本テキスト合成ルーチンを説明するためのフローチャートである。図３は、本発明の一実施例による二重単音記録のフォーマットを示す図である。図４は、本発明による音声データに対するデコーダを説明するためのフローチャートである。図５は、図４のデコーダにおけるピッチ・フィルタ・パラメータの推測に関して説明されるグラフである。図６は、図４のデコーダで用いられる全探索（フル・サーチ）を説明するためのフローチャートである。図７は、本発明による音声データに対するデコーダを説明するためのフローチャートである。図８は、隣接二重単音記録の始まりと終りを混ぜ合わせる技術を説明するためのフローチャートである。図９は、図８の混合技術の説明において参照される一組のグラフである。図１０は、音声データの一連のフレームに対する一般的なピッチ対時間のダイアグラム説明するためのグラフである。図１１は、特定フレームのピッチ周期を増大する技術を説明するためのフローチャートである。図１２は、図１１の技術の説明において参照される一組のグラフである。図１３は、特定フレームのピッチ周期を減少する技術を説明するためのフローチャートである。図１４は、図１３の技術の説明において参照される一組のグラフである。図１５は、シーケンスで二フレーム間にピッチ周期を挿入する技術を説明するためのフローチャートである。図１６は、図１５の技術の説明において参照される一組のグラフである。図１７は、一連のフレームにおいてピッチ周期を除去する技術を説明するためのフローチャートである。図１８は、図１７の技術の説明において参照される一組のグラフである。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＤＥ，ＤＫ，ＥＳ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＴ，ＡＵ，ＢＢ，ＢＧ，ＢＲ，ＣＡ，ＣＨ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＧＢ，ＨＵ，ＪＰ，ＫＰ，ＫＲ，ＬＫ，ＬＵ，ＭＧ，ＭＮ，ＭＷ，ＮＬ，ＮＯ，ＰＬ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＵＳ【要約の続き】クトルの識別された文字列に適用される。

Claims

【特許請求の範囲】１．音声を表している一連のサウンド・セグメント・コードに応じて音声を合成する装置であって、一組のノイズ補償量子化ベクトルを記憶するメモリ；一連のサウンド・セグメント・コードに応じて、一連の対応サウンド・セグメント・コードに対して一組のノイズ補償量子化ベクトルの文字列を識別する手段；前記識別手段及び前記メモリに結合され、前記ノイズ補償量子化ベクトルの文字列に応じて音声データ・シーケンスを生成する手段；前記生成手段に結合され、前記音声データ・シーケンスに応じて音を生成する音声変換器を備えていることを特徴とする装置。２．前記サウンド・セグメント・コードは、第１の組の量子化ベクトルを用いて符号化されたデータを含み、かつ前記一組のノイズ補償量子化ベクトルは、前記第１の組の量子化ベクトルと異なることを特徴とする請求項１に記載の装置。３．前記ノイズ補償量子化ベクトルは、フィルタされたサウンド・セグメント・データの量子化を表し、かつ前記音声データ・シーケンスを生成する手段は、前記音声データ・シーケンスの生成における前記ノイズ補償量子化ベクトルの識別された文字列にインバース・フィルタを適用する手段を含み、前記インバース・フィルタは、あらゆる積算が前記インバース・フィルタのアプリケーションにおいて移動及び／または加算動作によって置き換えられるように選択されたパラメータを含むことを特徴とする請求項１に記載の装置。４．前記ノイズ補償量子化ベクトルは、フィルタされたサウンド・セグメント・データの量子化を表し、かつ前記音声データ・シーケンスを生成する手段は、前記音声データ・シーケンスの生成における前記ノイズ補償量子化ベクトルの識別された文字列にインバース・フィルタを適用する手段を含むことを特徴とする請求項１に記載の装置。５．前記ノイズ補償量子化ベクトルは、サウンド・セグメント・データの線形予測フィルタリングの結果の量子化を表し、かつ前記音声データ・シーケンスを生成する手段は、前記音声データ・シーケンスの生成における前記ノイズ補償量子化ベクトルの識別された文字列にインバース・フィルタを適用する手段を含むことを特徴とする請求項１に記載の装置。６．前記ノイズ補償量子化ベクトルは、サウンド・セグメント・データのピッチ・フィルタリングの結果の量子化を表し、かつ前記音声データ・シーケンスを生成する手段は、前記音声データ・シーケンスの生成における前記ノイズ補償量子化ベクトルの識別された文字列にインバース・フィルタを適用する手段を含むことを特徴とする請求項１に記載の装置。７．前記量子化ベクトルは、サウンド・セグメント・データのピッチ・フィルタリング及び線形予測フィルタリングの結果の量子化を表し、前記音声データ・シーケンスを生成する手段は、フィルタされたデータ・シーケンスを生成すべく前記音声データ・シーケンスの生成において量子化ベクトルの前記識別された文字列にインバース・ピッチ・フィルタを適用する手段と、前記音声データ・シーケンスの生成において前記フィルタされたデータ・シーケンスにインバース線形予測フィルタを適用する手段とを含むことを特徴とする請求項１に記載の装置。８．前記音声データ・シーケンスを生成する手段は、量子化ベクトルの前記識別された文字列を連結しかつ前記連結された文字列を前記音声データ・シーケンスに供給する手段を含むことを特徴とする請求項１に記載の装置。９．量子化ベクトルの前記識別された文字列は、始まり及び終りを有し、音声データ・シーケンスを生成する手段は、シーケンスで量子化ベクトルの前記識別された文字列を対応するサウンド・セグメント・コードに供給する手段と、前記音声データ・シーケンスにおける特定及び隣接サウンド・セグメント・コードの間の不連続性を円滑にするために一連の特定サウンド・セグメント・コードの量子化ベクトルの識別された文字列の終りを一連の隣接サウンド・セグメント・コードの量子化ベクトルの識別された文字列の始まりと混ぜ合わせる手段とを含むことを特徴とする請求項１に記載の装置。１０．前記音声データ・シーケンスを生成する手段は、前記サウンド・セグメント・コードに応答し、前記音声データ・シーケンスにおける量子化ベクトルの前記識別された文字列のピッチ及び持続時間を調整する手段を含むことを特徴とする請求項１に記載の装置。１１．量子化ベクトルの前記識別された文字列は、始まり及び終りを有し、音声データ・シーケンスを生成する手段は、シーケンスで量子化ベクトルの前記識別された文字列を対応するサウンド・セグメント・コードに供給する手段と、前記音声データ・シーケンスにおける特定及び隣接サウンド・セグメント・コードの間の不連続性を円滑にするために一連の特定サウンド・セグメント・コードの量子化ベクトルの識別された文字列の終りを一連の隣接サウンド・セグメント・コードの量子化ベクトルの識別された文字列の始まりと混ぜ合わせる手段と、前記サウンド・セグメント・コードに応答し、前記音声データ・シーケンスにおける量子化ベクトルの前記識別された文字列のピッチ及び持続時間を調整する手段とを含むことを特徴とする請求項１に記載の装置。１２．復号に用いた前記一組のノイズ補償量子化ベクトルと異なる符号化セットの量子化ベクトルに対する記憶装置と、前記符号化セット及びサウンド・セグメント・データに応じて前記サウンド・セグメント・コードを生成する手段とを含んでいるエンコーダを更に含むことを特徴とする請求項１に記載の装置。１３．前記エンコーダは、線形予測フィルタを更に含むことを特徴とする請求項１２に記載の装置。１４．前記エンコーダは、ピッチ・フィルタを更に含むことを特徴とする請求項１２に記載の装置。１５．前記エンコーダは、線形予測フィルタ及びピッチ・フィルタを更に含むことを特徴とする請求項１２に記載の装置。１６．テキストに応じて音声を合成する装置であって、テキストを一連のサウンド・セグメント・コードに変換する手段と、一組の量子化ベクトルを記憶するメモリと、一連のサウンド・セグメント・コードに応答し、一連の対応サウンド・セグメント・コードに対して一組において量子化ベクトルの文字列を識別する手段と、前記識別する手段及び前記メモリに結合され、量子化ベクトルの前記文字列に応じて音声データ・シーケンスを生成する手段と、前記生成手段に結合され、前記音声データ・シーケンスに応じて音を生成する音声変換器とを備えていることを特徴とする装置。１７．前記サウンド・セグメント・コードは、第１の組の量子化ベクトルを用いて符号化されたデータを含み、かつ前記一組のノイズ補償量子化ベクトルは、前記第１の組の量子化ベクトルと異なることを特徴とする請求項１６に記載の装置。１８．前記ノイズ補償量子化ベクトルは、フィルタされたサウンド・セグメント・データの量子化を表し、かつ前記音声データ・シーケンスを生成する手段は、前記音声データ・シーケンスの生成におけるノイズ補償量子化ベクトルの前記識別された文字列にインバース・フィルタを適用する手段を含み、前記インバース・フィルタは、あらゆる乗算が前記インバース・フィルタのアプリケーションにおいて移動及び／または加算オペレーションによって置き換えられるように選択されたパラメータを含むことを特徴とする請求項１６に記載の装置。１９．前記変換手段は、対応する二重単音に対して一組の量子化ベクトルの文字列を識別するデータを含んでいるエントリーを有している、符号化された二重単音のテーブルを含み、前記一連のサウンド・セグメント・コードは、前記テキストを表している符号化された二重単音のテーブルに対して一連のインデックスを含み、前記量子化ベクトルの文字列を識別する手段は、前記サウンド・セグメント・コードに応答し、前記符号化された二重単音のテーブルのエントリーをアクセスする手段を含むことを特徴とする請求項１６に記載の装置。２０．前記量子化ベクトルは、フィルタされたサウンド・セグメント・データの量子化を表し、かつ前記音声データ・シーケンスを生成する手段は、前記音声データ・シーケンスの生成における量子化ベクトルの前記識別された文字列にインバース・フィルタを適用する手段を含むことを特徴とする請求項１６に記載の装置。２１．前記量子化ベクトルは、サウンド・セグメント・データの線形予測フィルタリングの結果の量子化を表し、かつ前記音声データ・シーケンスを生成する手段は、前記音声データ・シーケンスの生成における量子化ベクトルの前記識別された文字列にインバース線形予測フィルタを適用する手段を含むことを特徴とする請求項１６に記載の装置。２２．前記量子化ベクトルは、サウンド・セグメント・データのピッチ・フィルタリングの結果の量子化を表し、かつ前記音声データ・シーケンスを生成する手段は、前記音声データ・シーケンスの生成における量子化ベクトルの前記識別された文字列にインバース・ピッチ・フィルタを適用する手段を含むことを特徴とする請求項１６に記載の装置。２３．前記量子化ベクトルは、サウンド・セグメント・データのピッチ・フィルタリング及び線形予測フィルタリングの結果の量子化を表し、かつ前記音声データ・シーケンスを生成する手段は、フィルタされたデータ・シーケンスを生成すべく前記音声データ・シーケンスの生成における量子化ベクトルの前記識別された文字列にインバース・ピッチ・フィルタを適用する手段と、前記音声データ・シーケンスの生成における前記フィルタされたデータ・シーケンスにインバース線形予測フィルタを適用する手段とを含むことを特徴とする請求項１６に記載の装置。２４．前記音声データ・シーケンスを生成する手段は、量子化ベクトルの前記識別された文字列を連結しかつ前記連結された文字列を前記音声データ・シーケンスに供給する手段を含むことを特徴とする請求項１６に記載の装置。２５．量子化ベクトルの前記識別された文字列は、始まり及び終りを有し、音声データ・シーケンスを生成する手段は、シーケンスで量子化ベクトルの前記識別された文字列を対応するサウンド・セグメント・コードに供給する手段と、前記音声データ・シーケンスにおける特定及び隣接サウンド・セグメント・コードの間の不連続性を円滑にするために一連の特定サウンド・セグメント・コードの量子化ベクトルの識別された文字列の終りを一連の隣接サウンド・セグメント・コードの量子化ベクトルの識別された文字列の始まりと混ぜ合わせる手段とを含むことを特徴とする請求項１６に記載の装置。２６．前記音声データ・シーケンスを生成する手段は、前記サウンド・セグメント・コードに応答し、前記音声データ・シーケンスにおける量子化ベクトルの前記識別された文字列のピッチ及び持続時間を調整する手段を含むことを特徴とする請求項１６に記載の装置。２７．量子化ベクトルの前記識別された文字列は、始まり及び終りを有し、音声データ・シーケンスを生成する手段は、シーケンスで量子化ベクトルの前記識別された文字列を対応するサウンド・セグメント・コードに供給する手段と、前記音声データ・シーケンスにおける特定及び隣接サウンド・セグメント・コードの間の不連続性を円滑にするために一連の特定サウンド・セグメント・コードの量子化ベクトルの識別された文字列の終りを一連の隣接サウンド・セグメント・コードの量子化ベクトルの識別された文字列の始まりと混ぜ合わせる手段と、前記サウンド・セグメント・コードに応答し、前記音声データ・シーケンスにおける量子化ベクトルの前記識別された文字列のピッチ及び持続時間を調整する手段とを含むことを特徴とする請求項１６に記載の装置。２８．復号に用いた前記一組のノイズ補償量子化ベクトルと異なる符号化セットの量子化ベクトルに対する記憶装置と、前記符号化セット及びサウンド・セグメント・データに応じて前記サウンド・セグメント・コードを生成する手段とを含んでいるエンコーダを更に含むことを特徴とする請求項１６に記載の装置。２９．前記エンコーダは、線形予測フィルタを更に含むことを特徴とする請求項２８に記載の装置。３０．前記エンコーダは、ピッチ・フィルタを更に含むことを特徴とする請求項２８に記載の装置。３１．前記エンコーダは、線形予測フィルタ及びピッチ・フィルタを更に含むことを特徴とする請求項２８に記載の装置。３２．テキストに応じて音声を合成する装置であって、音声データ・シーケンスを生成すべくルーチンを実行するプログラマブル・プロセッサと、前記プロセッサに結合され、前記音声データ・シーケンスに応じて音を生成する音声変換器と、前記プロセッサに結合され、一組のノイズ補償量子化ベクトル、及び対応する二重単音に対して一組のノイズ補償量子化ベクトルの文字列を識別するデータを含んでいるエントリーを有している符号化された二重単音のテーブルとを記憶するテーブル・メモリと、前記プロセッサに結合され、テキストを一連の二重単音インデックスに変換すべく前記プロセッサによって実行される変換ルーチン、及び前記プロセッサによって実行されるデコーダ・ルーチンを記憶する指令メモリを備え、前記指令メモリは、前記シーケンスにおける二重単音インデックスに応答し、前記テキストに対して前記一組の量子化ベクトルの文字列を識別すべく前記符号化された二重単音のテーブルをアクセスする手段と、前記アクセスする手段及び前記メモリに結合され、量子化ベクトルの前記識別された文字列を検索する手段と、前記検索する手段に結合され、量子化ベクトルの前記識別された文字列に応じて、始まり及び終りを有する二重単音データ文字列を生成する手段と、前記検索する手段に結合され、量子化された音声データの円滑にされた文字列を生成すべく前記特定及び隣接二重単音データ文字列の間の不連続性を円滑にするために一連の特定二重単音データ文字列の終りを一連の隣接二重単音データ文字列の始まりと混ぜ合わせる手段と、前記テキスト及び量子化された音声データの前記円滑にされた文字列に応答し、前記音声変換器に供給するために前記サウンド・データ・シーケンスを生成すべく一連の前記二重単音に対して量子化されたベクトルの前記識別された文字列のピッチ及び持続時間を調整する手段を含んでいることを特徴とする装置。３３．前記サウンド・セグメント・コードは、第ｌの組の量子化ベクトルを用いて符号化されたデータを含み、かつ前記一組のノイズ補償量子化ベクトルは、前記第１の組の量子化ベクトルと異なることを特徴とする請求項３２に記載の装置。３４．前記ノイズ補償量子化ベクトルは、フィルタされたサウンド・セグメント・データの量子化を表し、かつ前記音声データ・シーケンスを生成する手段は、前記音声データ・シーケンスの生成における前記ノイズ補償量子化ベクトルの識別された文字列にインバース・フィルタを適用する手段を含み、前記インバース・フィルタは、あらゆる積算が前記インバース・フィルタのアプリケーションにおいて移動及び／または加算動作によって置き換えられるように選択されたパラメータを含むことを特徴とする請求項３２に記載の装置。３５．前記量子化ベクトルは、フィルタされたサウンド・セグメント・データの量子化を表し、かつ前記二重単音データ文字列を生成する手段は、量子化ベクトルの前記識別された文字列にインバース・フィルタを適用する手段を含むことを特徴とする請求項３２に記載の装置。３６．前記量子化ベクトルは、サウンド・セグメント・データの線形予測フィルタリングの結果の量子化を表し、かつ前記二重単音データ文字列を生成する手段は、量子化ベクトルの前記識別された文字列にインバース線形予測フィルタを適用する手段を含むことを特徴とする請求項３２に記載の装置。３７．前記量子化ベクトルは、サウンド・セグメント・データのピッチ・フィルタリングの結果の量子化を表し、かつ前記二重単音データ文字列を生成する手段は、量子化ベクトルの前記識別された文字列にインバース・ピッチ・フィルタを適用する手段を含むことを特徴とする請求項３２に記載の装置。３８．前記量子化ベクトルは、サウンド・セグメント・データのピッチ・フィルタリング及び線形予測フィルタリングの結果の量子化を表し、かつ前記二重単音データ文字列を生成する手段は、フィルタされたデータ・シーケンスを生成するために量子化ベクトルの前記識別された文字列にインバース・ピッチ・フィルタを適用する手段と、前記フィルタされたデータ・シーケンスにインバース線形予測フィルタを適用する手段とを含むことを特徴とする請求項３２に記載の装置。