JPH08505959A - ベクトル量子化ベース音声符号化/複号化を用いたテキスト−音声合成システム - Google Patents

ベクトル量子化ベース音声符号化/複号化を用いたテキスト−音声合成システム

Info

Publication number
JPH08505959A
JPH08505959A JP6517160A JP51716094A JPH08505959A JP H08505959 A JPH08505959 A JP H08505959A JP 6517160 A JP6517160 A JP 6517160A JP 51716094 A JP51716094 A JP 51716094A JP H08505959 A JPH08505959 A JP H08505959A
Authority
JP
Japan
Prior art keywords
quantization
data sequence
vector
vectors
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6517160A
Other languages
English (en)
Inventor
シャンカー ナラヤン
Original Assignee
アップル コンピューター インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アップル コンピューター インコーポレイテッド filed Critical アップル コンピューター インコーポレイテッド
Publication of JPH08505959A publication Critical patent/JPH08505959A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 テキスト−音声合成システムは、一組の量子化ベクトルを記憶するメモリを含む。第1の処理モジュールは、一連の対応サウンド・セグメント・コードに対するノイズ補償量子化べクトルの文字列を識別するために一連のテキストに応じて生成されたサウンド・セグメント・コードに応答する。デコーダは、量子化べクトルの文字列に応じて音声データ・シーケンスを生成する。音声変換器は、処理モジュールに結合され、音声データ・シーケンスに応じて音を生成する。量子化ベクトルは、量子化に用いるサウンド・サンプルと量子化ノイズを非相関関係にするためにプリエンファシスを有しているサウンド・セグメント・データの量子化を表わす。サウンド・セグメント・データを減圧することにおいて、インバース線形予測フィルタは、プリエンファシスを反転するために量子化ベクトルの識別された文字列に適用される。また、量子化ベクトルは、サウンド・セグメント・データのピッチ・フィルタリングの結果の量子化を表わす。それゆえに、インバース・ピッチ・フィルタは、音声データ・シーケンスを生成するモジュールにおける量子化ベクトルの識別された文字列に適用される。

Description

【発明の詳細な説明】 ベクトル量子化ベース音声符号化/復号化を用いた テキスト−音声合成システム発明の分野 本発明は、コンピュータ・システムのテキストを合成音声に変換することに関 し、特に音声データの記憶及び検索に対するようなシステムに用いる技術に関す る。発明の背景 テキスト−音声合成(text-to-speech)システムでは、コンピュータに記憶さ れたテキストは、合成音声に変換される。正当に評価されるように、この種のシ ステムは、妥当なコストであるならば、広範囲にわたるアプリケーションを持ち うる。例えば、テキスト−音声合成システムは、電子メールを記憶しているコン ピュータに電子メールを表している音声の合成をもたらすことによって、電話回 線の両端で遠隔的に電子メールを再検討するために用いることができる。また、 そのようなシステムは、視覚的に障害がある人々に対して読書するために用いる ことができる。ワード・プロセッシング・コンテキストでは、テキスト−音声合 成システムは、大きな文書(large document)の校正を助成するために用いられ うる。 しかしながら、妥当なコストを有する従来のシステムでは、音声の質が比較的 悪く、それを用いることを不快にするかまたは理解することを難しくする。良質 な音声を達成するために、従来の音声合成システムは、非常に高価な特殊なハー ドウェア、かつ/または音(sound)を発生するコンピュータ・システムに多量 のメモリ空間を必要とする。 テキスト−音声合成システムでは、アルゴリズムは、入力テキスト文字列を再 検討し、かつテキスト文字列の単語(words)を合成音声に変換されなければな らない一連のダイフォーン(diphones:二重単音)に変換する。また、テキスト −音声合成システムは、音の持続時間及び音声に含まれる音(サウンド)のピッ チ (高低)を調整するために用いられるイントネーション制御を生成すべく単語型 (word type)及びコンテキストに基づいてテキストを分析(解析)する。 二重単音は、一つの音、または音素(phoneme)と、隣接音、または音素との 間の遷移を含む一単位の音声から構成される。二重単音は、一般に一つの音素の 中心から始まり近隣の音素の中心で終わる。これは、音間の遷移を比較的よく保 存する。 アメリカ英語(American English)ベーステキスト−音声合成システムは、特 定の実施に基づいて、単音(phones)と称されるおおよそ50の異なる音(サウ ンド)を用いる。これら50の異なる音のうち、標準言語(standard language )は、可能な2500の単音対(phone pairs)のうちの約1800の二重単音 を用いる。それゆえに、テキスト−音声合成システムは、1800の二重単音を 再生することが可能でなけらばならない。各二重単音に対して直接的に音声デー タを記憶することは、莫大な量のメモリを必要とする。それゆえに、二重単音を 記憶するために必要なメモリの量を制限(限定)すべく圧縮技術が発展(進化) した。しかしながら、成功であるためには、システムが非常に高品質な再生でハ ードウェア・プラットフォームズ(hardware platforms)の広範囲にわたり実行 可能であるように、二重単音データを減圧する(decompressing)ためのデコー ダの計算の複雑性は、非常に低くなけらばならない。 この問題に対処する従来技術のシステムは、「人工音声に対する記憶波形の圧 縮」(COMPRESSION OF STORED WAVE FORMS FOR ARTIFICIAL SPEECH)と題するS pragueによる米国特許第8,452,168号、及び「実時間テキスト−音声合成変換シ ステム」(REAL-TIME TEXT-TO-SPEECH CONVERSION SYSTEM)と題するJacks et a l.による米国特許第4,692,941号の一部分に記載されている。音声合成に関する 更なる背景は、「音声合成に対する方法及び装置」(METHOD AND APPARATUSFOR SPEECH SYNTHESIZING)と題するMozer et al.による米国特許第4,384,169号に見 出されうる。発明の目的および概要 この分野における従来の研究にもかかわらず、テキスト−音声合成システムの 使用は、広範な受容を獲得していない。従って、種々のマイクロコンピュータ・ プラットフォーム(microcomputer platforms)に移植可能であり、かつ他の使 用のためにそのようなプラットフォームにおけるメモリ空間を節約して使うソフ トウェア専用テキスト−音声合成システム(software only text-to-speech sys tem)を提供することが望ましい。 本発明は、実行のために比較的少量のホスト・システムのメモリを使用する種 々のパーソナル・コンピュータ・プラットフォームのアプリケーションに適する ソフトウェア専用実時間テキスト−音声合成システム(software only real tim e,text-to-speech system)を提供する。システムは、次のものを含む音声に関 するある一定の特殊な知識を利用する音声圧縮アルゴリズムに基づく: 1)音声データの隣接サンプルは、かなりの相関関係がある。それゆえに、 固定線形予測フィルタは、隣接サンプル間の相関関係を部分的に除去するために 用いられうる。 2)音声に対する声(voice to speech)(例えば、母音、鼻音、等)の場 合には、音声波形は、ゆっくり変化する周期的信号と考慮できる。それゆえに、 適応ピッチ予測子(adaptive pitch predictor)は、音声データにおける冗長性 を除去しかつ高データ圧縮を達成するために用いることができる。 3)そして、ベクトル量子化は、相関データ・ベクトルを符号化すべく非常 に効率的なアプローチである。それは、本発明に従って部分的に非相関な音声デ ータに適用でき、かつノイズ・シェーピングは、合成音声の主観的品質を改善す べくベクトル量子化処理に組み込むことができる。更に、種々の異なる圧縮レー ト(compression rates)は、ベクトル量子化に用いるベクトル・サイズを単に 変化することによって達成することができる。 それゆえに、一つの態様によれば、本発明は、音声を表している一連のサウン ド・セグメント・コード(sound segment codes:音区分符号)に応じて音声を 合成する装置として特徴付けることができる。システムは、一組のノイズ補償量 子化ベクトルを記憶するメモリを含む。装置におけるプロセッシング・モジュー ル は、一連の対応するサウンド・セグメント・コードに対して一組のノイズ補償量 子化ベクトルの文字列を識別すべく一連のサウンド・セグメント・コードに応答 する。第2のプロセッシング・モジュールは、ノイズ補償量子化ベクトルの文字 列に応じて音声データ・シーケンスを生成する。そして、音声変換器は、プロセ ッシング・モジュールに結合され、かつ音声データ・シーケンスに応じて音を生 成する。 この態様によるノイズ補償に対して、音は、ノイズ・シェープ・データ及びノ イズ・シェープ・データに適応される第1の組の量子化ベクトルを用いて符号化 される。復号において、第1の組とは異なる第2の組のノイズ補償ベクトルが改 善された高品質音(improved quality sound)を取り戻すべく用いられる。 本発明の別の態様は、フィルタされたサウンド・セグメント・データを表わす べく量子化ベクトルを利用すること、及びインバース・フィルタを音声データ・ シーケンスのジェネレーション(generation:発生、世代)の量子化ベクトルの 文字列に適用するためにモジュールを供給することを含む。この態様によれば、 量子化ベクトルは、量子化に用いられるサウンド・サンプル(sound samples) と量子化ノイズを非相関関係にすべくスペクトル平滑化(spectral flattening )に対するサウンド・セグメント・データの線形予測フィルタリングの結果の量 子化を表しうる。サウンド・セグメント・データを減圧することにおいて、イン バース線形予測フィルタは、サウンド・データを取り戻すべく量子化ベクトルの 識別された文字列に適用される。また、量子化ベクトルは、サウンド・セグメン ト・データのピッチ・フィルタリングの結果の量子化を表わす。それゆえに、イ ンバース・ピッチ・フィルタは、音声データ・シーケンスを発生するモジュール において量子化ベクトルの識別された文字列に適用される。 インバース線形予測フィルタ及びインバース・ピッチ・フィルタを用いるシス テムでは、サウンド・セグメント・コードは、インバース・フィルタリング段階 を実行するのに用いるパラメータも含む。好ましいシステムでは、これらのパラ メータは、復号(decoding)に用いられるフィルタ係数と共に、選択されて、復 号が増倍(multiplication)なしで実行できる。即ち、移動及び追加は、これら 特定的に選択された値により要求されるあらゆる増倍を置き換える。 本発明は、テキストに応じて音声を合成する装置としても特徴付けることがで きる。このシステムは、受け取ったテキストを上述したように復号される一連の サウンド・セグメント・コードに変換するモジュールを含む。テキスト変換子( text translator)は、対応二重単音に対する一組の量子化ベクトルの文字列を 識別しているデータを含むエントリーを有している符号化された二重単音の表( table)を含む。一連のサウンド・セグメント・コードは、それゆえにテキスト を表している符号化された二重単音の表に対する一連のインデックス(indices :指標、索引)を含む。所与のサウンド・セグメント・コードに対する量子化ベ クトルの文字列は、符号化された二重単音の表のエントリーをアクセスすること によって識別される。 音声データ波形を生成するモジュールは、合成音声の質を改善するモジュール も含む。そのようなモジュールは、特定及び隣接二重単音データ文字列間の非連 続性を円滑にすべく一連の特定二重単音の終りを隣接二重単音の始まりと混ぜ合 わせるルーチンを含む。更に、量子化された音声データの文字列は、量子化ベク トルの文字列によって表される音のピッチ及び持続時間を調整するシステムに適 用されうる。 本発明の別の態様によれば、音声を合成する装置は、符号化された二重単音の 表を生成するエンコーダを含みうる。この態様では、エンコーダは、対応する二 重単音に対するサンプル(標本化)された音声を受取り、音声サンプルと量子化 ノイズを部分的に非相関関係にすべく固定線形予測フィルタを適用し、線形予測 フィルタの出力にピッチ・フィルタを適用し、かつ合成組のベクトル(a result ing set of vectors)を生成すべくノイズ・シェーピング・フィルタを適用する 。合成組のベクトルは、次にベクトル量子化表のベクトルに整合される。ベクト ル量子化表のベクトルは、減圧音声(decompressed speech)の質を本質的に改 善すべく同じノイズ・シェーピング・フィルタによって音声データを復号するた めに用いられる量子化ベクトルまたはその微分に関連付けられる。 この符号化技術は、非常に簡単な復号技術の使用を許容し、少量のメモリを必 要とし、かつ非常に高品質な音声を生成する。 従って、本発明は、デコーダの複雑性を絶対最小限に維持しつつ、より高いレ ベルの圧縮が達成されるテキスト−音声合成システム用音声圧縮/減圧技術に関 する。圧縮比は、コンピュータで利用可能なRAMにより変えることができる。 非圧縮形式で音声を記憶するために、サンプル当たり通常8〜16ビットが必要 である。本発明の音声圧縮技術を用いことにより、各サンプルを記憶するために 必要なビットの数は、0.5ビットにまで低減できる(即ち、音声の約16サン プルがメモリの8ビットを用いて記憶できる)。しかしながら、より大きなRA M空間が利用可能である場合には、サンプル当たり約4ビットを用いて、より高 品質の合成音声を生成することができる。 本発明の他の態様及び利点は、以下の図面、詳細の説明及び請求の範囲を再検 討することにより、理解されるであろう。実施例 以下、添付した図面を参照して本発明の好ましい実施例を詳細に説明する。 図1及び図2は、本発明を組み込んでいるシステムの概要を示す。図3は、本 発明による二重単音記録が記憶される基本的な方法を示す。図4〜図6は、本発 明のベクトル量子化に基づく符号化方法を示す。図7は、本発明による復号アル ゴリズムを示す。 図8及び図9は、隣接二重単音記録の始まり及び終りを混ぜ合わせるための好 ましい技術を示す。図10〜図18は、テキスト−音声合成システムにおける音 のピッチ及び持続時間の制御のための技術を示す。 I.システム概要(図1〜図3) 図1は、本発明によるベクトル量子化に基づくテキスト−音声合成システムを 組み込んでいる基本マイクロコンピュータ・プラットフォームを示す。プラット フォームは、ホスト・システム・バス11に結合された中央処理装置(CPU)1 0を含む。キーボード12または他のテキスト入力装置は、システムに備えられ る。また、ディスプレイ・システム13は、ホスト・システム・バスに結合され る。ホスト・システムは、ディスク・ドライブ14のような不揮発性記憶システ ムも含む。更に、システムは、ホスト・メモリ15を含む。ホスト・メモリは、 テキ スト−音声合成(text-to-speech:TTS)符号を含み、符号化音声表(encoded vo ice tables)、バッファ、及び他のホスト・メモリを含んでいる。テキスト−音 声合成符号は、スピーカ17を含む音声出力モジュール16に供給する音声デー タを生成するために用いられる。 本発明によれば、符号化音声表は、テキストを二重単音の文字列に変換するた めに用いられるTTS辞書を含む。二重単音を量子化ベクトルの識別された文字 列に変換する二重単音表が更に含まれている。量子化ベクトル表は、二重単音表 のサウンド・セグメント・コードを音声出力のための音声データに復号するため に用いられる。また、システムは、必要な場合にホスト・メモリ15にロードさ れる符号化のためのベクトル量子化表を含みうる。 図1に示したプラットフォームは、あらゆる一般的なマイクロコンピュータ・ システムを表わし、マッキントッシュ・ベース・システム、DOSベース・シス テム、UNIXベース・システムまたは他の型のマイクロコンピュータを含んで いる。復号のための本発明によるテキスト−音声合成符号及び符号化音声表は、 比較的少量のホスト・メモリ15を占有する。例えば、本発明によるテキスト− 音声合成復号システムは、主メモリの640キロバイト以下を占有し、しかも高 品質の、自然な音の合成音声を生成するように実施されうる。 テキスト−音声合成符号により実行される基本アルゴリズムを図2に示す。シ ステムは、まず入力テキストを受取る(ブロック20)。入力テキストは、TT S辞書を用いて二重単音文字列に変換される(ブロック21)。同時に、入力テ キストは、イントネーション制御データを生成し、音声を形成している二重単音 のピッチ及び持続時間を制御するために分析される(ブロック22)。 テキストが二重単音文字列に変換された後、二重単音文字列は、ベクトル量子 化データ・フレームを生成するために減圧される(ブロック23)。ベクトル量 子化(VQ)データ・フレームが生成された後、あらゆる不連続性を円滑にする ために隣接二重単音の始まり及び終りが混ぜ合わせられる(ブロック24)。次 に、二重単音VQデータ・フレームの持続時間及びピッチは、イントネーション 制御データに応じて調整される(ブロック26)。そして、音声データは、実時 間音声生成のために音声出力システムに供給される(ブロック27)。十分な処 理能力を有するシステムに対して、適応ポスト・フィルタが音声の質を更に改善 するために適用されうる。TTS辞書は、この分野で知られた種々の技術のいず れか一つを用いることによって実施できる。本発明によれば、二重単音記録は、 高圧縮フォーマット(highly compressed format)で図3に示すように実施され る。 図3に示すように、左の二重単音30に対する記録及び右の二重単音31に対 する記録が示されている。左の二重単音30に対する記録は、二重単音における ピッチ周期の数NLのカウント(計数)32を含む。次に、iが対応している圧 縮フレーム記録に対するピッチ値の0からNL−1になる、各ピッチ周期に対す る数LPiを記憶している長さNLの表を指すポインタ33が含まれる。そして 、ポインタ34は、それぞれが左の二重単音に対する符号化音声の公称(nomina l)ピッチに関する符号化フレーム・サイズの固定設定長(fixed set length) を有している、MLベクトル量子化圧縮音声記録の表36に含まれる。公称ピッ チは、音声データ・ベースの所与のピッチ周期に対するサンプルの平均数に基づ いている。 同様な構造が右の二重単音31に対して認識できる。ベクトル量子化を用いる と、圧縮音声記録の長さは、生成された音声の質に対して非常に短い。 ベクトル量子化音声記録のフォーマットは、図4〜図7を参照して以下に説明 するフレーム・エンコーダ・ルーチン及びフレーム・デコーダ・ルーチンを参照 して更に理解することができる。 II.エンコーダ/デコーダ・ルーチン(図4〜図7) エンコーダ・ルーチンを図4に示す。エンコーダは、音声データのフレームsn を入力として受け入れる。好ましいシステムでは、音声サンプルは、12また は16ビットの2の補数として表され、22,252Hzでサンプルされる。こ のデータは、Nの長さを有している非重畳フレーム(non-overlapping frames) snに分割される。ここで、Nは、フレーム・サイズと称する。Nの値は、音声 データの公称ピッチに依存する。記録された音声の公称ピッチが165サンプル (または135Hz)よりも少ないならば、Nの値は、96に選択される。さも なければ、160のフレーム・サイズが用いられる。エンコーダは、所望の圧縮 レートに依存する、N−ポイント・データ・シーケンスsnをより短い長さのバ イト・ストリームに変形する。例えば、N=160でかつ非常に高いデータ圧縮 が所望であるならば、出力バイト・ストリームは、12エイト・ビット・バイト (12 eight bit bytes)のように短くできる。エンコーダのブロック図を図4に 示す。 それゆえに、ルーチンは、フレームsnを受け入れることによって開始する( ブロック50)。DCまたは60Hz電力線ノイズのような、低周波数ノイズを 除去し、かつオフセット・フリー音声データを生成するために、信号snがハイ パス(高域)フィルタを通過する。これを達成するための好ましいシステムで用 いられる差分式は、0≦n<Nに対する式1に示される。 xn=sn−sn-1+0.999*xn-1 式1 ここで、値xnは、“オフセット・フリー”信号である。変数s-1及びx-1は 、各二重単音に対してゼロに初期化されかつ式2の関係を用いて実質的に更新さ れる。 x-1=xN及びs-1=sN 式2 この段階は、オフセット補償またはDC除去と称することができる(ブロック 51)。 音声サンプルと量子化ノイズを部分的に非相関関係にするために、シーケンス xnは、固定一次線形予測フィルタを通り抜ける。これを達成するための差分式 は、式3に示される。 yn=xn−0.875*xn-1 式3 式3の線形予測フィルタリングは、フレームynを生成する(ブロック52) 。式3において0.875に等しい、フィルタ・パラメータは、異なる音声サン プ リング・レートが用いられるならば、変更されなけらばならない。x-1の値は、 各二重単音に対してゼロに初期化されるが、以下に説明するようにインバース線 形予測フィルタリングの段階で更新される(ブロック60)。 例えば、フィルタ・パラメータが符号化されるべき二重単音に依存するフィル 適応フィルタ、または高次フィルタを含んでいる、種々のフィルタ型を用いるこ とが可能である。 式3により生成されたシーケンスynは、最適ピッチ値Popt、及び関連利得因 子(associated gain factor)βを決定するために利用される。Poptは、以下 に示されるように式4、5、6及び7によって規定される関数Sxy(P)、Sxx (P)、Syy(P)、及びコヒーレンス関数Coh(P)を用いて計算される。 Coh(P)=Sxy(P)*Sxy(P)/(Sxx(P)*Syy(P)) 式7 PBUFは、ゼロに初期化され、かつ以下に説明するようにピッチ・バッファ 更新ブロック59で更新される、サイズPmaxのピッチ・バッファである。Popt 、は、Coh(P)が最大でありかつSxy(P)が正であるようなPの値である 。考慮するPの範囲は、符号化される音声の公称ピッチに依存する。範囲は、フ レーム・サイズが96に等しければ(96から350まで)であり、フレーム ・サイズが160に等しければ(160から414まで)である。Pmaxは、公 称ピッチが160以下ならば、350であり、さもなくば414に等しい。パラ メータPoptは、8ビットを用いて表すことができる。 Poptの計算は、図5を参照して理解することができる。図5では、バッファ PBUFがシーケンス100によって表されかつフレームynがシーケンス10 1によって表される。先行するフレームがフレームynに実質的に等しい音声デ ータのセグメントでは、PBUF及びYnは、図5に示すようにみえる。Poptは 、ベクトルyn101がPBUF100における類似長さの対応するセグメント にできるだけ近く整合する、ポイント102での値を有する。 ピッチ・フィルタ利得パラメータβは、式8の表現を用いて決定される。 β=Sxy(Popt)/Syy(Popt) 式8 βは、4ビットに量子化され、βの量子化値は、1/16刻みで、1/16か ら1までの範囲でありうる。 次に、ピッチ・フィルタが適用される(ブロック54)。プリエンファサイズ された(pre-emphasized)音声データynにおける長期相関関係(long term cor relations)は、式9の関係を用いて除去される。 rn=yn−β*PBUFPmax-Popt+n、 0≦n<N 式9 これは、残留信号(residual signal)rnの計算を結果として生ずる。 次に、スケーリング・パラメータ(scaling parameter)Gがブロック利得推 定ルーチン(bloc gain estimation routine)を用いて生成される(ブロック5 5)。処理の後続段階の計算精度を増大するために、残留信号rnは、リスケー ルされる。スケーリング・パラメータGは、まず信号rnの最大の大きさを決定 しかつ7−レベル量子化器を用いてそれを量子化することによって得られる。パ ラメータGは、次の7つの値の一つを取ることができる:256、512、10 24、4096、8192、及び16384。これらの量子化レベルを選択する 重要性 は、リスケーリング操作(rescaling operation)が移動操作(shift operation s)だけを用いて実施できることである。 次に、ルーチンは、全探索ベクトル量子化符号を用いて残留符号化に進む(ブ ロック56)。残留信号rnを符号化するために、nポイント・シーケンスrnは 、長さMの非重畳ブロックに分割される。ここで、Mは、“ベクトル・サイズ” と称される。それゆえに、Mサンプル・ブロックbijが生成される。ここで、i は、ブロック数のゼロからM−1までのインデックスであり、jは、ブロック内 のサンプルのゼロからN/M−1までのインデックスである。各ブロックは、式 10に示されるように規定されうる。 bij=rMi+j、(0≦i<N/Mかつj≦0<M) 式10 これらMサンプル・ブロックbijのそれぞれは、ベクトル量子化を用いて8ビ ット数に符号化される。Mの値は、所望の圧縮レートに依存する。例えば、Mが 16に等しいときに、非常に高い圧縮が達成される(即ち、16残留サンプルは 、8ビットだけを用いて符号化される)。しかしながら、復号音声品質(decode d speech quality)は、M=16では、ある程度雑音があるということを認めう る。他方、M=2では、減圧音声品質(decompressed speech quality)は、非 圧縮音声(uncompressed speech)のそれに非常に近い。しかしながら、圧縮音 声記録の長さは、より長い。好ましい実施例では、値Mは、値2、4、8、及び 16を取ることができる。 ベクトル量子化は、図6に示すように実行される。それゆえに、全ブロックbij に対して、一連の量子化ベクトルが識別される(ブロック120)。最初に、 ブロックbijの構成要素は、ノイズ・シェーピング・フィルタを通り抜けかつ式 11に示すようにスケールされる(ブロック121)。 wj =0.875*wj-1−0.5*wj-2+0.4375*wj-3+bij、 0≦j<M vij=G*wi、 0≦j<M 式11 それゆえに、vijは、ベクトルviのj番目の構成要素であり、かつ値w-1、 w-2及びw-3は、ノイズ・シェーピング・フィルタの状態であり各二重単音に対 してゼロに初期化されている。フィルタ係数は、減圧音声の主観的品質を改善す るために量子化ノイズ・スペクトルを形造るべく選択される。各ベクトルが符号 化されかつ復号された後、これらの状態は、ブロック124〜126を参照して 以下に説明するように更新される。 次に、ルーチンは、ベクトル量子化表における最良整合(best match)を指す ポインタを見つける(ブロック122)。ベクトル量子化表123は、一連のベ クトルC0からC255からなる(ブロック123)。 それゆえに、ベクトルviは、予め計算されかつ符号表123に記憶される、 256M−ポイント・ベクトルに対抗して比較される。viに最も近いベクトル Cqiは、式12により決定される。p=0から255に対する値Cpは、ベクト ル量子化符号表123からのpth符号化ベクトルを表わす。 最も近いベクトルCqiは、式13の技術を用いて効率的に決定することもでき る。 全p(0≦p≦255)に対して vi T・Cqi≦vi T・Cp 式13 式13では、値vTは、ベクトルvの転置を表し、“・”は、不等式における内 積演算を表わす。 表123の符号化ベクトルCpは、ノイズ・フィルタ値(noise filteredvalue )vijに整合するために利用される。しかしながら、復号では、一連のQVpか らなる復号ベクトル表125が用いられる。値QVpは、ベクトル量子 化技術を用いて高品質音データを達成する目的のために選択される。それゆえに 、ベクトルCqiを見つけた後、ベクトルQVqiをアクセスするためにポインタq が利用される。図4の段階55で生成されるベクトルbiに対応している復号サ ンプルは、M−ポイント・ベクトル(1/G)*QVqiである。ベクトルCpは 、式11のノイズ・シェーピング・フィルタ操作によるベクトルQVpに関する 。それゆえに、復号ベクトルQVpがアクセスされる場合には、インバース・ノ イズ・シェーピング・フィルタが復号操作において計算される必要はない。図6 の表126は、ノイズ補償量子化ベクトルをそれゆえに含む。 残留信号rnを形成するベクトルbijに対する符号化ベクトルを計算すること を係属することにおいて、ベクトルbiを指すポインタの復号ベクトルがアクセ スされる(ブロック124)。その復号ベクトルは、フィルタ及びPBUF更新 に用いられる(ブロック126)。 ノイズ・シェーピング・フィルタに対して、復号されたサンプルが各サブ−ブ ロックbjについて計算された後、誤りベクトル(bj−QVqi)が図14に示す ようにノイズ・シェーピング・フィルタを通り抜ける。 wj=0.875*wj-1−0.5*wj-2+0.4375*wj-3 +[bij−QVqi(j)]、 0≦j<M 式14 式14では、値QVqi(j)は、復号ベクトルQVqiのjth構成要素を表わす 。次のブロックに対するノイズ・シェーピング・フィルタ状態は、式15に示す ように更新される。 w-1=wM-1-2=wM-2-3=wM-3 式15 この符号化及び復号は、復号ベクトル表125に対するN/Mインデックスを 得るためにN/Mサブ−ブロックの全てに対して実行される。nがゼロからN/ M−1までの、インデックスQnのこの文字列は、残留信号rnついての復号ベク トルの文字列に対する識別子を表わす。 それゆえに、4つのパラメータがN−ポイント・データ・シーケンスynを表 わす: 1) 最適ピッチ、Popt(8ビット) 2) ピッチ・フィルタ利得、β(4ビット) 3) スケーリング・パラメータ、G(3ビット)、及び 4) 復号表インデックスの文字列、Qn(0≦n<N/M) パラメータβ及びGは、単一バイトに符号化できる。それゆえに、音声のNサ ンプルを表わすために(N/M)プラス2バイトだけが用いられる。例えば、公 称ピッチが100サンプル長であり、かつM=16ると仮定する。この場合には 、音声の96サンプルのフレームが8バイトによって表される:Popt、に対し て1バイト、β及びGに対して1バイト、及び復号表インデックスQnに対して 6バイト。非圧縮音声が16ビット・サンプルから構成されるならば、これは、 24:1の圧縮を表す。 図4に戻ると、音声データを識別している4つのパラメータが記憶される(ブ ロック57)。好ましいシステムでは、それらは、フレームの構造が以下のよう に特徴付けられる図3に示されるような構造に記憶される: #define NumOfVectorsPerFrame 〈FrameSize/VectorSize〉 struct frame{ unsigned Gain:4; unsigned Beta:3; unsigned UnusedBit:1; unsigned charPitch; unsigned charVQcodes[NumOfVectorsPerFrame];}; このフレーム構造を利用している図3の二重単音記録は、以下のように特徴付 けられる: DiphoneRecord { char LeftPhone,RightPhone; short LeftPitchPeriodCount,RightPitchPeriodCount; short *LeftPeriods,*RightPeriods; struct frame *LeftData,*RightData; } これらの記憶されたパラメータは、テキスト−音声合成に必要な二重単音の識 別を一意に提供する。 図6を参照して上述したように、エンコーダは、フィルタ及びPBUF値を更 新するために符号化されたデータを復号することを続ける。これに含まれる最初 の段階は、インバース・ピッチ・フィルタである(ブロック58)。残留信号r ’nを表わすべく復号ベクトルの文字列を連結することによって形成された復号 信号に対応しているベクトルr’nにより、インバース・フィルタは、式16に 示されるように実施される。 y’n=r’n+β*PBUFPmax-Popt+n、 0≦n<N 式16 次に、ピッチ・バッファは、インバース・ピッチ・フィルタの出力で更新され る(ブロック59)。ピッチ・バッファPBUFは、式17に示されるように更 新される。 PBUFn=PBUF(n+N) 0≦n<(Pmax−N) PBUF(Pmax-N+n)=y’n 0≦n<N 式17 そして、線形予測フィルタ・パラメータは、インバース線形予測フィルタ段階 を用いて更新される(ブロック60)。インバース・ピッチ・フィルタの出力は 、復号音声を得るために一次インバース線形予測フィルタを通り抜ける。このフ ィルタを実施するための差分式は、式18に示される。 x’n=0.875*x’n-1+y’n 式18 式18では、x’nは、減圧音声である。これから、次のフレームに対するx- 1 の値は、ブロック52の段階で使用する値xNに設定される。 図7は、デコーダ・ルーチンを示す。デコーダ・モジュールは、エンコーダ・ モジュールによって生成された、データの(N/M)+2バイトを入力として受 け入れ、かつ音声のNサンプルを出力として適用する。Nの値は、音声データの 公称ピッチに依存しかつMの値は、所望の圧縮レートに依存する。 ソフトウェア専用テキスト−音声合成システムでは、デコーダの計算の複雑性 は、テキスト−音声合成システムが遅いコンピュータでも実時間で実行できるこ とを確実にするためにできるだけ小さくなけらばならない。エンコーダのブロッ ク図が図7に示されている。 ルーチンは、ブロック200で二重単音記録を受け入れることによって開始す る。最初の段階は、パラメータG、β、Popt、及びベクトル量子化文字列Qnを 解析することを含む(ブロック201)。次に、残留信号r’nが復号される( ブロック202)。これは、復号量子化ベクトル表125へのアクセスによりブ ロック203で概略的に示すようにベクトル量子化文字列に対して復号ベクトル をアクセスしかつ連結することを含む。残留信号r’nが復号された後、インバ ース・ピッチ・フィルタが適用される(ブロック204)。このインバース・ピ ッチ・フィルタは、式19に示すように実施される: y’n=r’n+β*SPBUF(Pmax−Popt+n)、 0≦n<N 式19 SPBUFは、エンコーダ・ピッチ・バッファPBUFに関して上述したように 、各二重単音に対してゼロに初期化される長さPmaxのシンセサイザー・ピッチ ・バッファである。 各フレームに対して、合成ピッチ・バッファが更新される(ブロック205) 。それが更新される方法は、式20に示される: SPBUFn=SPBUF(n+N) 0≦n<(Pmax−N) SPBUF(Pmax-N+n)=y’n 0≦n<N 式20 SPBUFを更新した後、シーケンスy’nがインバース線形予測フィルタリ ング段階に適用される(ブロック206)。それゆえに、インバース・ピッチ・ フィルタy’nの出力は、復号音声を得るために一次インバース線形予測フィル タを通り抜ける。インバース線形予測フィルタを実施するための差分式は、式2 1に示される: x’n=0.875*x’n-1+y’n 式21 式21では、ベクトルx’nは、減圧音声に対応する。このフィルタリング動 作は、いかなる増倍も必要としないで簡単なシフト動作を用いて実施できる。従 って、それは非常に素早く実行しかつ非常に少量のホスト・コンピュータ資源を 利用する。 上述したアルゴリズムによる音声の符号化及び復号は、従来技術のシステムと 比較して多数の利点を供給する。第1に、この技術は、低い処理能力を有するコ ンピュータ・システム上でのソフトウェア専用テキスト−音声合成システムの実 施に用いられるのに十分に簡単なデコーダにより更に高い音声圧縮レートを提供 する。第2に、技術は、圧縮レートとシンセサイザー音声品質の間で非常に柔軟 なトレード・オフ(妥協)を提供する。最上位モデル(high-end)コンピュータ ・システムは、更に大きなRAMメモリを要求事項としてより高品質な合成音声 を選ぶことができる。 III.不連続性円滑に対する波形混合(図8及び図9) 図2を参照して上述したように、ベクトル量子化技術を用いて生成された音声 データの合成フレームは、テキスト文字列における二重単音間で多少の不連続性 を結果として生じうる。それゆえに、テキスト−音声合成システムは、そのよう な不連続性を円滑にするために二重単音データ・フレームを混ぜ合わせるモジュ ールを供給する。好ましい実施例の混合技術は、図8及び図9に示される。 二つの連結二重単音は、終了フレーム(ending frame)と開始フレーム(begi nning frame)を有する。左の二重単音の終了フレームは、生成されたクリック 音または可聴不連続性なしで右の二重単音の開始フレームに混ぜ合わせられなけ ればならない。第1の二重単音の右の境界と第2の二重単音の左の境界は、ほと んどの状況において同じ音素に対応するので、それらは、連結のポイント(地点 )で類似に見えるものと予想される。しかしながら、二つの二重単音符号化は、 異なるコンテキストから抽出されるので、それらは、同じであるようには見えな い。この混合技術は、連結のポイントにおける不連続性を取り除くために適用さ れる。図9では、左の二重単音の、ここでは一ピッチ周期に言及する、最後のフ レームは、頁の頂部においてLn(0≦n<PL)で示される。右の二重単音の 第1のフレーム(ピッチ周期)は、Rn(0≦n<PR)で示される。本発明に よるLnとRnの混合は、これら二つのピッチ周期だけを変更しかつ図8を参照し て説明したように実行される。図9の波形は、アルゴリズムを説明するために選 択されており、実際の音声データを表さないこともある。 それゆえに、図8に示すアルゴリズムは、シーケンスで左及び右の二重単音を 受け取ることで始まる(ブロック300)。次に、左の二重単音の最後のフレー ムは、バッファLnに記憶される(ブロック301)。また、右の二重単音の最 初(第1)のフレームは、バッファRnに記憶される(ブロック302)。 次に、アルゴリズムは、拡張フレームを形成するために左のフレームLnを複 製しかつ連結する(ブロック303)。次の段階では、複製された左のフレーム 間の拡張フレームにおける不連続性は、円滑にされる(ブロック304)。この 円滑かつ拡張された左のフレームは、図9においてElnと称される。 拡張シーケンスEln(0≦n<PL)は、式22に示すように最初の段階で 得られる: Eln=Ln n=0,1,...,PL−1 ElPL+n=Ln n=0,1,...,PL−1 式22 そして、ポイントn=PLからの不連続性円滑は、式23のフィルタにより実行 される: ElPL+n=ElPL+n+[El(PL-1)−El’(PL-1)]*Δn+1、 n=0,1,...,(PL/2) 式23 式23では、値Δは、15/16に等しくかつEl’(PL-1)=El2+3*(E l1−El0)である。それゆえに、図9に示すように、拡張シーケンスElnは 、左側で実質的にLnに等しく、ポイントPLで開始する円滑領域を有しかつポイ ント2PLに向かってLnのオリジナル形状に収束する。Lnが完全に周期的であ るならば、ElPL-1=El’PL-1である。 次の段階では、ベクトルElnとRnの最適整合が見出される。この整合ポイン トは、Poptと称される(ブロック305)。これは、Rnに最も近く整合するE lnのセクションを見出すためにRnをElnと比較することによって図9に示す ように実際に達成される。この最適混合ポイント決定は、WがPL及びPRの最 小であり、かつAMDFが平均の大きさの差分関数(average magnitude differ ence function)を表わす式23を用いて実行される。 この関数は、0からPL−1の範囲におけるpの値に対して計算される。オペ レーション(動作)における垂直棒(vertical bars)は、絶対値を表わす。W は、AMDF計算に対するウィンドウ・サイズ(window size)である。Poptは 、AMDF(p)が最小である値になるように選択される。これは、シーケンス Eln+p(0≦n<W)及びRn(0≦n<W)が互いに非常に近いポイントにp =Poptが対応することを意味する。 最適混合ポイントPoptを決定した後、波形は、混ぜ合わされる(ブロック3 06)。混合は、Elnトレース(trace)のPoptで始まる図9に示す第1の重 みランプ(weighting ramp)WLを利用する。第2のランプでは、WRは、Pop t でライン・アップされるRnトレースで図9に示されている。それゆえに、混合 動作の始まりでは、Elnの値が強調される。混合動作の終りでは、Rnの値が強 調される。 混合する前に、Lnの長さPLは、変更されたLnとRnが連結されるときに波 形が可能な限り連続であることを確実にすべく必要なときに変更される。それゆ えに、Popt、がPL/2よりも大きいならば、長さP’Lは、Poptに設定され る。さもなくば、長さP’Lは、W+Poptに等しくかつシーケンスLnは、0≦ n≦(P’L−1)に対してElnに等しい。 Poptで始まる混合ランプは、式25に示される: Rn=ElPopt+(Rn−Eln+Popt)*(n+1)/W、 0≦n<W Rn=Rn、 W≦n<PR 式25 それゆえに、シーケンスLnとRnは、混合されたRnを得るためにウィンドウ 化されかつ加えられる。Lnの始まり及びRnの終りは、隣接フレームとのあらゆ る不連続性を防止するために保存される。 この混合技術は、あらゆる連結音声合成によって生成された合成音声における 混合ノイズを最小にするものであると信じられている。 IV.ピッチ及び持続時間変更(図10〜図18) 図2に関して上述したように、テキスト分析プログラムは、テキストを分析し 、合成されることが必要な各単音のピッチ輪郭(contour)及び持続時間を決定 し、イントネーション制御信号を生成する。単音に対する一般的な制御は、AE のような、所与の音素が200ミリ秒の持続時間を有すべきでありかつピッチが 220Hzから300Hzまで線形的に上昇すべきであるということを示す。こ の必要事項は、図10に図式で示す。図10に示すように、Tは、音素の所望の 持続時間(例えば、200ミリ秒)に等しい。周波数fbは、Hzで表された所望 の開始ピッチである。周波数feは、Hzで表された所望の終了ピッチである。 ラベルP1、P2、...、P6は、所望のピッチ周波数fb、f2、...、f6を 達成するための各フレームのサンプルの数を示す。サンプルの所望の数Piと所 望のピッチ周波数fi(f1=fb)の間の関係は、関係式によって規定される: Pi=Fs/fi、 ここでFsは、データに対するサンプリング周波数である。 図10に示すように、音素のより低い周波数周期に対するピッチ周期は、音素 のより高い周波数周期に対するピッチ周期よりも長い。公称周波数がP3である ならば、アルゴリズムは、フレームP1及びP2に対するピッチ周期を延長しかつ フレームP4、P5及びP6に対するピッチ周期を減少することを必要とする。ま た、音素の所与の持続時間Tは、所望の持続時間周期を達成するためにいくつの ピッチ周期が符号化音素に挿入されるかまたは符号化音素から除去されるべきか を示す。図11から図18は、そのようなアルゴリズムの好ましい実施を示す。 図11は、図12のグラフを参照して、ピッチ周期を増大するためのアルゴリ ズムを示す。アルゴリズムは、Nが符号化フレームのピッチ周期である、N+Δ にピッチ周期を増大するための制御を受け取ることによって始まる(ブロック3 50)。次の段階では、ピッチ周期データは、バッファxnに記憶される(ブロ ック351)、xnは、頁の頂部において図12に示されている。次の段階で は、左のベクトルLnは、Δを参照してピッチ周期データxnに重み関数WLを適 用することによって生成される(ブロック352)。この重み関数は、M=N− Δである、式26に示されている: Ln=xn 0≦n<Δに対して Ln=xn*(N−n)/(M+1) Δ≦n<Nに対して 式26 図12に示すように、重み関数WLは、最初のサンプルからサンプルΔまで一定 であり、かつΔからNまで減少する。 次に、重み関数WRは、図12に示すようにxnに適用される(ブロック35 3)。この重み関数は、式27に示すように実行される: Rn=xn+Δ*(n+1)/(M+1) 0≦n<N−Δ Rn=xn+Δ N−Δ≦n<N 式27 図12に示すように、重み関数WRは、0からN−Δまで増大しかつN−Δか らNまで一定に維持される。合成波形Ln及びRnは、図12に概念的に示されて いる。示されているように、Lnはシーケンスxnの始まりを維持し、Rnはデー タxnの終りを維持する。 ピッチ変更シーケンスynは、式28に示すように二つのシーケンスを加える ことによって形成される(ブロック354): yn=Ln+R(n-Δ) 式28 これは、Lnの下にΔ(ΔbeloW Ln)によりシフトされたRnを置き換えるこ とによって図12に図式的に示す。ΔによりシフトされたRnとLnの組合せは、 図12の底部にynで示されている。ynに対するピッチ周期は、N+Δである。 ynの始まりは、xnの始まりと同じであり、ynの終りは、実質的にxnの終りと 同じである。これは、シーケンスの隣接フレームを有する連続性を維持し、かつ データのピッチ周期を延長しつつ円滑遷移を達成する。 式28は、n≦Nに対してLnが0であり、かつn<0に対してRnが0である という想定で実行される。これは、図12に絵図的に示されている。 サンプル当たりせいぜい一つの増倍(multiply)を必要とするこのスキームの 効率的な実施は、式29に示される: yn=xn 0≦n<Δ yn=xn+[xn-Δ−xn-]*〈n−Δ+1〉/〈N−Δ+1〉 Δ≦n<N yn=xn-Δ N≦n<Nd 式29 これは、N+Δのピッチ周期を有する新しいピッチ周期を結果として生ずる。 ピッチ周期が減少しなければならないという場合もある。ピッチ周期を減少す るためのアルゴリズムは、図14のグラフを参照して図13に示す。それゆえに 、アルゴリズムは、ピッチ周期がN−Δまで減少されなければならないことを示 している制御信号で始まる(ブロック400)。第1の段階は、二つの連続ピッ チ周期をバッファxnに記憶することである(ブロック401)。それゆえに、 図14に示すようにバッファxnは、第1のピッチ周期の長さであるN1と、第2 のピッチ周期の長さであるNrを有する二つの連続ピッチ周期からなる。次に、 二つのシーケンスLnとRnは、重み関数WL及びWRを用いて概念的に生成され る(ブロック402及び403)。重み関数WLは、第1のピッチ周期の始まり を強調し、重み関数WRは、第2のピッチ周期の終りを強調する。これらの関 数は、式30及び式31にそれぞれ示すように概念的に表すことができる: Ln=xn 0≦n<N1−W Ln=xn*〈N1−n〉/〈W+1〉 W≦n<N1n=0 その他 式30 Rn=xn*〈n−N1+W−Δ+1〉/〈W+1〉 N1−W+Δ≦n<N1+Δ Rn=xn1+Δ≦n<N1+Nrn=0 その他 式31 これらの式において、Δは、N1と所望ピッチ周期Ndの間の差に等しい。2* ΔがNdよりも大きくなければ、値Wは、2*Δに等しく、2*ΔがNdよりも大 きいならば、Wは、Ndに等しい。 これら二つのシーケンスLnとRnは、ピッチ変更シーケンスynを形成すベく 混ぜ合わされる(ブロック404)。ピッチ変更シーケンスynの長さは、所望 の長さと右の音素フレームNrの長さの和に等しい。それは、式32に示すよう に二つのシーケンスを加えることによって形成される: yn=Ln+R(n+Δ) 式32 それゆえに、ピッチ周期が減少する場合には、一つのピッチ周期の長さのみが 変化するだけでも、データの二つの連続ピッチ周期は、影響を受ける。短期間エ ネルギーがピッチ周期内で最も低い位置(場所)でピッチ周期が分割されるので 、これはなされる。それゆえに、この方策は、ピッチ周期の低エネルギー部分の みに影響を及ぼす。これは、ピッチ変更による音声の品質における劣化を最小に する。図14における図は、簡略化されており、実際のピッチ周期データを表し ていないということに注目すべきである。 サンプル当たりせいぜい一つの倍増を必要とする、このスキームの効率的実施 は、式33及び34に示される。 長さNdの第1のピッチ周期は、式33によって与えられる: yn=xn 0≦n<N1−W yn=xn+[xn+Δ−xn]*〈n−N1+W+1〉/〈W+1〉 N1−W≦n<Nd 式33 長さNrの第2のピッチ周期は、式34に示すように生成される: yn =xn-Δ+[xn−xn-Δ]*〈n−Δ−N1+W+1〉/〈W+1〉 N1≦n<N1+Δ yn=xn1+Δ≦n<N1+Nr 式34 図14に示すように、シーケンスLnは、ポイントN1−Wまでは第1のピッチ 周期に本質的に等しい。そのポイントでは、減少ランプWLは、第1のピッチ周 期の影響(作用)を抑制(減衰)するために信号に適用される。 また、示されるように、重み関数WRは、ポイントN1−W+Δで始まりかつ ポイントN1+Δまで増大ランプをシーケンスxnに適用する。そのポイントから 、一定の値が適用される。これは、右シーケンスの影響を抑制する効果を有し、 重み関数の開始中に左を強調し、そして右シーケンスを強調しかつ左を抑制して いるxnの終了セグメントに実質的に等しい終了セグメントを生成する。二つの 関数が混ぜ合わされる場合には、合成波形ynは、シーケンスの開始においてxn の開始に実質的に等しく、ポイントN1−Wでは、ポイントN1まで変更シーケン スが生成される。N1から終了まで、Δによって移動されたシーケンスxnが結果 として生ずる。 所与の音の持続時間を増大するためにピッチ周期の挿入の必要性が生起される 。ピッチ周期は、図16の図を参照して図15に示したアルゴリズムにより挿入 される。 アルゴリズムは、ピッチ周期をフレームLn及びRn間に挿入すべく制御信号を 受け取ることにより開始する(ブロック450)。次に、音声二重単音の二つの 隣接ピッチ周期であるLn及びRnの両方がバッファに記憶される(ブロック45 1)。(普遍性を失わずに、説明は、二つのシーケンスが同等長さNであると想 定する。) Lnとxn間及びxnとRn間の不連続性をもたらすことなく、同じ持続時間のピ ッチ周期xnを挿入するために、ピッチ周期xnは、n=0についてRnに似てい るべきであり(xn連続性に対してLnを保存する)、かつn=NについてLnに 似ているべきである(Rn連続性に対してxnを保存する)。これは、式35に示 すようにxnを規定することによって達成される: xn=Rn+〈Ln−RN〉*[〈n+1〉/〈N+1〉] 0≦n<N−1 式35 概念的に、図15に示すように、アルゴリズムは、左ベクトルWL(Ln)を 生成することによって進行し、信号Lnに対する増大ランプWLに本質的に適用 する(ブロック452)。 右ベクトルWR(Rn)は、図16に示すように本質的に減少ランプである重 みベクトルWRを用いて生成される(ブロック453)。それゆえに、Lnの終 了は、左ベクトルで強調され、Rnの開始は、ベクトルWRで強調される。 次に、WR(Ln)及びWR(Rn)は、挿入周期xnを生成するために混ぜ 合わされる(ブロック454)。 ピッチ周期を挿入するための計算の必要事項は、それゆえに、単にサンプル当 たり一つの乗算と二つの加算である。 そして、Ln、xn及びRnの連結は、挿入ピッチ周期を有するシーケンスを生 成する(ブロック455)。 ピッチ周期の除去は、図18のグラフを参照して図17に示されるように達成 される。ピッチ周期を挿入するアルゴリズムに非常に類似する、このアルゴリズ ムは、Lnに続くピッチ周期Rnの除去を示している制御信号を受け取ることによ り開始する(ブロック500)。次に、ピッチ周期Ln及びRnは、バッファに記 憶される(ブロック501)。これは、頁の頂部において図18に絵図的に示さ れている。再び、普遍性を失うことなく、二つのシーケンスは、同等長さNを有 するものであると想定される。 アルゴリズムは、nがNにアプローチするときに、Rnに似るようにRn(除去 される)に先行するピッチ周期Lnを変更すべく動作する。これは、式36似示 すようになされる: L’n=Ln+〈Rn−LN〉*[〈n+1〉/〈N+1〉] 0≦n<N−1 式36 式36では、合成シーケンスL’nは、図18の底部に示されている。概念的に 、式36は、重み関数WLをシーケンスLnに適用する(ブロック502)。こ れは、示したようにシーケンスLnの開始を強調する。次に、右ベクトルWR( Rn)は、重み関数WRを、Rnの終了を強調するシーケンスRnに適用すること によって生成される(ブロック503)。 WL(Ln)とWR(Rn)は、合成ベクトルL’nを生成するために混ぜ合わ される(ブロック504)。そして、シーケンスLn−Rnは、ピッチ周期文字列 のシーケンスL’nで置き換えられる(ブロック505)。 IV.結論 従って、本発明は、効率的であり、非常に少量のメモリを使用し、かつ種々の 標準マイクロコンピュータ・プラットフォームに移植できるソフトウェア専用テ キスト−音声合成システムを提供する。それは、音声データについての知識を利 用し、音声圧縮を生成するために、混ぜ合わせ、ほんの少しの計算資源で非常に 高品質な音声を生成する持続時間制御ルーチンについての知識を利用する。 圧縮及び減圧を実行するためのソフトウェア、混合、そして持続時間及びピッ チ制御ルーチンのソース符号一覧表(source code listing)が、本発明の好ま しい実施例の一例として付録に与えられている。 本発明の好ましい実施例の前記説明は、説明及び記述の目的で与えられたもの である。それは、網羅的であることまたは発明を開示された厳密な形に限定する ことを企図したものではない。当然に、多くの変更及び変形が当業者には明らか であろう。実施例は、本発明の原理及びその実際的アプリケーションを最もよく 説明するために選択されかつ記述されており、当業者に種々の実施例に対しかつ 考えられる特定の使用に適するような種々の変更を有する発明を理解させること ができる。本発明の範疇は後述する請求の範囲及びそれらの同等物によって規定 されることを企図する。図面の簡単な説明 図1は、本発明のテキスト合成システムを組み込んでいる一般的なハードウェ ア・プラットフォームのブロック図である。 図2は、本発明による基本テキスト合成ルーチンを説明するためのフローチャ ートである。 図3は、本発明の一実施例による二重単音記録のフォーマットを示す図である 。 図4は、本発明による音声データに対するデコーダを説明するためのフローチ ャートである。 図5は、図4のデコーダにおけるピッチ・フィルタ・パラメータの推測に関し て説明されるグラフである。 図6は、図4のデコーダで用いられる全探索(フル・サーチ)を説明するため のフローチャートである。 図7は、本発明による音声データに対するデコーダを説明するためのフローチ ャートである。 図8は、隣接二重単音記録の始まりと終りを混ぜ合わせる技術を説明するため のフローチャートである。 図9は、図8の混合技術の説明において参照される一組のグラフである。 図10は、音声データの一連のフレームに対する一般的なピッチ対時間のダイ アグラム説明するためのグラフである。 図11は、特定フレームのピッチ周期を増大する技術を説明するためのフロー チャートである。 図12は、図11の技術の説明において参照される一組のグラフである。 図13は、特定フレームのピッチ周期を減少する技術を説明するためのフロー チャートである。 図14は、図13の技術の説明において参照される一組のグラフである。 図15は、シーケンスで二フレーム間にピッチ周期を挿入する技術を説明する ためのフローチャートである。 図16は、図15の技術の説明において参照される一組のグラフである。 図17は、一連のフレームにおいてピッチ周期を除去する技術を説明するため のフローチャートである。 図18は、図17の技術の説明において参照される一組のグラフである。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,DE, DK,ES,FR,GB,GR,IE,IT,LU,M C,NL,PT,SE),OA(BF,BJ,CF,CG ,CI,CM,GA,GN,ML,MR,NE,SN, TD,TG),AT,AU,BB,BG,BR,CA, CH,DE,DK,ES,FI,GB,HU,JP,K P,KR,LK,LU,MG,MN,MW,NL,NO ,PL,RO,RU,SD,SE,US 【要約の続き】 クトルの識別された文字列に適用される。

Claims (1)

  1. 【特許請求の範囲】 1.音声を表している一連のサウンド・セグメント・コードに応じて音声を合成 する装置であって、 一組のノイズ補償量子化ベクトルを記憶するメモリ; 一連のサウンド・セグメント・コードに応じて、一連の対応サウンド・セグ メント・コードに対して一組のノイズ補償量子化ベクトルの文字列を識別する手 段; 前記識別手段及び前記メモリに結合され、前記ノイズ補償量子化ベクトルの 文字列に応じて音声データ・シーケンスを生成する手段; 前記生成手段に結合され、前記音声データ・シーケンスに応じて音を生成す る音声変換器 を備えていることを特徴とする装置。 2.前記サウンド・セグメント・コードは、第1の組の量子化ベクトルを用いて 符号化されたデータを含み、かつ前記一組のノイズ補償量子化ベクトルは、前記 第1の組の量子化ベクトルと異なることを特徴とする請求項1に記載の装置。 3.前記ノイズ補償量子化ベクトルは、フィルタされたサウンド・セグメント・ データの量子化を表し、かつ前記音声データ・シーケンスを生成する手段は、前 記音声データ・シーケンスの生成における前記ノイズ補償量子化ベクトルの識別 された文字列にインバース・フィルタを適用する手段を含み、前記インバース・ フィルタは、あらゆる積算が前記インバース・フィルタのアプリケーションにお いて移動及び/または加算動作によって置き換えられるように選択されたパラメ ータを含むことを特徴とする請求項1に記載の装置。 4.前記ノイズ補償量子化ベクトルは、フィルタされたサウンド・セグメント・ データの量子化を表し、かつ前記音声データ・シーケンスを生成する手段は、前 記音声データ・シーケンスの生成における前記ノイズ補償量子化ベクトルの識別 された文字列にインバース・フィルタを適用する手段を含むことを特徴とする請 求項1に記載の装置。 5.前記ノイズ補償量子化ベクトルは、サウンド・セグメント・データの線形予 測フィルタリングの結果の量子化を表し、かつ前記音声データ・シーケンスを生 成する手段は、前記音声データ・シーケンスの生成における前記ノイズ補償量子 化ベクトルの識別された文字列にインバース・フィルタを適用する手段を含むこ とを特徴とする請求項1に記載の装置。 6.前記ノイズ補償量子化ベクトルは、サウンド・セグメント・データのピッチ ・フィルタリングの結果の量子化を表し、かつ前記音声データ・シーケンスを生 成する手段は、前記音声データ・シーケンスの生成における前記ノイズ補償量子 化ベクトルの識別された文字列にインバース・フィルタを適用する手段を含むこ とを特徴とする請求項1に記載の装置。 7.前記量子化ベクトルは、サウンド・セグメント・データのピッチ・フィルタ リング及び線形予測フィルタリングの結果の量子化を表し、前記音声データ・シ ーケンスを生成する手段は、 フィルタされたデータ・シーケンスを生成すべく前記音声データ・シーケン スの生成において量子化ベクトルの前記識別された文字列にインバース・ピッチ ・フィルタを適用する手段と、 前記音声データ・シーケンスの生成において前記フィルタされたデータ・シ ーケンスにインバース線形予測フィルタを適用する手段とを含むことを特徴とす る請求項1に記載の装置。 8.前記音声データ・シーケンスを生成する手段は、 量子化ベクトルの前記識別された文字列を連結しかつ前記連結された文字列 を前記音声データ・シーケンスに供給する手段を含むことを特徴とする請求項1 に記載の装置。 9.量子化ベクトルの前記識別された文字列は、始まり及び終りを有し、音声デ ータ・シーケンスを生成する手段は、 シーケンスで量子化ベクトルの前記識別された文字列を対応するサウンド・ セグメント・コードに供給する手段と、 前記音声データ・シーケンスにおける特定及び隣接サウンド・セグメント・ コードの間の不連続性を円滑にするために一連の特定サウンド・セグメント・コ ードの量子化ベクトルの識別された文字列の終りを一連の隣接サウンド・セ グメント・コードの量子化ベクトルの識別された文字列の始まりと混ぜ合わせる 手段とを含むことを特徴とする請求項1に記載の装置。 10.前記音声データ・シーケンスを生成する手段は、 前記サウンド・セグメント・コードに応答し、前記音声データ・シーケンス における量子化ベクトルの前記識別された文字列のピッチ及び持続時間を調整す る手段を含むことを特徴とする請求項1に記載の装置。 11.量子化ベクトルの前記識別された文字列は、始まり及び終りを有し、音声 データ・シーケンスを生成する手段は、 シーケンスで量子化ベクトルの前記識別された文字列を対応するサウンド・ セグメント・コードに供給する手段と、 前記音声データ・シーケンスにおける特定及び隣接サウンド・セグメント・ コードの間の不連続性を円滑にするために一連の特定サウンド・セグメント・コ ードの量子化ベクトルの識別された文字列の終りを一連の隣接サウンド・セグメ ント・コードの量子化ベクトルの識別された文字列の始まりと混ぜ合わせる手段 と、 前記サウンド・セグメント・コードに応答し、前記音声データ・シーケンス における量子化ベクトルの前記識別された文字列のピッチ及び持続時間を調整す る手段とを含むことを特徴とする請求項1に記載の装置。 12.復号に用いた前記一組のノイズ補償量子化ベクトルと異なる符号化セット の量子化ベクトルに対する記憶装置と、前記符号化セット及びサウンド・セグメ ント・データに応じて前記サウンド・セグメント・コードを生成する手段とを含 んでいるエンコーダを更に含むことを特徴とする請求項1に記載の装置。 13.前記エンコーダは、線形予測フィルタを更に含むことを特徴とする請求項 12に記載の装置。 14.前記エンコーダは、ピッチ・フィルタを更に含むことを特徴とする請求項 12に記載の装置。 15.前記エンコーダは、線形予測フィルタ及びピッチ・フィルタを更に含むこ とを特徴とする請求項12に記載の装置。 16.テキストに応じて音声を合成する装置であって、 テキストを一連のサウンド・セグメント・コードに変換する手段と、 一組の量子化ベクトルを記憶するメモリと、 一連のサウンド・セグメント・コードに応答し、一連の対応サウンド・セグ メント・コードに対して一組において量子化ベクトルの文字列を識別する手段と 、 前記識別する手段及び前記メモリに結合され、量子化ベクトルの前記文字列 に応じて音声データ・シーケンスを生成する手段と、 前記生成手段に結合され、前記音声データ・シーケンスに応じて音を生成す る音声変換器とを備えていることを特徴とする装置。 17.前記サウンド・セグメント・コードは、第1の組の量子化ベクトルを用い て符号化されたデータを含み、かつ前記一組のノイズ補償量子化ベクトルは、前 記第1の組の量子化ベクトルと異なることを特徴とする請求項16に記載の装置 。 18.前記ノイズ補償量子化ベクトルは、フィルタされたサウンド・セグメント ・データの量子化を表し、かつ前記音声データ・シーケンスを生成する手段は、 前記音声データ・シーケンスの生成におけるノイズ補償量子化ベクトルの前記識 別された文字列にインバース・フィルタを適用する手段を含み、前記インバース ・フィルタは、あらゆる乗算が前記インバース・フィルタのアプリケーションに おいて移動及び/または加算オペレーションによって置き換えられるように選択 されたパラメータを含むことを特徴とする請求項16に記載の装置。 19.前記変換手段は、対応する二重単音に対して一組の量子化ベクトルの文字 列を識別するデータを含んでいるエントリーを有している、符号化された二重単 音のテーブルを含み、前記一連のサウンド・セグメント・コードは、前記テキス トを表している符号化された二重単音のテーブルに対して一連のインデックスを 含み、 前記量子化ベクトルの文字列を識別する手段は、前記サウンド・セグメント ・コードに応答し、前記符号化された二重単音のテーブルのエントリーをアクセ スする手段を含むことを特徴とする請求項16に記載の装置。 20.前記量子化ベクトルは、フィルタされたサウンド・セグメント・データの 量子化を表し、かつ前記音声データ・シーケンスを生成する手段は、 前記音声データ・シーケンスの生成における量子化ベクトルの前記識別され た文字列にインバース・フィルタを適用する手段を含むことを特徴とする請求項 16に記載の装置。 21.前記量子化ベクトルは、サウンド・セグメント・データの線形予測フィル タリングの結果の量子化を表し、かつ前記音声データ・シーケンスを生成する手 段は、 前記音声データ・シーケンスの生成における量子化ベクトルの前記識別され た文字列にインバース線形予測フィルタを適用する手段を含むことを特徴とする 請求項16に記載の装置。 22.前記量子化ベクトルは、サウンド・セグメント・データのピッチ・フィル タリングの結果の量子化を表し、かつ前記音声データ・シーケンスを生成する手 段は、 前記音声データ・シーケンスの生成における量子化ベクトルの前記識別され た文字列にインバース・ピッチ・フィルタを適用する手段を含むことを特徴とす る請求項16に記載の装置。 23.前記量子化ベクトルは、サウンド・セグメント・データのピッチ・フィル タリング及び線形予測フィルタリングの結果の量子化を表し、かつ前記音声デー タ・シーケンスを生成する手段は、 フィルタされたデータ・シーケンスを生成すべく前記音声データ・シーケン スの生成における量子化ベクトルの前記識別された文字列にインバース・ピッチ ・フィルタを適用する手段と、 前記音声データ・シーケンスの生成における前記フィルタされたデータ・シ ーケンスにインバース線形予測フィルタを適用する手段とを含むことを特徴とす る請求項16に記載の装置。 24.前記音声データ・シーケンスを生成する手段は、 量子化ベクトルの前記識別された文字列を連結しかつ前記連結された文字列 を前記音声データ・シーケンスに供給する手段を含むことを特徴とする請求項1 6に記載の装置。 25.量子化ベクトルの前記識別された文字列は、始まり及び終りを有し、音声 データ・シーケンスを生成する手段は、 シーケンスで量子化ベクトルの前記識別された文字列を対応するサウンド・ セグメント・コードに供給する手段と、 前記音声データ・シーケンスにおける特定及び隣接サウンド・セグメント・ コードの間の不連続性を円滑にするために一連の特定サウンド・セグメント・コ ードの量子化ベクトルの識別された文字列の終りを一連の隣接サウンド・セグメ ント・コードの量子化ベクトルの識別された文字列の始まりと混ぜ合わせる手段 とを含むことを特徴とする請求項16に記載の装置。 26.前記音声データ・シーケンスを生成する手段は、 前記サウンド・セグメント・コードに応答し、前記音声データ・シーケンス における量子化ベクトルの前記識別された文字列のピッチ及び持続時間を調整す る手段を含むことを特徴とする請求項16に記載の装置。 27.量子化ベクトルの前記識別された文字列は、始まり及び終りを有し、音声 データ・シーケンスを生成する手段は、 シーケンスで量子化ベクトルの前記識別された文字列を対応するサウンド・ セグメント・コードに供給する手段と、 前記音声データ・シーケンスにおける特定及び隣接サウンド・セグメント・ コードの間の不連続性を円滑にするために一連の特定サウンド・セグメント・コ ードの量子化ベクトルの識別された文字列の終りを一連の隣接サウンド・セグメ ント・コードの量子化ベクトルの識別された文字列の始まりと混ぜ合わせる手段 と、 前記サウンド・セグメント・コードに応答し、前記音声データ・シーケンス における量子化ベクトルの前記識別された文字列のピッチ及び持続時間を調整す る手段とを含むことを特徴とする請求項16に記載の装置。 28.復号に用いた前記一組のノイズ補償量子化ベクトルと異なる符号化セット の量子化ベクトルに対する記憶装置と、前記符号化セット及びサウンド・セグメ ント・データに応じて前記サウンド・セグメント・コードを生成する手段とを含 んでいるエンコーダを更に含むことを特徴とする請求項16に記載の装置。 29.前記エンコーダは、線形予測フィルタを更に含むことを特徴とする請求項 28に記載の装置。 30.前記エンコーダは、ピッチ・フィルタを更に含むことを特徴とする請求項 28に記載の装置。 31.前記エンコーダは、線形予測フィルタ及びピッチ・フィルタを更に含むこ とを特徴とする請求項28に記載の装置。 32.テキストに応じて音声を合成する装置であって、 音声データ・シーケンスを生成すべくルーチンを実行するプログラマブル・ プロセッサと、 前記プロセッサに結合され、前記音声データ・シーケンスに応じて音を生成 する音声変換器と、 前記プロセッサに結合され、一組のノイズ補償量子化ベクトル、及び対応す る二重単音に対して一組のノイズ補償量子化ベクトルの文字列を識別するデータ を含んでいるエントリーを有している符号化された二重単音のテーブルとを記憶 するテーブル・メモリと、 前記プロセッサに結合され、テキストを一連の二重単音インデックスに変換 すべく前記プロセッサによって実行される変換ルーチン、及び前記プロセッサに よって実行されるデコーダ・ルーチンを記憶する指令メモリを備え、 前記指令メモリは、 前記シーケンスにおける二重単音インデックスに応答し、前記テキストに対 して前記一組の量子化ベクトルの文字列を識別すべく前記符号化された二重単音 のテーブルをアクセスする手段と、 前記アクセスする手段及び前記メモリに結合され、量子化ベクトルの前記識 別された文字列を検索する手段と、 前記検索する手段に結合され、量子化ベクトルの前記識別された文字列に応 じて、始まり及び終りを有する二重単音データ文字列を生成する手段と、 前記検索する手段に結合され、量子化された音声データの円滑にされた文字 列を生成すべく前記特定及び隣接二重単音データ文字列の間の不連続性を円滑に するために一連の特定二重単音データ文字列の終りを一連の隣接二重単音デ ータ文字列の始まりと混ぜ合わせる手段と、 前記テキスト及び量子化された音声データの前記円滑にされた文字列に応答 し、前記音声変換器に供給するために前記サウンド・データ・シーケンスを生成 すべく一連の前記二重単音に対して量子化されたベクトルの前記識別された文字 列のピッチ及び持続時間を調整する手段を含んでいることを特徴とする装置。 33.前記サウンド・セグメント・コードは、第lの組の量子化ベクトルを用い て符号化されたデータを含み、かつ前記一組のノイズ補償量子化ベクトルは、前 記第1の組の量子化ベクトルと異なることを特徴とする請求項32に記載の装置 。 34.前記ノイズ補償量子化ベクトルは、フィルタされたサウンド・セグメント ・データの量子化を表し、かつ前記音声データ・シーケンスを生成する手段は、 前記音声データ・シーケンスの生成における前記ノイズ補償量子化ベクトルの識 別された文字列にインバース・フィルタを適用する手段を含み、前記インバース ・フィルタは、あらゆる積算が前記インバース・フィルタのアプリケーションに おいて移動及び/または加算動作によって置き換えられるように選択されたパラ メータを含むことを特徴とする請求項32に記載の装置。 35.前記量子化ベクトルは、フィルタされたサウンド・セグメント・データの 量子化を表し、かつ前記二重単音データ文字列を生成する手段は、 量子化ベクトルの前記識別された文字列にインバース・フィルタを適用する 手段を含むことを特徴とする請求項32に記載の装置。 36.前記量子化ベクトルは、サウンド・セグメント・データの線形予測フィル タリングの結果の量子化を表し、かつ前記二重単音データ文字列を生成する手段 は、 量子化ベクトルの前記識別された文字列にインバース線形予測フィルタを適 用する手段を含むことを特徴とする請求項32に記載の装置。 37.前記量子化ベクトルは、サウンド・セグメント・データのピッチ・フィル タリングの結果の量子化を表し、かつ前記二重単音データ文字列を生成する手段 は、 量子化ベクトルの前記識別された文字列にインバース・ピッチ・フィルタを 適用する手段を含むことを特徴とする請求項32に記載の装置。 38.前記量子化ベクトルは、サウンド・セグメント・データのピッチ・フィル タリング及び線形予測フィルタリングの結果の量子化を表し、かつ前記二重単音 データ文字列を生成する手段は、 フィルタされたデータ・シーケンスを生成するために量子化ベクトルの前記 識別された文字列にインバース・ピッチ・フィルタを適用する手段と、 前記フィルタされたデータ・シーケンスにインバース線形予測フィルタを適 用する手段とを含むことを特徴とする請求項32に記載の装置。
JP6517160A 1993-01-21 1994-01-18 ベクトル量子化ベース音声符号化/複号化を用いたテキスト−音声合成システム Pending JPH08505959A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US719193A 1993-01-21 1993-01-21
US08/007,191 1993-01-21
PCT/US1994/000649 WO1994017518A1 (en) 1993-01-21 1994-01-18 Text-to-speech system using vector quantization based speech encoding/decoding

Publications (1)

Publication Number Publication Date
JPH08505959A true JPH08505959A (ja) 1996-06-25

Family

ID=21724732

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6517160A Pending JPH08505959A (ja) 1993-01-21 1994-01-18 ベクトル量子化ベース音声符号化/複号化を用いたテキスト−音声合成システム

Country Status (6)

Country Link
US (1) US5717827A (ja)
EP (1) EP0680654B1 (ja)
JP (1) JPH08505959A (ja)
AU (1) AU6125194A (ja)
DE (1) DE69413002T2 (ja)
WO (1) WO1994017518A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010181892A (ja) * 1998-08-24 2010-08-19 Mindspeed Technologies Inc 音声符号化用ゲイン平滑化

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6240384B1 (en) * 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
US6961700B2 (en) 1996-09-24 2005-11-01 Allvoice Computing Plc Method and apparatus for processing the output of a speech recognition engine
US6094634A (en) * 1997-03-26 2000-07-25 Fujitsu Limited Data compressing apparatus, data decompressing apparatus, data compressing method, data decompressing method, and program recording medium
US6055566A (en) * 1998-01-12 2000-04-25 Lextron Systems, Inc. Customizable media player with online/offline capabilities
JPH11265195A (ja) * 1998-01-14 1999-09-28 Sony Corp 情報配信システム、情報送信装置、情報受信装置、情報配信方法
US6230135B1 (en) 1999-02-02 2001-05-08 Shannon A. Ramsay Tactile communication apparatus and method
US7369994B1 (en) * 1999-04-30 2008-05-06 At&T Corp. Methods and apparatus for rapid acoustic unit selection from a large speech corpus
US6385581B1 (en) 1999-05-05 2002-05-07 Stanley W. Stephenson System and method of providing emotive background sound to text
WO2001004874A1 (en) * 1999-07-08 2001-01-18 Koninklijke Philips Electronics N.V. Adaptation of a speech recognizer from corrected text
JP2001109489A (ja) * 1999-08-03 2001-04-20 Canon Inc 音声情報処理方法、装置および記憶媒体
US7386450B1 (en) * 1999-12-14 2008-06-10 International Business Machines Corporation Generating multimedia information from text information using customized dictionaries
US6801931B1 (en) 2000-07-20 2004-10-05 Ericsson Inc. System and method for personalizing electronic mail messages by rendering the messages in the voice of a predetermined speaker
US7035794B2 (en) * 2001-03-30 2006-04-25 Intel Corporation Compressing and using a concatenative speech database in text-to-speech systems
US7010488B2 (en) * 2002-05-09 2006-03-07 Oregon Health & Science University System and method for compressing concatenative acoustic inventories for speech synthesis
FR2839791B1 (fr) * 2002-05-15 2004-10-22 Frederic Laigle Assistant personnel informatique et phonologique pour aveugle ou malvoyant
US6988068B2 (en) * 2003-03-25 2006-01-17 International Business Machines Corporation Compensating for ambient noise levels in text-to-speech applications
US7805307B2 (en) 2003-09-30 2010-09-28 Sharp Laboratories Of America, Inc. Text to speech conversion system
CN1332365C (zh) * 2004-02-18 2007-08-15 陈德卫 一种实现音频和文本信息同步控制的方法和装置
US20070011009A1 (en) * 2005-07-08 2007-01-11 Nokia Corporation Supporting a concatenative text-to-speech synthesis
KR20090122143A (ko) * 2008-05-23 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US8660195B2 (en) * 2010-08-10 2014-02-25 Qualcomm Incorporated Using quantized prediction memory during fast recovery coding

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4384169A (en) * 1977-01-21 1983-05-17 Forrest S. Mozer Method and apparatus for speech synthesizing
US4692941A (en) * 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system
US4852168A (en) * 1986-11-18 1989-07-25 Sprague Richard P Compression of stored waveforms for artificial speech
US4833718A (en) * 1986-11-18 1989-05-23 First Byte Compression of stored waveforms for artificial speech
US5125030A (en) * 1987-04-13 1992-06-23 Kokusai Denshin Denwa Co., Ltd. Speech signal coding/decoding system based on the type of speech signal
US4980916A (en) * 1989-10-26 1990-12-25 General Electric Company Method for improving speech quality in code excited linear predictive speech coding
EP0515709A1 (en) * 1991-05-27 1992-12-02 International Business Machines Corporation Method and apparatus for segmental unit representation in text-to-speech synthesis
JPH05188994A (ja) * 1992-01-07 1993-07-30 Sony Corp 騒音抑圧装置
US5353374A (en) * 1992-10-19 1994-10-04 Loral Aerospace Corporation Low bit rate voice transmission for use in a noisy environment

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010181892A (ja) * 1998-08-24 2010-08-19 Mindspeed Technologies Inc 音声符号化用ゲイン平滑化

Also Published As

Publication number Publication date
WO1994017518A1 (en) 1994-08-04
US5717827A (en) 1998-02-10
AU6125194A (en) 1994-08-15
EP0680654A1 (en) 1995-11-08
EP0680654B1 (en) 1998-09-02
DE69413002T2 (de) 1999-05-06
DE69413002D1 (de) 1998-10-08

Similar Documents

Publication Publication Date Title
US5490234A (en) Waveform blending technique for text-to-speech system
EP0689706B1 (en) Intonation adjustment in text-to-speech systems
JPH08505959A (ja) ベクトル量子化ベース音声符号化/複号化を用いたテキスト−音声合成システム
US4625286A (en) Time encoding of LPC roots
US6240384B1 (en) Speech synthesis method
AU2005207606B2 (en) Corpus-based speech synthesis based on segment recombination
US20070106513A1 (en) Method for facilitating text to speech synthesis using a differential vocoder
KR100304682B1 (ko) 음성 코더용 고속 여기 코딩
EP0380572A4 (en) Generating speech from digitally stored coarticulated speech segments
JPH0869299A (ja) 音声符号化方法、音声復号化方法及び音声符号化復号化方法
JPH096397A (ja) 音声信号の再生方法、再生装置及び伝送方法
WO2003028009A1 (en) Perceptually weighted speech coder
US4703505A (en) Speech data encoding scheme
EP0515709A1 (en) Method and apparatus for segmental unit representation in text-to-speech synthesis
Lefebvre et al. 8 kbit/s coding of speech with 6 ms frame-length
US7092878B1 (en) Speech synthesis using multi-mode coding with a speech segment dictionary
KR100477224B1 (ko) 위상 정보 저장 및 검색 방법 및 이를 이용한 단위 음소코딩 방법
JP2001154683A (ja) 音声合成装置とその方法及び音声合成プログラムを記録した記録媒体
KR100624545B1 (ko) 티티에스 시스템의 음성압축 및 합성방법
JP3218680B2 (ja) 有声音合成方法
CN114220414A (zh) 语音合成方法以及相关装置、设备
JPH09258796A (ja) 音声合成方法
Yazu et al. The speech synthesis system for an unlimited Japanese vocabulary
JPH05265486A (ja) 音声分析合成方法
KR0133467B1 (ko) 한국어 음성 합성기의 벡터 양자화 방법