JP2010092059A

JP2010092059A - 可変率音声符号化に基づいた音声合成装置

Info

Publication number: JP2010092059A
Application number: JP2009250670A
Authority: JP
Inventors: Chienchung Chang; チエンチュン・チャン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1999-02-08
Filing date: 2009-10-30
Publication date: 2010-04-22
Also published as: HK1042980B; ES2263459T3; ATE322731T1; WO2000046795A1; WO2000046795A9; EP1159738A1; AU3589100A; CN1347548A; HK1042980A1; JP2002536693A; EP1159738B1; KR20020012157A; CN1212604C; JP4503853B2; KR100648872B1; DE60027140D1; DE60027140T2

Abstract

【課題】可変率音声符号化に基づく音声合成のための装置および方法を提供する。
【解決手段】入力音声信号は可変率ボコーダ２０２により符号化され、音声信号のパラメータはメモリに記憶される。音声を合成するため、可変率復号器２０８は音声標本を生成すべくパラメータを復号する。コーデック２１０は音声標本をディジタル信号からアナログ信号に変換し、このアナログ信号がスピーカ２１２を介して放送される。
【選択図】図２

Description

本発明は音声合成に係わる。特に、本発明は可変率ボコーダ（音声分析合成装置）により符号化された音声の合成に関する。さらに、本発明は無線通信装置を備えた音声合成の利用に関する。

電子音声合成は多くの応用で有用である。ますます、コンピュータおよびその他電子装置がユーザインタフェースとして音声即答オプションを備えようとしている。例えば、電子メールメッセージを読んだり、音声応答システムにおいて話し言葉を生成したり、または自動車の運転者に方向を指示したりするために、音声が役立っている。

音声を作るために使用される音声合成装置または技術には二つの種類がある。第一の種類はテキスト対音声(text−to−speech)（ＴＴＳ）の音声合成装置に属するもので、文法に基づくものである。ＴＴＳシステムは普通のテキストをわかりやすい自然音声に変換する。これは任意の入力テキストをわかりやすい自然音声出力に変換するための自動変換を必要とする用途に有用である。特に、沢山の語彙および／または刻々変化するデータがあるときは有効である。ＴＴＳは自動音声警報や応答、校正、データベースへの電話アクセス、および電子メールの音声メールまたはオーディオ出力への変換などを提供するような用途に有用である。ＴＴＳは柔軟性があり強力であるため、多くの用途に役立っている。しかしながら、ＴＴＳシステムの実装には巨大なメモリ容量と処理能力が必要である。また音声合成装置が人間の音声の抑揚をきちんと真似ないと機械口調になってしまう。したがって、ＴＴＳは、小さな可搬無線装置、遠方に設置された通信装置またはコンピュータ等といった、限られたメモリ容量や処理能力をもつ用途には実用的な選択とはいえない。

音声合成装置の第二の種類はボイスコーダ（ボコーダ）に基づくものである。ボコーダは人間の音声発生モデルに関するパラメータを抽出することにより、音声、またはオーディオ信号を圧縮する。ボコーダは、毎秒６４キロビット（ｋｂｐｓ）の割合でディジタル変換された入力音声を１３ｋｂｐｓ、８ｋｂｐｓ、またはそれ以下の低率に圧縮するために開発されたものである。ボコーダに基づいた音声合成装置は合成される音声の、または音声のためのあるパラメータを生成する。このパラメータはある種のメモリ、好ましくはフラッシュ型メモリに記憶され、音声合成に基づいて復号化される。合成された全ての語のパラメータはメモリに記憶させなければならないため、ボコーダに基づく音声合成装置は大量の語彙を必要としない用途にさらに適している。この音声合成装置は特に限られたメモリ容量と処理能力をもつシステムに適している。

ボコーダに基づく音声合成装置では、良好な音声品質を保持しながらメモリの使用を最適化する必要がある。ある用途に対しては、与えられたメモリ容量に対して語彙数を最大化することが望ましい。さらに、音声合成を行うために与えられた通信システム設計の中で既に利用されている信号処理資源を使用することも望ましい。これらの、そしてその他の特性を有する音声合成装置は以下に記述される本発明により提供される。

本発明は可変率音声符号化に基づく音声合成のための装置および方法である。合成される音声は可変率音声ボコーダにより符号化される。可変率ボコーダは音声フレーム内で起こる音声の動きに基づいて一組の所定率の一つで音声フレームを符号化する。一実施例では、可変率ボコーダは４ビット率をもつ符号励起線形予測（ＣＥＬＰ）符号器である。このようにして入力音声信号は選択した率でのＣＥＬＰ符号化法（ｓｃｈｅｍｅ）により四つの率の一つで音声パラメータに符号化される。音声パラメータは、一般に、使用する可変率符号化法に対応する可変率復号化法を実行する復号器に供される。復号器は音声標本を生成し、それは符号器−復号器またはディジタル対アナログ変換のコーデックに供給される。コーデックにより発生される結果としてのアナログ信号は、その後、合成された音声としてスピーカまたは他の知られたオーディオ出力装置を通して放送される。

本発明の音声合成装置は可変率音声符号化が既に行われている無線通信システムにおける使用に特に適している。これらのシステムにおいては、既存の音声符号化資源を音声合成に使用することが可能である。代わりに、音声合成装置機能を提供するため、既に有りまた容易に取付けられるＤＳＰ素子を、小容量のメモリと共に使用することができる。加えて、可変率音声符号化に基づく音声合成装置は大容量のメモリを必要とすることなく良好な音声品質を提供することができる。可変率音声ボコーダにより提供される圧縮レベルは限られたメモリをもつ用途に適している。

本発明の特徴、目的、および長所は、全体を通して同様の参照符号は対応するものを示す図面と共に、以下に述べる詳細な説明からさらに明らかになる。

図１は、可変率ボコーダのブロック図である。図２は、本発明の音声合成装置のブロック図である

発明の詳細な説明

本発明は無線通信装置と共に用いて非常に有用な音声合成装置および音声合成方法を提供する。この発明は、無線通信装置における既存の信号処理資源を利用し、または高音声品質を提供し、且つ小メモリ容量を必要とする仕方で音声を合成するために最小の付加ハードウェアを利用することができる。

本発明は種々の既知の通信装置と共に使用するとき非常に有用であり、ＣＤＭＡ無線通信システムに関して以下に述べる。また、本発明は、乗り物に無線装置を搭載し、動作させるために用いられるハンドフリーのカー・キットのような特殊の用途に特に好適である。しかしながら、この分野に精通した者は、このことが本発明を限定するものではないこと、および有線の電信線、または光ケーブルシステムおいて通信する装置、および他の信号変調技術を用いる装置を含む他の型の通信装置とともに使用できることを容易に理解するであろう。

典型的な無線通信システムはコード分割多重アクセス（ＣＤＭＡ）変調技術を使用している。時分割多重アクセス（ＴＤＭＡ）、周波数分割多重アクセス（ＦＤＭＡ）、および振幅圧伸単側帯(amplitude companded single sideband)（ＡＣＳＳＢ）等の振幅変調（ＡＭ）など、他の技術が知られているが、ＣＤＭＡはこれら他の技術に対して大きな利点を有する。多重アクセス通信システムにおいてＣＤＭＡ技術を使用することは、本発明の権利人に帰属し、参考文献としてここに組みこまれた米国特許第４，９０１，３０７号「衛星または地上リピータを用いたスペクトラム拡散多重アクセス通信システム」に開示されている。

種々の理由で音声合成装置は無線通信装置および設備に実装することができる。例えば、音声合成は無線電話の音声認識システムまたは乗り物における動作を援助するのに用いる“ハンドフリー”カー・キットの一部である。音声合成装置は装置の使用者または運転者が装置上の出力スクリ−ンまたは指示装置を観察できないとき、可聴形式で情報を提供することができる。例えば、乗り物の運転手または機械の運転者が近寄って通信装置を安全に見ることができないときに装置運転または出力するように情報を供給することができる。音声合成装置はまた実行すべき作業について音声指示を与えることにより装置のハンドフリー操作を許容するものでもある。例えば、音声合成装置は、装置に電話番号を自動的にダイヤルさせて呼ぶべき人の名を尋ねたり、ダイヤルしたり、記憶したり、メールを開いたり、呼出をやめたり、または切断（シャットダウン）するなど、実施される命令（コマンド）を尋ねることが可能である。

一実施例において本発明は、無線電話および音声を生成するため通信サービス加入者が利用する他の製品などのいくつかの無線装置において既存のボコーダ回路を使用している。特に、本発明の音声合成装置は可変率ボコーダに基づいている。可変率ボコーダは瞬間のデータ率を変えるために音声の動きを利用する。音声に動きのあるときは、ボコーダ符号化装置は音声標本を符号化するために多くのビット数を使用する。無音の期間では、ボコーダ符号化装置は背景雑音を符号化するために少数の、またはそれ以下のビット数を使用する。可変率ボコーダの典型的実施例は、本発明の権利人に帰属し、参考文献としてここに組みこまれた米国特許第５，４１４，７９６号「可変率ボコーダ」に記載されている。

可変率ボコーダはそれぞれの通信信号により一般に用いられるビット数を減らすことによりシステムの能力を増やすためＣＤＭＡ型通信システムにおいて一般に使用されている。可変率ボコーダは、例えば、前述の特許第４，９０１，３０７号のＣＤＭＡ型通信システムに実装することが可能である。ＣＤＭＡ型通信システムにおいては、他のユーザが同じ帯域を使用するが、別のコードチャンネルを使用して通信する。ＣＤＭＡ型通信システムの可変率ボコーダは、ユーザがある所定のチャンネルで時間の約４０％を実際に話しているという事実を利用している。ユーザが話してないときは僅かのビットを送ることにより、可変率ボコーダはさらに多くのユーザが同じ帯域を分け合うようにする。

代表的な可変率ボコーダの概略ブロック図を図１に示し、全体的に１００で表す。図１に示すボコーダは四個の異なるデータ率を用いているが、この分野では周知のように、その代わりに違う数のデータ率を採用してもよいことは理解すべきことである。四個のデータ率の組で、最高の率を１３．２ｋｂｐｓとすると、全率は１３．２ｋｂｐｓに対応し、１／２率は約６．２ｋｂｐｓに対応し、１／４率は約２．７ｋｂｐｓに対応し、そして１／８率は約１．０ｋｂｐｓに対応する。全率以外の実際のビット率は、この技術分野では周知であるように、オーバーヘッド・ビットを使うため近似である。

図１を参照すると、可変率ボコーダ１００は符号器１０２と復号器１０４からなる。符号器１０２は入力として、例えば、ｍｕ−則(mu−law)またはａ−則(a−law)フォーマットの６４ｋｂｐｓのデータ率での８−ビットＰＣＭ標本として、音声データのフレームのための音声標本を受信する。符号器１０２はこれらの音声標本を音声の動きにしたがって四個のデータ率の一つで音声パラメータに符号化する。入力音声標本は率決定部１０６にも供給される。

率決定部１０６はいくつかの率決定アルゴリズムを備えている。一実施例においては、背景雑音エネルギレベルに関するエネルギ閾値が音声の動きを決め、それにより入力標本が符号化される率を決定するために用いられる。音声標本の現時点のフレームが背景雑音エネルギの遙か上にあれば、率決定部１０６はフレームを全率で符号化するように決定する。音声標本の現時点のフレームが背景雑音エネルギに近ければ、周知のように、率決定部１０６はフレームを八分の一率、等々で符号化するように決定する。

本発明の権利人に帰属し、参考文献としてここに組みこまれた継続中の米国特許出願Ｎｏ．０８／２８６，８４２「率を減少した可変率音声符号化を行う方法および装置」に、他の率決定技術が開示されている。この技術はモードメジャー（ｍｅａｓｕｒｅ）と呼ばれる率決定基準の組を提供する。第一のモードメジャーは前の符号化フレームからの標的マッチング信号対雑音比(target matching signal to noise ratio)（ＴＭＳＮＲ）で、合成音声信号を入力信号と比較することにより符号化モデルが如何に旨く実行されるかの情報を提供する。第二のモードメジャーは正規化自己相関関数(normalized autocorrelation function)（ＮＡＣＦ）で、音声フレームの周期性を計測する。第三のモードメジャーは零交差(zero crossings)（ＺＣ）パラメータで、入力音声フレームの高周波成分を計測する。第四のモードメジャー、予測利得微分(prediction gain differential)（ＰＧＤ）は符号器が予測効率を維持するかどうかを決定する。第五のモードメジャーはエネルギ微分(energy differential)（ＥＤ）で、現フレームのエネルギを平均フレームエネルギと比較する。

前述のモードメジャーを用いて、率決定論理は入力音声データについて符号化率を選択する。種々のモードについての値は作動すべき四またはそれ以上のモードの一つを選択する。即ち、閾値または他の基準に関する各モードメジャーについて検出された値は、予め選択されたパターンまたは階層に基づいて符号化率の選択を決定する。例えば、ＮＡＣＦの値が予め選択された閾値より小さく、ＺＣが第二の予め選択された閾値より大きければ一つの率が選択される。しかしながら、これらの条件は合わないけれどもＥＤが第三の閾値より低ければ、四分の一率が選択される。ＴＳＮＲの値が大きく、ＰＧＤが小さく、そしてＮＡＣＦが第四、第五、および第六の閾値よりそれぞれ大きければ、二分の一率が選択される。種々のこのような組み合わせ及び閾値はこの技術に精通した者により符号化率を選択するために使用されている。

また他の率決定技術が率決定部１０６に採用されてもよいことを理解されたい。

なお図１を参照すると、率決定部１０６により決定されたデータ率を示す信号はスイッチ１０８に供給される。スイッチ１０８は、データ信号により指定される、全率符号化部１１０、二分の一率符号化部１１２、四分の一率符号化部１１４、および八分の一率符号化部１１６の中から入力音声標本のフレームを符号化するための符号化部を選択する。選択された符号化部は符号化データ・パケットの信号を生成するため音声標本を符号化する。率決定部１０６は、スイッチ１０８と同様に同じ符号化部を選択するスイッチ１１８にデータ率を示す信号を供給し、そのため選択された符号化部により生成された符号化データ・パケットの信号は可変率ボコーダの出力に供給される。

各符号化部１１０、１１２、１１４，および１１６は所定の符号化法を用いて音声を符号化するために配置されている。符号励起線形予測(Code Excited Linear Predictive))（ＣＥＬＰ）などの線形予測符号化法が好ましい実施例で使用されている。ＣＥＬＰ符号器は、ＰｒｏｃｅｅｄｉｎｇｏｆＭｏｂｉｌｅＳａｔｅｌｌｉｔｅＣｏｎｆｅｒｅｎｃｅ１９９８に掲載のＴｈｏｍａｓＥ．Ｔｒｅｍａｉｎ他の論文「４．８Ｋｂｐｓ符号励起線形予測符号器」に記述されている。線形予測符号化装置は音声に固有の本来ある冗長性を取り除くことにより音声を圧縮する。音声は唇や舌の機械的運動による短期間の冗長性と、声帯の振動による長期間の冗長性を一般に示す。線形予測法はこれらの動作をフィルタとしてモデル化し、冗長性を取り除き、それから結果としての残余信号を白色ガウス雑音としてモデル化する。それ故、線形予測コーダは、全帯域幅音声信号よりむしろ、フィルタ係数および量子化雑音を伝送することにより、減少されたビット率達成する。

可変率を採用した線形予測符号化法は音声の品質と妥協することなくビット率をさらに低減する。図１において、全率符号化部１１０は、入力の特性をよく保持するために多くのビットを使用して入力音声信号のパラメータを符号化する。音声が検出されない期間は取込むべき内容または有用な情報が殆どないため、八分の一率符号化部１１６は少ないビット数を用いてパラメータを符号化する。動きのある音声の期間と音声が検出されない期間の間の変化は二分の一率符号化部１１２および四分の一率符号化部１１４により符号化される。

さて可変率ボコーダの復号部を参照すると、復号器１０４は、音声を符号化するために使用された率を示す信号とともに、符号化された音声パラメータの信号を受信する。率抽出部１２８はこの入力信号を受信し、音声のデータ率を決定する。データ率の信号は、入力パラメータを正しく復号するため復号部の組から復号部を選択するスイッチ１３０に供給される。図１において、四個の復号部、即ち、全率復号部１２０、二分の一率復号部１２２、四分の一率復号部１２４、および八分の一率復号部１２６が四つの可能な率で音声パラメータを復号するために用意されている。選択された復号部は、一般に６４ｋｂｐｓパルス符号変調（ＰＣＭ）標本である、復号された標本の信号を生成するためデータ率に基づいて入力パラメータを復号する。率抽出部１２８により決定されたデータ率の信号はスイッチ１３２に供給される。スイッチ１３２はスイッチ１３０と同様に同じ復号部を選択し、その結果復号された標本の信号がボコーダの出力に供給される。

図２を参照すると、可変率ボコーダを備えた本発明の原理にしたがって動作する音声合成システムのブロック図が示されている。この音声合成システムは可変率符号器２０２および音声合成器２０４からなる。可変率符号器２０２の例は図１の符号器１０２である。可変率符号器２０２は入力として音声信号を受信し、そして所定の率の組の一つで音声を符号化する。好ましい実施例では、可変率符号器２０２は音声の入力分節における音声の動きに基づく率の一つで音声パラメータを生成するＣＥＬＰ符号器である。

本発明は、市販の、例えば、クァルコム社からの１３ｋｂｐｓボコーダ製品のような、米国特許第５，４１４，７９６号に記載されている可変率ボコーダを使用する。好ましい一実施例においては、可変率ボコーダはＩＳ１２７規格について記述されている高性能可変率ボコーダである。

本発明の一実施例では、符号化率決定は上記で論じた“モードメジャー”に基づいている。率選択をするのに用いる基準の種々の組み合わせは“低減された率モード”または“モード”と呼ばれるものを作るのに使用され、そしてこの技術分野に精通する者には理解されているように、さらに単純にモード０、モード１、モード２、等々として参照される。本発明は音声合成の目的のためにこのようなモードを利用することができる。

可変率符号器２０２により受信された音声は、電話、カー・キット、または他の通信装置などの通信装置が合成するために設計される予め選択された語彙からの単語または語句である。語彙は装置のユーザに与えるべきプロンプト(prompt)や警告などを含む。例えば、五個の語彙単語：｀ｃａｌｌ´、｀ｒｅｄｉａｌ´、｀ｐｒｏｇｒａｍ´、｀ｏｒ´および｀ｅｘｉｔ´を抽出、合成することにより、音声合成は、ユーザからの応答の誘導において、｀ｃａｌｌ、ｒｅｄｉａｌ、ｐｒｏｇｒａｍ、ｏｒ、ｅｘｉｔ´のプロンプトを提供すべく設計することが可能である。代わりとして、音声合成装置は、オーディオを含むいろいろな装置の入力に応答して装置ユーザに、電話帳、ルックアップ表、またはデータベースにおけるように、以前に記憶させた情報を提供すべく設計することもできる。可変率符号器２０２により受信された音声は符号化され、そして符号化されたパラメータは記憶のために音声合成装置２０４のメモリ素子または回路２０６に供給される。

メモリ２０６は所望の装置の動作の或る時間にわたってパラメータを保持または記憶する。しかしながら、語彙が、条件を変えるために変えられたり、または装置の特性に対して改良する必要があるときのように、パラメータを改良したり置き換えたりするように記憶したパラメータを一般には持つことが望ましい。したがって、メモリ２０６は不揮発性でかつ再書込み可能なメモリの形態で配置され、この分野では周知のようにフラッシュ型メモリ素子を用いて達成される。

当業者が認識するであろうように、パラメータの装填動作は本発明が用いられる通信装置の製造の間に実行されうる。合成されるべきプロンプトおよび警告は予め決められているから、これらは製造時に符号化され、使用に先立ってフラッシュメモリに記憶することができる。パラメータは、装置のサービス中、または無線装置のために新規に開発された空中プログラミング技術を介して、変えたり、置き換えができる。

代わりに、可変率符号器２０２は通信装置の動作中に音声信号入力を受信することができる。例えば、音声合成装置からのプロンプトに対して、ユーザは音声応答をすることができる。可変率符号器２０２はそのときユーザの音声を符号化し、そして符号化されたパラメータは記憶のためのフラッシュメモリ２０６に供給され、および／または音声認識の目的のために（図示されていない）音声認識装置に供給される。このようにして、パラメータは、そのユーザの要求に関して、装置が直ちに有効なサービスに入るか、または終わったときなど、各装置（ボコーダ）ユーザのための個人語彙ライブラリを築くことによるなど、入力後の製造物である。

フラッシュメモリ２０６はユーザから予想される音声のパラメータと同様に予め選択された語彙のパラメータを記憶するに十分な容量である。このように、フラッシュメモリ２０６の容量は特殊な用途の要求に基づいて変更することができる。製造後の記憶は、製造者が全体の大きな装置マーケットを包含するためにインストールしなければならないものに比べて各装置ユーザがそれほど多量の語彙を必要としないところでメモリ要求を低減する利点を有する。音声合成装置は、対象または所望の語句または音声の終点を検出し、無音または冗長性を除去し、そしてそれを符号化することにより、｀ＦｒｅｄＳｍｉｔｈ´のような名前または他の語を記録できる。したがって、音声は“オン・ライン”で記録され、そして後で音声出力を合成するために利用することができる。

可変率符号器２０２は入手可能なメモリおよび要求される音声品質に基づいて配置することができることに注目すべきである。全率が１３ｋｂｐｓである四つの率をもつシステムにおいて、平均率は４０％の音声の動きに基づくと一般に５．８８ｋｂｐｓである。可変率の利用は高音声品質を提供する。しかしながら、メモリ容量が制限されると、可変率符号器２０２は、例えば、毎秒約８００バイトの固定二分の一率で動作すべく配置することになる。そうでなければ、全体の率の組の代わりに所定の率の組の部分セットから選択するようになる。例えば、先に論じた低減した率モードは種々のモードを選択するのに使用できる。本発明の一実施例においては、率はモード０、１、２、及び３を付けた、四つのモードの組に分類される。このモードにしたがって固定の率を用いると、毎秒１８００バイト程度の率、毎秒１５４０バイトの率、毎秒１４００バイト、および毎秒１１００バイトの率をそれぞれ使用することができる。そのような固定の低減された率を使うと予め定義されたデータ率を与えられた非常に高品質の音声の配送ができ、地上通信線の品質に近づけることができる。これらの四つのモードは合成音声品質とメモリの要請の間に最良の見返り条件（トレードオフ）を提供する。

さらに、可変率符号器２０２は、用途の瞬時の要請に基づいていろいろな動作モード（可変率、全二分の一率、可変率の部分セット、等々）の間を切り替えることができる。音声品質とメモリ容量の間には見返り条件（トレードオフ）があるため、採用される構成は実装される用途に依存する。

フラッシュメモリ２０６に記憶された音声パラメータは、音声合成が要求されると可変率復号器２０８に供給される。可変率復号器２０８は、対応する可変率符号器２０２により生成された音声パラメータを復号するために配置される。可変率復号器の例は図１の復号器１０４である。

一般に、可変率復号器２０８は通信装置の中で使用されているディジタル信号プロセッサ（ＤＳＰ）の一部として組み込まれることになる。このようなＤＳＰは信号の符号化／復号化、ＣＤＭＡ符号化、電力調整等のための制御素子を構成するものとしてまたはそのために使用される。そのような素子は一般に無線装置、および発明が提供するところの多数の他の装置で使用されるから、本発明に非常に効率的な費用で組み込むためにそれらの存在を利用することができる。

本発明のための復号化機能を持たせるために、小容量のメモリのみＤＳＰに必要であり、またはＤＳＰに接続される。ＤＳＰ内のまたはＤＳＰを用いたスタンドアローンの復号器は音声合成能力を得るために非常に小容量のメモリ（プログラムとデータの両方で）を必要とする。音声合成装置は、アナログ・デバイス社およびクァルコム社から市販されているような周知のＤＳＰ回路およびデバイスを用いて組み込むことができる。

一般的にパルス符号変調（ＰＣＭ）標本の形式の復号化パラメータはコーデック２１０に供給される。コーデック２１０はＰＣＭ標本をディジタル形式からアナログ信号に変換する。アナログ信号は、周囲の可聴装置環境に合成した音声を出したりまたは放送するスピーカまたは他の周知のオーディオ出力装置２１２に供給される。

それゆえ、可変率音声符号化に基づく音声合成装置が本発明により提供される。この音声合成装置は、既に可変率ボコーダを有する無線装置で使用するのに特に適している。言い換えれば、既存の可変率ボコーダは、プログラムまたは操作命令における適当な変更または制御ハードウェアの使用を通して音声合成装置により採用される。加えて、可変率符号化の使用により、達成される圧縮は、無線装置またはそれが接続される他の装置に付随する限られた容量のメモリに予め決められた語彙を記憶させることができる。さらに、音声品質とメモリ容量の間のトレードオフは、所望の音声品質とメモリ容量を備えた音声合成装置を提供するために可変率ボコーダを配置するときに考慮することができる。

本発明は種々の通信装置およびインターフェース装置に使用することができる。上記の実施例は、ユーザ端末、加入者電話、移動（モバイル）ステーション、または簡単に、“ユーザ”、“モバイル”、または“加入者”としてしばしば引用される、セルラおよび衛星電話のような無線通信装置に関して述べられている。他に、例えば、メッセージ受信機およびデータ伝送装置（例えば、ポータブル・コンピュータ、個人情報端末（ＰＤＡ）、モデム、機械制御器）、または公衆電話網または専用通信回線など、他の装置も考えられる。

本発明は、所望の装置内に取付ける音声合成装置を構成するために専用素子または特定用途向けＩＣ（ＡＳＩＣ）の形で別回路を用いて実装することができる。代わりに、既存のディジタル信号プロセッサ素子と動作させるため小容量の付加メモリを使用することにより他のＡＳＩＣおよびデバイスの中に組み込むことができる。

好ましい実施例の前の記述はこの分野に精通する人が誰でも本発明をなし或いは用いることを可能にする。これらの実施例に対する種々の改良はこの分野に精通する者には明白であり、この中で定義されている原理は独創能力を用いることなしに他の実施例に適用することができる。かくして、本発明はこの中に示された実施例に限定されるものではなく、この中に開示されているその原理および新規な特徴と両立する広範な分野に及ぶものである。

Claims

可変率符号器により符号化された音声パラメータを記憶するためのメモリと；
復号化音声標本を生成するため前記音声パラメータを復号するための可変率復号器と；
前記音声標本を、合成音声として放送するためのアナログ信号に変換するディジタル対アナログ変換器と；
を備えた、無線通信システムにおける音声合成のための装置。
前記可変率符号器は線形予測に基づくものである、請求項１の装置。
前記可変率復号器は線形予測に基づくものである、請求項１の装置。
前記音声パラメータは、全率、二分の一率、四分の一率、および八分の一率からなる可変率の組にて符号化される、請求項１の装置。
前記全率は１３．２ｋｂｐｓであり、前記二分の一率は約６．２ｋｂｐｓであり、前記四分の一率は約２．７ｋｂｐｓであり、前記八分の一率は約１．０ｋｂｐｓである、請求項４の装置。
前記音声パラメータは一またはそれ以上の計測モード基準に応じて固定された率で符号化される、請求項４の装置。
前記音声パラメータは前記二分の一率にて固定された率で符号化される、請求項４の装置。
前記符号化率は、音声の品質および前記メモリの容量の要求条件に従って選択される、請求項４の装置。
前記無線通信システムはＣＤＭＡシステムである、請求項１の装置。
音声を前記音声パラメータに符号化するための可変率符号器をさらに備えた、請求項１の装置。
前記可変率符号器は、予め選択された語彙に属する音声を符号化する、請求項１０の装置。
前記可変率符号器は高性能化された可変率符号器である、請求項１０の装置。
メモリに記憶された音声パラメータであって、可変率符号化法を用いて符号化された前記音声パラメータを引き出すステップと；
復号された音声標本を生成するため可変率符号化法を用いて前記音声パラメータを復号するステップと；
前記音声標本を合成音声として放送するためのアナログ信号に変換するステップと；
を備えた、無線通信システムにおける音声合成のための方法。
前記可変率符号化法は線形予測に基づくものである、請求項１３の方法。
前記可変率復号法は線形予測に基づくものである、請求項１３の方法。
前記音声パラメータは、全率、二分の一率、四分の一率、および八分の一率からなる可変率の組にて符号化される、請求項１３の方法。
前記全率は１３．２ｋｂｐｓであり、前記二分の一率は約６．２ｋｂｐｓであり、前記四分の一率は約２．７ｋｂｐｓであり、前記八分の一率は約１．０ｋｂｐｓである、請求項１６の方法。
前記音声パラメータは、一またはそれ以上の計測モード基準に応じて固定された率にて符号化される、請求項１６の方法。
前記音声パラメータは前記二分の一率にて固定された率で符号化される、請求項１６の方法。
前記符号化率は、音声の品質および前記メモリの容量の要求条件に従って選択される、請求項１６の方法。
前記無線通信システムはＣＤＭＡシステムである、請求項１３の方法。
入力音声信号を前記音声パラメータに符号化するステップをさらに備えた、請求項１３の方法。
前記符号化のステップは予め選択された語彙に属する音声を符号化する、請求項２２の方法。