JP2010092059A - 可変率音声符号化に基づいた音声合成装置 - Google Patents
可変率音声符号化に基づいた音声合成装置 Download PDFInfo
- Publication number
- JP2010092059A JP2010092059A JP2009250670A JP2009250670A JP2010092059A JP 2010092059 A JP2010092059 A JP 2010092059A JP 2009250670 A JP2009250670 A JP 2009250670A JP 2009250670 A JP2009250670 A JP 2009250670A JP 2010092059 A JP2010092059 A JP 2010092059A
- Authority
- JP
- Japan
- Prior art keywords
- rate
- speech
- variable rate
- variable
- kbps
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 32
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 20
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 20
- 238000004891 communication Methods 0.000 claims description 32
- 238000005259 measurement Methods 0.000 claims 2
- 230000033001 locomotion Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Mobile Radio Communication Systems (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Devices For Executing Special Programs (AREA)
Abstract
【課題】可変率音声符号化に基づく音声合成のための装置および方法を提供する。
【解決手段】入力音声信号は可変率ボコーダ202により符号化され、音声信号のパラメータはメモリに記憶される。音声を合成するため、可変率復号器208は音声標本を生成すべくパラメータを復号する。コーデック210は音声標本をディジタル信号からアナログ信号に変換し、このアナログ信号がスピーカ212を介して放送される。
【選択図】図2
【解決手段】入力音声信号は可変率ボコーダ202により符号化され、音声信号のパラメータはメモリに記憶される。音声を合成するため、可変率復号器208は音声標本を生成すべくパラメータを復号する。コーデック210は音声標本をディジタル信号からアナログ信号に変換し、このアナログ信号がスピーカ212を介して放送される。
【選択図】図2
Description
本発明は音声合成に係わる。特に、本発明は可変率ボコーダ(音声分析合成装置)により符号化された音声の合成に関する。さらに、本発明は無線通信装置を備えた音声合成の利用に関する。
電子音声合成は多くの応用で有用である。ますます、コンピュータおよびその他電子装置がユーザインタフェースとして音声即答オプションを備えようとしている。例えば、電子メールメッセージを読んだり、音声応答システムにおいて話し言葉を生成したり、または自動車の運転者に方向を指示したりするために、音声が役立っている。
音声を作るために使用される音声合成装置または技術には二つの種類がある。第一の種類はテキスト対音声(text−to−speech)(TTS)の音声合成装置に属するもので、文法に基づくものである。TTSシステムは普通のテキストをわかりやすい自然音声に変換する。これは任意の入力テキストをわかりやすい自然音声出力に変換するための自動変換を必要とする用途に有用である。特に、沢山の語彙および/または刻々変化するデータがあるときは有効である。TTSは自動音声警報や応答、校正、データベースへの電話アクセス、および電子メールの音声メールまたはオーディオ出力への変換などを提供するような用途に有用である。TTSは柔軟性があり強力であるため、多くの用途に役立っている。しかしながら、TTSシステムの実装には巨大なメモリ容量と処理能力が必要である。また音声合成装置が人間の音声の抑揚をきちんと真似ないと機械口調になってしまう。したがって、TTSは、小さな可搬無線装置、遠方に設置された通信装置またはコンピュータ等といった、限られたメモリ容量や処理能力をもつ用途には実用的な選択とはいえない。
音声合成装置の第二の種類はボイスコーダ(ボコーダ)に基づくものである。ボコーダは人間の音声発生モデルに関するパラメータを抽出することにより、音声、またはオーディオ信号を圧縮する。ボコーダは、毎秒64キロビット(kbps)の割合でディジタル変換された入力音声を13kbps、8kbps、またはそれ以下の低率に圧縮するために開発されたものである。ボコーダに基づいた音声合成装置は合成される音声の、または音声のためのあるパラメータを生成する。このパラメータはある種のメモリ、好ましくはフラッシュ型メモリに記憶され、音声合成に基づいて復号化される。合成された全ての語のパラメータはメモリに記憶させなければならないため、ボコーダに基づく音声合成装置は大量の語彙を必要としない用途にさらに適している。この音声合成装置は特に限られたメモリ容量と処理能力をもつシステムに適している。
ボコーダに基づく音声合成装置では、良好な音声品質を保持しながらメモリの使用を最適化する必要がある。ある用途に対しては、与えられたメモリ容量に対して語彙数を最大化することが望ましい。さらに、音声合成を行うために与えられた通信システム設計の中で既に利用されている信号処理資源を使用することも望ましい。これらの、そしてその他の特性を有する音声合成装置は以下に記述される本発明により提供される。
本発明は可変率音声符号化に基づく音声合成のための装置および方法である。合成される音声は可変率音声ボコーダにより符号化される。可変率ボコーダは音声フレーム内で起こる音声の動きに基づいて一組の所定率の一つで音声フレームを符号化する。一実施例では、可変率ボコーダは4ビット率をもつ符号励起線形予測(CELP)符号器である。このようにして入力音声信号は選択した率でのCELP符号化法(scheme)により四つの率の一つで音声パラメータに符号化される。音声パラメータは、一般に、使用する可変率符号化法に対応する可変率復号化法を実行する復号器に供される。復号器は音声標本を生成し、それは符号器−復号器またはディジタル対アナログ変換のコーデックに供給される。コーデックにより発生される結果としてのアナログ信号は、その後、合成された音声としてスピーカまたは他の知られたオーディオ出力装置を通して放送される。
本発明の音声合成装置は可変率音声符号化が既に行われている無線通信システムにおける使用に特に適している。これらのシステムにおいては、既存の音声符号化資源を音声合成に使用することが可能である。代わりに、音声合成装置機能を提供するため、既に有りまた容易に取付けられるDSP素子を、小容量のメモリと共に使用することができる。加えて、可変率音声符号化に基づく音声合成装置は大容量のメモリを必要とすることなく良好な音声品質を提供することができる。可変率音声ボコーダにより提供される圧縮レベルは限られたメモリをもつ用途に適している。
本発明の特徴、目的、および長所は、全体を通して同様の参照符号は対応するものを示す図面と共に、以下に述べる詳細な説明からさらに明らかになる。
本発明は無線通信装置と共に用いて非常に有用な音声合成装置および音声合成方法を提供する。この発明は、無線通信装置における既存の信号処理資源を利用し、または高音声品質を提供し、且つ小メモリ容量を必要とする仕方で音声を合成するために最小の付加ハードウェアを利用することができる。
本発明は種々の既知の通信装置と共に使用するとき非常に有用であり、CDMA無線通信システムに関して以下に述べる。また、本発明は、乗り物に無線装置を搭載し、動作させるために用いられるハンドフリーのカー・キットのような特殊の用途に特に好適である。しかしながら、この分野に精通した者は、このことが本発明を限定するものではないこと、および有線の電信線、または光ケーブルシステムおいて通信する装置、および他の信号変調技術を用いる装置を含む他の型の通信装置とともに使用できることを容易に理解するであろう。
典型的な無線通信システムはコード分割多重アクセス(CDMA)変調技術を使用している。時分割多重アクセス(TDMA)、周波数分割多重アクセス(FDMA)、および振幅圧伸単側帯(amplitude companded single sideband)(ACSSB)等の振幅変調(AM)など、他の技術が知られているが、CDMAはこれら他の技術に対して大きな利点を有する。多重アクセス通信システムにおいてCDMA技術を使用することは、本発明の権利人に帰属し、参考文献としてここに組みこまれた米国特許第4,901,307号「衛星または地上リピータを用いたスペクトラム拡散多重アクセス通信システム」に開示されている。
種々の理由で音声合成装置は無線通信装置および設備に実装することができる。例えば、音声合成は無線電話の音声認識システムまたは乗り物における動作を援助するのに用いる“ハンドフリー”カー・キットの一部である。音声合成装置は装置の使用者または運転者が装置上の出力スクリ−ンまたは指示装置を観察できないとき、可聴形式で情報を提供することができる。例えば、乗り物の運転手または機械の運転者が近寄って通信装置を安全に見ることができないときに装置運転または出力するように情報を供給することができる。音声合成装置はまた実行すべき作業について音声指示を与えることにより装置のハンドフリー操作を許容するものでもある。例えば、音声合成装置は、装置に電話番号を自動的にダイヤルさせて呼ぶべき人の名を尋ねたり、ダイヤルしたり、記憶したり、メールを開いたり、呼出をやめたり、または切断(シャットダウン)するなど、実施される命令(コマンド)を尋ねることが可能である。
一実施例において本発明は、無線電話および音声を生成するため通信サービス加入者が利用する他の製品などのいくつかの無線装置において既存のボコーダ回路を使用している。特に、本発明の音声合成装置は可変率ボコーダに基づいている。可変率ボコーダは瞬間のデータ率を変えるために音声の動きを利用する。音声に動きのあるときは、ボコーダ符号化装置は音声標本を符号化するために多くのビット数を使用する。無音の期間では、ボコーダ符号化装置は背景雑音を符号化するために少数の、またはそれ以下のビット数を使用する。可変率ボコーダの典型的実施例は、本発明の権利人に帰属し、参考文献としてここに組みこまれた米国特許第5,414,796号「可変率ボコーダ」に記載されている。
可変率ボコーダはそれぞれの通信信号により一般に用いられるビット数を減らすことによりシステムの能力を増やすためCDMA型通信システムにおいて一般に使用されている。可変率ボコーダは、例えば、前述の特許第4,901,307号のCDMA型通信システムに実装することが可能である。CDMA型通信システムにおいては、他のユーザが同じ帯域を使用するが、別のコードチャンネルを使用して通信する。CDMA型通信システムの可変率ボコーダは、ユーザがある所定のチャンネルで時間の約40%を実際に話しているという事実を利用している。ユーザが話してないときは僅かのビットを送ることにより、可変率ボコーダはさらに多くのユーザが同じ帯域を分け合うようにする。
代表的な可変率ボコーダの概略ブロック図を図1に示し、全体的に100で表す。図1に示すボコーダは四個の異なるデータ率を用いているが、この分野では周知のように、その代わりに違う数のデータ率を採用してもよいことは理解すべきことである。四個のデータ率の組で、最高の率を13.2kbpsとすると、全率は13.2kbpsに対応し、1/2率は約6.2kbpsに対応し、1/4率は約2.7kbpsに対応し、そして1/8率は約1.0kbpsに対応する。全率以外の実際のビット率は、この技術分野では周知であるように、オーバーヘッド・ビットを使うため近似である。
図1を参照すると、可変率ボコーダ100は符号器102と復号器104からなる。符号器102は入力として、例えば、mu−則(mu−law)またはa−則(a−law)フォーマットの64kbpsのデータ率での8−ビットPCM標本として、音声データのフレームのための音声標本を受信する。符号器102はこれらの音声標本を音声の動きにしたがって四個のデータ率の一つで音声パラメータに符号化する。入力音声標本は率決定部106にも供給される。
率決定部106はいくつかの率決定アルゴリズムを備えている。一実施例においては、背景雑音エネルギレベルに関するエネルギ閾値が音声の動きを決め、それにより入力標本が符号化される率を決定するために用いられる。音声標本の現時点のフレームが背景雑音エネルギの遙か上にあれば、率決定部106はフレームを全率で符号化するように決定する。音声標本の現時点のフレームが背景雑音エネルギに近ければ、周知のように、率決定部106はフレームを八分の一率、等々で符号化するように決定する。
本発明の権利人に帰属し、参考文献としてここに組みこまれた継続中の米国特許出願No.08/286,842「率を減少した可変率音声符号化を行う方法および装置」に、他の率決定技術が開示されている。この技術はモードメジャー(measure)と呼ばれる率決定基準の組を提供する。第一のモードメジャーは前の符号化フレームからの標的マッチング信号対雑音比(target matching signal to noise ratio)(TMSNR)で、合成音声信号を入力信号と比較することにより符号化モデルが如何に旨く実行されるかの情報を提供する。第二のモードメジャーは正規化自己相関関数(normalized autocorrelation function)(NACF)で、音声フレームの周期性を計測する。第三のモードメジャーは零交差(zero crossings)(ZC)パラメータで、入力音声フレームの高周波成分を計測する。第四のモードメジャー、予測利得微分(prediction gain differential)(PGD)は符号器が予測効率を維持するかどうかを決定する。第五のモードメジャーはエネルギ微分(energy differential)(ED)で、現フレームのエネルギを平均フレームエネルギと比較する。
前述のモードメジャーを用いて、率決定論理は入力音声データについて符号化率を選択する。種々のモードについての値は作動すべき四またはそれ以上のモードの一つを選択する。即ち、閾値または他の基準に関する各モードメジャーについて検出された値は、予め選択されたパターンまたは階層に基づいて符号化率の選択を決定する。例えば、NACFの値が予め選択された閾値より小さく、ZCが第二の予め選択された閾値より大きければ一つの率が選択される。しかしながら、これらの条件は合わないけれどもEDが第三の閾値より低ければ、四分の一率が選択される。TSNRの値が大きく、PGDが小さく、そしてNACFが第四、第五、および第六の閾値よりそれぞれ大きければ、二分の一率が選択される。種々のこのような組み合わせ及び閾値はこの技術に精通した者により符号化率を選択するために使用されている。
また他の率決定技術が率決定部106に採用されてもよいことを理解されたい。
なお図1を参照すると、率決定部106により決定されたデータ率を示す信号はスイッチ108に供給される。スイッチ108は、データ信号により指定される、全率符号化部110、二分の一率符号化部112、四分の一率符号化部114、および八分の一率符号化部116の中から入力音声標本のフレームを符号化するための符号化部を選択する。選択された符号化部は符号化データ・パケットの信号を生成するため音声標本を符号化する。率決定部106は、スイッチ108と同様に同じ符号化部を選択するスイッチ118にデータ率を示す信号を供給し、そのため選択された符号化部により生成された符号化データ・パケットの信号は可変率ボコーダの出力に供給される。
各符号化部110、112、114,および116は所定の符号化法を用いて音声を符号化するために配置されている。符号励起線形予測(Code Excited Linear Predictive))(CELP)などの線形予測符号化法が好ましい実施例で使用されている。CELP符号器は、Proceeding of Mobile Satellite Conference 1998に掲載のThomas E.Tremain他の論文「4.8Kbps符号励起線形予測符号器」に記述されている。線形予測符号化装置は音声に固有の本来ある冗長性を取り除くことにより音声を圧縮する。音声は唇や舌の機械的運動による短期間の冗長性と、声帯の振動による長期間の冗長性を一般に示す。線形予測法はこれらの動作をフィルタとしてモデル化し、冗長性を取り除き、それから結果としての残余信号を白色ガウス雑音としてモデル化する。それ故、線形予測コーダは、全帯域幅音声信号よりむしろ、フィルタ係数および量子化雑音を伝送することにより、減少されたビット率達成する。
可変率を採用した線形予測符号化法は音声の品質と妥協することなくビット率をさらに低減する。図1において、全率符号化部110は、入力の特性をよく保持するために多くのビットを使用して入力音声信号のパラメータを符号化する。音声が検出されない期間は取込むべき内容または有用な情報が殆どないため、八分の一率符号化部116は少ないビット数を用いてパラメータを符号化する。動きのある音声の期間と音声が検出されない期間の間の変化は二分の一率符号化部112および四分の一率符号化部114により符号化される。
さて可変率ボコーダの復号部を参照すると、復号器104は、音声を符号化するために使用された率を示す信号とともに、符号化された音声パラメータの信号を受信する。率抽出部128はこの入力信号を受信し、音声のデータ率を決定する。データ率の信号は、入力パラメータを正しく復号するため復号部の組から復号部を選択するスイッチ130に供給される。図1において、四個の復号部、即ち、全率復号部120、二分の一率復号部122、四分の一率復号部124、および八分の一率復号部126が四つの可能な率で音声パラメータを復号するために用意されている。選択された復号部は、一般に64kbpsパルス符号変調(PCM)標本である、復号された標本の信号を生成するためデータ率に基づいて入力パラメータを復号する。率抽出部128により決定されたデータ率の信号はスイッチ132に供給される。スイッチ132はスイッチ130と同様に同じ復号部を選択し、その結果復号された標本の信号がボコーダの出力に供給される。
図2を参照すると、可変率ボコーダを備えた本発明の原理にしたがって動作する音声合成システムのブロック図が示されている。この音声合成システムは可変率符号器202および音声合成器204からなる。可変率符号器202の例は図1の符号器102である。可変率符号器202は入力として音声信号を受信し、そして所定の率の組の一つで音声を符号化する。好ましい実施例では、可変率符号器202は音声の入力分節における音声の動きに基づく率の一つで音声パラメータを生成するCELP符号器である。
本発明は、市販の、例えば、クァルコム社からの13kbpsボコーダ製品のような、米国特許第5,414,796号に記載されている可変率ボコーダを使用する。好ましい一実施例においては、可変率ボコーダはIS127規格について記述されている高性能可変率ボコーダである。
本発明の一実施例では、符号化率決定は上記で論じた“モードメジャー”に基づいている。率選択をするのに用いる基準の種々の組み合わせは“低減された率モード”または“モード”と呼ばれるものを作るのに使用され、そしてこの技術分野に精通する者には理解されているように、さらに単純にモード0、モード1、モード2、等々として参照される。本発明は音声合成の目的のためにこのようなモードを利用することができる。
可変率符号器202により受信された音声は、電話、カー・キット、または他の通信装置などの通信装置が合成するために設計される予め選択された語彙からの単語または語句である。語彙は装置のユーザに与えるべきプロンプト(prompt)や警告などを含む。例えば、五個の語彙単語:`call´、`redial´、`program´、`or´および`exit´を抽出、合成することにより、音声合成は、ユーザからの応答の誘導において、`call、redial、program、or、exit´のプロンプトを提供すべく設計することが可能である。代わりとして、音声合成装置は、オーディオを含むいろいろな装置の入力に応答して装置ユーザに、電話帳、ルックアップ表、またはデータベースにおけるように、以前に記憶させた情報を提供すべく設計することもできる。可変率符号器202により受信された音声は符号化され、そして符号化されたパラメータは記憶のために音声合成装置204のメモリ素子または回路206に供給される。
メモリ206は所望の装置の動作の或る時間にわたってパラメータを保持または記憶する。しかしながら、語彙が、条件を変えるために変えられたり、または装置の特性に対して改良する必要があるときのように、パラメータを改良したり置き換えたりするように記憶したパラメータを一般には持つことが望ましい。したがって、メモリ206は不揮発性でかつ再書込み可能なメモリの形態で配置され、この分野では周知のようにフラッシュ型メモリ素子を用いて達成される。
当業者が認識するであろうように、パラメータの装填動作は本発明が用いられる通信装置の製造の間に実行されうる。合成されるべきプロンプトおよび警告は予め決められているから、これらは製造時に符号化され、使用に先立ってフラッシュメモリに記憶することができる。パラメータは、装置のサービス中、または無線装置のために新規に開発された空中プログラミング技術を介して、変えたり、置き換えができる。
代わりに、可変率符号器202は通信装置の動作中に音声信号入力を受信することができる。例えば、音声合成装置からのプロンプトに対して、ユーザは音声応答をすることができる。可変率符号器202はそのときユーザの音声を符号化し、そして符号化されたパラメータは記憶のためのフラッシュメモリ206に供給され、および/または音声認識の目的のために(図示されていない)音声認識装置に供給される。このようにして、パラメータは、そのユーザの要求に関して、装置が直ちに有効なサービスに入るか、または終わったときなど、各装置(ボコーダ)ユーザのための個人語彙ライブラリを築くことによるなど、入力後の製造物である。
フラッシュメモリ206はユーザから予想される音声のパラメータと同様に予め選択された語彙のパラメータを記憶するに十分な容量である。このように、フラッシュメモリ206の容量は特殊な用途の要求に基づいて変更することができる。製造後の記憶は、製造者が全体の大きな装置マーケットを包含するためにインストールしなければならないものに比べて各装置ユーザがそれほど多量の語彙を必要としないところでメモリ要求を低減する利点を有する。音声合成装置は、対象または所望の語句または音声の終点を検出し、無音または冗長性を除去し、そしてそれを符号化することにより、`Fred Smith´のような名前または他の語を記録できる。したがって、音声は“オン・ライン”で記録され、そして後で音声出力を合成するために利用することができる。
可変率符号器202は入手可能なメモリおよび要求される音声品質に基づいて配置することができることに注目すべきである。全率が13kbpsである四つの率をもつシステムにおいて、平均率は40%の音声の動きに基づくと一般に5.88kbpsである。可変率の利用は高音声品質を提供する。しかしながら、メモリ容量が制限されると、可変率符号器202は、例えば、毎秒約800バイトの固定二分の一率で動作すべく配置することになる。そうでなければ、全体の率の組の代わりに所定の率の組の部分セットから選択するようになる。例えば、先に論じた低減した率モードは種々のモードを選択するのに使用できる。本発明の一実施例においては、率はモード0、1、2、及び3を付けた、四つのモードの組に分類される。このモードにしたがって固定の率を用いると、毎秒1800バイト程度の率、毎秒1540バイトの率、毎秒1400バイト、および毎秒1100バイトの率をそれぞれ使用することができる。そのような固定の低減された率を使うと予め定義されたデータ率を与えられた非常に高品質の音声の配送ができ、地上通信線の品質に近づけることができる。これらの四つのモードは合成音声品質とメモリの要請の間に最良の見返り条件(トレードオフ)を提供する。
さらに、可変率符号器202は、用途の瞬時の要請に基づいていろいろな動作モード(可変率、全二分の一率、可変率の部分セット、等々)の間を切り替えることができる。音声品質とメモリ容量の間には見返り条件(トレードオフ)があるため、採用される構成は実装される用途に依存する。
フラッシュメモリ206に記憶された音声パラメータは、音声合成が要求されると可変率復号器208に供給される。可変率復号器208は、対応する可変率符号器202により生成された音声パラメータを復号するために配置される。可変率復号器の例は図1の復号器104である。
一般に、可変率復号器208は通信装置の中で使用されているディジタル信号プロセッサ(DSP)の一部として組み込まれることになる。このようなDSPは信号の符号化/復号化、CDMA符号化、電力調整等のための制御素子を構成するものとしてまたはそのために使用される。そのような素子は一般に無線装置、および発明が提供するところの多数の他の装置で使用されるから、本発明に非常に効率的な費用で組み込むためにそれらの存在を利用することができる。
本発明のための復号化機能を持たせるために、小容量のメモリのみDSPに必要であり、またはDSPに接続される。DSP内のまたはDSPを用いたスタンドアローンの復号器は音声合成能力を得るために非常に小容量のメモリ(プログラムとデータの両方で)を必要とする。音声合成装置は、アナログ・デバイス社およびクァルコム社から市販されているような周知のDSP回路およびデバイスを用いて組み込むことができる。
一般的にパルス符号変調(PCM)標本の形式の復号化パラメータはコーデック210に供給される。コーデック210はPCM標本をディジタル形式からアナログ信号に変換する。アナログ信号は、周囲の可聴装置環境に合成した音声を出したりまたは放送するスピーカまたは他の周知のオーディオ出力装置212に供給される。
それゆえ、可変率音声符号化に基づく音声合成装置が本発明により提供される。この音声合成装置は、既に可変率ボコーダを有する無線装置で使用するのに特に適している。言い換えれば、既存の可変率ボコーダは、プログラムまたは操作命令における適当な変更または制御ハードウェアの使用を通して音声合成装置により採用される。加えて、可変率符号化の使用により、達成される圧縮は、無線装置またはそれが接続される他の装置に付随する限られた容量のメモリに予め決められた語彙を記憶させることができる。さらに、音声品質とメモリ容量の間のトレードオフは、所望の音声品質とメモリ容量を備えた音声合成装置を提供するために可変率ボコーダを配置するときに考慮することができる。
本発明は種々の通信装置およびインターフェース装置に使用することができる。上記の実施例は、ユーザ端末、加入者電話、移動(モバイル)ステーション、または簡単に、“ユーザ”、“モバイル”、または“加入者”としてしばしば引用される、セルラおよび衛星電話のような無線通信装置に関して述べられている。他に、例えば、メッセージ受信機およびデータ伝送装置(例えば、ポータブル・コンピュータ、個人情報端末(PDA)、モデム、機械制御器)、または公衆電話網または専用通信回線など、他の装置も考えられる。
本発明は、所望の装置内に取付ける音声合成装置を構成するために専用素子または特定用途向けIC(ASIC)の形で別回路を用いて実装することができる。代わりに、既存のディジタル信号プロセッサ素子と動作させるため小容量の付加メモリを使用することにより他のASICおよびデバイスの中に組み込むことができる。
好ましい実施例の前の記述はこの分野に精通する人が誰でも本発明をなし或いは用いることを可能にする。これらの実施例に対する種々の改良はこの分野に精通する者には明白であり、この中で定義されている原理は独創能力を用いることなしに他の実施例に適用することができる。かくして、本発明はこの中に示された実施例に限定されるものではなく、この中に開示されているその原理および新規な特徴と両立する広範な分野に及ぶものである。
Claims (23)
- 可変率符号器により符号化された音声パラメータを記憶するためのメモリと;
復号化音声標本を生成するため前記音声パラメータを復号するための可変率復号器と;
前記音声標本を、合成音声として放送するためのアナログ信号に変換するディジタル対アナログ変換器と;
を備えた、無線通信システムにおける音声合成のための装置。 - 前記可変率符号器は線形予測に基づくものである、請求項1の装置。
- 前記可変率復号器は線形予測に基づくものである、請求項1の装置。
- 前記音声パラメータは、全率、二分の一率、四分の一率、および八分の一率からなる可変率の組にて符号化される、請求項1の装置。
- 前記全率は13.2kbpsであり、前記二分の一率は約6.2kbpsであり、前記四分の一率は約2.7kbpsであり、前記八分の一率は約1.0kbpsである、請求項4の装置。
- 前記音声パラメータは一またはそれ以上の計測モード基準に応じて固定された率で符号化される、請求項4の装置。
- 前記音声パラメータは前記二分の一率にて固定された率で符号化される、請求項4の装置。
- 前記符号化率は、音声の品質および前記メモリの容量の要求条件に従って選択される、請求項4の装置。
- 前記無線通信システムはCDMAシステムである、請求項1の装置。
- 音声を前記音声パラメータに符号化するための可変率符号器をさらに備えた、請求項1の装置。
- 前記可変率符号器は、予め選択された語彙に属する音声を符号化する、請求項10の装置。
- 前記可変率符号器は高性能化された可変率符号器である、請求項10の装置。
- メモリに記憶された音声パラメータであって、可変率符号化法を用いて符号化された前記音声パラメータを引き出すステップと;
復号された音声標本を生成するため可変率符号化法を用いて前記音声パラメータを復号するステップと;
前記音声標本を合成音声として放送するためのアナログ信号に変換するステップと;
を備えた、無線通信システムにおける音声合成のための方法。 - 前記可変率符号化法は線形予測に基づくものである、請求項13の方法。
- 前記可変率復号法は線形予測に基づくものである、請求項13の方法。
- 前記音声パラメータは、全率、二分の一率、四分の一率、および八分の一率からなる可変率の組にて符号化される、請求項13の方法。
- 前記全率は13.2kbpsであり、前記二分の一率は約6.2kbpsであり、前記四分の一率は約2.7kbpsであり、前記八分の一率は約1.0kbpsである、請求項16の方法。
- 前記音声パラメータは、一またはそれ以上の計測モード基準に応じて固定された率にて符号化される、請求項16の方法。
- 前記音声パラメータは前記二分の一率にて固定された率で符号化される、請求項16の方法。
- 前記符号化率は、音声の品質および前記メモリの容量の要求条件に従って選択される、請求項16の方法。
- 前記無線通信システムはCDMAシステムである、請求項13の方法。
- 入力音声信号を前記音声パラメータに符号化するステップをさらに備えた、請求項13の方法。
- 前記符号化のステップは予め選択された語彙に属する音声を符号化する、請求項22の方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US24660599A | 1999-02-08 | 1999-02-08 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000597796A Division JP4503853B2 (ja) | 1999-02-08 | 2000-02-04 | 可変率音声符号化に基づいた音声合成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010092059A true JP2010092059A (ja) | 2010-04-22 |
Family
ID=22931374
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000597796A Expired - Fee Related JP4503853B2 (ja) | 1999-02-08 | 2000-02-04 | 可変率音声符号化に基づいた音声合成装置 |
JP2009250670A Pending JP2010092059A (ja) | 1999-02-08 | 2009-10-30 | 可変率音声符号化に基づいた音声合成装置 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000597796A Expired - Fee Related JP4503853B2 (ja) | 1999-02-08 | 2000-02-04 | 可変率音声符号化に基づいた音声合成装置 |
Country Status (10)
Country | Link |
---|---|
EP (1) | EP1159738B1 (ja) |
JP (2) | JP4503853B2 (ja) |
KR (1) | KR100648872B1 (ja) |
CN (1) | CN1212604C (ja) |
AT (1) | ATE322731T1 (ja) |
AU (1) | AU3589100A (ja) |
DE (1) | DE60027140T2 (ja) |
ES (1) | ES2263459T3 (ja) |
HK (1) | HK1042980B (ja) |
WO (1) | WO2000046795A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4867076B2 (ja) * | 2001-03-28 | 2012-02-01 | 日本電気株式会社 | 音声合成用圧縮素片作成装置、音声規則合成装置及びそれらに用いる方法 |
KR100425982B1 (ko) * | 2001-12-29 | 2004-04-06 | 엘지전자 주식회사 | 아이엠티-2000 망의 음성 데이터 속도 변경 방법 |
KR100651731B1 (ko) * | 2003-12-26 | 2006-12-01 | 한국전자통신연구원 | 가변 프레임 음성 부호화/복호화 장치 및 그 방법 |
CN101692685B (zh) * | 2009-10-29 | 2012-05-30 | 中国电信股份有限公司 | 一种彩铃音质改善的方法和系统 |
JP5677470B2 (ja) * | 2011-02-03 | 2015-02-25 | パナソニックIpマネジメント株式会社 | 音声読上げ装置、音声出力装置、音声出力システム、音声読上げ方法および音声出力方法 |
CN106952651A (zh) * | 2017-02-17 | 2017-07-14 | 福建星网智慧科技股份有限公司 | 一种语音处理装置传输语音的方法以及系统 |
US11404045B2 (en) | 2019-08-30 | 2022-08-02 | Samsung Electronics Co., Ltd. | Speech synthesis method and apparatus |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997018643A1 (en) * | 1995-11-15 | 1997-05-22 | Qualcomm Incorporated | Fast power control in a variable data rate mobile cmda communication system |
WO1998045966A2 (en) * | 1997-04-08 | 1998-10-15 | Qualcomm Incorporated | Method of and apparatus for scheduling data transmissions in a communication network |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0331858B1 (en) * | 1988-03-08 | 1993-08-25 | International Business Machines Corporation | Multi-rate voice encoding method and device |
DE69232202T2 (de) * | 1991-06-11 | 2002-07-25 | Qualcomm Inc | Vocoder mit veraendlicher bitrate |
JP3081300B2 (ja) * | 1991-10-01 | 2000-08-28 | 三洋電機株式会社 | 残差駆動型音声合成装置 |
TW271524B (ja) * | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
JPH08263099A (ja) * | 1995-03-23 | 1996-10-11 | Toshiba Corp | 符号化装置 |
US5790957A (en) * | 1995-09-12 | 1998-08-04 | Nokia Mobile Phones Ltd. | Speech recall in cellular telephone |
DE29717372U1 (de) * | 1997-09-29 | 1997-11-27 | Siemens AG, 80333 München | Integrierter Schaltkreis für ein mobiles Funkgerät mit Anrufbeantworterfunktion |
-
2000
- 2000-02-04 KR KR1020017009887A patent/KR100648872B1/ko not_active IP Right Cessation
- 2000-02-04 EP EP00914511A patent/EP1159738B1/en not_active Expired - Lifetime
- 2000-02-04 WO PCT/US2000/002900 patent/WO2000046795A1/en active IP Right Grant
- 2000-02-04 AU AU35891/00A patent/AU3589100A/en not_active Abandoned
- 2000-02-04 DE DE60027140T patent/DE60027140T2/de not_active Expired - Lifetime
- 2000-02-04 AT AT00914511T patent/ATE322731T1/de not_active IP Right Cessation
- 2000-02-04 CN CNB00803589XA patent/CN1212604C/zh not_active Expired - Fee Related
- 2000-02-04 JP JP2000597796A patent/JP4503853B2/ja not_active Expired - Fee Related
- 2000-02-04 ES ES00914511T patent/ES2263459T3/es not_active Expired - Lifetime
-
2002
- 2002-06-27 HK HK02104772.4A patent/HK1042980B/zh not_active IP Right Cessation
-
2009
- 2009-10-30 JP JP2009250670A patent/JP2010092059A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997018643A1 (en) * | 1995-11-15 | 1997-05-22 | Qualcomm Incorporated | Fast power control in a variable data rate mobile cmda communication system |
WO1998045966A2 (en) * | 1997-04-08 | 1998-10-15 | Qualcomm Incorporated | Method of and apparatus for scheduling data transmissions in a communication network |
JP2001519123A (ja) * | 1997-04-08 | 2001-10-16 | クゥアルコム・インコーポレイテッド | 通信ネットワークのデータ転送のスケジューリング方法及び装置 |
Also Published As
Publication number | Publication date |
---|---|
HK1042980B (zh) | 2005-12-23 |
ES2263459T3 (es) | 2006-12-16 |
ATE322731T1 (de) | 2006-04-15 |
WO2000046795A1 (en) | 2000-08-10 |
WO2000046795A9 (en) | 2001-10-18 |
EP1159738A1 (en) | 2001-12-05 |
AU3589100A (en) | 2000-08-25 |
CN1347548A (zh) | 2002-05-01 |
HK1042980A1 (en) | 2002-08-30 |
JP2002536693A (ja) | 2002-10-29 |
EP1159738B1 (en) | 2006-04-05 |
KR20020012157A (ko) | 2002-02-15 |
CN1212604C (zh) | 2005-07-27 |
JP4503853B2 (ja) | 2010-07-14 |
KR100648872B1 (ko) | 2006-11-24 |
DE60027140D1 (de) | 2006-05-18 |
DE60027140T2 (de) | 2007-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6631139B2 (en) | Method and apparatus for interoperability between voice transmission systems during speech inactivity | |
JP5543405B2 (ja) | フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ | |
JP4444749B2 (ja) | 減少レート、可変レートの音声分析合成を実行する方法及び装置 | |
KR100574031B1 (ko) | 음성합성방법및장치그리고음성대역확장방법및장치 | |
US6324503B1 (en) | Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions | |
JP2010092059A (ja) | 可変率音声符号化に基づいた音声合成装置 | |
JP2006502426A (ja) | ソース制御された可変ビットレート広帯域音声の符号化方法および装置 | |
JP2006099124A (ja) | デジタル無線チャネル上の自動音声/話者認識 | |
US5251261A (en) | Device for the digital recording and reproduction of speech signals | |
ZA200302468B (en) | Apparatus for bandwidth expansion of a speech signal. | |
JP2009193073A (ja) | 望ましくないパケット生成を減少する方法および装置 | |
US20060235685A1 (en) | Framework for voice conversion | |
KR20010022714A (ko) | 음성 부호화 장치 및 음성 복호화 장치 | |
TWI326447B (en) | Method and information processing system for quantizing class information and pitch information of audio, and method in distributed speech recognition system | |
JP2001242896A (ja) | 音声符号化/復号装置およびその方法 | |
KR101011320B1 (ko) | 스피치를 저장, 전송 및 재생하기 위하여 포즈 프레임을 식별하여 제외하는 방법 및 장치 | |
KR100498177B1 (ko) | 신호양자화기 | |
KR101164834B1 (ko) | 제 1 비트 레이트와 연관된 제 1 패킷을 제 2 비트 레이트와 연관된 제 2 패킷으로 디밍하는 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111206 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120508 |