JP4503853B2 - Speech synthesizer based on variable rate speech coding - Google Patents
Speech synthesizer based on variable rate speech coding Download PDFInfo
- Publication number
- JP4503853B2 JP4503853B2 JP2000597796A JP2000597796A JP4503853B2 JP 4503853 B2 JP4503853 B2 JP 4503853B2 JP 2000597796 A JP2000597796 A JP 2000597796A JP 2000597796 A JP2000597796 A JP 2000597796A JP 4503853 B2 JP4503853 B2 JP 4503853B2
- Authority
- JP
- Japan
- Prior art keywords
- rate
- speech
- variable rate
- variable
- encoded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Abstract
Description
【0001】
発明の背景
I.発明の分野
本発明は音声合成に係わる。特に、本発明は可変率ボコーダ(音声分析合成装置)により符号化された音声の合成に関する。さらに、本発明は無線通信装置を備えた音声合成の利用に関する。
II.関連技術の説明
電子音声合成は多くの応用で有用である。コンピュータおよびその他電子装置がユーザインタフェースとして音声即答オプションをいよいよ備えようとしている。例えば、電子メールメッセージを読んだり、音声応答システムにおいて話し言葉を生成したり、または自動車の運転者に方向を指示したりするために、音声が役立っている。
【0002】
音声を作るために使用される音声合成装置または技術には二つの種類がある。第一の種類はテキスト対音声(TTS)の音声合成装置に属するもので、文法に基づくものである。TTSシステムは普通のテキストをわかりやすい自然音声に変換する。これは任意の入力テキストをわかりやすい自然音声出力に変換するための自動変換を必要とする用途に有用である。特に、沢山の語彙および/または刻々変化するデータがあるときは有効である。TTSは自動音声警報や応答、校正、データベースへの電話アクセス、および電子メールの音声メールまたはオーディオ出力への変換などを提供するような用途に有用である。TTSは柔軟性があり強力であるから、多くの用途に役立っている。しかしながら、TTSシステムの実装には巨大なメモリ容量と処理能力が必要である。また音声合成装置が人間の音声の抑揚をきちんと真似ないと機械口調になってしまう。したがって、TTSは、小さな可搬無線装置、遠方に設置された通信装置またはコンピュータ等といった、限られたメモリ容量や処理能力をもつ用途には実用的な選択とはいえない。
【0003】
音声合成装置の第二の種類はボイスコーダ(ボコーダ)に基づくものである。ボコーダは人間の音声発生モデルに関するパラメータを抽出することにより、音声、またはオーディオ信号を圧縮する。ボコーダは、毎秒64キロビット(kbps)の割合でディジタル変換された入力音声を13kbps、8kbps、またはそれ以下の低率に圧縮するために開発されたものである。ボコーダに基づいた音声合成装置は合成される音声の、または音声のためのあるパラメータを生成する。このパラメータはある種のメモリ、好ましくはフラッシュ型メモリに記憶され、音声合成に基づいて復号化される。合成された全ての語のパラメータはメモリに記憶させなければならないため、ボコーダに基づく音声合成装置は大量の語彙を必要としない用途にさらに適している。この音声合成装置は特に限られたメモリ容量と処理能力をもつシステムに適している。
【0004】
ボコーダに基づく音声合成装置では、良好な音声品質を保持しながらメモリの使用を最適化する必要がある。ある用途に対しては、与えられたメモリ容量に対して語彙数を最大化することが望ましい。さらに、音声合成を行うために与えられた通信システム設計の中で既に利用されている信号処理資源を使用することも望ましい。これらの、そしてその他の特性を有する音声合成装置は以下に記述される本発明により提供される。
【0005】
発明の概要
本発明は可変率音声符号化に基づく音声合成のための装置および方法である。合成される音声は可変率音声ボコーダにより符号化される。可変率ボコーダは音声フレーム内で起こる音声の動きに基づいて一組の所定率の一つで音声フレームを符号化する。一実施例では、可変率ボコーダは4ビット率をもつ符号励起線形予測(CELP)符号器である。このようにして入力音声信号は選択した率でのCELP符号化法(scheme)により四つの率の一つで音声パラメータに符号化される。音声パラメータは一般に使用する可変率符号化法に対応する可変率復号化法を実行する復号器に一般に用意されている。復号器は音声標本を生成し、それは符号器−復号器またはディジタル対アナログ変換のコーデックに供給される。コーデックにより発生される結果としてのアナログ信号は、それから、合成された音声としてスピーカまたは他の知られたオーディオ出力装置を通して放送される。
【0006】
本発明の音声合成装置は可変率音声符号化が既に行われている無線通信システムにおける使用に特に適している。これらのシステムにおいては、既存の音声符号化資源を音声合成に使用することが可能である。代わりに、音声合成装置機能を提供するため、既に有りまた容易に取付けられる、DSP素子を小容量のメモリと共に使用することができる。他に、可変率音声符号化に基づく音声合成装置は大容量のメモリを必要とすることなく良好な音声品質を提供することができる。可変率音声ボコーダにより提供される圧縮レベルは限られたメモリをもつ用途に適している。
【0007】
本発明の特徴、目的、および長所は、同様な参照符号が通して対応的に同一視する図面と共に、以下に述べる詳細な説明からさらに明らかになる。
【0008】
好ましい実施例の詳細な説明
本発明は無線通信装置と共に用いて非常に有用な音声合成装置および音声合成方法を提供する。この発明は、無線通信装置における既存の信号処理資源を利用し、または高音声品質を提供し、且つ小メモリ容量を必要とする仕方で音声を合成するために最小の付加ハードウェアを利用することができる。
【0009】
本発明は種々の既知の通信装置と共に使用するとき非常に有用であり、CDMA無線通信システムに関しては以下に述べる。他に、乗り物に無線装置を搭載し、動作させるのに用いられるハンドフリーのカー・キットのような、特殊の用途に特に好適である。しかしながら、この分野に精通した者は、このことが本発明を限定するものではないこと、および有線の電信線、または光ケーブルシステムにおいて通信する装置、および他の信号変調技術を用いる装置を含む他の型の通信装置と使用できることを直ちに理解するであろう。
【0010】
典型的な無線通信システムはコード分割多重アクセス(CDMA)変調技術を使用している。時分割多重アクセス(TDMA)、周波数分割多重アクセス(FDMA)、および振幅圧伸単側帯(ACSSB)等の振幅変調(AM)など、他の技術が知られているけれども、CDMAはこれら他の技術に対して大きな利点を有する。多重アクセス通信システムにおいてCDMA技術を使用することは、本発明の権利人に帰属し、参考文献としてここに組みこまれた米国特許第4,901,307号「衛星または地上リピータを用いたスペクトラム拡散多重アクセス通信システム」に開示されている。
【0011】
種々の理由で音声合成装置は無線通信装置および設備に実装することができる。例えば、音声合成は無線電話の音声認識システムまたは乗り物における動作を援助するのに用いる“ハンドフリー”カー・キットの一部である。音声合成装置は装置の使用者または運転者が装置上の出力スクリ−ンまたは指示装置を視ることができないとき可聴形式で情報を提供することができる。例えば、乗り物の運転手または機械の運転者が近寄って通信装置を安全に見ることができないときに装置運転または出力するように情報を供給することができる。音声合成装置はまた実行すべき作業について音声指示を与えることにより装置のハンドフリー操作を許容するものでもある。例えば、音声合成装置は、装置に電話番号を自動的にダイヤルさせて呼ぶべき人の名を尋ねたり、ダイヤルしたり、記憶したり、メールを開いたり、呼出をやめたり、または切断(シャットダウン)するなど、実装される命令(コマンド)を尋ねることが可能である。
【0012】
一実施例において本発明は、無線電話および音声を生成するため通信サービス加入者が利用する他の製品などのいくつかの無線装置において既存のボコーダ回路を使用している。特に、本発明の音声認識装置は可変率ボコーダに基づいている。可変率ボコーダは瞬間のデータ率を変えるため音声の動きを利用する。音声に動きのあるときは、ボコーダ符号化装置は音声標本を符号化するために多くのビット数を使用する。無音の期間では、ボコーダ符号化装置は背景雑音を符号化するために少数の、またはそれ以下のビット数を使用する。可変率ボコーダの典型的実施例は、本発明の権利人に帰属し、参考文献としてここに組みこまれた米国特許第5,414,796号「可変率ボコーダ」に記載されている。
【0013】
可変率ボコーダはそれぞれの通信信号により一般に用いられるビット数を減らすことによりシステムの能力を増やすためCDMA型通信システムにおいて一般に使用されている。可変率ボコーダは、例えば、前述の特許第4,901,307号のCDMA型通信システムに実装することが可能である。CDMA型通信システムにおいては、他のユーザが同じ帯域を使用するが、別のコードチャンネルを使用して通信する。CDMA型通信システムの可変率ボコーダは、ユーザがある所定のチャンネルで時間の約40%を実際に話しているという事実を利用している。ユーザが話してないときは僅かのビットを送ることにより、可変率ボコーダはさらに多くのユーザが同じ帯域を分け合うようにする。
【0014】
代表的な可変率ボコーダの概略ブロック図を図1に示し、全体的に100で表す。図1に示すボコーダは四個の異なるデータ率を用いているが、この分野では周知のように、その代わりに違う数のデータ率を採用してもよいことは理解すべきことである。四個のデータ率の組で、最高の率を13.2kbpsとすると、全率は13.2kbpsに対応し、1/2率は約6.2kbpsに対応し、1/4率は約2.7kbpsに対応し、そして1/8率は約1.0kbpsに対応する。全率以外の実際のビット率は、この技術分野では周知であるように、オーバーヘッド・ビットを使うため近似である。
【0015】
図1を参照すると、可変率ボコーダ100は符号器102と復号器104からなる。符号器102は入力として、例えば、mu−則またはa−則フォーマットの64kbpsのデータ率での8−ビットPCM標本として、音声データのフレームのための音声標本を受信する。符号器102はこれらの音声標本を音声の動きにしたがって四個のデータ率の一つで音声パラメータに符号化する。入力音声標本は率決定部106にも供給される。
【0016】
率決定部106はいくつかの率決定アルゴリズムを備えている。一実施例においては、背景雑音エネルギレベルに関するエネルギ閾値が音声の動きを決め、それにより入力標本が符号化される率を決定するために用いられる。音声標本の現時点のフレームが背景雑音エネルギの遙か上にあれば、率決定部106はフレームを全率で符号化するように決定する。音声標本の現時点のフレームが背景雑音エネルギに近ければ、周知のように、率決定部106はフレームを八分の一率、等々で符号化するように決定する。
【0017】
本発明の権利人に帰属し、参考文献としてここに組みこまれた継続中の米国特許出願No.08/286,842「率を減少した可変率音声符号化を行う方法および装置」に、他の率決定技術が開示されている。この技術はモードメジャー(measure)として参照される率決定基準の組を提供する。第一のモードメジャーは前の符号化フレームからの標的マッチング信号対雑音比(TMSNR)で、合成音声信号を入力信号と比較することにより符号化モデルが如何に旨く実行されるかの情報を提供する。第二のモードメジャーは正規化自己相関関数(NACF)で、音声フレームの周期性を計測する。第三のモードメジャーは零交差(ZC)パラメータで、入力音声フレームの高周波成分を計測する。第四のモードメジャー、予測利得微分(PGD)は符号器が予測効率を維持するかどうかを決定する。第五のモードメジャーはエネルギ微分(ED)で、現フレームのエネルギを平均フレームエネルギと比較する。
【0018】
前述のモードメジャーを用いて、率決定論理は入力音声データについて符号化率を選択する。種々のモードについての値は作動すべき四またはそれ以上のモードの一つを選択する。即ち、閾値または他の基準に関する各モードメジャーについて検出された値は予め選択されたパターンまたは階層に基づいて、符号化率の選択を決定する。例えば、NACFの値が予め選択された閾値より小さく、ZCが第二の予め選択された閾値より大きければ一つの率が選択される。しかしながら、これらの条件は合わないけれども、EDが第三の閾値より低ければ、四分の一率が選択される。TSNRの値が大きく、PGDが小さく、そしてNACFが第四、第五、および第六の閾値よりそれぞれ大きければ、二分の一率が選択される。種々のこのような組み合わせ及び閾値はこの技術に精通した者により符号化率を選択するために使用されている。
【0019】
また他の率決定技術が率決定部106に採用されてもよいことを知るべきである。
【0020】
なお図1を参照すると、率決定部106により決定されたデータ率を示す信号はスイッチ108に供給される。スイッチ108は、データ信号により指定される、全率符号化部110、二分の一率符号化部112、四分の一率符号化部114、および八分の一率符号化部116の中から入力音声標本のフレームを符号化するための符号化部を選択する。選択された符号化部は符号化データ・パケットの信号を生成するため音声標本を符号化する。率決定部106は、スイッチ108と同様に同じ符号化部を選択するスイッチ118にデータ率を示す信号を供給し、そのため選択された符号化部により生成された符号化データ・パケットの信号は可変率ボコーダの出力に供給される。
【0021】
各符号化部110、112、114,および116は所定の符号化法を用いて音声を符号化するために配置されている。符号励起線形予測(CELP)などの線形予測符号化法が好ましい実施例で使用されている。CELP符号器は、Proceeding of Mobile Satellite Conference 1998に掲載のThomas E.Tremain他の論文「4.8Kbps符号励起線形予測符号器」に記述されている。線形予測符号化装置は音声に固有の本来ある冗長性を取り除くことにより音声を圧縮する。音声は唇や舌の機械的運動による短期間の冗長性と、声帯の振動による長期間の冗長性を一般に示す。線形予測法はこれらの動作をフィルタとしてモデル化し、冗長性を取り除き、それから結果としての残余信号を白色ガウス雑音としてモデル化する。それ故、線形予測コーダは、伝送フィルタ係数により減少されたビット率、および全帯域幅音声信号よりむしろ量子化雑音を達成する。
【0022】
可変率を採用した線形予測符号化法は音声の品質と妥協することなくビット率をさらに低減する。図1において、全率符号化部110は、入力の特性をよく保持するために多くのビットを使用して入力音声信号のパラメータを符号化する。音声が検出されない期間は、取込むべき内容または有用な情報が殆どないから八分の一率符号化部116は少ないビット数を用いてパラメータを符号化する。動きのある音声の期間と音声が検出されない期間の間の変化は二分の一率符号化部112および四分の一率符号化部114により符号化される。
【0023】
さて可変率ボコーダの復号部を参照すると、復号器104は、音声を符号化するために使用する率を示す信号と同様に、符号化された音声パラメータの信号を受信する。率抽出部128はこの入力信号を受信し、音声のデータ率を決定する。データ率の信号は、入力パラメータを正しく復号するため復号部の組から復号部を選択するスイッチ130に供給される。図1において、四個の復号部、即ち、全率復号部120、二分の一率復号部122、四分の一率復号部124、および八分の一率復号部126が四つの可能な率で音声パラメータを復号するために用意されている。選択された復号部は、一般に64kbpsパルス符号変調(PCM)標本である、復号された標本の信号を生成するためデータ率に基づいて入力パラメータを復号する。率抽出部128により決定されたデータ率の信号はスイッチ132に供給される。スイッチ132はスイッチ130と同様に同じ復号部を選択し、その結果復号された標本の信号がボコーダの出力に供給される。
【0024】
図2を参照すると、可変率ボコーダを備えた本発明の原理にしたがって動作する音声合成システムのブロック図が示されている。この音声合成システムは可変率符号器202および音声合成器204からなる。可変率符号器202の例は図1の符号器102である。可変率符号器202は入力として音声信号を受信し、そして所定の率の組の一つで音声を符号化する。好ましい実施例では、可変率符号器202は音声の入力分節における音声の動きに基づく率の一つで音声パラメータを生成するCELP符号器である。
【0025】
本発明は、市販の、例えば、クァルコム社からの13kbpsボコーダ製品のような、米国特許第5,414,796号に記載されている可変率ボコーダを使用する。好ましい一実施例においては、可変率ボコーダはIS127規格について記述されている高性能可変率ボコーダである。
【0026】
本発明の一実施例では、符号化率決定は上記で論じた“モードメジャー”に基づいている。率選択をするのに用いる基準の種々の組み合わせは“低減された率モード”または“モード”と呼ばれるものを作るのに使用され、そしてこの技術分野に精通する者には理解されているように、さらに単純にモード0、モード1、モード2、等々として参照される。本発明は音声合成の目的のためにこのようなモードを利用することができる。
【0027】
可変率符号器202により受信された音声は、電話、カー・キット、または他の通信装置などの通信装置が合成するために設計される予め選択された語彙からの単語または語句である。語彙は装置のユーザに与えるべき即答や警告などを含むことがある。例えば、五個の語彙単語:`call´、`redial´、`program´、`or´および`exit´を抽出、合成することにより、音声合成は、ユーザからの応答の誘導において、`call、redial、program、or、exit´の即答を提供すべく設計することが可能である。代わりとして、音声合成装置は、オーディオを含むいろいろな装置の入力に応答して装置ユーザに、電話帳、ルックアップ表、またはデータベースにおけるように、以前に記憶させた情報を提供すべく設計することもできる。可変率符号器202により受信された音声は符号化され、そして符号化されたパラメータは記憶のために音声合成装置204のメモリ素子または回路206に供給される。
【0028】
メモリ206は所望の装置の動作の或る時間にわたってパラメータを保持または記憶する。しかしながら、語彙が、条件を変えるために変えられたり、または装置の特性に対して改良する必要があるときのように、パラメータを改良したり置き換えたりするように記憶したパラメータを一般には持つことが望ましい。したがって、メモリ206は不揮発性でかつ再書込み可能なメモリの形態で配置され、この分野では周知のようにフラッシュ型メモリ素子を用いて達成される。
【0029】
人も認めるように、装填するパラメータの動作は本発明が用いられる通信装置の製造の間に実行される。合成される即答および警告は予め決められているから、これらは製造時に符号化され、使用に先立ってフラッシュメモリに記憶することができる。パラメータは、装置のサービス中、または無線装置のために新規に開発された空中プログラミング技術を介して、変えたり、置き換えができる。
【0030】
代わりに、可変率符号器202は通信装置の動作中に音声信号入力を受信することができる。例えば、音声合成装置からの即答に対して、ユーザは音声応答をすることができる。可変率符号器202はそのときユーザの音声を符号化し、そして符号化されたパラメータは記憶のためのフラッシュメモリ206に供給され、および/または音声認識の目的のために(図示されていない)音声認識装置に供給される。このようにして、パラメータは、そのユーザの要求に関して、装置が直ちに有効なサービスに入るか、または終わったときなど、各装置(ボコーダ)ユーザのための個人語彙ライブラリを築くことによるなど、入力後の製造物である。
【0031】
フラッシュメモリ206はユーザから予想される音声のパラメータと同様に予め選択された語彙のパラメータを記憶するに十分な容量である。このように、フラッシュメモリ206の容量は特殊な用途の要求に基づいて変更することができる。製造後の記憶は、製造者が全体の大きな装置マーケットを包含するためにインストールしなければならないものに比べて各装置ユーザがそれほど多量の語彙を必要としないところでメモリ要求を低減する利点を有する。音声合成装置は、対象または所望の語句または音声の終点を検出し、無音または冗長性を除去し、そしてそれを符号化することにより、`Fred Smith´のような名前または他の語を記録できる。したがって、音声は“オン・ライン”で記録され、そして後で音声出力を合成するために利用することができる。
【0032】
可変率符号器202は入手可能なメモリおよび要求される音声品質に基づいて配置することができることに注目すべきである。全率が13kbpsである四つの率をもつシステムにおいて、平均率は40%の音声の動きに基づくと一般に5.88kbpsである。可変率の利用は高音声品質を提供する。しかしながら、メモリ容量が制限されると、可変率符号器202は、例えば、毎秒約800バイトの固定二分の一率で動作すべく配置することになる。そうでなければ、全体の率の組の代わりに所定の率の組の部分セットから選択するようになる。例えば、先に論じた低減した率モードは種々のモードを選択するのに使用できる。本発明の一実施例においては、率はモード0、1、2、及び3を付けた、四つのモードの組に分類される。このモードにしたがって固定の率を用いると、毎秒1800バイト程度の率、毎秒1540バイトの率、毎秒1400バイト、および毎秒1100バイトの率をそれぞれ使用することができる。そのような固定の低減された率を使うと予め定義されたデータ率を与えられた非常に高品質の音声の配送ができ、地上通信線の品質に近づけることができる。これらの四つのモードは合成音声品質とメモリの要請の間に最良の見返り条件(トレードオフ)を提供する。
【0033】
さらに、可変率符号器202は、用途の瞬時の要請に基づいていろいろな動作モード(可変率、全二分の一率、可変率の部分セット、等々)の間を切り替えることができる。音声品質とメモリ容量の間には見返り条件(トレードオフ)があるため、採用される構成は実装される用途に依存する。
【0034】
フラッシュメモリ206に記憶された音声パラメータは、音声合成が要求されると可変率復号器208に供給される。可変率復号器208は、対応する可変率符号器202により生成された音声パラメータを復号するために配置される。可変率復号器の例は図1の復号器104である。
【0035】
一般に、可変率復号器208は通信装置の中で使用されているディジタル信号プロセッサ(DSP)の一部として組み込まれることになる。このようなDSPは信号の符号化/復号化、CDMA符号化、電力調整等のための制御素子を構成するものとしてまたはそのために使用される。そのような素子は一般に無線装置、および発明が提供するところの多数の他の装置で使用されるから、本発明に非常に効率的な費用で組み込むためにそれらの存在を利用することができる。
【0036】
本発明のための復号化機能を持たせるために、小容量のメモリのみDSPに必要であり、またはDSPに接続される。DSP内のまたはDSPを用いたスタンドアローンの復号器は音声合成能力を得るために非常に小容量のメモリ(プログラムとデータの両方で)を必要とする。音声合成装置は、アナログ・デバイス社およびクァルコム社から市販されているような周知のDSP回路およびデバイスを用いて組み込むことができる。
【0037】
一般的にパルス符号変調(PCM)標本の形式の復号化パラメータはコーデック210に供給される。コーデック210はPCM標本をディジタル形式からアナログ信号に変換する。アナログ信号はスピーカ、または周囲の可聴装置環境に合成した音声を出したりまたは放送する他の周知のオーディオ出力装置212に供給される。
【0038】
その結果、可変率音声符号化に基づく音声合成装置は本発明により提供される。この音声合成装置は、既に可変率ボコーダを有する無線装置で使用するのに特に適している。言い換えれば、適当な使用を通して音声合成装置により採用されている既存の可変率ボコーダは、プログラムまたは操作命令に、または制御ハードウェアの使用に変換する。ほかに、可変率符号化の使用により、達成される圧縮は、無線装置またはそれが接続される他の装置に付随する限られた容量のメモリに予め決められた語彙を記憶させることができる。さらに、音声品質とメモリ容量の間の見返り条件(トレードオフ)は、所望の音声品質とメモリ容量を備えた音声合成装置を提供するために可変率ボコーダを配置するとき考慮するものである。
【0039】
本発明は種々の通信装置およびインターフェース装置に使用することができる。上記の実施例は、ユーザ端末、加入者電話、移動(モバイル)ステーション、または簡単に、“ユーザ”、“モバイル”、または“加入者”としてしばしば引用される、セルラおよび衛星電話のような無線通信装置に関して述べられている。他に、例えば、メッセージ受信機およびデータ伝送装置(例えば、ポータブル・コンピュータ、個人情報端末(PDA)、モデム、機械制御器)、または公衆電話網または専用通信回線など、他の装置も考えられる。
【0040】
本発明は、所望の装置内に取付ける音声合成装置を構成するために専用素子または特定用途向けIC(ASIC)の形で別回路を用いて実装することができる。代わりに、既存のディジタル信号プロセッサ素子と動作させるため小容量の付加メモリを使用することにより他のASICおよびデバイスの中に組み込むことができる。
【0041】
好ましい実施例の前の記述はこの分野に精通する人が誰でも本発明をなし或いは用いることを可能にする。これらの実施例に対する種々の改良はこの分野に精通する者には明白であり、この中で定義されている原理は独創能力を用いることなしに他の実施例に適用することができる。かくして、本発明はこの中に示された実施例に限定されるものではなく、この中に開示されているその原理および新規な特徴と両立する広範な分野に及ぶものである。
【図面の簡単な説明】
【図1】 可変率ボコーダのブロック図である。
【図2】 本発明の音声合成装置のブロック図である。
【符号の説明】
100…可変率ボコーダ 102…符号器 104…復号器 106…率決定部 108…スイッチ 110…全率符号化部 112…二分の一率符号化部 114…四分の一率符号化部 116…八分の一率符号化部 118…スイッチ 120…全率復号部 122…二分の一率復号部 124…四分の一率復号部 126…八分の一率復号部 128…率抽出部 130…スイッチ 132…スイッチ 202…可変率符号器 204…音声合成装置 206…フラッシュメモリ 208…可変率復号器 210…コーデック 212…オーディオ出力装置[0001]
Background of the Invention
I. Field of Invention
The present invention relates to speech synthesis. In particular, the present invention relates to synthesis of speech encoded by a variable rate vocoder (speech analysis / synthesis device). Furthermore, the present invention relates to the use of speech synthesis with a wireless communication device.
II. Explanation of related technology
Electronic speech synthesis is useful in many applications. Computers and other electronic devices are about to have voice prompt options as user interfaces. For example, voice is useful for reading electronic mail messages, generating spoken words in a voice response system, or directing a driver to a car.
[0002]
There are two types of speech synthesizers or techniques used to create speech. The first type belongs to the text-to-speech (TTS) speech synthesizer and is based on grammar. The TTS system converts ordinary text into easy-to-understand natural speech. This is useful for applications that require automatic conversion to convert any input text into an easy-to-understand natural speech output. This is particularly useful when there is a lot of vocabulary and / or constantly changing data. TTS is useful for applications that provide automatic voice alerts and responses, calibration, telephone access to databases, and conversion of email to voice mail or audio output. Because TTS is flexible and powerful, it is useful for many applications. However, implementation of a TTS system requires a huge memory capacity and processing capacity. In addition, if the speech synthesizer does not imitate the human speech inflection, it will become a mechanical tone. Therefore, TTS is not a practical choice for applications with limited memory capacity and processing capability, such as small portable wireless devices, remote communication devices or computers.
[0003]
The second type of speech synthesizer is based on a voice coder (vocoder). A vocoder compresses a speech or audio signal by extracting parameters relating to a human speech generation model. The vocoder was developed to compress digitally converted input speech at a rate of 64 kilobits per second (kbps) to a low rate of 13 kbps, 8 kbps, or less. A vocoder-based speech synthesizer generates certain parameters for or for speech to be synthesized. This parameter is stored in some kind of memory, preferably flash memory, and decoded based on speech synthesis. Since the parameters of all synthesized words must be stored in memory, vocoder-based speech synthesizers are more suitable for applications that do not require a large amount of vocabulary. This speech synthesizer is particularly suitable for systems having limited memory capacity and processing capability.
[0004]
In a vocoder-based speech synthesizer, it is necessary to optimize the use of memory while maintaining good speech quality. For some applications, it is desirable to maximize the number of vocabularies for a given memory capacity. It is also desirable to use signal processing resources that are already utilized in a given communication system design to perform speech synthesis. A speech synthesizer having these and other characteristics is provided by the present invention described below.
[0005]
Summary of the Invention
The present invention is an apparatus and method for speech synthesis based on variable rate speech coding. The synthesized speech is encoded by a variable rate speech vocoder. A variable rate vocoder encodes a speech frame at one of a set of predetermined rates based on speech movement occurring within the speech frame. In one embodiment, the variable rate vocoder is a code-excited linear prediction (CELP) encoder with a 4-bit rate. In this way, the input speech signal is encoded into speech parameters at one of four rates by the CELP coding scheme at the selected rate. Speech parameters are generally provided in a decoder that performs a variable rate decoding method corresponding to a commonly used variable rate coding method. The decoder generates speech samples that are fed to an encoder-decoder or a digital to analog conversion codec. The resulting analog signal generated by the codec is then broadcast as synthesized speech through speakers or other known audio output devices.
[0006]
The speech synthesizer of the present invention is particularly suitable for use in a wireless communication system in which variable rate speech coding has already been performed. In these systems, existing speech coding resources can be used for speech synthesis. Alternatively, DSP elements that are already present and easily installed can be used with a small amount of memory to provide speech synthesizer functionality. In addition, a speech synthesizer based on variable rate speech coding can provide good speech quality without requiring a large capacity memory. The compression level provided by the variable rate voice vocoder is suitable for applications with limited memory.
[0007]
The features, objects and advantages of the present invention will become more apparent from the detailed description set forth below when taken in conjunction with the drawings in which like reference characters identify correspondingly.
[0008]
Detailed Description of the Preferred Embodiment
The present invention provides a speech synthesizer and speech synthesis method that are very useful when used with a wireless communication device. The present invention utilizes existing signal processing resources in a wireless communication device or uses minimal additional hardware to synthesize speech in a manner that provides high voice quality and requires small memory capacity. Can do.
[0009]
The present invention is very useful when used with a variety of known communication devices and will be described below with respect to a CDMA wireless communication system. In addition, it is particularly suitable for special applications, such as hands-free car kits used to mount and operate wireless devices on vehicles. However, those skilled in the art will recognize that this is not a limitation of the present invention and other devices, including devices that communicate in wired telegraph or optical cable systems, and devices that use other signal modulation techniques. It will be readily appreciated that it can be used with any type of communication device.
[0010]
Typical wireless communication systems use code division multiple access (CDMA) modulation techniques. While other techniques are known, such as time division multiple access (TDMA), frequency division multiple access (FDMA), and amplitude modulation (AM) such as amplitude companding single sideband (ACSSB), CDMA is the other technology. Has a great advantage over. The use of CDMA technology in a multiple access communication system is attributed to U.S. Pat. No. 4,901,307 entitled “Spread Spectrum Using Satellite or Terrestrial Repeaters”, which is incorporated herein by reference. Multiple Access Communication System ".
[0011]
For various reasons, a speech synthesizer can be implemented in a wireless communication device and equipment. For example, speech synthesis is part of a “hands-free” car kit used to assist operation in a wireless telephone speech recognition system or vehicle. The speech synthesizer can provide information in an audible form when the user or driver of the device cannot see the output screen or pointing device on the device. For example, information can be provided to drive or output a device when a vehicle driver or machine driver approaches and cannot safely view the communication device. The speech synthesizer also allows hands-free operation of the device by giving voice instructions for work to be performed. For example, the voice synthesizer automatically asks the device to dial a phone number to ask, dial, remember, open mail, hang up, or hang up (shut down) It is possible to ask the command (command) to be implemented.
[0012]
In one embodiment, the present invention uses existing vocoder circuitry in some wireless devices such as wireless telephones and other products utilized by communication service subscribers to generate voice. In particular, the speech recognition device of the present invention is based on a variable rate vocoder. Variable rate vocoders use voice motion to change the instantaneous data rate. When speech is moving, the vocoder encoder uses a large number of bits to encode the speech sample. In silence periods, the vocoder encoder uses a small number of bits or less to encode background noise. An exemplary embodiment of a variable rate vocoder is described in US Pat. No. 5,414,796 “Variable Rate Vocoder”, which is assigned to the right holder of the present invention and incorporated herein by reference.
[0013]
Variable rate vocoders are commonly used in CDMA communication systems to increase system capacity by reducing the number of bits commonly used by each communication signal. The variable rate vocoder can be implemented, for example, in the CDMA communication system of the aforementioned Patent No. 4,901,307. In a CDMA communication system, other users use the same band but communicate using different code channels. A variable rate vocoder in a CDMA communication system takes advantage of the fact that the user is actually speaking about 40% of the time on a given channel. By sending a few bits when the user is not speaking, the variable rate vocoder allows more users to share the same band.
[0014]
A schematic block diagram of a typical variable rate vocoder is shown in FIG. Although the vocoder shown in FIG. 1 uses four different data rates, it should be understood that a different number of data rates may be employed instead, as is well known in the art. If the highest rate is 13.2 kbps in a set of four data rates, the total rate corresponds to 13.2 kbps, the 1/2 rate corresponds to about 6.2 kbps, and the 1/4 rate corresponds to about 2. Corresponding to 7 kbps, and 1/8 rate corresponds to about 1.0 kbps. The actual bit rate other than the full rate is approximate because it uses overhead bits, as is well known in the art.
[0015]
Referring to FIG. 1, the
[0016]
The
[0017]
No. 5,056,056, filed on Sep. 10, 1993, which is hereby incorporated by reference into the present invention and incorporated herein by reference. Another rate determination technique is disclosed in 08 / 286,842, “Method and Apparatus for Variable Rate Speech Coding with Reduced Rate”. This technique provides a set of rate determination criteria referred to as mode measures. The first mode measure is the target matching signal-to-noise ratio (TMSNR) from the previous coding frame, which provides information on how well the coding model is performed by comparing the synthesized speech signal with the input signal. To do. The second mode measure is a normalized autocorrelation function (NACF), which measures the periodicity of speech frames. The third mode measure is a zero crossing (ZC) parameter, which measures the high frequency components of the input speech frame. A fourth mode measure, Predictive Gain Differentiation (PGD), determines whether the encoder maintains predictive efficiency. The fifth mode measure is the energy derivative (ED), which compares the current frame energy with the average frame energy.
[0018]
Using the aforementioned mode measure, the rate determination logic selects the coding rate for the input speech data. The values for the various modes select one of four or more modes to be activated. That is, the value detected for each mode measure with respect to a threshold or other criteria determines the coding rate selection based on a preselected pattern or hierarchy. For example, if the NACF value is less than a preselected threshold and ZC is greater than a second preselected threshold, one rate is selected. However, although these conditions are not met, a quarter rate is selected if the ED is lower than the third threshold. TSNR value is large, PGD If it is small and the NACF is greater than the fourth, fifth, and sixth thresholds, respectively, a half rate is selected. Various such combinations and thresholds have been used by those skilled in the art to select code rates.
[0019]
It should be noted that other rate determination techniques may be employed in the
[0020]
Referring to FIG. 1, a signal indicating the data rate determined by the
[0021]
Each
[0022]
A linear predictive coding method employing a variable rate further reduces the bit rate without compromising speech quality. In FIG. 1, the full
[0023]
Referring now to the decoding unit of the variable rate vocoder, the
[0024]
Referring to FIG. 2, a block diagram of a speech synthesis system that operates in accordance with the principles of the present invention with a variable rate vocoder is shown. This speech synthesis system includes a
[0025]
The present invention uses a variable rate vocoder as described in US Pat. No. 5,414,796, such as a commercially available 13 kbps vocoder product from Qualcomm. In a preferred embodiment, the variable rate vocoder is a high performance variable rate vocoder described for the IS127 standard.
[0026]
In one embodiment of the present invention, code rate determination is based on the “mode major” discussed above. Various combinations of criteria used to make rate selections are used to create what is referred to as a “reduced rate mode” or “mode” and as understood by those skilled in the art. Also, simply referred to as mode 0,
[0027]
The speech received by the
[0028]
[0029]
As one will appreciate, the operation of loading parameters is performed during the manufacture of the communication device in which the present invention is used. Since the immediate answers and warnings to be synthesized are predetermined, they are encoded at the time of manufacture and can be stored in flash memory prior to use. The parameters can be changed or replaced during device service or through newly developed aerial programming techniques for wireless devices.
[0030]
Alternatively,
[0031]
The
[0032]
It should be noted that the
[0033]
Further, the
[0034]
The speech parameters stored in the
[0035]
In general, the
[0036]
In order to have the decoding function for the present invention, only a small amount of memory is required for or connected to the DSP. Standalone decoders within or using DSPs require very small amounts of memory (both program and data) to obtain speech synthesis capability. The speech synthesizer can be incorporated using well-known DSP circuits and devices such as those commercially available from Analog Devices and Qualcomm.
[0037]
Decoding parameters, typically in the form of pulse code modulation (PCM) samples, are supplied to
[0038]
As a result, a speech synthesizer based on variable rate speech coding is provided by the present invention. This speech synthesizer is particularly suitable for use with wireless devices that already have a variable rate vocoder. In other words, existing variable rate vocoders employed by speech synthesizers through appropriate use translate into programs or operating instructions or use of control hardware. Alternatively, the use of variable rate coding allows the compression achieved to store a predetermined vocabulary in a limited amount of memory associated with the wireless device or other devices to which it is connected. Furthermore, the trade-off between speech quality and memory capacity is considered when placing a variable rate vocoder to provide a speech synthesizer with the desired speech quality and memory capacity.
[0039]
The present invention can be used in various communication devices and interface devices. The above examples can be used for user terminals, subscriber phones, mobile (mobile) stations, or wireless such as cellular and satellite phones, often referred to simply as “users”, “mobiles”, or “subscribers”. A communication device is described. In addition, other devices such as, for example, a message receiver and a data transmission device (for example, a portable computer, a personal information terminal (PDA), a modem, a machine controller), or a public telephone network or a dedicated communication line are also conceivable.
[0040]
The present invention can be implemented using a separate circuit in the form of a dedicated device or application specific IC (ASIC) to construct a speech synthesizer for installation in a desired device. Alternatively, it can be incorporated into other ASICs and devices by using a small amount of additional memory to operate with existing digital signal processor elements.
[0041]
The previous description of the preferred embodiment allows anyone skilled in the art to make or use the present invention. Various modifications to these embodiments will be apparent to those skilled in the art, and the principles defined therein can be applied to other embodiments without using their original capabilities. Thus, the present invention is not limited to the embodiments shown herein, but extends to a wide range of fields that are compatible with the principles and novel features disclosed therein.
[Brief description of the drawings]
FIG. 1 is a block diagram of a variable rate vocoder.
FIG. 2 is a block diagram of a speech synthesizer according to the present invention.
[Explanation of symbols]
DESCRIPTION OF
Claims (16)
前記符号化された予め選択された語彙を表す一組の音声パラメータを記憶するためのメモリと、
ユーザからの言葉入力を受け、前記ユーザからの前記言葉入力に従って前記一組の音声パラメータから音声パラメータの部分セットを選択するように構成されたプロセッサと、
前記可変率符号器によって使用された可変率を前記符号化された音声パラメータの部分セットの信号から抽出し、抽出された前記可変率に基づいて前記選択された音声パラメータの部分セットを復号して復号化音声標本を生成する可変率復号器と、
前記音声標本を、合成音声として放送するためのアナログ信号に変換するディジタル対アナログ変換器とを含む装置。In a wireless communication system, an apparatus for synthesizing a preselected vocabulary encoded by a variable rate encoder at a set of variable rates,
A memory for storing a set of speech parameters representing the encoded preselected vocabulary;
Receiving the word input from the user, and a processor configured to select a subset of the words the set of speech parameters or rales voice parameters according to the input from the user,
Extracting the variable rate used by the variable rate encoder from the encoded speech parameter subset signal and decoding the selected speech parameter subset based on the extracted variable rate; A variable rate decoder for generating decoded speech samples;
A device comprising a digital-to-analog converter for converting the audio sample into an analog signal for broadcasting as synthesized speech.
言葉のユーザ入力を受信し、
メモリに記憶された一組の音声パラメータであって、前記言葉のユーザ入力に対応している前記符号化された予め選択された語彙である一組の音声パラメータを引き出し、
前記可変率符号器によって使用された可変率を前記符号化された音声パラメータの部分セットの信号から抽出し、抽出された前記可変率に基づいて可変率復号化方式を用いて前記引き出された一組の音声パラメータを復号して復号された音声標本を生成し、
前記音声標本を合成音声として放送するためのアナログ信号に変換するステップを含む方法。In a wireless communication system, a method of synthesizing a preselected vocabulary encoded by a variable rate encoder at a set of variable rates, comprising:
Receive user input of words,
Retrieving a set of speech parameters stored in memory that is the encoded preselected vocabulary corresponding to a user input of the word;
The variable rate used by the variable rate encoder is extracted from the encoded speech parameter subset signal, and the extracted one is extracted using a variable rate decoding scheme based on the extracted variable rate. Decoding a set of speech parameters to generate a decoded speech sample;
Converting the audio sample into an analog signal for broadcast as synthesized speech.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US24660599A | 1999-02-08 | 1999-02-08 | |
US09/246,605 | 1999-02-08 | ||
PCT/US2000/002900 WO2000046795A1 (en) | 1999-02-08 | 2000-02-04 | Speech synthesizer based on variable rate speech coding |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009250670A Division JP2010092059A (en) | 1999-02-08 | 2009-10-30 | Speech synthesizer based on variable rate speech coding |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2002536693A JP2002536693A (en) | 2002-10-29 |
JP2002536693A5 JP2002536693A5 (en) | 2005-12-22 |
JP4503853B2 true JP4503853B2 (en) | 2010-07-14 |
Family
ID=22931374
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000597796A Expired - Fee Related JP4503853B2 (en) | 1999-02-08 | 2000-02-04 | Speech synthesizer based on variable rate speech coding |
JP2009250670A Pending JP2010092059A (en) | 1999-02-08 | 2009-10-30 | Speech synthesizer based on variable rate speech coding |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009250670A Pending JP2010092059A (en) | 1999-02-08 | 2009-10-30 | Speech synthesizer based on variable rate speech coding |
Country Status (10)
Country | Link |
---|---|
EP (1) | EP1159738B1 (en) |
JP (2) | JP4503853B2 (en) |
KR (1) | KR100648872B1 (en) |
CN (1) | CN1212604C (en) |
AT (1) | ATE322731T1 (en) |
AU (1) | AU3589100A (en) |
DE (1) | DE60027140T2 (en) |
ES (1) | ES2263459T3 (en) |
HK (1) | HK1042980B (en) |
WO (1) | WO2000046795A1 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4867076B2 (en) * | 2001-03-28 | 2012-02-01 | 日本電気株式会社 | Compression unit creation apparatus for speech synthesis, speech rule synthesis apparatus, and method used therefor |
KR100425982B1 (en) * | 2001-12-29 | 2004-04-06 | 엘지전자 주식회사 | Voice Data Rate Changing Method in IMT-2000 Network |
KR100651731B1 (en) * | 2003-12-26 | 2006-12-01 | 한국전자통신연구원 | Apparatus and method for variable frame speech encoding/decoding |
CN101692685B (en) * | 2009-10-29 | 2012-05-30 | 中国电信股份有限公司 | Method and system for improving acoustics of polyphonic ringtone |
JP5677470B2 (en) * | 2011-02-03 | 2015-02-25 | パナソニックIpマネジメント株式会社 | Voice reading device, voice output device, voice output system, voice reading method and voice output method |
CN106952651A (en) * | 2017-02-17 | 2017-07-14 | 福建星网智慧科技股份有限公司 | A kind of voice processing apparatus transmits the method and system of voice |
EP4014228A4 (en) | 2019-08-30 | 2022-10-12 | Samsung Electronics Co., Ltd. | Speech synthesis method and apparatus |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0331858B1 (en) * | 1988-03-08 | 1993-08-25 | International Business Machines Corporation | Multi-rate voice encoding method and device |
ES2166355T3 (en) * | 1991-06-11 | 2002-04-16 | Qualcomm Inc | VARIABLE SPEED VOCODIFIER. |
JP3081300B2 (en) * | 1991-10-01 | 2000-08-28 | 三洋電機株式会社 | Residual driven speech synthesizer |
TW271524B (en) * | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
JPH08263099A (en) * | 1995-03-23 | 1996-10-11 | Toshiba Corp | Encoder |
US6137840A (en) * | 1995-03-31 | 2000-10-24 | Qualcomm Incorporated | Method and apparatus for performing fast power control in a mobile communication system |
US5790957A (en) * | 1995-09-12 | 1998-08-04 | Nokia Mobile Phones Ltd. | Speech recall in cellular telephone |
US5914950A (en) * | 1997-04-08 | 1999-06-22 | Qualcomm Incorporated | Method and apparatus for reverse link rate scheduling |
DE29717372U1 (en) * | 1997-09-29 | 1997-11-27 | Siemens Ag | Integrated circuit for a mobile radio with answering machine function |
-
2000
- 2000-02-04 DE DE60027140T patent/DE60027140T2/en not_active Expired - Lifetime
- 2000-02-04 KR KR1020017009887A patent/KR100648872B1/en not_active IP Right Cessation
- 2000-02-04 ES ES00914511T patent/ES2263459T3/en not_active Expired - Lifetime
- 2000-02-04 JP JP2000597796A patent/JP4503853B2/en not_active Expired - Fee Related
- 2000-02-04 WO PCT/US2000/002900 patent/WO2000046795A1/en active IP Right Grant
- 2000-02-04 CN CNB00803589XA patent/CN1212604C/en not_active Expired - Fee Related
- 2000-02-04 AT AT00914511T patent/ATE322731T1/en not_active IP Right Cessation
- 2000-02-04 EP EP00914511A patent/EP1159738B1/en not_active Expired - Lifetime
- 2000-02-04 AU AU35891/00A patent/AU3589100A/en not_active Abandoned
-
2002
- 2002-06-27 HK HK02104772.4A patent/HK1042980B/en not_active IP Right Cessation
-
2009
- 2009-10-30 JP JP2009250670A patent/JP2010092059A/en active Pending
Also Published As
Publication number | Publication date |
---|---|
CN1347548A (en) | 2002-05-01 |
HK1042980A1 (en) | 2002-08-30 |
WO2000046795A9 (en) | 2001-10-18 |
WO2000046795A1 (en) | 2000-08-10 |
KR20020012157A (en) | 2002-02-15 |
AU3589100A (en) | 2000-08-25 |
CN1212604C (en) | 2005-07-27 |
DE60027140D1 (en) | 2006-05-18 |
JP2010092059A (en) | 2010-04-22 |
HK1042980B (en) | 2005-12-23 |
DE60027140T2 (en) | 2007-01-11 |
KR100648872B1 (en) | 2006-11-24 |
ES2263459T3 (en) | 2006-12-16 |
ATE322731T1 (en) | 2006-04-15 |
EP1159738B1 (en) | 2006-04-05 |
JP2002536693A (en) | 2002-10-29 |
EP1159738A1 (en) | 2001-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6631139B2 (en) | Method and apparatus for interoperability between voice transmission systems during speech inactivity | |
JP4444749B2 (en) | Method and apparatus for performing reduced rate, variable rate speech analysis synthesis | |
JP5543405B2 (en) | Predictive speech coder using coding scheme patterns to reduce sensitivity to frame errors | |
US5251261A (en) | Device for the digital recording and reproduction of speech signals | |
JP2006502426A (en) | Source controlled variable bit rate wideband speech coding method and apparatus | |
JP2010092059A (en) | Speech synthesizer based on variable rate speech coding | |
ZA200302468B (en) | Apparatus for bandwidth expansion of a speech signal. | |
KR100351484B1 (en) | Speech coding apparatus and speech decoding apparatus | |
JPH11126098A (en) | Voice synthesizing method and device therefor, band width expanding method and device therefor | |
KR20030041169A (en) | Method and apparatus for coding of unvoiced speech | |
US20060235685A1 (en) | Framework for voice conversion | |
US5666350A (en) | Apparatus and method for coding excitation parameters in a very low bit rate voice messaging system | |
JP2001242896A (en) | Speech coding/decoding apparatus and its method | |
WO2002021091A1 (en) | Noise signal analyzer, noise signal synthesizer, noise signal analyzing method, and noise signal synthesizing method | |
KR101011320B1 (en) | Identification and exclusion of pause frames for speech storage, transmission and playback | |
JP5199281B2 (en) | System and method for dimming a first packet associated with a first bit rate into a second packet associated with a second bit rate | |
US6173254B1 (en) | Recorded message playback system for a variable bit rate system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040818 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040818 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080826 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20081126 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20081203 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090225 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090630 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091030 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20091111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100323 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100422 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130430 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |