JP2002536693A - 可変率音声符号化に基づいた音声合成装置 - Google Patents

可変率音声符号化に基づいた音声合成装置

Info

Publication number
JP2002536693A
JP2002536693A JP2000597796A JP2000597796A JP2002536693A JP 2002536693 A JP2002536693 A JP 2002536693A JP 2000597796 A JP2000597796 A JP 2000597796A JP 2000597796 A JP2000597796 A JP 2000597796A JP 2002536693 A JP2002536693 A JP 2002536693A
Authority
JP
Japan
Prior art keywords
rate
speech
parameters
variable rate
variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000597796A
Other languages
English (en)
Other versions
JP4503853B2 (ja
JP2002536693A5 (ja
Inventor
チャン、チエンチュン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2002536693A publication Critical patent/JP2002536693A/ja
Publication of JP2002536693A5 publication Critical patent/JP2002536693A5/ja
Application granted granted Critical
Publication of JP4503853B2 publication Critical patent/JP4503853B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Devices For Executing Special Programs (AREA)

Abstract

(57)【要約】 可変率音声符号化に基づく音声合成のための装置および方法が開示されている。入力音声信号は可変率ボコーダ(202)により符号化され、音声信号のパラメータはメモリに記憶される。音声を合成するため、可変率復号器(208)は音声標本を生成すべくパラメータを復号する。コーデック(210)は音声標本をディジタル信号からアナログ信号に変換し、このアナログ信号がスピーカ(212)を介して放送される。

Description

【発明の詳細な説明】
【0001】 発明の背景 I.発明の分野 本発明は音声合成に係わる。特に、本発明は可変率ボコーダ(音声分析合成装
置)により符号化された音声の合成に関する。さらに、本発明は無線通信装置を
備えた音声合成の利用に関する。 II.関連技術の説明 電子音声合成は多くの応用で有用である。コンピュータおよびその他電子装置
がユーザインタフェースとして音声即答オプションをいよいよ備えようとしてい
る。例えば、電子メールメッセージを読んだり、音声応答システムにおいて話し
言葉を生成したり、または自動車の運転者に方向を指示したりするために、音声
が役立っている。
【0002】 音声を作るために使用される音声合成装置または技術には二つの種類がある。
第一の種類はテキスト対音声(TTS)の音声合成装置に属するもので、文法に
基づくものである。TTSシステムは普通のテキストをわかりやすい自然音声に
変換する。これは任意の入力テキストをわかりやすい自然音声出力に変換するた
めの自動変換を必要とする用途に有用である。特に、沢山の語彙および/または
刻々変化するデータがあるときは有効である。TTSは自動音声警報や応答、校
正、データベースへの電話アクセス、および電子メールの音声メールまたはオー
ディオ出力への変換などを提供するような用途に有用である。TTSは柔軟性が
あり強力であるから、多くの用途に役立っている。しかしながら、TTSシステ
ムの実装には巨大なメモリ容量と処理能力が必要である。また音声合成装置が人
間の音声の抑揚をきちんと真似ないと機械口調になってしまう。したがって、T
TSは、小さな可搬無線装置、遠方に設置された通信装置またはコンピュータ等
といった、限られたメモリ容量や処理能力をもつ用途には実用的な選択とはいえ
ない。
【0003】 音声合成装置の第二の種類はボイスコーダ(ボコーダ)に基づくものである。
ボコーダは人間の音声発生モデルに関するパラメータを抽出することにより、音
声、またはオーディオ信号を圧縮する。ボコーダは、毎秒64キロビット(kb
ps)の割合でディジタル変換された入力音声を13kbps、8kbps、ま
たはそれ以下の低率に圧縮するために開発されたものである。ボコーダに基づい
た音声合成装置は合成される音声の、または音声のためのあるパラメータを生成
する。このパラメータはある種のメモリ、好ましくはフラッシュ型メモリに記憶
され、音声合成に基づいて復号化される。合成された全ての語のパラメータはメ
モリに記憶させなければならないため、ボコーダに基づく音声合成装置は大量の
語彙を必要としない用途にさらに適している。この音声合成装置は特に限られた
メモリ容量と処理能力をもつシステムに適している。
【0004】 ボコーダに基づく音声合成装置では、良好な音声品質を保持しながらメモリの
使用を最適化する必要がある。ある用途に対しては、与えられたメモリ容量に対
して語彙数を最大化することが望ましい。さらに、音声合成を行うために与えら
れた通信システム設計の中で既に利用されている信号処理資源を使用することも
望ましい。これらの、そしてその他の特性を有する音声合成装置は以下に記述さ
れる本発明により提供される。
【0005】 発明の概要 本発明は可変率音声符号化に基づく音声合成のための装置および方法である。
合成される音声は可変率音声ボコーダにより符号化される。可変率ボコーダは音
声フレーム内で起こる音声の動きに基づいて一組の所定率の一つで音声フレーム
を符号化する。一実施例では、可変率ボコーダは4ビット率をもつ符号励起線形
予測(CELP)符号器である。このようにして入力音声信号は選択した率での
CELP符号化法(scheme)により四つの率の一つで音声パラメータに符
号化される。音声パラメータは一般に使用する可変率符号化法に対応する可変率
復号化法を実行する復号器に一般に用意されている。復号器は音声標本を生成し
、それは符号器−復号器またはディジタル対アナログ変換のコーデックに供給さ
れる。コーデックにより発生される結果としてのアナログ信号は、それから、合
成された音声としてスピーカまたは他の知られたオーディオ出力装置を通して放
送される。
【0006】 本発明の音声合成装置は可変率音声符号化が既に行われている無線通信システ
ムにおける使用に特に適している。これらのシステムにおいては、既存の音声符
号化資源を音声合成に使用することが可能である。代わりに、音声合成装置機能
を提供するため、既に有りまた容易に取付けられる、DSP素子を小容量のメモ
リと共に使用することができる。他に、可変率音声符号化に基づく音声合成装置
は大容量のメモリを必要とすることなく良好な音声品質を提供することができる
。可変率音声ボコーダにより提供される圧縮レベルは限られたメモリをもつ用途
に適している。
【0007】 本発明の特徴、目的、および長所は、同様な参照符号が通して対応的に同一視
する図面と共に、以下に述べる詳細な説明からさらに明らかになる。
【0008】 好ましい実施例の詳細な説明 本発明は無線通信装置と共に用いて非常に有用な音声合成装置および音声合成
方法を提供する。この発明は、無線通信装置における既存の信号処理資源を利用
し、または高音声品質を提供し、且つ小メモリ容量を必要とする仕方で音声を合
成するために最小の付加ハードウェアを利用することができる。
【0009】 本発明は種々の既知の通信装置と共に使用するとき非常に有用であり、CDM
A無線通信システムに関しては以下に述べる。他に、乗り物に無線装置を搭載し
、動作させるのに用いられるハンドフリーのカー・キットのような、特殊の用途
に特に好適である。しかしながら、この分野に精通した者は、このことが本発明
を限定するものではないこと、および有線の電信線、または光ケーブルシステム
において通信する装置、および他の信号変調技術を用いる装置を含む他の型の通
信装置と使用できることを直ちに理解するであろう。
【0010】 典型的な無線通信システムはコード分割多重アクセス(CDMA)変調技術を
使用している。時分割多重アクセス(TDMA)、周波数分割多重アクセス(F
DMA)、および振幅圧伸単側帯(ACSSB)等の振幅変調(AM)など、他
の技術が知られているけれども、CDMAはこれら他の技術に対して大きな利点
を有する。多重アクセス通信システムにおいてCDMA技術を使用することは、
本発明の権利人に帰属し、参考文献としてここに組みこまれた米国特許第4,9
01,307号「衛星または地上リピータを用いたスペクトラム拡散多重アクセ
ス通信システム」に開示されている。
【0011】 種々の理由で音声合成装置は無線通信装置および設備に実装することができる
。例えば、音声合成は無線電話の音声認識システムまたは乗り物における動作を
援助するのに用いる“ハンドフリー”カー・キットの一部である。音声合成装置
は装置の使用者または運転者が装置上の出力スクリ−ンまたは指示装置を視るこ
とができないとき可聴形式で情報を提供することができる。例えば、乗り物の運
転手または機械の運転者が近寄って通信装置を安全に見ることができないときに
装置運転または出力するように情報を供給することができる。音声合成装置はま
た実行すべき作業について音声指示を与えることにより装置のハンドフリー操作
を許容するものでもある。例えば、音声合成装置は、装置に電話番号を自動的に
ダイヤルさせて呼ぶべき人の名を尋ねたり、ダイヤルしたり、記憶したり、メー
ルを開いたり、呼出をやめたり、または切断(シャットダウン)するなど、実装
される命令(コマンド)を尋ねることが可能である。
【0012】 一実施例において本発明は、無線電話および音声を生成するため通信サービス
加入者が利用する他の製品などのいくつかの無線装置において既存のボコーダ回
路を使用している。特に、本発明の音声認識装置は可変率ボコーダに基づいてい
る。可変率ボコーダは瞬間のデータ率を変えるため音声の動きを利用する。音声
に動きのあるときは、ボコーダ符号化装置は音声標本を符号化するために多くの
ビット数を使用する。無音の期間では、ボコーダ符号化装置は背景雑音を符号化
するために少数の、またはそれ以下のビット数を使用する。可変率ボコーダの典
型的実施例は、本発明の権利人に帰属し、参考文献としてここに組みこまれた米
国特許第5,414,796号「可変率ボコーダ」に記載されている。
【0013】 可変率ボコーダはそれぞれの通信信号により一般に用いられるビット数を減ら
すことによりシステムの能力を増やすためCDMA型通信システムにおいて一般
に使用されている。可変率ボコーダは、例えば、前述の特許第4,901,30
7号のCDMA型通信システムに実装することが可能である。CDMA型通信シ
ステムにおいては、他のユーザが同じ帯域を使用するが、別のコードチャンネル
を使用して通信する。CDMA型通信システムの可変率ボコーダは、ユーザがあ
る所定のチャンネルで時間の約40%を実際に話しているという事実を利用して
いる。ユーザが話してないときは僅かのビットを送ることにより、可変率ボコー
ダはさらに多くのユーザが同じ帯域を分け合うようにする。
【0014】 代表的な可変率ボコーダの概略ブロック図を図1に示し、全体的に100で表
す。図1に示すボコーダは四個の異なるデータ率を用いているが、この分野では
周知のように、その代わりに違う数のデータ率を採用してもよいことは理解すべ
きことである。四個のデータ率の組で、最高の率を13.2kbpsとすると、
全率は13.2kbpsに対応し、1/2率は約6.2kbpsに対応し、1/
4率は約2.7kbpsに対応し、そして1/8率は約1.0kbpsに対応す
る。全率以外の実際のビット率は、この技術分野では周知であるように、オーバ
ーヘッド・ビットを使うため近似である。
【0015】 図1を参照すると、可変率ボコーダ100は符号器102と復号器104から
なる。符号器102は入力として、例えば、mu−則またはa−則フォーマット
の64kbpsのデータ率での8−ビットPCM標本として、音声データのフレ
ームのための音声標本を受信する。符号器102はこれらの音声標本を音声の動
きにしたがって四個のデータ率の一つで音声パラメータに符号化する。入力音声
標本は率決定部106にも供給される。
【0016】 率決定部106はいくつかの率決定アルゴリズムを備えている。一実施例にお
いては、背景雑音エネルギレベルに関するエネルギ閾値が音声の動きを決め、そ
れにより入力標本が符号化される率を決定するために用いられる。音声標本の現
時点のフレームが背景雑音エネルギの遙か上にあれば、率決定部106はフレー
ムを全率で符号化するように決定する。音声標本の現時点のフレームが背景雑音
エネルギに近ければ、周知のように、率決定部106はフレームを八分の一率、
等々で符号化するように決定する。
【0017】 本発明の権利人に帰属し、参考文献としてここに組みこまれた継続中の米国特
許出願No.08/286,842「率を減少した可変率音声符号化を行う方法
および装置」に、他の率決定技術が開示されている。この技術はモードメジャー
(measure)として参照される率決定基準の組を提供する。第一のモード
メジャーは前の符号化フレームからの標的マッチング信号対雑音比(TMSNR
)で、合成音声信号を入力信号と比較することにより符号化モデルが如何に旨く
実行されるかの情報を提供する。第二のモードメジャーは正規化自己相関関数(
NACF)で、音声フレームの周期性を計測する。第三のモードメジャーは零交
差(ZC)パラメータで、入力音声フレームの高周波成分を計測する。第四のモ
ードメジャー、予測利得微分(PGD)は符号器が予測効率を維持するかどうか
を決定する。第五のモードメジャーはエネルギ微分(ED)で、現フレームのエ
ネルギを平均フレームエネルギと比較する。
【0018】 前述のモードメジャーを用いて、率決定論理は入力音声データについて符号化
率を選択する。種々のモードについての値は作動すべき四またはそれ以上のモー
ドの一つを選択する。即ち、閾値または他の基準に関する各モードメジャーにつ
いて検出された値は予め選択されたパターンまたは階層に基づいて、符号化率の
選択を決定する。例えば、NACFの値が予め選択された閾値より小さく、ZC
が第二の予め選択された閾値より大きければ一つの率が選択される。しかしなが
ら、これらの条件は合わないけれども、EDが第三の閾値より低ければ、四分の
一率が選択される。TSNRの値が大きく、PDGが小さく、そしてNACFが
第四、第五、および第六の閾値よりそれぞれ大きければ、二分の一率が選択され
る。種々のこのような組み合わせ及び閾値はこの技術に精通した者により符号化
率を選択するために使用されている。
【0019】 また他の率決定技術が率決定部106に採用されてもよいことを知るべきであ
る。
【0020】 なお図1を参照すると、率決定部106により決定されたデータ率を示す信号
はスイッチ108に供給される。スイッチ108は、データ信号により指定され
る、全率符号化部110、二分の一率符号化部112、四分の一率符号化部11
4、および八分の一率符号化部116の中から入力音声標本のフレームを符号化
するための符号化部を選択する。選択された符号化部は符号化データ・パケット
の信号を生成するため音声標本を符号化する。率決定部106は、スイッチ10
8と同様に同じ符号化部を選択するスイッチ118にデータ率を示す信号を供給
し、そのため選択された符号化部により生成された符号化データ・パケットの信
号は可変率ボコーダの出力に供給される。
【0021】 各符号化部110、112、114,および116は所定の符号化法を用いて
音声を符号化するために配置されている。符号励起線形予測(CELP)などの
線形予測符号化法が好ましい実施例で使用されている。CELP符号器は、Pr
oceeding of Mobile Satellite Confere
nce 1998に掲載のThomas E.Tremain他の論文「4.8
Kbps符号励起線形予測符号器」に記述されている。線形予測符号化装置は音
声に固有の本来ある冗長性を取り除くことにより音声を圧縮する。音声は唇や舌
の機械的運動による短期間の冗長性と、声帯の振動による長期間の冗長性を一般
に示す。線形予測法はこれらの動作をフィルタとしてモデル化し、冗長性を取り
除き、それから結果としての残余信号を白色ガウス雑音としてモデル化する。そ
れ故、線形予測コーダは、伝送フィルタ係数により減少されたビット率、および
全帯域幅音声信号よりむしろ量子化雑音を達成する。
【0022】 可変率を採用した線形予測符号化法は音声の品質と妥協することなくビット率
をさらに低減する。図1において、全率符号化部110は、入力の特性をよく保
持するために多くのビットを使用して入力音声信号のパラメータを符号化する。
音声が検出されない期間は、取込むべき内容または有用な情報が殆どないから八
分の一率符号化部116は少ないビット数を用いてパラメータを符号化する。動
きのある音声の期間と音声が検出されない期間の間の変化は二分の一率符号化部
112および四分の一率符号化部114により符号化される。
【0023】 さて可変率ボコーダの復号部を参照すると、復号器104は、音声を符号化す
るために使用する率を示す信号と同様に、符号化された音声パラメータの信号を
受信する。率抽出部128はこの入力信号を受信し、音声のデータ率を決定する
。データ率の信号は、入力パラメータを正しく復号するため復号部の組から復号
部を選択するスイッチ130に供給される。図1において、四個の復号部、即ち
、全率復号部120、二分の一率復号部122、四分の一率復号部124、およ
び八分の一率復号部126が四つの可能な率で音声パラメータを復号するために
用意されている。選択された復号部は、一般に64kbpsパルス符号変調(P
CM)標本である、復号された標本の信号を生成するためデータ率に基づいて入
力パラメータを復号する。率抽出部128により決定されたデータ率の信号はス
イッチ132に供給される。スイッチ132はスイッチ130と同様に同じ復号
部を選択し、その結果復号された標本の信号がボコーダの出力に供給される。
【0024】 図2を参照すると、可変率ボコーダを備えた本発明の原理にしたがって動作す
る音声合成システムのブロック図が示されている。この音声合成システムは可変
率符号器202および音声合成器204からなる。可変率符号器202の例は図
1の符号器102である。可変率符号器202は入力として音声信号を受信し、
そして所定の率の組の一つで音声を符号化する。好ましい実施例では、可変率符
号器202は音声の入力分節における音声の動きに基づく率の一つで音声パラメ
ータを生成するCELP符号器である。
【0025】 本発明は、市販の、例えば、クァルコム社からの13kbpsボコーダ製品の
ような、米国特許第5,414,796号に記載されている可変率ボコーダを使
用する。好ましい一実施例においては、可変率ボコーダはIS127規格につい
て記述されている高性能可変率ボコーダである。
【0026】 本発明の一実施例では、符号化率決定は上記で論じた“モードメジャー”に基
づいている。率選択をするのに用いる基準の種々の組み合わせは“低減された率
モード”または“モード”と呼ばれるものを作るのに使用され、そしてこの技術
分野に精通する者には理解されているように、さらに単純にモード0、モード1
、モード2、等々として参照される。本発明は音声合成の目的のためにこのよう
なモードを利用することができる。
【0027】 可変率符号器202により受信された音声は、電話、カー・キット、または他
の通信装置などの通信装置が合成するために設計される予め選択された語彙から
の単語または語句である。語彙は装置のユーザに与えるべき即答や警告などを含
むことがある。例えば、五個の語彙単語:`call´、`redial´、`
program´、`or´および`exit´を抽出、合成することにより、
音声合成は、ユーザからの応答の誘導において、`call、redial、p
rogram、or、exit´の即答を提供すべく設計することが可能である
。代わりとして、音声合成装置は、オーディオを含むいろいろな装置の入力に応
答して装置ユーザに、電話帳、ルックアップ表、またはデータベースにおけるよ
うに、以前に記憶させた情報を提供すべく設計することもできる。可変率符号器
202により受信された音声は符号化され、そして符号化されたパラメータは記
憶のために音声合成装置204のメモリ素子または回路206に供給される。
【0028】 メモリ206は所望の装置の動作の或る時間にわたってパラメータを保持また
は記憶する。しかしながら、語彙が、条件を変えるために変えられたり、または
装置の特性に対して改良する必要があるときのように、パラメータを改良したり
置き換えたりするように記憶したパラメータを一般には持つことが望ましい。し
たがって、メモリ206は不揮発性でかつ再書込み可能なメモリの形態で配置さ
れ、この分野では周知のようにフラッシュ型メモリ素子を用いて達成される。
【0029】 人も認めるように、装填するパラメータの動作は本発明が用いられる通信装置
の製造の間に実行される。合成される即答および警告は予め決められているから
、これらは製造時に符号化され、使用に先立ってフラッシュメモリに記憶するこ
とができる。パラメータは、装置のサービス中、または無線装置のために新規に
開発された空中プログラミング技術を介して、変えたり、置き換えができる。
【0030】 代わりに、可変率符号器202は通信装置の動作中に音声信号入力を受信する
ことができる。例えば、音声合成装置からの即答に対して、ユーザは音声応答を
することができる。可変率符号器202はそのときユーザの音声を符号化し、そ
して符号化されたパラメータは記憶のためのフラッシュメモリ206に供給され
、および/または音声認識の目的のために(図示されていない)音声認識装置に
供給される。このようにして、パラメータは、そのユーザの要求に関して、装置
が直ちに有効なサービスに入るか、または終わったときなど、各装置(ボコーダ
)ユーザのための個人語彙ライブラリを築くことによるなど、入力後の製造物で
ある。
【0031】 フラッシュメモリ206はユーザから予想される音声のパラメータと同様に予
め選択された語彙のパラメータを記憶するに十分な容量である。このように、フ
ラッシュメモリ206の容量は特殊な用途の要求に基づいて変更することができ
る。製造後の記憶は、製造者が全体の大きな装置マーケットを包含するためにイ
ンストールしなければならないものに比べて各装置ユーザがそれほど多量の語彙
を必要としないところでメモリ要求を低減する利点を有する。音声合成装置は、
対象または所望の語句または音声の終点を検出し、無音または冗長性を除去し、
そしてそれを符号化することにより、`Fred Smith´のような名前ま
たは他の語を記録できる。したがって、音声は“オン・ライン”で記録され、そ
して後で音声出力を合成するために利用することができる。
【0032】 可変率符号器202は入手可能なメモリおよび要求される音声品質に基づいて
配置することができることに注目すべきである。全率が13kbpsである四つ
の率をもつシステムにおいて、平均率は40%の音声の動きに基づくと一般に5
.88kbpsである。可変率の利用は高音声品質を提供する。しかしながら、
メモリ容量が制限されると、可変率符号器202は、例えば、毎秒約800バイ
トの固定二分の一率で動作すべく配置することになる。そうでなければ、全体の
率の組の代わりに所定の率の組の部分セットから選択するようになる。例えば、
先に論じた低減した率モードは種々のモードを選択するのに使用できる。本発明
の一実施例においては、率はモード0、1、2、及び3を付けた、四つのモード
の組に分類される。このモードにしたがって固定の率を用いると、毎秒1800
バイト程度の率、毎秒1540バイトの率、毎秒1400バイト、および毎秒1
100バイトの率をそれぞれ使用することができる。そのような固定の低減され
た率を使うと予め定義されたデータ率を与えられた非常に高品質の音声の配送が
でき、地上通信線の品質に近づけることができる。これらの四つのモードは合成
音声品質とメモリの要請の間に最良の見返り条件(トレードオフ)を提供する。
【0033】 さらに、可変率符号器202は、用途の瞬時の要請に基づいていろいろな動作
モード(可変率、全二分の一率、可変率の部分セット、等々)の間を切り替える
ことができる。音声品質とメモリ容量の間には見返り条件(トレードオフ)があ
るため、採用される構成は実装される用途に依存する。
【0034】 フラッシュメモリ206に記憶された音声パラメータは、音声合成が要求され
ると可変率復号器208に供給される。可変率復号器208は、対応する可変率
符号器202により生成された音声パラメータを復号するために配置される。可
変率復号器の例は図1の復号器104である。
【0035】 一般に、可変率復号器208は通信装置の中で使用されているディジタル信号
プロセッサ(DSP)の一部として組み込まれることになる。このようなDSP
は信号の符号化/復号化、CDMA符号化、電力調整等のための制御素子を構成
するものとしてまたはそのために使用される。そのような素子は一般に無線装置
、および発明が提供するところの多数の他の装置で使用されるから、本発明に非
常に効率的な費用で組み込むためにそれらの存在を利用することができる。
【0036】 本発明のための復号化機能を持たせるために、小容量のメモリのみDSPに必
要であり、またはDSPに接続される。DSP内のまたはDSPを用いたスタン
ドアローンの復号器は音声合成能力を得るために非常に小容量のメモリ(プログ
ラムとデータの両方で)を必要とする。音声合成装置は、アナログ・デバイス社
およびクァルコム社から市販されているような周知のDSP回路およびデバイス
を用いて組み込むことができる。
【0037】 一般的にパルス符号変調(PCM)標本の形式の復号化パラメータはコーデッ
ク210に供給される。コーデック210はPCM標本をディジタル形式からア
ナログ信号に変換する。アナログ信号はスピーカ、または周囲の可聴装置環境に
合成した音声を出したりまたは放送する他の周知のオーディオ出力装置212に
供給される。
【0038】 その結果、可変率音声符号化に基づく音声合成装置は本発明により提供される
。この音声合成装置は、既に可変率ボコーダを有する無線装置で使用するのに特
に適している。言い換えれば、適当な使用を通して音声合成装置により採用され
ている既存の可変率ボコーダは、プログラムまたは操作命令に、または制御ハー
ドウェアの使用に変換する。ほかに、可変率符号化の使用により、達成される圧
縮は、無線装置またはそれが接続される他の装置に付随する限られた容量のメモ
リに予め決められた語彙を記憶させることができる。さらに、音声品質とメモリ
容量の間の見返り条件(トレードオフ)は、所望の音声品質とメモリ容量を備え
た音声合成装置を提供するために可変率ボコーダを配置するとき考慮するもので
ある。
【0039】 本発明は種々の通信装置およびインターフェース装置に使用することができる
。上記の実施例は、ユーザ端末、加入者電話、移動(モバイル)ステーション、
または簡単に、“ユーザ”、“モバイル”、または“加入者”としてしばしば引
用される、セルラおよび衛星電話のような無線通信装置に関して述べられている
。他に、例えば、メッセージ受信機およびデータ伝送装置(例えば、ポータブル
・コンピュータ、個人情報端末(PDA)、モデム、機械制御器)、または公衆
電話網または専用通信回線など、他の装置も考えられる。
【0040】 本発明は、所望の装置内に取付ける音声合成装置を構成するために専用素子ま
たは特定用途向けIC(ASIC)の形で別回路を用いて実装することができる
。代わりに、既存のディジタル信号プロセッサ素子と動作させるため小容量の付
加メモリを使用することにより他のASICおよびデバイスの中に組み込むこと
ができる。
【0041】 好ましい実施例の前の記述はこの分野に精通する人が誰でも本発明をなし或い
は用いることを可能にする。これらの実施例に対する種々の改良はこの分野に精
通する者には明白であり、この中で定義されている原理は独創能力を用いること
なしに他の実施例に適用することができる。かくして、本発明はこの中に示され
た実施例に限定されるものではなく、この中に開示されているその原理および新
規な特徴と両立する広範な分野に及ぶものである。
【図面の簡単な説明】
【図1】 可変率ボコーダのブロック図である。
【図2】 本発明の音声合成装置のブロック図である。
【符号の説明】
100…可変率ボコーダ 102…符号器 104…復号器 106…率決定
部 108…スイッチ 110…全率符号化部 112…二分の一率符号化部
114…四分の一率符号化部 116…八分の一率符号化部 118…スイッチ
120…全率復号部 122…二分の一率復号部 124…四分の一率復号部
126…八分の一率復号部 128…率抽出部 130…スイッチ 132…
スイッチ 202…可変率符号器 204…音声合成装置 206…フラッシュ
メモリ 208…可変率復号器 210…コーデック 212…オーディオ出力
装置
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,TZ,UG,ZW ),EA(AM,AZ,BY,KG,KZ,MD,RU, TJ,TM),AE,AL,AM,AT,AU,AZ, BA,BB,BG,BR,BY,CA,CH,CN,C R,CU,CZ,DE,DK,DM,EE,ES,FI ,GB,GD,GE,GH,GM,HR,HU,ID, IL,IN,IS,JP,KE,KG,KP,KR,K Z,LC,LK,LR,LS,LT,LU,LV,MA ,MD,MG,MK,MN,MW,MX,NO,NZ, PL,PT,RO,RU,SD,SE,SG,SI,S K,SL,TJ,TM,TR,TT,TZ,UA,UG ,UZ,VN,YU,ZA,ZW

Claims (23)

    【特許請求の範囲】
  1. 【請求項1】 可変率符号器により符号化される音声パラメータを記憶する
    ためのメモリ、 復号化音声標本を生成するため前記音声パラメータを復号するための可変率復
    号器、 前記音声標本を、合成音声として放送するためのアナログ信号に変換するディ
    ジタル対アナログ変換器、 を含む無線通信システムにおける音声合成のための装置。
  2. 【請求項2】 前記可変率符号器が線形予測に基づくものである請求項1の
    装置。
  3. 【請求項3】 前記可変率復号器が線形予測に基づくものである請求項1の
    装置。
  4. 【請求項4】 前記音声パラメータが全率、二分の一率、四分の一率、およ
    び八分の一率からなる可変率の組にて符号化される請求項1の装置。
  5. 【請求項5】 前記全率が13.2kbpsであり、前記二分の一率が約6
    .2kbpsであり、前記四分の一率が約2.7kbpsであり、そして前記八
    分の一率が約1.0kbpsである請求項4の装置。
  6. 【請求項6】 前記音声パラメータが一またはそれ以上の計測モード基準に
    応じて固定された率で符号化される請求項4の装置。
  7. 【請求項7】 前記音声パラメータが前記二分の一率にて固定された率で符
    号化される請求項4の装置。
  8. 【請求項8】 符号化率が音声の品質および前記メモリの容量の要求条件に
    従って選択される請求項4の装置。
  9. 【請求項9】 前記無線通信システムがCDMAシステムである請求項1の
    装置。
  10. 【請求項10】 音声を前記音声パラメータに符号化するための可変率符号
    器をさらに含む請求項1の装置。
  11. 【請求項11】 前記可変率符号器が予め選択された語彙に属する音声を符
    号化する請求項10の装置。
  12. 【請求項12】 前記可変率符号器が高性能化された可変率符号器である請
    求項10の装置。
  13. 【請求項13】 メモリに記憶された音声パラメータであって、可変率符号
    化法を用いて符号化された前記音声パラメータを引き出すステップ、 復号された音声標本を生成するため可変率符号化法を用いて前記音声パラメー
    タを復号するステップ、 前記音声標本を合成音声として放送するためのアナログ信号に変換するステッ
    プ、 を含む無線通信システムにおける音声合成のための方法。
  14. 【請求項14】 前記可変率符号化法が線形予測に基づくものである請求項
    13の方法。
  15. 【請求項15】 前記可変率復号法が線形予測に基づくものである請求項1
    3の方法。
  16. 【請求項16】 前記音声パラメータが全率、二分の一率、四分の一率、お
    よび八分の一率からなる可変率の組にて符号化される請求項13の方法。
  17. 【請求項17】 前記全率が13.2kbpsであり、前記二分の一率が約
    6.2kbpsであり、前記四分の一率が約2.7kbpsであり、そして前記
    八分の一率が約1.0kbpsである請求項16の方法。
  18. 【請求項18】 前記音声パラメータが一またはそれ以上の計測モード基準
    に応じて固定された率にて符号化される請求項16の方法。
  19. 【請求項19】 前記音声パラメータが前記二分の一率にて固定された率で
    符号化される請求項16の方法。
  20. 【請求項20】 符号化率が音声の品質および前記メモリの容量の要求条件
    に従って選択される請求項16の方法。
  21. 【請求項21】 前記無線通信システムがCDMAシステムである請求項1
    3の方法。
  22. 【請求項22】 入力音声信号を前記音声パラメータに符号化するステップ
    をさらに含む請求項13の方法。
  23. 【請求項23】 前記符号化のステップが予め選択された語彙に属する音声
    を符号化する請求項22の方法。
JP2000597796A 1999-02-08 2000-02-04 可変率音声符号化に基づいた音声合成装置 Expired - Fee Related JP4503853B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US24660599A 1999-02-08 1999-02-08
US09/246,605 1999-02-08
PCT/US2000/002900 WO2000046795A1 (en) 1999-02-08 2000-02-04 Speech synthesizer based on variable rate speech coding

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2009250670A Division JP2010092059A (ja) 1999-02-08 2009-10-30 可変率音声符号化に基づいた音声合成装置

Publications (3)

Publication Number Publication Date
JP2002536693A true JP2002536693A (ja) 2002-10-29
JP2002536693A5 JP2002536693A5 (ja) 2005-12-22
JP4503853B2 JP4503853B2 (ja) 2010-07-14

Family

ID=22931374

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2000597796A Expired - Fee Related JP4503853B2 (ja) 1999-02-08 2000-02-04 可変率音声符号化に基づいた音声合成装置
JP2009250670A Pending JP2010092059A (ja) 1999-02-08 2009-10-30 可変率音声符号化に基づいた音声合成装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2009250670A Pending JP2010092059A (ja) 1999-02-08 2009-10-30 可変率音声符号化に基づいた音声合成装置

Country Status (10)

Country Link
EP (1) EP1159738B1 (ja)
JP (2) JP4503853B2 (ja)
KR (1) KR100648872B1 (ja)
CN (1) CN1212604C (ja)
AT (1) ATE322731T1 (ja)
AU (1) AU3589100A (ja)
DE (1) DE60027140T2 (ja)
ES (1) ES2263459T3 (ja)
HK (1) HK1042980B (ja)
WO (1) WO2000046795A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002287784A (ja) * 2001-03-28 2002-10-04 Nec Corp 音声合成用圧縮素片作成装置、音声規則合成装置及びそれらに用いる方法並びにそのプログラム
KR100651731B1 (ko) * 2003-12-26 2006-12-01 한국전자통신연구원 가변 프레임 음성 부호화/복호화 장치 및 그 방법
JPWO2012104952A1 (ja) * 2011-02-03 2014-07-03 パナソニック株式会社 音声読上げ装置、音声出力装置、音声出力システム、音声読上げ方法および音声出力方法
WO2021040490A1 (en) * 2019-08-30 2021-03-04 Samsung Electronics Co., Ltd. Speech synthesis method and apparatus

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100425982B1 (ko) * 2001-12-29 2004-04-06 엘지전자 주식회사 아이엠티-2000 망의 음성 데이터 속도 변경 방법
CN101692685B (zh) * 2009-10-29 2012-05-30 中国电信股份有限公司 一种彩铃音质改善的方法和系统
CN106952651A (zh) * 2017-02-17 2017-07-14 福建星网智慧科技股份有限公司 一种语音处理装置传输语音的方法以及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01233500A (ja) * 1988-03-08 1989-09-19 Internatl Business Mach Corp <Ibm> 複数レート音声エンコーデイング方法
JPH0594199A (ja) * 1991-10-01 1993-04-16 Sanyo Electric Co Ltd 残差駆動型音声合成装置
JPH06511320A (ja) * 1991-06-11 1994-12-15 クゥアルコム・インコーポレイテッド 可変速度ボコーダ
JPH08263099A (ja) * 1995-03-23 1996-10-11 Toshiba Corp 符号化装置
JPH09503874A (ja) * 1994-08-05 1997-04-15 クゥアルコム・インコーポレイテッド 減少レート、可変レートの音声分析合成を実行する方法及び装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6137840A (en) * 1995-03-31 2000-10-24 Qualcomm Incorporated Method and apparatus for performing fast power control in a mobile communication system
US5790957A (en) * 1995-09-12 1998-08-04 Nokia Mobile Phones Ltd. Speech recall in cellular telephone
US5914950A (en) * 1997-04-08 1999-06-22 Qualcomm Incorporated Method and apparatus for reverse link rate scheduling
DE29717372U1 (de) * 1997-09-29 1997-11-27 Siemens Ag Integrierter Schaltkreis für ein mobiles Funkgerät mit Anrufbeantworterfunktion

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01233500A (ja) * 1988-03-08 1989-09-19 Internatl Business Mach Corp <Ibm> 複数レート音声エンコーデイング方法
JPH06511320A (ja) * 1991-06-11 1994-12-15 クゥアルコム・インコーポレイテッド 可変速度ボコーダ
JPH0594199A (ja) * 1991-10-01 1993-04-16 Sanyo Electric Co Ltd 残差駆動型音声合成装置
JPH09503874A (ja) * 1994-08-05 1997-04-15 クゥアルコム・インコーポレイテッド 減少レート、可変レートの音声分析合成を実行する方法及び装置
JPH08263099A (ja) * 1995-03-23 1996-10-11 Toshiba Corp 符号化装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002287784A (ja) * 2001-03-28 2002-10-04 Nec Corp 音声合成用圧縮素片作成装置、音声規則合成装置及びそれらに用いる方法並びにそのプログラム
KR100651731B1 (ko) * 2003-12-26 2006-12-01 한국전자통신연구원 가변 프레임 음성 부호화/복호화 장치 및 그 방법
JPWO2012104952A1 (ja) * 2011-02-03 2014-07-03 パナソニック株式会社 音声読上げ装置、音声出力装置、音声出力システム、音声読上げ方法および音声出力方法
JP5677470B2 (ja) * 2011-02-03 2015-02-25 パナソニックIpマネジメント株式会社 音声読上げ装置、音声出力装置、音声出力システム、音声読上げ方法および音声出力方法
WO2021040490A1 (en) * 2019-08-30 2021-03-04 Samsung Electronics Co., Ltd. Speech synthesis method and apparatus
US11404045B2 (en) 2019-08-30 2022-08-02 Samsung Electronics Co., Ltd. Speech synthesis method and apparatus

Also Published As

Publication number Publication date
JP4503853B2 (ja) 2010-07-14
CN1347548A (zh) 2002-05-01
HK1042980B (zh) 2005-12-23
WO2000046795A9 (en) 2001-10-18
DE60027140T2 (de) 2007-01-11
EP1159738A1 (en) 2001-12-05
DE60027140D1 (de) 2006-05-18
AU3589100A (en) 2000-08-25
KR20020012157A (ko) 2002-02-15
JP2010092059A (ja) 2010-04-22
ATE322731T1 (de) 2006-04-15
EP1159738B1 (en) 2006-04-05
ES2263459T3 (es) 2006-12-16
CN1212604C (zh) 2005-07-27
KR100648872B1 (ko) 2006-11-24
HK1042980A1 (en) 2002-08-30
WO2000046795A1 (en) 2000-08-10

Similar Documents

Publication Publication Date Title
JP4444749B2 (ja) 減少レート、可変レートの音声分析合成を実行する方法及び装置
US6615169B1 (en) High frequency enhancement layer coding in wideband speech codec
JP4870313B2 (ja) 可変レート音声符号器におけるフレーム消去補償方法
US7165035B2 (en) Compressed domain conference bridge
JP2006502426A (ja) ソース制御された可変ビットレート広帯域音声の符号化方法および装置
US20060235685A1 (en) Framework for voice conversion
JP2010092059A (ja) 可変率音声符号化に基づいた音声合成装置
US20030195745A1 (en) LPC-to-MELP transcoder
TWI326447B (en) Method and information processing system for quantizing class information and pitch information of audio, and method in distributed speech recognition system
JP2001242896A (ja) 音声符号化/復号装置およびその方法
KR101011320B1 (ko) 스피치를 저장, 전송 및 재생하기 위하여 포즈 프레임을 식별하여 제외하는 방법 및 장치
JP5199281B2 (ja) 第1のビット・レートに関連する第1のパケットを、第2のビット・レートに関連する第2のパケットにディミング(dimming)するシステム及び方法
US20030065512A1 (en) Communication device and a method for transmitting and receiving of natural speech
US20050102136A1 (en) Speech codecs
US6173254B1 (en) Recorded message playback system for a variable bit rate system

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040818

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040818

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080826

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20081126

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20081203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090225

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090630

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091030

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20091111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100323

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100422

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130430

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees