JP3563756B2 - 音声合成システム - Google Patents
音声合成システム Download PDFInfo
- Publication number
- JP3563756B2 JP3563756B2 JP01249294A JP1249294A JP3563756B2 JP 3563756 B2 JP3563756 B2 JP 3563756B2 JP 01249294 A JP01249294 A JP 01249294A JP 1249294 A JP1249294 A JP 1249294A JP 3563756 B2 JP3563756 B2 JP 3563756B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- dictionary
- processing unit
- speech
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 88
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 87
- 238000001514 detection method Methods 0.000 claims abstract description 183
- 238000012545 processing Methods 0.000 claims abstract description 183
- 238000005070 sampling Methods 0.000 claims description 86
- 238000013139 quantization Methods 0.000 claims description 81
- 230000006870 function Effects 0.000 claims description 61
- 230000006386 memory function Effects 0.000 claims description 37
- 238000011161 development Methods 0.000 claims description 19
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 claims description 4
- 230000004044 response Effects 0.000 abstract description 4
- 238000000034 method Methods 0.000 description 28
- 230000008569 process Effects 0.000 description 28
- 230000008859 change Effects 0.000 description 4
- 230000000877 morphologic effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
【産業上の利用分野】
本発明は、入力テキストの合成音声信号を生成するソフトウェア構成の音声合成システムに関し、特に、走行する計算機に最適となる音声合成処理を実現する音声合成システムに関する。
【0002】
【従来の技術】
図27に、ソフトウェアで構成される音声合成システムの全体構成を図示する。
【0003】
図中、1は二次記憶装置に展開される単語辞書であって、単語の表記や、読みや、アクセントや、品詞情報等の単語情報を管理するもの、2は二次記憶装置に展開される音声辞書であって、合成単位毎に、音声波形あるいは音声パラメータ(PARCOR係数等といった音声を特徴付けるパラメータ)といった音声データを管理するものである。
【0004】
3はソフトウェアで構成される言語処理部であって、形態素解析部10/係り受け解析部11/韻律記号生成部12/単語辞書バッファ13を備えることで、入力テキストに対して、音声合成のための言語処理を実行するもの、4はソフトウェアで構成される音響処理部であって、音声時間長決定部14/基本周波数パターン生成部15/波形生成部16/音声辞書バッファ17を備えることで、入力テキストの合成音声信号を生成するもの、5はハードウェアで構成されるDA変換器であって、音響処理部4の生成する合成音声信号をアナログ信号に変換するものである。
【0005】
このように構成される音声合成システムでは、最初に、形態素解析部10が、単語辞書バッファ13に展開される単語辞書1の単語情報を参照しつつ、入力テキストを構成する形態素(単語)を解析して、各単語の読みを決定するとともに、アクセントや品詞等の情報を得る。続いて、係り受け解析部11が、形態素解析部10の得た品詞情報等から、各文節の係り受け(修飾)関係を解析する。続いて、韻律記号生成部12が、アクセントや息継ぎを示す韻律記号を生成するとともに、各単語のアクセント情報とアクセント接続規則から最終的な単語のアクセント位置を決定し、更に、文節の係り受け情報から息継ぎ位置を決定する。
【0006】
続いて、音声時間長決定部14が、読みに対応する各音節(音素)の時間長を決定する。続いて、基本周波数パターン生成部15が、韻律記号からイントネーションやアクセントに相当する物理量である基本周波数の時間変化パターンを生成する。続いて、波形生成部16が、音声辞書バッファ17に展開される音声辞書2の音声データの中から、合成すべき音節(音素)に対応する音声データを読み出し、時間長と基本周波数パターンとに基づいて合成音声信号を生成する。
【0007】
そして、最後に、DA変換器5が、波形生成部16の生成する合成音声信号をアナログ信号に変換して出力する。
このような構成を採る音声合成システムでは、従来、実用的な音声合成性能(処理速度や音質レベル)を実現するために、ソフトウェアを展開する計算機として規定のハードウェア性能を持つものを要求して、その計算機でもって音声合成処理を実行するという構成を採っていた。
【0008】
すなわち、実用的な音声合成機能を実現するためには、単語辞書1に登録される単語数を多くする必要があるとともに、音声辞書2に登録される音声データのサンプリング周波数や量子化レベル数を大きくする必要があり、また、合成音声信号をアナログ信号に変換するDA変換器5の変換機能もそれに応じたものである必要があることから、そのようなものを扱えるハードウェアを持つ計算機を要求して、その計算機でもって音声合成処理を実行するという構成を採っていたのである。
【0009】
【発明が解決しようとする課題】
しかしながら、このような従来技術に従っていると、ユーザは、音声合成システムを構築する場合には、その音声合成システムの要求するハードウェア性能を持つ計算機を用意しなければならないという問題点があった。
【0010】
また、メーカからすると、ユーザの持つ計算機のハードウェア性能に合わせて、いくつかのレベルの音声合成機能を実現する複数のソフトウェアを用意しなけれはならないという問題点があった。
【0011】
本発明はかかる事情に鑑みてなされたものであって、走行する計算機に最適となる音声合成処理を実現する新たな音声合成システムの提供を目的とする。
【0012】
【課題を解決するための手段】
図1に本発明の原理構成を図示する。
図中、100は本発明の音声合成システムのソフトウェアを展開する計算機、1は計算機100の持つ二次記憶装置に展開されて、音声合成処理に必要となる単語情報を管理する単語辞書、2は計算機100の持つ二次記憶装置に展開されて、音声合成処理に必要となる音声データ(48KHz×16ビットといった時系列データ)を管理する音声辞書である。
【0013】
計算機100は、音声合成システムを構築するために、言語処理部3と、音響処理部4と、DA変換器5と、検出部6と、調整部7と、ビット調整部7aと、周波数調整部7bと、単語情報展開域8と、音声データ展開域9とを備える。
【0014】
この言語処理部3は、入力テキストに対して、単語辞書1の管理する単語情報データを使って音声合成のための言語処理を実行する。音響処理部4は、言語処理部3の処理結果を受けて、音声辞書2の管理する音声データを使って入力テキストの合成音声信号を生成する。DA変換器5は、音響処理部4の生成する合成音声信号をハード的にアナログ信号に変換する。
【0015】
検出部6は、システムの走行する計算機の持つハードウェアの性能又は状態を検出する。この検出部6として、CPUの性能又はCPUの負荷を検出するCPU機能検出部や、メモリの容量又はメモリの使用状況を検出するメモリ機能検出部や、二次記憶装置のアクセス性能を検出する二次記憶装置機能検出部や、DA変換器5のDA変換性能を検出するDA変換機能検出部があって、これらの内の少なくとも1つが備えられることになる。
【0016】
調整部7は、検出部6の検出結果に応じて、言語処理部3及び音響処理部4に与える辞書情報を調整する。
この調整部7は、具体的には、(イ)検出部6の検出結果に応じて、言語処理部3に与える単語情報の量に関する情報を決定し、また、音響処理部4に与える音声データの質又は量に関する情報を決定する決定部と、(ロ)決定部の決定に応じて、単語辞書1から言語処理部3に与える単語情報を読み出して、言語処理部3がアクセスする単語情報展開域8に展開したり、音声辞書2から音響処理部4に与える音声データを読み出して、音響処理部4がアクセスする音声データ展開域9に展開する展開部とを備えることで、検出部6の検出結果に応じて、言語処理部3及び音響処理部4に与える辞書情報を調整する処理を行う。
ビット調整部7aは、音響処理部4の後段に備えられて、検出部6として備えられるDA変換機能検出部の検出結果に応じて、音響処理部4の生成する合成音声信号のビットデータを調整する。周波数調整部7bは、音響処理部4の後段に備えられて、検出部6として備えられるDA変換機能検出部の検出結果に応じて、音響処理部4の生成する合成音声信号のサンプリング周波数を調整する。
【0017】
単語情報展開域8は、調整部7の調整する単語情報を展開する。この単語情報展開域8に展開される単語情報が、言語処理部3によりアクセスされることになる。音声データ展開域9は、調整部7の調整する音声データを展開する。この音声データ展開域9に展開される音声データが、音響処理部4によりアクセスされることになる。
【0018】
ここで、この構成を採るときにあって、検出部6の代わりに、対話処理に従って、ハードウェアの能力情報を設定する設定部を備える構成を採ることも可能である。
【0019】
【作用】
本発明では、検出部6は、CPU機能検出部に従って、CPUの性能又はCPUの負荷を検出したり、メモリ機能検出部に従って、メモリの容量又はメモリの使用状況を検出したり、二次記憶装置機能検出部に従って、二次記憶装置のアクセス性能を検出したり、DA変換機能検出部に従って、DA変換器5の量子化性能や周波数性能を検出する。
【0020】
このようにして、検出部6が計算機100の持つハードウェアの性能又は状態を検出すると、調整部7は、例えば、メモリに余裕があるときには、単語辞書1に格納される単語情報を沢山読み出して単語情報展開域8に展開していくというように、その検出結果に応じて、言語処理部3に与える単語情報を調整し、そして、例えば、CPUの能力が十分あるときには、例えば、音声辞書2に格納される音声データを密にサンプリングして音声データ展開域9に展開していくというように、その検出結果に応じて、音声データの量子化ビット数を調整して音声データ展開域9に展開したり、音声データのサンプリング周波数を調整して音声データ展開域9に展開したり、音声データの供給量を調整して音声データ展開域9に展開したり、あるいは、これらの組み合わせを使うことで、音響処理部4に与える音声データを調整する。
【0021】
一方、ビット調整部7aは、検出部6がDA変換器5の量子化ビット数を検出するときにあって、検出された量子化ビット数と、音響処理部4に与えられる音声データの量子化ビット数とが一致しないことで、DA変換器5の量子化ビット数と、音響処理部4の生成する合成音声信号の量子化ビット数とが一致しないときには、その検出された量子化ビット数に従って、音響処理部4の生成する合成音声信号のビットデータを調整する。
【0022】
そして、周波数調整部7bは、検出部6がDA変換器5のサンプリング周波数を検出するときにあって、検出されたサンプリング周波数と、音響処理部4に与えられる音声データのサンプリング周波数とが一致しないことで、DA変換器5のサンプリング周波数と、音響処理部4の生成する合成音声信号のサンプリング周波数とが一致しないときには、その検出されたサンプリング周波数に従って、音響処理部4の生成する合成音声信号のサンプリング周波数を調整する。
【0023】
これらの調整処理を受けて、言語処理部3/音響処理部4は、ハードウェア能力が十分あるときには、優れた性能の音声合成処理を実行するとともに、ハードウェア能力が十分でないときにも、その範囲内で最適な性能を発揮する音声合成処理を実行できるようになる。
【0024】
このように、本発明を用いることで、走行する計算機100に最適となる音声合成処理を実現できるようになるので、ユーザは、手持ちの計算機100を使って、快適な音声合成システムを構築できるようになる。
【0025】
【実施例】
以下、実施例に従って本発明を詳細に説明する。
図2ないし図5に、検出部6として、CPU機能検出部60を用いる構成の一実施例を図示する。ここで、図中の90は、音声データ展開域9に対応する音声データバッファである。
【0026】
このCPU機能検出部60は、例えば、テストプログラムを実行して、その実行時間を評価することでCPUの性能又はCPUの負荷を検出したり、オペレーティングシステムに問い合わせることで、32ビットマシンといったようなCPUの性能を検出するものであり、例えば、この検出結果を予め定められるレベル値で表現するよう処理することになる。
【0027】
図2に示す実施例では、異なるサンプリング周波数の音声データを管理する複数の音声辞書2−i(i=1〜n)を備える構成を採るとともに、調整部7として、サンプリング周波数決定部700及び音声辞書選択部701から構成されるものを用いる構成を採っている。
【0028】
このように構成される図2の実施例では、CPU機能検出部60がCPUの性能又はCPUの負荷を検出して、その検出結果のレベル値を求めると、サンプリング周波数決定部700は、CPU機能検出部60から高いCPU能力を表示するレベル値が与えられるときには、処理能力が高いことから、例えば、48KHzのサンプリング周波数の音声データの使用を決定し、また、低いCPU能力を表示するレベル値が与えられるときには、処理能力が低いことから、例えば、8KHzのサンプリング周波数の音声データの使用を決定するというように、CPU機能検出部60の検出するレベル値に応じて音声データのサンプリング周波数を決定する。
【0029】
そして、音声辞書選択部701は、このサンプリング周波数決定部700の決定結果を受けて、その決定されたサンプリング周波数の音声データを管理する音声辞書2−iから対応の音声データを読み出して音声データバッファ90に展開していく。
【0030】
このようにして、図2の実施例では、CPUの能力に応じて、音声データバッファ90に展開する音声データのサンプリング周波数を変化させていくことで、音響処理部4に与える音声データのデータ量を調整して、CPUの能力にあった音声合成処理を実現していくよう処理するものである。
【0031】
一方、図3に示す実施例では、例えば、48KHzといった高いサンプリング周波数の音声データを管理する単一の音声辞書2を備える構成を採るとともに、調整部7として、サンプリング周波数決定部700及びダウンサンプリング処理部702から構成されるものを用いる構成を採っている。
【0032】
このように構成される図3の実施例では、CPU機能検出部60がCPUの性能又はCPUの負荷を検出して、その検出結果のレベル値を求めると、サンプリング周波数決定部700は、上述のように、そのレベル値に応じて音声データのサンプリング周波数を決定する。
【0033】
そして、ダウンサンプリング処理部702は、このサンプリング周波数決定部700の決定結果を受けて、例えば、サンプリング周波数決定部700が48KHzのサンプリング周波数を決定するときには、音声辞書2に格納される音声データをそのまま読み出して音声データバッファ90に展開し、また、例えば、16KHzのサンプリング周波数を決定するときには、音声辞書2に格納される音声データを16KHzにダウンサンプリングしながら読み出して音声データバッファ90に展開していく。
【0034】
このようにして、図3の実施例では、CPUの能力に応じて、音声データバッファ90に展開する音声データのサンプリング周波数を変化させていくことで、音響処理部4に与える音声データのデータ量を調整して、CPUの能力にあった音声合成処理を実現していくよう処理するものである。
【0035】
一方、図4に示す実施例では、異なる量子化ビット数の音声データを管理する複数の音声辞書2−i(i=1〜n)を備える構成を採るとともに、調整部7として、量子化ビット決定部703及び音声辞書選択部701から構成されるものを用いる構成を採っている。
【0036】
このように構成される図4の実施例では、CPU機能検出部60がCPUの性能又はCPUの負荷を検出して、その検出結果のレベル値を求めると、量子化ビット決定部703は、CPU機能検出部60から高いCPU能力を表示するレベル値が与えられるときには、処理能力が高いことから、例えば、16ビットの音声データの使用を決定し、また、低いCPU能力を表示するレベル値が与えられるときには、処理能力が低いことから、例えば、8ビットの音声データの使用を決定するというように、CPU機能検出部60の検出するレベル値に応じて音声データの量子化ビット数を決定する。
【0037】
そして、音声辞書選択部701は、この量子化ビット決定部703の決定結果を受けて、その決定された量子化ビット数の音声データを管理する音声辞書2−iから対応の音声データを読み出して音声データバッファ90に展開していく。
【0038】
このようにして、図4の実施例では、CPUの能力に応じて、音声データバッファ90に展開する音声データの量子化ビット数を変化させていくことで、音響処理部4に与える音声データのデータ量を調整して、CPUの能力にあった音声合成処理を実現していくよう処理するものである。
【0039】
一方、図5に示す実施例では、例えば、16ビットといった大きい量子化ビット数の音声データを管理する単一の音声辞書2を備える構成を採るとともに、調整部7として、量子化ビット決定部703及び量子化ビット変更部704から構成されるものを用いる構成を採っている。
【0040】
このように構成される図5の実施例では、CPU機能検出部60がCPUの性能又はCPUの負荷を検出して、その検出結果のレベル値を求めると、量子化ビット決定部703は、上述のように、そのレベル値に応じて音声データの量子化ビット数を決定する。
【0041】
そして、量子化ビット変更部704は、この量子化ビット決定部703の決定結果を受けて、例えば、量子化ビット決定部703が16ビットの量子化ビット数を決定するときには、音声辞書2に格納される音声データをそのまま読み出して音声データバッファ90に展開し、また、例えば、8ビットの量子化ビット数を決定するときには、音声辞書2に格納される音声データを8ビットに変更しながら読み出して音声データバッファ90に展開していく。
【0042】
このようにして、図5の実施例では、CPUの能力に応じて、音声データバッファ90に展開する音声データの量子化ビット数を変化させていくことで、音響処理部4に与える音声データのデータ量を調整して、CPUの能力にあった音声合成処理を実現していくよう処理するものである。
【0043】
以上説明したように、図2ないし図5の実施例では、CPU機能検出部60の検出結果に応じて、音響処理部4に与える音声データのデータ量を調整して、CPUの能力にあった音声合成処理を実現していくよう処理するものである。なお、CPU機能検出部60の検出結果に応じて、言語処理部3に与える単語情報のデータ量を調整していくことで、CPUの能力にあった音声合成処理を実現していく構成を採ることも可能である。
【0044】
図6ないし図14に、検出部6として、メモリ機能検出部61を用いる構成の一実施例を図示する。ここで、図中の80は、単語情報展開域8に対応する単語情報バッファである。
【0045】
このメモリ機能検出部61は、例えば、オペレーティングシステムに問い合わせることで、メモリの容量又はメモリの使用状況を検出するものであり、例えば、この検出結果を予め定められるレベル値で表現するよう処理することになる。
【0046】
図6に示す実施例では、異なるサンプリング周波数の音声データを管理する複数の音声辞書2−i(i=1〜n)を備える構成を採るとともに、調整部7として、サンプリング周波数決定部700及び音声辞書選択部701から構成されるものを用いる構成を採っている。
【0047】
このように構成される図6の実施例では、メモリ機能検出部61がメモリの容量又はメモリの使用状況を検出して、その検出結果のレベル値を求めると、サンプリング周波数決定部700は、メモリ機能検出部61から高いメモリ能力を表示するレベル値が与えられるときには、メモリに余裕があることから、例えば、48KHzのサンプリング周波数の音声データの使用を決定し、また、低いメモリ能力を表示するレベル値が与えられるときには、メモリに余裕がないことから、例えば、16KHzのサンプリング周波数の音声データの使用を決定するというように、メモリ機能検出部61の検出するレベル値に応じて音声データのサンプリング周波数を決定する。
【0048】
そして、音声辞書選択部701は、このサンプリング周波数決定部700の決定結果を受けて、その決定されたサンプリング周波数の音声データを管理する音声辞書2−iから対応の音声データを読み出して音声データバッファ90に展開していく。
【0049】
このようにして、図6の実施例では、メモリの能力に応じて、音声データバッファ90に展開する音声データのサンプリング周波数を変化させていくことで、音響処理部4に与える音声データのデータ量を調整して、メモリの能力にあった音声合成処理を実現していくよう処理するものである。
【0050】
一方、図7に示す実施例では、例えば、48KHzといった高いサンプリング周波数の音声データを管理する単一の音声辞書2を備える構成を採るとともに、調整部7として、サンプリング周波数決定部700及びダウンサンプリング処理部702から構成されるものを用いる構成を採っている。
【0051】
このように構成される図7の実施例では、メモリ機能検出部61がメモリの容量又はメモリの使用状況を検出して、その検出結果のレベル値を求めると、サンプリング周波数決定部700は、上述のように、そのレベル値に応じて音声データのサンプリング周波数を決定する。
【0052】
そして、ダウンサンプリング処理部702は、このサンプリング周波数決定部700の決定結果を受けて、例えば、サンプリング周波数決定部700が48KHzのサンプリング周波数を決定するときには、音声辞書2に格納される音声データをそのまま読み出して音声データバッファ90に展開し、また、例えば、16KHzのサンプリング周波数を決定するときには、音声辞書2に格納される音声データを16KHzにダウンサンプリングしながら読み出して音声データバッファ90に展開していく。
【0053】
このようにして、図7の実施例では、メモリの能力に応じて、音声データバッファ90に展開する音声データのサンプリング周波数を変化させていくことで、音響処理部4に与える音声データのデータ量を調整して、メモリの能力にあった音声合成処理を実現していくよう処理するものである。
【0054】
一方、図8に示す実施例では、異なる量子化ビット数の音声データを管理する複数の音声辞書2−i(i=1〜n)を備える構成を採るとともに、調整部7として、量子化ビット決定部703及び音声辞書選択部701から構成されるものを用いる構成を採っている。
【0055】
このように構成される図8の実施例では、メモリ機能検出部61がメモリの容量又はメモリの使用状況を検出して、その検出結果のレベル値を求めると、量子化ビット決定部703は、メモリ機能検出部61から高いメモリ能力を表示するレベル値が与えられるときには、メモリに余裕があることから、例えば、16ビットの音声データの使用を決定し、また、低いメモリ能力を表示するレベル値が与えられるときには、メモリに余裕がないことから、例えば、8ビットの音声データの使用を決定するというように、メモリ機能検出部61の検出するレベル値に応じて音声データの量子化ビット数を決定する。
【0056】
そして、音声辞書選択部701は、この量子化ビット決定部703の決定結果を受けて、その決定された量子化ビット数の音声データを管理する音声辞書2−iから対応の音声データを読み出して音声データバッファ90に展開していく。
【0057】
このようにして、図8の実施例では、メモリの能力に応じて、音声データバッファ90に展開する音声データの量子化ビット数を変化させていくことで、音響処理部4に与える音声データのデータ量を調整して、メモリの能力にあった音声合成処理を実現していくよう処理するものである。
【0058】
一方、図9に示す実施例では、例えば、16ビットといった大きい量子化ビット数の音声データを管理する単一の音声辞書2を備える構成を採るとともに、調整部7として、量子化ビット決定部703及び量子化ビット変更部704から構成されるものを用いる構成を採っている。
【0059】
このように構成される図9の実施例では、メモリ機能検出部61がメモリの容量又はメモリの使用状況を検出して、その検出結果のレベル値を求めると、量子化ビット決定部703は、上述のように、そのレベル値に応じて音声データの量子化ビット数を決定する。
【0060】
そして、量子化ビット変更部704は、この量子化ビット決定部703の決定結果を受けて、例えば、量子化ビット決定部703が16ビットの量子化ビット数を決定するときには、音声辞書2に格納される音声データをそのまま読み出して音声データバッファ90に展開し、また、例えば、8ビットの量子化ビット数を決定するときには、音声辞書2に格納される音声データを8ビットに変更しながら読み出して音声データバッファ90に展開していく。
【0061】
このようにして、図9の実施例では、メモリの能力に応じて、音声データバッファ90に展開する音声データの量子化ビット数を変化させていくことで、音響処理部4に与える音声データのデータ量を調整して、メモリの能力にあった音声合成処理を実現していくよう処理するものである。
【0062】
一方、図10に示す実施例では、単一の音声辞書2を備える構成を採るとともに、調整部7として、複数の音声辞書インデックス705−i(i=1〜m)と、音声辞書インデックス選択部706と、音声辞書ダウンロード制御部707とから構成されるものを用いる構成を採っている。
【0063】
このように構成される図10の実施例では、メモリ機能検出部61がメモリの容量又はメモリの使用状況を検出して、その検出結果のレベル値を求めると、音声辞書インデックス選択部706は、メモリ機能検出部61から高いメモリ能力を表示するレベル値が与えられるときには、メモリに余裕があることから、高い品質の音声合成処理を実現する音声データを指すインデックスを管理対象とする音声辞書インデックス705−iの使用を決定し、また、低いメモリ能力を表示するレベル値が与えられるときには、メモリに余裕がないことから、低い品質の音声合成処理を実現する音声データを指すインデックスを管理対象とする音声辞書インデックス705−iの使用を決定するというように、メモリ機能検出部61の検出するレベル値に応じて使用する音声辞書インデックス705−iを決定する。
【0064】
すなわち、メモリに余裕がないときには、例えば、音声データ「SA」にも兼用できる音声データ「A」だけを指すインデックスを管理対象するような音声辞書インデックス705−iの使用を決定し、メモリに余裕があるときには、例えば、音声データ「SA」と音声データ「A」の双方を指すインデックスを管理するような音声辞書インデックス705−iの使用を決定するのである。
【0065】
そして、音声辞書ダウンロード制御部707は、この音声辞書インデックス選択部706の決定結果を受けて、音声辞書2から、その決定された音声辞書インデックス705−iの管理するインデックスの指す音声データを読み出して音声データバッファ90に展開していく。
【0066】
このようにして、図10の実施例では、メモリの能力に応じて、音声データバッファ90に展開する音声データの品質を変化させていくことで、音響処理部4に与える音声データのデータ量を調整して、メモリの能力にあった音声合成処理を実現していくよう処理するものである。
【0067】
一方、図11に示す実施例では、単一の音声辞書2を備える構成を採るとともに、調整部7として、音声データ頻度テーブル708と、頻度閾値決定部709と、音声辞書ダウンロード制御部707とから構成されるものを用いる構成を採っている。
【0068】
このように構成される図11の実施例では、メモリ機能検出部61がメモリの容量又はメモリの使用状況を検出して、その検出結果のレベル値を求めると、頻度閾値決定部709は、メモリ機能検出部61から高いメモリ能力を表示するレベル値が与えられるときには、メモリに余裕があることから、沢山の音声データの展開を実現すべく使用頻度の閾値として小さな値を決定し、また、低いメモリ能力を表示するレベル値が与えられるときには、メモリに余裕がないことから、少ない音声データの展開を実現すべく使用頻度の閾値として大きな値を決定するというように、メモリ機能検出部61の検出するレベル値に応じて音声データの使用頻度の閾値を決定する。
【0069】
そして、音声辞書ダウンロード制御部707は、この頻度閾値決定部709の決定結果を受けて、音声データの頻度情報を管理する音声データ頻度テーブル708の管理データに従って、音声辞書2から、その決定された頻度閾値よりも大きな使用頻度を示す音声データを読み出して音声データバッファ90に展開していく。
【0070】
このようにして、図11の実施例では、メモリの能力に応じて、音声データバッファ90に展開する音声データの数を変化させていくことで、音響処理部4に与える音声データのデータ量を調整して、メモリの能力にあった音声合成処理を実現していくよう処理するものである。
【0071】
一方、図12に示す実施例では、男の声、女の声、子供の声、老人の声といった異なる声質の音声データを管理する複数の音声辞書2−i(i=1〜n)を備える構成を採るとともに、調整部7として、声質決定部710及び音声辞書選択部701から構成されるものを用いる構成を採っている。
【0072】
このように構成される図12の実施例では、メモリ機能検出部61がメモリの容量又はメモリの使用状況を検出して、その検出結果のレベル値を求めると、声質決定部710は、メモリ機能検出部61から高いメモリ能力を表示するレベル値が与えられるときには、メモリに余裕があることから、沢山の声質の音声データの展開を実現すべく複数の声質を決定し、また、低いメモリ能力を表示するレベル値が与えられるときには、メモリに余裕がないことから、例えば1つの声質の音声データの展開を実現すべく特定の声質を決定するというように、メモリ機能検出部61の検出するレベル値に応じて音声データの声質を決定する。
【0073】
そして、音声辞書選択部701は、この声質決定部710の決定結果を受けて、その決定された声質の音声データを管理する音声辞書2−iから対応の音声データを読み出して音声データバッファ90に展開していく。
【0074】
このようにして、図12の実施例では、メモリの能力に応じて、音声データバッファ90に展開する音声データの声質の種類数を変化させていくことで、音響処理部4に与える音声データのデータ量を調整して、メモリの能力にあった音声合成処理を実現していくよう処理するものである。
【0075】
一方、図13に示す実施例では、単一の単語辞書1を備える構成を採るとともに、調整部7として、複数の単語辞書インデックス711−i(i=1〜m)と、単語辞書インデックス選択部712と、単語辞書ダウンロード制御部713とから構成されるものを用いる構成を採っている。
【0076】
このように構成される図13の実施例では、メモリ機能検出部61がメモリの容量又はメモリの使用状況を検出して、その検出結果のレベル値を求めると、単語辞書インデックス選択部712は、メモリ機能検出部61から高いメモリ能力を表示するレベル値が与えられるときには、メモリに余裕があることから、高い品質の音声合成処理を実現する単語情報を指すインデックスを管理対象とする単語辞書インデックス711−iの使用を決定し、また、低いメモリ能力を表示するレベル値が与えられるときには、メモリに余裕がないことから、低い品質の音声合成処理を実現する単語情報を指すインデックスを管理対象とする単語辞書インデックス711−iの使用を決定するというように、メモリ機能検出部61の検出するレベル値に応じて使用する単語辞書インデックス711−iを決定する。
【0077】
そして、単語辞書ダウンロード制御部713は、この単語辞書インデックス選択部712の決定結果を受けて、単語辞書1から、その決定された単語辞書インデックス711−iの管理するインデックスの指す単語情報を読み出して単語情報バッファ80に展開していく。
【0078】
このようにして、図13の実施例では、メモリの能力に応じて、単語情報バッファ80に展開する単語情報の品質を変化させていくことで、言語処理部3に与える単語情報のデータ量を調整して、メモリの能力にあった音声合成処理を実現していくよう処理するものである。
【0079】
一方、図14に示す実施例では、単一の単語辞書1を備える構成を採るとともに、調整部7として、単語頻度テーブル714と、単語頻度閾値決定部715と、単語辞書ダウンロード制御部713とから構成されるものを用いる構成を採っている。
【0080】
このように構成される図14の実施例では、メモリ機能検出部61がメモリの容量又はメモリの使用状況を検出して、その検出結果のレベル値を求めると、単語頻度閾値決定部715は、メモリ機能検出部61から高いメモリ能力を表示するレベル値が与えられるときには、メモリに余裕があることから、沢山の単語情報の展開を実現すべく使用頻度の閾値として小さな値を決定し、また、低いメモリ能力を表示するレベル値が与えられるときには、メモリに余裕がないことから、少ない単語情報の展開を実現すべく使用頻度の閾値として大きな値を決定するというように、メモリ機能検出部61の検出するレベル値に応じて単語情報の使用頻度の閾値を決定する。
そして、単語辞書ダウンロード制御部713は、この単語頻度閾値決定部715の決定結果を受けて、単語情報の頻度情報を管理する単語頻度テーブル714の管理データに従って、単語辞書1から、その決定された頻度閾値よりも大きな使用頻度を示す単語情報を読み出して単語情報バッファ80に展開していく。
【0081】
このようにして、図14の実施例では、メモリの能力に応じて、単語情報バッファ80に展開する単語情報の数を変化させていくことで、言語処理部3に与える単語情報のデータ量を調整して、メモリの能力にあった音声合成処理を実現していくよう処理するものである。
【0082】
以上説明したように、図6ないし図14の実施例では、メモリ機能検出部61の検出結果に応じて、音響処理部4に与える音声データのデータ量や、言語処理部3に与える単語情報のデータ量を調整していくことで、メモリの能力にあった音声合成処理を実現していくよう処理するものである。
【0083】
図15ないし図18に、検出部6として、二次記憶装置機能検出部62を用いる構成の一実施例を図示する。
この二次記憶装置機能検出部62は、例えば、実際にリード処理を実行することで、二次記憶装置のアクセス性能を検出するものであり、例えば、この検出結果を予め定められるレベル値で表現するよう処理することになる。
【0084】
図15に示す実施例では、単一の音声辞書2を備える構成を採るとともに、調整部7として、複数の音声辞書インデックス705−i(i=1〜m)と、音声辞書インデックス選択部706と、音声辞書ダウンロード制御部707とから構成されるものを用いる構成を採っている。
【0085】
このように構成される図15の実施例では、二次記憶装置機能検出部62が音声辞書2の音声データをリードすることで、音声辞書2を展開する二次記憶装置のアクセス性能を検出して、その検出結果のレベル値を求めると、音声辞書インデックス選択部706は、二次記憶装置機能検出部62から高速のアクセス性能を表示するレベル値が与えられるときには、その都度音声辞書2にアクセスすることでも対処できることから、低い品質の音声合成処理を実現する音声データを指すインデックスを管理対象とする音声辞書インデックス705−iの使用を決定し、また、低速のアクセス性能を表示するレベル値が与えられるときには、その都度音声辞書2にアクセスすることでは対処できないことから、高い品質の音声合成処理を実現する音声データを指すインデックスを管理対象とする音声辞書インデックス705−iの使用を決定するというように、二次記憶装置機能検出部62の検出するレベル値に応じて使用する音声辞書インデックス705−iを決定する。
【0086】
すなわち、音声辞書2を展開する二次記憶装置のアクセス性能が良いときには、例えば、音声データ「SA」にも兼用できる音声データ「A」だけを指すインデックスを管理対象するような音声辞書インデックス705−iの使用を決定し、アクセス性能が悪いときには、例えば、音声データ「SA」と音声データ「A」の双方を指すインデックスを管理するような音声辞書インデックス705−iの使用を決定するのである。
【0087】
そして、音声辞書ダウンロード制御部707は、この音声辞書インデックス選択部706の決定結果を受けて、音声辞書2から、その決定された音声辞書インデックス705−iの管理するインデックスの指す音声データを読み出して音声データバッファ90に展開していく。ここで、この構成を採るときにあって、音響処理部4は、音声データバッファ90に高い品質の音声合成処理を実現するための音声データが展開されていないときには、その音声データを高速アクセスを実行する二次記憶装置の音声辞書2に直接アクセスしていくよう処理することになる。
【0088】
このようにして、図15の実施例では、二次記憶装置のアクセス性能に応じて、音声データバッファ90に展開する音声データの品質を変化させていくことで、音響処理部4に与える音声データのデータ量を調整して、二次記憶装置のアクセス性能にあった音声合成処理を実現していくよう処理するものである。
【0089】
一方、図16に示す実施例では、単一の音声辞書2を備える構成を採るとともに、調整部7として、音声データ頻度テーブル708と、頻度閾値決定部709と、音声辞書ダウンロード制御部707とから構成されるものを用いる構成を採っている。
【0090】
このように構成される図16の実施例では、二次記憶装置機能検出部62が上述のように音声辞書2を展開する二次記憶装置のアクセス性能を検出して、その検出結果のレベル値を求めると、頻度閾値決定部709は、二次記憶装置機能検出部62から高速のアクセス性能を表示するレベル値が与えられるときには、その都度音声辞書2にアクセスすることでも対処できることから、少ない音声データの展開を実現すべく使用頻度の閾値として大きな値を決定し、また、低速のアクセス性能を表示するレベル値が与えられるときには、その都度音声辞書2にアクセスすることでは対処できないことから、沢山の音声データの展開を実現すべく使用頻度の閾値として小さな値を決定するというように、二次記憶装置機能検出部62の検出するレベル値に応じて音声データの使用頻度の閾値を決定する。
【0091】
そして、音声辞書ダウンロード制御部707は、この頻度閾値決定部709の決定結果を受けて、音声データの頻度情報を管理する音声データ頻度テーブル708の管理データに従って、音声辞書2から、その決定された頻度閾値よりも大きな使用頻度を示す音声データを読み出して音声データバッファ90に展開していく。
【0092】
このようにして、図16の実施例では、二次記憶装置のアクセス性能に応じて、音声データバッファ90に展開する音声データの数を変化させていくことで、音響処理部4に与える音声データのデータ量を調整して、二次記憶装置のアクセス性能にあった音声合成処理を実現していくよう処理するものである。
【0093】
一方、図17に示す実施例では、単一の単語辞書1を備える構成を採るとともに、調整部7として、複数の単語辞書インデックス711−i(i=1〜m)と、単語辞書インデックス選択部712と、単語辞書ダウンロード制御部713とから構成されるものを用いる構成を採っている。
【0094】
このように構成される図17の実施例では、二次記憶装置機能検出部62が単語辞書1の単語情報をリードすることで、単語辞書1を展開する二次記憶装置のアクセス性能を検出して、その検出結果のレベル値を求めると、単語辞書インデックス選択部712は、二次記憶装置機能検出部62から高速のアクセス性能を表示するレベル値が与えられるときには、その都度単語辞書1にアクセスすることでも対処できることから、低い品質の音声合成処理を実現する単語情報を指すインデックスを管理対象とする単語辞書インデックス711−iの使用を決定し、また、低速のアクセス性能を表示するレベル値が与えられるときには、その都度単語辞書1にアクセスすることでは対処できないことから、高い品質の音声合成処理を実現する単語情報を指すインデックスを管理対象とする単語辞書インデックス711−iの使用を決定するというように、二次記憶装置機能検出部62の検出するレベル値に応じて使用する単語辞書インデックス711−iを決定する。
【0095】
すなわち、単語辞書1を展開する二次記憶装置のアクセス性能が良いときには、主的な単語情報を指すインデックスを管理対象とする単語辞書インデックス711−iの使用を決定し、アクセス性能が悪いときには、この主的な単語情報と補足的な単語情報の双方を指すインデックスを管理対象とする単語辞書インデックス711−iの使用を決定するというように決定するのである。
【0096】
そして、単語辞書ダウンロード制御部713は、この単語辞書インデックス選択部712の決定結果を受けて、単語辞書1から、その決定された単語辞書インデックス711−iの管理するインデックスの指す単語情報を読み出して単語情報バッファ80に展開していく。ここで、この構成を採るときにあって、言語処理部3は、単語情報バッファ80に高い品質の音声合成処理を実現するための単語情報が展開されていないときには、その単語情報を高速アクセスを実行する二次記憶装置の単語辞書1に直接アクセスしていくよう処理することになる。
【0097】
一方、図18に示す実施例では、単一の単語辞書1を備える構成を採るとともに、調整部7として、単語頻度テーブル714と、単語頻度閾値決定部715と、単語辞書ダウンロード制御部713とから構成されるものを用いる構成を採っている。
【0098】
このように構成される図18の実施例では、二次記憶装置機能検出部62が上述のように単語辞書1を展開する二次記憶装置のアクセス性能を検出して、その検出結果のレベル値を求めると、単語頻度閾値決定部715は、二次記憶装置機能検出部62から高速のアクセス性能を表示するレベル値が与えられるときには、その都度単語辞書1にアクセスすることでも対処できることから、少ない単語情報の展開を実現すべく使用頻度の閾値として大きな値を決定し、また、低速のアクセス性能を表示するレベル値が与えられるときには、その都度単語辞書1にアクセスすることでは対処できないことから、沢山の単語情報の展開を実現すべく使用頻度の閾値として小さな値を決定するというように、二次記憶装置機能検出部62の検出するレベル値に応じて単語情報の使用頻度の閾値を決定する。
【0099】
そして、単語辞書ダウンロード制御部713は、この単語頻度閾値決定部715の決定結果を受けて、単語情報の頻度情報を管理する単語頻度テーブル714の管理データに従って、単語辞書1から、その決定された頻度閾値よりも大きな使用頻度を示す単語情報を読み出して単語情報バッファ80に展開していく。
【0100】
このようにして、図18の実施例では、二次記憶装置のアクセス性能に応じて、単語情報バッファ80に展開する単語情報の数を変化させていくことで、言語処理部3に与える単語情報のデータ量を調整して、二次記憶装置のアクセス性能にあった音声合成処理を実現していくよう処理するものである。
【0101】
以上説明したように、図15ないし図18の実施例では、二次記憶装置機能検出部62の検出結果に応じて、音響処理部4に与える音声データのデータ量や、言語処理部3に与える単語情報のデータ量を調整していくことで、単語辞書1や音声辞書2を展開する二次記憶装置のアクセス性能にあった音声合成処理を実現していくよう処理するものである。
【0102】
図19及び図20に、検出部6として、DA変換器サンプリング周波数検出部63を用いる構成の一実施例を図示する。
このDA変換器サンプリング周波数検出部63は、例えば、オペレーティングシステムに問い合わせることで、DA変換器5のサンプリング周波数を検出することになる。
【0103】
図19に示す実施例では、異なるサンプリング周波数の音声データを管理する複数の音声辞書2−i(i=1〜n)を備える構成を採るとともに、調整部7として、音声辞書選択部701から構成されるものを用いる構成を採っている。
【0104】
このように構成される図19の実施例では、DA変換器サンプリング周波数検出部63がDA変換器5のサンプリング周波数を検出すると、音声辞書選択部701は、この検出結果を受けて、その検出されたサンプリング周波数の音声データを管理する音声辞書2−iから対応の音声データを読み出して音声データバッファ90に展開していく。
【0105】
このようにして、図19の実施例では、音声データバッファ90に展開する音声データのサンプリング周波数をDA変換器5に整合するものに変化させていくことで、DA変換器5にあった音声合成処理を実現していくよう処理するものである。
【0106】
一方、図20に示す実施例では、例えば、48KHzといった高いサンプリング周波数の音声データを管理する単一の音声辞書2を備える構成を採るとともに、調整部7として、ダウンサンプリング処理部702から構成されるものを用いる構成を採っている。
【0107】
このように構成される図20の実施例では、DA変換器サンプリング周波数検出部63がDA変換器5のサンプリング周波数を検出すると、ダウンサンプリング処理部702は、この検出結果を受けて、例えば、DA変換器5のサンプリング周波数が48KHzであるときには、音声辞書2に格納される音声データをそのまま読み出して音声データバッファ90に展開し、また、例えば、16KHzであるときには、音声辞書2に格納される音声データを16KHzにダウンサンプリングしながら読み出して音声データバッファ90に展開していく。
【0108】
このようにして、図20の実施例では、音声データバッファ90に展開する音声データのサンプリング周波数をDA変換器5に整合するものに変化させていくことで、DA変換器5にあった音声合成処理を実現していくよう処理するものである。
【0109】
以上説明したように、図19及び図20の実施例では、DA変換器サンプリング周波数検出部63の検出結果に応じて、音響処理部4に与える音声データのサンプリング周波数を調整していくことで、DA変換器5にあった音声合成処理を実現していくよう処理するものである。
【0110】
図21及び図22に、検出部6として、DA変換器量子化ビット検出部64を用いる構成の一実施例を図示する。
このDA変換器量子化ビット検出部64は、例えば、オペレーティングシステムに問い合わせることで、DA変換器5の量子化ビット数を検出することになる。
【0111】
図21に示す実施例では、異なる量子化ビット数の音声データを管理する複数の音声辞書2−i(i=1〜n)を備える構成を採るとともに、調整部7として、音声辞書選択部701から構成されるものを用いる構成を採っている。
【0112】
このように構成される図21の実施例では、DA変換器量子化ビット検出部64がDA変換器5の量子化ビット数を検出すると、音声辞書選択部701は、この検出結果を受けて、その検出された量子化ビット数の音声データを管理する音声辞書2−iから対応の音声データを読み出して音声データバッファ90に展開していく。
【0113】
このようにして、図21の実施例では、音声データバッファ90に展開する音声データの量子化ビット数をDA変換器5に整合するものに変化させていくことで、DA変換器5にあった音声合成処理を実現していくよう処理するものである。
【0114】
一方、図22に示す実施例では、例えば、16ビットといった大きい量子化ビット数の音声データを管理する単一の音声辞書2を備える構成を採るとともに、調整部7として、量子化ビット変更部704から構成されるものを用いる構成を採っている。
【0115】
このように構成される図22の実施例では、DA変換器量子化ビット検出部64がDA変換器5の量子化ビット数を検出すると、量子化ビット変更部704は、この検出結果を受けて、例えば、DA変換器5の量子化ビット数が16ビットであるときには、音声辞書2に格納される音声データをそのまま読み出して音声データバッファ90に展開し、また、例えば、8ビットであるときには、音声辞書2に格納される音声データを8ビットに変更しながら読み出して音声データバッファ90に展開していく。
【0116】
このようにして、図22の実施例では、音声データバッファ90に展開する音声データの量子化ビット数をDA変換器5に整合するものに変化させていくことで、DA変換器5にあった音声合成処理を実現していくよう処理するものである。
【0117】
以上説明したように、図21及び図22の実施例では、DA変換器量子化ビット検出部64の検出結果に応じて、音響処理部4に与える音声データの量子化ビット数を調整していくことで、DA変換器5にあった音声合成処理を実現していくよう処理するものである。
【0118】
図2ないし図22の実施例では、検出部6として、CPU機能検出部60、メモリ機能検出部61、二次記憶装置機能検出部62、DA変換器サンプリング周波数検出部63、DA変換器量子化ビット検出部64のいずれか1つを備える構成を採って、その検出部の検出結果に従って、音声データバッファ90に展開する音声データのサンプリング周波数や量子化ビット数や数を変更したり、単語情報バッファ80に展開する単語情報の数を変更するという構成を開示したが、本発明では、複数の検出部を備える構成を採ったり、音声データのサンプリング周波数と量子化ビット数とを同時に変更するというような複合的な構成を採ることも可能である。
【0119】
図23ないし図26に、そのような構成の一実施例を図示する。
図23に示す実施例は、検出部6として、メモリ機能検出部61/二次記憶装置機能検出部62を備える構成を採るとともに、調整部7として、音声辞書ダウンロード制御部707と、音声データ頻度テーブル708と、頻度閾値決定部709とから構成されるものを用いる構成を採っている。
【0120】
このように構成される図23の実施例では、頻度閾値決定部709は、メモリ機能検出部61/二次記憶装置機能検出部62の検出結果に応じて、音声データの使用頻度の閾値を決定する。例えば、二次記憶装置のアクセス性能が良くて、音声データバッファ90に沢山の音声データを展開する必要がなくても、メモリ容量に余裕があるときには、沢山の音声データの展開を実現すべく使用頻度の閾値として小さな値を決定するというように、2つの検出部の検出結果を評価することで、音声データの使用頻度の閾値を決定するのである。
【0121】
そして、音声辞書ダウンロード制御部707は、この頻度閾値決定部709の決定結果を受けて、音声データ頻度テーブル708の管理データに従って、音声辞書2から、その決定された頻度閾値よりも大きな使用頻度を示す音声データを読み出して音声データバッファ90に展開していく。
【0122】
一方、図24に示す実施例では、検出部6として、メモリ機能検出部61/二次記憶装置機能検出部62を備える構成を採るとともに、調整部7として、単語辞書ダウンロード制御部713と、単語頻度テーブル714と、単語頻度閾値決定部715とから構成されるものを用いる構成を採っている。
【0123】
このように構成される図24の実施例では、単語頻度閾値決定部715は、メモリ機能検出部61/二次記憶装置機能検出部62の検出結果に応じて、単語情報の使用頻度の閾値を決定する。例えば、二次記憶装置のアクセス性能が悪くて、メモリ容量に十分な余裕があるときには、最大限に沢山の音声データの展開を実現すべく使用頻度の閾値としてかなり小さな値を決定するというように、2つの検出部の検出結果を評価することで、単語情報の使用頻度の閾値を決定するのである。
【0124】
そして、単語辞書ダウンロード制御部713は、この単語頻度閾値決定部715の決定結果を受けて、単語頻度テーブル714の管理データに従って、単語辞書1から、その決定された頻度閾値よりも大きな使用頻度を示す単語情報を読み出して単語情報バッファ80に展開していく。
【0125】
一方、図25に示す実施例では、検出部6として、CPU機能検出部60/メモリ機能検出部61を備える構成を採るとともに、調整部7として、サンプリング周波数決定部700と、ダウンサンプリング処理部702と、音声辞書ダウンロード制御部707と、音声データ頻度テーブル708と、頻度閾値決定部709とから構成されるものを用いる構成を採っている。
【0126】
このように構成される図25の実施例では、頻度閾値決定部709が、メモリ機能検出部61の検出結果に応じて、音声データの使用頻度の閾値を決定し、この決定結果を受けて、音声辞書ダウンロード制御部707が、音声データ頻度テーブル708の管理データに従って、音声辞書2から、その決定された頻度閾値よりも大きな使用頻度を示す音声データを読み出していく。
【0127】
そして、サンプリング周波数決定部700が、CPU機能検出部60/メモリ機能検出部61の検出結果に応じて、音声データのサンプリング周波数を決定し、この決定結果を受けて、ダウンサンプリング処理部702が、音声辞書ダウンロード制御部707の読み出していく音声データをそのサンプリング周波数にダウンサンプリングして音声データバッファ90に展開していく。
【0128】
一方、図26に示す実施例では、検出部6として、CPU機能検出部60/メモリ機能検出部61を備える構成を採るとともに、調整部7として、サンプリング周波数決定部700と、ダウンサンプリング処理部702と、量子化ビット決定部703と、量子化ビット変更部704とから構成されるものを用いる構成を採っている。
【0129】
このように構成される図26の実施例では、サンプリング周波数決定部700が、CPU機能検出部60/メモリ機能検出部61の検出結果に応じて、音声データのサンプリング周波数を決定し、この決定結果を受けて、ダウンサンプリング処理部702が、音声辞書2の音声データをそのサンプリング周波数にダウンサンプリングしながら読み出していく。
【0130】
そして、量子化ビット決定部703が、CPU機能検出部60/メモリ機能検出部61の検出結果に応じて、音声データの量子化ビット数を決定し、この決定結果を受けて、量子化ビット変更部704が、ダウンサンプリング処理部702の読み出していく音声データをその量子化ビット数に変更して音声データバッファ90に展開していく。
【0131】
このように、本発明では、検出部6として、CPU機能検出部60、メモリ機能検出部61、二次記憶装置機能検出部62、DA変換器サンプリング周波数検出部63、DA変換器量子化ビット検出部64の内の複数を備える構成を採って、それらの検出部の検出結果に従って、音声データバッファ90に展開する音声データを調整したり、単語情報バッファ80に展開する単語情報を調整したりする構成を採ることも可能なのである。
【0132】
このようにして音声データが音声データバッファ90に展開されるときにあって、その展開される音声データのサンプリング周波数が、DA変換器5のサンプリング周波数と一致しないことで、音響処理部4の生成する合成音声信号のサンプリング周波数が、DA変換器5のサンプリング周波数と一致しないことが起きたり、その展開される音声データの量子化ビット数が、DA変換器5の量子化ビット数と一致しないことで、音響処理部4の生成する合成音声信号の量子化ビット数が、DA変換器5の量子化ビット数と一致しないことが起こる。
【0133】
図1で説明したビット調整部7aは、DA変換器量子化ビット検出部64の検出結果に従って、この量子化ビット数の不一致を検出すると、音響処理部4の生成する合成音声信号のビットデータをシフトすることで、合成音声信号の量子化ビット数がDA変換器5のものと一致することになるようにと調整することになる。
【0134】
また、図1で説明した周波数調整部7bは、DA変換器サンプリング周波数検出部63の検出結果に従って、このサンプリング周波数の不一致を検出すると、音響処理部4の生成する合成音声信号のビットデータをダウンサンプリングすること等で、合成音声信号のサンプリング周波数がDA変換器5のものと一致することになるようにと調整することになる。
【0135】
本発明は、音声合成システムのソフトウェアを展開する計算機の持つハードウェア性能に適合するようにと、音声合成処理で用いられる辞書情報を変更していく構成を採ることを特徴とするものであり、これを実現するために、実施例では検出部6を備える構成を開示したが、本発明はこれに限られるものではなくて、検出部6の代わりに、対話処理に従って、ハードウェアの能力情報を設定する設定部を備えることで実現することも可能である。
【0136】
図示実施例について説明したが、本発明はこれに限定されるものではない。例えば、図23ないし図26に示した組み合わせの実施例はあくまで一例に過ぎないのである。
【0137】
【発明の効果】
以上説明したように、本発明では、音声合成システムのソフトウェアを展開する計算機の持つハードウェア性能に適合するようにと、音声合成処理で用いられる辞書情報を変更していく構成を採ることから、走行する計算機に最適となる音声合成処理を実現できるようになる。従って、ユーザは、手持ちの計算機を使って、快適な音声合成システムを構築できるようになる。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】本発明の一実施例である。
【図3】本発明の一実施例である。
【図4】本発明の一実施例である。
【図5】本発明の一実施例である。
【図6】本発明の一実施例である。
【図7】本発明の一実施例である。
【図8】本発明の一実施例である。
【図9】本発明の一実施例である。
【図10】本発明の一実施例である。
【図11】本発明の一実施例である。
【図12】本発明の一実施例である。
【図13】本発明の一実施例である。
【図14】本発明の一実施例である。
【図15】本発明の一実施例である。
【図16】本発明の一実施例である。
【図17】本発明の一実施例である。
【図18】本発明の一実施例である。
【図19】本発明の一実施例である。
【図20】本発明の一実施例である。
【図21】本発明の一実施例である。
【図22】本発明の一実施例である。
【図23】本発明の一実施例である。
【図24】本発明の一実施例である。
【図25】本発明の一実施例である。
【図26】本発明の一実施例である。
【図27】音声合成システムの全体構成図である。
【符号の説明】
1 単語辞書
2 音声辞書
3 言語処理部
4 音響処理部
5 DA変換器
6 検出部
7 調整部
7a ビット調整部
7b 周波数調整部
8 単語情報展開域
9 音声データ展開域
100 計算機
Claims (9)
- 二次記憶装置に展開されて単語情報を管理する単語辞書と、二次記憶装置に展開されて音声データを管理する音声辞書と、入力テキストに対して、該単語辞書の管理データを使って音声合成のための言語処理を実行する言語処理部と、該言語処理部の処理結果を受けて、該音声辞書の管理データを使って入力テキストの合成音声信号を生成する音響処理部と、該音響処理部の生成する合成音声信号をハード的にアナログ信号に変換するDA変換器とから構成される音声合成システムにおいて、
対話処理に従って、システムの走行する計算機の持つハードウェアの性能又は状態を設定する設定部と、
上記言語処理部に与える辞書情報を調整する調整部とを備え、
かつ、上記調整部は、
上記設定部の設定したハードウェアの性能又は状態に応じて、処理能力に合った形で上記言語処理部に与える単語情報の量に関する情報を決定する決定部と、
上記決定部の決定した単語情報量に従って、上記単語辞書から上記言語処理部に与える単語情報を読み出して、上記言語処理部がアクセスする単語情報展開域に展開する展開部とを備えることを、
特徴とする音声合成システム。 - 二次記憶装置に展開されて単語情報を管理する単語辞書と、二次記憶装置に展開されて音声データを管理する音声辞書と、入力テキストに対して、該単語辞書の管理データを使って音声合成のための言語処理を実行する言語処理部と、該言語処理部の処理結果を受けて、該音声辞書の管理データを使って入力テキストの合成音声信号を生成する音響処理部と、該音響処理部の生成する合成音声信号をハード的にアナログ信号に変換するDA変換器とから構成される音声合成システムにおいて、
対話処理に従って、システムの走行する計算機の持つハードウェアの性能又は状態を設定する設定部と、
上記音響処理部に与える辞書情報を調整する調整部とを備え、
かつ、上記調整部は、
上記設定部の設定したハードウェアの性能又は状態に応じて、処理能力に合った形で上記音響処理部に与える音声データの質又は量に関する情報を決定する決定部と、
上記決定部の決定した音声データの質又は量に関する情報に従って、上記音声辞書から上記音響処理部に与える音声データを読み出して、上記音響処理部がアクセスする音声データ展開域に展開する展開部とを備えることを、
特徴とする音声合成システム。 - 請求項1又は2記載の音声合成システムにおいて、
上記設定部の設定するDA変換器の量子化ビット数と、上記音響処理部の生成する合成音声信号の量子化ビット数とが一致しないときに、上記設定部の設定するDA変換器の量子化ビット数に従って、上記音響処理部の生成する合成音声信号のビットデータを調整するビット調整部を備えることを、
特徴とする音声合成システム。 - 請求項1又は2記載の音声合成システムにおいて、
上記設定部の設定するDA変換器のサンプリング周波数と、上記音響処理部の生成する合成音声信号のサンプリング周波数とが一致しないときに、上記設定部の設定するDA変換器のサンプリング周波数に従って、上記音響処理部の生成する合成音声信号のサンプリング周波数を調整する周波数調整部を備えることを、
特徴とする音声合成システム。 - 二次記憶装置に展開されて単語情報を管理する単語辞書と、二次記憶装置に展開されて音声データを管理する音声辞書と、入力テキストに対して、該単語辞書の管理データを使って音声合成のための言語処理を実行する言語処理部と、該言語処理部の処理結果を受けて、該音声辞書の管理データを使って入力テキストの合成音声信号を生成する音響処理部と、該音響処理部の生成する合成音声信号をハード的にアナログ信号に変換するDA変換器とから構成される音声合成システムにおいて、
システムの走行する計算機の持つハードウェアの性能又は状態を検出する検出部と、
上記言語処理部に与える辞書情報を調整する調整部とを備え、
かつ、上記調整部は、
上記検出部の検出したハードウェアの性能又は状態に応じて、処理能力に合った形で上記言語処理部に与える単語情報の量に関する情報を決定する決定部と、
上記決定部の決定した単語情報量に従って、上記単語辞書から上記言語処理部に与える単語情報を読み出して、上記言語処理部がアクセスする単語情報展開域に展開する展開部とを備えることを、
特徴とする音声合成システム。 - 二次記憶装置に展開されて単語情報を管理する単語辞書と、二次記憶装置に展開されて音声データを管理する音声辞書と、入力テキストに対して、該単語辞書の管理データを使って音声合成のための言語処理を実行する言語処理部と、該言語処理部の処理結果を受けて、該音声辞書の管理データを使って入力テキストの合成音声信号を生成する音響処理部と、該音響処理部の生成する合成音声信号をハード的にアナログ信号に変換するDA変換器とから構成される音声合成システムにおいて、
システムの走行する計算機の持つハードウェアの性能又は状態を検出する検出部と、
上記音響処理部に与える辞書情報を調整する調整部とを備え、
かつ、上記調整部は、
上記検出部の検出したハードウェアの性能又は状態に応じて、処理能力に合った形で上記音響処理部に与える音声データの質又は量に関する情報を決定する決定部と、
上記決定部の決定した音声データの質又は量に関する情報に従って、上記音声辞書から上記音響処理部に与える音声データを読み出して、上記音響処理部がアクセスする音声データ展開域に展開する展開部とを備えることを、
特徴とする音声合成システム。 - 請求項5又は6記載の音声合成システムにおいて、
上記検出部として、CPUの性能又はCPUの負荷を検出するCPU機能検出部と、メモリの容量又はメモリの使用状況を検出するメモリ機能検出部と、二次記憶装置のアクセス性能を検出する二次記憶装置機能検出部と、DA変換器のDA変換性能を検出するDA変換機能検出部という4つの検出部の全てあるいは一部が備えられるよう構成されることを、
特徴とする音声合成システム。 - 請求項5又は6記載の音声合成システムにおいて、
上記検出部として、DA変換器のDA変換性能を検出するDA変換機能検出部が備えられ、
かつ、上記DA変換機能検出部の検出するDA変換器の量子化ビット数と、上記音響処理部の生成する合成音声信号の量子化ビット数とが一致しないときに、上記DA変換機能検出部の検出する量子化ビット数に従って、上記音響処理部の生成する合成音声信号のビットデータを調整するビット調整部を備えることを、
特徴とする音声合成システム。 - 請求項5又は6記載の音声合成システムにおいて、
上記検出部として、DA変換器のDA変換性能を検出するDA変換機能検出部が備えられ、
かつ、上記DA変換機能検出部の検出するDA変換器のサンプリング周波数と、上記音響処理部の生成する合成音声信号のサンプリング周波数とが一致しないときに、上記DA変換機能検出部の検出するサンプリング周波数に従って、上記音響処理部の生成する合成音声信号のサンプリング周波数を調整する周波数調整部を備えることを、
特徴とする音声合成システム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP01249294A JP3563756B2 (ja) | 1994-02-04 | 1994-02-04 | 音声合成システム |
US08/382,531 US5848390A (en) | 1994-02-04 | 1995-02-02 | Speech synthesis system and its method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP01249294A JP3563756B2 (ja) | 1994-02-04 | 1994-02-04 | 音声合成システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH07219576A JPH07219576A (ja) | 1995-08-18 |
JP3563756B2 true JP3563756B2 (ja) | 2004-09-08 |
Family
ID=11806894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP01249294A Expired - Fee Related JP3563756B2 (ja) | 1994-02-04 | 1994-02-04 | 音声合成システム |
Country Status (2)
Country | Link |
---|---|
US (1) | US5848390A (ja) |
JP (1) | JP3563756B2 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3595041B2 (ja) * | 1995-09-13 | 2004-12-02 | 株式会社東芝 | 音声合成システムおよび音声合成方法 |
DE59801715D1 (de) * | 1997-11-21 | 2001-11-15 | Siemens Ag | Verfahren und vorrichtung zur spracherkennung |
JP2001293247A (ja) * | 2000-02-07 | 2001-10-23 | Sony Computer Entertainment Inc | ゲーム制御方法 |
JP3729443B2 (ja) * | 2001-04-06 | 2005-12-21 | 日本放送協会 | 音声を用いた操作支援システム |
US7133829B2 (en) * | 2001-10-31 | 2006-11-07 | Dictaphone Corporation | Dynamic insertion of a speech recognition engine within a distributed speech recognition system |
US7146321B2 (en) * | 2001-10-31 | 2006-12-05 | Dictaphone Corporation | Distributed speech recognition system |
US6785654B2 (en) | 2001-11-30 | 2004-08-31 | Dictaphone Corporation | Distributed speech recognition system with speech recognition engines offering multiple functionalities |
US7236931B2 (en) * | 2002-05-01 | 2007-06-26 | Usb Ag, Stamford Branch | Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems |
US7292975B2 (en) * | 2002-05-01 | 2007-11-06 | Nuance Communications, Inc. | Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription |
US7788097B2 (en) * | 2002-06-06 | 2010-08-31 | Nuance Communications, Inc. | Multiple sound fragments processing and load balancing |
US7340392B2 (en) * | 2002-06-06 | 2008-03-04 | International Business Machines Corporation | Multiple sound fragments processing and load balancing |
US20040049391A1 (en) * | 2002-09-09 | 2004-03-11 | Fuji Xerox Co., Ltd. | Systems and methods for dynamic reading fluency proficiency assessment |
US7280968B2 (en) * | 2003-03-25 | 2007-10-09 | International Business Machines Corporation | Synthetically generated speech responses including prosodic characteristics of speech inputs |
US8165882B2 (en) | 2005-09-06 | 2012-04-24 | Nec Corporation | Method, apparatus and program for speech synthesis |
US8032372B1 (en) | 2005-09-13 | 2011-10-04 | Escription, Inc. | Dictation selection |
JP2007264503A (ja) * | 2006-03-29 | 2007-10-11 | Toshiba Corp | 音声合成装置及びその方法 |
US20080154605A1 (en) * | 2006-12-21 | 2008-06-26 | International Business Machines Corporation | Adaptive quality adjustments for speech synthesis in a real-time speech processing system based upon load |
WO2011118207A1 (ja) * | 2010-03-25 | 2011-09-29 | 日本電気株式会社 | 音声合成装置、音声合成方法および音声合成プログラム |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4331836A (en) * | 1977-06-17 | 1982-05-25 | Texas Instruments Incorporated | Speech synthesis integrated circuit device |
US4581757A (en) * | 1979-05-07 | 1986-04-08 | Texas Instruments Incorporated | Speech synthesizer for use with computer and computer system with speech capability formed thereby |
US4623970A (en) * | 1979-11-07 | 1986-11-18 | Canon Kabushiki Kaisha | Electronic equipment which outputs data in synthetic voice |
DE3044765A1 (de) * | 1980-11-27 | 1982-07-08 | Siemens AG, 1000 Berlin und 8000 München | Differenz-digitalmodulations- bzw. -demodulationssystem mit anlogsignalabhaengigem abtasttakt |
JPS5921039B2 (ja) * | 1981-11-04 | 1984-05-17 | 日本電信電話株式会社 | 適応予測符号化方式 |
DE3248213A1 (de) * | 1981-12-28 | 1983-07-14 | Sharp K.K., Osaka | Einrichtung zur erzeugung synthetischer sprache und diese enthaltende elektronische registrierkasse |
US4624012A (en) * | 1982-05-06 | 1986-11-18 | Texas Instruments Incorporated | Method and apparatus for converting voice characteristics of synthesized speech |
IT1159034B (it) * | 1983-06-10 | 1987-02-25 | Cselt Centro Studi Lab Telecom | Sintetizzatore vocale |
CA1208789A (en) * | 1983-11-25 | 1986-07-29 | Peter E. Chow | Adpcm encoder/decoder with improved tracking |
US4692941A (en) * | 1984-04-10 | 1987-09-08 | First Byte | Real-time text-to-speech conversion system |
US4783808A (en) * | 1986-04-25 | 1988-11-08 | Texas Instruments Incorporated | Connected word recognition enrollment method |
US4852168A (en) * | 1986-11-18 | 1989-07-25 | Sprague Richard P | Compression of stored waveforms for artificial speech |
CA1268228A (en) * | 1987-09-14 | 1990-04-24 | Gary Lennartz | Voice interactive security system |
US5418717A (en) * | 1990-08-27 | 1995-05-23 | Su; Keh-Yih | Multiple score language processing system |
JP3144009B2 (ja) * | 1991-12-24 | 2001-03-07 | 日本電気株式会社 | 音声符号復号化装置 |
IT1256823B (it) * | 1992-05-14 | 1995-12-21 | Olivetti & Co Spa | Calcolatore portatile con annotazioni verbali. |
US5511000A (en) * | 1993-11-18 | 1996-04-23 | Kaloi; Dennis M. | Electronic solid-state record/playback device and system |
-
1994
- 1994-02-04 JP JP01249294A patent/JP3563756B2/ja not_active Expired - Fee Related
-
1995
- 1995-02-02 US US08/382,531 patent/US5848390A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US5848390A (en) | 1998-12-08 |
JPH07219576A (ja) | 1995-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3563756B2 (ja) | 音声合成システム | |
US5890115A (en) | Speech synthesizer utilizing wavetable synthesis | |
JP4130190B2 (ja) | 音声合成システム | |
US5747715A (en) | Electronic musical apparatus using vocalized sounds to sing a song automatically | |
KR0149251B1 (ko) | 악기음 발생 방법 및 시스템과 악기음 발생 제어 시스템 | |
CN110599998B (zh) | 一种语音数据生成方法及装置 | |
JP2007047293A (ja) | 楽音発生装置、及びプログラム | |
JP4632384B2 (ja) | 音声情報処理装置及びその方法と記憶媒体 | |
CN105718503B (zh) | 声音检索装置以及声音检索方法 | |
Schwarz et al. | Spectral envelope estimation, representation, and morphing for sound analysis, transformation, and synthesis. | |
JP6821970B2 (ja) | 音声合成装置および音声合成方法 | |
KR100402364B1 (ko) | 악음발생장치, 악음발생방법 및 기억매체 | |
JP6790959B2 (ja) | 音声合成装置、音声合成方法及び音声合成システムならびに音声合成用コンピュータプログラム | |
CN112992110B (zh) | 音频处理方法、装置、计算设备以及介质 | |
CA1172365A (en) | Method for the synthesis of speech with an unlimited vocabulary and a circuit arrangement for carrying out the method | |
KR102020341B1 (ko) | 악보 구현 및 음원 재생 시스템 및 그 방법 | |
JP2008015424A (ja) | 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体 | |
JP4841339B2 (ja) | 韻律補正装置、音声合成装置、韻律補正方法、音声合成方法、韻律補正プログラム、および、音声合成プログラム | |
JP4640063B2 (ja) | 音声合成方法,音声合成装置,およびコンピュータプログラム | |
JP4525162B2 (ja) | 音声合成装置及びそのプログラム | |
JP3649398B2 (ja) | 波形処理方法および装置 | |
JP4238807B2 (ja) | 音源用波形データの決定装置 | |
JP2003066983A (ja) | 音声合成装置および音声合成方法、並びに、プログラム記録媒体 | |
JP2007256815A (ja) | 音声再生装置、音声再生方法、音声再生プログラム | |
JP3862300B2 (ja) | 音声合成に用いる情報の処理方法および装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040309 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040510 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040601 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040604 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090611 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100611 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110611 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |