JP3446764B2 - 音声合成システム及び音声合成サーバ - Google Patents
音声合成システム及び音声合成サーバInfo
- Publication number
- JP3446764B2 JP3446764B2 JP29946892A JP29946892A JP3446764B2 JP 3446764 B2 JP3446764 B2 JP 3446764B2 JP 29946892 A JP29946892 A JP 29946892A JP 29946892 A JP29946892 A JP 29946892A JP 3446764 B2 JP3446764 B2 JP 3446764B2
- Authority
- JP
- Japan
- Prior art keywords
- waveform
- voice
- unit
- client
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Transfer Between Computers (AREA)
- Computer And Data Communications (AREA)
Description
クに、複数のクライアントと少なくとも1つの音声合成
サーバとが接続された音声合成システム及びその音声合
成サーバに関する。
バを設置し、クライアントの要求に従ってテキストの合
成音声を生成し、クライアントに転送するシステムが丸
川、砂川によって提案されている(丸川、砂川:第15回
UNIXシンポジウム・プロシーディングズ 96 〜104
頁)。このようなシステムの基本構成は図27に示すよ
うに、クライアント1に、テキスト入力部11、テキス
ト送信部12、波形受信部13、音声出力部15を設
け、音声合成サーバ2に、クライアント1側のテキスト
送信部12から送信されるテキストデータを受信するテ
キスト受信部21、表音記号生成部22、音響パラメー
タ生成部23、波形生成部24、波形生成部24で生成
された音声合成波形をクライアント1に送信する波形送
信部26とを設けた構成である。
部11からテキストデータが入力されると、テキスト送
信部12が、当該テキストデータを音声合成サーバ2に
送信する。音声合成サーバ2は、テキスト送信部12か
ら送信されたテキストデータをテキスト受信部21で受
信し、表音記号生成部22が、当該テキストデータがど
のように発音されるのかを示す表音記号列に変換する。
さらに、音響パラメータ生成部23は、表音記号列を音
響パラメータ時系列に変換し、波形生成部24がその音
響パラメータ時系列に基づいて音声波形を生成する。そ
して、波形送信部26は、生成された音声波形をクライ
アント1に送信する。
信部13で受信し、音声出力部15が音声波形を音声と
して再生する。
成システムでは、クライアント1と音声合成サーバ2と
の間で音声データ(合成音声波形)を直接転送するた
め、LANのトラフィックが増大するという問題点があ
った。
バ/クライアントの持つ資源(機能)に関わらず、サー
バ/クライアント間の通信は固定された種類のデータで
行われている為に、クライアント1の資源が有効に利用
されないという問題点があった。すなわち、図27のシ
ステムでクライアント1が表音記号の生成機能を有する
場合でも、クライアント1から音声合成サーバ2に送信
されるデータは、常にテキストデータであり、クライア
ント1の機能を有効に利用していなっかった。
変換機能を持たないものもあり、このようなクライアン
ト1のユーザは、音声合成サーバ2から送られて来るデ
ィジタルデータを再生できないので、従来は、D/A変
換機能を持ったクライアントしか音声データを受け取る
ことができないという問題点があった。
ク上に複数の単語情報を記憶した辞書検索サーバを設
け、クライアント1のユーザから特定の単語の検索要求
があったとき、辞書検索サーバが該当する単語の意味、
発音記号を検索し、それらの情報をクライアントに転送
して表示する辞書検索システムが知られている。単語を
検索する場合、その単語の意味と同時に音声による発音
が分かると便利であるが、従来そのようなシステムは存
在しなかった。
タを記憶しておいて、スケジュール日時となったとき、
メッセージ等でユーザに知らせるスケージュル管理シス
テムが知られている。このようなシステムで、スケジュ
ール内容を音声で知らせることができればさらに便利で
あるが、従来そのようなシステムは存在しなかった。
担を軽減することである。他の目的は、音声合成サーバ
の負荷及びネットワークのトラヒックを減少させること
である。
発明は、ネットワーク上に、音声化すべきテキストデー
タを入力するテキスト入力部11と、合成音声を出力す
る音声出力部15とを有する複数のクライアント1と、
合成音声波形を生成する波形生成部24を有する少なく
とも1つの音声合成サーバ2とを備えた音声合成システ
ムを前提にする。
2の波形生成部24は、クライアント1から送信される
データに基づいて音声波形を生成する。波形符号化部2
5は、波形生成部24で生成される音声波形を符号化す
る。
声合成サーバ2から送信される符号化された音声波形を
復号する。音声出力部15は、復号された音声波形を音
声として出力する。
の表音記号生成部16は、テキスト入力部11から入力
されるテキストデータに基づいて表音記号(表音記号
列)を生成する。ここで、表音記号とは、入力されたテ
キストデータの発音、アクセント、イントネーションな
どを示す記号である。
号に基づいて音響パラメータ(音響パラメータ時系列)
を生成する。データ送信部110は、クライアント1が
テキスト入力部11と表音記号生成部16とを有する場
合には、表音記号を音声合成サーバ2に送信し、クライ
アント1がテキスト入力部11と、表音記号生成部16
と、音響パラメータ生成部17とを有する場合には、音
響パラメータを音声合成サーバ2に送信する。
から出力される音声波形を受信する。音声合成サーバ2
のデータ受信部210は、クライアント1から送信され
るデータを受信する。
0で受信されたテキストデータに基づいて表音記号を生
成する。音響パラメータ生成部23は、表音記号に基づ
いて音響パラメータを生成する。
いて合成音声波形を生成する。データ制御部270は、
データ受信部210においてテキストデータを受信した
場合には、受信したテキストデータをデータ受信部21
0から表音記号生成部22へ出力させ、表音記号を受信
した場合には、受信した表音記号を音響パラメータ生成
部23へ出力させ、音響パラメータを受信した場合に
は、受信した音響パラメータを波形生成部24へ出力さ
せる選択制御を行う。
側の波形生成部18は、データ受信部120で受信する
音響パラメータに基づいて合成音声波形を生成する。ク
ライアント側のデータ制御部130は、データ受信部1
20で音響パラメータを受信した場合には、その音響パ
ラメータを波形生成部18へ出力させ、合成音声波形を
受信した場合には、その合成音声波形を音声出力部15
へ出力させる選択制御を行う。
30は、音声合成サーバ2からの指示に従って、データ
送信部110から音声合成サーバ2へテキストデータを
送信するか、表音記号を送信するか、音響パラメータを
送信するかを選択制御する。
は、データ受信部210においてテキストデータを受信
した場合には、受信したテキストデータを表音記号生成
部22へ出力させ、表音記号を受信した場合には、受信
した表音記号を音響パラメータ生成部23へ出力させ、
音響パラメータを受信した場合には、受信した音響パラ
メータを波形生成部24へ出力させる選択制御を行う。
求を行ったクライアント1が波形生成部18を有する場
合には、自己の負荷状況、LANの負荷状況等に応じ
て、データ送信部260からクライアント1へ音声波形
を送信させるか、音響パラメータを送信させるかを選択
制御する。
生成サーバ2a、2bは、それぞれ音質又は言語毎に専
用化されており、特定の音質又は言語の音響パラメータ
を生成する。
ーバ2a、2bに対して特定の音質又は言語の音響パラ
メータの生成を指示する。波形サーバ2cは、上記音響
パラメータ生成サーバ2a、2bで生成された音響パラ
メータに基づいて合成音声波形を生成する。
力部41と単語送信部42と辞書情報/波形受信部43
と音声出力部15と辞書情報表示部45とを有してい
る。単語入力部41は、検索すべき単語が入力され、単
語送信部42は、その入力された単語を辞書検索サーバ
5に送信する。
び単語の音声波形を受信する。辞書情報表示部45は、
辞書情報/波形受信部43で受信した単語の辞書情報を
表示し、音声出力部15は、受信した音声波形を音声と
して出力する。
検索部52と表音記号送信部55とデータ送受信部57
とを有している。辞書検索部52は、クライアント4か
ら検索要求のあった単語の辞書情報を単語辞書53から
検索する。
より検索された辞書情報の中の表音記号を音声合成サー
バ2に送信する。データ送受信部57は、音声合成サー
バ2から送信される音声波形を受信すると共に、受信し
た音声波形と辞書検索部52により検索された辞書情報
とをクライアント4に送信する。
0と、音響パラメータ生成部23と、波形生成部24
と、波形送信部26とを有する。表音記号受信部220
は、辞書検索サーバ5から送信される表音記号を受信す
る。波形生成部24は、受信した表音記号に対応する音
声波形を生成し、波形送信部26は、生成された音声波
形を辞書検索サーバ5に送信する。
ュール/波形受信部63と音声出力部15とスケジュー
ル表示部62とを有している。スケジュール/波形受信
部63は、スケジュール情報及び音声波形を受信する。
スケジュール表示部62は、スケジュール/波形受信部
63で受信したスケジュール情報を表示し、音声出力部
15は、受信した音声波形を音声として出力する。
ルデータベース73とスケジュール検索部72とスケジ
ュール送信部74とを有する。スケジュールデータベー
ス73は、複数のユーザのスケジュール情報を記憶す
る。
スケジュール情報をスケジュールデータベースから検索
する。スケジュール送信部74は、検索されたスケジュ
ール情報を音声合成サーバ2に送信する。
と、表音記号生成部22と、音響パラメータ生成部23
と、波形生成部24と、波形送信部26とを有してい
る。テキスト受信部21は、スケジュール管理サーバ7
から送信されるスケジュール情報を受信する。波形生成
部24は、受信されたスケジュール情報に対応する音声
波形を生成し、波形送信部26は、その音声波形をスケ
ジュール管理サーバ7又はクライアント6に送信する。
サーバ2の波形生成部24がクライアント1から送信さ
れたデータに対応する音声波形を生成し、その音声波形
を符号化してクライアント1に送信する。
を復号化部14で元の音声波形に復号し、音声出力部1
5から音声として出力する。この場合、音声合成サーバ
2からLANには圧縮されたデータ(符号化された音声
波形)が送出されるので、LANを伝送されるデータ量
が少なくなり、LANのトラヒックが減少する。
は、クライアント1は、音声出力部15とデータ送信部
110とデータ受信部120の他に、(i) テキスト入力
部11のみを有する場合と、(ii)テキスト入力部11と
表音記号生成部16とを有する場合と、(iii) テキスト
入力部11と表音記号生成部16と音響パラメータ生成
部17とを有する場合がある。
には、データ送信部110から音声合成サーバ2にテキ
ストデータを送信し、(ii)の構成を有する場合には、デ
ータ送信部110から音声合成サーバ2に表音記号を送
信し、(iii) の構成を有する場合には、データ送信部1
10から音声合成サーバ2に音響パラメータを送信す
る。
からテキストデータを受信した場合には、受信したテキ
ストデータを表音記号生成部22へ出力して表音記号の
生成を行い、表音記号を受信した場合には、受信した表
音記号を音響パラメータ生成部23へ出力して音響パラ
メータの生成を行い、音響パラメータを受信した場合に
は、受信した音響パラメータを波形生成部24へ出力し
て合成音声波形の生成を行う。
る機能に応じたデータを音声合成サーバ2に送信するの
で、クライアント1が表音記号生成機能、あるいは音響
パラメータ生成機能を有する場合には、音声合成サーバ
2の表音記号の生成処理、あるいは音響パラメータの生
成処理等が不要となり、音声合成サーバ2の負荷を軽減
することができる。
は、クライアント1は、原理図2の発明の構成に加えデ
ータ制御部130を有する。この場合、クライアント1
は、(i) テキスト入力部11のみを有する場合と、(ii)
テキスト入力部11と表音記号生成部16とを有する場
合と、(iii) テキスト入力部11と表音記号生成部16
と音響パラメータ生成部17とを有する場合とがある。
は、クライアント1から音声データの送信要求があった
とき、音声合成サーバ2の負荷状況、ネットワークの負
荷状況及び要求のあったクライアント1の有する機能に
基づいて、クライアント1から音声合成サーバ2に送信
すべきデータの種類を決定し、決定したデータの種類を
クライアント1のデータ制御部130に指示する。ある
いは、音声合成サーバ2のデータ制御部270からクラ
イアント1のデータ制御部130に、音声合成サーバ2
の負荷状況、ネットワークの負荷状況に関する情報を通
知し、クライアント1のデータ制御部130自身が送信
すべきデータの種類を決めることもできる。
場合には、音声合成サーバ2のデータ制御部270は、
クライアント1のデータ制御部130にクライアント1
の持つ機能に応じた種類のデータを送信するように指示
する。そして、クライアント1のデータ制御部130
は、音声合成サーバ2から指示された種類のデータの送
信をデータ送信部110に指示する。
構成を有する場合には、クライアント1のデータ制御部
130は、表音記号の送信をデータ送信部110に指示
し、クライアント1が上記(iii) の構成を有する場合に
は、音響パラメータの送信を指示する。
合には、クライアント1側の処理を音声合成サーバ2側
で行うことができるので、音声合成サーバ2のデータ制
御部270は、それぞれのクライアント1が持っている
機能以下のデータを送信するようにする指示する。
く、処理能力に余裕がある場合には、音声合成サーバ2
のデータ制御部270は、クライアント1が表音記号の
生成機能を有する場合(上記(ii)の場合)でもクライア
ント1のデータ制御部130にテキストデータの送信を
指示する。
70は、クライアント1が音響パラメータまで送信でき
る機能を有する場合(上記(iii) の場合)でも、クライ
アント1のデータ制御部130に表音記号(又はテキス
トデータ)の送信を指示する。
さい場合に、クライアント1で行う表音記号の生成処
理、あるいは音響パラメータの生成処理を音声合成サー
バ2側で行うことで、クライアント1の負荷を減らすこ
とができる。この場合、クライアント1から音声合成サ
ーバ2へ送信されるデータは、表音記号の替わりに、よ
りデータ量の少ないテキストデータ、あるいは音響パラ
メータの替わりに、よりデータ量の少ない表音記号(又
はテキストデータ)となるので、LANのトラヒックを
減少させることもできる。
アント1は、波形生成部18を有する場合がある。この
場合、音声合成サーバ2は、自己の負荷状況、LAN等
のネットワークの負荷状況及びクライアントの負荷状況
に応じて合成音声波形、音響パラメータの何れかを選択
してクライアント1に送信する。
場合には、音声合成サーバ2は、音声波形の生成まで行
い、データ送信部260からその音声波形をクライアン
ト1に送信する。
合には、波形生成部24での音声波形の生成は行わず、
音響パラメータをクライアント1に送信する。また、L
ANのトラヒックが大きいときには、音声波形よりデー
タ量の少ない音響パラメータを送信する。
況、LAN等のネットワークの負荷状況、クライアント
の負荷状況に応じて音声波形、音響パラメータの何れか
を選択してクライアント1に送信することにより、音声
合成サーバ2の負荷を軽くすることができる。また。音
声波形の替わりに、よりデータ量の少ない音響パラメー
タを送信することで、ネットワークの負荷を減少させる
ことができる。
アント1が特定の音質又は言語の音響パラメータの生成
を指示すると、該当する音響パラメータサーバ2a(又
は2b)が、クライアント1から送信されるテキストデ
ータに基づいて音響パラメータを生成し、その音響パラ
メータを波形生成サーバ2cに送信する。波形生成サー
バ2cは、受信した音響パラメータに基づいて音声波形
を生成し、その音声波形をクライアント1に送信する。
これにより、クライアント1からは、指定した音質又は
言語でテキストデータが音声出力される。
検索部52は、クライアント4から検索要求のあった単
語の辞書情報を単語辞書53から検索し、検索した辞書
情報の中の表音記号を音声合成サーバ2に送信する。音
声合成サーバ2は、その表音記号に対応する音声波形を
生成し、生成した音声波形を辞書検索サーバ5に送信す
る。
索した単語の辞書情報と、音声合成サーバ2から受信し
た音声波形とをクライアント4に送信する。クライアン
ト4は、単語の辞書情報を辞書情報表示部45に表示す
ると共に、単語の発音を音声出力部15から音声で出力
する。
定の単語の検索要求を行ったとき、その単語の意味が表
示されると共に、その発音が音声で出力されるので、ユ
ーザは単語の意味とその発音を正確に知ることができ
る。
は、スケジュール管理サーバ7は、スケジュールデータ
ベース73に記憶されているスケジュール情報を検索
し、例えばスケジュール時刻が現在時刻と一致するスケ
ジュール情報を取り出す。そして、そのスケジュール情
報を音声合成サーバ2に送信する。音声合成サーバ2
は、テキストデータの形で受信するスケジュール情報に
対応する音声波形を生成し、その音声波形をスケジュー
ル管理サーバ7に送信する。
スケジュール情報と共にクライアント6に送信する。ク
ライアント6は、スケジュール情報をスケジュール情報
表示部62に表示し、スケジュール内容を示す音声を音
声出力部15から出力する。なお、音声合成サーバ2で
生成した音声波形を直接クライアント6に送信するよう
にしても良い。
レイ等に表示されると共に、音声で出力されるので、ユ
ーザに対するスケジュールの通知をより確実に行うこと
ができる。
説明する。図7は、本発明の実施例1の音声合成システ
ムの構成図である。この実施例は、少なくとも1つの音
声合成サーバ2と複数のクライアント1とが接続されて
LANが形成されている場合を示している。
セージをテキストデータとして入力するテキスト入力部
11、このテキスト入力部11から入力されたテキスト
データを音声合成サーバ2に送信するテキスト送信部1
2、音声合成サーバ2から送信される符号化された音声
波形を受信する波形受信部13、受信した音声波形を復
号する波形復号化部14、復号された音声ディジタルデ
ータをアナログデータに変換するDA変換部151、ア
ナログデータから高周波成分を除去するローパスフィル
タ152が設けられ、ローパスフィルタ152にスピー
カ153が接続されている。
ト1のテキスト送信部12から送信されてくるテキスト
データを受信するテキスト受信部21、受信したテキス
トデータ内の略字や数字の読みの決定を行う前処理部2
20、単語辞書224からの情報を参照し形態素解析お
よび構文解析を行う言語処理部221、テキストデータ
がどのように発音されるかを示す発音記号列に変換する
発音記号生成部222が設けられている。なお、表音記
号=発音記号+韻律記号である。
処理部221及び発音記号生成部222の結果に基づき
イントネーションやアクセントを示す韻律記号を生成す
る韻律記号生成部223、音響パラメータを格納したパ
ラメータファイル231を参照しつつ発音記号列及び韻
律記号列に基づいて音響パラメータ時系列を生成する音
響パラメータ生成部23が設けられている。
音声波形を生成する波形生成部24、生成された音声波
形を符号化する波形符号化部25、符号化された音声波
形を送信する波形送信部26が設けられている。
る。 《前処理部》前処理部220は、当該テキストデータ内
の略字や数字の読みの決定を行う部分であり、テキスト
データ内に略字や記号、あるいは数字などがあった場
合、それらを抽出し、抽出した略字等の読みを、図8に
示す対応テーブルを参照して決定する。 《言語処理部》言語処理部221は、単語辞書224か
らの情報を参照し、入力テキストの形態素解析及び構文
解析を行う。ここで、形態素解析とは、入力テキストを
構成する意味のある最小の単位(形態素)に区切り、そ
の品詞、読みやアクセントを決定する処理である。ま
た、構文解析とは、入力テキストに自然なイントネーシ
ョンを与えるために、形態素解析結果に基づいて文法的
に意味のある単位を解析する処理である。
ように発音されるかを示す発音記号列に変換する。発音
記号列とは、発音を表す記号列であり、日本語において
は平仮名表記の一字に相当する。もしくは、その文字の
置かれる環境に応じて細分化したものである。 《韻律記号生成部》韻律記号生成部223は、韻律規則
225を参照して言語処理部221の解析結果及び発音
記号生成部222で生成される発音記号に基づきイント
ネーションやアクセントを示す韻律記号を生成する。
処理部221において得られた構文情報に基づいて、意
味の切れ目に休止記号やイントネーションの再立ち上が
りを制御する記号を挿入するときの規則を示す。また、
単語と付属語や単語同士が接続することによって、単語
本来を持つアクセントの位置が変化するときの規則を示
す。
メータファイル231を参照し、発音記号列及び韻律記
号列に基づいて音響パラメータ時系列を生成する。音響
パラメータとは、実際の音声データを何らかの方法によ
って合成単位(例えば音素や音節)毎に情報圧縮したデ
ータである。音響パラメータとしては、情報圧縮の方式
の違い(音声生成過程のモデル化の違い)によって、P
ARCOR(LPC)、LSP、フォルマント等があ
る。
数)の場合は、発音記号列に基づきフォルマント周波
数、フォルマント帯域幅を指定することにより声道伝達
関数をモデル化したディジタル・フィルタを構成し、そ
のフィルタを、韻律記号列に基づいて生成される音源信
号により駆動し音声波形を生成する。
に基づいて音声波形を生成し、波形符号化部25は生成
された音声波形を情報圧縮する。情報圧縮の手法として
は、ADM,ADPCM,APC,SBC,ATC,P
ARCOR,MPC,VQなどの符号化方式を用いる。
と波形生成部24とで採用される情報圧縮の手法につい
て説明する。ADMとは、Adaptive Delta Modulation
の略で、ADMは予測符号化の最も簡単なもので、入力
信号と予測値との差を1ビット(正、負各1レベル)で
符号化する方法である。ADMでは、1標本値当たり2
量子化レベルしか許されないため、入力信号のサンプリ
ング周波数を高くすることにより、隣接サンプル間の差
分を小さくして符号化している。この差分の振幅があま
り変化しない区間ではステップサイズを小さくし、大き
く変化するときはステップサイズを大きくして適応量子
化を行う。ADM符号化の構成を図9に示す。
lse Code Modulation の略で、過去の入力信号から現在
の入力信号を予測し、それと現在の入力信号との差分だ
けを量子化した後符号化する方法であり、入力信号レベ
ルが急激に変化したときは量子化雑音が大きくなるた
め、量子化のステップ幅をこれに対応して増減する適応
量子化を行う。予測方式には、予測器の予測係数が固定
された固定予測方式と、信号に適応して過去の入力信号
から予測誤差を最小とするように予測係数を決める適応
予測方式とがある。後者は前者に比べて複雑なアルゴリ
ズムを要するが、高品質な符号化特性が得られる。AD
PCM符号化の構成を図10に示す。
の略で、入力信号をブロック単位に取り込んで線形予測
分析することにより予測係数を求め、これに基づき予測
信号を発生する方法であり、予測信号と入力信号との差
分を量子化して符号化するとともに、予測係数と量子化
ステップ幅を補助情報として伝送する。APC符号化は
逐次的に予測するADM,ADPCMとは異なり、ブロ
ック全体のサンプルに対して最適な予測係数を求めて線
形予測を行うため、予測利得が大きくなり、符号化品質
が向上する。その構成を図11に示す。
声信号を複数の周波数帯域に分割し、各帯域信号をナイ
キスト速度でダウンサンプリングするとともにベースバ
ント信号に変換し、ADPCMなどにより符号化する方
法である。その構成を図12に示す。各帯域の符号化に
おいて、音声のエネルギーが集中している帯域に、より
多くの量子化ビット数を割り当てることにより、総合的
な音声品質の向上を可能とする。また、量子化雑音が分
割された帯域にのみ発生し、他の帯域に影響を与えない
ようにできるという利点がある。SBCでは、2分割を
単位にして帯域分割を行うことを基本とし、折り返し成
分がキャンセルできるQMF(Quadrature Mirror Filt
er) を用いるのが一般的である。
略で、音声がほぼ正常と考えられる20ms程度を1 ブロッ
ク(フレーム)とし、そのブロックの音声波形信号を周
波数領域に直交変換した量を符号化する方法である。復
号では、周波数領域の量を逆直交変換することにより1
ブロック分の音声波形信号を再現する。直交変換として
DCT(Discrete Cosine Transform )を用い、適応的
にビット割当てを行う方式をATCと呼ぶことが多い。
ATC符号化は、人間の聴覚の周波数分析機能との対応
づけや、量子化雑音の周波数領域の制御が容易であると
いう特徴を有する。基本的な構成を図13に示す。
tionの略で、人間の音声は、声帯の振動、あるいは口を
狭めることで発生する乱流による音源信号が、音道、口
腔、鼻腔などにおける共振により固有のスペクトル分布
を有する音響信号に変換されて生成されることに着目
し、音声信号から駆動音源情報およびスペクトル分布情
報を抽出(分析)し、これらのパラメータを用いて音声
信号を復元(合成)する音声分析合成方法である。図1
4に示すように、有音声の場合は声帯振動を模擬するパ
ルス発生器、無声音の場合は乱流を模擬する白色雑音発
生器により、予測フィルタを駆動することによって音声
を合成する。
数の代わりにPARCOR係数を用いている。このPA
RCOR係数は、伝送効率が優れ、パラメータ符号化時
の量子化誤差に対して予測フィルタの安定性確保が可能
である。音源情報は、音声信号を逆フィルタ(予測フィ
ルタと逆の特性を有するフィルタ)に通すことによって
得られる予測残差信号から抽出する。具体的には、残差
信号の自己相関係数が最大となるサンプル間隔からパル
ス周期(ピッチ)を求め、このときの係数値と1次のP
ARCOR係数値を用いて有/無声判定を行う。符号化
情報として、一定のフレーム周期(20ms程度)毎にPA
RCOR係数、ピッチ周期、有/無声判定および残差電
力情報を量子化して伝送する。
ARCOR係数の代わりにLSP(Line Spectrum Pai
r)係数を用いるもので、音声のスペクトル情報抽出方
法の簡単化、およびパラメータ符号化時の情報圧縮率の
点で著しく改善されている。
線形予測(LPC)分析合成系(ボコーダ)において、
パルスと雑音による音源のモデル化を避け、音源を有声
音、無声音にかかわらず複数のパルスによって表現し、
これによってLPC合成フィルタを駆動する方式であ
る。MPC符号化のポイントは、いかにして複数のパル
スの振幅と時間位置を最適に設定するかにあり、図15
に示すようなA−b−S(Analysis-by-Synthesis)の原
理による方法が用いられている。まず、予め音声信号を
20ms程度の長さのブロック( フレーム) に切り出し、そ
の区間についてのスペクトル包絡を線形予測分析によっ
て推定する。次に、このフレーム内の音声信号について
音源のマルチパルスを決定する。具体的には、すでにあ
る数のパルスが決定されているとすると、このマルチパ
ルスは、推定されたスペクトル包絡に対応するLPC合
成フィルタを通して合成音声に変換される。この合成音
声と実際の原音声信号の誤差を計算し、聴覚特性による
重み付けを行ってから、平均二乗誤差が最小になるよう
に、新しいパルスの振幅と時間位置を決定する。
波形符号化や分析合成系において、波形やスペクトル包
絡パラメータを各サンプル値ごとに量子化せず、複数の
値の組(ベクトル)をまとめて1つの符号で表現する量
子化方法である。ベクトル量子化は初めLPCパラメー
タの高能率な量子化方法として提案され、その後、波形
の量子化にも適用されるようになった。図16のベクト
ル量子化による符号化では、標本化した波形を一定の時
間について切り出し、その区間の波形パターンを1つの
符号で表現する。このため、予めクラスタリングの手法
を用いて種々の波形パターンを蓄えておき、それぞれに
符号を与えておく。この符号とパターンとの対応を示す
表を符号帳(codebook)と呼ぶ。入力波形に対して、一
定の時間区間ごとに符号帳の各パターンと比較(パター
ンマッチング)し、最も類似度の高い波形の符号でその
区間の波形を表現する。
理を説明する ユーザによりクライアント1のテキスト
入力部11からテキストデータが入力されると、入力さ
れたテキストデータがテキスト送信部12から音声合成
サーバ2へ送信される。
1が、そのテキストデータを受信し、前処理部220
が、当該テキストデータ内の略字や数字の読みの決定を
行う。さらに、言語処理部221は、単語辞書224の
情報を参照し、テキストデータの形態素解析及び構文解
析を行う。発音記号生成部222は、テキストデータが
どのように発音されるかを示す発音記号列に変換し、韻
律記号生成部223は、言語処理部221及び発音記号
生成部222の結果に基づきイントネーションやアクセ
ントを示す韻律記号列を生成する。
メータファイル231を参照し、発音記号列及び韻律記
号列に基づいて音響パラメータ時系列を生成する。波形
生成部24は、音響パラメータ時系列に基づいて音声波
形を生成する。波形符号化部25は生成された音声波形
を情報圧縮する。波形送信部26は情報圧縮された合成
波形をクライアント1の波形受信部13へ送信する。
サーバ2からの情報圧縮された波形を受信し、波形復号
化部14が符号化された音声波形を復号する。DA変換
部151はディジタル音声波形をアナログ音声波形に変
換する。そして、そのアナログ音声信号がローパスフィ
ルタ152を通ってスピーカ152から出力される。 《実施例2及び実施例3》図17は、クライアント1が
表音記号生成機能を有する本発明の実施例2のシステム
構成図であり、図18は、クライアント1が音響パラメ
ータ生成機能を有する実施例3のシステム構成図であ
る。
は、テキスト入力部11と、表音記号生成部16と、デ
ータ送信部110としての表音記号送信部100と、デ
ータ受信部120としての波形受信部13と、波形復号
化部14及び音声出力部15とが設けられている。
ト1には、テキスト入力部11と、表音記号生成部16
と、音響パラメータ生成部17と、データ送信部110
としての音響パラメータ送信部101と、データ受信部
120としての波形受信部13、波形復号化部14及び
音声出力部15とが設けられている。
例においても、データ受信部210と、表音記号生成部
22と、音響パラメータ生成部23と、波形生成部24
と、波形符号化部25と、データ送信部260と、デー
タ制御部270とを備えている。
は、データ受信部210で受信したデータの種類を判別
すると共に、LAN負荷情報(トラフィック情報)と自
己のCPU負荷情報とに基づいてデータ受信部210及
びデータ送信部260を制御する。また、データ制御部
270は、図示しないクライアント1のデータ制御部に
送信すべきデータの種類を指示する。
受信部210で受信したデータの種類を判別し、その判
別結果に応じて受信したデータを表音記号生成部22、
音響パラメータ生成部23、波形生成部24のいずれか
に選択的に出力する。
する。 《実施例2の場合》図17において、ユーザによりクラ
イアント1のテキスト入力部11からテキストデータが
入力されると、表音記号生成部16は、そのテキストデ
ータがどのように発音されるかを示す表音記号列に変換
する。そして、表音記号送信部100は、その表音記号
列を音声合成サーバ2に送信する。
は、クライアント1からのデータ(表音記号列)を受信
すると、データ制御部270が、データ受信部210で
受信されたデータの種類を判別し、そのデータを該当す
る回路に出力させる。この場合、クライアント1からは
送信データとして表音記号列が送られてくるので、デー
タ制御部270は、その表音記号列を音響パラメータ生
成部23に出力させる。
部210で受信された表音記号列を音響パラメータ時系
列に変換し、波形生成部24はその音響パラメータ時系
列に基づいて音声波形を生成する。さらに、波形符号化
部25は、生成された音声波形を符号化して情報圧縮
し、データ送信部26は、その符号化された音声波形を
クライアント1へ送信する。
声合成サーバ2から符号化された音声波形を受信し、波
形復号化部14がその符号化された音声波形を復号す
る。そして、音声出力部15から音声として出力する。 《実施例3の場合》図18において、ユーザによりクラ
イアント1のテキスト入力部11からテキストデータが
入力されると、表音記号生成部16が、当該テキストが
どのように発音されるかを示す表音記号列に変換する。
さらに、音響パラメータ生成部17が、その表音記号列
を音響パラメータ時系列に変換し、音響パラメータ送信
部101が音響パラメータを音声合成サーバ2に送信す
る。
10が、クライアント1からのデータ(音響パラメータ
時系列)を受信し、データ制御部270が、受信したデ
ータ(音響パラメータ)の種類を判別し該当する回路に
出力させる。この場合、クライアント1からは送信デー
タとして音響パラメータ時系列が送られてくるので、そ
の音響パラメータ時系列を波形生成部24に送る。
に基づいて音声波形を生成し、波形符号化部25が、生
成された音声波形を符号化して情報圧縮する。そして、
データ送信部260が、符号化された音声波形をクライ
アント1へ送信する。
音声合成サーバ2からの符号化された音声波形を受信
し、波形復号化部14がその符号化された音声波形を復
号する。さらに、音声出力部15が復号された音声波形
を音声として出力する。
ーバ2は、クライアント1から送信されたデータが表音
記号であれば、音響パラメータの生成以降の処理を行
い、送信されたデータが音響パラメータであれば、音声
波形の生成以降の処理を行えばよいので、音声合成サー
バ2の負荷が軽減される。
が、クライアント1側にも、音声合成サーバ2と同様に
データ制御部130(図3参照)が設けられており、音
声合成サーバ2のデータ制御部270が、LANの負荷
状況、音声合成サーバ2の負荷状況に応じて送信すべき
データの種類をクライアント1のデータ制御部130に
指示するようになっている。
場合には、クライアント1側でより多くの処理を行う方
が望ましいので、音声合成サーバ2のデータ制御部27
0が、クライアント1のデータ制御部130に、クライ
アント1が持つ機能に応じたデータの送信を指示する。
きには、クライアント1で行う処理を音声合成サーバ2
で引き受けることができるので、例えば、クライアント
1が表音記号の生成機能を有する場合でも、クライアン
ト1のデータ制御部130にテキストデータの送信を指
示する。また、クライアント1が音響パラメータの生成
機能を有する場合でも、そのクライアント1のデータ制
御部130にテキストデータ又は表音記号の送信を指示
する。これにより、クライアント1の負荷が軽減され
る。また、この場合、クライアント1からLAN送出さ
れるデータは、よりデータ量の少ないデータとなるの
で、LANのトラヒックも減少する。
との機能分担は、上述したように音声合成サーバ2のデ
ータ制御270がクライアント1のデータ制御部130
に指示する方法に限らず、例えば、クライアント1のデ
ータ制御部130が、音声合成サーバ2のデータ制御部
270と通信して、CPU負荷情報やLAN負荷情報を
受け取り、それらの情報に基づいてクライアント1のデ
ータ制御部130自身が送信するデータの種類を決定す
るようにしても良い。 《実施例4》図19は、クライアント1が波形生成部1
8を有する本発明の実施例4のシステム構成図である。
ト入力部11と、表音記号生成部16と、データ送信部
110としての表音記号送信部100と、データ受信部
120としての音響パラメータ受信部102と、波形生
成部18及び音声出力部15とが設けられている。
ト1のテキスト入力部11からテキストデータが入力さ
れると、表音記号生成部16は、当該テキストがどのよ
うに発音されるかを示す表音記号列に変換し、表音記号
送信部100がその表音記号列を音声合成サーバ2に送
信する。
0が、クライアント1から送信されるデータ(表音記号
列)を受信し、データ制御部270が、受信したデータ
の種類を判別する。この場合、受信したデータは表音記
号列であるので、データ受信部210は、データ制御部
270の指示に従って、受信した表音記号列を音響パラ
メータ生成部23に送る。さらに、音響パラメータ生成
部23は、その表音記号列を音響パラメータ時系列に変
換する。
声データを送信する場合、データ制御部270は、LA
Nの負荷状況、自己のCPUの負荷状況、送信先のクラ
イアント1の持つ機能に応じて送信すべきデータの種類
を決定する。この場合、送信先のクライアント1が波形
生成部18を有するので、データ制御部270は、音声
合成サーバ2の負荷が大きいときには、音声波形の替わ
りに音響パラメータ生成部23で生成される音響パラメ
ータ時系列をクライアント1へ送信させ、音声合成サー
バ2の負荷が小さいときには、波形生成部24で音声波
形を生成させ、その音声波形をクライアント1に送信さ
せる。
102は、音声合成サーバ2から送信される音響パラメ
ータ時系列を受信し、波形生成部18がその音響パラメ
ータ時系列に基づいて音声波形を生成する。最後に音声
出力部15が音声波形を出力する。なお、音声合成サー
バ2から音声波形が送信された場合には、音響パラメー
タ受信部102は、受信した音声波形をそのまま音声出
力部15に出力する。
成機能を有する場合、音声合成サーバ2は、音声波形を
生成せずに音響パラメータ時系列をクライアント1に送
信することができるので、音声合成サーバ2の負荷が軽
減される。さらに、この場合、音声合成サーバ2からL
ANに送出されるデータは、音声波形よりデータ量の少
ない音響パラメータ時系列となるのでLANのトラフィ
ックも減少する。
クライアント1と音声合成サーバ2とからなる音声合成
システムのシステム構成図である。以下、音声合成サー
バ2の負荷が大きい場合、負荷が小さい場合の動作を説
明する。
は、音声合成サーバ2での処理を可能な範囲でクライア
ント1側に負担させることが望ましので、音声合成サー
バ2のデータ制御部270は、各クライアント1の図示
しないデータ制御部にそれぞれのクライアント1が持つ
機能に応じたデータの送信を指示する。
バ2にデータを送信する場合、テキストデータの生成機
能を有するクライアント1は、テキストデータを音声合
成サーバ2に送信し、表音記号の生成機能を有するクラ
イアント1は、表音記号列を音声合成サーバ2に送信
し、音響パラメータ生成機能を有するクライアント1は
音響パラメータ時系列を音声合成サーバ2に送信する。
また、音声合成サーバ2からクライアント1にデータを
送信する場合にも、クライアント1が波形生成機能を有
するときには、音声合成サーバ2は音声波形の生成処理
は行わず、音響パラメータ時系列を該当するクライアン
ト1に送信し、クライアント1側で音声波形の生成を行
わせる。
の生成処理、音響パラメータの生成処理、あるいは音声
波形の生成処理を行わせることで、音声合成サーバ2の
負荷を軽減させることができる。
合には、音声合成サーバ2側でより多くの処理を行える
ので、クライアント1が表音記号、あるいは音響パラメ
ータの生成機能を有しているときにも、クライアント1
にテキストデータ、あるいは表音記号の送信を指示す
る。また、また、クラインアト1が波形生成機能を有す
るときでも、音声合成サーバ2が音声波形まで生成して
クライアント1に送信する。これにより、クライアント
1の処理負担が軽減される。また、この場合、LANに
送出されるデータは、よりデータ量の少ないデータとな
るので、LANのトラヒックも減少する。
能に応じて音声合成サーバ2側の処理を可変にするこ
と、あるいはLANのトラフィック状況、音声合成サー
バ2のCPU負荷状況に応じて、サーバ/クライアント
間の処理分担を変えることができるので、システム全体
の処理効率を高めることができる。 《実施例5》図21は、音質又は言語毎に専用化した複
数の音響パラメータサーバ2a、2bと、共通化した波
形生成サーバ2cとを設けた本発明の実施例5の概念図
であり、図22は、図21のクライアント1、音響パラ
メータサーバ2a、2b及び波形生成サーバ2cの具体
的構成の一例を示す図である。
性、子供などの音質あるいは言語毎に専用化した音響パ
ラメータサーバ2a、2bが設けられている。クライア
ント1は、特定の音響パラメータ生成サーバ2a又は2
bを指定し、あるいはテキストデータにより定まる音響
パラメータ生成サーバ2a又は2bに対して音声合成要
求を行い、音響パラメータ時系列を生成させる。
は、生成した音響パラメータ時系列を波形生成サーバ2
cに転送する。波形生成サーバ2cは、音響パラメータ
生成サーバ2a又は2bから送信された音響パラメータ
時系列に基づいて音声波形を生成し、その音声波形を音
声合成要求を出したクライアント1に転送する。クライ
アント1はその音声波形を受信し音声として再生する。
キスト入力部11から入力されたテキストデータが、テ
キスト送信部12から音響パラメータ生成サーバ2a
(又は2b)のテキスト受信部21に送信される。
(又は2b)の表音記号生成部22は、受信したテキス
トデータに基づいて表音記号列を生成し、音響パラメー
タ生成部23がその表音記号列に基づいて音響パラメー
タ時系列を生成する。音響パラメータ生成部23で生成
された音響パラメータ時系列は、音響パラメータ送信部
310から波形生成サーバ2cに送信される。
メータ時系列に基づいて音声波形が生成され、その音声
波形がクライアント1に送信される。この実施例では、
音質又は言語毎に専用化した音響パラメータ生成サーバ
2a、2bを複数設けることで、テキストデータを異な
った音質、言語で音声出力させることができる。 《実施例6》図23は、本発明の実施例6の概念図であ
る。実施例6は、D/A変換機能を持たないクライアン
ト1が、テキストデータに基づいて生成される合成音声
を指定した電話機から出力させる場合を示している。
は、LANに接続されている音声合成サーバ2に対して
音声合成したいテキストデータと音声出力したい電話機
の電話番号データを送信する。
話番号データを受信すると、そのテキストデータに基づ
いて音声波形を生成し、指定された電話番号のダイヤル
トーンをトーン発生器31から生成し電話機の呼び出し
を行う。そして、回線が接続されたなら、生成したディ
ジタルの音声波形をDA変換器32でアナログの音声信
号に変換して電話回線に送出する。
D/A変換機能を持たない場合でも、クライアント1の
近くにある電話機に合成音声を出力させることで、テキ
ストの内容を音声で聞くことができる。 《実施例7》図24は、本発明の実施例7の概念図であ
る。この実施例は、D/A変換機能を持たないクライア
ント1が、テキストデータに基づいて生成される合成音
声を、D/A変換機能を有する別のクライアントから出
力させる場合の例である。
aは、LANに接続されている音声合成サーバ2に音声
合成したいテキストデータと合成音声を出力させたいク
ライアント1bのアドレスデータとを送出する。音声合
成サーバ2は、クライアント1aからテキストデータと
特定のクライアント1bを指定するアドレスデータとを
受信したなら、テキストデータに対応する音声波形を生
成する。さらに、音声合成サーバ2は、指定されたアド
レスのクライアント1bに、生成した音声波形を送信す
る。クライアント1bは、受信した音声波形から音声を
再生する。
持たないクライアント1aのユーザが、別のクライント
1bを利用して合成音声を聞くことができる。 《実施例8》図25は、実施例8のクライアントとサー
バとの構成を示す図である。この実施例8は、LANに
辞書検索サーバ5と音声合成サーバ2とが接続され、辞
書検索サーバ5で検索された単語の発音を音声合成サー
バ2で音声合成して、辞書検索クライアント4に単語の
辞書情報と共に単語の発音を音声出力する例を示してい
る。
は、検索すべき単語を入力する単語入力部41と、入力
された単語を辞書検索サーバ5に送信する単語送信部4
2と、音声波形データを受信する波形受信部13と、検
索された単語情報を受信する辞書情報受信部44と、辞
書情報受信部44で受信された辞書情報を表示する辞書
情報表示部45と、波形受信部43で受信された符号化
された波形データを復号する波形復号化部14と、復号
されたディジタルの波形データをアナログの音声波形に
変換するDA変換部151と、アナログ音声波形の高周
波成分をカットするローパスフィルタ152と、ローパ
スフィルタ152を通過したアナログ音声波形を音声と
して出力するスピーカ153とで構成されている。
ト4から送信される検索単語を受信する単語受信部51
と、単語辞書53から検索すべき単語の意味及び単語の
発音を示す表音記号等からなる辞書情報を検索する辞書
検索部52と、辞書検索部52で検索された表音記号を
音声合成サーバ2に送信する表音記号送信部55と、辞
書検索部52で検索された辞書情報を辞書情報クライア
ント4に送信する辞書情報送信部54と、音声合成サー
バ2から波形データを受信すると共に、受信した波形デ
ータを辞書検索クライアント4に送信する波形受信/送
信部56とで構成されている。
述した実施例と同じであり、この実施例では、データ受
信部として辞書検索サーバ5から送信される表音記号を
受信する表音記号受信部220が設けられている。
る。ユーザにより単語入力部41から検索すべき単語が
入力されると、入力された単語が単語送信部42から辞
書検索サーバ5へ送信される。
が、単語受信部51で受信された単語の情報を単語辞書
53から検索し、検索した情報の中で単語の意味などを
示す辞書情報を辞書情報送信部54へ出力し、単語の発
音を示す表音記号列を表音記号送信部55へ出力する。
そして、表音記号送信部55が、単語の表音記号列を音
声合成サーバ2へ送信する。
20が、辞書検索サーバ5から送信される表音記号列を
受信すると、音響パラメータ生成部22が、その表音記
号列に基づいて音響パラメータ時系列を生成し、波形生
成部24が、生成された音響パラメータ時系列に基づい
て音声波形を生成する。そして、波形符号化部25がそ
の音声波形を符号化し、波形送信部26がその符号化さ
れた波形データを辞書検索サーバ5に送信する。なお、
音声波形の圧縮は、ADPCM等の公知の波形符号化方
式を用いる。
56が、音声合成サーバ2から送信される波形データを
受信すると、辞書情報送信部54に波形データの送信と
同期して辞書情報を送信するように指示する。
13が、辞書検索サーバ5から送信される波形データを
受信すると、波形復号化部14が、その符号化された波
形データを復号し、さらにDA変換部151がディジタ
ル音声波形をアナログ音声波形に変換する。DA変換部
151で変換されたアナログ音声波形は、ローパスフィ
ルタ152を通りスピーカ153から単語の発音として
して音声出力される。同時に、辞書情報受信部44で受
信された単語の辞書情報が、辞書情報表示部45に表示
される。
波形を辞書検索サーバ5を経由して辞書検索クライアン
ト4に送信しているのは、辞書検索サーバ5で検索され
る辞書情報と、音声合成サーバ2で合成された合成音声
を同時にユーザに呈示する為である。また、図25には
示していないが、辞書検索サーバ5に辞書情報バッファ
及び波形データバッファを設け、一度検索した単語の辞
書情報及び波形データを一定期間記憶しておくようにす
れば、次に同じ単語の検索要求があった場合に、再度、
単語の検索、音声合成処理を行う必要がなくなるので、
検索結果をユーザに呈示するまでの時間を短縮できる。
辞書情報と共にその単語の発音を音声で出力するように
したので、ユーザは、単語の意味と同時に発音を正確、
かつ簡単に知ることができる。また、単語辞書53に格
納されているそれぞれの単語の表音記号に基づいて、音
声合成サーバ2が音声を合成するようにしたので、辞書
検索サーバ5の単語辞書53に単語毎に音声データを記
憶しておく必要がなくなり、音声合成の為に必要なデー
タを記憶しておく記憶装置の容量を少なくできる。
らず複数の単語からなる句あるいは文の発音を音声出力
するようにしても良い。 《実施例9》次に、図26は、本発明の実施例9を示す
図である。この実施例9は、スケジュール管理サーバ7
で管理されるスケジュール情報を音声でユーザに知らせ
るものである。以下、前述した実施例と共通する部分に
は同じ符号を付けてそれらの説明を省略する。
1が、一定時間間隔でスケジュール検索部72を制御し
て、スケジュールデータベース73に登録されているス
ケジュール情報を検索し、現在時刻と一致するスケジュ
ール情報が登録されているか否かを調べる。現在時刻と
一致するスケジュール情報が登録されている場合には、
そのスケジュール情報をスケジュール送信部74から音
声合成サーバ2に送信させる。
1が、スケジュール管理サーバ7から送信されてくるス
ケジュール情報(テキストデータ)を受信すると、先
ず、表音記号生成部22が、受信したテキストデータに
基づいて表音記号列を生成し、次に音響パラメータ生成
部23が、表音記号列に基づいて音響パラメータ時系列
を生成する。さらに、波形生成部24が、その音響パラ
メータ時系列に基づいて音声波形を生成し、波形符号化
部25がその音声波形を符号化して波形送信部26に出
力する。そして、波形送信部26が符号化された波形デ
ータをスケジュール管理サーバ7に送信する。
/送信部75が音声合成サーバ2から波形データを受信
すると、スケジュール送信部74と同期を取ってスケジ
ュール情報と共に波形データをスケジュール管理クライ
アント6に送信する。
ケジュール受信部61がスケジュール管理サーバ7から
のテキストデータを受信すると、スケジュール表示部6
2にそのテキストデータを表示する。同時に、波形受信
部13で受信されたスケジュール内容を示す波形データ
が波形復号化部14で復号され、DA変換部151でD
/A変換されてスピーカ153から音声として出力され
る。
報の表示とその情報の音声出力とを必ずしも同期させる
必要がない場合には、スケジュール管理サーバ7を経由
せず直接スケジュール管理クライアント6に音声波形デ
ータを送信するようにしてもよい。
文字情報としてばかりでなく、音声情報としても出力で
きるので、ユーザに対するスケジュールの通知をより確
実に行うことができる。
ライアントから受信したデータの種類に応じた処理を行
うことで、音声合成サーバの負荷を減らすことができ
る。さらに、ネットワークの負荷状況、音声合成サーバ
の負荷状況等に応じてクライアントから音声合成サーバ
へ送信するデータの種類、あるいは音声合成サーバから
クライアントへ送信するデータの種類を変化させること
で、クライアントと音声合成サーバの負荷分担を適正に
して、システム全体の効率を良くすることができる。
図である。
ム図である。
る。
Claims (6)
- 【請求項1】 ネットワーク上に、音声化すべきテキス
トデータを入力するテキスト入力部と合成音声を出力す
る音声出力部とを有する複数のクライアントと、音声波
形を生成する波形生成部を有する少なくとも1つの音声
合成サーバとを備えた音声合成システムにおいて、 前記クライアントは、 前記テキスト入力部から入力されるテキストデータに基
づいて表音記号を生成する表音記号生成部と、 前記表音記号を前記音声合成サーバへ送信するデータ送
信部と、 前記音声合成サーバから送信されるデータを受信するデ
ータ受信部と、前記データ受信部で受信される音響パラメータに基づい
て音声波形を生成する波形生成部とを備え、 前記音声合成サーバは、 前記クライアントから送信されるデータを受信するデー
タ受信部と、 テキストデータに基づいて表音記号を生成する表音記号
生成部と、 表音記号に基づいて音響パラメータを生成する音響パラ
メータ生成部と、 音響パラメータに基づいて音声波形を生成する波形生成
部と、前記音声合成サーバの負荷状況が大きい場合には、音響
パラメータを前記クライアントに送信することを選択
し、前記音声合成サーバの負荷状況が小さい場合には、
音声波形を前記クライアントに送信することを選択する
データ制御部と、 前記データ制御部が選択した音響パラメータか音声波形
どちらか一方を 前記クライアントへ送信するデータ送信
部とを備えることを特徴とする音声合成システム。 - 【請求項2】 前記クライアントは、前記表音記号生成
部で生成される表音記号に基づいて音響パラメータを生
成する音響パラメータ生成部を備え、 前記音声合成サーバは、 前記データ受信部においてテキストデータを受信した場
合には、受信したテキストデータを前記表音記号生成部
へ出力させ、表音記号を受信した場合には、受信した表
音記号を前記音響パラメータ生成部へ出力させ、 音響パラメータを受信した場合には、受信した音響パラ
メータを前記波形生成部へ出力させる選択制御を行うデ
ータ制御部を備えることを特徴とする請求項1記載の音
声合成システム。 - 【請求項3】 前記音声合成サーバは、波形生成部で生
成される合成音声波形を符号化する波形符号化部を有
し、前記クライアントは、符号化された音声波形を復号
する波形復号化部を備えることを特徴とする請求項1又
は2記載の音声合成システム。 - 【請求項4】 音声化すべきテキストデータを入力する
テキスト入力部と、合成音声を出力する音声出力部とを
有する複数のクライアントとネットワークを介して接続
され、音声波形を生成する波形生成部を有する音声合成
サーバにおいて、 前記クライアントから送信されるデータを受信するデー
タ受信部と、 テキストデータに基づいて表音記号を生成する表音記号
生成部と、 表音記号に基づいて音響パラメータを生成する音響パラ
メータ生成部と、 音響パラメータに基づいて音声波形を生成する波形生成
部と、 前記音声合成サーバの負荷状況が大きい場合には、音響
パラメータを前記クライアントに送信することを選択
し、前記音声合成サーバの負荷状況が小さい場合には、
音声波形を前記クライアントに送信することを選択する
データ制御部と、 前記データ制御部が選択した音響パラメータか音声波形
かどちらか一方を前記クライアントに送信するデータ送
信部とを備えることを特徴とする音声合成サーバ。 - 【請求項5】 前記クライアントは、前記テキスト入力
部から入力されるテキストデータに基づいて表音記号を
生成する表音記号生成部と前記表音記号生成部で生成さ
れる表音記号に基づいて音響パラメータを生成する音響
パラメータ生成部を備え、 前記音声合成サーバは、 前記データ受信部においてテキストデータを受信した場
合には、受信したテキストデータを前記表音記号生成部
へ出力させ、表音記号を受信した場合には、受信した表
音記号を前記音響パラメータ生成部へ出力させ、音響パ
ラメータを受信した場合には、受信した音響パラメータ
を前記波形生成部へ出力させる選択制御を行うデータ制
御部を備えることを特徴とする請求項4記載の音声合成
サーバ。 - 【請求項6】 前記音声合成サーバは、前記波形生成部
で生成される合成音声波形を符号化する波形符号化部を
有し、 前記クライアントは、 符号化された音声波形を復号する波形復号化部を備える
ことを特徴とする請求項4又は5記載の音声合成サー
バ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP29946892A JP3446764B2 (ja) | 1991-11-12 | 1992-11-10 | 音声合成システム及び音声合成サーバ |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP29562191 | 1991-11-12 | ||
JP3-295621 | 1991-11-12 | ||
JP29946892A JP3446764B2 (ja) | 1991-11-12 | 1992-11-10 | 音声合成システム及び音声合成サーバ |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003018049A Division JP2003202884A (ja) | 1991-11-12 | 2003-01-27 | 音声合成システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH05233565A JPH05233565A (ja) | 1993-09-10 |
JP3446764B2 true JP3446764B2 (ja) | 2003-09-16 |
Family
ID=28676652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP29946892A Expired - Fee Related JP3446764B2 (ja) | 1991-11-12 | 1992-11-10 | 音声合成システム及び音声合成サーバ |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3446764B2 (ja) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0830529A (ja) * | 1994-07-20 | 1996-02-02 | Fujitsu Ltd | 通信サーバ |
JP3224760B2 (ja) | 1997-07-10 | 2001-11-05 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声メールシステム、音声合成装置およびこれらの方法 |
JP2002023777A (ja) | 2000-06-26 | 2002-01-25 | Internatl Business Mach Corp <Ibm> | 音声合成システム、音声合成方法、サーバ、記憶媒体、プログラム伝送装置、音声合成データ記憶媒体、音声出力機器 |
JP2002132281A (ja) * | 2000-10-26 | 2002-05-09 | Nippon Telegr & Teleph Corp <Ntt> | 歌声メッセージ生成・配信方法及びその装置 |
JP2003058180A (ja) * | 2001-06-08 | 2003-02-28 | Matsushita Electric Ind Co Ltd | 合成音販売システムおよび音素の著作権認定システム |
JP2003067274A (ja) * | 2001-08-27 | 2003-03-07 | Murata Mach Ltd | クライアント装置及び処理サーバ |
JP2003122387A (ja) * | 2001-10-11 | 2003-04-25 | Matsushita Electric Ind Co Ltd | 読み上げシステム |
JP2003140677A (ja) * | 2001-11-06 | 2003-05-16 | Matsushita Electric Ind Co Ltd | 読み上げシステム |
JP2003140672A (ja) * | 2001-11-06 | 2003-05-16 | Matsushita Electric Ind Co Ltd | 音素ビジネスシステム |
JP3938015B2 (ja) | 2002-11-19 | 2007-06-27 | ヤマハ株式会社 | 音声再生装置 |
JP4407305B2 (ja) * | 2003-02-17 | 2010-02-03 | 株式会社ケンウッド | ピッチ波形信号分割装置、音声信号圧縮装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声合成方法、記録媒体及びプログラム |
JP3706894B2 (ja) * | 2003-08-08 | 2005-10-19 | 有限会社オープンサーキット | 情報提供装置、フォーマット分解装置、情報提供方法及びプログラム |
US7647301B2 (en) | 2003-08-08 | 2010-01-12 | Open-Circuit, Ltd. | Information provision apparatus, format separation apparatus, information provision method and program |
JP2005309164A (ja) * | 2004-04-23 | 2005-11-04 | Nippon Hoso Kyokai <Nhk> | 読み上げ用データ符号化装置および読み上げ用データ符号化プログラム |
JP4653572B2 (ja) * | 2005-06-17 | 2011-03-16 | 日本電信電話株式会社 | クライアント端末、音声合成情報処理サーバ、クライアント端末プログラム、音声合成情報処理プログラム |
JP2010140414A (ja) * | 2008-12-15 | 2010-06-24 | Hitachi Ltd | 電子メール音声読上げシステム |
JP5049310B2 (ja) * | 2009-03-30 | 2012-10-17 | 日本電信電話株式会社 | 音声学習・合成システム及び音声学習・合成方法 |
JP5548541B2 (ja) * | 2010-07-13 | 2014-07-16 | 富士通テン株式会社 | 情報提供システムおよび車載装置 |
JP5502787B2 (ja) * | 2011-03-15 | 2014-05-28 | 株式会社東芝 | 音声変換支援装置、プログラムおよび音声変換支援方法 |
WO2015111256A1 (ja) * | 2014-01-24 | 2015-07-30 | クラリオン株式会社 | 音声調整システム、サーバ及び車載装置 |
US9558736B2 (en) * | 2014-07-02 | 2017-01-31 | Bose Corporation | Voice prompt generation combining native and remotely-generated speech data |
CN105489216B (zh) * | 2016-01-19 | 2020-03-03 | 百度在线网络技术(北京)有限公司 | 语音合成系统的优化方法和装置 |
JP7040589B1 (ja) | 2020-12-01 | 2022-03-23 | トヨタ自動車株式会社 | 機械学習方法及び機械学習システム |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS527635A (en) * | 1975-07-08 | 1977-01-20 | Fuji Electric Co Ltd | Wide-area audio response system |
JPS57104346A (en) * | 1980-12-19 | 1982-06-29 | Fujitsu Ltd | Modulation and demodulation device |
JPS62279433A (ja) * | 1986-05-28 | 1987-12-04 | Nec Corp | 動的タスク変更方式 |
JPS6339015A (ja) * | 1986-08-01 | 1988-02-19 | Nec Corp | オンライン会話処理システムの分散処理方式 |
JP2753252B2 (ja) * | 1988-03-11 | 1998-05-18 | 株式会社日立製作所 | 電子計算機システムの運転装置 |
JP2699430B2 (ja) * | 1988-08-04 | 1998-01-19 | 日本電気株式会社 | データ転送方式 |
JPH02240699A (ja) * | 1989-03-14 | 1990-09-25 | Matsushita Electric Ind Co Ltd | 音声合成装置 |
JPH0363745A (ja) * | 1989-08-01 | 1991-03-19 | Canon Inc | 情報処理システム |
JPH03266548A (ja) * | 1990-03-16 | 1991-11-27 | Canon Inc | メツセージ通信処理システム |
-
1992
- 1992-11-10 JP JP29946892A patent/JP3446764B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH05233565A (ja) | 1993-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3446764B2 (ja) | 音声合成システム及び音声合成サーバ | |
US5940795A (en) | Speech synthesis system | |
US6810379B1 (en) | Client/server architecture for text-to-speech synthesis | |
JP4005359B2 (ja) | 音声符号化及び音声復号化装置 | |
US5884253A (en) | Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter | |
EP1157375B1 (en) | Celp transcoding | |
CN101506876A (zh) | 在具有不同语音帧速率的混合激励线性预测(melp)声码器之间进行代码转换的声码器和相关方法 | |
JPH08272395A (ja) | 音声符号化装置 | |
WO1997007498A1 (fr) | Unite de traitement des signaux vocaux | |
KR100480341B1 (ko) | 광대역 저전송률 음성 신호의 부호화기 | |
EP1298647B1 (en) | A communication device and a method for transmitting and receiving of natural speech, comprising a speech recognition module coupled to an encoder | |
JP2000356995A (ja) | 音声通信システム | |
JPH05265496A (ja) | 複数のコードブックを有する音声符号化方法 | |
JP4578145B2 (ja) | 音声符号化装置、音声復号化装置及びこれらの方法 | |
JP3916934B2 (ja) | 音響パラメータ符号化、復号化方法、装置及びプログラム、音響信号符号化、復号化方法、装置及びプログラム、音響信号送信装置、音響信号受信装置 | |
JP2003202884A (ja) | 音声合成システム | |
Zinser et al. | CELP coding at 4.0 kb/sec and below: Improvements to FS-1016 | |
KR0155798B1 (ko) | 음성신호 부호화 및 복호화 방법 | |
JP4287840B2 (ja) | 符号化装置 | |
JP3232701B2 (ja) | 音声符号化方法 | |
Dong-jian | Two stage concatenation speech synthesis for embedded devices | |
JP2002073097A (ja) | Celp型音声符号化装置とcelp型音声復号化装置及び音声符号化方法と音声復号化方法 | |
JP3063087B2 (ja) | 音声符号化復号化装置及び音声符号化装置ならびに音声復号化装置 | |
JP3006790B2 (ja) | 音声符号化復号化方法及びその装置 | |
Shoham | Low complexity speech coding at 1.2 to 2.4 kbps based on waveform interpolation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20030617 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080704 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090704 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100704 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100704 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110704 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |