JP3446764B2

JP3446764B2 - 音声合成システム及び音声合成サーバ

Info

Publication number: JP3446764B2
Application number: JP29946892A
Authority: JP
Inventors: 達郎松本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1991-11-12
Filing date: 1992-11-10
Publication date: 2003-09-16
Anticipated expiration: 2018-09-16
Also published as: JPH05233565A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ＬＡＮ等のネットワー
クに、複数のクライアントと少なくとも１つの音声合成
サーバとが接続された音声合成システム及びその音声合
成サーバに関する。

【０００２】

【従来の技術】ＬＡＮ上にクライアントと音声合成サー
バを設置し、クライアントの要求に従ってテキストの合
成音声を生成し、クライアントに転送するシステムが丸
川、砂川によって提案されている（丸川、砂川：第15回
ＵＮＩＸシンポジウム・プロシーディングズ 96 〜104
頁）。このようなシステムの基本構成は図２７に示すよ
うに、クライアント１に、テキスト入力部１１、テキス
ト送信部１２、波形受信部１３、音声出力部１５を設
け、音声合成サーバ２に、クライアント１側のテキスト
送信部１２から送信されるテキストデータを受信するテ
キスト受信部２１、表音記号生成部２２、音響パラメー
タ生成部２３、波形生成部２４、波形生成部２４で生成
された音声合成波形をクライアント１に送信する波形送
信部２６とを設けた構成である。

【０００３】そして、クライアント１側のテキスト入力
部１１からテキストデータが入力されると、テキスト送
信部１２が、当該テキストデータを音声合成サーバ２に
送信する。音声合成サーバ２は、テキスト送信部１２か
ら送信されたテキストデータをテキスト受信部２１で受
信し、表音記号生成部２２が、当該テキストデータがど
のように発音されるのかを示す表音記号列に変換する。
さらに、音響パラメータ生成部２３は、表音記号列を音
響パラメータ時系列に変換し、波形生成部２４がその音
響パラメータ時系列に基づいて音声波形を生成する。そ
して、波形送信部２６は、生成された音声波形をクライ
アント１に送信する。

【０００４】クライアント１側では、音声波形を波形受
信部１３で受信し、音声出力部１５が音声波形を音声と
して再生する。

【０００５】

【発明が解決しようとする課題】上述した従来の音声合
成システムでは、クライアント１と音声合成サーバ２と
の間で音声データ（合成音声波形）を直接転送するた
め、ＬＡＮのトラフィックが増大するという問題点があ
った。

【０００６】また、従来の音声合成システムでは、サー
バ／クライアントの持つ資源（機能）に関わらず、サー
バ／クライアント間の通信は固定された種類のデータで
行われている為に、クライアント１の資源が有効に利用
されないという問題点があった。すなわち、図２７のシ
ステムでクライアント１が表音記号の生成機能を有する
場合でも、クライアント１から音声合成サーバ２に送信
されるデータは、常にテキストデータであり、クライア
ント１の機能を有効に利用していなっかった。

【０００７】ところで、クライアント１の中にはＤ／Ａ
変換機能を持たないものもあり、このようなクライアン
ト１のユーザは、音声合成サーバ２から送られて来るデ
ィジタルデータを再生できないので、従来は、Ｄ／Ａ変
換機能を持ったクライアントしか音声データを受け取る
ことができないという問題点があった。

【０００８】また、上述したローカルエリアネットワー
ク上に複数の単語情報を記憶した辞書検索サーバを設
け、クライアント１のユーザから特定の単語の検索要求
があったとき、辞書検索サーバが該当する単語の意味、
発音記号を検索し、それらの情報をクライアントに転送
して表示する辞書検索システムが知られている。単語を
検索する場合、その単語の意味と同時に音声による発音
が分かると便利であるが、従来そのようなシステムは存
在しなかった。

【０００９】また、ユーザが入力したスケジュールデー
タを記憶しておいて、スケジュール日時となったとき、
メッセージ等でユーザに知らせるスケージュル管理シス
テムが知られている。このようなシステムで、スケジュ
ール内容を音声で知らせることができればさらに便利で
あるが、従来そのようなシステムは存在しなかった。

【００１０】本発明の目的は、音声合成サーバの処理負
担を軽減することである。他の目的は、音声合成サーバ
の負荷及びネットワークのトラヒックを減少させること
である。

【００１１】

【００１２】

【課題を解決するための手段】図１の原理図に対応する
発明は、ネットワーク上に、音声化すべきテキストデー
タを入力するテキスト入力部１１と、合成音声を出力す
る音声出力部１５とを有する複数のクライアント１と、
合成音声波形を生成する波形生成部２４を有する少なく
とも１つの音声合成サーバ２とを備えた音声合成システ
ムを前提にする。

【００１３】図１の原理図１において、音声合成サーバ
２の波形生成部２４は、クライアント１から送信される
データに基づいて音声波形を生成する。波形符号化部２
５は、波形生成部２４で生成される音声波形を符号化す
る。

【００１４】クライアント２の波形復号化部１４は、音
声合成サーバ２から送信される符号化された音声波形を
復号する。音声出力部１５は、復号された音声波形を音
声として出力する。

【００１５】図２の原理図２において、クライアント１
の表音記号生成部１６は、テキスト入力部１１から入力
されるテキストデータに基づいて表音記号（表音記号
列）を生成する。ここで、表音記号とは、入力されたテ
キストデータの発音、アクセント、イントネーションな
どを示す記号である。

【００１６】音響パラメータ生成部１７は、上記表音記
号に基づいて音響パラメータ（音響パラメータ時系列）
を生成する。データ送信部１１０は、クライアント１が
テキスト入力部１１と表音記号生成部１６とを有する場
合には、表音記号を音声合成サーバ２に送信し、クライ
アント１がテキスト入力部１１と、表音記号生成部１６
と、音響パラメータ生成部１７とを有する場合には、音
響パラメータを音声合成サーバ２に送信する。

【００１７】データ受信部１２０は、音声合成サーバ２
から出力される音声波形を受信する。音声合成サーバ２
のデータ受信部２１０は、クライアント１から送信され
るデータを受信する。

【００１８】表音記号生成部２２は、データ受信部２１
０で受信されたテキストデータに基づいて表音記号を生
成する。音響パラメータ生成部２３は、表音記号に基づ
いて音響パラメータを生成する。

【００１９】波形生成部２４は、音響パラメータに基づ
いて合成音声波形を生成する。データ制御部２７０は、
データ受信部２１０においてテキストデータを受信した
場合には、受信したテキストデータをデータ受信部２１
０から表音記号生成部２２へ出力させ、表音記号を受信
した場合には、受信した表音記号を音響パラメータ生成
部２３へ出力させ、音響パラメータを受信した場合に
は、受信した音響パラメータを波形生成部２４へ出力さ
せる選択制御を行う。

【００２０】図３の原理図３において、クライアント１
側の波形生成部１８は、データ受信部１２０で受信する
音響パラメータに基づいて合成音声波形を生成する。ク
ライアント側のデータ制御部１３０は、データ受信部１
２０で音響パラメータを受信した場合には、その音響パ
ラメータを波形生成部１８へ出力させ、合成音声波形を
受信した場合には、その合成音声波形を音声出力部１５
へ出力させる選択制御を行う。

【００２１】さらに、クライアント側のデータ制御部１
３０は、音声合成サーバ２からの指示に従って、データ
送信部１１０から音声合成サーバ２へテキストデータを
送信するか、表音記号を送信するか、音響パラメータを
送信するかを選択制御する。

【００２２】音声合成サーバ２側のデータ制御部２７０
は、データ受信部２１０においてテキストデータを受信
した場合には、受信したテキストデータを表音記号生成
部２２へ出力させ、表音記号を受信した場合には、受信
した表音記号を音響パラメータ生成部２３へ出力させ、
音響パラメータを受信した場合には、受信した音響パラ
メータを波形生成部２４へ出力させる選択制御を行う。

【００２３】また、データ制御部２７０は、音声合成要
求を行ったクライアント１が波形生成部１８を有する場
合には、自己の負荷状況、ＬＡＮの負荷状況等に応じ
て、データ送信部２６０からクライアント１へ音声波形
を送信させるか、音響パラメータを送信させるかを選択
制御する。

【００２４】図４の原理図４において、音響パラメータ
生成サーバ２ａ、２ｂは、それぞれ音質又は言語毎に専
用化されており、特定の音質又は言語の音響パラメータ
を生成する。

【００２５】クライアント１は、音響パラメータ生成サ
ーバ２ａ、２ｂに対して特定の音質又は言語の音響パラ
メータの生成を指示する。波形サーバ２ｃは、上記音響
パラメータ生成サーバ２ａ、２ｂで生成された音響パラ
メータに基づいて合成音声波形を生成する。

【００２６】図５において、クライアント４は、単語入
力部４１と単語送信部４２と辞書情報／波形受信部４３
と音声出力部１５と辞書情報表示部４５とを有してい
る。単語入力部４１は、検索すべき単語が入力され、単
語送信部４２は、その入力された単語を辞書検索サーバ
５に送信する。

【００２７】辞書情報／波形受信部４３は、辞書情報及
び単語の音声波形を受信する。辞書情報表示部４５は、
辞書情報／波形受信部４３で受信した単語の辞書情報を
表示し、音声出力部１５は、受信した音声波形を音声と
して出力する。

【００２８】辞書検索サーバ５は、単語辞書５３と辞書
検索部５２と表音記号送信部５５とデータ送受信部５７
とを有している。辞書検索部５２は、クライアント４か
ら検索要求のあった単語の辞書情報を単語辞書５３から
検索する。

【００２９】表音記号送信部５５は、辞書検索部５２に
より検索された辞書情報の中の表音記号を音声合成サー
バ２に送信する。データ送受信部５７は、音声合成サー
バ２から送信される音声波形を受信すると共に、受信し
た音声波形と辞書検索部５２により検索された辞書情報
とをクライアント４に送信する。

【００３０】音声合成サーバ２は、表音記号受信部２２
０と、音響パラメータ生成部２３と、波形生成部２４
と、波形送信部２６とを有する。表音記号受信部２２０
は、辞書検索サーバ５から送信される表音記号を受信す
る。波形生成部２４は、受信した表音記号に対応する音
声波形を生成し、波形送信部２６は、生成された音声波
形を辞書検索サーバ５に送信する。

【００３１】図６において、クライアント６は、スケジ
ュール／波形受信部６３と音声出力部１５とスケジュー
ル表示部６２とを有している。スケジュール／波形受信
部６３は、スケジュール情報及び音声波形を受信する。
スケジュール表示部６２は、スケジュール／波形受信部
６３で受信したスケジュール情報を表示し、音声出力部
１５は、受信した音声波形を音声として出力する。

【００３２】スケジュール管理サーバ７は、スケジュー
ルデータベース７３とスケジュール検索部７２とスケジ
ュール送信部７４とを有する。スケジュールデータベー
ス７３は、複数のユーザのスケジュール情報を記憶す
る。

【００３３】スケジュール検索部７２は、所定の条件の
スケジュール情報をスケジュールデータベースから検索
する。スケジュール送信部７４は、検索されたスケジュ
ール情報を音声合成サーバ２に送信する。

【００３４】音声合成サーバ２は、テキスト受信部２１
と、表音記号生成部２２と、音響パラメータ生成部２３
と、波形生成部２４と、波形送信部２６とを有してい
る。テキスト受信部２１は、スケジュール管理サーバ７
から送信されるスケジュール情報を受信する。波形生成
部２４は、受信されたスケジュール情報に対応する音声
波形を生成し、波形送信部２６は、その音声波形をスケ
ジュール管理サーバ７又はクライアント６に送信する。

【００３５】

【作用】図１の原理図１に対応する発明では、音声合成
サーバ２の波形生成部２４がクライアント１から送信さ
れたデータに対応する音声波形を生成し、その音声波形
を符号化してクライアント１に送信する。

【００３６】クライアント１側では、受信した音声波形
を復号化部１４で元の音声波形に復号し、音声出力部１
５から音声として出力する。この場合、音声合成サーバ
２からＬＡＮには圧縮されたデータ（符号化された音声
波形）が送出されるので、ＬＡＮを伝送されるデータ量
が少なくなり、ＬＡＮのトラヒックが減少する。

【００３７】次に、図２の原理図２に対応する発明で
は、クライアント１は、音声出力部１５とデータ送信部
１１０とデータ受信部１２０の他に、(i) テキスト入力
部１１のみを有する場合と、(ii)テキスト入力部１１と
表音記号生成部１６とを有する場合と、(iii) テキスト
入力部１１と表音記号生成部１６と音響パラメータ生成
部１７とを有する場合がある。

【００３８】クライアント１が(i) の構成を有する場合
には、データ送信部１１０から音声合成サーバ２にテキ
ストデータを送信し、(ii)の構成を有する場合には、デ
ータ送信部１１０から音声合成サーバ２に表音記号を送
信し、(iii) の構成を有する場合には、データ送信部１
１０から音声合成サーバ２に音響パラメータを送信す
る。

【００３９】音声合成サーバ２側では、クライアント１
からテキストデータを受信した場合には、受信したテキ
ストデータを表音記号生成部２２へ出力して表音記号の
生成を行い、表音記号を受信した場合には、受信した表
音記号を音響パラメータ生成部２３へ出力して音響パラ
メータの生成を行い、音響パラメータを受信した場合に
は、受信した音響パラメータを波形生成部２４へ出力し
て合成音声波形の生成を行う。

【００４０】この場合、クライアント１は、自己の有す
る機能に応じたデータを音声合成サーバ２に送信するの
で、クライアント１が表音記号生成機能、あるいは音響
パラメータ生成機能を有する場合には、音声合成サーバ
２の表音記号の生成処理、あるいは音響パラメータの生
成処理等が不要となり、音声合成サーバ２の負荷を軽減
することができる。

【００４１】次に、図３の原理図３に対応する発明で
は、クライアント１は、原理図２の発明の構成に加えデ
ータ制御部１３０を有する。この場合、クライアント１
は、(i) テキスト入力部１１のみを有する場合と、(ii)
テキスト入力部１１と表音記号生成部１６とを有する場
合と、(iii) テキスト入力部１１と表音記号生成部１６
と音響パラメータ生成部１７とを有する場合とがある。

【００４２】音声合成サーバ２のデータ制御部２７０
は、クライアント１から音声データの送信要求があった
とき、音声合成サーバ２の負荷状況、ネットワークの負
荷状況及び要求のあったクライアント１の有する機能に
基づいて、クライアント１から音声合成サーバ２に送信
すべきデータの種類を決定し、決定したデータの種類を
クライアント１のデータ制御部１３０に指示する。ある
いは、音声合成サーバ２のデータ制御部２７０からクラ
イアント１のデータ制御部１３０に、音声合成サーバ２
の負荷状況、ネットワークの負荷状況に関する情報を通
知し、クライアント１のデータ制御部１３０自身が送信
すべきデータの種類を決めることもできる。

【００４３】例えば、音声合成サーバ２の負荷が大きい
場合には、音声合成サーバ２のデータ制御部２７０は、
クライアント１のデータ制御部１３０にクライアント１
の持つ機能に応じた種類のデータを送信するように指示
する。そして、クライアント１のデータ制御部１３０
は、音声合成サーバ２から指示された種類のデータの送
信をデータ送信部１１０に指示する。

【００４４】具体的には、クライアント１が上記(ii)の
構成を有する場合には、クライアント１のデータ制御部
１３０は、表音記号の送信をデータ送信部１１０に指示
し、クライアント１が上記(iii) の構成を有する場合に
は、音響パラメータの送信を指示する。

【００４５】一方、音声合成サーバ２の負荷が小さい場
合には、クライアント１側の処理を音声合成サーバ２側
で行うことができるので、音声合成サーバ２のデータ制
御部２７０は、それぞれのクライアント１が持っている
機能以下のデータを送信するようにする指示する。

【００４６】例えば、音声合成サーバ２の負荷が小さ
く、処理能力に余裕がある場合には、音声合成サーバ２
のデータ制御部２７０は、クライアント１が表音記号の
生成機能を有する場合（上記(ii)の場合）でもクライア
ント１のデータ制御部１３０にテキストデータの送信を
指示する。

【００４７】また、音声合成サーバ２のデータ制御部２
７０は、クライアント１が音響パラメータまで送信でき
る機能を有する場合（上記(iii) の場合）でも、クライ
アント１のデータ制御部１３０に表音記号（又はテキス
トデータ）の送信を指示する。

【００４８】このように、音声合成サーバ２の負荷が小
さい場合に、クライアント１で行う表音記号の生成処
理、あるいは音響パラメータの生成処理を音声合成サー
バ２側で行うことで、クライアント１の負荷を減らすこ
とができる。この場合、クライアント１から音声合成サ
ーバ２へ送信されるデータは、表音記号の替わりに、よ
りデータ量の少ないテキストデータ、あるいは音響パラ
メータの替わりに、よりデータ量の少ない表音記号（又
はテキストデータ）となるので、ＬＡＮのトラヒックを
減少させることもできる。

【００４９】さらに、原理図３に対応する発明のクライ
アント１は、波形生成部１８を有する場合がある。この
場合、音声合成サーバ２は、自己の負荷状況、ＬＡＮ等
のネットワークの負荷状況及びクライアントの負荷状況
に応じて合成音声波形、音響パラメータの何れかを選択
してクライアント１に送信する。

【００５０】例えば、音声合成サーバ２の負荷が小さい
場合には、音声合成サーバ２は、音声波形の生成まで行
い、データ送信部２６０からその音声波形をクライアン
ト１に送信する。

【００５１】一方、音声合成サーバ２の負荷が大きい場
合には、波形生成部２４での音声波形の生成は行わず、
音響パラメータをクライアント１に送信する。また、Ｌ
ＡＮのトラヒックが大きいときには、音声波形よりデー
タ量の少ない音響パラメータを送信する。

【００５２】このように、音声合成サーバ２の負荷の状
況、ＬＡＮ等のネットワークの負荷状況、クライアント
の負荷状況に応じて音声波形、音響パラメータの何れか
を選択してクライアント１に送信することにより、音声
合成サーバ２の負荷を軽くすることができる。また。音
声波形の替わりに、よりデータ量の少ない音響パラメー
タを送信することで、ネットワークの負荷を減少させる
ことができる。

【００５３】図４の原理図に対応する発明では、クライ
アント１が特定の音質又は言語の音響パラメータの生成
を指示すると、該当する音響パラメータサーバ２ａ（又
は２ｂ）が、クライアント１から送信されるテキストデ
ータに基づいて音響パラメータを生成し、その音響パラ
メータを波形生成サーバ２ｃに送信する。波形生成サー
バ２ｃは、受信した音響パラメータに基づいて音声波形
を生成し、その音声波形をクライアント１に送信する。
これにより、クライアント１からは、指定した音質又は
言語でテキストデータが音声出力される。

【００５４】図５の原理図５に対応する発明では、辞書
検索部５２は、クライアント４から検索要求のあった単
語の辞書情報を単語辞書５３から検索し、検索した辞書
情報の中の表音記号を音声合成サーバ２に送信する。音
声合成サーバ２は、その表音記号に対応する音声波形を
生成し、生成した音声波形を辞書検索サーバ５に送信す
る。

【００５５】辞書検索サーバ５は、辞書検索部５２が検
索した単語の辞書情報と、音声合成サーバ２から受信し
た音声波形とをクライアント４に送信する。クライアン
ト４は、単語の辞書情報を辞書情報表示部４５に表示す
ると共に、単語の発音を音声出力部１５から音声で出力
する。

【００５６】これにより、ユーザがクライアント４に特
定の単語の検索要求を行ったとき、その単語の意味が表
示されると共に、その発音が音声で出力されるので、ユ
ーザは単語の意味とその発音を正確に知ることができ
る。

【００５７】次に、図６の原理図６に対応する発明で
は、スケジュール管理サーバ７は、スケジュールデータ
ベース７３に記憶されているスケジュール情報を検索
し、例えばスケジュール時刻が現在時刻と一致するスケ
ジュール情報を取り出す。そして、そのスケジュール情
報を音声合成サーバ２に送信する。音声合成サーバ２
は、テキストデータの形で受信するスケジュール情報に
対応する音声波形を生成し、その音声波形をスケジュー
ル管理サーバ７に送信する。

【００５８】スケジュール管理サーバ７は、音声波形を
スケジュール情報と共にクライアント６に送信する。ク
ライアント６は、スケジュール情報をスケジュール情報
表示部６２に表示し、スケジュール内容を示す音声を音
声出力部１５から出力する。なお、音声合成サーバ２で
生成した音声波形を直接クライアント６に送信するよう
にしても良い。

【００５９】これにより、スケジュール情報がディスプ
レイ等に表示されると共に、音声で出力されるので、ユ
ーザに対するスケジュールの通知をより確実に行うこと
ができる。

【００６０】

【実施例】以下、本発明の実施例を図面を参照しながら
説明する。図７は、本発明の実施例１の音声合成システ
ムの構成図である。この実施例は、少なくとも１つの音
声合成サーバ２と複数のクライアント１とが接続されて
ＬＡＮが形成されている場合を示している。

【００６１】クライアント１には、音声合成すべきメッ
セージをテキストデータとして入力するテキスト入力部
１１、このテキスト入力部１１から入力されたテキスト
データを音声合成サーバ２に送信するテキスト送信部１
２、音声合成サーバ２から送信される符号化された音声
波形を受信する波形受信部１３、受信した音声波形を復
号する波形復号化部１４、復号された音声ディジタルデ
ータをアナログデータに変換するＤＡ変換部１５１、ア
ナログデータから高周波成分を除去するローパスフィル
タ１５２が設けられ、ローパスフィルタ１５２にスピー
カ１５３が接続されている。

【００６２】一方、音声合成サーバ２には、クライアン
ト１のテキスト送信部１２から送信されてくるテキスト
データを受信するテキスト受信部２１、受信したテキス
トデータ内の略字や数字の読みの決定を行う前処理部２
２０、単語辞書２２４からの情報を参照し形態素解析お
よび構文解析を行う言語処理部２２１、テキストデータ
がどのように発音されるかを示す発音記号列に変換する
発音記号生成部２２２が設けられている。なお、表音記
号＝発音記号＋韻律記号である。

【００６３】また、韻律規則２２５を参照し、かつ言語
処理部２２１及び発音記号生成部２２２の結果に基づき
イントネーションやアクセントを示す韻律記号を生成す
る韻律記号生成部２２３、音響パラメータを格納したパ
ラメータファイル２３１を参照しつつ発音記号列及び韻
律記号列に基づいて音響パラメータ時系列を生成する音
響パラメータ生成部２３が設けられている。

【００６４】さらに、音響パラメータ時系列に基づいて
音声波形を生成する波形生成部２４、生成された音声波
形を符号化する波形符号化部２５、符号化された音声波
形を送信する波形送信部２６が設けられている。

【００６５】以下、各部を必要に応じて詳細に説明す
る。《前処理部》前処理部２２０は、当該テキストデータ内
の略字や数字の読みの決定を行う部分であり、テキスト
データ内に略字や記号、あるいは数字などがあった場
合、それらを抽出し、抽出した略字等の読みを、図８に
示す対応テーブルを参照して決定する。《言語処理部》言語処理部２２１は、単語辞書２２４か
らの情報を参照し、入力テキストの形態素解析及び構文
解析を行う。ここで、形態素解析とは、入力テキストを
構成する意味のある最小の単位（形態素）に区切り、そ
の品詞、読みやアクセントを決定する処理である。ま
た、構文解析とは、入力テキストに自然なイントネーシ
ョンを与えるために、形態素解析結果に基づいて文法的
に意味のある単位を解析する処理である。

【００６６】発音記号生成部２２２は、テキストがどの
ように発音されるかを示す発音記号列に変換する。発音
記号列とは、発音を表す記号列であり、日本語において
は平仮名表記の一字に相当する。もしくは、その文字の
置かれる環境に応じて細分化したものである。《韻律記号生成部》韻律記号生成部２２３は、韻律規則
２２５を参照して言語処理部２２１の解析結果及び発音
記号生成部２２２で生成される発音記号に基づきイント
ネーションやアクセントを示す韻律記号を生成する。

【００６７】ここで参照する韻律規則２２５とは、言語
処理部２２１において得られた構文情報に基づいて、意
味の切れ目に休止記号やイントネーションの再立ち上が
りを制御する記号を挿入するときの規則を示す。また、
単語と付属語や単語同士が接続することによって、単語
本来を持つアクセントの位置が変化するときの規則を示
す。

【００６８】次に、音響パラメータ生成部２３は、パラ
メータファイル２３１を参照し、発音記号列及び韻律記
号列に基づいて音響パラメータ時系列を生成する。音響
パラメータとは、実際の音声データを何らかの方法によ
って合成単位（例えば音素や音節）毎に情報圧縮したデ
ータである。音響パラメータとしては、情報圧縮の方式
の違い（音声生成過程のモデル化の違い）によって、Ｐ
ＡＲＣＯＲ（ＬＰＣ）、ＬＳＰ、フォルマント等があ
る。

【００６９】例えば、フォルマント（声道の共振周波
数）の場合は、発音記号列に基づきフォルマント周波
数、フォルマント帯域幅を指定することにより声道伝達
関数をモデル化したディジタル・フィルタを構成し、そ
のフィルタを、韻律記号列に基づいて生成される音源信
号により駆動し音声波形を生成する。

【００７０】波形生成部２４は、音響パラメータ時系列
に基づいて音声波形を生成し、波形符号化部２５は生成
された音声波形を情報圧縮する。情報圧縮の手法として
は、ＡＤＭ，ＡＤＰＣＭ，ＡＰＣ，ＳＢＣ，ＡＴＣ，Ｐ
ＡＲＣＯＲ，ＭＰＣ，ＶＱなどの符号化方式を用いる。

【００７１】ここで、上記の音響パラメータ生成部２３
と波形生成部２４とで採用される情報圧縮の手法につい
て説明する。ＡＤＭとは、Adaptive Delta Modulation
の略で、ＡＤＭは予測符号化の最も簡単なもので、入力
信号と予測値との差を１ビット（正、負各１レベル）で
符号化する方法である。ＡＤＭでは、１標本値当たり２
量子化レベルしか許されないため、入力信号のサンプリ
ング周波数を高くすることにより、隣接サンプル間の差
分を小さくして符号化している。この差分の振幅があま
り変化しない区間ではステップサイズを小さくし、大き
く変化するときはステップサイズを大きくして適応量子
化を行う。ＡＤＭ符号化の構成を図９に示す。

【００７２】ＡＤＰＣＭは、Adaptive Differential Pu
lse Code Modulation の略で、過去の入力信号から現在
の入力信号を予測し、それと現在の入力信号との差分だ
けを量子化した後符号化する方法であり、入力信号レベ
ルが急激に変化したときは量子化雑音が大きくなるた
め、量子化のステップ幅をこれに対応して増減する適応
量子化を行う。予測方式には、予測器の予測係数が固定
された固定予測方式と、信号に適応して過去の入力信号
から予測誤差を最小とするように予測係数を決める適応
予測方式とがある。後者は前者に比べて複雑なアルゴリ
ズムを要するが、高品質な符号化特性が得られる。ＡＤ
ＰＣＭ符号化の構成を図１０に示す。

【００７３】ＡＰＣとは、Adaptive Predictive Coding
の略で、入力信号をブロック単位に取り込んで線形予測
分析することにより予測係数を求め、これに基づき予測
信号を発生する方法であり、予測信号と入力信号との差
分を量子化して符号化するとともに、予測係数と量子化
ステップ幅を補助情報として伝送する。ＡＰＣ符号化は
逐次的に予測するＡＤＭ，ＡＤＰＣＭとは異なり、ブロ
ック全体のサンプルに対して最適な予測係数を求めて線
形予測を行うため、予測利得が大きくなり、符号化品質
が向上する。その構成を図１１に示す。

【００７４】ＳＢＣとは、Sub-Band Coding の略で、音
声信号を複数の周波数帯域に分割し、各帯域信号をナイ
キスト速度でダウンサンプリングするとともにベースバ
ント信号に変換し、ＡＤＰＣＭなどにより符号化する方
法である。その構成を図１２に示す。各帯域の符号化に
おいて、音声のエネルギーが集中している帯域に、より
多くの量子化ビット数を割り当てることにより、総合的
な音声品質の向上を可能とする。また、量子化雑音が分
割された帯域にのみ発生し、他の帯域に影響を与えない
ようにできるという利点がある。ＳＢＣでは、２分割を
単位にして帯域分割を行うことを基本とし、折り返し成
分がキャンセルできるＱＭＦ（Quadrature Mirror Filt
er) を用いるのが一般的である。

【００７５】ＡＴＣとは、Adaptive Trasform Codingの
略で、音声がほぼ正常と考えられる20ms程度を1 ブロッ
ク（フレーム）とし、そのブロックの音声波形信号を周
波数領域に直交変換した量を符号化する方法である。復
号では、周波数領域の量を逆直交変換することにより１
ブロック分の音声波形信号を再現する。直交変換として
ＤＣＴ（Discrete Cosine Transform ）を用い、適応的
にビット割当てを行う方式をＡＴＣと呼ぶことが多い。
ＡＴＣ符号化は、人間の聴覚の周波数分析機能との対応
づけや、量子化雑音の周波数領域の制御が容易であると
いう特徴を有する。基本的な構成を図１３に示す。

【００７６】ＰＡＲＣＯＲとは、PARtial auto CORrela
tionの略で、人間の音声は、声帯の振動、あるいは口を
狭めることで発生する乱流による音源信号が、音道、口
腔、鼻腔などにおける共振により固有のスペクトル分布
を有する音響信号に変換されて生成されることに着目
し、音声信号から駆動音源情報およびスペクトル分布情
報を抽出（分析）し、これらのパラメータを用いて音声
信号を復元（合成）する音声分析合成方法である。図１
４に示すように、有音声の場合は声帯振動を模擬するパ
ルス発生器、無声音の場合は乱流を模擬する白色雑音発
生器により、予測フィルタを駆動することによって音声
を合成する。

【００７７】本方式では、スペクトル情報として予測係
数の代わりにＰＡＲＣＯＲ係数を用いている。このＰＡ
ＲＣＯＲ係数は、伝送効率が優れ、パラメータ符号化時
の量子化誤差に対して予測フィルタの安定性確保が可能
である。音源情報は、音声信号を逆フィルタ（予測フィ
ルタと逆の特性を有するフィルタ）に通すことによって
得られる予測残差信号から抽出する。具体的には、残差
信号の自己相関係数が最大となるサンプル間隔からパル
ス周期（ピッチ）を求め、このときの係数値と１次のＰ
ＡＲＣＯＲ係数値を用いて有／無声判定を行う。符号化
情報として、一定のフレーム周期（20ms程度）毎にＰＡ
ＲＣＯＲ係数、ピッチ周期、有／無声判定および残差電
力情報を量子化して伝送する。

【００７８】また、その後開発されたＬＳＰ方式は、Ｐ
ＡＲＣＯＲ係数の代わりにＬＳＰ（Line Spectrum Pai
r）係数を用いるもので、音声のスペクトル情報抽出方
法の簡単化、およびパラメータ符号化時の情報圧縮率の
点で著しく改善されている。

【００７９】ＭＰＣとは、Multi-Pulse Codingの略で、
線形予測（ＬＰＣ）分析合成系（ボコーダ）において、
パルスと雑音による音源のモデル化を避け、音源を有声
音、無声音にかかわらず複数のパルスによって表現し、
これによってＬＰＣ合成フィルタを駆動する方式であ
る。ＭＰＣ符号化のポイントは、いかにして複数のパル
スの振幅と時間位置を最適に設定するかにあり、図１５
に示すようなＡ−ｂ−Ｓ（Analysis-by-Synthesis)の原
理による方法が用いられている。まず、予め音声信号を
20ms程度の長さのブロック( フレーム) に切り出し、そ
の区間についてのスペクトル包絡を線形予測分析によっ
て推定する。次に、このフレーム内の音声信号について
音源のマルチパルスを決定する。具体的には、すでにあ
る数のパルスが決定されているとすると、このマルチパ
ルスは、推定されたスペクトル包絡に対応するＬＰＣ合
成フィルタを通して合成音声に変換される。この合成音
声と実際の原音声信号の誤差を計算し、聴覚特性による
重み付けを行ってから、平均二乗誤差が最小になるよう
に、新しいパルスの振幅と時間位置を決定する。

【００８０】ＶＱとは、Vector Quantization の略で、
波形符号化や分析合成系において、波形やスペクトル包
絡パラメータを各サンプル値ごとに量子化せず、複数の
値の組（ベクトル）をまとめて１つの符号で表現する量
子化方法である。ベクトル量子化は初めＬＰＣパラメー
タの高能率な量子化方法として提案され、その後、波形
の量子化にも適用されるようになった。図１６のベクト
ル量子化による符号化では、標本化した波形を一定の時
間について切り出し、その区間の波形パターンを１つの
符号で表現する。このため、予めクラスタリングの手法
を用いて種々の波形パターンを蓄えておき、それぞれに
符号を与えておく。この符号とパターンとの対応を示す
表を符号帳（codebook）と呼ぶ。入力波形に対して、一
定の時間区間ごとに符号帳の各パターンと比較（パター
ンマッチング）し、最も類似度の高い波形の符号でその
区間の波形を表現する。

【００８１】次に、図７に戻り、実施例１の音声合成処
理を説明するユーザによりクライアント１のテキスト
入力部１１からテキストデータが入力されると、入力さ
れたテキストデータがテキスト送信部１２から音声合成
サーバ２へ送信される。

【００８２】音声合成サーバ２では、テキスト受信部２
１が、そのテキストデータを受信し、前処理部２２０
が、当該テキストデータ内の略字や数字の読みの決定を
行う。さらに、言語処理部２２１は、単語辞書２２４の
情報を参照し、テキストデータの形態素解析及び構文解
析を行う。発音記号生成部２２２は、テキストデータが
どのように発音されるかを示す発音記号列に変換し、韻
律記号生成部２２３は、言語処理部２２１及び発音記号
生成部２２２の結果に基づきイントネーションやアクセ
ントを示す韻律記号列を生成する。

【００８３】次に、音響パラメータ生成部２３は、パラ
メータファイル２３１を参照し、発音記号列及び韻律記
号列に基づいて音響パラメータ時系列を生成する。波形
生成部２４は、音響パラメータ時系列に基づいて音声波
形を生成する。波形符号化部２５は生成された音声波形
を情報圧縮する。波形送信部２６は情報圧縮された合成
波形をクライアント１の波形受信部１３へ送信する。

【００８４】クライアント１側では、波形受信部１３が
サーバ２からの情報圧縮された波形を受信し、波形復号
化部１４が符号化された音声波形を復号する。ＤＡ変換
部１５１はディジタル音声波形をアナログ音声波形に変
換する。そして、そのアナログ音声信号がローパスフィ
ルタ１５２を通ってスピーカ１５２から出力される。《実施例２及び実施例３》図１７は、クライアント１が
表音記号生成機能を有する本発明の実施例２のシステム
構成図であり、図１８は、クライアント１が音響パラメ
ータ生成機能を有する実施例３のシステム構成図であ
る。

【００８５】図１７に示す実施例２のクライアント１に
は、テキスト入力部１１と、表音記号生成部１６と、デ
ータ送信部１１０としての表音記号送信部１００と、デ
ータ受信部１２０としての波形受信部１３と、波形復号
化部１４及び音声出力部１５とが設けられている。

【００８６】また、図１８に示す実施例３のクライアン
ト１には、テキスト入力部１１と、表音記号生成部１６
と、音響パラメータ生成部１７と、データ送信部１１０
としての音響パラメータ送信部１０１と、データ受信部
１２０としての波形受信部１３、波形復号化部１４及び
音声出力部１５とが設けられている。

【００８７】なお、音声合成サーバ２は、いずれの実施
例においても、データ受信部２１０と、表音記号生成部
２２と、音響パラメータ生成部２３と、波形生成部２４
と、波形符号化部２５と、データ送信部２６０と、デー
タ制御部２７０とを備えている。

【００８８】音声合成サーバ２のデータ制御部２７０
は、データ受信部２１０で受信したデータの種類を判別
すると共に、ＬＡＮ負荷情報（トラフィック情報）と自
己のＣＰＵ負荷情報とに基づいてデータ受信部２１０及
びデータ送信部２６０を制御する。また、データ制御部
２７０は、図示しないクライアント１のデータ制御部に
送信すべきデータの種類を指示する。

【００８９】すなわち、データ制御部２７０は、データ
受信部２１０で受信したデータの種類を判別し、その判
別結果に応じて受信したデータを表音記号生成部２２、
音響パラメータ生成部２３、波形生成部２４のいずれか
に選択的に出力する。

【００９０】以下、実施例２及び実施例３の動作を説明
する。《実施例２の場合》図１７において、ユーザによりクラ
イアント１のテキスト入力部１１からテキストデータが
入力されると、表音記号生成部１６は、そのテキストデ
ータがどのように発音されるかを示す表音記号列に変換
する。そして、表音記号送信部１００は、その表音記号
列を音声合成サーバ２に送信する。

【００９１】音声合成サーバ２のデータ受信部２１０
は、クライアント１からのデータ（表音記号列）を受信
すると、データ制御部２７０が、データ受信部２１０で
受信されたデータの種類を判別し、そのデータを該当す
る回路に出力させる。この場合、クライアント１からは
送信データとして表音記号列が送られてくるので、デー
タ制御部２７０は、その表音記号列を音響パラメータ生
成部２３に出力させる。

【００９２】音響パラメータ生成部２３は、データ受信
部２１０で受信された表音記号列を音響パラメータ時系
列に変換し、波形生成部２４はその音響パラメータ時系
列に基づいて音声波形を生成する。さらに、波形符号化
部２５は、生成された音声波形を符号化して情報圧縮
し、データ送信部２６は、その符号化された音声波形を
クライアント１へ送信する。

【００９３】クライアント１側の波形受信部１３は、音
声合成サーバ２から符号化された音声波形を受信し、波
形復号化部１４がその符号化された音声波形を復号す
る。そして、音声出力部１５から音声として出力する。《実施例３の場合》図１８において、ユーザによりクラ
イアント１のテキスト入力部１１からテキストデータが
入力されると、表音記号生成部１６が、当該テキストが
どのように発音されるかを示す表音記号列に変換する。
さらに、音響パラメータ生成部１７が、その表音記号列
を音響パラメータ時系列に変換し、音響パラメータ送信
部１０１が音響パラメータを音声合成サーバ２に送信す
る。

【００９４】音声合成サーバ２側では、データ受信部２
１０が、クライアント１からのデータ（音響パラメータ
時系列）を受信し、データ制御部２７０が、受信したデ
ータ（音響パラメータ）の種類を判別し該当する回路に
出力させる。この場合、クライアント１からは送信デー
タとして音響パラメータ時系列が送られてくるので、そ
の音響パラメータ時系列を波形生成部２４に送る。

【００９５】波形生成部２４は、音響パラメータ時系列
に基づいて音声波形を生成し、波形符号化部２５が、生
成された音声波形を符号化して情報圧縮する。そして、
データ送信部２６０が、符号化された音声波形をクライ
アント１へ送信する。

【００９６】クライアント１側では、波形受信部１３が
音声合成サーバ２からの符号化された音声波形を受信
し、波形復号化部１４がその符号化された音声波形を復
号する。さらに、音声出力部１５が復号された音声波形
を音声として出力する。

【００９７】上述した実施例２及び３では、音声合成サ
ーバ２は、クライアント１から送信されたデータが表音
記号であれば、音響パラメータの生成以降の処理を行
い、送信されたデータが音響パラメータであれば、音声
波形の生成以降の処理を行えばよいので、音声合成サー
バ２の負荷が軽減される。

【００９８】なお、図１７、図１９には示していない
が、クライアント１側にも、音声合成サーバ２と同様に
データ制御部１３０（図３参照）が設けられており、音
声合成サーバ２のデータ制御部２７０が、ＬＡＮの負荷
状況、音声合成サーバ２の負荷状況に応じて送信すべき
データの種類をクライアント１のデータ制御部１３０に
指示するようになっている。

【００９９】例えば、音声合成サーバ２の負荷が大きい
場合には、クライアント１側でより多くの処理を行う方
が望ましいので、音声合成サーバ２のデータ制御部２７
０が、クライアント１のデータ制御部１３０に、クライ
アント１が持つ機能に応じたデータの送信を指示する。

【０１００】一方、音声合成サーバ２の負荷が小さいと
きには、クライアント１で行う処理を音声合成サーバ２
で引き受けることができるので、例えば、クライアント
１が表音記号の生成機能を有する場合でも、クライアン
ト１のデータ制御部１３０にテキストデータの送信を指
示する。また、クライアント１が音響パラメータの生成
機能を有する場合でも、そのクライアント１のデータ制
御部１３０にテキストデータ又は表音記号の送信を指示
する。これにより、クライアント１の負荷が軽減され
る。また、この場合、クライアント１からＬＡＮ送出さ
れるデータは、よりデータ量の少ないデータとなるの
で、ＬＡＮのトラヒックも減少する。

【０１０１】なお、クライアント１と音声合成サーバ２
との機能分担は、上述したように音声合成サーバ２のデ
ータ制御２７０がクライアント１のデータ制御部１３０
に指示する方法に限らず、例えば、クライアント１のデ
ータ制御部１３０が、音声合成サーバ２のデータ制御部
２７０と通信して、ＣＰＵ負荷情報やＬＡＮ負荷情報を
受け取り、それらの情報に基づいてクライアント１のデ
ータ制御部１３０自身が送信するデータの種類を決定す
るようにしても良い。《実施例４》図１９は、クライアント１が波形生成部１
８を有する本発明の実施例４のシステム構成図である。

【０１０２】図１９に示すクライアント１には、テキス
ト入力部１１と、表音記号生成部１６と、データ送信部
１１０としての表音記号送信部１００と、データ受信部
１２０としての音響パラメータ受信部１０２と、波形生
成部１８及び音声出力部１５とが設けられている。

【０１０３】図１９において、ユーザによりクライアン
ト１のテキスト入力部１１からテキストデータが入力さ
れると、表音記号生成部１６は、当該テキストがどのよ
うに発音されるかを示す表音記号列に変換し、表音記号
送信部１００がその表音記号列を音声合成サーバ２に送
信する。

【０１０４】音声合成サーバ２では、データ受信部２１
０が、クライアント１から送信されるデータ（表音記号
列）を受信し、データ制御部２７０が、受信したデータ
の種類を判別する。この場合、受信したデータは表音記
号列であるので、データ受信部２１０は、データ制御部
２７０の指示に従って、受信した表音記号列を音響パラ
メータ生成部２３に送る。さらに、音響パラメータ生成
部２３は、その表音記号列を音響パラメータ時系列に変
換する。

【０１０５】音声合成サーバ２からクライアント１に音
声データを送信する場合、データ制御部２７０は、ＬＡ
Ｎの負荷状況、自己のＣＰＵの負荷状況、送信先のクラ
イアント１の持つ機能に応じて送信すべきデータの種類
を決定する。この場合、送信先のクライアント１が波形
生成部１８を有するので、データ制御部２７０は、音声
合成サーバ２の負荷が大きいときには、音声波形の替わ
りに音響パラメータ生成部２３で生成される音響パラメ
ータ時系列をクライアント１へ送信させ、音声合成サー
バ２の負荷が小さいときには、波形生成部２４で音声波
形を生成させ、その音声波形をクライアント１に送信さ
せる。

【０１０６】クライアント１側の音響パラメータ受信部
１０２は、音声合成サーバ２から送信される音響パラメ
ータ時系列を受信し、波形生成部１８がその音響パラメ
ータ時系列に基づいて音声波形を生成する。最後に音声
出力部１５が音声波形を出力する。なお、音声合成サー
バ２から音声波形が送信された場合には、音響パラメー
タ受信部１０２は、受信した音声波形をそのまま音声出
力部１５に出力する。

【０１０７】この実施例では、クライアント１が波形生
成機能を有する場合、音声合成サーバ２は、音声波形を
生成せずに音響パラメータ時系列をクライアント１に送
信することができるので、音声合成サーバ２の負荷が軽
減される。さらに、この場合、音声合成サーバ２からＬ
ＡＮに送出されるデータは、音声波形よりデータ量の少
ない音響パラメータ時系列となるのでＬＡＮのトラフィ
ックも減少する。

【０１０８】次に、図２０は、上述した実施例１〜４の
クライアント１と音声合成サーバ２とからなる音声合成
システムのシステム構成図である。以下、音声合成サー
バ２の負荷が大きい場合、負荷が小さい場合の動作を説
明する。

【０１０９】音声合成サーバ２の負荷が大きい場合に
は、音声合成サーバ２での処理を可能な範囲でクライア
ント１側に負担させることが望ましので、音声合成サー
バ２のデータ制御部２７０は、各クライアント１の図示
しないデータ制御部にそれぞれのクライアント１が持つ
機能に応じたデータの送信を指示する。

【０１１０】従って、クライアント１から音声合成サー
バ２にデータを送信する場合、テキストデータの生成機
能を有するクライアント１は、テキストデータを音声合
成サーバ２に送信し、表音記号の生成機能を有するクラ
イアント１は、表音記号列を音声合成サーバ２に送信
し、音響パラメータ生成機能を有するクライアント１は
音響パラメータ時系列を音声合成サーバ２に送信する。
また、音声合成サーバ２からクライアント１にデータを
送信する場合にも、クライアント１が波形生成機能を有
するときには、音声合成サーバ２は音声波形の生成処理
は行わず、音響パラメータ時系列を該当するクライアン
ト１に送信し、クライアント１側で音声波形の生成を行
わせる。

【０１１１】このように、クライアント１側で表音記号
の生成処理、音響パラメータの生成処理、あるいは音声
波形の生成処理を行わせることで、音声合成サーバ２の
負荷を軽減させることができる。

【０１１２】一方、音声合成サーバ２の負荷が小さい場
合には、音声合成サーバ２側でより多くの処理を行える
ので、クライアント１が表音記号、あるいは音響パラメ
ータの生成機能を有しているときにも、クライアント１
にテキストデータ、あるいは表音記号の送信を指示す
る。また、また、クラインアト１が波形生成機能を有す
るときでも、音声合成サーバ２が音声波形まで生成して
クライアント１に送信する。これにより、クライアント
１の処理負担が軽減される。また、この場合、ＬＡＮに
送出されるデータは、よりデータ量の少ないデータとな
るので、ＬＡＮのトラヒックも減少する。

【０１１３】上記実施例によれば、クライアント１の機
能に応じて音声合成サーバ２側の処理を可変にするこ
と、あるいはＬＡＮのトラフィック状況、音声合成サー
バ２のＣＰＵ負荷状況に応じて、サーバ／クライアント
間の処理分担を変えることができるので、システム全体
の処理効率を高めることができる。《実施例５》図２１は、音質又は言語毎に専用化した複
数の音響パラメータサーバ２ａ、２ｂと、共通化した波
形生成サーバ２ｃとを設けた本発明の実施例５の概念図
であり、図２２は、図２１のクライアント１、音響パラ
メータサーバ２ａ、２ｂ及び波形生成サーバ２ｃの具体
的構成の一例を示す図である。

【０１１４】図２１の音声合成システムには、男性、女
性、子供などの音質あるいは言語毎に専用化した音響パ
ラメータサーバ２ａ、２ｂが設けられている。クライア
ント１は、特定の音響パラメータ生成サーバ２ａ又は２
ｂを指定し、あるいはテキストデータにより定まる音響
パラメータ生成サーバ２ａ又は２ｂに対して音声合成要
求を行い、音響パラメータ時系列を生成させる。

【０１１５】音響パラメータ生成サーバ２ａ又は２ｂ
は、生成した音響パラメータ時系列を波形生成サーバ２
ｃに転送する。波形生成サーバ２ｃは、音響パラメータ
生成サーバ２ａ又は２ｂから送信された音響パラメータ
時系列に基づいて音声波形を生成し、その音声波形を音
声合成要求を出したクライアント１に転送する。クライ
アント１はその音声波形を受信し音声として再生する。

【０１１６】具体的には、図２２のクライアント１のテ
キスト入力部１１から入力されたテキストデータが、テ
キスト送信部１２から音響パラメータ生成サーバ２ａ
（又は２ｂ）のテキスト受信部２１に送信される。

【０１１７】該当する音響パラメータ生成サーバ２ａ
（又は２ｂ）の表音記号生成部２２は、受信したテキス
トデータに基づいて表音記号列を生成し、音響パラメー
タ生成部２３がその表音記号列に基づいて音響パラメー
タ時系列を生成する。音響パラメータ生成部２３で生成
された音響パラメータ時系列は、音響パラメータ送信部
３１０から波形生成サーバ２ｃに送信される。

【０１１８】そして、波形サーバ２ｃにおいて音響パラ
メータ時系列に基づいて音声波形が生成され、その音声
波形がクライアント１に送信される。この実施例では、
音質又は言語毎に専用化した音響パラメータ生成サーバ
２ａ、２ｂを複数設けることで、テキストデータを異な
った音質、言語で音声出力させることができる。《実施例６》図２３は、本発明の実施例６の概念図であ
る。実施例６は、Ｄ／Ａ変換機能を持たないクライアン
ト１が、テキストデータに基づいて生成される合成音声
を指定した電話機から出力させる場合を示している。

【０１１９】Ｄ／Ａ変換機能を持たないクライアント１
は、ＬＡＮに接続されている音声合成サーバ２に対して
音声合成したいテキストデータと音声出力したい電話機
の電話番号データを送信する。

【０１２０】音声合成サーバ２は、テキストデータと電
話番号データを受信すると、そのテキストデータに基づ
いて音声波形を生成し、指定された電話番号のダイヤル
トーンをトーン発生器３１から生成し電話機の呼び出し
を行う。そして、回線が接続されたなら、生成したディ
ジタルの音声波形をＤＡ変換器３２でアナログの音声信
号に変換して電話回線に送出する。

【０１２１】この実施例６によれば、クライアント１が
Ｄ／Ａ変換機能を持たない場合でも、クライアント１の
近くにある電話機に合成音声を出力させることで、テキ
ストの内容を音声で聞くことができる。《実施例７》図２４は、本発明の実施例７の概念図であ
る。この実施例は、Ｄ／Ａ変換機能を持たないクライア
ント１が、テキストデータに基づいて生成される合成音
声を、Ｄ／Ａ変換機能を有する別のクライアントから出
力させる場合の例である。

【０１２２】Ｄ／Ａ変換機能を持たないクライアント１
ａは、ＬＡＮに接続されている音声合成サーバ２に音声
合成したいテキストデータと合成音声を出力させたいク
ライアント１ｂのアドレスデータとを送出する。音声合
成サーバ２は、クライアント１ａからテキストデータと
特定のクライアント１ｂを指定するアドレスデータとを
受信したなら、テキストデータに対応する音声波形を生
成する。さらに、音声合成サーバ２は、指定されたアド
レスのクライアント１ｂに、生成した音声波形を送信す
る。クライアント１ｂは、受信した音声波形から音声を
再生する。

【０１２３】この実施例７によれば、Ｄ／Ａ変換機能を
持たないクライアント１ａのユーザが、別のクライント
１ｂを利用して合成音声を聞くことができる。《実施例８》図２５は、実施例８のクライアントとサー
バとの構成を示す図である。この実施例８は、ＬＡＮに
辞書検索サーバ５と音声合成サーバ２とが接続され、辞
書検索サーバ５で検索された単語の発音を音声合成サー
バ２で音声合成して、辞書検索クライアント４に単語の
辞書情報と共に単語の発音を音声出力する例を示してい
る。

【０１２４】図２５において、辞書検索クライアント４
は、検索すべき単語を入力する単語入力部４１と、入力
された単語を辞書検索サーバ５に送信する単語送信部４
２と、音声波形データを受信する波形受信部１３と、検
索された単語情報を受信する辞書情報受信部４４と、辞
書情報受信部４４で受信された辞書情報を表示する辞書
情報表示部４５と、波形受信部４３で受信された符号化
された波形データを復号する波形復号化部１４と、復号
されたディジタルの波形データをアナログの音声波形に
変換するＤＡ変換部１５１と、アナログ音声波形の高周
波成分をカットするローパスフィルタ１５２と、ローパ
スフィルタ１５２を通過したアナログ音声波形を音声と
して出力するスピーカ１５３とで構成されている。

【０１２５】辞書検索サーバ５は、辞書検索クライアン
ト４から送信される検索単語を受信する単語受信部５１
と、単語辞書５３から検索すべき単語の意味及び単語の
発音を示す表音記号等からなる辞書情報を検索する辞書
検索部５２と、辞書検索部５２で検索された表音記号を
音声合成サーバ２に送信する表音記号送信部５５と、辞
書検索部５２で検索された辞書情報を辞書情報クライア
ント４に送信する辞書情報送信部５４と、音声合成サー
バ２から波形データを受信すると共に、受信した波形デ
ータを辞書検索クライアント４に送信する波形受信／送
信部５６とで構成されている。

【０１２６】音声合成サーバ２の構成は、基本的には前
述した実施例と同じであり、この実施例では、データ受
信部として辞書検索サーバ５から送信される表音記号を
受信する表音記号受信部２２０が設けられている。

【０１２７】次に、図２５のシステムの動作を説明す
る。ユーザにより単語入力部４１から検索すべき単語が
入力されると、入力された単語が単語送信部４２から辞
書検索サーバ５へ送信される。

【０１２８】辞書検索サーバ５では、単語検索部５２
が、単語受信部５１で受信された単語の情報を単語辞書
５３から検索し、検索した情報の中で単語の意味などを
示す辞書情報を辞書情報送信部５４へ出力し、単語の発
音を示す表音記号列を表音記号送信部５５へ出力する。
そして、表音記号送信部５５が、単語の表音記号列を音
声合成サーバ２へ送信する。

【０１２９】音声合成サーバ２では、表音記号受信部２
２０が、辞書検索サーバ５から送信される表音記号列を
受信すると、音響パラメータ生成部２２が、その表音記
号列に基づいて音響パラメータ時系列を生成し、波形生
成部２４が、生成された音響パラメータ時系列に基づい
て音声波形を生成する。そして、波形符号化部２５がそ
の音声波形を符号化し、波形送信部２６がその符号化さ
れた波形データを辞書検索サーバ５に送信する。なお、
音声波形の圧縮は、ＡＤＰＣＭ等の公知の波形符号化方
式を用いる。

【０１３０】辞書検索サーバ５では、波形受信／送信部
５６が、音声合成サーバ２から送信される波形データを
受信すると、辞書情報送信部５４に波形データの送信と
同期して辞書情報を送信するように指示する。

【０１３１】辞書検索クライアント４では、波形受信部
１３が、辞書検索サーバ５から送信される波形データを
受信すると、波形復号化部１４が、その符号化された波
形データを復号し、さらにＤＡ変換部１５１がディジタ
ル音声波形をアナログ音声波形に変換する。ＤＡ変換部
１５１で変換されたアナログ音声波形は、ローパスフィ
ルタ１５２を通りスピーカ１５３から単語の発音として
して音声出力される。同時に、辞書情報受信部４４で受
信された単語の辞書情報が、辞書情報表示部４５に表示
される。

【０１３２】なお、音声合成サーバ２で生成された音声
波形を辞書検索サーバ５を経由して辞書検索クライアン
ト４に送信しているのは、辞書検索サーバ５で検索され
る辞書情報と、音声合成サーバ２で合成された合成音声
を同時にユーザに呈示する為である。また、図２５には
示していないが、辞書検索サーバ５に辞書情報バッファ
及び波形データバッファを設け、一度検索した単語の辞
書情報及び波形データを一定期間記憶しておくようにす
れば、次に同じ単語の検索要求があった場合に、再度、
単語の検索、音声合成処理を行う必要がなくなるので、
検索結果をユーザに呈示するまでの時間を短縮できる。

【０１３３】この実施例では、検索要求のあった単語の
辞書情報と共にその単語の発音を音声で出力するように
したので、ユーザは、単語の意味と同時に発音を正確、
かつ簡単に知ることができる。また、単語辞書５３に格
納されているそれぞれの単語の表音記号に基づいて、音
声合成サーバ２が音声を合成するようにしたので、辞書
検索サーバ５の単語辞書５３に単語毎に音声データを記
憶しておく必要がなくなり、音声合成の為に必要なデー
タを記憶しておく記憶装置の容量を少なくできる。

【０１３４】なお、音声出力するのは、１つの単語に限
らず複数の単語からなる句あるいは文の発音を音声出力
するようにしても良い。《実施例９》次に、図２６は、本発明の実施例９を示す
図である。この実施例９は、スケジュール管理サーバ７
で管理されるスケジュール情報を音声でユーザに知らせ
るものである。以下、前述した実施例と共通する部分に
は同じ符号を付けてそれらの説明を省略する。

【０１３５】スケジュール管理サーバ７では、制御部７
１が、一定時間間隔でスケジュール検索部７２を制御し
て、スケジュールデータベース７３に登録されているス
ケジュール情報を検索し、現在時刻と一致するスケジュ
ール情報が登録されているか否かを調べる。現在時刻と
一致するスケジュール情報が登録されている場合には、
そのスケジュール情報をスケジュール送信部７４から音
声合成サーバ２に送信させる。

【０１３６】音声合成サーバ２では、テキスト受信部２
１が、スケジュール管理サーバ７から送信されてくるス
ケジュール情報（テキストデータ）を受信すると、先
ず、表音記号生成部２２が、受信したテキストデータに
基づいて表音記号列を生成し、次に音響パラメータ生成
部２３が、表音記号列に基づいて音響パラメータ時系列
を生成する。さらに、波形生成部２４が、その音響パラ
メータ時系列に基づいて音声波形を生成し、波形符号化
部２５がその音声波形を符号化して波形送信部２６に出
力する。そして、波形送信部２６が符号化された波形デ
ータをスケジュール管理サーバ７に送信する。

【０１３７】スケジュール管理サーバ７では、波形受信
／送信部７５が音声合成サーバ２から波形データを受信
すると、スケジュール送信部７４と同期を取ってスケジ
ュール情報と共に波形データをスケジュール管理クライ
アント６に送信する。

【０１３８】スケジュール管理クライアント６では、ス
ケジュール受信部６１がスケジュール管理サーバ７から
のテキストデータを受信すると、スケジュール表示部６
２にそのテキストデータを表示する。同時に、波形受信
部１３で受信されたスケジュール内容を示す波形データ
が波形復号化部１４で復号され、ＤＡ変換部１５１でＤ
／Ａ変換されてスピーカ１５３から音声として出力され
る。

【０１３９】なお、スケジュール管理などのように、情
報の表示とその情報の音声出力とを必ずしも同期させる
必要がない場合には、スケジュール管理サーバ７を経由
せず直接スケジュール管理クライアント６に音声波形デ
ータを送信するようにしてもよい。

【０１４０】この実施例によれば、スケジュール情報を
文字情報としてばかりでなく、音声情報としても出力で
きるので、ユーザに対するスケジュールの通知をより確
実に行うことができる。

【０１４１】

【０１４２】

【発明の効果】本発明によれば、音声合成サーバが、ク
ライアントから受信したデータの種類に応じた処理を行
うことで、音声合成サーバの負荷を減らすことができ
る。さらに、ネットワークの負荷状況、音声合成サーバ
の負荷状況等に応じてクライアントから音声合成サーバ
へ送信するデータの種類、あるいは音声合成サーバから
クライアントへ送信するデータの種類を変化させること
で、クライアントと音声合成サーバの負荷分担を適正に
して、システム全体の効率を良くすることができる。

【０１４３】

【０１４４】

【図面の簡単な説明】

【図１】本発明の原理図１である。

【図２】本発明の原理図２である。

【図３】本発明の原理図３である。

【図４】本発明の原理図４である。

【図５】本発明の原理図５である。

【図６】本発明の原理図６である。

【図７】本発明の実施例１を示す図である。

【図８】略字及び数字とその読みの対応テーブルを示す
図である。

【図９】ＡＤＭを示すブロック図である。

【図１０】ＡＤＰＣＭを示すブロック図である。

【図１１】ＡＰＣを示すブロック図である。

【図１２】ＳＢＣを示すブロック図である。

【図１３】ＡＴＣを示すブロック図である。

【図１４】ＰＡＲＣＯＲを示すブロック図である。

【図１５】ＭＰＣを示すブロック図である。

【図１６】ＶＱを示すブロック図である。

【図１７】本発明の実施例２を示す図である。

【図１８】本発明の実施例３を示す図である。

【図１９】本発明の実施例４を示す図である。

【図２０】実施例１〜４のクライアントを備えたシステ
ム図である。

【図２１】本発明の実施例５を示す図である。

【図２２】実施例５の具体的構成の一例を示す図であ
る。

【図２３】本発明の実施例６を示す図である。

【図２４】本発明の実施例７を示す図である。

【図２５】本発明の実施例８を示す図である。

【図２６】本発明の実施例９を示す図である。

【図２７】従来例を示す図である。

【符号の説明】

１、４、６クライアント２ａ、２ｂ音響パラメータサーバ２ｃ波形生成サーバ２音声合成サーバ５辞書検索サーバ７スケジュール管理サーバ１１テキスト入力部１４波形復号化部１５音声出力部１６、２２表音記号生成部１７、２３音響パラメータ生成部１８、２４波形生成部２５波形符号化部１１０、２６０データ送信部１２０、２１０データ受信部１３０、２７０データ制御部

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開昭52−7635（ＪＰ，Ａ) 特開平２−240699（ＪＰ，Ａ) 特開昭63−39015（ＪＰ，Ａ) 特開平１−231160（ＪＰ，Ａ) 特開昭62−279433（ＪＰ，Ａ) 特公平１−21653（ＪＰ，Ｂ２) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 15/16 G06F 3/16 G06F 13/00 G10L 13/00

Claims

(57)【特許請求の範囲】

【請求項１】ネットワーク上に、音声化すべきテキス
トデータを入力するテキスト入力部と合成音声を出力す
る音声出力部とを有する複数のクライアントと、音声波
形を生成する波形生成部を有する少なくとも１つの音声
合成サーバとを備えた音声合成システムにおいて、前記クライアントは、前記テキスト入力部から入力されるテキストデータに基
づいて表音記号を生成する表音記号生成部と、前記表音記号を前記音声合成サーバへ送信するデータ送
信部と、前記音声合成サーバから送信されるデータを受信するデ
ータ受信部と、前記データ受信部で受信される音響パラメータに基づい
て音声波形を生成する波形生成部とを備え、前記音声合成サーバは、前記クライアントから送信されるデータを受信するデー
タ受信部と、テキストデータに基づいて表音記号を生成する表音記号
生成部と、表音記号に基づいて音響パラメータを生成する音響パラ
メータ生成部と、音響パラメータに基づいて音声波形を生成する波形生成
部と、前記音声合成サーバの負荷状況が大きい場合には、音響
パラメータを前記クライアントに送信することを選択
し、前記音声合成サーバの負荷状況が小さい場合には、
音声波形を前記クライアントに送信することを選択する
データ制御部と、前記データ制御部が選択した音響パラメータか音声波形
どちらか一方を前記クライアントへ送信するデータ送信
部とを備えることを特徴とする音声合成システム。
【請求項２】前記クライアントは、前記表音記号生成
部で生成される表音記号に基づいて音響パラメータを生
成する音響パラメータ生成部を備え、前記音声合成サーバは、前記データ受信部においてテキストデータを受信した場
合には、受信したテキストデータを前記表音記号生成部
へ出力させ、表音記号を受信した場合には、受信した表
音記号を前記音響パラメータ生成部へ出力させ、音響パラメータを受信した場合には、受信した音響パラ
メータを前記波形生成部へ出力させる選択制御を行うデ
ータ制御部を備えることを特徴とする請求項１記載の音
声合成システム。
【請求項３】前記音声合成サーバは、波形生成部で生
成される合成音声波形を符号化する波形符号化部を有
し、前記クライアントは、符号化された音声波形を復号
する波形復号化部を備えることを特徴とする請求項１又
は２記載の音声合成システム。
【請求項４】音声化すべきテキストデータを入力する
テキスト入力部と、合成音声を出力する音声出力部とを
有する複数のクライアントとネットワークを介して接続
され、音声波形を生成する波形生成部を有する音声合成
サーバにおいて、前記クライアントから送信されるデータを受信するデー
タ受信部と、テキストデータに基づいて表音記号を生成する表音記号
生成部と、表音記号に基づいて音響パラメータを生成する音響パラ
メータ生成部と、音響パラメータに基づいて音声波形を生成する波形生成
部と、前記音声合成サーバの負荷状況が大きい場合には、音響
パラメータを前記クライアントに送信することを選択
し、前記音声合成サーバの負荷状況が小さい場合には、
音声波形を前記クライアントに送信することを選択する
データ制御部と、前記データ制御部が選択した音響パラメータか音声波形
かどちらか一方を前記クライアントに送信するデータ送
信部とを備えることを特徴とする音声合成サーバ。
【請求項５】前記クライアントは、前記テキスト入力
部から入力されるテキストデータに基づいて表音記号を
生成する表音記号生成部と前記表音記号生成部で生成さ
れる表音記号に基づいて音響パラメータを生成する音響
パラメータ生成部を備え、前記音声合成サーバは、前記データ受信部においてテキストデータを受信した場
合には、受信したテキストデータを前記表音記号生成部
へ出力させ、表音記号を受信した場合には、受信した表
音記号を前記音響パラメータ生成部へ出力させ、音響パ
ラメータを受信した場合には、受信した音響パラメータ
を前記波形生成部へ出力させる選択制御を行うデータ制
御部を備えることを特徴とする請求項４記載の音声合成
サーバ。
【請求項６】前記音声合成サーバは、前記波形生成部
で生成される合成音声波形を符号化する波形符号化部を
有し、前記クライアントは、符号化された音声波形を復号する波形復号化部を備える
ことを特徴とする請求項４又は５記載の音声合成サー
バ。