JP3711411B2

JP3711411B2 - 音声合成装置

Info

Publication number: JP3711411B2
Application number: JP11030999A
Authority: JP
Inventors: 由起具治; 晃史大槻
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1999-04-19
Filing date: 1999-04-19
Publication date: 2005-11-02
Anticipated expiration: 2019-04-19
Also published as: JP2000305583A; US6243681B1

Description

【０００１】
【発明の属する技術分野】
本発明は、テキストデータを音声データに変換して出力する音声合成装置に関し、特にＣＴＩ（Computer Telephony Integration；コンピュータ・テレフォニー・インテグレーション）システムにて用いられる音声合成装置に関するものである。
【０００２】
【従来の技術】
近年、デジタル信号処理技術を利用して人工的に音声を作り出す音声合成装置が広く普及しつつある。特に、コンピュータシステムと電話システムとを統合して顧客満足度の高い電話応対サービスを実現するＣＴＩシステムにおいては、音声合成装置を用いることで、コンピュータネットワーク上で授受される電子メール等の内容を、公衆回線網上の電話機で音声出力する、といったことを可能にしている。
【０００３】
このようなＣＴＩシステムにおける音声出力サービス（以下「ユニファイドメッセージサービス」と称す）は、以下のようにして行われる。例えば、電子メールについての音声出力を行う場合には、ＣＴＩシステムを構成するＣＴＩサーバが電子メールを保管しているメールサーバと連携し、公衆回線網上の電話機からの呼着信に応じて、その呼着信時に指定されたアドレス宛の電子メールをメールサーバから取得するとともに、その電子メールに含まれるテキストデータをＣＴＩサーバに搭載された音声合成装置を用いて音声データに変換する。そして、変換後の音声データを発呼元の電話機へ送信することで、ＣＴＩサーバは、その電話機の利用者が電子メールの内容を聞き出せるようにする。なお、ユニファイドメッセージサービスを提供するにあたっては、例えば、ＣＴＩサーバがＷＷＷ（World Wide Web）サーバと連携して、そのＷＷＷサーバがインターネット等のコンピュータネットワーク上に発信しているコンテンツ（例えば Webページ）の内容の一部（文章化された部分）を、音声出力するようにすることもできる。
【０００４】
【発明が解決しようとする課題】
ところで、従来の音声合成装置、特にＣＴＩサーバに搭載された音声合成装置は、通常、ある一つの特定の言語（例えば日本語）に特化して形成されている。一方、変換対象となる電子メール等には、日本語や英語など、様々な言語で記述されたものが存在する。
【０００５】
したがって、従来の音声合成装置では、音声合成装置が対応している言語種類と変換すべきテキストデータの言語種類とのマッチングによっては、音声データへの変換を正しく行えないおそれがある。例えば、日本語に対応した音声合成装置を用いて英語の文章を変換すると、日本語と英語とでは文法その他文章の構造が異なるため、英語に対応した音声合成装置で変換した場合に比べて、正しい音声出力ができなかったり、流暢でない音声出力になってしまうなど、質の高い音声出力の提供が困難になってしまう。
【０００６】
特にＣＴＩシステムにおいて、ユニファイドメッセージサービスにより音声出力を行う場合には、電話機の利用者が音声出力の結果のみから電子メール等の内容を判断するので、質の高い音声出力が行えないと、結果として誤った内容を伝えてしまうことになるおそれがある。
【０００７】
そこで、本発明は、変換すべきテキストデータの言語が複数種類存在していても、それぞれについて質の高い音声出力を行うことのできる音声合成装置を提供することを目的とする。
【０００８】
【課題を解決するための手段】
本発明は、上記目的を達成するために案出された音声合成装置である。すなわち、ＣＴＩシステムにて用いられる音声合成装置であって、それぞれが異なる言語のテキストデータを当該言語の音声データに変換する複数の音声合成手段と、公衆回線網上の電話機との通信を行う通信制御手段と、前記通信制御手段が前記電話機からの発呼を受けると、該電話機から指定されるテキストデータを、該テキストデータを保管しているサーバから取得するデータ取得手段と、前記電話機から通知される指示に基づいて、前記データ取得手段が取得したテキストデータの音声データへの変換を、前記複数の音声合成手段のうちのどの音声合成手段に行わせるかを決定する変換制御手段と、前記データ取得手段が取得したテキストデータを、該テキストデータを構成する文章単位または幾つかの文章からなる段落単位で保持しておくバッファ手段とを備え、前記変換制御手段に選択された音声合成手段がテキストデータを音声データに変換すると、該変換後の音声データを前記通信制御手段が前記電話機へ送信するように構成されるとともに、前記変換制御手段は、あるテキストデータについての変換中に前記音声合成手段の選択を切り替えると、該切り替えにより新たに選択した音声合成手段に対し、前記バッファ手段に保持されたテキストデータについて、該切り替え前の音声合成手段により変換中であった文章または段落の先頭に戻って、音声データへの変換を行わせることを特徴とするものである。
【０００９】
上記構成の音声合成装置によれば、それぞれが異なる言語に対応した複数の音声合成手段を備えており、これら音声合成手段のうちのいずれか一つがテキストデータから音声データへの変換を選択的に行う。したがって、この音声合成装置を用いれば、変換すべきテキストデータの言語が複数種類存在していても、各言語種類に応じた音声合成手段によって、音声データへの変換を行い得るようになる。
【００１０】
【発明の実施の形態】
以下、図面に基づき本発明に係る音声合成装置について説明する。ただし、ここでは、本発明をＣＴＩシステムにて用いられる音声合成装置に適用した場合を例に挙げて説明する。
【００１１】
図１は、本発明に係る音声合成装置を用いたＣＴＩシステムの基本的なシステム構成を示す概略図である。
図例のように、本実施の形態におけるＣＴＩシステムは、公衆回線網１上に存在する電話機２と、その公衆回線網１に接続するＣＴＩサーバ１０と、を備えて構成されている。
【００１２】
電話機２は、有線または無線を介して公衆回線網１に接続し、その公衆回線網１上の通信相手との通話を行うためのものである。
【００１３】
一方、ＣＴＩサーバ１０は、インターネット等のコンピュータネットワーク（ただし不図示）と接続したコンピュータとしての機能を有するものであり、公衆回線網１上の電話機２に対してユニファイドメッセージサービスを提供するものである。そのために、ＣＴＩサーバ１０は、回線接続制御部１１と、通話制御部１２と、電子メールサーバ１３と、複数の音声合成エンジン１４ａ，１４ｂ…と、を有している。
【００１４】
回線接続制御部１１は、例えば公衆回線網１に接続する通信インタフェースからなるもので、その公衆回線網１上の電話機２との間の通信を実現するためのものである。具体的には、電話機２からの発呼を受け付けてこれを処理したり、電話機２への音声データの送信を行ったりするものである。なお、回線接続制御部１１では、公衆回線網１上の複数の電話機２と同時に通信を行うことを可能にするため、その公衆回線網１と複数回線分の接続を確保している。
【００１５】
通話制御部１２は、例えばＣＴＩサーバ１０が有するＣＰＵ（Central Processing Unit）およびこのＣＰＵが実行する制御プログラムによって実現されるもので、ユニファイドメッセージサービスを提供するにあたって、詳細を後述するような動作制御を行うものである。
【００１６】
電子メールサーバ１３は、例えばハードディスク装置等の不揮発性の記録装置からなるものであり、コンピュータネットワーク上で授受される電子メールを記憶蓄積することで保管しているものである。なお、電子メールサーバ１３は、ＣＴＩサーバ１０とは別に、コンピュータネットワーク上に設けられていてもよい。
【００１７】
複数の音声合成エンジン１４ａ，１４ｂ…は、それぞれがハードウエア（例えば音声合成ＬＳＩ）またはソフトウエア（例えばＣＰＵで実行される音声合成プログラム）によって実現されるもので、周知技術である波形重畳法等を利用して受け取ったテキストデータを音声データに変換するものである。ただし、これらの音声合成エンジン１４ａ，１４ｂ…は、それぞれが異なる自然言語（日本語、英語、フランス語、中国語等）に対応しているものとする。すなわち、各音声合成エンジン１４ａ，１４ｂ…は、それぞれが言語の種類に依存した音声合成処理を行うようになっている。例えば、各音声合成エンジン１４ａ，１４ｂ…のうち、あるものは日本語のテキストデータを日本語の音声データに変換する日本語音声合成エンジン１４ａであり、他のものは英語のテキストデータを英語の音声データに変換する英語音声合成エンジン１４ｂである、といった具合である。なお、どの音声合成エンジン１４ａ，１４ｂ…がどの言語に対応しているかは、予め定められているものとする。
【００１８】
このような回線接続制御部１１、通話制御部１２および複数の音声合成エンジン１４ａ，１４ｂ…を有することによって、ＣＴＩサーバ１０は、本発明に係る音声合成装置としての機能を実現するようになっている。
【００１９】
次に、以上のように構成されたＣＴＩシステムにおいて、ユニファイドメッセージサービスを提供する場合における処理動作例について説明する。ただし、ここでは、電子メールの内容を公衆回線網１上の電話機２で音声出力する場合を例に挙げて説明する。
図２は、本発明に係る音声合成装置を用いたＣＴＩシステムにおける基本的な処理動作の一例を示すフローチャートである。
【００２０】
このＣＴＩシステムでは、電話機２からＣＴＩサーバ１０への発呼があると、ＣＴＩサーバ１０がユニファイドメッセージサービスの提供を開始する。詳しくは、電話機２の利用者がＣＴＩサーバ１０のダイヤル番号を指定して発呼を行うと、ＣＴＩサーバ１０では、回線接続制御部１１がその発呼を受け付けて、その受け付けた発呼に対する通話の呼処理を実施する（ステップ１０１、以下ステップをＳと略す）。すなわち、回線接続制御部１１は、電話機２からの発呼に応じてその電話機２との間の回線接続を行うとともに、通話制御部１２に対して電話機２からの着信があった旨を通知する。
【００２１】
回線接続制御部１１から着信の通知があると、ここで、通話制御部１２は、その着信の発呼元である利用者のメールアドレスを特定する（Ｓ１０２）。この特定は、例えば音声合成エンジン１４ａ，１４ｂ…を利用して回線接続中の電話機２に対し「メールアドレスを入力して下さい」といったメッセージを送信した後、これに応じてその電話機２の利用者により行われるプッシュボタン（以下「ＰＢ」と略す）入力を認識することで行えばよい。また、ＣＴＩサーバ１０が音声認識機能を実現する音声認識エンジンを備えている場合には、上述したメッセージに応じて電話機２の利用者により行われる音声入力を認識することで行うようにしてもよい。なお、音声認識機能については、周知技術であるため、その詳細な説明を省略する。
【００２２】
発呼元である利用者のメールアドレスを特定すると、続いて、通話制御部１２は、電子メールサーバ１３にアクセスして、その電子メールサーバ１３から特定したメールアドレス宛の電子メールを取得する（Ｓ１０３）。そして、通話制御部１２は、取得した電子メールの内容を音声データに変換すべく、その電子メールの内容に相当するテキストデータを、予め定められたデフォルトの音声合成エンジン、例えば日本語音声合成エンジン１４ａへ送出して、そのデフォルトエンジンで音声データに変換させる（Ｓ１０４）。
【００２３】
デフォルトエンジンが音声データへの変換を行うと、回線接続制御部１１は、その変換後の音声データを回線接続中の電話機２、すなわち発呼元である利用者に対して、公衆回線網１を介して送信する（Ｓ１０５）。これにより、電話機２では、電子メールの内容が音声出力されることとなり、その電話機２の利用者がその音声出力を聞いて電子メールの内容を理解することができるようになる。
【００２４】
ただし、音声データへの変換対象となる電子メールは、必ずしもデフォルトエンジンが対応している言語で記述されているとは限らない。つまり、電子メール毎、または電子メールを構成する各部分（例えば文章単位）毎に、異なる言語で記述されていることも考えられる。
【００２５】
そのため、このＣＴＩシステムでは、例えば日本語音声合成エンジン１４ａがデフォルトエンジンである場合に、電子メールの内容が日本語であれば電話機２の利用者はそのまま音声出力を聞き続けるが、電子メールの内容が他の言語（例えば英語）であれば、その電話機２で所定操作を行うことによって、音声合成エンジン１４ａ，１４ｂ…の切り替えを行い得るようになっている。このときの所定操作としては、各言語に対応したＰＢ入力（例えば、英語であれば「９」をダイアル）を行うことが考えられる。また、ＣＴＩサーバ１０が音声認識エンジンを備えている場合には、各言語に対応した音声入力（例えば「英語」と発音）を行うようにしてもよい。
【００２６】
このことから、ＣＴＩサーバ１０では、回線接続制御部１１が音声データを送信している間、その送信先の電話機２で所定操作が行われるか否か、すなわちその電話機２から音声合成エンジン１４ａ，１４ｂ…の切り替え指示があるか否かを、通話制御部１２が監視している（Ｓ１０６）。そして、電話機２からの切り替え指示があると、通話制御部１２は、指示された言語に対応する音声合成エンジン、例えば英語音声合成エンジン１４ｂを起動するとともに、デフォルトエンジンを停止させる（Ｓ１０７）。その後、通話制御部１２は、新たに起動した英語音声合成エンジン１４ｂに対し、電子メールサーバ１３から取得した電子メールを送出して、その電子メールのテキストデータを音声データに変換させる（Ｓ１０８）。
【００２７】
つまり、通話制御部１２は、電子メールサーバ１３から取得した電子メールの内容であるテキストデータを音声データに変換するのにあたって、各音声合成エンジン１４ａ，１４ｂ…のうちのいずれか一つを選択し、その選択した音声合成エンジン１４ａ，１４ｂ…に当該変換を行わせる。また、このときの選択は、通話制御部１２が、電話機２からの切り替え指示に基づいて決定する。
【００２８】
このようにして、例えば新たに起動された英語音声合成エンジン１４ｂが音声データへの変換を行うと、回線接続制御部１１は、デフォルトエンジンの場合と同様に、その変換後の音声データを電話機２へ送信する（Ｓ１０５）。これにより、電話機２では、電子メールの内容が、その電子メールが記述された言語に対応した音声合成エンジン１４ａ，１４ｂ…によって音声データに変換されて音声出力されることとなる。したがって、正しい音声出力ができなかったり、流暢でない音声出力になってしまう、といったことがなくなる。
【００２９】
その後、電子メールの内容がさらに他の言語となったり、あるいは再び元の言語（デフォルトの言語）に戻った場合には、上述の場合と同様の処理を行うことによって、その言語に対応した音声合成エンジン１４ａ，１４ｂ…に音声データへの変換を行わせるようにすればよい。通話制御部１２は、発呼元宛の全ての電子メールについて、音声データへの変換および電話機２への送信が終了するまで（Ｓ１０９）、上述の処理を繰り返して行う（Ｓ１０５〜Ｓ１０８）。
【００３０】
以上のように、本実施の形態のＣＴＩサーバ１０は、それぞれが異なる言語に対応した複数の音声合成エンジン１４ａ，１４ｂ…を備えており、これらのうちのいずれか一つがテキストデータから音声データへの変換を選択的に行うようになっているので、日本語で記述された電子メールであっても、英語で記述された電子メールであっても、あるいは他の言語で記述された電子メールであっても、それぞれの言語に対応して、専用の音声合成エンジン１４ａ，１４ｂ…で音声データへの変換を行うことが可能になる。したがって、このＣＴＩサーバ１０では、各言語の文章の構造等が異なっていても、正しい音声出力ができなかったり流暢でない音声出力になってしまうといったことがなくなり、結果として高品質な音声出力を実現することができるようになる。
【００３１】
特に、本実施の形態のＣＴＩシステムでは、ＣＴＩサーバ１０が公衆回線網１上の電話機２からの要求に応じてその電話機２に対する電子メールの内容を音声出力するといった、ユニファイドメッセージサービスを実現するようになっている。つまり、ユニファイドメッセージサービスを提供する場合に、従来よりも質の高い電子メールの読み上げ（音声出力）システムを実現できる。したがって、このＣＴＩシステムにおいては、電話機２の利用者が音声出力の結果のみから電子メールの内容を判断しても、誤った内容が伝わってしまうおそれを極力抑えることができる。
【００３２】
また、本実施の形態のＣＴＩサーバ１０では、複数の音声合成エンジン１４ａ，１４ｂ…のうちのいずれか一つを選択するのにあたって、その選択を通話制御部１２が電話機２からの切り替え指示に基づいて決定するようになっている。したがって、例えば互いに異なる言語で記述された複数の電子メールについての音声出力を行う場合や、一つの電子メールの中に互いに異なる言語で記述された文章が混在している場合であっても、電話機２の利用者は、必要に応じて音声合成エンジン１４ａ，１４ｂ…の切り替えを指示することができ、それぞれの電子メールまたは文章について質の高い音声出力を行うことができる。
【００３３】
次に、本発明に係る音声合成装置を用いたＣＴＩシステムの特徴点について説明する。
【００３４】
図３は、本発明に係る音声合成装置を用いたＣＴＩシステムの特徴的なシステム構成を示す概略図である。
図例のように、本実施の形態におけるＣＴＩシステムでは、図１に示した基本的な構成に加えて、ＣＴＩサーバ１０ａにメールバッファ部１５が設けられている。
【００３５】
メールバッファ部１５は、例えばＣＴＩサーバ１０ａに設けられたＲＡＭ（Random Access Memory）内またはハードディスク装置内に確保された記憶領域からなるものであり、通話制御部１２が電子メールサーバ１３から取得した電子メールを一時的に保持記憶（バッファリング）するものである。
【００３６】
図４は、本発明に係る音声合成装置を用いたＣＴＩシステムにおける特徴的な処理動作の一例を示すフローチャートである。
【００３７】
ユニファイドメッセージサービスを提供する場合には、図２に示した基本的な処理動作例の場合と同様に、ＣＴＩサーバ１０ａにて、回線接続制御部１１が通話の呼処理を実施し（Ｓ２０１）、通話制御部１２が発呼元を特定した後に（Ｓ２０２）、その発呼元宛の電子メールを通話制御部１２が電子メールサーバ１３から取得する（Ｓ２０３）。
【００３８】
電子メールを取得すると、通話制御部１２は、その電子メールの内容であるテキストデータをデフォルトエンジンへ送出するのと並行して、そのテキストデータをメールバッファ部１５にバッファリングさせる（Ｓ２０４）。このバッファリングは、電子メールを構成する文章単位または幾つかの文章からなる段落単位で行われる。すなわち、メールバッファ部１５内には、常に音声合成エンジン１４ａ，１４ｂ…にて処理中の文章または段落（以下「文章等」と称す）のみが保持され、処理が終了した文章等についてはその処理終了時点でメールバッファ部１５内から消去（クリア）される。そのために、通話制御部１２は、各音声合成エンジン１４ａ，１４ｂ…での処理状態を監視しつつ、文章の区切りに相当する「。（句点）」や「．（ピリオド）」といった記号や段落または電子メールの区切りに相当する制御コマンド等を認識して、メールバッファ部１５のバッファリングを管理するようになっている。なお、文章単位でバッファリングを行うか、段落単位でバッファリングを行うかは、予めの設定によって決められているものとする。
【００３９】
このバッファリングと並行して、デフォルトエンジンが通話制御部１２からのテキストデータを音声データに変換すると（Ｓ２０５）、第１の実施の形態の場合と同様に、回線接続制御部１１は、その変換後の音声データを発呼元の電話機２へ送信する（Ｓ２０６）。この間、通話制御部１２は、送信先となる電話機２から音声合成エンジン１４ａ，１４ｂ…の切り替え指示があるか否かを監視している（Ｓ２０７）。
【００４０】
そして、電話機２からの切り替え指示があると、通話制御部１２は、指示された言語に対応する音声合成エンジンを起動するとともに、デフォルトエンジンを停止させる（Ｓ２０８）。ただし、ここで通話制御部１２は、第１の実施の形態の場合とは異なり、メールバッファ部１５にバッファリングされているテキストデータを取り出して（Ｓ２０９）、これを新たに起動した音声合成エンジンへ送出して音声データに変換させる（Ｓ２１０）。これにより、新たに起動された音声合成エンジンは、デフォルトエンジンが処理中であった文章等の先頭に戻って、再度音声データへの変換を行うこととなる。
【００４１】
その後、回線接続制御部１１は、デフォルトエンジンの場合と同様に、新たに起動された音声合成エンジンによって変換された音声データを電話機２へ送信する（Ｓ２０６）。通話制御部１２は、発呼元宛の全ての電子メールについて、音声データへの変換および電話機２への送信が終了するまで（Ｓ２１１）、上述の処理を繰り返して行う（Ｓ２０６〜Ｓ２１０）。これにより、電話機２では、音声出力の途中で音声合成エンジン１４ａ，１４ｂ…の切り替えを指示しても、既にデフォルトエンジンにより音声出力されてしまった文章等について、新たな音声合成エンジンによる読み直しが行われることとなる。これは、その後、さらに音声合成エンジンの切り替え指示があった場合も同様である。
【００４２】
以上のように、本実施の形態のＣＴＩサーバ１０ａでは、請求項１に記載の発明の如く、電子メールサーバ１３から取得したテキストデータを保持しておくメールバッファ部１５を備えており、あるテキストデータについての変換中に音声合成エンジン１４ａ，１４ｂ…の選択を切り替えると、その切り替えにより新たに選択した音声合成エンジンに対し、メールバッファ部１５に保持されたテキストデータについて音声データへの変換を行わせるようになっている。つまり、音声合成エンジン１４ａ，１４ｂ…の切り替え時に当該文章等の先頭に戻って再度新たな音声合成エンジンで読み直すことが可能になる。したがって、本実施の形態の場合は、音声合成エンジン１４ａ，１４ｂ…の切り替え時に、既に読まれてしまった部分を新たな音声合成エンジンで読み直せるので、音声合成エンジン１４ａ，１４ｂ…の切り替え後に最初に読む文章から新たな音声合成エンジンでの読み上げが有効になる第１の実施の形態の場合より、さらに一層適切な音声読み上げを行うことができる。
【００４３】
なお、上述した実施の形態では、請求項２に記載の発明の如く、電子メールサーバ１３から取得した電子メールに含まれるテキストデータについて、音声データへの変換を行う場合を例に挙げて説明したが、本発明はこれに限定されるものではなく、他のテキストデータについても同様に適用することができる。他のテキストデータとしては、例えば請求項３に記載の発明の如く、ＷＷＷサーバがインターネット等のコンピュータネットワーク上に発信しているコンテンツ（例えば Webページ）に含まれるデータ、すなわちコンテンツの中の文章化された部分のデータが考えられる。この場合、コンテンツが準拠するＨＴＭＬ（Hyper Text Markup Language）のタグに文字コード情報が記述されていれば、第３の実施の形態で説明したようにその文字コード情報を基に音声合成エンジン１４ａ，１４ｂ…を自動選別することが可能になる。さらに、他のテキストデータとしては、例えばＯＣＲ（Optical Character Reader）を備えているシステムにおいて、そのＯＣＲにて読み取ったデータ等が考えられる。
【００４４】
また、上述した実施の形態では、本発明をＣＴＩシステムにて用いられる音声合成装置に適用し、変換後の音声データを公衆回線網１上の電話機２へ送信してその電話機２にて音声出力を行う場合を例に挙げて説明したが、本発明はこれに限定されるものではない。例えば、発券システムにて用いられる音声合成装置のように、システム内に設けられたスピーカ等を介して音声出力を行うものであっても、本発明を適用することによって高品質な音声出力を実現することができる。
【００４５】
【発明の効果】
以上に説明したように、本発明の音声合成装置は、それぞれが異なる言語に対応した複数の音声合成手段を備えており、これらのうちのいずれか一つがテキストデータから音声データへの変換を選択的に行うようになっているので、日本語のテキストデータであっても、英語のテキストデータであっても、あるいは他の言語のテキストデータであっても、それぞれの言語に対応した音声合成手段により音声データへの変換を行うことが可能になる。したがって、この音声合成装置を用いれば、各言語の文章の構造等が異なっていても、正しい音声出力ができなかったり流暢でない音声出力になってしまうといったことがなくなり、結果として高品質な音声出力を実現することができるようになる。
【図面の簡単な説明】
【図１】本発明に係る音声合成装置を用いたＣＴＩシステムの基本的なシステム構成を示す概略図である。
【図２】図１のＣＴＩシステムにおいて、ユニファイドメッセージサービスを提供する場合における基本的な処理動作の一例を示すフローチャートである。
【図３】本発明に係る音声合成装置を用いたＣＴＩシステムの特徴的なシステム構成を示す概略図である。
【図４】図３のＣＴＩシステムにおいて、ユニファイドメッセージサービスを提供する場合における特徴的な処理動作の一例を示すフローチャートである。
【符号の説明】
１公衆回線網
２電話機
１０，１０ａ，１０ｂＣＴＩサーバ
１１回線接続制御部
１２通話制御部
１３電子メールサーバ
１４ａ，１４ｂ音声合成エンジン
１５メールバッファ部
１６ヘッダ認識部

Claims

ＣＴＩシステムにて用いられる音声合成装置であって、
それぞれが異なる言語のテキストデータを当該言語の音声データに変換する複数の音声合成手段と、
公衆回線網上の電話機との通信を行う通信制御手段と、
前記通信制御手段が前記電話機からの発呼を受けると、該電話機から指定されるテキストデータを、該テキストデータを保管しているサーバから取得するデータ取得手段と、
前記電話機から通知される指示に基づいて、前記データ取得手段が取得したテキストデータの音声データへの変換を、前記複数の音声合成手段のうちのどの音声合成手段に行わせるかを決定する変換制御手段と、
前記データ取得手段が取得したテキストデータを、該テキストデータを構成する文章単位または幾つかの文章からなる段落単位で保持しておくバッファ手段とを備え、
前記変換制御手段に選択された音声合成手段がテキストデータを音声データに変換すると、該変換後の音声データを前記通信制御手段が前記電話機へ送信するように構成されるとともに、
前記変換制御手段は、あるテキストデータについての変換中に前記音声合成手段の選択を切り替えると、該切り替えにより新たに選択した音声合成手段に対し、前記バッファ手段に保持されたテキストデータについて、該切り替え前の音声合成手段により変換中であった文章または段落の先頭に戻って、音声データへの変換を行わせる
ことを特徴とする音声合成装置。
前記データ取得手段が取得するテキストデータは、電子メールサーバから取得する電子メールに含まれるテキストデータであることを特徴とする請求項１記載の音声合成装置。
前記データ取得手段が取得するテキストデータは、ＷＷＷサーバから取得するコンテンツに含まれるテキストデータであることを特徴とする請求項１記載の音声合成装置。