JP2005055607A

JP2005055607A - サーバ、情報処理端末、音声合成システム

Info

Publication number: JP2005055607A
Application number: JP2003285251A
Authority: JP
Inventors: Kazuaki Minami; 見並　　一明
Original assignee: Toyota Motor Corp; Toyota InfoTechnology Center Co Ltd
Current assignee: Toyota Motor Corp; Toyota InfoTechnology Center Co Ltd
Priority date: 2003-08-01
Filing date: 2003-08-01
Publication date: 2005-03-03

Abstract

【課題】端末側の処理能力に応じて必要な情報を提供して、適切且つ高品質な音声合成を行う技術を提供する。
【解決手段】サーバ１００は、ユーザ側の情報処理端末２００が文字情報に基づいて音声情報を合成する際に、この情報処理端末２００による適切且つ高品質な音声合成を行うことができるか否かを判定する。そして、サーバ１００は、この判定結果に基づいて、音声合成に必要な音声合成情報、またはサーバ側で合成した音声情報を、情報処理端末２００に提供する。
【選択図】図１

Description

本発明は、音声合成技術に関する。

一般に、自動車に搭載されるカーナビゲーションシステムなどの、移動体用の情報端末において、ユーザインタフェースの一例として、音声を合成してユーザに情報を提供する、そのような音声合成手段が用いられている。

上記移動体用の情報端末において、音声合成手段が生成した音声による情報提供を行うことで、ユーザは、端末側への指示の復唱、あるいはユーザに対する経路指示等の情報が提供される場合に、ディスプレイ等の視覚情報に依存することなく当該情報端末を利用できた。

上記移動体用の情報端末の音声認識技術では、端末側の処理能力にとらわれることなく処理を行うために、分散型音声認識（Distributed Speech Recognition：以下DSRとする）が用いられていた。

そして、上記移動体用の情報端末の音声合成において、端末とサーバ間の音声情報の通信には、TTS（Text To Speech）が用いられていた。TTSとは、テキストデータで与えられた文字情報を、音声情報に合成する技術である。このTTSにより、端末とサーバ間の通信量を抑えることができた。

なお、上記移動体用の情報端末の音声認識に関して、例えばコンピュータ・ネットワーク・システムにおいて複数の利用者のための話者独立型連続音声認識装置に関する技術（例えば、特許文献１参照。）が開示されている。また、情報端末の音声認識に関する技術（例えば、特許文献２参照。）が開示されている。
特開平７−１４０９９８号公報特開平６−１７５６８２号公報

しかしながら、従来のDSRの音声合成では、通信するデータ量を抑えるために、TTSを用いてテキスト形式の文字情報をサーバから端末に提供するか、あるいはサーバが合成した音声情報を送信するかのいずれかの方法で音声合成を行っていた。このため、従来のDSRでは、端末に提供される文字情報に新しい単語が含まれている場合などには、その単語の音声合成に必要なデータベースを有していない端末では、適切な音声情報を出力できなかった。また、従来のDSRでは、サーバが合成した音声情報を送信した場合には、通信に必要な帯域が広く、送信するデータ量も多くなるため、端末などへの負担が大きかった。

本発明は、上記事項に鑑みて為されたものであり、端末側の処理能力に応じて必要な情報を提供することで、適切且つ高品質な音声合成を行う技術を提供することを、その解決すべき課題とする。

本発明は前記課題を解決するために、以下の手段を採用した。

すなわち、本発明は、音声合成情報を用いて、文字情報を音声情報に合成する音声合成手段を有する情報処理端末と接続するサーバである。本発明のサーバは、前記情報処理端末が有する音声合成情報により、前記文字情報の音声情報への合成が可能であるか否かを判定する、そのような音声合成情報判定手段と、前記情報処理端末側の音声合成情報によって音声情報への合成が可能ではない場合に、前記情報処理端末に提供する音声合成情報を選択する、そのような音声合成情報選択手段と、前記音声合成情報が提供された場合に、前記情報処理端末が有する音声合成手段により、前記文字情報の音声情報への合成が可能であるか否かを判定する、そのような音声合成手段判定手段と、前記情報処理端末に提供する音声合成情報を、この情報処理端末に送信する情報送信手段と、前記情報処理端末側の音声合成手段によって音声合成が可能ではない場合に、前記文字情報に基づく音声情報の合成を行う、音声合成手段と、前記音声合成手段が合成した音声情報を送信する音声情報送信手段と、を備えるようにした。

本発明のサーバは、例えば、ユーザ側の情報処理端末が文字情報に基づいて音声情報を合成する際に、この情報処理端末によりその音声合成が可能か否かを判定すればよい。そして、本発明のサーバは、この判定結果に基づいて、音声合成に必要な音声合成情報、またはサーバ側で合成した音声情報を、情報処理端末に提供すればよい。

従って、本発明のサーバによれば、情報処理端末側の処理能力に応じて必要な情報を提供して、適切且つ高品質な音声情報の出力を行うことができる。

また、本発明のサーバは、前記サーバに接続する個々の情報処理端末に関する情報である、端末情報を格納する端末情報データベースをさらに備え、前記音声合成情報判定手段が、前記端末情報データベースを参照して端末側の音声合成情報による音声合成可能であるか否かを判定し、前記音声合成手段判定手段が、前記端末情報データベースを参照して端末側の音声合成手段による音声合成可能であるか否かを判定してもよい。

本発明のサーバは、例えば、個々の情報処理端末側の処理能力に関する情報を、端末情報データベースとして格納し、この端末情報データベースに基づいて、音声合成に関する判定処理を行えばよい。

従って、本発明のサーバによれば、個々の情報処理端末側の処理能力に応じて必要な情報を提供して、適切且つ高品質な音声合成を行うことができる。

さらに、本発明は、情報処理端末であり、文字情報を音声情報に合成するための音声合成情報を格納する音声合成データベースと、音声情報に合成される文字情報、前記音声合成データベースに追加される音声合成情報、または前記文字情報から合成された音声情報を受信する手段と、前記文字情報を受信したときに、前記音声合成データベースを参照し、前記音声合成情報により前記受信した文字情報を音声情報に合成する、そのような音声合成手段と、前記音声合成情報を受信したときに、その音声合成情報を前記音声合成データベースに追加する手段と、前記合成される音声情報、または受信した音声情報を出力する手段と、を備えるようにした。

本発明の情報処理端末は、音声合成に用いる音声合成情報、またはサーバで合成された音声情報を、このサーバ側から受信する。そして、本発明の情報処理端末は、音声合成情報を受信した場合には、この音声合成情報を用いて文字情報を音声情報に合成する。また、本発明の情報処理端末は、音声情報を受信した場合には、この音声情報を出力する。

従って、本発明の情報処理端末によれば、情報処理端末側の処理能力に応じて適切且つ
高品質な音声情報を、ユーザ側に提供することができる。

なお、本発明は、以上の装置及び端末の何れかの機能を実現させるプログラムであってもよい。さらに、本発明は、そのようなプログラムをコンピュータが読み取り可能な記憶媒体に記録してもよい。

以上のように、本発明によれば、端末側の処理能力に応じて必要な情報を提供して、適切且つ高品質な音声合成を行う技術を提供することができる。

以下、図面を参照して、本発明の一実施の形態に係る音声合成システム（以下本システムとも呼ぶ）を説明する。本システムは、本発明のサーバに対応するセンタサーバ及び情報処理端末に対応する車載用情報端末を有する。

〈本システムの概略〉
まず、本システムの概略を説明する。本システムのセンタサーバ及び車載用情報端末は、以下に示す特徴を備える。

本システムは、その特徴として、音声合成を行う文字情報及び車載用情報端末の音声合成手段の処理能力に基づいて、以下の処理を行う。すなわち、本システムのセンタサーバは、この車載用情報端末によって対象となる文字情報の音声合成が可能である場合には、車載用情報端末によって音声合成を行う。

また、本システムのセンタサーバは、上記音声合成手段の音声合成データベースに必要な情報を提供することによって、音声合成を行う音声合成エンジンで音声合成が可能な場合には、車載用情報端末に音声合成データベースの追加情報を提供する。

また、本システムのセンタサーバは、上記音声合成手段の音声合成データベースに必要な情報を提供したとしてもこの音声合成手段の音声合成エンジンでは音声合成が不可能である場合には、センタサーバの音声合成手段によって音声合成を行う。そして、本システムのセンタサーバは、合成した音声情報を送信する。

従来のセンタサーバ側の音声合成では、文字情報をサーバから端末に提供して端末側で音声合成するか、あるいはサーバが合成した音声情報を端末に送信するかのいずれかの方法で音声合成を行っていた。

本システムによれば、音声合成手段の処理能力に応じて必要な情報を提供することで、通信するデータ量を抑えつつ、適切且つ高品質な音声合成を行うことができる。

〈システム構成〉
図１は、本実施の形態に係る音声合成システムの概略構成図の一例である。図１に示すように、本実施の形態に係る音声合成システムは、本システムのサーバの一例であるセンタサーバ１００と、本システムの情報処理端末の一例である車載用情報端末２００とを備える。そして、本音声合成システムでは、センタサーバ１００と車載用情報端末２００とが、既存の通信網を利用したネットワーク３００を介して接続している。なお、このネットワーク３００としては、公衆の携帯電話網、無線ＬＡＮ（Local Area Network）用通信網、及びＥＴＣ（Electronic Toll Collection System）用無線通信網等の、既存の様々な通信網を用いることができる。また、図１において、センタサーバ１００に対して、一つの車載用情報端末２００が接続されているが、本実施の形態に係る音声合成システムで
は、図示しない複数の車載用情報端末２００がネットワーク３００を介して接続している。

〈装置構成〉
次に、本実施の形態に係る音声合成システムを構成する装置及び端末について説明する。

センタサーバ１００は、サーバ装置などの、既存の情報処理装置によって構成される。本実施の形態において、これら既存の情報処理装置には、本システムのサーバの機能を実現するプログラムが導入（インストール）される。そして、このプログラムをインストールすることによって、既存の情報処理装置は、本実施の形態に係るセンタサーバ１００として用いることができる。

図１に示すように、本実施の形態に係るセンタサーバ１００は、上記本システムの概略にて説明した本システムのサーバの各機能を実現するために、以下の構成要素を備える。すなわち、本センタサーバ１００は、ＣＰＵ（Central Processing Unit）１０１、音声合成エンジン１０３，音声合成データベース１０４を有する音声合成手段１０２、クライアント音声合成データベース１０５、音声認識サーバ１０６、及び通信手段１０７を備える。

次に、本センタサーバ１００の構成要素について説明する。

ＣＰＵ１０１は、ハードディスク装置等の記憶装置（不図示）にインストールされたプログラムを実行して、本音声合成システムに係るセンタサーバの各種機能を実現する。すなわち、ＣＰＵ１０１は、上記記憶装置にインストールされたプログラムを実行させることで、本システムのセンタサーバに係る、音声合成情報判定手段，音声合成手段判定手段，音声合成データベース選択手段，音声合成手段の機能を実現する。

音声合成手段１０２は、音声合成処理に必要な情報である音声合成情報を用いて文字情報に基づいてユーザに発する音声情報を合成する、音声合成エンジン１０３を備える。また、音声合成手段１０２は、音声情報を生成するために参照する音声パターン情報等の音声合成情報を格納する、音声合成データベース１０４を備える。なお、本音声合成システムにおいて、音声合成手段１０２の音声合成エンジン１０３は、ＣＰＵ１０１によって実行されるプログラムによって実現される。

音声合成エンジン１０３は、車載用情報端末２００の音声情報から、音声パターン情報を抽出する。そして、音声合成エンジン１０３は、音声合成データベース１０４に格納されている音声合成情報を参照して、文字情報から音声情報を生成する。なお、センタサーバ１００において、音声合成情報としては、文字情報の個々の文字、あるいは単語に対応する音声情報（例えば、文字：「今日」に対応する音声：「きょう」など）が挙げられる。

そして、センタサーバ１００には、図示されない複数の音声合成手段１０２が任意数のセット（例えば、ｎ個の音声合成手段１０２のセット）が備えられている。

本音声合成システムにおいて、センタサーバ１００に複数の音声合成手段を備えるのは、以下の理由による。すなわち、センタサーバ１００は、特性の異なる複数の音声合成手段１０２によって、複数の音声情報を生成する。そして、この複数の音声合成手段１０２は、音声情報を合成する文字情報の特徴に対する適性がある。このため、複数の音声合成手段１０２によれば、音声合成の対象である様々な文字情報を高品質な音声情報に合成す
ることができる。

クライアント音声合成データベース１０５は、本システムのサーバにおける端末情報データベースに対応する。このクライアント音声合成データベース１０５は、CPUの性能，音声合成エンジン２０３の性能，音声合成データベース２０４に格納される音声合成情報の情報量など、個々の車載用情報端末２００側の処理能力に関する情報が格納されている。

図２は、上述のクライアント音声合成データベース１０５のデータテーブルの一例である。クライアント音声合成データベース１０５には、番号１０５ａ、ユーザＩＤ１０５ｂ、車載用情報端末２００の機種を特定する端末ナンバー１０５ｃ、ＣＰＵの型番１０５ｄ、メインメモリ容量１０５ｅ、ハードディスク装置の有無１０５ｆ、ハードディスク装置の容量１０５ｇ、及び音声合成データベース２０４に格納される音声合成情報のデータベース情報レベル１０５ｈなどの、車載用情報端末２００の処理能力、記憶容量などの処理能力を示す情報を、個々のユーザの車載用情報端末２００毎に関連付けて格納している。なお、上記クライアント音声合成データベース１０５内の情報のうち、データベース情報レベル１０５ｈは、例えば、個々のデータベースに格納される文字情報に対する音声合成情報の格納語数を所定の段階に応じてレベルを分類したものである。すなわち、このデータベース情報レベル１０５ｈによって、センタサーバ１００は、音声合成の対象となる文字情報に対応した音声合成情報が格納されているか否かを判断可能にするものである。

センタサーバ１００は、このクライアント音声合成データベース１０５の情報に基づいて、個々の車載用情報端末２００に提供する音声合成データベースに含まれるデータ量を調整する。

音声認識サーバ１０６は、音声認識処理を行うための機能を有する。この音声認識を行うための機能としては、例えば、音声認識エンジンや音声認識データベース（ともに不図示）などが挙げられる。

通信手段１０７は、ネットワーク３００を介して、個々のユーザの車載用情報端末２００と通信する。この通信手段１０７は、車載用情報端末２００に文字情報（文字テキスト）を送信する。また、通信手段１０７は、複数のうち、文字情報に対応した音声情報を、当該ユーザの車載用情報端末２００に提供する。

本実施の形態に係る車載用情報端末２００は、上記本発明の情報処理端末の各機能を実現するために、以下の構成要素を備える。車載用情報端末２００は、プログラムに基づいて各種情報処理を行うＣＰＵ２０１、文字情報に基づいて音声情報を合成する音声合成エンジン２０３，音声合成エンジン２０３が音声情報を合成する際に参照する音声合成情報を格納する音声合成データベース２０４を有する音声合成手段２０２、ユーザの操作指示を音声指示で受け付けるマイク等の音声入力手段２０５、センタサーバ１００からの音声情報と音声合成手段２０２が合成した音声情報とを切り替えて出力する合成音声生成切換手段２０６、音声認識処理を行う音声認識クライアント２０７、及びセンタサーバ１００との通信に用いる通信手段２０８とを備える。

〈処理フローチャート〉
次に、本音声合成システムに係る、センタサーバ１００及び車載用情報端末２００の処理について、フローチャートを用いて説明する。

図３は、本実施の形態に係るセンタサーバ１００の処理フローチャートである。

まず、センタサーバ１００は、ユーザ側の車載用情報端末２００で用いる音声情報の基となる、テキスト形式の文字情報を生成する（図３におけるステップ１０１、以下Ｓ１０１のように省略する）。

センタサーバ１００は、音声合成データベース２０４でこの文字情報の音声合成が可能か否かを判定する（Ｓ１０２）。具体的には、センタサーバ１００は、クライアント音声合成データベース１０５を参照して、このテキスト形式の文字情報ファイル（以下テキストと省略）を音声情報に合成することができる音声合成情報が、車載用情報端末２００の音声合成データベース２０４にあるか否かを、クライアント音声合成データベース１０５に基づいて判定する。

このＳ１０２によって、車載用情報端末２００側の音声合成データベース２０４で音声合成が可能であると判定した場合には、センタサーバ１００は、この車載用情報端末２００に音声合成に関するテキストを送信する（Ｓ１０３）。テキスト送信後、センタサーバ１００は、本処理を終了する。

また、Ｓ１０２によって、音声合成データベース２０４で音声合成が不可能であると判定した場合には、センタサーバ１００は、送信するテキストがユーザ側の車載用情報端末２００の音声合成エンジン２０３で生成可能であるか否かを、クライアント音声合成データベース１０５を参照して判定する（Ｓ１０４）。

このＳ１０４によって、音声合成エンジン２０３が送信するテキストから音声情報を生成可能であると判定した場合には、センタサーバ１００は、このテキストに基づいて音声合成を行うために必要な音声合成情報を追加する。具体的には、センタサーバ１００は、センタサーバ１００の音声合成データベース１０５に含まれる音声合成情報を、音声合成データベース２０４に提供する（Ｓ１０５）。

そして、センタサーバ１００は、この車載用情報端末２００に音声合成に関するテキストを送信する（Ｓ１０６）。テキスト送信後、センタサーバ１００は、本処理を終了する。

また、Ｓ１０４によって、音声合成エンジン１０３が送信するテキストから音声情報を生成することが不可能であると判定した場合には、通信手段１０７の通信モードをテキスト送信から音声情報の送信に切り換える（Ｓ１０７）。

センタサーバ１００は、音声情報を合成可能な音声合成手段１０２によって、テキストに基づいて音声合成を行う。そして、センタサーバ１００は、合成された音声情報を送信する。音声情報送信後、センタサーバ１００は、本処理を終了する。

次に、本実施の形態の車載用情報端末２００の処理について説明する。

図４は、本実施の形態に係る車載用情報端末２００の処理フローチャートである。

車載用情報端末２００は、センタサーバ１００から送信された情報を受信する（図４におけるステップ２０１、以下Ｓ２０１のように省略する）。

車載用情報端末２００は、受信した情報が、音声情報に関するテキスト形式のファイル（以下テキストと省略する）か否かを判定する（Ｓ２０２）。

このＳ２０２によって、受信した情報がテキストであった場合には、車載用情報端末２
００は、このテキストに基づいて、音声合成エンジン２０３が音声合成データベース２０４を参照して音声合成を行う（Ｓ２０３）。音声合成処理終了後、車載用情報端末２００は、本処理を終了する。

また、Ｓ２０２によって、受信した情報がテキストではなかった場合には、車載用情報端末２００は、受信した情報が音声合成データベース２０４に格納される音声合成情報の追加情報であるか否かを判定する（Ｓ２０４）。

このＳ２０４によって、受信した情報が音声合成情報の追加情報であった場合には、車載用情報端末２００は、音声合成データベース２０４にこの音声合成情報の追加情報を格納する（Ｓ２０５）。

音声合成情報の追加情報を格納後、音声合成エンジン２０３は、音声合成データベース２０４の音声合成情報の追加情報を用いて音声合成を行い、音声情報を生成する（Ｓ２０６）。そして、音声情報生成後、車載用情報端末２００は、本処理を終了する。

また、Ｓ２０４によって、受信した情報が音声合成情報の追加情報ではなかった場合には、車載用情報端末２００は、その受信した情報が音声情報であると判定する。音声情報であった場合、車載用情報端末２００は、受信した音声情報をそのまま出力する（Ｓ２０７）。音声情報出力後、車載用情報端末２００は、本処理を終了する。

〈実施の形態の効果〉
本実施の形態に係る、センタサーバ１００及び車載用情報端末２００を備える音声合成システムを実現することにより、以下のような効果が得られる。

本実施の形態に係るセンタサーバ１００によれば、ユーザ側の車載用情報端末２００の音声合成手段の処理能力が限られる場合であっても、センタサーバ１００の複数の音声合成手段によって適切且つ高品質な音声情報を利用することができる。

また、本実施の形態に係るセンタサーバ１００によれば、車載用情報端末２００の音声合成の処理能力及び音声合成を行う文字情報の内容に応じて、音声合成に必要な音声合成情報をこの車載用情報端末２００に提供することができる。

また、本実施の形態に係るセンタサーバ１００によれば、車載用情報端末２００の音声合成の処理能力及び音声合成を行う文字情報の内容に応じて、センタサーバ１００側で合成した音声情報を車載用情報端末２００に提供することができる。

〈変形例〉
本実施の形態において、本システムのサーバ及び情報処理端末は、主に車載用情報端末に対する音声認識処理の一例について説明したが、本発明ではこれに限らず、その他の音声合成システムに対して広く実施することができる。

例えば、本実施の形態に係る音声合成システムでは、本システムの情報処理端末は車載用情報端末２００であったが、本発明ではこれに限定されない。すなわち、本発明の情報処理端末は、車載用以外の他の携帯情報端末（ＰＤＡ）、各種携帯型電話機、あるいは既存のユーザ向けコンピュータなど、他のあらゆる情報処理装置の音声合成処理に適用することができる。

また、例えば、本実施の形態に係る音声合成システムにおいて、データベースに音声合成情報を追加するか否かの判断は、収録される語数に基づいてデータベース情報レベル１
０５ｈを分類して判断したが、本発明ではこれに限定されない。例えば、本実施の形態の音声合成システムにおいて、スポーツ、政治、経済、あるいは道路情報に関する分野など、個々の音声合成データベースによって得意な（収録される語数が豊富であり、適切且つ高品質な音声合成可能である）文字情報の分野を定め、その分野に応じた音声合成データベースを端末に提供してもよい。

本発明は、情報処理端末の音声合成を行う際に分散型音声認識を行う産業に適用可能である。

本発明の一実施の形態に係る音声合成システムの概略構成図の一例である。クライアント音声合成データベースのデータテーブルの一例である。本実施の形態に係るセンタサーバの処理フローチャートである。本実施の形態に係る車載用情報端末の処理フローチャートである。

符号の説明

１００センタサーバ
１０１ＣＰＵ
１０２音声合成手段
１０３音声合成エンジン
１０４音声合成データベース
１０５クライアント音声合成データベース
１０６音声認識サーバ
１０７通信手段
２００車載用情報端末
２０１ＣＰＵ
２０２音声合成手段
２０３音声合成エンジン
２０４音声合成データベース
２０５音声入力手段
２０６合成音声生成切換手段
２０７音声認識クライアント
２０８通信手段
３００ネットワーク

Claims

音声合成情報を用いて、文字情報を音声情報に合成する音声合成手段を有する情報処理端末と接続するサーバであり、
前記情報処理端末が有する音声合成情報により、前記文字情報の音声情報への合成が可能であるか否かを判定する、そのような音声合成情報判定手段と、
前記情報処理端末側の音声合成情報によって音声情報への合成が可能ではない場合に、前記情報処理端末に提供する音声合成情報を選択する、そのような音声合成情報選択手段と、
前記音声合成情報が提供された場合に、前記情報処理端末が有する音声合成手段により、前記文字情報の音声情報への合成が可能であるか否かを判定する、そのような音声合成手段判定手段と、
前記情報処理端末に提供する音声合成情報を、この情報処理端末に送信する情報送信手段と、
前記情報処理端末側の音声合成手段によって音声合成が可能ではない場合に、前記文字情報に基づく音声情報の合成を行う、音声合成手段と、
前記音声合成手段が合成した音声情報を送信する音声情報送信手段と、を備えるサーバ。
前記サーバに接続する個々の情報処理端末に関する情報である、端末情報を格納する端末情報データベースをさらに備え、
前記音声合成情報判定手段が、前記端末情報データベースを参照して端末側の音声合成情報による音声合成可能であるか否かを判定し、
前記音声合成手段判定手段が、前記端末情報データベースを参照して端末側の音声合成手段による音声合成可能であるか否かを判定する、請求項１に記載のサーバ。
文字情報を音声情報に合成するための音声合成情報を格納する音声合成データベースと、
音声情報に合成される文字情報、前記音声合成データベースに追加される音声合成情報、または前記文字情報から合成された音声情報を受信する手段と、
前記文字情報を受信したときに、前記音声合成データベースを参照し、前記音声合成情報により前記受信した文字情報を音声情報に合成する、そのような音声合成手段と、
前記音声合成情報を受信したときに、その音声合成情報を前記音声合成データベースに追加する手段と、
前記合成される音声情報、または受信した音声情報を出力する手段と、を備える情報処理端末。
音声合成情報を用いて、文字情報を音声情報に合成する音声合成手段を有する情報処理端末と接続するコンピュータに実行させるプログラムであり、
前記情報処理端末が有する音声合成情報により、前記文字情報の音声情報への合成が可能であるか否かを判定する、そのような音声合成情報判定ステップと、
前記情報処理端末側の音声合成情報によって音声情報への合成が可能ではない場合に、前記情報処理端末に提供する音声合成情報を選択する、そのような音声合成情報選択ステップと、
前記音声合成情報が提供された場合に、前記情報処理端末が有する音声合成手段により、前記文字情報の音声情報への合成が可能であるか否かを判定する、そのような音声合成手段判定ステップと、
前記情報処理端末に提供する音声合成情報を、この情報処理端末に送信する情報送信ステップと、
前記情報処理端末側の音声合成手段によって音声合成が可能ではない場合に、前記文字
情報に基づく音声情報の合成を行う、音声合成ステップと、
前記音声合成手段が合成した音声情報を送信する音声情報送信ステップと、をコンピュータに実行させる音声合成プログラム。
前記サーバに接続する個々の情報処理端末に関する情報である、端末情報を格納する端末情報データベースを参照して端末側の音声合成情報による音声合成可能であるか否かを判定するステップと、
前記端末情報データベースを参照して端末側の音声合成手段による音声合成可能であるか否かを判定するステップと、をさらにコンピュータに実行させる、請求項４に記載の音声合成プログラム。
音声情報に合成される文字情報、文字情報を音声情報に合成するための音声合成情報を格納する音声合成データベースに追加される音声合成情報、または前記文字情報から合成された音声情報を受信するステップと、
前記文字情報を受信したときに、前記音声合成データベースを参照し、前記音声合成情報により前記受信した文字情報を音声情報に合成する、そのような音声合成ステップと、
前記音声合成情報を受信したときに、その音声合成情報を前記音声合成データベースに追加するステップと、
前記合成される音声情報、または受信した音声情報を出力するステップと、をコンピュータに実行させる、音声合成プログラム。
音声合成情報を用いて、文字情報を音声情報に合成する音声合成手段を有する情報処理端末と、その情報処理端末と接続するサーバとを有する音声合成システムであり、
前記サーバが、
前記情報処理端末が有する音声合成情報により、前記文字情報の音声情報への合成が可能であるか否かを判定する、そのような音声合成情報判定手段と、
前記情報処理端末側の音声合成情報によって音声情報への合成が可能ではない場合に、前記情報処理端末に提供する音声合成情報を選択する、そのような音声合成情報選択手段と、
前記音声合成情報が提供された場合に、前記情報処理端末が有する音声合成手段により、前記文字情報の音声情報への合成が可能であるか否かを判定する、そのような音声合成手段判定手段と、
前記情報処理端末に提供する音声合成情報を、この情報処理端末に送信する情報送信手段と、
前記情報処理端末側の音声合成手段によって音声合成が可能ではない場合に、前記文字情報に基づく音声情報の合成を行う、音声合成手段と、
前記音声合成手段が合成した音声情報を送信する音声情報送信手段と、を備え、
前記情報処理端末が、
文字情報を音声情報に合成するための音声合成情報を格納する音声合成データベースと、
音声情報に合成される文字情報、前記音声合成データベースに追加される音声合成情報、または前記文字情報から合成された音声情報を受信する手段と、
前記文字情報を受信したときに、前記音声合成データベースを参照し、前記音声合成情報により前記受信した文字情報を音声情報に合成する、そのような音声合成手段と、
前記音声合成情報を受信したときに、その音声合成情報を前記音声合成データベースに追加する手段と、
前記合成される音声情報、または受信した音声情報を出力する手段と、を備える音声合成システム。