JP3748064B2 - Speech synthesis method, speech synthesizer, and speech synthesis program - Google Patents

Speech synthesis method, speech synthesizer, and speech synthesis program Download PDF

Info

Publication number
JP3748064B2
JP3748064B2 JP2002033118A JP2002033118A JP3748064B2 JP 3748064 B2 JP3748064 B2 JP 3748064B2 JP 2002033118 A JP2002033118 A JP 2002033118A JP 2002033118 A JP2002033118 A JP 2002033118A JP 3748064 B2 JP3748064 B2 JP 3748064B2
Authority
JP
Japan
Prior art keywords
speech
database
segment data
local
synthesis method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002033118A
Other languages
Japanese (ja)
Other versions
JP2003233386A (en
Inventor
秀之 水野
匡伸 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002033118A priority Critical patent/JP3748064B2/en
Publication of JP2003233386A publication Critical patent/JP2003233386A/en
Application granted granted Critical
Publication of JP3748064B2 publication Critical patent/JP3748064B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、入力テキストで示される音韻列と韻律情報に対応して、音声データベースから適切な音声片データを選択して順に接続することにより音声を合成する音声合成方法および装置、並びにそのプログラムに関するものである。
【0002】
【従来の技術】
この種の音声合成技術においては、近年、大容量な記憶装置の使用コストの低下に伴って、数十分から数時間に及ぶ音声データをそのまま大容量の記憶装置に蓄積して、入力されたテキストで示される音韻列及び韻律情報に応じて最適の音声素片を選択し、それを適切に変形し接続することで、高品質な音声を合成する音声合成装置も提案されている(例えば、特許2761552号)。
【0003】
このような音声合成装置では、入力テキストに対して高品質な合成音声を出力することが可能であるが、大容量の音声データとそれを格納する記憶装置が必要なため、搭載容量の限られた小型の携帯用電子機器(例えば、携帯情報端末(PDA)や携帯電話等)に搭載するのは困難である。
【0004】
また、クライアント・サーバ方式により、クライアントからサーバへテキストデータを送信し、サーバ側に装備した大容量のデータベースを利用して音声合成して、音声信号をクライアント側が受信する方式もあるが、その場合は送受信のために時間が掛かり、特に現状のインタネット等では合成音声の送信には問題がある。
【0005】
【発明が解決しようとする課題】
本発明の第1の目的は、搭載容量の限られた携帯電子機器等においても大容量の音声データベースを利用するのと同様な高品質な音声合成の実現を可能とすることにある。
また、本発明の第2の目的は、携帯電子機器等でクライアント・サーバ方式によりサーバ側で音声合成し、音声信号を送受信する場合よりも、格段に応答時間を短縮することにある。
【0006】
【課題を解決するための手段】
本発明は、端末側に小規模・小容量のローカル音声データベースを用意し、テキスト情報で示される音韻列と音律情報に従って該ローカル音声データベースから音声素片データを選択する。そして、このローカル音声データベースから選択された音声素片データが予め定めた適合度を満足するかどうか判定し、満足する場合には、該音声素片データをそのまま選択する。一方、ローカル音声データベースから音声素片データが選択されないか、選択されても適合度を満足しない場合には、ネットワークを介して遠隔地の大規模・大容量の音声データベースから、前記音韻列と韻律情報に従って適切な音声素片データをダウンロードする。このようにして、前記ローカル音声データベースから選択された音声素片データあるいは前記遠隔地の音声データベースからダウンロードされた音声素片データを用いて音声を合成する。これにより、端末側に大規模・大容量の音声データベースを搭載しなくても、高品質な音声合成が可能になる。
【0007】
また、本発明では、遠隔地の音声データベースからダウンロードした音声素片データを、ローカル音声データベースに追記して保持するか、該ローカル音声データベースとは別の音声素片データ用キャッシュメモリに保持し、以後、このダウンロードした音声素片データを端末側で選択できるようにする。これにより、音声合成の応答時間の短縮も可能になる。
【0008】
【発明の実施の形態】
以下、本発明の一実施の形態について図面を参照して説明する。
まず、図1に本発明の音声合成装置を利用したシステム全体の概念図を示す。図1において、ユーザ端末1はPDA、携帯電子、PHSなどの総称である。該ユーザ端末1には、小規模・小容量のローカル音声データベース120を内蔵した音声合成装置(例えば音声合成モジュール)100が搭載されている。一方、センタ3側には大規模・大容量の音声データベース5が設置されている。ユーザは、受信メール、その他、テキスト情報を音声で聴く場合、音声合成装置100を利用する。音声合成装置100は、テキスト情報を入力し、その音韻列と韻律情報に従ってローカル音声データベース120から音声素片データを選択して音声を合成する。この音声合成の実行中に、センタ3から、音声素片データのダウンロードが必要になった場合、ネットワーク2を介して、ユーザ端末1をセンタ3に接続する。ユーザ端末1とセンタ3の間をネットワーク2を介して接続する方法として、例えばネットワーク2としてインターネットを利用するのであれば、携帯電話やPHSのパケット通信網を利用した接続方法があり、ネットワーク2としてLANを利用するのであれば無線LANを利用した接続方法などがある。ユーザ端末1は、必要な音声素片データのリクエストをセンタ3側の受付けサーバ4に送信する。受付けサーバ4は、LANで接続された大容量データベース5を利用して音声素片データの検索を行い、検索した最適な音声素片データをリクエスト元であるユーザ端末1に送信する。ユーザ端末1の音声合成装置100は、受信した音声素片データを利用して音声合成を実行する。
【0009】
なお、図1では、受付けサーバ4と大容量データベース5は別となっているが、同一の機器で構成してもよい。その場合、LANは特に必要はない。
【0010】
次に、本発明にかかる音声合成装置および音声合成方法の二、三の実施例について詳しく説明する。
【0011】
〔実施例1〕
図2は本発明の音声合成装置の第1の実施例を示す構成図である。図2において、音声合成装置100は、テキスト解析部101、韻律生成部102、音声素片選択部103、適合度判定部104、合成部105、データ送受信制御部106、音声素片記憶制御部107、テキスト解析辞書110及びローカル音声データベース120から構成される。なお、図2では、入力されたテキスト情報、それに対応する音韻列および韻律情報、音声素片データ等を一時的に記憶するメモリ(作業用メモリ)は省略してある。また、音声合成装置100が、PDAや携帯電話等に搭載して利用される場合、PDAや携帯電話等の本来の通信機能がデータ送受信制御部106を兼ねることになる。
【0012】
図3に、センタ3側の大容量音声デーベース5と音声合成装置100内のローカル音声データベース120の構成例を示す。図1のセンタ3側の大容量音声データベース5とローカル音声データベース120の相違は、蓄積するデータ量だけである。例えば、センタ3側の大容量音声データベース5に蓄積されている音声素片データ中の基本的なもののみを音声合成装置100内のローカル音声データベース120が保持するようにする。あるいは、例えば国語辞書内の見出語中の音韻連接の統計をとり、出現頻度が高いもの(例えば上位1000程度)をローカル音声データベース120が保持するようにする。なお、音韻連接の出現頻度に関しては、例えば特開平1−44498号公報に詳しく記載されている。
【0013】
図4は、図2の実施例1に対応する本発明の音声合成方法のフローチャートの一例である。以下、図4に従って図2の実施例1の動作を説明する。
【0014】
テキスト情報が入力されると(ステップ1001)、テキスト解析部101でテキスト解析を行い、音韻列とアクセントを決定する(ステップ1002)。具体的には、テキスト解析部102では、テキスト解析辞書110を参照して、テキスト情報について係り受けや品詞解析などの形態素解析、漢字かな変換、アクセント処理を行い、音韻列(音韻記号列)とアクセントを決定する。
【0015】
次に、音韻列とアクセントに基づいて、韻律生成部102により、韻律情報を決定する。音韻情報にはピッチパタン(平均F0、F0の傾斜等)、各音素毎の時間長パタン、振幅パタン等が含まれる。韻律生成部102では、良く知られているように、所定の生成規則やテーブル等を参照して必要な韻律情報を生成する。
【0016】
次に、音声素片選択部103において、音韻列と韻律情報に従って、ローカル音声データベース120から最適な音声素片データを選択し(ステップ1003)、適合度判定部104にて、この選択された音声素片データの適合度を求め、予め定めた閾値を満足するかどうかを判定する(ステップ1004)。
【0017】
音声素片データの適合度は、例えば、次のようにして求める。ローカル音声データベース120は図3に示す構成として、韻律情報(目標)の前音韻環境をP、後音韻環境をS、平均F0をFA、F0傾斜をFS、時間長をDとし、選択された音声素片データの前音韻環境をP、後音韻環境をS、平均F0をFA、F0傾斜をFS、時間長をD、音韻a、bの異なり度合いを求める関数をDP(a、b)とすると、適合度は、

Figure 0003748064
と表わすことができる。ここで、α,α,αfs,αfs,αは適当な重み関数である。また、DP(a,b)の1例は、音韻a,bの平均的なスペクトル(ベクトル)をSP,SPとしたときDP(a,b)=|SP−SP|のような関数である。
【0018】
適合度判定部104では、例えば、上記(1)式により適合度を計算し、該適合度が、予め定めた閾値より小さい場合、ローカル音声データベース120から選択された音声素片データを適合と判断して、該音声素片データを最終的に選択する。一方、ローカル音声データベース120から音声素片データが選択されないか、あるいは、選択されても適合度が閾値以上の場合には、不適合と判断する、この不適合と判断された場合、適合度判定部104はデータ送受信制御部106を起動し、音韻列と韻律情報を渡す。
【0019】
データ送受信制御部106は、まず、ネットワーク2を介してセンタ3に接続し(ステップ1008)、次に、音韻列と韻律情報をセンタ3に送信して、音声素片データの選択を依頼し(ステップ1009)、センタ3にて大容量音声データベース5を用いて選択された音声素片データ及びその付属情報をネットワーク2を介して受信する(ステップ1010)。データ送受信制御部106では、このセンタ2から受信(ダウンロード)した音声素片データを適合度判定部104に送り、適合度判定部104では、この音声素片データを最終的に選択する。
【0020】
さらに、データ送受信制御部106は、センタ2から受信(ダウンロード)した音声素片データ及びその付属情報を音声素片記憶制御部107に送る。音声素片記憶制御部107では、この音声素片データ及びその付属情報をローカル音声データベース120に追加して記憶する(ステップ1011)。
【0021】
次に、音韻列に対応した全ての音声素片データが選択されたかを判定し(ステップ1005)、全ての音声素片が選択されない場合は、ステップ1003から処理を繰り返す。この時、音声素片選択部103では、ローカル音声データベース120に新たに追記された音声素片データがあれば、それを含めて最適な音声素片データを選択することが可能になる。
【0022】
ステップ1005で全ての音声素片データが選択されたと判定された場合、合成部105において、全ての音声素片データを韻律情報に応じて韻律変形し、韻律変形された音声素片データをそれぞれ接続することにより音声を合成する(ステップ1007)。これは従来と同様であるので(例えば、特許第2761552号)、具体的な説明は省略する。
【0023】
〔実施例2〕
図5に本発明の音声合成装置の第2の実施例を示す。図5において、図2の構成と異なる点は、音声素片キヤッシュメモリ130を追加し、音声素片記憶制御部107にて、センタ3から受信(ダウンロード)された音声素片データとその付属情報を該音声素片キヤッシュメモリ120に蓄積するようにしたことである。したがって、音声素片選択部103では、以後、ローカル音声データベース120及び音声素片キヤッシュメモリ130の両方を使用して最適な音声素片データを選択することができる。
【0024】
本実施例2は、例えばローカル音声データベース120がROMで実装されて、新たな音声素片データを追加できない場合に有効である。なお、音声素片キヤッシュメモリ130のデータは、装置の主電源をオフする毎に消去するか(使用のたびに消去する)、あるいは、補助電源等の使用で、主電源をオフしても消去しないようにするか、いずれでもよい。
【0025】
図5の実施例2に対応する本発明の音声合成方法のフローチャートは、基本的に図4と同様であるので省略する。相違点は、図4のステップ1011において、実施例1ではセンタ2から受信した音声素片データの記憶先がローカル音声データベース120であったのが、実施例2では音声素片キヤッシュメモリ130になるだけである。
【0026】
図6は、本発明の音声合成装置をコンピュータ上に構築する場合の概念的な構成を示すブロック図である。図6において、音声合成装置100は、プログラムに基づき処理を実行するとともに各構成要素を制御するCPU210、プログラム及び途中の処理結果等を格納するメモリ220、音声素片データ及び辞書、その他のファイル等を格納するデータ蓄積装置230、ネットワークを介してホストとデータを送受信するためのデータ送受信制御手段240(図2、図5のデータ送受信側制御部100)などを具備する。また、必要に応じて、音声素片キャッシュメモリ250を付加してもよい。特に小型の携帯機器においては、データ蓄積装置230は書き換え可能な磁気ディスク等ではなくROMで実装されることがあり、その場合は、音声素片キャッシュメモリ250が必須となる。
【0027】
なお、図2や図5で示した装置における各部の一部もしくは全部の処理機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること(図6)、あるいは、図4で示したような処理手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもない。また、コンピュータでその処理機能を実現するためのプログラム、あるいは、コンピュータにその処理手順を実行させるためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えば、FDや、MO、ROM、メモリカード、CD、DVD、リムーバブルディスクなどに記録して、保存したり、提供したりすることができるとともに、インターネット等のネットワークを通してそのプログラムを配布したりすることが可能である。
【0028】
【発明の効果】
以上、本発明によれば、必要に応じてネットワークを介してホスト側の大容量の音声データベースにアクセスすることで、搭載容量の限定された端末側に小容量のローカル音声データベースを搭載しても高品質な音声合成が可能になる。また、端末側に、ネットワークを介してホストからダウンロードした音声素片データを保存するためのメモリ領域を用意することで、応答時間の短縮も可能になる。
【図面の簡単な説明】
【図1】本発明の音声合成装置を使用したシステム全体の概念図である。
【図2】本発明による音声合成装置の第1の実施例の構成図である。
【図3】音声データベースの構成例を示す図である。
【図4】本発明による音声合成方法のフローチャート例である。
【図5】本発明による音声合成装置の第2の実施例の構成図である。
【図6】本発明による音声合成装置をコンピュータで実現する場合の構成図である。
【符号の説明】
1 ユーザ端末
2 ネットワーク
3 センタ
4 受付けサーバ
5 大容量音声データベース
100 音声合成装置
101 テキスト解析部
102 韻律生成部
103 音声素片選択部
104 適合度判定部
105 合成部
106 データ送受信制御部
107 音声素片記憶制御部
110 テキスト解析辞書
120 ローカル音声データベース
130 音声素片キヤッシュメモリ[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a speech synthesis method and apparatus for synthesizing speech by selecting appropriate speech segment data from a speech database and sequentially connecting them in correspondence with phoneme strings and prosodic information indicated by input text, and a program therefor Is.
[0002]
[Prior art]
In this type of speech synthesis technology, voice data ranging from several tens of minutes to several hours is stored and input as it is in a large-capacity storage device as the cost of using a large-capacity storage device decreases in recent years. A speech synthesizer that synthesizes high-quality speech by selecting an optimal speech segment according to the phoneme sequence and prosodic information indicated in the text, and appropriately transforming and connecting it is also proposed (for example, Japanese Patent No. 2761552).
[0003]
Such a speech synthesizer can output high-quality synthesized speech with respect to the input text. However, since it requires a large volume of speech data and a storage device for storing it, the installed capacity is limited. It is difficult to mount on small portable electronic devices (for example, personal digital assistants (PDAs) and mobile phones).
[0004]
In addition, there is a method in which text data is transmitted from the client to the server by the client-server method, voice synthesis is performed using a large-capacity database equipped on the server side, and the voice signal is received by the client side. Takes time for transmission and reception, and there is a problem in transmission of synthesized speech especially in the current Internet.
[0005]
[Problems to be solved by the invention]
A first object of the present invention is to enable realization of high-quality speech synthesis similar to using a large-capacity speech database even in a portable electronic device or the like having a limited mounting capacity.
The second object of the present invention is to significantly reduce the response time as compared with the case where voice is synthesized on the server side by a client-server method in a portable electronic device or the like and voice signals are transmitted and received.
[0006]
[Means for Solving the Problems]
In the present invention, a small-scale and small-capacity local speech database is prepared on the terminal side, and speech segment data is selected from the local speech database according to the phoneme string and temperament information indicated by the text information. Then, it is determined whether or not the speech unit data selected from the local speech database satisfies a predetermined fitness, and if satisfied, the speech unit data is selected as it is. On the other hand, if the speech segment data is not selected from the local speech database or if it does not satisfy the fitness even if it is selected, the phoneme sequence and prosody are retrieved from the remote large-scale speech database via the network. Download the appropriate speech segment data according to the information. In this way, speech is synthesized using speech segment data selected from the local speech database or speech segment data downloaded from the remote speech database. This enables high-quality speech synthesis without installing a large-scale, large-capacity speech database on the terminal side.
[0007]
Further, in the present invention, the speech unit data downloaded from the remote speech database is added to the local speech database and held or held in a speech unit data cache memory different from the local speech database, Thereafter, the downloaded speech segment data can be selected on the terminal side. As a result, the response time of speech synthesis can be shortened.
[0008]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
First, FIG. 1 shows a conceptual diagram of the entire system using the speech synthesizer of the present invention. In FIG. 1, the user terminal 1 is a generic term for PDA, portable electronic, PHS, and the like. The user terminal 1 is equipped with a speech synthesizer (for example, a speech synthesizer module) 100 incorporating a small-scale / small-capacity local speech database 120. On the other hand, a large-scale and large-capacity voice database 5 is installed on the center 3 side. The user uses the speech synthesizer 100 when listening to received mail and other text information by voice. The speech synthesizer 100 inputs text information, selects speech segment data from the local speech database 120 according to the phoneme sequence and prosodic information, and synthesizes speech. If it is necessary to download speech segment data from the center 3 during the speech synthesis, the user terminal 1 is connected to the center 3 via the network 2. As a method of connecting the user terminal 1 and the center 3 via the network 2, for example, if the Internet is used as the network 2, there is a connection method using a cellular phone or a PHS packet communication network. If a LAN is used, there is a connection method using a wireless LAN. The user terminal 1 transmits a request for necessary speech segment data to the reception server 4 on the center 3 side. The accepting server 4 searches for speech segment data using a large-capacity database 5 connected via a LAN, and transmits the searched optimal speech segment data to the user terminal 1 that is the request source. The speech synthesizer 100 of the user terminal 1 performs speech synthesis using the received speech segment data.
[0009]
In FIG. 1, the receiving server 4 and the large-capacity database 5 are separate from each other, but may be configured by the same device. In that case, the LAN is not particularly necessary.
[0010]
Next, a few embodiments of the speech synthesis apparatus and speech synthesis method according to the present invention will be described in detail.
[0011]
[Example 1]
FIG. 2 is a block diagram showing a first embodiment of the speech synthesizer of the present invention. In FIG. 2, a speech synthesizer 100 includes a text analysis unit 101, a prosody generation unit 102, a speech unit selection unit 103, a fitness determination unit 104, a synthesis unit 105, a data transmission / reception control unit 106, and a speech unit storage control unit 107. , A text analysis dictionary 110 and a local speech database 120. In FIG. 2, a memory (working memory) that temporarily stores input text information, corresponding phoneme strings and prosodic information, speech segment data, and the like is omitted. When the speech synthesizer 100 is used by being mounted on a PDA, a mobile phone, or the like, the original communication function of the PDA, the mobile phone, etc. also serves as the data transmission / reception control unit 106.
[0012]
FIG. 3 shows a configuration example of the large-capacity speech database 5 on the center 3 side and the local speech database 120 in the speech synthesizer 100. The difference between the large-capacity voice database 5 on the center 3 side in FIG. 1 and the local voice database 120 is only the amount of data to be stored. For example, the basic speech database 120 in the speech synthesizer 100 holds only basic speech data stored in the large-capacity speech database 5 on the center 3 side. Alternatively, for example, statistics of phonological concatenations in the headwords in the Japanese language dictionary are taken, and the local speech database 120 holds the ones with high appearance frequency (for example, about the top 1000). Note that the appearance frequency of phoneme concatenation is described in detail in, for example, Japanese Patent Laid-Open No. 1-44498.
[0013]
FIG. 4 is an example of a flowchart of the speech synthesis method of the present invention corresponding to Example 1 of FIG. The operation of the first embodiment shown in FIG. 2 will be described below with reference to FIG.
[0014]
When text information is input (step 1001), the text analysis unit 101 performs text analysis to determine a phoneme string and an accent (step 1002). Specifically, the text analysis unit 102 refers to the text analysis dictionary 110, performs morphological analysis such as dependency and part-of-speech analysis, kanji conversion, and accent processing on text information, and obtains a phoneme string (phoneme symbol string). Determine the accent.
[0015]
Next, based on the phoneme string and the accent, the prosody generation unit 102 determines the prosody information. The phoneme information includes a pitch pattern (average F0, slope of F0, etc.), a time length pattern for each phoneme, an amplitude pattern, and the like. As is well known, the prosody generation unit 102 generates necessary prosody information with reference to predetermined generation rules, tables, and the like.
[0016]
Next, the speech unit selection unit 103 selects the optimal speech unit data from the local speech database 120 according to the phoneme sequence and the prosodic information (step 1003), and the fitness determination unit 104 selects the selected speech unit. The degree of fit of the segment data is obtained, and it is determined whether or not a predetermined threshold value is satisfied (step 1004).
[0017]
The degree of adaptation of the speech segment data is obtained as follows, for example. Local voice database 120 as the configuration shown in FIG. 3, before phoneme environment P t prosodic information (target), the rear phoneme environment S t, the average F0 and FA t, F0 slope and FS t, the time length and D t , P c for the pre-phoneme environment of the selected speech segment data, S c for the post-phoneme environment, FA c for the average F0, FS c for the F0 slope, D c for the time length, and the degree of difference between the phonemes a and b If the function is DP (a, b), the fitness is
Figure 0003748064
Can be expressed as Here, α p , α s , α fs , α fs , and α d are appropriate weight functions. Moreover, one case of DP (a, b) is the phoneme a, average spectrum b (vector) SP a, when the SP b DP (a, b) = | SP a -SP b | like Function.
[0018]
In the fitness level determination unit 104, for example, the fitness level is calculated by the above equation (1), and when the fitness level is smaller than a predetermined threshold value, the speech unit data selected from the local speech database 120 is determined to be compatible. Then, the speech segment data is finally selected. On the other hand, if the speech segment data is not selected from the local speech database 120, or is selected but the fitness is equal to or greater than the threshold value, it is determined as non-conformity. Activates the data transmission / reception control unit 106 and passes the phoneme string and prosodic information.
[0019]
The data transmission / reception control unit 106 first connects to the center 3 via the network 2 (step 1008), and then transmits a phoneme sequence and prosodic information to the center 3 to request selection of speech segment data ( In step 1009), the speech unit data selected by the center 3 using the large-capacity speech database 5 and its associated information are received via the network 2 (step 1010). The data transmission / reception control unit 106 sends the speech unit data received (downloaded) from the center 2 to the fitness level determination unit 104, and the fitness level determination unit 104 finally selects the speech segment data.
[0020]
Further, the data transmission / reception control unit 106 sends the speech unit data received (downloaded) from the center 2 and its attached information to the speech unit storage control unit 107. The speech segment storage control unit 107 adds the speech segment data and its associated information to the local speech database 120 for storage (step 1011).
[0021]
Next, it is determined whether all speech segment data corresponding to the phoneme string have been selected (step 1005). If not all speech segments have been selected, the processing is repeated from step 1003. At this time, if there is newly added speech unit data in the local speech database 120, the speech unit selection unit 103 can select optimal speech unit data including that.
[0022]
If it is determined in step 1005 that all speech unit data has been selected, the synthesizing unit 105 prosody-transforms all speech unit data according to the prosodic information, and connects the prosody transformed speech unit data, respectively. As a result, the speech is synthesized (step 1007). Since this is the same as the conventional one (for example, Japanese Patent No. 2761552), a specific description is omitted.
[0023]
[Example 2]
FIG. 5 shows a second embodiment of the speech synthesizer of the present invention. 5 differs from the configuration of FIG. 2 in that a speech unit cache memory 130 is added, and speech unit data received (downloaded) from the center 3 by the speech unit storage control unit 107 and its associated information. Is stored in the speech segment cache memory 120. Therefore, the speech unit selection unit 103 can select optimum speech unit data using both the local speech database 120 and the speech unit cache memory 130 thereafter.
[0024]
The second embodiment is effective when, for example, the local speech database 120 is implemented in ROM and new speech segment data cannot be added. The data in the speech unit cache memory 130 is erased every time the main power of the apparatus is turned off (erased every time it is used), or even if the main power is turned off by using an auxiliary power source or the like. Either or not.
[0025]
The flowchart of the speech synthesis method of the present invention corresponding to Example 2 in FIG. 5 is basically the same as that in FIG. The difference is that in step 1011 of FIG. 4, the storage unit of the speech unit data received from the center 2 in the first embodiment is the local speech database 120, but the speech unit cache memory 130 in the second embodiment. Only.
[0026]
FIG. 6 is a block diagram showing a conceptual configuration when the speech synthesizer of the present invention is built on a computer. In FIG. 6, a speech synthesizer 100 executes a process based on a program and controls a component 210, a memory 220 for storing a program and intermediate processing results, speech segment data and a dictionary, other files, etc. And a data transmission / reception control means 240 (data transmission / reception side control unit 100 in FIGS. 2 and 5) for transmitting / receiving data to / from a host via a network. Moreover, you may add the speech unit cache memory 250 as needed. In particular, in a small portable device, the data storage device 230 may be mounted as a ROM instead of a rewritable magnetic disk or the like, and in such a case, the speech unit cache memory 250 is essential.
[0027]
Note that the present invention can be realized by configuring a part or all of the processing functions of each unit in the apparatus shown in FIGS. 2 and 5 by a computer program and executing the program using the computer (FIG. 6). 4) Alternatively, it is needless to say that the processing procedure as shown in FIG. 4 can be constituted by a computer program and the program can be executed by the computer. In addition, a computer-readable recording medium such as an FD, an MO, a ROM, a memory card, a program for realizing the processing function by the computer, or a program for causing the computer to execute the processing procedure, The program can be recorded on a CD, DVD, removable disk, etc., stored, provided, and the program can be distributed through a network such as the Internet.
[0028]
【The invention's effect】
As described above, according to the present invention, even when a small-capacity local voice database is mounted on a terminal having a limited mounting capacity by accessing a large-capacity voice database on the host side via a network as necessary. High quality speech synthesis is possible. Also, by providing a memory area on the terminal side for storing speech segment data downloaded from the host via the network, the response time can be shortened.
[Brief description of the drawings]
FIG. 1 is a conceptual diagram of an entire system using a speech synthesizer of the present invention.
FIG. 2 is a block diagram of a first embodiment of a speech synthesizer according to the present invention.
FIG. 3 is a diagram illustrating a configuration example of a voice database.
FIG. 4 is a flowchart example of a speech synthesis method according to the present invention.
FIG. 5 is a block diagram of a second embodiment of the speech synthesizer according to the present invention.
FIG. 6 is a configuration diagram when the speech synthesizer according to the present invention is realized by a computer.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 User terminal 2 Network 3 Center 4 Accepting server 5 Large capacity | capacitance speech database 100 Speech synthesizer 101 Text analysis part 102 Prosody generation part 103 Speech unit selection part 104 Conformity determination part 105 Synthesis part 106 Data transmission / reception control part 107 Speech unit Storage control unit 110 Text analysis dictionary 120 Local speech database 130 Speech segment cache memory

Claims (5)

テキスト情報で示される音韻列と韻律情報に対応して、音声データベースから音声素片データを選択して音声を合成する音声合成方法において、
前記音韻列と韻律情報に従って小規模のローカル音声データベースから音声素片データを選択し、
前記ローカル音声データベースから選択された音声素片データが予め定めた適合度を満足するかどうか判定し、
前記適合度を満足する場合には、前記ローカル音声データベースから選択された音声素片データをそのまま選択し、
前記適合度を満足しない場合には、ネットワークを介して遠隔地の音声データベースから、前記音韻列と韻律情報に従って適切な音声素片データをダウンロードし、
前記ローカル音声データベースから選択された音声素片データあるいは前記遠隔地の音声データベースからダウンロードされた音声素片データを用いて音声を合成する、
ことを特徴とする音声合成方法。
In the speech synthesis method for selecting speech segment data from the speech database and synthesizing speech corresponding to the phoneme sequence and prosodic information indicated by the text information,
Select speech segment data from a small local speech database according to the phoneme sequence and prosodic information,
Determining whether the speech segment data selected from the local speech database satisfies a predetermined degree of fitness;
If the degree of conformity is satisfied, the speech unit data selected from the local speech database is selected as it is,
If the degree of conformity is not satisfied, an appropriate speech segment data is downloaded according to the phoneme sequence and prosody information from a remote speech database via a network,
Synthesizing speech using speech segment data selected from the local speech database or speech segment data downloaded from the remote speech database;
A speech synthesis method characterized by the above.
請求項1記載の音声合成方法において、前記遠隔地の音声データベースからダウンロードされた音声素片データを、前記ローカル音声データベースに保存し、以後、前記保存された音声素片データを選択できるようにしたことを特徴とする音声合成方法。The speech synthesis method according to claim 1, wherein speech unit data downloaded from the remote speech database is stored in the local speech database, and thereafter, the stored speech unit data can be selected. A speech synthesis method characterized by the above. 請求項1記載の音声合成方法において、前記遠隔地の音声データベースからダウンロードされた音声素片データを、前記ローカル音声データベースとは別の音声素片データ用キャッシュメモリに保存し、以後、前記ローカル音声データベースと前記音声素片データ用キャッシュメモリを用いて音声素片データを選択することを特徴とする音声合成方法。2. The speech synthesis method according to claim 1, wherein speech unit data downloaded from the remote speech database is stored in a speech unit data cache memory different from the local speech database, and thereafter the local speech is stored. A speech synthesis method, wherein speech unit data is selected using a database and the speech unit data cache memory. テキスト情報で示される音韻列と韻律情報に対応して、音声データベースから音声素片データを選択して音声を合成する音声合成装置において、
小規模の音声素片データを記憶するローカル音声データベースと、
前記音韻列と韻律情報に従って前記ローカル音声データベースから音声素片データを選択する手段と、
前記ローカル音声データベースから選択された音声素片データが予め定めた適合度を満足するかどうか判定する手段と、
前記適合度を満足する場合には、前記ローカル音声データベースから選択された音声素片データをそのまま選択する手段と、
前記適合度を満足しない場合には、ネットワークを介して遠隔地の音声データベースから、前記音韻列と韻律情報に従って適切な音声素片データをダウンロードする手段と、
前記ローカル音声データベースから選択された音声素片データあるいは前記遠隔地の音声データベースからダウンロードされた音声素片データを用いて音声を合成する手段と、
を有することを特徴とする音声合成装置。
In a speech synthesizer that synthesizes speech by selecting speech segment data from a speech database, corresponding to the phoneme sequence and prosodic information indicated by the text information,
A local speech database that stores small speech segment data;
Means for selecting speech segment data from the local speech database according to the phoneme sequence and prosodic information;
Means for determining whether speech segment data selected from the local speech database satisfies a predetermined fitness;
If the degree of conformity is satisfied, means for directly selecting speech segment data selected from the local speech database;
If the degree of conformity is not satisfied, means for downloading appropriate speech segment data according to the phoneme string and prosody information from a remote speech database via a network;
Means for synthesizing speech using speech segment data selected from the local speech database or speech segment data downloaded from the remote speech database;
A speech synthesizer characterized by comprising:
請求項1乃至3に記載の音声合成方法をコンピュータで実行するための音声合成プログラム。A speech synthesis program for executing the speech synthesis method according to claim 1 on a computer.
JP2002033118A 2002-02-08 2002-02-08 Speech synthesis method, speech synthesizer, and speech synthesis program Expired - Lifetime JP3748064B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002033118A JP3748064B2 (en) 2002-02-08 2002-02-08 Speech synthesis method, speech synthesizer, and speech synthesis program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002033118A JP3748064B2 (en) 2002-02-08 2002-02-08 Speech synthesis method, speech synthesizer, and speech synthesis program

Publications (2)

Publication Number Publication Date
JP2003233386A JP2003233386A (en) 2003-08-22
JP3748064B2 true JP3748064B2 (en) 2006-02-22

Family

ID=27776032

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002033118A Expired - Lifetime JP3748064B2 (en) 2002-02-08 2002-02-08 Speech synthesis method, speech synthesizer, and speech synthesis program

Country Status (1)

Country Link
JP (1) JP3748064B2 (en)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006337476A (en) * 2005-05-31 2006-12-14 Canon Inc Voice synthesis method and system
EP1886302B1 (en) * 2005-05-31 2009-11-18 Telecom Italia S.p.A. Providing speech synthesis on user terminals over a communications network
JP4246790B2 (en) * 2006-06-05 2009-04-02 パナソニック株式会社 Speech synthesizer
CN101593516B (en) 2008-05-28 2011-08-24 国际商业机器公司 Method and system for speech synthesis
US8606583B2 (en) 2008-08-13 2013-12-10 Nec Corporation Speech synthesis system for generating speech information obtained by converting text into speech
US8620663B2 (en) 2008-08-13 2013-12-31 Nec Corporation Speech synthesis system for generating speech information obtained by converting text into speech
JP2010048959A (en) * 2008-08-20 2010-03-04 Denso Corp Speech output system and onboard device
JP5765874B2 (en) * 2008-10-09 2015-08-19 アルパイン株式会社 Speech synthesis apparatus, speech synthesis method, and speech synthesis program
JP6476556B2 (en) * 2014-03-03 2019-03-06 日本電気株式会社 Word remote registration system, word information providing device, word remote registration device, and word remote registration method
CN104992703B (en) * 2015-07-24 2017-10-03 百度在线网络技术(北京)有限公司 Phoneme synthesizing method and system
US11947593B2 (en) 2018-09-28 2024-04-02 Sony Interactive Entertainment Inc. Sound categorization system

Also Published As

Publication number Publication date
JP2003233386A (en) 2003-08-22

Similar Documents

Publication Publication Date Title
US7848924B2 (en) Method, apparatus and computer program product for providing voice conversion using temporal dynamic features
KR101214402B1 (en) Method, apparatus and computer program product for providing improved speech synthesis
JP4130190B2 (en) Speech synthesis system
US8751239B2 (en) Method, apparatus and computer program product for providing text independent voice conversion
JP3748064B2 (en) Speech synthesis method, speech synthesizer, and speech synthesis program
US7025657B2 (en) Electronic toy and control method therefor
US8131550B2 (en) Method, apparatus and computer program product for providing improved voice conversion
JP2002006882A (en) Voice input communication system, user terminals, and center system
US5848390A (en) Speech synthesis system and its method
JP3969908B2 (en) Voice input terminal, voice recognition device, voice communication system, and voice communication method
JPH11259093A (en) Speech synthesizer, control method therefor, and computer-readable memory
EP1886302B1 (en) Providing speech synthesis on user terminals over a communications network
JP2018004870A (en) Speech synthesis device and speech synthesis method
US6867356B2 (en) Musical tone generating apparatus, musical tone generating method, and program for implementing the method
JP4653572B2 (en) Client terminal, speech synthesis information processing server, client terminal program, speech synthesis information processing program
JP4392383B2 (en) Speech synthesis system, client device, speech segment database server device, speech synthesis method and program
JP2005055607A (en) Server, information processing terminal and voice synthesis system
JP2003029774A (en) Voice waveform dictionary distribution system, voice waveform dictionary preparing device, and voice synthesizing terminal equipment
JP2004361766A (en) Speaking speed conversion apparatus, speaking speed conversion method, and program
WO2006068734A2 (en) Method and apparatus for improving text-to-speech performance
JP2004163511A (en) Mobile terminal device
JP2005055606A (en) Server, information processing terminal and voice recognition system
CN115101043A (en) Audio synthesis method, device, equipment and storage medium
JP4184157B2 (en) Audio data management apparatus, audio data management method, and program
JP2004294813A (en) Speech synthesizer, control method, control program, and recording medium

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051122

R151 Written notification of patent or utility model registration

Ref document number: 3748064

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091209

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101209

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101209

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111209

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111209

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121209

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121209

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131209

Year of fee payment: 8

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term