JP4170819B2 - 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体 - Google Patents

音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体 Download PDF

Info

Publication number
JP4170819B2
JP4170819B2 JP2003151442A JP2003151442A JP4170819B2 JP 4170819 B2 JP4170819 B2 JP 4170819B2 JP 2003151442 A JP2003151442 A JP 2003151442A JP 2003151442 A JP2003151442 A JP 2003151442A JP 4170819 B2 JP4170819 B2 JP 4170819B2
Authority
JP
Japan
Prior art keywords
speech
unit
database
reference value
synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003151442A
Other languages
English (en)
Other versions
JP2004354644A (ja
Inventor
未来 長谷部
匡伸 阿部
秀之 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003151442A priority Critical patent/JP4170819B2/ja
Publication of JP2004354644A publication Critical patent/JP2004354644A/ja
Application granted granted Critical
Publication of JP4170819B2 publication Critical patent/JP4170819B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、高品質な音声を合成できる音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体に関するものである。
【0002】
【従来の技術】
従来、電話による株価案内システム等、各種情報案内システムや、Eメール・Webの読み上げ等、様々な分野で合成音声が利用されている。しかし、現状の合成音声は人間の発声に比べてまだ十分な品質を達成できておらず、合成音声の品質向上への要望は強い。
【0003】
従来のテキスト音声合成システムとして、大量の音声コーパスから合成に使用可能な音声素片を検索し、検索された音声素片の中から最適なものを選択し、選択された音声素片に対して韻律の変形を行わずに出力することで肉声らしい音声を合成する方法(第1従来例)がある。
[参考文献:特許2761552、「音声合成装置」]
また、他の音声合成システムとして、合成に使用する音声索片に対して、合成の目標となる韻律にあわせるために信号処理を施してから出力する方法(第2従来例)がある。[参考文献:"A NEW FO MODIFICATION ALGORITHM BY MANIPULATING HARMONICS OF MAGNITUDE SPECTRUM", Satoshi TAKANO, Masanobu ABE, Eurospeech'99]
【0004】
【特許文献1】
特許2761552号公報
【非特許文献1】
"A NEW FO MODIFICATION ALGORITHM BY MANIPULATING HARMONICS OF MAGNITUDE SPECTRUM", Satoshi TAKANO, Masanobu ABE, Eurospeech'99
【0005】
【発明が解決しようとする課題】
しかしながら、従来のテキスト音声合成システムにおいて、前述した第1従来例を用いた方法では、最適な音声素片を選択するための規則をあらかじめ設計しておき、その規則に基づいて音声素片を選択している。そのため従来のシステムにおいては、あらゆる入力に対して同じ規則で選択を行うことになる。しかし、入力テキストは音声合成のタスクに応じてその時々で異なり、入力に対して選択の候補となる音声素片の特長も、入力やデータベースといった各種条件によって異なるため、あらゆる入力に対して常に最適な音声素片の組合わせが得られる規則を作成することは難しいという問題がある。
【0006】
例えば、入力した文章「今日は蒸し暑いでしょう」に対して、システムが生成する合成の目標となる韻律と、「今日は蒸し暑いでしょう」と実際に発声した時の韻律は必ずしも一致しない。これは、図5に示す実験結果からも明らかである。図5において、縦軸は周波数を表し、横軸は時間を表す。また、×印は入力された合成目標の音声の基本周波数(F0)値であり、○印は実際に発生された音声の基本周波数(F0)である。
【0007】
もしデータベースに「今日は蒸し暑いでしょう。」という入力と全く同じ音韻系列の音声素片が存在した場合、生成された韻律とデータベースの韻律の違いをある程度許容するように規則を作成することで肉声そのままの音声を得ることができる。
【0008】
しかし、データベースに「き」「ょ」「う」「わ」・・・・のように、全てバラバラの音声素片しか見つからなかった場合においては、韻律の違いを許容する規則では合成音声の品質が劣化してしまう可能性がある。
【0009】
また、合成音声に対して感情を付与する揚合等の韻律が重要な場合においては、上述のように韻律の違いを許容してしまうと感情を再現できない可能性が高い。 一方、データベースに入力した文章と全く同じ音韻系列の文章があった場合においても、データベースを作成する際に感情音声を収集していなかった場合は、特に感情音声が再現できない可能性が高い。このように合成音声の韻律が重要な場合においては、第2従来例の方法で目標の韻律にあわせて韻律を変形して合成する方法が有効だが、韻律を変形してしまうと、韻律は目標とするものが得られる代わりに音声の持つ肉声らしさが失われてしまうという問題がある。
【0010】
音声素片に対して韻律の変形量が大きくなるほど音質の劣化も大きくなるため、目標の韻律にあわせて変形を行う場合は、できるかぎり目標の韻律に近い音声素片を選択し使用することが望ましい。
【0011】
このように、合成のタスクや検索対象となるデータベース等に応じて、選択の候補となる音声素片の特徴や、最適な音声素片を選択する基準が異なり、様々な場面で常に高品質な音声を合成するということは難しい。
【0012】
本発明の目的は上記の問題点に鑑み、状況に応じて最適な音声を合成すると共に高品質な音声を合成できる音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体を提供することである。
【0013】
【課題を解決するための手段】
本発明は上記の目的を達成するために、音声素片が蓄積されている複数種のデータベースを備え、入力された文字データを音声に変換するコンピュータ装置からなる音声合成装置を用いて、前記入力された文字データに対応する音声素片を前記データベースから選択し、該選択された音声素片により前記入力された文字データに対応する音声を合成する音声合成方法において、前記音声合成装置は、音声合成の目標となる入力文字列や基本周波数、継続時間長等、通常の音声合成のための入力の他に、使用するデータベース、音声素片を選択するためのルール、信号処理方法、をそれぞれ指定するための情報のうち、少なくとも何れか1つを含む音声合成のための制御情報を含む入力情報を取得し、前記入力情報に基づいて、前記データベースから合成に使用する音声素片を選択し、前記選択した音声素片を用いて音声を合成した場合の品質を評価して、該評価結果が基準値に満たなかったとき、前記入力情報に含まれる前記制御情報に基づいて音声素片に対して処理を行い、その処理の結果を再び評価する、という一連の流れを、基準値を満たすまで複数回行うことで合成音声を生成する音声合成方法を提案する。
【0014】
本発明の音声合成方法によれば、入力情報に基づいて、データベースから音声合成に使用する音声素片を選択し、該選択した音声素片の品質を評価する。さらに、この評価結果が基準値に満たなかったときには、前記入力情報に含まれる制御情報に基づいた処理を複数回行うことにより合成音声を作成する。また、前記制御情報としては、使用するデータベース、音声素片を選択するためのルール、信号処理方法、をそれぞれ指定するための情報のうち、少なくとも何れか1つの制御情報が用いられる。
【0015】
また、本発明は上記の音声合成方法において、前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、韻律変形の方法を変更する処理を行なった後に合成音声を生成する音声合成方法を提案する。
【0016】
本発明の音声合成方法によれば、評価結果が前記基準値に満たなかったとき、音声素片或いは音声素片の一部分の少なくとも何れか一方に対して、韻律変形の方法が変更されて合成音声が生成される。
【0017】
また、本発明は上記の音声合成方法において、前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、音声素片を選択するためのルールを変更して、前記データベースから再度音声素片の選択を行って合成音声を生成する音声合成方法を提案する。
【0018】
本発明の音声合成方法によれば、評価結果が前記基準値に満たなかった音声素片に対して、音声素片を選択するためのルールを変更して前記データベースから再度音声素片の選択が行われて合成音声が生成される。
【0019】
また、本発明は上記の音声合成方法において、前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、候補となる音声素片を検索するデータベースを変更して再度音声素片の選択を行って合成音声を生成する音声合成方法を提案する。
【0020】
本発明の音声合成方法によれば、評価結果が前記基準値に満たなかった音声素片に対して、候補となる音声素片を検索するデータベースが変更されて再度音声素片の選択が行われて合成音声が生成される。
【0021】
また、本発明は上記の音声合成方法において、前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、音声素片を選択するためのルールを変更して、前記データベースから再度音声素片の選択を行うと共に、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、韻律変形の方法を変更する処理を行って合成音声を生成する音声合成方法を提案する。
【0022】
本発明の音声合成方法によれば、評価結果が前記基準値に満たなかった音声素片に対して、音声素片を選択するためのルールを変更して前記データベースから再度音声素片の選択が行われると共に、音声素片或いは音声素片の一部分の少なくとも何れか一方に対して、韻律変形の方法が変更されて合成音声が生成される。
【0023】
また、本発明は上記の音声合成方法において、前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、候補となる音声素片を検索するデータベースを変更して再度音声素片の選択を行うと共に、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、韻律変形の方法を変更する処理を行って合成音声を生成する音声合成方法を提案する。
【0024】
本発明の音声合成方法によれば、評価結果が前記基準値に満たなかった音声素片に対して、候補となる音声素片を検索するデータベースが変更されて再度音声素片の選択が行われると共に、音声素片或いは音声素片の一部分の少なくとも何れか一方に対して、韻律変形の方法が変更されて合成音声が生成される。
【0025】
また、本発明は上記の音声合成方法において、前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、音声素片を選択するためのルールを変更して、前記データベースから再度音声素片の選択を行うと共に、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、候補となる音声素片を検索するデータベースを変更して再度音声素片の選択を行って合成音声を生成する音声合成方法を提案する。
【0026】
本発明の音声合成方法によれば、評価結果が前記基準値に満たなかった音声素片に対して、音声素片を選択するためのルールが変更されて、前記データベースから再度音声素片の選択が行われると共に、前記基準値に満たなかった音声素片に対して、候補となる音声素片を検索するデータベースが変更されて再度音声素片の選択が行われて合成音声が生成される。
【0027】
また、本発明は上記の音声合成方法において、前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、音声素片を選択するためのルールを変更して、前記データベースから再度音声素片の選択を行うと共に、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、候補となる音声素片を検索するデータベースを変更して再度音声素片の選択を行い、さらに、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、韻律変形の方法を変更する処理を行って合成音声を生成する音声合成方法を提案する。
【0028】
本発明の音声合成方法によれば、評価結果が前記基準値に満たなかった音声素片に対して、音声素片を選択するためのルールを変更して、前記データベースから再度音声素片の選択が行われると共に、前記基準値に満たなかった音声素片に対して、候補となる音声素片を検索するデータベースが変更されて再度音声素片の選択が行われ、さらに、前記基準値に満たなかった音声素片或いは音声素片の一部分の少なくとも何れか一方に対して、韻律変形の方法が変更されて合成音声が生成される。
【0029】
さらに、本発明は上記の音声合成方法を実施するための音声合成装置として、入力された文字データに対応する音声素片をデータベースから選択し、該選択された音声素片により前記入力された文字データに対応する音声を合成する音声合成装置において、音声素片が蓄積されている複数種のデータベースと、音声合成の目標となる入力文字列や基本周波数、継続時間長等、通常の音声合成のための入力の他に、使用するデータベース、音声素片を選択するためのルール、信号処理方法、をそれぞれ指定するための情報のうち、少なくとも何れか1つを含む音声合成のための制御情報を含む入力情報を取得する手段と、前記入力情報に基づいて、前記データベースから合成に使用する音声素片を選択する手段と、前記選択した音声素片を用いて音声を合成した場合の品質を評価して、該評価結果が基準値に満たなかったとき、前記入力情報に含まれる前記制御情報に基づいて音声素片に対して処理を行い、その処理の結果を再び評価する、という一連の流れを、基準値を満たすまで複数回行うことで合成音声を生成する手段とを備えている音声合成装置を提案する。
【0030】
また、本発明は上記の音声合成装置において、前記選択された音声素片を評価した結果、前記基準値に満たなかった音声素片が存在するとき、該音声素片或いは該音声素片の一部分の少なくとも何れか一方に対して、韻律変形の方法を変更する処理を行う手段を有する音声合成装置を提案する。
【0031】
また、本発明は上記の音声合成装置において、前記選択された音声素片を評価した結果、前記基準値に満たなかった音声素片が存在するとき、該音声素片に対して、音声素片を選択するためのルールを変更して、前記データベースから再度音声素片の選択を行う手段を有する音声合成装置を提案する。
【0032】
また、本発明は上記の音声合成装置において、前記選択された音声素片を評価した結果、前記基準値に満たなかった音声素片が存在するとき、該音声素片に対して、候補となる音声素片を検索するデータベースを変更して再度音声素片の選択を行う手段を有する音声合成装置を提案する。
【0033】
また、本発明は上記の音声合成方法を実施するための音声合成装置を周知のコンピュータ装置によって容易に構成するためのコンピュータプログラムとして、音声素片が蓄積されている複数種のデータベースを備え、入力された文字データを音声に変換するコンピュータ装置を用いて、前記入力された文字データに対応する音声素片を前記データベースから選択し、該選択された音声素片により前記入力された文字データに対応する音声を合成する音声合成コンピュータプログラムにおいて、音声合成の目標となる入力文字列や基本周波数、継続時間長等、通常の音声合成のための入力の他に、使用するデータベース、音声素片を選択するためのルール、信号処理方法、をそれぞれ指定するための情報のうち、少なくとも何れか1つを含む音声合成のための制御情報を含む入力情報を取得するステップと、前記入力情報に基づいて、前記データベースから合成に使用する音声素片を選択するステップと、前記選択した音声素片を用いて音声を合成した場合の品質を評価して、該評価結果が基準値に満たなかったとき、前記入力情報に含まれる前記制御情報に基づいて音声素片に対して処理を行い、その処理の結果を再び評価する、という一連の流れを、基準値を満たすまで複数回行うことで合成音声を生成するステップとを含む音声合成コンピュータプログラムを提案する。
【0034】
また、本発明は上記の音声合成コンピュータプログラムにおいて、前記選択された音声素片を評価した結果、前記基準値に満たなかった音声素片或いは音声素片の一部分の少なくとも何れか一方に対して、韻律変形の方法を変更するステップを含む音声合成コンピュータプログラムを提案する。
【0035】
また、本発明は上記の音声合成コンピュータプログラムにおいて、前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、音声素片を選択するためのルールを変更して、前記データベースから再度音声素片の選択を行うステップを含む音声合成コンピュータプログラムを提案する。
【0036】
また、本発明は上記の音声合成コンピュータプログラムにおいて、前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、候補となる音声素片を検索するデータベースを変更して再度音声素片の選択を行うステップを含む音声合成コンピュータプログラムを提案する。
【0037】
また、本発明は、上記音声合成コンピュータプログラムを容易に配布可能にするために、上記音声合成コンピュータプログラムが記憶されているコンピュータ読み取り可能な情報記憶媒体を提案する。
【0038】
上述のように、音声合成のタスクに応じて入力テキストは変化し、入力に対してデータベース中にどのような音声素片があるのかといった各種条件に応じて最適な音声素片を選択するのは難しいという問題があったが、本発明では、選択された音声素片を評価した結果に応じて、音声素片を選択するデータベースを変更して音声素片を再度選択する処理、データベースから音声素片を選択するルールを変更して再度選択する処理、選択された音声素片の合成方法を変更する処理、もしくはそれら3つの組合わせによる処理を複数回行うことで、使用するデータベースや入力情報に応じた適切な処理を行うという問題を解決することができる。
【0039】
【発明の実施の形態】
以下、図面に基づいて本発明の一実施形態を説明する。
【0040】
図1は本発明の一実施形態における音声合成装置を示す機能構成図である。図において、100は入力情報で、音声合成のための入力であり、音声合成の対象となる文字情報(以下、テキストと称する)と、その音素系列や、合成の目標となる基本周波数(以下、F0と称する)値や継続時間長等のパラメータ類、使用するデータベースや信号処理方法を指定する情報等の音声合成のための制御情報を含んでいる。
【0041】
200は音声合成処理装置で、周知のコンピュータ装置からなり、入力部201と、複数種のデータベース202aからなるデータベース部202、データベース選択部203、処理方法設定部204、データベース検索部(以下、DB検索部と称する)205、検索結果記憶部206、選択ルール設定部207、音声素片選択部208、選択結果記憶部209、韻律変形方法設定部210、選択結果評価部211、評価結果判定部212、合成部213、合成音声記憶部214、合成音声出力部215とから構成されている。尚、これらの構成部分は、コンピュータ装置のハードウェア及びソフトウェアの双方によって構成されている。
【0042】
入力部201は、入力情報100を取得して、これをデータベース選択部203に送出する。
【0043】
データベース部202は、複数種のデータベース202-1〜202-n(nは自然数)から構成され、音声波形、音声のF0パタン、発声内容に対応する音素ラベル列、音素の境界を示すラベルデータ等、合成のための情報が格納されているデータベースであり、前後の環境つき音素(Tri-phone)を集めた汎用のデータベース、ニュースや天気予報を読み上げた特定のタスクに使用するデータベース、地名を含んだデータベース、基本的な音素セットを含んだデータベース等を複数種備えている。また、音声合成のタスクに依存したデータベースの例を挙げると、天気予報を合成するシステムの場合はデータベースとして、天候の名称や天気予報に使用される定型的な文章等を含んだ天気予報用のデータベース、地名を含んだデータベース等が必要となるので、それらを任意の文字データや文章を合成するための基本的な音素セットを含んだデータベース等と組合わせて使用することができるようになっている。
【0044】
データベース選択部203は、処理方法設定部204からの指示に基づいて、入力情報100からデータベース部202の中のどのデータベース202-1〜202-nを使用するかを決定する。また、後述する選択結果判定部212において評価結果が基準値に満たなかった場合の処理をループして繰り返す場合、どのデータベース202-1〜202-nを使用するかの情報は、処理方法設定部204の処理によってフィードバックされる制御情報として与えられる。
【0045】
処理方法設定部204は、評価結果判定部212において、評価結果が基準値に満たなかったときに、データベース選択部203、選択ルール設定部207、韻律変形方法設定部210のいずれか、もしくは複数の処理に対して設定条件を変更する制御情報を付加し、検索するデータベースを変更する場合は203へ、データベースを変更せず選択ルールを変更する場合は207へ、データベース、選択ルールを共に変更せず、韻律変形方法のみ変更する場合は210へと処理を進める。
【0046】
DB検索部205は、データベース選択部203によって決定されたデータベース202-1〜202-nの中から合成に使用可能な音声素片を検索して、その音素片を抽出し検索結果記憶部206へ送出する。
【0047】
検索結果記憶部206は、DB検索部205によって検索抽出された音声素片を一時的に記憶する。
【0048】
選択ルール設定部207は、制御情報に基づいて、音声素片選択部208による音素片の選択ルールを設定する。
【0049】
音声素片選択部208は、選択ルール設定部207による設定に基づいて、DB検索部205の検索の結果、候補として挙がってきた音声素片の中からを選択する部分であり、データベース部202から検索されて検索結果記憶部206に記憶されている音声素片に対してF0や、継続時間長、音韻環境等、合成音声の品質に関わる要素をコストとして計算することによって、最適な音声索片の組合わせを選択し、これを選択結果記憶部209に送出する。
【0050】
選択結果記憶部209は、音声素片選択部208から取得した最適な音声索片の組合わせを一時的に記憶する。
【0051】
韻律変形方法設定部210は、制御情報に基づいて、韻律変形方法を指定する。
【0052】
選択結果評価部211は、音声素片選択部208によって選択され選択結果記憶部209に記憶されている音声素片を用いて音声を合成した場合の品質を評価する。
【0053】
評価結果判定部212は、選択結果評価部211の処理による評価結果と入力情報に含まれる制御情報を基に、選択結果に対して再処理を行なうべきか否かを判断する。即ち、評価結果判定部212において、入力制御情報と、評価結果を基準値と照らし合わせた結果に基づき、再処理が必要な場合には、処理方法設定部へと処理を進める。
【0054】
合成部213は、評価結果判定部212で再処理の必要がないと判断された場合、選択された音声素片に対して、制御情報の韻律変形方法の指定に基づいた処理を行ない、各音声素片を接続して、合成音声として合成音声記憶部214に送出する。
【0055】
合成音声記憶部214は、合成部213から入力した合成音声を一時的に記憶する。
【0056】
合成音声出力部215は、合成音声記憶部214に記憶されている合成音声を出力する。
【0057】
次に、選択結果評価部211における選択結果の品質評価処理に関する一実施例を図2のフローチャートを参照して詳細に説明する。
【0058】
選択結果評価部211は、まず、入力に対して音声素片が選択できたかどうか、すなわち選択結果記憶部209に音声素片が記憶されているが否かを判定する(301)。この判定では、例えば、前述の天気予報のタスクを合成するシステムの場合について述べると、まず最初に天気予報用のデータベースと地名のデータベースのみを用いて音声素片を選択する場合においては、「今日の天気は晴れです」のような典型的な文章は天気予報用のデータベースの中に存在するため、高速に高品質な結果を得ることが出来る。しかし、探索の範囲を狭めて高速化を行なった場合には、例えば「沖縄県で雪が降りました」のような特殊な場合にデータベース中に必要な音声素片が存在しない可能性が高くなる。
そこで401の処理において、音声素片が存在しなかった部分のみを判断することで、天気予報用のタスク依存の小さいデータベースを用いた場合に、大きいサイズの基本的な音素セットを全て含んだデータベースを用いて選択できなかった部分のみ音声素片を選択しなおすことが可能となる。
【0059】
前記301の判定の結果、選択結果記憶部209に音声素片が存在しなかった場合は、選択結果評価部211は、音声合成した場合の評価を行うことができないため、302、303の処理を行わず、そのまま評価結果を評価結果判定部212に出力する。
【0060】
一方、選択結果記憶部209に音声素片が存在した場合は、選択結果評価部211は、302、303の処理を行い、選択された音声素片の品質を評価する。
【0061】
302の処理では、選択結果評価部211は、選択された個々の音声素片の音韻環境について判定する。例えば、データベース中から「ASITA」という音韻系列を持った音声の「S」の部分を使用する場合は、「A」がSの前環境、「I」がSの後環境となる。このSを「KESU」の「S」として使用する場合には、Sの環境はそれぞれ「E」と「U」となり、データベースの音韻環境とは全く異なっている。音韻環境がどの程度異なっているかを表すために、事前に各音韻環境のスペクトルパターンを分析したデータを使用し、比較することで音韻環境がどの程度異なっているかを評価する。
【0062】
使用する音声素片がN個存在し、n番目の音声素片の環境についてTri-Phone[n](以下、TP[n]と称する)と表し、それぞれのスペクトルパターンをTargetEnviorment[TP[n]](以下、TE[TP[n]]と称する)、OriginalEnviorment[TP[n]](以下、OE[TP[n]]と称する)とすると、各音声素片の音韻環境の異なり具合を評価する式は次の式(1)のように求めることができ、これをN個の音声素片全てについて評価する。
【0063】
【数1】
Figure 0004170819
【0064】
次に303の処理では、選択結果評価部211は、選択された音声素片について、各アクセント句のアクセント型が正しく再現されているかどうかを判定する。これは、合成音声の肉声らしさを保持するために韻律変形を行なわずに出力する場合に、最適な音声素片の組合わせが必ずしも正しいアクセントを再現しているとは限らないため、音声素片のアクセント型がどの程度目標と合致しているのかを評価する必要がある。
【0065】
アクセント型の評価方法としては、合成する音韻系列について、F0値が安定して得られる母音部分について、合成目標と音声素片のF0値を比較することによってアクセント型がどの程度再現できているか評価できる。例えば、合成する音韻系列に母音がN個あった場合、合成目標のn番目の母音の中心部分のF0値をTargetVoiceF0[n](以下、TF0[n]と称する)、選択された音声素片のn番目の母音の中心部分のF0値をOriginalVoiceF0[n](以下、OF0[n]と称する)とすると、F0値の推移の違いを次の式(2)のように求めることができる。
【0066】
【数2】
Figure 0004170819
【0067】
以上の処理によって、選択された音声素片の組合わせに対して評価結果のデータを付加し、その結果を評価結果判定部212の処理によって判断する。
【0068】
次に、評価結果判定部212の処理に関して図3のフローチャートを参照して詳細に説明する。
【0069】
評価結果判定部212は、選択された各音声素片の評価結果に基づき、その後の処理が必要か否かを判定する(401)。この判定の結果、処理が不要の場合は、合成部213の処理へと進む。
【0070】
前記401の判定の結果、処理が必要と判断された場合は、評価結果判定部212は、その後に実行する処理として検索するデータベースを変更するか否かの判断を行なう(402)。この判定の結果、データベースを変更しない場合は、続く403及び404の処理において、それぞれ選択ルール、韻律変形方法を変更するか否かを判断し、全て行なわない場合のみ、合成部213の処理へと進む。また、どれか1つでも処理を行なう場合は、処理方法設定部204の処理へと進む。
【0071】
一方、処理方法設定部204では、評価結果判定部212において音声素片の選択などの処理において再処理の必要があると判断された場合に、データベース、選択ルール、韻律変形方法のうちのどの変更を行なうのかについて制御情報を付加した後、検索するデータベースを変更する場合はデータベース選択部203に、データベースを変更せず選択ルールを変更する場合は選択ルール設定部207に、データベース及び選択ルールを共に変更せずに韻律変形方法のみを変更する場合は韻律変形方法設定部210へと処理を進める。
【0072】
データベース選択部204の処理を経由してデータベース選択部203の処理に戻った場合は、データベース選択部204において付加された制御情報に基づき検索対象となるデータベースを変更して候補となる音声素片を再検索する。
【0073】
以下、最初の場合と同じように処理を進め、選択ルール設定部207の処理まで処理を進めた際に、データベース選択部204の処理において選択ルールを変更するように制御情報が付加されていた場合は、選択ルール設定部207は、その制御情報に従って選択ルールを変更して再度選択を行なう。
【0074】
処理方法設定部204の処理を経由して直接選択ルール設定部207の処理に戻った場合は、検索候補となる音声素片はデータベースから再検索を行なっていないため最初に検索した候補と同じだが、それ以降の処理の流れはデータベース選択部203の場合と同じである。
【0075】
同じように、データベース選択部203の処理から韻律変形方法設定部210の処理まで進んだ場合も、付加された制御情報に従い韻律変形の方法を変更する処理を行なう。
【0076】
処理方法設定部204の処理から韻律変形方法設定部210の処理に直接戻った場合も、既に選択された音声素片に対して処理を行なうということ以外は同様である。
【0077】
処理方法設定部204からの処理を行なった結果、最初と同様に再び選択結果評価部211において評価を行い、再び処理を繰り返すかどうかを評価結果判定部212において判断し、最終的に処理が不要になるまで同じプロセスを繰り返す。
【0078】
以下、天気予報の音声合成を行なう場合を一例にしてシステムの流れを説明する。この場合、図4に示すようにデータベース部202には、天気予報DB202aと、Tri-phoneDB202b、形態素DB202cが備えられている。ここで、「DB」はデータベースを表す。
【0079】
まず、入力情報100として「今日は蒸し暑いでしょう」というテキストが入力されたとする。また、ここでは、このテキストに付随する制御情報として、アクセント句や品詞等の言語情報や、F0パタン、継続時間等の韻律情報の他に、以下のような制御情報が入力された場合を例に挙げる。
・使用するデータベース(DB)の指定
初期値:天気予報DB
1回目のループ:形態素DB
2回目のループ:Tri-PhoneDB
・韻律変形の指定
初期値:韻律変形無し
1回目のループ:韻律変形無し
2回目のループ:韻律変形有り
・選択ルールの指定(重視するパラメータは何か)
初期値:アクセント型、音韻系列の一致性
1回目のループ:形態素境界の一致性、音声素片の音韻環境の一致性
2回目のループ:F0値が近いかどうか、音韻環境の一致性
DB検索部205は、これらの制御情報に基づき、データベース部202の中から天気予報DBを使用して入力テキストを合成可能な音声素片を候補として検索し、この検索結果を検索結果記憶部206に出力する。
【0080】
音声素片選択部208は、選択のルールとしてはアクセント型があっているかどうか、入力テキストに対して音声素片の音韻系列が―致している部分が長いかどうか、という要素に重みを置いて各種のコストを計算し、最適な音声素片の組合わせを求めて選択結果記憶部209に出力する。
【0081】
音声素片選択部208の処理結果として「今日は」「暑いでしょう」という音声素片が選択され、「蒸し」という音声素片が存在しなかったとする。その場合、選択結果評価部211の中の処理301において音声素片が存在しない場合に相当するので、評価結果判定部212の中の処理401において、音声素片の評価結果を判定する処理で基準を満たしていないと判断され、続く402の処理で、入力の制御情報にデータベースの変更に関する指定があるため、再処理の必要有りと判定され処理方法設定部204の処理へと進む。
【0082】
処理方法設定部204では、入力情報100における制御情報を基に、データベースは形態素を使用するように指定し、韻律変形は無し、選択のルールは、形態素境界が一致しているかどうか、選択された音声素片の音韻環境が入力の音韻環境と比較して近いかどうか、というコストを重視するように変更され、データベース選択部203の処理へと進む。
【0083】
データベース選択部203では処理方法設定部204によって設定された制御情報を基に、データベースとして形態素単位で構成された形態素DB202cを使用するように設定し、DB検索部205で形態素DB202cから「蒸し」を合成できる音声素片を検索し、検索結果の候補を検索結果記憶部206に記憶する。
【0084】
選択ルール設定部207では、検索結果記憶部206から最適な音声素片の組合わせを選択するためのルールを、音声素片の形態素境界と入力テキストの形態素境界が一致しているかどうか、音声素片の前後の音韻環境が合成したい音韻環境と近いかどうか、という要素に重みを置くように変更する。
【0085】
音声素片選択部208では選択ルール設定部207によって変更されたルールに基づいて各種のコストを計算し、最適な音声素片の組合わせを求めて選択結果記憶部209に記憶する。
【0086】
韻律変形方法設定部210は韻律変形方法を指定する部分であるが、ここでは韻律変形は行なわないという指定なので最初の場合と変更はない。
【0087】
選択結果評価部211で、処理方法設定部204からの処理の結果を含め再び評価を行なう。評価の結果、新しく選んだ「蒸し」という音声素片が、「蒸し暑い」のアクセントとは異なる「蒸し」しか存在せず、「蒸し暑いでしょう」のアクセント型の評価結果が異常値をとっていた場合、評価結果判定部212の処理401において、音声素片の評価結果を判定する処理で基準を満たしていないと判断され、「蒸し暑いでしょう」というアクセント句を修正する必要有りと判断され、再び処理方法設定部204以降の処理ループへと進む。
【0088】
処理方法設定部204では、最初の入力情報における制御情報に従い、今度は使用DBはTri-PhoneDB202bを用いて検索し、音韻環境とF0値の―致具合を重視しながら選択し、合成時には韻律変形を施す、という指定を行い、データベース選択部203の処理へと進む。その後、「蒸し暑いでしょう」というアクセント句を合成するために、先ほどと同様にDBから候補を検索し、最適な音声素片の組合わせを選択し、その評価を行う。
【0089】
次いで、評価結果判定部212では、選択された音声素片の評価がよければそのまま合成部213の処理へ進むが、もしまだ評価が悪かった場合においても、入力制御情報として既にデータベースと、選択ルール、韻律変形方法の全てについて変更は無いので、ここで処理方法設定部204の処理以降のループは終了し、合成部213の処理へと進む。
【0090】
合成部213では、最終的な結果に従い、「今日は蒸し暑いでしょう」という音声を合成する。「今日は」の部分は最初に選択された音声素片であり、韻律変形は無しの指定になっているため、選択された音声素片をそのままの形で出力し、次の「蒸し暑いでしょう」の部分は最後に選択された結果であり、韻律変形を行なう指定になっているため、韻律変形を行なった後に、「今日は」の音声素片と接続し、最終的な結果として合成音声を出力する。
【0091】
従来の音声合成技術の場合、必ずしも理想的な音声素片が存在するとは限らず、どうしてもアクセント型が合う音声素片を選択出来ない場合などは、アクセントの異なりを許容するか、もしくは音韻環境が異なるがF0値が近いものを選択することで明瞭性を犠牲にしてアクセントを揃えるということを行なうことになる。しかし、前述したように本実施形態では、信号処理によってF0をあわせることを前提に音声素片の音韻環境だけは一致するように再度選択を行なった後に合成するというような、場合に応じた処理が可能になるため、韻律変形によって音声の肉声らしさが損なわれることを許容する代わりに、明瞭性を保ち且つアクセントの正しい合成音声を作成する、といったことが可能になる。すなわち、音声を合成する過程において、アクセント、明瞭性以外に、肉声らしさも考慮することで、選択の幅が広がり、従来の方法では良い合成音声を得られないような場合にもより良い合成音声を得られる可能性が高くなる。
【0092】
また、天気予報の例のように、最初に天気予報専用の小規模なデータベースから選択し、選択できなかった場合のみ、より汎用的な大きいサイズのデータベースを用いるという段階的な操作を行なうことで、そのままの形で使えるような定型的な文章は素早く選択し、DBに無かった特殊な地名やカタカナ語等のみ大規模DBから最適なものを選択することで素早く品質の良い合成音声を得られるといった効果がある。
【0093】
尚、上記実施形態及び各実施例は、本発明の一具体例であって本発明が上記具体例の構成のみに限定されないことは言うまでもないことである。
【0094】
また、上記の音声合成プログラムを記録したコンピュータ読み取り可能な情報記憶媒体を作成することにより、上記音声合成コンピュータプログラムを容易に配布することが可能になる。
【0095】
【発明の効果】
以上説明したように本発明によれば、入力情報に基づいて、データベースから音声合成に使用する音声素片を選択し、該選択した音声素片の品質が評価され、この評価結果が基準値に満たなかったときには、前記入力情報に含まれる、音素系列、音声合成の目標となる基本周波数値、継続時間長、使用するデータベース、信号処理方法を指定する情報のうちの少なくとも何れか1つの制御情報に基づいて音声素片の選択処理を複数回行うことにより、評価結果が前記基準値に達する音声素片が選択され、該音声素片を用いて合成音声が生成されるので、音声合成のタスクに応じて入力文字データは変化し、入力に対してデータベース中にどのような音声素片があるのかといった各種条件に応じて最適な音声素片を選択することができる。
【0096】
さらに、本発明では、選択された音声素片を評価した結果に応じて、音声素片を選択するデータベースを変更して音声素片を再度選択する処理、データベースから音声素片を選択するルールを変更して再度選択する処理、選択された音声素片の合成方法を変更する処理、もしくはそれら3つの組合わせによる処理をN回行っているので、使用するデータベースや入力情報に応じた適切な音声合成処理を行うことができるという非常に優れた効果を奏する。
【図面の簡単な説明】
【図1】本発明の一実施形態における音声合成装置を示す機能構成図
【図2】本発明の一実施形態における選択結果評価部の品質評価処理を説明するフローチャート
【図3】本発明の一実施形態における評価結果判定部の処理を説明するフローチャート
【図4】本発明の一実施形態における天気予報の音声合成を行なう場合を一例としたシステムの流れを説明する図
【図5】従来例にかかる問題点を説明する周波数特性図
【符号の説明】
100…入力情報、200…音声合成装置、201…入力部、202…データベース部、202-1〜202-n…データベース、201a…天気予報DB、202b…Tri-phoneDB、202c…形態素DB、203…データベース選択部、204…処理方法設定部、205…データベース検索部(DB検索部)、206…検索結果記憶部、207…選択ルール設定部、208…音声素片選択部、209…選択結果記憶部、210…韻律変形方法設定部、211…選択結果評価部、212…評価結果判定部、213…合成部、214…合成音声記憶部、215…合成音声出力部。

Claims (17)

  1. 音声素片が蓄積されている複数種のデータベースを備え、入力された文字データを音声に変換するコンピュータ装置からなる音声合成装置を用いて、前記入力された文字データに対応する音声素片を前記データベースから選択し、該選択された音声素片により前記入力された文字データに対応する音声を合成する音声合成方法において、
    前記音声合成装置は、
    音声合成の目標となる入力文字列や基本周波数、継続時間長等、通常の音声合成のための入力の他に、使用するデータベース、音声素片を選択するためのルール、信号処理方法、をそれぞれ指定するための情報のうち、少なくとも何れか1つを含む音声合成のための制御情報を含む入力情報を取得し、
    前記入力情報に基づいて、前記データベースから合成に使用する音声素片を選択し、
    前記選択した音声素片を用いて音声を合成した場合の品質を評価して、該評価結果が基準値に満たなかったとき、前記入力情報に含まれる前記制御情報に基づいて音声素片に対して処理を行い、その処理の結果を再び評価する、という一連の流れを、基準値を満たすまで複数回行うことで合成音声を生成する
    ことを特徴とする音声合成方法。
  2. 前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、韻律変形の方法を変更する処理を行なった後に合成音声を生成する
    ことを特徴とする請求項1に記載の音声合成方法。
  3. 前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、音声素片を選択するためのルールを変更して、前記データベースから再度音声素片の選択を行って合成音声を生成する
    ことを特徴とする請求項1に記載の音声合成方法。
  4. 前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、候補となる音声素片を検索するデータべースの種類を変更して再度音声素片の選択を行って合成音声を生成する
    ことを特徴とする請求項1に記載の音声合成方法。
  5. 前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、音声素片を選択するためのルールを変更して、前記データベースから再度音声素片の選択を行うと共に、
    前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、韻律変形の方法を変更する処理を行って合成音声を生成する
    ことを特徴とする請求項1に記載の音声合成方法。
  6. 前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、候補となる音声素片を検索するデータベースを変更して再度音声素片の選択を行うと共に、
    前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、韻律変形の方法を変更する処理を行って合成音声を生成する
    ことを特徴とする請求項1に記載の音声合成方法。
  7. 前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、音声素片を選択するためのルールを変更して、前記データベースから再度音声素片の選択を行うと共に、
    前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、候補となる音声素片を検索するデータベースを変更して再度音声素片の選択を行って合成音声を生成する
    ことを特徴とする請求項1に記載の音声合成方法。
  8. 前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、音声素片を選択するためのルールを変更して、前記データベースから再度音声素片の選択を行うと共に、
    前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、候補となる音声素片を検索するデータベースを変更して再度音声素片の選択を行い、
    さらに、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、韻律変形の方法を変更する処理を行って合成音声を生成する
    ことを特徴とする請求項1に記載の音声合成方法。
  9. 入力された文字データに対応する音声素片をデータベースから選択し、該選択された音声素片により前記入力された文字データに対応する音声を合成する音声合成装置において、
    音声素片が蓄積されている複数種のデータベースと、
    音声合成の目標となる入力文字列や基本周波数、継続時間長等、通常の音声合成のための入力の他に、使用するデータベース、音声素片を選択するためのルール、信号処理方法、をそれぞれ指定するための情報のうち、少なくとも何れか1つを含む音声合成のための制御情報を含む入力情報を取得する手段と、
    前記入力情報に基づいて、前記データベースから合成に使用する音声素片を選択する手段と、
    前記選択した音声素片を用いて音声を合成した場合の品質を評価して、該評価結果が基準値に満たなかったとき、前記入力情報に含まれる前記制御情報に基づいて音声素片に対して処理を行い、その処理の結果を再び評価する、という一連の流れを、基準値を満たすまで複数回行うことで合成音声を生成する手段とを備えている
    ことを特徴とする音声合成装置。
  10. 前記選択された音声素片を評価した結果、前記基準値に満たなかった音声素片が存在するとき、該音声素片或いは該音声素片の一部分の少なくとも何れか一方に対して、韻律変形の方法を変更する処理を行う手段を有する
    ことを特徴とする請求項9に記載の音声合成装置。
  11. 前記選択された音声素片を評価した結果、前記基準値に満たなかった音声素片が存在するとき、該音声素片に対して、音声素片を選択するためのルールを変更して、前記データベースから再度音声素片の選択を行う手段を有する
    ことを特徴とする請求項9又は請求項10に記載の音声合成装置。
  12. 前記選択された音声素片を評価した結果、前記基準値に満たなかった音声素片が存在するとき、該音声素片に対して、候補となる音声素片を検索するデータベースを変更して再度音声素片の選択を行う手段を有する
    ことを特徴とする請求項9乃至請求項11のうちの何れかに記載の音声合成装置。
  13. 音声素片が蓄積されている複数種のデータベースを備え、入力された文字データを音声に変換するコンピュータ装置を用いて、前記入力された文字データに対応する音声素片を前記データベースから選択し、該選択された音声素片により前記入力された文字データに対応する音声を合成する音声合成コンピュータプログラムにおいて、
    音声合成の目標となる入力文字列や基本周波数、継続時間長等、通常の音声合成のための入力の他に、使用するデータベース、音声素片を選択するためのルール、信号処理方法、をそれぞれ指定するための情報のうち、少なくとも何れか1つを含む音声合成のための制御情報を含む入力情報を取得するステップと、
    前記入力情報に基づいて、前記データベースから合成に使用する音声素片を選択するステップと、
    前記選択した音声素片を用いて音声を合成した場合の品質を評価して、該評価結果が基準値に満たなかったとき、前記入力情報に含まれる前記制御情報に基づいて音声素片に対して処理を行い、その処理の結果を再び評価する、という一連の流れを、基準値を満たすまで複数回行うことで合成音声を生成するステップとを含む
    ことを特徴とする音声合成コンピュータプログラム。
  14. 前記選択された音声素片を評価した結果、前記基準値に満たなかった音声素片或いは音声素片の一部分の少なくとも何れか一方に対して、韻律変形の方法を変更するステップを含む
    ことを特徴とする請求項13に記載の音声合成コンピュータプログラム。
  15. 前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、音声素片を選択するためのルールを変更して、前記データベースから再度音声素片の選択を行うステップを含む
    ことを特徴とする請求項13又は請求項14に記載の音声合成コンピュータプログラム。
  16. 前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、候補となる音声素片を検索するデータベースを変更して再度音声素片の選択を行うステップを含む
    ことを特徴とする請求項13乃至請求項15のうちの何れかに記載の音声合成コンピュータプログラム。
  17. 前記請求項13乃至請求項16のうちの何れかに記載の音声合成コンピュータプログラムが記憶されていることを特徴とするコンピュータ読み取り可能な情報記憶媒体。
JP2003151442A 2003-05-28 2003-05-28 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体 Expired - Lifetime JP4170819B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003151442A JP4170819B2 (ja) 2003-05-28 2003-05-28 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003151442A JP4170819B2 (ja) 2003-05-28 2003-05-28 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体

Publications (2)

Publication Number Publication Date
JP2004354644A JP2004354644A (ja) 2004-12-16
JP4170819B2 true JP4170819B2 (ja) 2008-10-22

Family

ID=34046963

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003151442A Expired - Lifetime JP4170819B2 (ja) 2003-05-28 2003-05-28 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体

Country Status (1)

Country Link
JP (1) JP4170819B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006337476A (ja) * 2005-05-31 2006-12-14 Canon Inc 音声合成方法および装置
JP2007212682A (ja) * 2006-02-08 2007-08-23 Oki Electric Ind Co Ltd 音声合成装置及び方法
JP5062178B2 (ja) * 2006-11-06 2012-10-31 日本電気株式会社 音声収録システム、音声収録方法、および収録処理プログラム
JP2008139631A (ja) * 2006-12-04 2008-06-19 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法、装置、プログラム
US8630857B2 (en) 2007-02-20 2014-01-14 Nec Corporation Speech synthesizing apparatus, method, and program
CN111768772A (zh) * 2019-09-17 2020-10-13 北京京东尚科信息技术有限公司 虚拟物品转移方法、装置、设备和可读存储介质

Also Published As

Publication number Publication date
JP2004354644A (ja) 2004-12-16

Similar Documents

Publication Publication Date Title
EP0833304B1 (en) Prosodic databases holding fundamental frequency templates for use in speech synthesis
JP4130190B2 (ja) 音声合成システム
US7454343B2 (en) Speech synthesizer, speech synthesizing method, and program
US7603278B2 (en) Segment set creating method and apparatus
CN101131818A (zh) 语音合成装置与方法
US20080243511A1 (en) Speech synthesizer
MXPA01006594A (es) Metodo y sistema para la preseleccion de unidades adecuadas para habla por concatenacion.
US7069216B2 (en) Corpus-based prosody translation system
CN101685633A (zh) 基于韵律参照的语音合成装置和方法
JP2006276528A (ja) 音声合成装置及びその方法
US20090157408A1 (en) Speech synthesizing method and apparatus
JP5434587B2 (ja) 音声合成装置及び方法とプログラム
JP4170819B2 (ja) 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP5177135B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
EP0982684A1 (en) Moving picture generating device and image control network learning device
JP4034751B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
EP1589524B1 (en) Method and device for speech synthesis
JP4173404B2 (ja) 文セット自動生成装置、文セット自動生成プログラム、記憶媒体
JP3423276B2 (ja) 音声合成方法
JPH1185193A (ja) 音声データベースにおける音素片情報最適化方法、及び音素片情報最適化装置
EP1640968A1 (en) Method and device for speech synthesis
Yu et al. A New Pitch Generation Model Based on Internal Dependence of Pitch Contour for Manadrin TTS System
Nagy et al. Design issues of a corpus-based speech synthesizer
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050804

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080313

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080805

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080807

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110815

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4170819

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120815

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130815

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term