JP4170819B2

JP4170819B2 - 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体

Info

Publication number: JP4170819B2
Application number: JP2003151442A
Authority: JP
Inventors: 未来長谷部; 匡伸阿部; 秀之水野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-05-28
Filing date: 2003-05-28
Publication date: 2008-10-22
Anticipated expiration: 2023-05-28
Also published as: JP2004354644A

Description

【０００１】
【発明の属する技術分野】
本発明は、高品質な音声を合成できる音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体に関するものである。
【０００２】
【従来の技術】
従来、電話による株価案内システム等、各種情報案内システムや、Ｅメール・Ｗｅｂの読み上げ等、様々な分野で合成音声が利用されている。しかし、現状の合成音声は人間の発声に比べてまだ十分な品質を達成できておらず、合成音声の品質向上への要望は強い。
【０００３】
従来のテキスト音声合成システムとして、大量の音声コーパスから合成に使用可能な音声素片を検索し、検索された音声素片の中から最適なものを選択し、選択された音声素片に対して韻律の変形を行わずに出力することで肉声らしい音声を合成する方法（第１従来例）がある。
[参考文献:特許2761552、「音声合成装置」]
また、他の音声合成システムとして、合成に使用する音声索片に対して、合成の目標となる韻律にあわせるために信号処理を施してから出力する方法（第２従来例）がある。[参考文献:"A NEW FO MODIFICATION ALGORITHM BY MANIPULATING HARMONICS OF MAGNITUDE SPECTRUM", Satoshi TAKANO, Masanobu ABE, Eurospeech'99]
【０００４】
【特許文献１】
特許２７６１５５２号公報
【非特許文献１】
"A NEW FO MODIFICATION ALGORITHM BY MANIPULATING HARMONICS OF MAGNITUDE SPECTRUM", Satoshi TAKANO, Masanobu ABE, Eurospeech'99
【０００５】
【発明が解決しようとする課題】
しかしながら、従来のテキスト音声合成システムにおいて、前述した第１従来例を用いた方法では、最適な音声素片を選択するための規則をあらかじめ設計しておき、その規則に基づいて音声素片を選択している。そのため従来のシステムにおいては、あらゆる入力に対して同じ規則で選択を行うことになる。しかし、入力テキストは音声合成のタスクに応じてその時々で異なり、入力に対して選択の候補となる音声素片の特長も、入力やデータベースといった各種条件によって異なるため、あらゆる入力に対して常に最適な音声素片の組合わせが得られる規則を作成することは難しいという問題がある。
【０００６】
例えば、入力した文章「今日は蒸し暑いでしょう」に対して、システムが生成する合成の目標となる韻律と、「今日は蒸し暑いでしょう」と実際に発声した時の韻律は必ずしも一致しない。これは、図５に示す実験結果からも明らかである。図５において、縦軸は周波数を表し、横軸は時間を表す。また、×印は入力された合成目標の音声の基本周波数（Ｆ₀）値であり、○印は実際に発生された音声の基本周波数（Ｆ₀）である。
【０００７】
もしデータベースに「今日は蒸し暑いでしょう。」という入力と全く同じ音韻系列の音声素片が存在した場合、生成された韻律とデータベースの韻律の違いをある程度許容するように規則を作成することで肉声そのままの音声を得ることができる。
【０００８】
しかし、データベースに「き」「ょ」「う」「わ」・・・・のように、全てバラバラの音声素片しか見つからなかった場合においては、韻律の違いを許容する規則では合成音声の品質が劣化してしまう可能性がある。
【０００９】
また、合成音声に対して感情を付与する揚合等の韻律が重要な場合においては、上述のように韻律の違いを許容してしまうと感情を再現できない可能性が高い。一方、データベースに入力した文章と全く同じ音韻系列の文章があった場合においても、データベースを作成する際に感情音声を収集していなかった場合は、特に感情音声が再現できない可能性が高い。このように合成音声の韻律が重要な場合においては、第２従来例の方法で目標の韻律にあわせて韻律を変形して合成する方法が有効だが、韻律を変形してしまうと、韻律は目標とするものが得られる代わりに音声の持つ肉声らしさが失われてしまうという問題がある。
【００１０】
音声素片に対して韻律の変形量が大きくなるほど音質の劣化も大きくなるため、目標の韻律にあわせて変形を行う場合は、できるかぎり目標の韻律に近い音声素片を選択し使用することが望ましい。
【００１１】
このように、合成のタスクや検索対象となるデータベース等に応じて、選択の候補となる音声素片の特徴や、最適な音声素片を選択する基準が異なり、様々な場面で常に高品質な音声を合成するということは難しい。
【００１２】
本発明の目的は上記の問題点に鑑み、状況に応じて最適な音声を合成すると共に高品質な音声を合成できる音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体を提供することである。
【００１３】
【課題を解決するための手段】
本発明は上記の目的を達成するために、音声素片が蓄積されている複数種のデータベースを備え、入力された文字データを音声に変換するコンピュータ装置からなる音声合成装置を用いて、前記入力された文字データに対応する音声素片を前記データベースから選択し、該選択された音声素片により前記入力された文字データに対応する音声を合成する音声合成方法において、前記音声合成装置は、音声合成の目標となる入力文字列や基本周波数、継続時間長等、通常の音声合成のための入力の他に、使用するデータベース、音声素片を選択するためのルール、信号処理方法、をそれぞれ指定するための情報のうち、少なくとも何れか１つを含む音声合成のための制御情報を含む入力情報を取得し、前記入力情報に基づいて、前記データベースから合成に使用する音声素片を選択し、前記選択した音声素片を用いて音声を合成した場合の品質を評価して、該評価結果が基準値に満たなかったとき、前記入力情報に含まれる前記制御情報に基づいて音声素片に対して処理を行い、その処理の結果を再び評価する、という一連の流れを、基準値を満たすまで複数回行うことで合成音声を生成する音声合成方法を提案する。
【００１４】
本発明の音声合成方法によれば、入力情報に基づいて、データベースから音声合成に使用する音声素片を選択し、該選択した音声素片の品質を評価する。さらに、この評価結果が基準値に満たなかったときには、前記入力情報に含まれる制御情報に基づいた処理を複数回行うことにより合成音声を作成する。また、前記制御情報としては、使用するデータベース、音声素片を選択するためのルール、信号処理方法、をそれぞれ指定するための情報のうち、少なくとも何れか１つの制御情報が用いられる。
【００１５】
また、本発明は上記の音声合成方法において、前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、韻律変形の方法を変更する処理を行なった後に合成音声を生成する音声合成方法を提案する。
【００１６】
本発明の音声合成方法によれば、評価結果が前記基準値に満たなかったとき、音声素片或いは音声素片の一部分の少なくとも何れか一方に対して、韻律変形の方法が変更されて合成音声が生成される。
【００１７】
また、本発明は上記の音声合成方法において、前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、音声素片を選択するためのルールを変更して、前記データベースから再度音声素片の選択を行って合成音声を生成する音声合成方法を提案する。
【００１８】
本発明の音声合成方法によれば、評価結果が前記基準値に満たなかった音声素片に対して、音声素片を選択するためのルールを変更して前記データベースから再度音声素片の選択が行われて合成音声が生成される。
【００１９】
また、本発明は上記の音声合成方法において、前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、候補となる音声素片を検索するデータベースを変更して再度音声素片の選択を行って合成音声を生成する音声合成方法を提案する。
【００２０】
本発明の音声合成方法によれば、評価結果が前記基準値に満たなかった音声素片に対して、候補となる音声素片を検索するデータベースが変更されて再度音声素片の選択が行われて合成音声が生成される。
【００２１】
また、本発明は上記の音声合成方法において、前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、音声素片を選択するためのルールを変更して、前記データベースから再度音声素片の選択を行うと共に、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、韻律変形の方法を変更する処理を行って合成音声を生成する音声合成方法を提案する。
【００２２】
本発明の音声合成方法によれば、評価結果が前記基準値に満たなかった音声素片に対して、音声素片を選択するためのルールを変更して前記データベースから再度音声素片の選択が行われると共に、音声素片或いは音声素片の一部分の少なくとも何れか一方に対して、韻律変形の方法が変更されて合成音声が生成される。
【００２３】
また、本発明は上記の音声合成方法において、前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、候補となる音声素片を検索するデータベースを変更して再度音声素片の選択を行うと共に、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、韻律変形の方法を変更する処理を行って合成音声を生成する音声合成方法を提案する。
【００２４】
本発明の音声合成方法によれば、評価結果が前記基準値に満たなかった音声素片に対して、候補となる音声素片を検索するデータベースが変更されて再度音声素片の選択が行われると共に、音声素片或いは音声素片の一部分の少なくとも何れか一方に対して、韻律変形の方法が変更されて合成音声が生成される。
【００２５】
また、本発明は上記の音声合成方法において、前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、音声素片を選択するためのルールを変更して、前記データベースから再度音声素片の選択を行うと共に、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、候補となる音声素片を検索するデータベースを変更して再度音声素片の選択を行って合成音声を生成する音声合成方法を提案する。
【００２６】
本発明の音声合成方法によれば、評価結果が前記基準値に満たなかった音声素片に対して、音声素片を選択するためのルールが変更されて、前記データベースから再度音声素片の選択が行われると共に、前記基準値に満たなかった音声素片に対して、候補となる音声素片を検索するデータベースが変更されて再度音声素片の選択が行われて合成音声が生成される。
【００２７】
また、本発明は上記の音声合成方法において、前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、音声素片を選択するためのルールを変更して、前記データベースから再度音声素片の選択を行うと共に、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、候補となる音声素片を検索するデータベースを変更して再度音声素片の選択を行い、さらに、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、韻律変形の方法を変更する処理を行って合成音声を生成する音声合成方法を提案する。
【００２８】
本発明の音声合成方法によれば、評価結果が前記基準値に満たなかった音声素片に対して、音声素片を選択するためのルールを変更して、前記データベースから再度音声素片の選択が行われると共に、前記基準値に満たなかった音声素片に対して、候補となる音声素片を検索するデータベースが変更されて再度音声素片の選択が行われ、さらに、前記基準値に満たなかった音声素片或いは音声素片の一部分の少なくとも何れか一方に対して、韻律変形の方法が変更されて合成音声が生成される。
【００２９】
さらに、本発明は上記の音声合成方法を実施するための音声合成装置として、入力された文字データに対応する音声素片をデータベースから選択し、該選択された音声素片により前記入力された文字データに対応する音声を合成する音声合成装置において、音声素片が蓄積されている複数種のデータベースと、音声合成の目標となる入力文字列や基本周波数、継続時間長等、通常の音声合成のための入力の他に、使用するデータベース、音声素片を選択するためのルール、信号処理方法、をそれぞれ指定するための情報のうち、少なくとも何れか１つを含む音声合成のための制御情報を含む入力情報を取得する手段と、前記入力情報に基づいて、前記データベースから合成に使用する音声素片を選択する手段と、前記選択した音声素片を用いて音声を合成した場合の品質を評価して、該評価結果が基準値に満たなかったとき、前記入力情報に含まれる前記制御情報に基づいて音声素片に対して処理を行い、その処理の結果を再び評価する、という一連の流れを、基準値を満たすまで複数回行うことで合成音声を生成する手段とを備えている音声合成装置を提案する。
【００３０】
また、本発明は上記の音声合成装置において、前記選択された音声素片を評価した結果、前記基準値に満たなかった音声素片が存在するとき、該音声素片或いは該音声素片の一部分の少なくとも何れか一方に対して、韻律変形の方法を変更する処理を行う手段を有する音声合成装置を提案する。
【００３１】
また、本発明は上記の音声合成装置において、前記選択された音声素片を評価した結果、前記基準値に満たなかった音声素片が存在するとき、該音声素片に対して、音声素片を選択するためのルールを変更して、前記データベースから再度音声素片の選択を行う手段を有する音声合成装置を提案する。
【００３２】
また、本発明は上記の音声合成装置において、前記選択された音声素片を評価した結果、前記基準値に満たなかった音声素片が存在するとき、該音声素片に対して、候補となる音声素片を検索するデータベースを変更して再度音声素片の選択を行う手段を有する音声合成装置を提案する。
【００３３】
また、本発明は上記の音声合成方法を実施するための音声合成装置を周知のコンピュータ装置によって容易に構成するためのコンピュータプログラムとして、音声素片が蓄積されている複数種のデータベースを備え、入力された文字データを音声に変換するコンピュータ装置を用いて、前記入力された文字データに対応する音声素片を前記データベースから選択し、該選択された音声素片により前記入力された文字データに対応する音声を合成する音声合成コンピュータプログラムにおいて、音声合成の目標となる入力文字列や基本周波数、継続時間長等、通常の音声合成のための入力の他に、使用するデータベース、音声素片を選択するためのルール、信号処理方法、をそれぞれ指定するための情報のうち、少なくとも何れか１つを含む音声合成のための制御情報を含む入力情報を取得するステップと、前記入力情報に基づいて、前記データベースから合成に使用する音声素片を選択するステップと、前記選択した音声素片を用いて音声を合成した場合の品質を評価して、該評価結果が基準値に満たなかったとき、前記入力情報に含まれる前記制御情報に基づいて音声素片に対して処理を行い、その処理の結果を再び評価する、という一連の流れを、基準値を満たすまで複数回行うことで合成音声を生成するステップとを含む音声合成コンピュータプログラムを提案する。
【００３４】
また、本発明は上記の音声合成コンピュータプログラムにおいて、前記選択された音声素片を評価した結果、前記基準値に満たなかった音声素片或いは音声素片の一部分の少なくとも何れか一方に対して、韻律変形の方法を変更するステップを含む音声合成コンピュータプログラムを提案する。
【００３５】
また、本発明は上記の音声合成コンピュータプログラムにおいて、前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、音声素片を選択するためのルールを変更して、前記データベースから再度音声素片の選択を行うステップを含む音声合成コンピュータプログラムを提案する。
【００３６】
また、本発明は上記の音声合成コンピュータプログラムにおいて、前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、候補となる音声素片を検索するデータベースを変更して再度音声素片の選択を行うステップを含む音声合成コンピュータプログラムを提案する。
【００３７】
また、本発明は、上記音声合成コンピュータプログラムを容易に配布可能にするために、上記音声合成コンピュータプログラムが記憶されているコンピュータ読み取り可能な情報記憶媒体を提案する。
【００３８】
上述のように、音声合成のタスクに応じて入力テキストは変化し、入力に対してデータベース中にどのような音声素片があるのかといった各種条件に応じて最適な音声素片を選択するのは難しいという問題があったが、本発明では、選択された音声素片を評価した結果に応じて、音声素片を選択するデータベースを変更して音声素片を再度選択する処理、データベースから音声素片を選択するルールを変更して再度選択する処理、選択された音声素片の合成方法を変更する処理、もしくはそれら３つの組合わせによる処理を複数回行うことで、使用するデータベースや入力情報に応じた適切な処理を行うという問題を解決することができる。
【００３９】
【発明の実施の形態】
以下、図面に基づいて本発明の一実施形態を説明する。
【００４０】
図１は本発明の一実施形態における音声合成装置を示す機能構成図である。図において、100は入力情報で、音声合成のための入力であり、音声合成の対象となる文字情報（以下、テキストと称する）と、その音素系列や、合成の目標となる基本周波数（以下、Ｆ₀と称する）値や継続時間長等のパラメータ類、使用するデータベースや信号処理方法を指定する情報等の音声合成のための制御情報を含んでいる。
【００４１】
200は音声合成処理装置で、周知のコンピュータ装置からなり、入力部201と、複数種のデータベース202aからなるデータベース部202、データベース選択部203、処理方法設定部204、データベース検索部（以下、ＤＢ検索部と称する）205、検索結果記憶部206、選択ルール設定部207、音声素片選択部208、選択結果記憶部209、韻律変形方法設定部210、選択結果評価部211、評価結果判定部212、合成部213、合成音声記憶部214、合成音声出力部215とから構成されている。尚、これらの構成部分は、コンピュータ装置のハードウェア及びソフトウェアの双方によって構成されている。
【００４２】
入力部201は、入力情報100を取得して、これをデータベース選択部203に送出する。
【００４３】
データベース部202は、複数種のデータベース202-1〜202-n（ｎは自然数）から構成され、音声波形、音声のＦ₀パタン、発声内容に対応する音素ラベル列、音素の境界を示すラベルデータ等、合成のための情報が格納されているデータベースであり、前後の環境つき音素(Tri-phone)を集めた汎用のデータベース、ニュースや天気予報を読み上げた特定のタスクに使用するデータベース、地名を含んだデータベース、基本的な音素セットを含んだデータベース等を複数種備えている。また、音声合成のタスクに依存したデータベースの例を挙げると、天気予報を合成するシステムの場合はデータベースとして、天候の名称や天気予報に使用される定型的な文章等を含んだ天気予報用のデータベース、地名を含んだデータベース等が必要となるので、それらを任意の文字データや文章を合成するための基本的な音素セットを含んだデータベース等と組合わせて使用することができるようになっている。
【００４４】
データベース選択部203は、処理方法設定部204からの指示に基づいて、入力情報100からデータベース部202の中のどのデータベース202-1〜202-nを使用するかを決定する。また、後述する選択結果判定部212において評価結果が基準値に満たなかった場合の処理をループして繰り返す場合、どのデータベース202-1〜202-nを使用するかの情報は、処理方法設定部204の処理によってフィードバックされる制御情報として与えられる。
【００４５】
処理方法設定部204は、評価結果判定部212において、評価結果が基準値に満たなかったときに、データベース選択部203、選択ルール設定部207、韻律変形方法設定部210のいずれか、もしくは複数の処理に対して設定条件を変更する制御情報を付加し、検索するデータベースを変更する場合は203へ、データベースを変更せず選択ルールを変更する場合は207へ、データベース、選択ルールを共に変更せず、韻律変形方法のみ変更する場合は210へと処理を進める。
【００４６】
ＤＢ検索部205は、データベース選択部203によって決定されたデータベース202-1〜202-nの中から合成に使用可能な音声素片を検索して、その音素片を抽出し検索結果記憶部206へ送出する。
【００４７】
検索結果記憶部206は、ＤＢ検索部205によって検索抽出された音声素片を一時的に記憶する。
【００４８】
選択ルール設定部207は、制御情報に基づいて、音声素片選択部208による音素片の選択ルールを設定する。
【００４９】
音声素片選択部208は、選択ルール設定部207による設定に基づいて、ＤＢ検索部205の検索の結果、候補として挙がってきた音声素片の中からを選択する部分であり、データベース部202から検索されて検索結果記憶部206に記憶されている音声素片に対してＦ₀や、継続時間長、音韻環境等、合成音声の品質に関わる要素をコストとして計算することによって、最適な音声索片の組合わせを選択し、これを選択結果記憶部209に送出する。
【００５０】
選択結果記憶部209は、音声素片選択部208から取得した最適な音声索片の組合わせを一時的に記憶する。
【００５１】
韻律変形方法設定部210は、制御情報に基づいて、韻律変形方法を指定する。
【００５２】
選択結果評価部211は、音声素片選択部208によって選択され選択結果記憶部209に記憶されている音声素片を用いて音声を合成した場合の品質を評価する。
【００５３】
評価結果判定部212は、選択結果評価部211の処理による評価結果と入力情報に含まれる制御情報を基に、選択結果に対して再処理を行なうべきか否かを判断する。即ち、評価結果判定部212において、入力制御情報と、評価結果を基準値と照らし合わせた結果に基づき、再処理が必要な場合には、処理方法設定部へと処理を進める。
【００５４】
合成部213は、評価結果判定部212で再処理の必要がないと判断された場合、選択された音声素片に対して、制御情報の韻律変形方法の指定に基づいた処理を行ない、各音声素片を接続して、合成音声として合成音声記憶部214に送出する。
【００５５】
合成音声記憶部214は、合成部213から入力した合成音声を一時的に記憶する。
【００５６】
合成音声出力部215は、合成音声記憶部214に記憶されている合成音声を出力する。
【００５７】
次に、選択結果評価部211における選択結果の品質評価処理に関する一実施例を図２のフローチャートを参照して詳細に説明する。
【００５８】
選択結果評価部211は、まず、入力に対して音声素片が選択できたかどうか、すなわち選択結果記憶部209に音声素片が記憶されているが否かを判定する（301）。この判定では、例えば、前述の天気予報のタスクを合成するシステムの場合について述べると、まず最初に天気予報用のデータベースと地名のデータベースのみを用いて音声素片を選択する場合においては、「今日の天気は晴れです」のような典型的な文章は天気予報用のデータベースの中に存在するため、高速に高品質な結果を得ることが出来る。しかし、探索の範囲を狭めて高速化を行なった場合には、例えば「沖縄県で雪が降りました」のような特殊な場合にデータベース中に必要な音声素片が存在しない可能性が高くなる。
そこで401の処理において、音声素片が存在しなかった部分のみを判断することで、天気予報用のタスク依存の小さいデータベースを用いた場合に、大きいサイズの基本的な音素セットを全て含んだデータベースを用いて選択できなかった部分のみ音声素片を選択しなおすことが可能となる。
【００５９】
前記301の判定の結果、選択結果記憶部209に音声素片が存在しなかった場合は、選択結果評価部211は、音声合成した場合の評価を行うことができないため、302、303の処理を行わず、そのまま評価結果を評価結果判定部212に出力する。
【００６０】
一方、選択結果記憶部209に音声素片が存在した場合は、選択結果評価部211は、302、303の処理を行い、選択された音声素片の品質を評価する。
【００６１】
302の処理では、選択結果評価部211は、選択された個々の音声素片の音韻環境について判定する。例えば、データベース中から「ASITA」という音韻系列を持った音声の「S」の部分を使用する場合は、「A」がSの前環境、「I」がSの後環境となる。このSを「KESU」の「S」として使用する場合には、Sの環境はそれぞれ「E」と「U」となり、データベースの音韻環境とは全く異なっている。音韻環境がどの程度異なっているかを表すために、事前に各音韻環境のスペクトルパターンを分析したデータを使用し、比較することで音韻環境がどの程度異なっているかを評価する。
【００６２】
使用する音声素片がN個存在し、n番目の音声素片の環境についてTri-Phone[n](以下、TP[n]と称する)と表し、それぞれのスペクトルパターンをTargetEnviorment[TP[n]](以下、TE[TP[n]]と称する)、OriginalEnviorment[TP[n]](以下、OE[TP[n]]と称する)とすると、各音声素片の音韻環境の異なり具合を評価する式は次の式(1)のように求めることができ、これをN個の音声素片全てについて評価する。
【００６３】
【数１】

【００６４】
次に303の処理では、選択結果評価部211は、選択された音声素片について、各アクセント句のアクセント型が正しく再現されているかどうかを判定する。これは、合成音声の肉声らしさを保持するために韻律変形を行なわずに出力する場合に、最適な音声素片の組合わせが必ずしも正しいアクセントを再現しているとは限らないため、音声素片のアクセント型がどの程度目標と合致しているのかを評価する必要がある。
【００６５】
アクセント型の評価方法としては、合成する音韻系列について、Ｆ₀値が安定して得られる母音部分について、合成目標と音声素片のＦ₀値を比較することによってアクセント型がどの程度再現できているか評価できる。例えば、合成する音韻系列に母音がN個あった場合、合成目標のn番目の母音の中心部分のＦ₀値をTargetVoiceF0[n](以下、TF0[n]と称する)、選択された音声素片のn番目の母音の中心部分のＦ₀値をOriginalVoiceF0[n](以下、OF0[n]と称する)とすると、Ｆ₀値の推移の違いを次の式(2)のように求めることができる。
【００６６】
【数２】

【００６７】
以上の処理によって、選択された音声素片の組合わせに対して評価結果のデータを付加し、その結果を評価結果判定部212の処理によって判断する。
【００６８】
次に、評価結果判定部212の処理に関して図３のフローチャートを参照して詳細に説明する。
【００６９】
評価結果判定部212は、選択された各音声素片の評価結果に基づき、その後の処理が必要か否かを判定する（401）。この判定の結果、処理が不要の場合は、合成部213の処理へと進む。
【００７０】
前記401の判定の結果、処理が必要と判断された場合は、評価結果判定部212は、その後に実行する処理として検索するデータベースを変更するか否かの判断を行なう（402）。この判定の結果、データベースを変更しない場合は、続く403及び404の処理において、それぞれ選択ルール、韻律変形方法を変更するか否かを判断し、全て行なわない場合のみ、合成部213の処理へと進む。また、どれか１つでも処理を行なう場合は、処理方法設定部204の処理へと進む。
【００７１】
一方、処理方法設定部204では、評価結果判定部212において音声素片の選択などの処理において再処理の必要があると判断された場合に、データベース、選択ルール、韻律変形方法のうちのどの変更を行なうのかについて制御情報を付加した後、検索するデータベースを変更する場合はデータベース選択部203に、データベースを変更せず選択ルールを変更する場合は選択ルール設定部207に、データベース及び選択ルールを共に変更せずに韻律変形方法のみを変更する場合は韻律変形方法設定部210へと処理を進める。
【００７２】
データベース選択部204の処理を経由してデータベース選択部203の処理に戻った場合は、データベース選択部204において付加された制御情報に基づき検索対象となるデータベースを変更して候補となる音声素片を再検索する。
【００７３】
以下、最初の場合と同じように処理を進め、選択ルール設定部207の処理まで処理を進めた際に、データベース選択部204の処理において選択ルールを変更するように制御情報が付加されていた場合は、選択ルール設定部207は、その制御情報に従って選択ルールを変更して再度選択を行なう。
【００７４】
処理方法設定部204の処理を経由して直接選択ルール設定部207の処理に戻った場合は、検索候補となる音声素片はデータベースから再検索を行なっていないため最初に検索した候補と同じだが、それ以降の処理の流れはデータベース選択部203の場合と同じである。
【００７５】
同じように、データベース選択部203の処理から韻律変形方法設定部210の処理まで進んだ場合も、付加された制御情報に従い韻律変形の方法を変更する処理を行なう。
【００７６】
処理方法設定部204の処理から韻律変形方法設定部210の処理に直接戻った場合も、既に選択された音声素片に対して処理を行なうということ以外は同様である。
【００７７】
処理方法設定部204からの処理を行なった結果、最初と同様に再び選択結果評価部211において評価を行い、再び処理を繰り返すかどうかを評価結果判定部212において判断し、最終的に処理が不要になるまで同じプロセスを繰り返す。
【００７８】
以下、天気予報の音声合成を行なう場合を一例にしてシステムの流れを説明する。この場合、図４に示すようにデータベース部202には、天気予報ＤＢ202aと、Tri-phoneＤＢ202b、形態素ＤＢ202cが備えられている。ここで、「ＤＢ」はデータベースを表す。
【００７９】
まず、入力情報100として「今日は蒸し暑いでしょう」というテキストが入力されたとする。また、ここでは、このテキストに付随する制御情報として、アクセント句や品詞等の言語情報や、Ｆ₀パタン、継続時間等の韻律情報の他に、以下のような制御情報が入力された場合を例に挙げる。
・使用するデータベース(DB)の指定
初期値:天気予報DB
１回目のループ:形態素DB
２回目のループ:Tri-PhoneDB
・韻律変形の指定
初期値:韻律変形無し
１回目のループ:韻律変形無し
２回目のループ:韻律変形有り
・選択ルールの指定(重視するパラメータは何か)
初期値:アクセント型、音韻系列の一致性
１回目のループ:形態素境界の一致性、音声素片の音韻環境の一致性
２回目のループ:Ｆ₀値が近いかどうか、音韻環境の一致性
ＤＢ検索部205は、これらの制御情報に基づき、データベース部202の中から天気予報DBを使用して入力テキストを合成可能な音声素片を候補として検索し、この検索結果を検索結果記憶部206に出力する。
【００８０】
音声素片選択部208は、選択のルールとしてはアクセント型があっているかどうか、入力テキストに対して音声素片の音韻系列が―致している部分が長いかどうか、という要素に重みを置いて各種のコストを計算し、最適な音声素片の組合わせを求めて選択結果記憶部209に出力する。
【００８１】
音声素片選択部208の処理結果として「今日は」「暑いでしょう」という音声素片が選択され、「蒸し」という音声素片が存在しなかったとする。その場合、選択結果評価部211の中の処理301において音声素片が存在しない場合に相当するので、評価結果判定部212の中の処理401において、音声素片の評価結果を判定する処理で基準を満たしていないと判断され、続く402の処理で、入力の制御情報にデータベースの変更に関する指定があるため、再処理の必要有りと判定され処理方法設定部204の処理へと進む。
【００８２】
処理方法設定部204では、入力情報100における制御情報を基に、データベースは形態素を使用するように指定し、韻律変形は無し、選択のルールは、形態素境界が一致しているかどうか、選択された音声素片の音韻環境が入力の音韻環境と比較して近いかどうか、というコストを重視するように変更され、データベース選択部203の処理へと進む。
【００８３】
データベース選択部203では処理方法設定部204によって設定された制御情報を基に、データベースとして形態素単位で構成された形態素ＤＢ202cを使用するように設定し、ＤＢ検索部205で形態素ＤＢ202cから「蒸し」を合成できる音声素片を検索し、検索結果の候補を検索結果記憶部206に記憶する。
【００８４】
選択ルール設定部207では、検索結果記憶部206から最適な音声素片の組合わせを選択するためのルールを、音声素片の形態素境界と入力テキストの形態素境界が一致しているかどうか、音声素片の前後の音韻環境が合成したい音韻環境と近いかどうか、という要素に重みを置くように変更する。
【００８５】
音声素片選択部208では選択ルール設定部207によって変更されたルールに基づいて各種のコストを計算し、最適な音声素片の組合わせを求めて選択結果記憶部209に記憶する。
【００８６】
韻律変形方法設定部210は韻律変形方法を指定する部分であるが、ここでは韻律変形は行なわないという指定なので最初の場合と変更はない。
【００８７】
選択結果評価部211で、処理方法設定部204からの処理の結果を含め再び評価を行なう。評価の結果、新しく選んだ「蒸し」という音声素片が、「蒸し暑い」のアクセントとは異なる「蒸し」しか存在せず、「蒸し暑いでしょう」のアクセント型の評価結果が異常値をとっていた場合、評価結果判定部212の処理401において、音声素片の評価結果を判定する処理で基準を満たしていないと判断され、「蒸し暑いでしょう」というアクセント句を修正する必要有りと判断され、再び処理方法設定部204以降の処理ループへと進む。
【００８８】
処理方法設定部204では、最初の入力情報における制御情報に従い、今度は使用DBはTri-PhoneDB202bを用いて検索し、音韻環境とＦ₀値の―致具合を重視しながら選択し、合成時には韻律変形を施す、という指定を行い、データベース選択部203の処理へと進む。その後、「蒸し暑いでしょう」というアクセント句を合成するために、先ほどと同様にDBから候補を検索し、最適な音声素片の組合わせを選択し、その評価を行う。
【００８９】
次いで、評価結果判定部212では、選択された音声素片の評価がよければそのまま合成部213の処理へ進むが、もしまだ評価が悪かった場合においても、入力制御情報として既にデータベースと、選択ルール、韻律変形方法の全てについて変更は無いので、ここで処理方法設定部204の処理以降のループは終了し、合成部213の処理へと進む。
【００９０】
合成部213では、最終的な結果に従い、「今日は蒸し暑いでしょう」という音声を合成する。「今日は」の部分は最初に選択された音声素片であり、韻律変形は無しの指定になっているため、選択された音声素片をそのままの形で出力し、次の「蒸し暑いでしょう」の部分は最後に選択された結果であり、韻律変形を行なう指定になっているため、韻律変形を行なった後に、「今日は」の音声素片と接続し、最終的な結果として合成音声を出力する。
【００９１】
従来の音声合成技術の場合、必ずしも理想的な音声素片が存在するとは限らず、どうしてもアクセント型が合う音声素片を選択出来ない場合などは、アクセントの異なりを許容するか、もしくは音韻環境が異なるがＦ₀値が近いものを選択することで明瞭性を犠牲にしてアクセントを揃えるということを行なうことになる。しかし、前述したように本実施形態では、信号処理によってＦ₀をあわせることを前提に音声素片の音韻環境だけは一致するように再度選択を行なった後に合成するというような、場合に応じた処理が可能になるため、韻律変形によって音声の肉声らしさが損なわれることを許容する代わりに、明瞭性を保ち且つアクセントの正しい合成音声を作成する、といったことが可能になる。すなわち、音声を合成する過程において、アクセント、明瞭性以外に、肉声らしさも考慮することで、選択の幅が広がり、従来の方法では良い合成音声を得られないような場合にもより良い合成音声を得られる可能性が高くなる。
【００９２】
また、天気予報の例のように、最初に天気予報専用の小規模なデータベースから選択し、選択できなかった場合のみ、より汎用的な大きいサイズのデータベースを用いるという段階的な操作を行なうことで、そのままの形で使えるような定型的な文章は素早く選択し、DBに無かった特殊な地名やカタカナ語等のみ大規模DBから最適なものを選択することで素早く品質の良い合成音声を得られるといった効果がある。
【００９３】
尚、上記実施形態及び各実施例は、本発明の一具体例であって本発明が上記具体例の構成のみに限定されないことは言うまでもないことである。
【００９４】
また、上記の音声合成プログラムを記録したコンピュータ読み取り可能な情報記憶媒体を作成することにより、上記音声合成コンピュータプログラムを容易に配布することが可能になる。
【００９５】
【発明の効果】
以上説明したように本発明によれば、入力情報に基づいて、データベースから音声合成に使用する音声素片を選択し、該選択した音声素片の品質が評価され、この評価結果が基準値に満たなかったときには、前記入力情報に含まれる、音素系列、音声合成の目標となる基本周波数値、継続時間長、使用するデータベース、信号処理方法を指定する情報のうちの少なくとも何れか１つの制御情報に基づいて音声素片の選択処理を複数回行うことにより、評価結果が前記基準値に達する音声素片が選択され、該音声素片を用いて合成音声が生成されるので、音声合成のタスクに応じて入力文字データは変化し、入力に対してデータベース中にどのような音声素片があるのかといった各種条件に応じて最適な音声素片を選択することができる。
【００９６】
さらに、本発明では、選択された音声素片を評価した結果に応じて、音声素片を選択するデータベースを変更して音声素片を再度選択する処理、データベースから音声素片を選択するルールを変更して再度選択する処理、選択された音声素片の合成方法を変更する処理、もしくはそれら３つの組合わせによる処理をN回行っているので、使用するデータベースや入力情報に応じた適切な音声合成処理を行うことができるという非常に優れた効果を奏する。
【図面の簡単な説明】
【図１】本発明の一実施形態における音声合成装置を示す機能構成図
【図２】本発明の一実施形態における選択結果評価部の品質評価処理を説明するフローチャート
【図３】本発明の一実施形態における評価結果判定部の処理を説明するフローチャート
【図４】本発明の一実施形態における天気予報の音声合成を行なう場合を一例としたシステムの流れを説明する図
【図５】従来例にかかる問題点を説明する周波数特性図
【符号の説明】
100…入力情報、200…音声合成装置、201…入力部、202…データベース部、202-1〜202-n…データベース、201a…天気予報ＤＢ、202b…Tri-phoneＤＢ、202c…形態素ＤＢ、203…データベース選択部、204…処理方法設定部、205…データベース検索部（ＤＢ検索部）、206…検索結果記憶部、207…選択ルール設定部、208…音声素片選択部、209…選択結果記憶部、210…韻律変形方法設定部、211…選択結果評価部、212…評価結果判定部、213…合成部、214…合成音声記憶部、215…合成音声出力部。

Claims

音声素片が蓄積されている複数種のデータベースを備え、入力された文字データを音声に変換するコンピュータ装置からなる音声合成装置を用いて、前記入力された文字データに対応する音声素片を前記データベースから選択し、該選択された音声素片により前記入力された文字データに対応する音声を合成する音声合成方法において、
前記音声合成装置は、
音声合成の目標となる入力文字列や基本周波数、継続時間長等、通常の音声合成のための入力の他に、使用するデータベース、音声素片を選択するためのルール、信号処理方法、をそれぞれ指定するための情報のうち、少なくとも何れか１つを含む音声合成のための制御情報を含む入力情報を取得し、
前記入力情報に基づいて、前記データベースから合成に使用する音声素片を選択し、
前記選択した音声素片を用いて音声を合成した場合の品質を評価して、該評価結果が基準値に満たなかったとき、前記入力情報に含まれる前記制御情報に基づいて音声素片に対して処理を行い、その処理の結果を再び評価する、という一連の流れを、基準値を満たすまで複数回行うことで合成音声を生成する
ことを特徴とする音声合成方法。
前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、韻律変形の方法を変更する処理を行なった後に合成音声を生成する
ことを特徴とする請求項１に記載の音声合成方法。
前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、音声素片を選択するためのルールを変更して、前記データベースから再度音声素片の選択を行って合成音声を生成する
ことを特徴とする請求項１に記載の音声合成方法。
前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、候補となる音声素片を検索するデータべースの種類を変更して再度音声素片の選択を行って合成音声を生成する
ことを特徴とする請求項１に記載の音声合成方法。
前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、音声素片を選択するためのルールを変更して、前記データベースから再度音声素片の選択を行うと共に、
前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、韻律変形の方法を変更する処理を行って合成音声を生成する
ことを特徴とする請求項１に記載の音声合成方法。
前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、候補となる音声素片を検索するデータベースを変更して再度音声素片の選択を行うと共に、
前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、韻律変形の方法を変更する処理を行って合成音声を生成する
ことを特徴とする請求項１に記載の音声合成方法。
前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、音声素片を選択するためのルールを変更して、前記データベースから再度音声素片の選択を行うと共に、
前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、候補となる音声素片を検索するデータベースを変更して再度音声素片の選択を行って合成音声を生成する
ことを特徴とする請求項１に記載の音声合成方法。
前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、音声素片を選択するためのルールを変更して、前記データベースから再度音声素片の選択を行うと共に、
前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、候補となる音声素片を検索するデータベースを変更して再度音声素片の選択を行い、
さらに、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、韻律変形の方法を変更する処理を行って合成音声を生成する
ことを特徴とする請求項１に記載の音声合成方法。
入力された文字データに対応する音声素片をデータベースから選択し、該選択された音声素片により前記入力された文字データに対応する音声を合成する音声合成装置において、
音声素片が蓄積されている複数種のデータベースと、
音声合成の目標となる入力文字列や基本周波数、継続時間長等、通常の音声合成のための入力の他に、使用するデータベース、音声素片を選択するためのルール、信号処理方法、をそれぞれ指定するための情報のうち、少なくとも何れか１つを含む音声合成のための制御情報を含む入力情報を取得する手段と、
前記入力情報に基づいて、前記データベースから合成に使用する音声素片を選択する手段と、
前記選択した音声素片を用いて音声を合成した場合の品質を評価して、該評価結果が基準値に満たなかったとき、前記入力情報に含まれる前記制御情報に基づいて音声素片に対して処理を行い、その処理の結果を再び評価する、という一連の流れを、基準値を満たすまで複数回行うことで合成音声を生成する手段とを備えている
ことを特徴とする音声合成装置。
前記選択された音声素片を評価した結果、前記基準値に満たなかった音声素片が存在するとき、該音声素片或いは該音声素片の一部分の少なくとも何れか一方に対して、韻律変形の方法を変更する処理を行う手段を有する
ことを特徴とする請求項９に記載の音声合成装置。
前記選択された音声素片を評価した結果、前記基準値に満たなかった音声素片が存在するとき、該音声素片に対して、音声素片を選択するためのルールを変更して、前記データベースから再度音声素片の選択を行う手段を有する
ことを特徴とする請求項９又は請求項１０に記載の音声合成装置。
前記選択された音声素片を評価した結果、前記基準値に満たなかった音声素片が存在するとき、該音声素片に対して、候補となる音声素片を検索するデータベースを変更して再度音声素片の選択を行う手段を有する
ことを特徴とする請求項９乃至請求項１１のうちの何れかに記載の音声合成装置。
音声素片が蓄積されている複数種のデータベースを備え、入力された文字データを音声に変換するコンピュータ装置を用いて、前記入力された文字データに対応する音声素片を前記データベースから選択し、該選択された音声素片により前記入力された文字データに対応する音声を合成する音声合成コンピュータプログラムにおいて、
音声合成の目標となる入力文字列や基本周波数、継続時間長等、通常の音声合成のための入力の他に、使用するデータベース、音声素片を選択するためのルール、信号処理方法、をそれぞれ指定するための情報のうち、少なくとも何れか１つを含む音声合成のための制御情報を含む入力情報を取得するステップと、
前記入力情報に基づいて、前記データベースから合成に使用する音声素片を選択するステップと、
前記選択した音声素片を用いて音声を合成した場合の品質を評価して、該評価結果が基準値に満たなかったとき、前記入力情報に含まれる前記制御情報に基づいて音声素片に対して処理を行い、その処理の結果を再び評価する、という一連の流れを、基準値を満たすまで複数回行うことで合成音声を生成するステップとを含む
ことを特徴とする音声合成コンピュータプログラム。
前記選択された音声素片を評価した結果、前記基準値に満たなかった音声素片或いは音声素片の一部分の少なくとも何れか一方に対して、韻律変形の方法を変更するステップを含む
ことを特徴とする請求項１３に記載の音声合成コンピュータプログラム。
前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、音声素片を選択するためのルールを変更して、前記データベースから再度音声素片の選択を行うステップを含む
ことを特徴とする請求項１３又は請求項１４に記載の音声合成コンピュータプログラム。
前記選択された音声素片を評価した結果、前記基準値に満たなかった場合の処理として、音声素片或いは音声素片の一部分の少なくとも何れか一方に対する処理として、候補となる音声素片を検索するデータベースを変更して再度音声素片の選択を行うステップを含む
ことを特徴とする請求項１３乃至請求項１５のうちの何れかに記載の音声合成コンピュータプログラム。
前記請求項１３乃至請求項１６のうちの何れかに記載の音声合成コンピュータプログラムが記憶されていることを特徴とするコンピュータ読み取り可能な情報記憶媒体。