JP2005017595A

JP2005017595A - テキスト音声合成装置

Info

Publication number: JP2005017595A
Application number: JP2003180986A
Authority: JP
Inventors: Kazuhiro Miki; 一浩三木; Osamu Kimura; 治木村; Tomokazu Morio; 智一森尾
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2003-06-25
Filing date: 2003-06-25
Publication date: 2005-01-20

Abstract

【課題】利用者が望む読み上げ方法による合成音声の発話形態を設定しやすい、柔軟性の高いテキスト音声合成装置を安価に提供する。
【解決手段】信号入力部で入力された１以上のデジタル信号またはアナログ信号から、信号量を監視する信号量監視部と、初期値を有する韻律パラメータを１以上含む韻律情報と音韻情報とが付与されたデータから、前記韻律パラメータの初期値を、監視された信号量に基づき、信号量と対応付けてあらかじめ設定された実行値に変換する韻律情報変形部と、少なくとも音韻情報に基づいて、テキスト音声合成用の合成素片が格納された合成素片保存部から合成素片を選択する素片選択部とを備える音声合成装置とする。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、テキストを読み上げるテキスト音声合成装置に関する。
【０００２】
【従来の技術】
テキスト音声合成装置では、その対象となるテキストを解析して得た文節毎の音韻情報や韻律情報に基づいてピッチパターンが生成された後、このピッチパターンに従って合成音声素片が接続され、テキストの読み上げ様式（発話形態）に対応した合成音声が作成される。
【０００３】
このようにして作成された合成音声は、音質、速度、音量などの制御パラメータに基づいて、テキストの読み上げ方（発話形態）が制御される。
ここで、このような発話形態の制御方法としては、
▲１▼ 文章を聞き直すための巻き戻し、不要な部分の早送り、聞き取りづらい合成音声のスロー再生、読み上げ音量の調整などの操作に対応したスイッチ（操作キー）がそれぞれ設定された再生機器やソフトウェアなどを用いる方法や、
▲２▼ その対象となるテキストデータ中に、発話速度や音声の高さなどの発話形態を規定した、制御記号（制御タグ）などの情報を埋め込ませる方法などがある。
【０００４】
ところが、
▲１▼ 操作キーを利用した制御方法では、例えばリモコンによるテレビの音量変更操作のように、１回の速度変更スイッチの操作により、あらかじめ設定された分量の速度が段階的に変更されることが特徴である。このため、読み上げ速度を大きく変更するなど、目的とする変更量に至るまでのキー操作回数が多くなると、制御のための操作が非常に煩わしくなる。したがって、目的とする発話形態の瞬間的な制御に問題がある。
▲２▼ 制御タグを使用した制御方法では、音声合成装置がテキストデータ中に埋め込まれた制御タグの規定情報を解析するため、読み上げテキストデータの作成者が意図した発話形態が正確に得られる。この反面、制御タグに関する専門知識をもたない一般的な利用者ではその発話形態を容易に変更できない。したがって、装置の柔軟性に劣る。
【０００５】
そこで、テキストの読み上げ速度および読み上げ音量を直感的に制御し、音声合成装置の柔軟性を高めるため、テキストの表示画面上に圧力、位置などを感知するセンサを配したタッチパネル入力機を用い、その表示画面上のテキストを指でなぞる速度で読み上げ速度を、指で押す力で読み上げ音量を制御させる技術（例えば、特許文献１参照。）が提案されている。
【０００６】
【特許文献１】
特開平９−２６５２９９号公報（第２頁）
【０００７】
しかしながらこの特許文献１に記載の技術では、テキストを表示する表示機として圧力センサと接触センサを有する高価な入力機を用いなければならず、装置が高価格化してしまう。さらに、携帯電話やＰＤＡなどの表示画面が小型である装置であると、表示画面上でテキストの折り返しが頻繁に起こるため、タッチ方式による読み上げ速度および読み上げ音量の制御が煩雑となり、この方式では装置としての汎用性や操作性に劣る。また、利用者が調整できる発話形態が読み上げ速度および読み上げ音量だけしかない。したがって、発話形態の制御にかかる柔軟性も十分ではない。
【０００８】
【発明が解決しようとする課題】
本発明は上記課題を解決するものであり、利用者が望む読み上げ方法による合成音声の発話形態を設定しやすい、柔軟性の高いテキスト音声合成装置を安価に提供することを目的とする。
【０００９】
【課題を解決するための手段】
本発明の音声合成装置は、信号入力部で入力された１以上のデジタル信号またはアナログ信号の信号量を監視する信号量監視部と、初期値を有する韻律パラメータを１以上含む韻律情報と、音韻情報と、が付与されたデータから、韻律パラメータの初期値を、監視された信号量に基づき、信号量と対応付けてあらかじめ設定された実行値に変換する韻律情報変形部と、少なくとも音韻情報に基づいて、テキスト音声合成用の合成素片が格納された合成素片保存部から合成素片を選択する素片選択部とを備えることを特徴とする。
【００１０】
本発明の音声合成装置は、さらに、信号入力部に安価で汎用的な入力機器を用いた構成とすることができる。
【００１１】
上記構成であると、韻律パラメータまたは再生パラメータの初期値を、入力信号量と対応付けてあらかじめ設定された実行値に変換させるため、目的とする合成音声の発話形態を、利用者が直感的かつ簡便に選択することができる。また、この構成であると、信号入力部にタッチパネル等の入力機器を必要としないため、テキスト音声合成装置を安価に提供することができる。
【００１２】
本発明の音声合成装置は、さらに、デジタル信号量またはアナログ信号量と対応付けてあらかじめ設定された韻律パラメータの実行値の設定を変更し、かつ、第１の信号量と１つの韻律パラメータとのあらかじめ設定された対応付けを、第２の信号量とのそれに変更する、または、１つの信号量と１つの韻律パラメータとのあらかじめ設定された対応付けを、１つの信号量と２つ以上の韻律パラメータとの対応付けに変更する韻律パラメータ操作部をさらに備える構成とすることができる。
【００１３】
上記構成であると、入力信号量と対応付けてあらかじめ設定された韻律パラメータまたは再生パラメータの実行値を任意の値に再設定できるため、対応付けに関する記憶容量を増加させずに対応付けの柔軟性を高められる。したがって、利用者が望む合成音声の発話形態を一層柔軟に設定できる。また、上記構成であると、あらかじめ設定された信号入力部に入力する信号量と１つの韻律パラメータとの対応付けを、別の信号入力部に入力する信号量と前記１つの韻律パラメータとの対応付けに変更させることができる。したがって、利用者が装置を容易にカスタマイズでき、装置の柔軟性が高まる。
【００１４】
【発明の実施の形態】
以下に、本発明の実施の形態について説明する。
〔実施の形態１〕
本発明の実施の形態１にかかる音声合成装置は、図１に示すように、
Ａ）テキスト列の言語解析（読みの情報、品詞の情報、係り受け情報などの言語関連情報を抽出する）、または、テキスト列に制御タグなどを直接組み込むことによって、初期値を有する韻律パラメータを１以上含む韻律情報と音韻情報とが付与されたデータを入力するデータ入力部１０１と、
Ｂ）２段階（ＯＮ／ＯＦＦの２状態）以上の信号量を有するデジタル信号を入力する１以上のデジタル信号入力部１０６と、
Ｃ）これらのデジタル信号入力部で入力されたデジタル信号量を監視するデジタル信号量監視部１０７と、
Ｄ）上記入力されたデータが有する１以上の韻律パラメータの初期値を、デジタル信号量監視部で監視されたデジタル信号量に基づき、デジタル信号量と対応付けてあらかじめ設定された実行値に変換する韻律情報変形部１０５と、
Ｅ）テキスト音声合成用の合成素片が格納された合成素片保存部１０２と、
Ｆ）実行値に変換された１以上の韻律パラメータを有する韻律情報と音韻情報とに基づき、合成素片保存部から音声合成に適した素片を選択する素片選択部１０３と、
Ｇ）実行値に変換された韻律パラメータに基づいて、素片選択部で選択された合成素片を接続して合成音声を生成し、合成音声を再生する音声合成・再生部１０４と
を備えている。
【００１５】
ここで、少なくとも、韻律情報変形部１０５と、デジタル信号入力部１０６と、デジタル信号量監視部１０７とからなる集合部を合成操作部１０９と呼ぶ。
【００１６】
この合成操作部１０９は、図２に示すように、
Ｈ）デジタル信号量と対応付けてあらかじめ設定された韻律パラメータの実行値の設定を変更し、かつ、
▲１▼ 第１のデジタル信号入力部で入力された信号量と１つの韻律パラメータとのあらかじめ設定された対応付けを、第２のデジタル信号入力部に入力する信号量とのそれに変更する、
または、
▲２▼ １つのデジタル信号入力部で入力された信号量と１つの韻律パラメータとのあらかじめ設定された対応付けを、１つの信号入力部で入力された信号量と２つ以上の韻律パラメータとの対応付けに変更する
韻律パラメータ操作部２０１をさらに備えることができる。
【００１７】
さらに、図１または図２に示すように、この合成操作部１０９は、
Ｉ）音声合成・再生部１０４で合成された合成音声が有する１以上の再生制御パラメータの初期値を、デジタル信号量監視部で監視されたデジタル信号量に基づき、デジタル信号量と対応付けてあらかじめ設定された実行値に変換し、音声合成・再生部の駆動を制御する音声合成・再生制御部１０８を備えることができる。
【００１８】
また、図２に示すように、この合成操作部１０９は、
Ｊ）デジタル信号量と対応付けてあらかじめ設定された再生パラメータの実行値の設定を変更し、かつ、
▲１▼ 第１のデジタル信号入力部で入力された信号量と１つの再生パラメータとのあらかじめ設定された対応付けを、第２のデジタル信号入力部で入力された信号量とのそれに変更する、
または、
▲２▼ １つのデジタル信号入力部で入力された信号量と１つの再生パラメータとのあらかじめ設定された対応付けを、１つの信号入力部で入力された信号量と２つ以上の再生パラメータとの対応付けに変更する
再生パラメータ操作部２０２をさらに備えることができる。
【００１９】
ここで、以下の実施例１〜４に基づき、本実施の形態１をさらに説明する。
［実施例１］
この実施例１は、図１に示すように、
Ａ）データ入力部１０１と、
Ｂ）デジタル信号入力部１０６と、
Ｃ）デジタル信号量監視部１０７と、
Ｄ）韻律情報変形部１０５と、
Ｅ）合成素片保存部１０２と、
Ｆ）素片選択部１０３と、
Ｇ）音声合成・再生部１０４と、
Ｉ）音声合成・再生制御部１０８と
を備えた上記実施の形態にかかる音声合成装置である。
【００２０】
ところで、この実施例１にかかるデジタル信号入力部１０６としては、２段階（例えば、ＯＮ／ＯＦＦの２状態）の信号量を有するデジタル信号が入力可能であるスイッチ、レバー、ダイヤル、ボタンまたはスティックなどの比較的安価で汎用的な入力機器を用いることができる。また、韻律パラメータや再生パラメータとしては、発話速度、基本周波数（ピッチ）の平均値、ピッチパターン（アクセント成分）、文章内のポーズの挿入量、音量、発声閾値、イントネーションの強弱（抑揚）、文節の移動、句の移動または文の移動などのテキスト音声合成・再生に関わる制御パラメータを用いる。
【００２１】
＜＜発話パターンの制御＞＞
ここで例えば、デジタル信号が入力される場合（例えば、入力ボタンを押している状態：ＯＮ）を状態１、信号の入力がない場合（例えば、入力ボタンを押していない状態：ＯＦＦ）を状態２とし、以下に、状態１および状態２でのデジタル信号量と対応させた制御パラメータについて、具体例をあげて説明する。
【００２２】
＜発話速度の制御＞
いま、状態１では通常レベルの発話速度（相対速度１．０）が定義されており、状態２では通常の０．８倍の発話速度（相対速度０．８）が定義されているとする。ここで、素片選択部における合成素片の選択、音声合成・再生部における合成音声の作成には、例えば図５に示すような、構成音素、音素の継続時間長、ピッチパターンなどが用いられる。そこで以下では、これらの値を操作してこの韻律パラメータ（発話速度）を変形させる場合について説明する。
【００２３】
まず、通常レベルの発話速度が定義された状態１では、入力されたデータに含まれた構成音素、音素の継続時間長、ピッチパターンなどは韻律情報変形部により変形されないとした。すなわち状態１では、発話速度の初期値（相対速度１．０）がそのまま実行値として設定されるとした。
【００２４】
他方、通常の０．８倍の発話速度が定義された状態２では、入力されたデータに含まれた音素の継続時間長の初期値（例えば、音素ｋの継続時間長：ｄｕｒ＿ｋ、音素ｏの継続時間長：ｄｕｒ＿ｏ）が、韻律情報変形部により、状態１のそれの０．８分の１倍となるように変形されるとした。この結果、図５に示すように、音素の継続時間長の初期値が１．２５倍に引き伸ばされた実行値（例えば、音素ｋの継続時間長：ｄｕｒ＿ｋ＊１．２５、音素ｏの継続時間長：ｄｕｒ＿ｏ＊１．２５）が設定された。
【００２５】
このように、音素の継続時間長を相対的に規定することで、状態１では通常レベルの発話速度、状態２では通常の０．８倍の発話速度となる合成素片を素片選択部で選択し、音声合成・再生部においてそれぞれの状態に対応した合成音声を作成できる。そして、このようなパラメータの調整を合成処理単位ごとに行うことで、それぞれの状態に対応させた発話速度を設定することができる。
【００２６】
＜平均ピッチの制御＞
いま、状態１では通常レベルの平均ピッチ（相対平均ピッチ１．０）が定義されており、状態２では通常の１．２倍の平均ピッチ（相対平均ピッチ１．２）が定義されているとする。ここで、素片選択部における合成素片の選択、音声合成・再生部における合成音声の作成には、例えば図６に示すような、構成音素、音素の継続時間長、ピッチパターンなどが用いられる。そこで以下では、これらの値を操作してこの韻律パラメータ（平均ピッチ）を変形させる場合について説明する。
【００２７】
通常レベルの平均ピッチが定義された状態１では、入力されたデータに含まれた構成音素、音素の継続時間長、ピッチパターン（平均ピッチを含む）などは韻律情報変形部により変形されないとした。すなわち状態１では、平均ピッチの初期値（相対平均ピッチ１．０）がそのまま実行値として設定されるとした。
【００２８】
他方、通常の１．２倍の平均ピッチが定義された状態２では、韻律情報変形部により、入力されたデータに含まれたピッチパターンにおけるそれぞれのピッチの強度が１．２倍に変形され、それらの平均値である平均ピッチの初期値（Ｐｉｔ＿ａｖｅ）が、状態１のそれの１．２倍となるように変形されるとした。この結果、図５に示すように、平均ピッチの初期値が１．２倍に引き伸ばされた実行値（Ｐｉｔ＿ａｖｅ＊１．２）が設定された。
【００２９】
このように、ピッチパターンにおけるそれぞれのピッチの平均値を相対的に規定することで、状態１では通常レベルの平均ピッチ、状態２では通常の１．２倍の平均ピッチとなる合成素片を素片選択部で選択し、音声合成・再生部においてそれぞれの状態に対応した合成音声を作成できる。そして、このようなパラメータの調整を合成処理単位ごとに行うことで、それぞれの状態に対応させた平均ピッチを設定することができる。
【００３０】
＜抑揚の制御＞
いま、状態１では通常レベルのダイナミックレンジのピッチ（相対ダイナミックレンジ１．０）が定義されており、状態２では通常レベルから１．２倍のダイナミックレンジのピッチ（相対ダイナミックレンジ１．２）が定義されているとする。ここで、素片選択部における合成素片の選択、音声合成・再生部における合成音声の作成には、例えば図７に示すような、構成音素、音素の継続時間長、ピッチパターンなどが用いられる。そこで以下では、これらの値を操作してこの韻律パラメータ（抑揚）を変形させる場合について説明する。
【００３１】
通常レベルのダイナミックレンジのピッチが定義された状態１では、入力されたデータに含まれた構成音素、音素の継続時間長、ピッチパターン（ダイナミックレンジを含む）などは韻律情報変形部により変形されないとした。すなわち状態１では、ダイナミックレンジの初期値（相対ダイナミックレンジ１．０）がそのまま実行値として設定されるとした。
【００３２】
他方、通常レベルから１．２倍のダイナミックレンジのピッチが定義された状態２では、入力されたデータに含まれたピッチパターンにおけるそれぞれのピッチがとるレンジの強度差であるダイナミックレンジの初期値（ＤＬ）が、状態１のそれの１．２倍となるように変形されるとした。この結果、図５に示すように、平均ピッチの初期値が１．２倍に引き伸ばされた実行値（Ｐｉｔ＿ａｖｅ＊１．２）が設定された。この変形例では、ピッチパターンにおいて最低強度を有するピッチの強度を維持し、それ以外のピッチの強度を変形前のそれとくらべて１．２倍としたため、ピッチパターンにおけるそれぞれのピッチの相対強度は維持されている。
【００３３】
なお、図７に示す割合（７０％、７５％、４０％）は、各状態におけるピッチのダイナミックレンジに対するそれぞれのピッチの相対強度であり、状態１と状態２ではそれらの相対強度が変化していないことを示している。
【００３４】
このようにピッチのダイナミックレンジを相対的に規定することで、状態１では通常レベルのダイナミックレンジのピッチ、状態２では通常より１．２倍のダイナミックレンジのピッチとなる合成素片を素片選択部で選択し、音声合成・再生部においてそれぞれの状態に対応した合成音声を作成できる。そして、このようなパラメータの調整を合成処理単位ごとに行うことで、それぞれの状態に対応させた抑揚を設定することができる。
【００３５】
＜文章内ポーズ数の制御＞
自然性の高い合成音声の発話形態を得るためには、文、句、呼気段落、アクセント句、音節、音素などの単位毎に処理を行い、入力されたデータ中（文章内）にバランスよくポーズを挿入することが重要である。しかしながら、発話内容を理解しながら聞きたい場合などでは、音節ごと、アクセント句ごとなどの単位ごとに発声させたほうが、若干その発話形態が不自然であっても、利用者にとっては都合が良い。
【００３６】
いま、状態１では通常レベルの挿入ポーズ数が定義されており、状態２ではアクセント句に対応した数の挿入ポーズ数が定義されているとする。ここで、このように状態２を定義させるためには、公知のテキスト音声合成方法により簡単に得られるアクセント句の位置情報を用いて、アクセント句の区切り毎に、定められた時間長のポーズを挿入すればよい。
【００３７】
ところで、アクセント句ごとに定められた時間長のポーズを挿入する場合以外にも、文節や音節など、音声合成に利用される様々な単位毎にポーズを挿入して文章内ポーズ数を制御できることや、挿入するポーズの継続時間長を任意に設定してもよいことは勿論である。
【００３８】
＜発話音量の制御＞
発話音量を制御するためには、例えば、音声合成・再生部で作成された合成音声データに対して、状態１や状態２と対応付けてあらかじめ設定された倍率でその振幅を伸縮すればよい。これにより、それぞれの状態に対応させてこの再生パラメータ（発話音量）を設定することができる。
【００３９】
ここでは、デジタル入力信号量と対応させた韻律パラメータまたは再生パラメータについて例示し、具体的な制御パラメータ値の設定方法について説明したが、音声合成、再生をつかさどる上記以外の制御パラメータを用いて、その発話形態を制御できることは勿論である。また、制御パラメータ値の設定方法としても、上記方法に限定されないことは勿論である。
【００４０】
以上から、この構成であると、韻律パラメータまたは再生パラメータの初期値を、入力信号量と対応付けてあらかじめ設定されたそれぞれの実行値に変換させるため、利用者が望む読み上げ方法による合成音声の発話形態を、直感的かつ簡便に選択することができ、かつ、信号入力部に比較的安価で汎用的な入力機器を用いるため、テキスト音声合成装置が安価に提供される。
【００４１】
［実施例２］
この実施例２は、図２に示すように、上記実施例１の合成操作部１０９が、
Ｈ）韻律パラメータ操作部２０１と、
Ｊ）再生パラメータ操作部２０２と
をさらに備えた音声合成装置である。
【００４２】
この構成であると、上記実施例１の構成により得られる作用に加えて、
▲１▼ デジタル入力の信号量と対応付けてあらかじめ設定された韻律パラメータまたは再生パラメータの実行値を任意の値に再設定できるため、対応付けに関する記憶容量を増加させずに、対応付けの柔軟性を高めることや、
▲２▼ デジタル信号入力部で入力された信号量と１つの韻律パラメータまたは再生パラメータとのあらかじめ設定された対応付けを、別のデジタル信号入力部で入力された信号量と前記１つの韻律パラメータまたは再生パラメータとの対応付けに変更できるため、例えば装置上での設置箇所が異なるボタンの利用を任意に選択するなどして、利用者が自分自身で使いやすい操作装置を作り上げることや、
▲３▼ １つのデジタル信号入力部で入力された信号量と１つの韻律パラメータまたは再生パラメータとのあらかじめ設定された対応付けを、前記１つの信号入力部で入力された信号量と２つ以上の韻律パラメータまたは再生パラメータとの対応付けに変更できるため、例えば１つのボタン操作によって「状態１では音量を大きくゆっくり読み上げる」、「状態２では普通の音量で普通の速度で読み上げる」などの複数の制御パラメータ操作を並列させることができること
などの顕著な作用が得られるため、利用者がカスタマイズしやすい、柔軟性の高い音声合成装置が安価に提供される。
【００４３】
［実施例３］
この実施例３は、上記デジタル信号入力部１０６で入力されるデジタル信号量が３状態以上であること以外は上記実施例１と同様の音声合成装置である。
【００４４】
ところで、このような３状態以上のデジタル信号量を入力できる信号入力部としては、具体的に、スイッチ、ボタン、ジョグダイヤル、レバーまたはスティックなどの比較的安価で汎用的な入力機器があげられる。また、３状態以上の信号量をコードさせるために、スイッチの切り替え率、レバーまたはスティックの角度、ジョグダイヤルの回転量、ボタンの押し込み量または押し込み時間などについて、離散的な値を設定した。
【００４５】
例えば信号入力部としてボタンを用いた場合、その押し込み量によって、
▲１▼ 入力ボタンを押し切った状態（ＯＮ）
▲２▼ 入力ボタンを押していない状態（ＯＦＦ）
▲３▼ 入力ボタンを途中まで押している状態（中間）
の３状態をコードさせて、それぞれの状態に対応した制御パラメータの実行値を設定することができる。
【００４６】
また、離散値の設定をさらに増やして複数の中間段階を設けることにより、コードする状態数を４以上に増やすことができるのは勿論である。
【００４７】
したがってこのような構成であると、上記実施例１の構成により得られる作用に加え、デジタル入力の信号量と対応付けてあらかじめ設定された韻律パラメータまたは再生パラメータの実行値のコード数を増加でき、装置の柔軟性がさらに高まる。
【００４８】
［実施例４］
この実施例４は、上記デジタル信号入力部１０６で入力されるデジタル信号量が３状態以上であり、かつ、上記合成操作部１０９が、韻律パラメータ操作部２０１と再生パラメータ操作部２０２とをさらに備えたこと以外は上記実施例１と同様の音声合成装置である。
【００４９】
この構成であると、上記実施例２および上記実施例３の構成により得られる作用が同時に得られるため、利用者がカスタマイズしやすい、柔軟性のさらに高い音声合成装置が安価に提供される。
【００５０】
〔実施の形態２〕
本発明の実施の形態２にかかる音声合成装置は、図３に示すように、
Ａ）上記データ入力部１０１と、
Ｂ）連続的な信号量を有するアナログ信号が入力される１以上のアナログ信号入力部３０２と、
Ｃ）これらのアナログ信号入力部で入力されたアナログ信号量を監視するアナログ信号量監視部３０３と、
Ｄ）上記入力されたデータが有する１以上の韻律パラメータの初期値を、アナログ信号量監視部で監視されたアナログ信号量に基づき、アナログ信号量と対応付けてあらかじめ設定された実行値に変換する韻律情報変形部１０５と、
Ｅ）上記合成素片保存部１０２と、
Ｆ）上記素片選択部１０３と、
Ｇ）上記音声合成・再生部１０４と
を少なくとも備えている。
【００５１】
ここで、少なくとも、韻律情報変形部１０５と、アナログ信号入力部３０２と、アナログ信号量監視部３０３とからなる集合部を合成操作部３０１と呼ぶ。
【００５２】
この合成操作部３０１は、図４に示すように、
Ｈ）アナログ信号量と対応付けてあらかじめ設定された韻律パラメータの実行値の設定を変更し、かつ、
▲１▼ 第１のアナログ信号入力部で入力された信号量と１つの韻律パラメータとのあらかじめ設定された対応付けを、第２のアナログ信号入力部で入力された信号量とのそれに変更する、
または、
▲２▼ １つのアナログ信号入力部で入力された信号量と１つの韻律パラメータとのあらかじめ設定された対応付けを、１つの信号入力部で入力された信号量と２つ以上の韻律パラメータとの対応付けに変更する
韻律パラメータ操作部４０１をさらに備えることができる。
【００５３】
さらに、図３または図４に示すように、この合成操作部３０１は、
Ｉ）音声合成・再生部１０４で合成された合成音声が有する１以上の再生パラメータの初期値を、アナログ信号量監視部で監視されたアナログ信号量に基づき、アナログ信号量と対応付けてあらかじめ設定された実行値に変換し、音声合成・再生部の駆動を制御する音声合成・再生制御部１０８を備えることができる。
【００５４】
また、図４に示すように、この合成操作部１０９は、
Ｊ）アナログ信号量と対応付けてあらかじめ設定された再生パラメータの実行値の設定を変更し、かつ、
▲１▼ 第１のアナログ信号入力部で入力された信号量と１つの再生パラメータとのあらかじめ設定された対応付けを、第２のアナログ信号入力部で入力された信号量とのそれに変更する、
または、
▲２▼ １つのアナログ信号入力部で入力された信号量と１つの再生パラメータとのあらかじめ設定された対応付けを、前記１つの信号入力部で入力された信号量と２つ以上の再生パラメータとの対応付けに変更する
再生パラメータ操作部４０２をさらに備えることができる。
【００５５】
ところで、このような連続的なアナログ信号量を入力できる信号入力部としては、具体的に、ボタン、制御つまみ、レバーまたはスティックなどの比較的安価で汎用的な入力機器や、超音波センサ、光センサ、熱センサまたは湿度センサなどの物理量をアナログ信号量に変換できる機器などがあげられる。なお、連続的なの信号量をコードさせるために、レバーまたはスティックの角度、ダイヤルの回転量、ボタンの押し込み量または押し込み時間、センサが捕捉する対象物の物理量（距離、光量、熱量、湿度）などについて、連続的な信号量を設定することは勿論である。
【００５６】
例えば信号入力部としてボタンを用いた場合、
▲１▼ 入力ボタンを押し切った状態（押し込み率１００％）では制御パラメータの実行値が最大となり、
▲２▼ 入力ボタンを押していない状態（押し込み率０％）ではその実行値が最小となり、
▲３▼ 入力ボタンを途中まで押し込んだ状態では、押し込み率（％）に応じてその実行値が、（実行値）＝｛（最大実行値）−（最小実行値）｝＊（押し込み率）＋（最小実行値）の式で規定される
ようにアナログ入力量をコードさせることにより、連続的な信号量に対応した制御パラメータの実行値を設定することができる。
【００５７】
ここで、入力ボタンを途中まで押し込んだ状態での制御パラメータの実行値は、押し込み率を線形に定義した上記式に限らず、非線形の重み付けを加えた形式であってもよいことは勿論である。また、上記実施の形態１に示した方法により、制御パラメータ値を設定できることは勿論である。
【００５８】
このような構成であると、
▲１▼ 連続的な信号量と対応付けて韻律パラメータまたは再生パラメータの実行値を設定するため刻み幅が少なく、操作精度が高まることや、
▲２▼ 韻律パラメータまたは再生パラメータの初期値を、入力信号量と対応付けてあらかじめ設定された実行値に変換させるため、目的とする読み上げ方法による合成音声の発話形態を、利用者が直感的かつ簡便に選択できることや、
▲３▼ アナログ入力の信号量と対応付けてあらかじめ設定された韻律パラメータまたは再生パラメータの実行値を任意の値に再設定できるため、対応付けに関する記憶容量を増加させずに、対応付けの柔軟性を高めることや、
▲４▼ アナログ信号入力部で入力された信号量と１つの韻律パラメータまたは再生パラメータとのあらかじめ設定された対応付けを、別のアナログ信号入力部に入力する信号量と前記１つの韻律パラメータまたは再生パラメータとの対応付けに変更できるため、例えば装置上での設置箇所が異なるボタンを任意に選択して利用することにより、利用者が自分自身で使いやすい操作装置を作り上げることや、
▲５▼ １つのアナログ信号入力部で入力された信号量と１つの韻律パラメータまたは再生パラメータとのあらかじめ設定された対応付けを、１つの信号入力部で入力された信号量と２つ以上の韻律パラメータまたは再生パラメータとの対応付けに変更できるため、例えば１つのボタン操作によって「状態１では音量を大きくゆっくり読み上げる」、「状態２では普通の音量で普通の速度で読み上げる」などの複数の制御パラメータ操作を並列させることができること
などの顕著な作用が得られるため、利用者がカスタマイズしやすい、柔軟性の高い音声合成装置が提供される。
【００５９】
ここで、文章内の読み上げ位置やポーズ数などの制御パラメータに対しては、信号量が連続的である意義が少ないため、アナログ信号量を擬似的に離散的な信号量に変換させることが好ましい。例えば、アナログ信号量を３段階（大、中、小）の離散的な信号量に変換させた場合、信号量大には文章単位での移動を、信号量中には呼気段落単位での移動を、信号量小にはアクセント句単位での移動を対応付けることにより、文章内の読み上げ位置の制御を安定させることができる。
【００６０】
〔実施の形態３〕
本実施の形態３である音声合成方法の実行プログラムは、
ａ）信号入力部で入力された１以上のデジタル信号またはアナログ信号から、それぞれの信号量を監視する信号量監視プログラムコードと、
ｂ）１以上の韻律パラメータを有する韻律情報と音韻情報とが付与されたデータから、韻律パラメータの初期値を、監視された信号量に基づき、信号量と対応付けてあらかじめ設定された実行値に変換する韻律情報変形プログラムコードと、
ｃ）少なくとも音韻情報に基づいて、テキスト音声合成用の合成素片が格納された合成素片保存部から合成素片を選択する素片選択プログラムコードと
を少なくとも備え、
さらに、
ｄ）実行値を有する韻律パラメータに基づいて、選択された合成素片を接続して合成音声を生成し、合成音声を再生する音声合成・再生プログラムコードを備える。
【００６１】
ここで、少なくとも、韻律情報変形プログラムコードと、信号量監視プログラムコードとからなる集合部を合成操作プログラムコードと呼ぶ。
【００６２】
この合成操作プログラムコードは、
ｅ）デジタル信号量またはアナログ信号量と対応付けてあらかじめ設定された韻律パラメータの実行値の設定を変更し、かつ、
▲１▼ 第１の信号量と１つの韻律パラメータとのあらかじめ設定された対応付けを、第２の信号量と前記１つの韻律パラメータとの対応付けに変更する、
または、
▲２▼ １つの信号量と１つの韻律パラメータとのあらかじめ設定された対応付けを、前記１つの信号量と２つ以上の韻律パラメータとの対応付けに変更する
韻律パラメータ操作プログラムコードをさらに備えることができる。
【００６３】
また、この合成操作プログラムコードは、
ｆ）合成された合成音声が有する１以上の再生パラメータの初期値を、監視された信号量に基づき、デジタル信号量またはアナログ信号量と対応付けてあらかじめ設定された実行値に変換する音声合成・再生制御プログラムコードをさらに備えることができる。
【００６４】
また、この合成操作プログラムコードは、
ｇ）デジタル信号量またはアナログ信号量と対応付けてあらかじめ設定された再生パラメータの実行値の設定を変更し、かつ、
▲１▼ 第１の信号量と１つの再生パラメータとのあらかじめ設定された対応付けを、第２の信号量と前記１つの再生パラメータとの対応付けに変更する、
または、
▲２▼ １つの信号量と１つの再生パラメータとのあらかじめ設定された対応付けを、１つの信号量と２つ以上の再生パラメータとの対応付けに変更する
再生パラメータ操作プログラムコードをさらに備えることができる。
【００６５】
上記構成の音声合成方法の制御プログラムであると、利用者が望む読み上げ方法による合成音声の発話形態を設定しやすい、利用者によるカスタマイズが容易な柔軟性の高い音声合成装置が提供される。
【００６６】
ところで、上記実施の形態３に示すプログラムは、読み出し専用メモリ（ＲＯＭ）、ネットワーク、コンピュータ読み取り可能な外部記録媒体などを介して供給することができる。また、このような外部記録媒体としては、例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＤＶＤ−ＲＯＭ、磁気テープ、不揮発性のメモリカードなどがあげられる。
【００６７】
〔その他の事項〕
（１）上記実施の形態では、韻律パラメータ値を変形させることにより、選択される合成素片を変更する発話制御パターンを主に示したが、本発明はこの制御パターンに限定するものではなく、あらかじめ複数の発話速度、平均ピッチ、抑揚などを有する合成音声を合成させたておき、状態（入力信号量）に応じて再生する合成音声データを切り替えるなどの制御パターンを用いることもできる。
（２）上記実施の形態では、主に、韻律パラメータを変形することにより、入力信号量に対応した合成素片を素片選択部で選択させる場合を示したが、韻律パラメータは変形させる代わりに、既に合成された合成音声波形を変形させて、入力信号量に対応した発話形態を得る方法を除外するものではない。
（３）上記実施の形態では、信号入力部と韻律または再生パラメータとにおける対応付けの変更を、同種の信号入力部間（デジタルーデジタル間、アナログーアナログ間）で行う場合を示したが、例えば、２のデジタル信号入力部における対応付けを、１のデジタル信号入力部および１のアナログの信号入力部におけるそれに変更することもできる。
（４）上記実施例１では、２段階の信号量として例えばＯＮ／ＯＦＦの２状態を示したが、必ずしも片側が信号量ゼロである必要はなく、離散的な信号量であればよいことは勿論である。
【００６８】
【発明の効果】
以上説明したように、本発明の音声合成装置であると、
▲１▼ 韻律パラメータまたは再生パラメータの初期値を、入力信号量と対応付けてあらかじめ設定された実行値に変換させ、
▲２▼ この入力信号量と対応付けてあらかじめ設定された韻律パラメータまたは再生パラメータの実行値を任意の値に再設定でき、
▲３▼ 信号入力部で入力された信号量と１つの韻律パラメータまたは再生パラメータとのあらかじめ設定された対応付けを、別の信号入力部に入力する信号量と前記１つの韻律パラメータまたは再生パラメータとの対応付けに変更でき、
▲４▼ １つのアナログ信号入力部で入力された信号量と１つの韻律パラメータまたは再生パラメータとのあらかじめ設定された対応付けを、１つの信号入力部で入力された信号量と２つ以上の韻律パラメータまたは再生パラメータとの対応付けに変更でき、
▲５▼ 信号入力部として比較的安価で汎用的な入力機器を用いることができる。これにより、利用者が望む読み上げ方法による合成音声の発話形態を設定でき、対応付けに関する記憶容量を増加させずに対応付けの柔軟性が高められる。したがって、利用者による装置のカスタマイズが容易で、直感的かつ簡便に操作できる柔軟性の高いテキスト音声合成装置を安価に提供することができる。
【図面の簡単な説明】
【図１】図１は、デジタル信号の合成操作部を備えた、本発明の音声合成装置の主要な構成を示す概念図である。
【図２】図２は、デジタル信号の合成操作部と制御パラメータ操作部を備えた、本発明の音声合成装置の主要な構成を示す概念図である。
【図３】図３は、アナログ信号の合成操作部を備えた、本発明の音声合成装置の主要な構成を示す概念図である。
【図４】図４は、アナログ信号の合成操作部と制御パラメータ操作部を備えた、本発明の音声合成装置の主要な構成を示す概念図である。
【図５】図５は、発話速度を規定したパラメータ値の変更例である。
【図６】図６は、平均ピッチを規定したパラメータ値の変更例である。
【図７】図７は、抑揚を規定したパラメータ値の変更例である。
【符号の説明】
１０１データ入力部
１０２合成素片保存部
１０３素片選択部
１０４音声合成・再生部
１０５韻律情報変形部
１０６デジタル信号入力部
１０７デジタル信号量監視部
１０８音声合成・再生制御部
１０９、３０１合成操作部
２０１、４０１韻律パラメータ操作部
２０２、４０２再生パラメータ操作部
３０２アナログ信号入力部
３０３アナログ信号量監視部

Claims

初期値を有する韻律パラメータを１以上含む韻律情報と、音韻情報と、を有するデータを入力するデータ入力部と、
テキスト音声合成用の合成素片が格納された合成素片保存部と、
少なくとも前記音韻情報に基づいて、前記合成素片保存部から合成素片を選択する素片選択部と、
前記韻律パラメータの実行値に基づいて、前記選択された合成素片を接続して合成音声を生成し、前記合成音声を再生出力する音声合成・再生部と
を備える音声合成装置において、
２段階以上の信号量を有するデジタル信号が入力される１以上のデジタル信号入力部と、
前記デジタル信号入力部で入力された前記デジタル信号量を監視するデジタル信号量監視部と、
前記データ入力部に入力された１以上の韻律パラメータの初期値を、前記デジタル信号量監視部で監視された前記デジタル信号量に基づき、デジタル信号量と対応付けてあらかじめ設定された実行値に変換する韻律情報変形部と
を備えることを特徴とする音声合成装置。
初期値を有する韻律パラメータを１以上含む韻律情報と、音韻情報と、を有するデータを入力するデータ入力部と、
テキスト音声合成用の合成素片が格納された合成素片保存部と、
少なくとも前記音韻情報に基づいて、前記合成素片保存部から合成素片を選択する素片選択部と、
前記韻律パラメータの実行値に基づいて、前記選択された合成素片を接続して合成音声を生成し、前記合成音声を再生出力する音声合成・再生部と
を備える音声合成装置において、
連続的な信号量を有するアナログ信号が入力される１以上のアナログ信号入力部と、
前記アナログ信号入力部で入力された前記アナログ信号量を監視するアナログ信号量監視部と、
前記データ入力部に入力された１以上の韻律パラメータの初期値を、前記アナログ信号量監視部で監視された前記アナログ信号量に基づき、アナログ信号量と対応付けてあらかじめ設定された実行値に変換する韻律情報変形部と
を備えることを特徴とする音声合成装置。
信号入力部からの信号量と対応付けてあらかじめ設定された韻律パラメータの実行値の設定を変更し、
かつ、第１の前記信号入力部に入力する信号量と１つの前記韻律パラメータとのあらかじめ設定された対応付けを、第２の前記信号入力部に入力する信号量と前記１つの韻律パラメータとの対応付けに変更する
韻律パラメータ操作部をさらに備える
ことを特徴とする請求項１または２記載の音声合成装置。
信号入力部からの信号量と対応づけてあらかじめ設定された韻律パラメータの実行値の設定を変更し、
かつ、１つの前記信号入力部に入力する信号量と１つの前記韻律パラメータとのあらかじめ設定された対応付けを、前記１つの信号入力部に入力する信号量と２つ以上の前記韻律パラメータとの対応付けに変更する
韻律パラメータ操作部をさらに備える
ことを特徴とする請求項１または２記載の音声合成装置。
前記デジタル信号入力部が、スイッチ、ボタン、ジョグダイヤル、レバーおよびスティックからなる群から選択されたデジタル信号入力機器である
ことを特徴とする請求項１記載の音声合成装置。
前記アナログ信号入力部が、ボタン、制御つまみ、超音波センサ、光センサ、熱センサ、湿度センサ、レバーおよびスティックからなる群から選択されたアナログ信号入力機器である
ことを特徴とする請求項２記載の音声合成装置。
初期値を有する韻律パラメータを１以上含む韻律情報と、音韻情報と、を有するデータを入力するデータ入力工程と、
少なくとも前記音韻情報に基づいて、テキスト音声合成用の合成素片が格納された合成素片保存部から合成素片を選択する素片選択工程と、
前記韻律パラメータの実行値に基づいて、前記選択された合成素片を接続して合成音声を生成し、前記合成音声を再生する音声合成・再生工程と
を備える音声合成方法において、
２段階以上の信号量を有する１以上のデジタル信号を入力するデジタル信号入力工程と、
前記デジタル信号入力工程で入力されたそれぞれの前記デジタル信号量を監視するデジタル信号量監視工程と、
前記データ入力工程で入力された１以上の韻律パラメータの初期値を、前記デジタル信号量監視工程で監視されたそれぞれの前記デジタル信号量に基づき、デジタル信号量と対応付けてあらかじめ設定された実行値にそれぞれ変換する韻律情報変形工程と
からなる合成操作工程を備える
ことを特徴とする音声合成方法。
請求項７記載の音声合成方法を実行する制御プログラムが記録されたことを特徴とするプログラム記録媒体。