JP2005017595A - テキスト音声合成装置 - Google Patents
テキスト音声合成装置 Download PDFInfo
- Publication number
- JP2005017595A JP2005017595A JP2003180986A JP2003180986A JP2005017595A JP 2005017595 A JP2005017595 A JP 2005017595A JP 2003180986 A JP2003180986 A JP 2003180986A JP 2003180986 A JP2003180986 A JP 2003180986A JP 2005017595 A JP2005017595 A JP 2005017595A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- input
- speech
- signal amount
- prosodic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【解決手段】信号入力部で入力された1以上のデジタル信号またはアナログ信号から、信号量を監視する信号量監視部と、初期値を有する韻律パラメータを1以上含む韻律情報と音韻情報とが付与されたデータから、前記韻律パラメータの初期値を、監視された信号量に基づき、信号量と対応付けてあらかじめ設定された実行値に変換する韻律情報変形部と、少なくとも音韻情報に基づいて、テキスト音声合成用の合成素片が格納された合成素片保存部から合成素片を選択する素片選択部とを備える音声合成装置とする。
【選択図】 図1
Description
【発明の属する技術分野】
本発明は、テキストを読み上げるテキスト音声合成装置に関する。
【0002】
【従来の技術】
テキスト音声合成装置では、その対象となるテキストを解析して得た文節毎の音韻情報や韻律情報に基づいてピッチパターンが生成された後、このピッチパターンに従って合成音声素片が接続され、テキストの読み上げ様式(発話形態)に対応した合成音声が作成される。
【0003】
このようにして作成された合成音声は、音質、速度、音量などの制御パラメータに基づいて、テキストの読み上げ方(発話形態)が制御される。
ここで、このような発話形態の制御方法としては、
▲1▼ 文章を聞き直すための巻き戻し、不要な部分の早送り、聞き取りづらい合成音声のスロー再生、読み上げ音量の調整などの操作に対応したスイッチ(操作キー)がそれぞれ設定された再生機器やソフトウェアなどを用いる方法や、
▲2▼ その対象となるテキストデータ中に、発話速度や音声の高さなどの発話形態を規定した、制御記号(制御タグ)などの情報を埋め込ませる方法などがある。
【0004】
ところが、
▲1▼ 操作キーを利用した制御方法では、例えばリモコンによるテレビの音量変更操作のように、1回の速度変更スイッチの操作により、あらかじめ設定された分量の速度が段階的に変更されることが特徴である。このため、読み上げ速度を大きく変更するなど、目的とする変更量に至るまでのキー操作回数が多くなると、制御のための操作が非常に煩わしくなる。したがって、目的とする発話形態の瞬間的な制御に問題がある。
▲2▼ 制御タグを使用した制御方法では、音声合成装置がテキストデータ中に埋め込まれた制御タグの規定情報を解析するため、読み上げテキストデータの作成者が意図した発話形態が正確に得られる。この反面、制御タグに関する専門知識をもたない一般的な利用者ではその発話形態を容易に変更できない。したがって、装置の柔軟性に劣る。
【0005】
そこで、テキストの読み上げ速度および読み上げ音量を直感的に制御し、音声合成装置の柔軟性を高めるため、テキストの表示画面上に圧力、位置などを感知するセンサを配したタッチパネル入力機を用い、その表示画面上のテキストを指でなぞる速度で読み上げ速度を、指で押す力で読み上げ音量を制御させる技術(例えば、特許文献1参照。)が提案されている。
【0006】
【特許文献1】
特開平9−265299号公報(第2頁)
【0007】
しかしながらこの特許文献1に記載の技術では、テキストを表示する表示機として圧力センサと接触センサを有する高価な入力機を用いなければならず、装置が高価格化してしまう。さらに、携帯電話やPDAなどの表示画面が小型である装置であると、表示画面上でテキストの折り返しが頻繁に起こるため、タッチ方式による読み上げ速度および読み上げ音量の制御が煩雑となり、この方式では装置としての汎用性や操作性に劣る。また、利用者が調整できる発話形態が読み上げ速度および読み上げ音量だけしかない。したがって、発話形態の制御にかかる柔軟性も十分ではない。
【0008】
【発明が解決しようとする課題】
本発明は上記課題を解決するものであり、利用者が望む読み上げ方法による合成音声の発話形態を設定しやすい、柔軟性の高いテキスト音声合成装置を安価に提供することを目的とする。
【0009】
【課題を解決するための手段】
本発明の音声合成装置は、信号入力部で入力された1以上のデジタル信号またはアナログ信号の信号量を監視する信号量監視部と、初期値を有する韻律パラメータを1以上含む韻律情報と、音韻情報と、が付与されたデータから、韻律パラメータの初期値を、監視された信号量に基づき、信号量と対応付けてあらかじめ設定された実行値に変換する韻律情報変形部と、少なくとも音韻情報に基づいて、テキスト音声合成用の合成素片が格納された合成素片保存部から合成素片を選択する素片選択部とを備えることを特徴とする。
【0010】
本発明の音声合成装置は、さらに、信号入力部に安価で汎用的な入力機器を用いた構成とすることができる。
【0011】
上記構成であると、韻律パラメータまたは再生パラメータの初期値を、入力信号量と対応付けてあらかじめ設定された実行値に変換させるため、目的とする合成音声の発話形態を、利用者が直感的かつ簡便に選択することができる。また、この構成であると、信号入力部にタッチパネル等の入力機器を必要としないため、テキスト音声合成装置を安価に提供することができる。
【0012】
本発明の音声合成装置は、さらに、デジタル信号量またはアナログ信号量と対応付けてあらかじめ設定された韻律パラメータの実行値の設定を変更し、かつ、第1の信号量と1つの韻律パラメータとのあらかじめ設定された対応付けを、第2の信号量とのそれに変更する、または、1つの信号量と1つの韻律パラメータとのあらかじめ設定された対応付けを、1つの信号量と2つ以上の韻律パラメータとの対応付けに変更する韻律パラメータ操作部をさらに備える構成とすることができる。
【0013】
上記構成であると、入力信号量と対応付けてあらかじめ設定された韻律パラメータまたは再生パラメータの実行値を任意の値に再設定できるため、対応付けに関する記憶容量を増加させずに対応付けの柔軟性を高められる。したがって、利用者が望む合成音声の発話形態を一層柔軟に設定できる。また、上記構成であると、あらかじめ設定された信号入力部に入力する信号量と1つの韻律パラメータとの対応付けを、別の信号入力部に入力する信号量と前記1つの韻律パラメータとの対応付けに変更させることができる。したがって、利用者が装置を容易にカスタマイズでき、装置の柔軟性が高まる。
【0014】
【発明の実施の形態】
以下に、本発明の実施の形態について説明する。
〔実施の形態1〕
本発明の実施の形態1にかかる音声合成装置は、図1に示すように、
A)テキスト列の言語解析(読みの情報、品詞の情報、係り受け情報などの言語関連情報を抽出する)、または、テキスト列に制御タグなどを直接組み込むことによって、初期値を有する韻律パラメータを1以上含む韻律情報と音韻情報とが付与されたデータを入力するデータ入力部101と、
B)2段階(ON/OFFの2状態)以上の信号量を有するデジタル信号を入力する1以上のデジタル信号入力部106と、
C)これらのデジタル信号入力部で入力されたデジタル信号量を監視するデジタル信号量監視部107と、
D)上記入力されたデータが有する1以上の韻律パラメータの初期値を、デジタル信号量監視部で監視されたデジタル信号量に基づき、デジタル信号量と対応付けてあらかじめ設定された実行値に変換する韻律情報変形部105と、
E)テキスト音声合成用の合成素片が格納された合成素片保存部102と、
F)実行値に変換された1以上の韻律パラメータを有する韻律情報と音韻情報とに基づき、合成素片保存部から音声合成に適した素片を選択する素片選択部103と、
G)実行値に変換された韻律パラメータに基づいて、素片選択部で選択された合成素片を接続して合成音声を生成し、合成音声を再生する音声合成・再生部104と
を備えている。
【0015】
ここで、少なくとも、韻律情報変形部105と、デジタル信号入力部106と、デジタル信号量監視部107とからなる集合部を合成操作部109と呼ぶ。
【0016】
この合成操作部109は、図2に示すように、
H)デジタル信号量と対応付けてあらかじめ設定された韻律パラメータの実行値の設定を変更し、かつ、
▲1▼ 第1のデジタル信号入力部で入力された信号量と1つの韻律パラメータとのあらかじめ設定された対応付けを、第2のデジタル信号入力部に入力する信号量とのそれに変更する、
または、
▲2▼ 1つのデジタル信号入力部で入力された信号量と1つの韻律パラメータとのあらかじめ設定された対応付けを、1つの信号入力部で入力された信号量と2つ以上の韻律パラメータとの対応付けに変更する
韻律パラメータ操作部201をさらに備えることができる。
【0017】
さらに、図1または図2に示すように、この合成操作部109は、
I)音声合成・再生部104で合成された合成音声が有する1以上の再生制御パラメータの初期値を、デジタル信号量監視部で監視されたデジタル信号量に基づき、デジタル信号量と対応付けてあらかじめ設定された実行値に変換し、音声合成・再生部の駆動を制御する音声合成・再生制御部108を備えることができる。
【0018】
また、図2に示すように、この合成操作部109は、
J)デジタル信号量と対応付けてあらかじめ設定された再生パラメータの実行値の設定を変更し、かつ、
▲1▼ 第1のデジタル信号入力部で入力された信号量と1つの再生パラメータとのあらかじめ設定された対応付けを、第2のデジタル信号入力部で入力された信号量とのそれに変更する、
または、
▲2▼ 1つのデジタル信号入力部で入力された信号量と1つの再生パラメータとのあらかじめ設定された対応付けを、1つの信号入力部で入力された信号量と2つ以上の再生パラメータとの対応付けに変更する
再生パラメータ操作部202をさらに備えることができる。
【0019】
ここで、以下の実施例1〜4に基づき、本実施の形態1をさらに説明する。
[実施例1]
この実施例1は、図1に示すように、
A)データ入力部101と、
B)デジタル信号入力部106と、
C)デジタル信号量監視部107と、
D)韻律情報変形部105と、
E)合成素片保存部102と、
F)素片選択部103と、
G)音声合成・再生部104と、
I)音声合成・再生制御部108と
を備えた上記実施の形態にかかる音声合成装置である。
【0020】
ところで、この実施例1にかかるデジタル信号入力部106としては、2段階(例えば、ON/OFFの2状態)の信号量を有するデジタル信号が入力可能であるスイッチ、レバー、ダイヤル、ボタンまたはスティックなどの比較的安価で汎用的な入力機器を用いることができる。また、韻律パラメータや再生パラメータとしては、発話速度、基本周波数(ピッチ)の平均値、ピッチパターン(アクセント成分)、文章内のポーズの挿入量、音量、発声閾値、イントネーションの強弱(抑揚)、文節の移動、句の移動または文の移動などのテキスト音声合成・再生に関わる制御パラメータを用いる。
【0021】
<<発話パターンの制御>>
ここで例えば、デジタル信号が入力される場合(例えば、入力ボタンを押している状態:ON)を状態1、信号の入力がない場合(例えば、入力ボタンを押していない状態:OFF)を状態2とし、以下に、状態1および状態2でのデジタル信号量と対応させた制御パラメータについて、具体例をあげて説明する。
【0022】
<発話速度の制御>
いま、状態1では通常レベルの発話速度(相対速度1.0)が定義されており、状態2では通常の0.8倍の発話速度(相対速度0.8)が定義されているとする。ここで、素片選択部における合成素片の選択、音声合成・再生部における合成音声の作成には、例えば図5に示すような、構成音素、音素の継続時間長、ピッチパターンなどが用いられる。そこで以下では、これらの値を操作してこの韻律パラメータ(発話速度)を変形させる場合について説明する。
【0023】
まず、通常レベルの発話速度が定義された状態1では、入力されたデータに含まれた構成音素、音素の継続時間長、ピッチパターンなどは韻律情報変形部により変形されないとした。すなわち状態1では、発話速度の初期値(相対速度1.0)がそのまま実行値として設定されるとした。
【0024】
他方、通常の0.8倍の発話速度が定義された状態2では、入力されたデータに含まれた音素の継続時間長の初期値(例えば、音素kの継続時間長:dur_k、音素oの継続時間長:dur_o)が、韻律情報変形部により、状態1のそれの0.8分の1倍となるように変形されるとした。この結果、図5に示すように、音素の継続時間長の初期値が1.25倍に引き伸ばされた実行値(例えば、音素kの継続時間長:dur_k*1.25、音素oの継続時間長:dur_o*1.25)が設定された。
【0025】
このように、音素の継続時間長を相対的に規定することで、状態1では通常レベルの発話速度、状態2では通常の0.8倍の発話速度となる合成素片を素片選択部で選択し、音声合成・再生部においてそれぞれの状態に対応した合成音声を作成できる。そして、このようなパラメータの調整を合成処理単位ごとに行うことで、それぞれの状態に対応させた発話速度を設定することができる。
【0026】
<平均ピッチの制御>
いま、状態1では通常レベルの平均ピッチ(相対平均ピッチ1.0)が定義されており、状態2では通常の1.2倍の平均ピッチ(相対平均ピッチ1.2)が定義されているとする。ここで、素片選択部における合成素片の選択、音声合成・再生部における合成音声の作成には、例えば図6に示すような、構成音素、音素の継続時間長、ピッチパターンなどが用いられる。そこで以下では、これらの値を操作してこの韻律パラメータ(平均ピッチ)を変形させる場合について説明する。
【0027】
通常レベルの平均ピッチが定義された状態1では、入力されたデータに含まれた構成音素、音素の継続時間長、ピッチパターン(平均ピッチを含む)などは韻律情報変形部により変形されないとした。すなわち状態1では、平均ピッチの初期値(相対平均ピッチ1.0)がそのまま実行値として設定されるとした。
【0028】
他方、通常の1.2倍の平均ピッチが定義された状態2では、韻律情報変形部により、入力されたデータに含まれたピッチパターンにおけるそれぞれのピッチの強度が1.2倍に変形され、それらの平均値である平均ピッチの初期値(Pit_ave)が、状態1のそれの1.2倍となるように変形されるとした。この結果、図5に示すように、平均ピッチの初期値が1.2倍に引き伸ばされた実行値(Pit_ave*1.2)が設定された。
【0029】
このように、ピッチパターンにおけるそれぞれのピッチの平均値を相対的に規定することで、状態1では通常レベルの平均ピッチ、状態2では通常の1.2倍の平均ピッチとなる合成素片を素片選択部で選択し、音声合成・再生部においてそれぞれの状態に対応した合成音声を作成できる。そして、このようなパラメータの調整を合成処理単位ごとに行うことで、それぞれの状態に対応させた平均ピッチを設定することができる。
【0030】
<抑揚の制御>
いま、状態1では通常レベルのダイナミックレンジのピッチ(相対ダイナミックレンジ1.0)が定義されており、状態2では通常レベルから1.2倍のダイナミックレンジのピッチ(相対ダイナミックレンジ1.2)が定義されているとする。ここで、素片選択部における合成素片の選択、音声合成・再生部における合成音声の作成には、例えば図7に示すような、構成音素、音素の継続時間長、ピッチパターンなどが用いられる。そこで以下では、これらの値を操作してこの韻律パラメータ(抑揚)を変形させる場合について説明する。
【0031】
通常レベルのダイナミックレンジのピッチが定義された状態1では、入力されたデータに含まれた構成音素、音素の継続時間長、ピッチパターン(ダイナミックレンジを含む)などは韻律情報変形部により変形されないとした。すなわち状態1では、ダイナミックレンジの初期値(相対ダイナミックレンジ1.0)がそのまま実行値として設定されるとした。
【0032】
他方、通常レベルから1.2倍のダイナミックレンジのピッチが定義された状態2では、入力されたデータに含まれたピッチパターンにおけるそれぞれのピッチがとるレンジの強度差であるダイナミックレンジの初期値(DL)が、状態1のそれの1.2倍となるように変形されるとした。この結果、図5に示すように、平均ピッチの初期値が1.2倍に引き伸ばされた実行値(Pit_ave*1.2)が設定された。この変形例では、ピッチパターンにおいて最低強度を有するピッチの強度を維持し、それ以外のピッチの強度を変形前のそれとくらべて1.2倍としたため、ピッチパターンにおけるそれぞれのピッチの相対強度は維持されている。
【0033】
なお、図7に示す割合(70%、75%、40%)は、各状態におけるピッチのダイナミックレンジに対するそれぞれのピッチの相対強度であり、状態1と状態2ではそれらの相対強度が変化していないことを示している。
【0034】
このようにピッチのダイナミックレンジを相対的に規定することで、状態1では通常レベルのダイナミックレンジのピッチ、状態2では通常より1.2倍のダイナミックレンジのピッチとなる合成素片を素片選択部で選択し、音声合成・再生部においてそれぞれの状態に対応した合成音声を作成できる。そして、このようなパラメータの調整を合成処理単位ごとに行うことで、それぞれの状態に対応させた抑揚を設定することができる。
【0035】
<文章内ポーズ数の制御>
自然性の高い合成音声の発話形態を得るためには、文、句、呼気段落、アクセント句、音節、音素などの単位毎に処理を行い、入力されたデータ中(文章内)にバランスよくポーズを挿入することが重要である。しかしながら、発話内容を理解しながら聞きたい場合などでは、音節ごと、アクセント句ごとなどの単位ごとに発声させたほうが、若干その発話形態が不自然であっても、利用者にとっては都合が良い。
【0036】
いま、状態1では通常レベルの挿入ポーズ数が定義されており、状態2ではアクセント句に対応した数の挿入ポーズ数が定義されているとする。ここで、このように状態2を定義させるためには、公知のテキスト音声合成方法により簡単に得られるアクセント句の位置情報を用いて、アクセント句の区切り毎に、定められた時間長のポーズを挿入すればよい。
【0037】
ところで、アクセント句ごとに定められた時間長のポーズを挿入する場合以外にも、文節や音節など、音声合成に利用される様々な単位毎にポーズを挿入して文章内ポーズ数を制御できることや、挿入するポーズの継続時間長を任意に設定してもよいことは勿論である。
【0038】
<発話音量の制御>
発話音量を制御するためには、例えば、音声合成・再生部で作成された合成音声データに対して、状態1や状態2と対応付けてあらかじめ設定された倍率でその振幅を伸縮すればよい。これにより、それぞれの状態に対応させてこの再生パラメータ(発話音量)を設定することができる。
【0039】
ここでは、デジタル入力信号量と対応させた韻律パラメータまたは再生パラメータについて例示し、具体的な制御パラメータ値の設定方法について説明したが、音声合成、再生をつかさどる上記以外の制御パラメータを用いて、その発話形態を制御できることは勿論である。また、制御パラメータ値の設定方法としても、上記方法に限定されないことは勿論である。
【0040】
以上から、この構成であると、韻律パラメータまたは再生パラメータの初期値を、入力信号量と対応付けてあらかじめ設定されたそれぞれの実行値に変換させるため、利用者が望む読み上げ方法による合成音声の発話形態を、直感的かつ簡便に選択することができ、かつ、信号入力部に比較的安価で汎用的な入力機器を用いるため、テキスト音声合成装置が安価に提供される。
【0041】
[実施例2]
この実施例2は、図2に示すように、上記実施例1の合成操作部109が、
H)韻律パラメータ操作部201と、
J)再生パラメータ操作部202と
をさらに備えた音声合成装置である。
【0042】
この構成であると、上記実施例1の構成により得られる作用に加えて、
▲1▼ デジタル入力の信号量と対応付けてあらかじめ設定された韻律パラメータまたは再生パラメータの実行値を任意の値に再設定できるため、対応付けに関する記憶容量を増加させずに、対応付けの柔軟性を高めることや、
▲2▼ デジタル信号入力部で入力された信号量と1つの韻律パラメータまたは再生パラメータとのあらかじめ設定された対応付けを、別のデジタル信号入力部で入力された信号量と前記1つの韻律パラメータまたは再生パラメータとの対応付けに変更できるため、例えば装置上での設置箇所が異なるボタンの利用を任意に選択するなどして、利用者が自分自身で使いやすい操作装置を作り上げることや、
▲3▼ 1つのデジタル信号入力部で入力された信号量と1つの韻律パラメータまたは再生パラメータとのあらかじめ設定された対応付けを、前記1つの信号入力部で入力された信号量と2つ以上の韻律パラメータまたは再生パラメータとの対応付けに変更できるため、例えば1つのボタン操作によって「状態1では音量を大きくゆっくり読み上げる」、「状態2では普通の音量で普通の速度で読み上げる」などの複数の制御パラメータ操作を並列させることができること
などの顕著な作用が得られるため、利用者がカスタマイズしやすい、柔軟性の高い音声合成装置が安価に提供される。
【0043】
[実施例3]
この実施例3は、上記デジタル信号入力部106で入力されるデジタル信号量が3状態以上であること以外は上記実施例1と同様の音声合成装置である。
【0044】
ところで、このような3状態以上のデジタル信号量を入力できる信号入力部としては、具体的に、スイッチ、ボタン、ジョグダイヤル、レバーまたはスティックなどの比較的安価で汎用的な入力機器があげられる。また、3状態以上の信号量をコードさせるために、スイッチの切り替え率、レバーまたはスティックの角度、ジョグダイヤルの回転量、ボタンの押し込み量または押し込み時間などについて、離散的な値を設定した。
【0045】
例えば信号入力部としてボタンを用いた場合、その押し込み量によって、
▲1▼ 入力ボタンを押し切った状態(ON)
▲2▼ 入力ボタンを押していない状態(OFF)
▲3▼ 入力ボタンを途中まで押している状態(中間)
の3状態をコードさせて、それぞれの状態に対応した制御パラメータの実行値を設定することができる。
【0046】
また、離散値の設定をさらに増やして複数の中間段階を設けることにより、コードする状態数を4以上に増やすことができるのは勿論である。
【0047】
したがってこのような構成であると、上記実施例1の構成により得られる作用に加え、デジタル入力の信号量と対応付けてあらかじめ設定された韻律パラメータまたは再生パラメータの実行値のコード数を増加でき、装置の柔軟性がさらに高まる。
【0048】
[実施例4]
この実施例4は、上記デジタル信号入力部106で入力されるデジタル信号量が3状態以上であり、かつ、上記合成操作部109が、韻律パラメータ操作部201と再生パラメータ操作部202とをさらに備えたこと以外は上記実施例1と同様の音声合成装置である。
【0049】
この構成であると、上記実施例2および上記実施例3の構成により得られる作用が同時に得られるため、利用者がカスタマイズしやすい、柔軟性のさらに高い音声合成装置が安価に提供される。
【0050】
〔実施の形態2〕
本発明の実施の形態2にかかる音声合成装置は、図3に示すように、
A)上記データ入力部101と、
B)連続的な信号量を有するアナログ信号が入力される1以上のアナログ信号入力部302と、
C)これらのアナログ信号入力部で入力されたアナログ信号量を監視するアナログ信号量監視部303と、
D)上記入力されたデータが有する1以上の韻律パラメータの初期値を、アナログ信号量監視部で監視されたアナログ信号量に基づき、アナログ信号量と対応付けてあらかじめ設定された実行値に変換する韻律情報変形部105と、
E)上記合成素片保存部102と、
F)上記素片選択部103と、
G)上記音声合成・再生部104と
を少なくとも備えている。
【0051】
ここで、少なくとも、韻律情報変形部105と、アナログ信号入力部302と、アナログ信号量監視部303とからなる集合部を合成操作部301と呼ぶ。
【0052】
この合成操作部301は、図4に示すように、
H)アナログ信号量と対応付けてあらかじめ設定された韻律パラメータの実行値の設定を変更し、かつ、
▲1▼ 第1のアナログ信号入力部で入力された信号量と1つの韻律パラメータとのあらかじめ設定された対応付けを、第2のアナログ信号入力部で入力された信号量とのそれに変更する、
または、
▲2▼ 1つのアナログ信号入力部で入力された信号量と1つの韻律パラメータとのあらかじめ設定された対応付けを、1つの信号入力部で入力された信号量と2つ以上の韻律パラメータとの対応付けに変更する
韻律パラメータ操作部401をさらに備えることができる。
【0053】
さらに、図3または図4に示すように、この合成操作部301は、
I)音声合成・再生部104で合成された合成音声が有する1以上の再生パラメータの初期値を、アナログ信号量監視部で監視されたアナログ信号量に基づき、アナログ信号量と対応付けてあらかじめ設定された実行値に変換し、音声合成・再生部の駆動を制御する音声合成・再生制御部108を備えることができる。
【0054】
また、図4に示すように、この合成操作部109は、
J)アナログ信号量と対応付けてあらかじめ設定された再生パラメータの実行値の設定を変更し、かつ、
▲1▼ 第1のアナログ信号入力部で入力された信号量と1つの再生パラメータとのあらかじめ設定された対応付けを、第2のアナログ信号入力部で入力された信号量とのそれに変更する、
または、
▲2▼ 1つのアナログ信号入力部で入力された信号量と1つの再生パラメータとのあらかじめ設定された対応付けを、前記1つの信号入力部で入力された信号量と2つ以上の再生パラメータとの対応付けに変更する
再生パラメータ操作部402をさらに備えることができる。
【0055】
ところで、このような連続的なアナログ信号量を入力できる信号入力部としては、具体的に、ボタン、制御つまみ、レバーまたはスティックなどの比較的安価で汎用的な入力機器や、超音波センサ、光センサ、熱センサまたは湿度センサなどの物理量をアナログ信号量に変換できる機器などがあげられる。なお、連続的なの信号量をコードさせるために、レバーまたはスティックの角度、ダイヤルの回転量、ボタンの押し込み量または押し込み時間、センサが捕捉する対象物の物理量(距離、光量、熱量、湿度)などについて、連続的な信号量を設定することは勿論である。
【0056】
例えば信号入力部としてボタンを用いた場合、
▲1▼ 入力ボタンを押し切った状態(押し込み率100%)では制御パラメータの実行値が最大となり、
▲2▼ 入力ボタンを押していない状態(押し込み率0%)ではその実行値が最小となり、
▲3▼ 入力ボタンを途中まで押し込んだ状態では、押し込み率(%)に応じてその実行値が、(実行値)={(最大実行値)−(最小実行値)}*(押し込み率)+(最小実行値)の式で規定される
ようにアナログ入力量をコードさせることにより、連続的な信号量に対応した制御パラメータの実行値を設定することができる。
【0057】
ここで、入力ボタンを途中まで押し込んだ状態での制御パラメータの実行値は、押し込み率を線形に定義した上記式に限らず、非線形の重み付けを加えた形式であってもよいことは勿論である。また、上記実施の形態1に示した方法により、制御パラメータ値を設定できることは勿論である。
【0058】
このような構成であると、
▲1▼ 連続的な信号量と対応付けて韻律パラメータまたは再生パラメータの実行値を設定するため刻み幅が少なく、操作精度が高まることや、
▲2▼ 韻律パラメータまたは再生パラメータの初期値を、入力信号量と対応付けてあらかじめ設定された実行値に変換させるため、目的とする読み上げ方法による合成音声の発話形態を、利用者が直感的かつ簡便に選択できることや、
▲3▼ アナログ入力の信号量と対応付けてあらかじめ設定された韻律パラメータまたは再生パラメータの実行値を任意の値に再設定できるため、対応付けに関する記憶容量を増加させずに、対応付けの柔軟性を高めることや、
▲4▼ アナログ信号入力部で入力された信号量と1つの韻律パラメータまたは再生パラメータとのあらかじめ設定された対応付けを、別のアナログ信号入力部に入力する信号量と前記1つの韻律パラメータまたは再生パラメータとの対応付けに変更できるため、例えば装置上での設置箇所が異なるボタンを任意に選択して利用することにより、利用者が自分自身で使いやすい操作装置を作り上げることや、
▲5▼ 1つのアナログ信号入力部で入力された信号量と1つの韻律パラメータまたは再生パラメータとのあらかじめ設定された対応付けを、1つの信号入力部で入力された信号量と2つ以上の韻律パラメータまたは再生パラメータとの対応付けに変更できるため、例えば1つのボタン操作によって「状態1では音量を大きくゆっくり読み上げる」、「状態2では普通の音量で普通の速度で読み上げる」などの複数の制御パラメータ操作を並列させることができること
などの顕著な作用が得られるため、利用者がカスタマイズしやすい、柔軟性の高い音声合成装置が提供される。
【0059】
ここで、文章内の読み上げ位置やポーズ数などの制御パラメータに対しては、信号量が連続的である意義が少ないため、アナログ信号量を擬似的に離散的な信号量に変換させることが好ましい。例えば、アナログ信号量を3段階(大、中、小)の離散的な信号量に変換させた場合、信号量大には文章単位での移動を、信号量中には呼気段落単位での移動を、信号量小にはアクセント句単位での移動を対応付けることにより、文章内の読み上げ位置の制御を安定させることができる。
【0060】
〔実施の形態3〕
本実施の形態3である音声合成方法の実行プログラムは、
a)信号入力部で入力された1以上のデジタル信号またはアナログ信号から、それぞれの信号量を監視する信号量監視プログラムコードと、
b)1以上の韻律パラメータを有する韻律情報と音韻情報とが付与されたデータから、韻律パラメータの初期値を、監視された信号量に基づき、信号量と対応付けてあらかじめ設定された実行値に変換する韻律情報変形プログラムコードと、
c)少なくとも音韻情報に基づいて、テキスト音声合成用の合成素片が格納された合成素片保存部から合成素片を選択する素片選択プログラムコードと
を少なくとも備え、
さらに、
d)実行値を有する韻律パラメータに基づいて、選択された合成素片を接続して合成音声を生成し、合成音声を再生する音声合成・再生プログラムコードを備える。
【0061】
ここで、少なくとも、韻律情報変形プログラムコードと、信号量監視プログラムコードとからなる集合部を合成操作プログラムコードと呼ぶ。
【0062】
この合成操作プログラムコードは、
e)デジタル信号量またはアナログ信号量と対応付けてあらかじめ設定された韻律パラメータの実行値の設定を変更し、かつ、
▲1▼ 第1の信号量と1つの韻律パラメータとのあらかじめ設定された対応付けを、第2の信号量と前記1つの韻律パラメータとの対応付けに変更する、
または、
▲2▼ 1つの信号量と1つの韻律パラメータとのあらかじめ設定された対応付けを、前記1つの信号量と2つ以上の韻律パラメータとの対応付けに変更する
韻律パラメータ操作プログラムコードをさらに備えることができる。
【0063】
また、この合成操作プログラムコードは、
f)合成された合成音声が有する1以上の再生パラメータの初期値を、監視された信号量に基づき、デジタル信号量またはアナログ信号量と対応付けてあらかじめ設定された実行値に変換する音声合成・再生制御プログラムコードをさらに備えることができる。
【0064】
また、この合成操作プログラムコードは、
g)デジタル信号量またはアナログ信号量と対応付けてあらかじめ設定された再生パラメータの実行値の設定を変更し、かつ、
▲1▼ 第1の信号量と1つの再生パラメータとのあらかじめ設定された対応付けを、第2の信号量と前記1つの再生パラメータとの対応付けに変更する、
または、
▲2▼ 1つの信号量と1つの再生パラメータとのあらかじめ設定された対応付けを、1つの信号量と2つ以上の再生パラメータとの対応付けに変更する
再生パラメータ操作プログラムコードをさらに備えることができる。
【0065】
上記構成の音声合成方法の制御プログラムであると、利用者が望む読み上げ方法による合成音声の発話形態を設定しやすい、利用者によるカスタマイズが容易な柔軟性の高い音声合成装置が提供される。
【0066】
ところで、上記実施の形態3に示すプログラムは、読み出し専用メモリ(ROM)、ネットワーク、コンピュータ読み取り可能な外部記録媒体などを介して供給することができる。また、このような外部記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、DVD−ROM、磁気テープ、不揮発性のメモリカードなどがあげられる。
【0067】
〔その他の事項〕
(1)上記実施の形態では、韻律パラメータ値を変形させることにより、選択される合成素片を変更する発話制御パターンを主に示したが、本発明はこの制御パターンに限定するものではなく、あらかじめ複数の発話速度、平均ピッチ、抑揚などを有する合成音声を合成させたておき、状態(入力信号量)に応じて再生する合成音声データを切り替えるなどの制御パターンを用いることもできる。
(2)上記実施の形態では、主に、韻律パラメータを変形することにより、入力信号量に対応した合成素片を素片選択部で選択させる場合を示したが、韻律パラメータは変形させる代わりに、既に合成された合成音声波形を変形させて、入力信号量に対応した発話形態を得る方法を除外するものではない。
(3)上記実施の形態では、信号入力部と韻律または再生パラメータとにおける対応付けの変更を、同種の信号入力部間(デジタルーデジタル間、アナログーアナログ間)で行う場合を示したが、例えば、2のデジタル信号入力部における対応付けを、1のデジタル信号入力部および1のアナログの信号入力部におけるそれに変更することもできる。
(4)上記実施例1では、2段階の信号量として例えばON/OFFの2状態を示したが、必ずしも片側が信号量ゼロである必要はなく、離散的な信号量であればよいことは勿論である。
【0068】
【発明の効果】
以上説明したように、本発明の音声合成装置であると、
▲1▼ 韻律パラメータまたは再生パラメータの初期値を、入力信号量と対応付けてあらかじめ設定された実行値に変換させ、
▲2▼ この入力信号量と対応付けてあらかじめ設定された韻律パラメータまたは再生パラメータの実行値を任意の値に再設定でき、
▲3▼ 信号入力部で入力された信号量と1つの韻律パラメータまたは再生パラメータとのあらかじめ設定された対応付けを、別の信号入力部に入力する信号量と前記1つの韻律パラメータまたは再生パラメータとの対応付けに変更でき、
▲4▼ 1つのアナログ信号入力部で入力された信号量と1つの韻律パラメータまたは再生パラメータとのあらかじめ設定された対応付けを、1つの信号入力部で入力された信号量と2つ以上の韻律パラメータまたは再生パラメータとの対応付けに変更でき、
▲5▼ 信号入力部として比較的安価で汎用的な入力機器を用いることができる。これにより、利用者が望む読み上げ方法による合成音声の発話形態を設定でき、対応付けに関する記憶容量を増加させずに対応付けの柔軟性が高められる。したがって、利用者による装置のカスタマイズが容易で、直感的かつ簡便に操作できる柔軟性の高いテキスト音声合成装置を安価に提供することができる。
【図面の簡単な説明】
【図1】図1は、デジタル信号の合成操作部を備えた、本発明の音声合成装置の主要な構成を示す概念図である。
【図2】図2は、デジタル信号の合成操作部と制御パラメータ操作部を備えた、本発明の音声合成装置の主要な構成を示す概念図である。
【図3】図3は、アナログ信号の合成操作部を備えた、本発明の音声合成装置の主要な構成を示す概念図である。
【図4】図4は、アナログ信号の合成操作部と制御パラメータ操作部を備えた、本発明の音声合成装置の主要な構成を示す概念図である。
【図5】図5は、発話速度を規定したパラメータ値の変更例である。
【図6】図6は、平均ピッチを規定したパラメータ値の変更例である。
【図7】図7は、抑揚を規定したパラメータ値の変更例である。
【符号の説明】
101 データ入力部
102 合成素片保存部
103 素片選択部
104 音声合成・再生部
105 韻律情報変形部
106 デジタル信号入力部
107 デジタル信号量監視部
108 音声合成・再生制御部
109、301 合成操作部
201、401 韻律パラメータ操作部
202、402 再生パラメータ操作部
302 アナログ信号入力部
303 アナログ信号量監視部
Claims (8)
- 初期値を有する韻律パラメータを1以上含む韻律情報と、音韻情報と、を有するデータを入力するデータ入力部と、
テキスト音声合成用の合成素片が格納された合成素片保存部と、
少なくとも前記音韻情報に基づいて、前記合成素片保存部から合成素片を選択する素片選択部と、
前記韻律パラメータの実行値に基づいて、前記選択された合成素片を接続して合成音声を生成し、前記合成音声を再生出力する音声合成・再生部と
を備える音声合成装置において、
2段階以上の信号量を有するデジタル信号が入力される1以上のデジタル信号入力部と、
前記デジタル信号入力部で入力された前記デジタル信号量を監視するデジタル信号量監視部と、
前記データ入力部に入力された1以上の韻律パラメータの初期値を、前記デジタル信号量監視部で監視された前記デジタル信号量に基づき、デジタル信号量と対応付けてあらかじめ設定された実行値に変換する韻律情報変形部と
を備えることを特徴とする音声合成装置。 - 初期値を有する韻律パラメータを1以上含む韻律情報と、音韻情報と、を有するデータを入力するデータ入力部と、
テキスト音声合成用の合成素片が格納された合成素片保存部と、
少なくとも前記音韻情報に基づいて、前記合成素片保存部から合成素片を選択する素片選択部と、
前記韻律パラメータの実行値に基づいて、前記選択された合成素片を接続して合成音声を生成し、前記合成音声を再生出力する音声合成・再生部と
を備える音声合成装置において、
連続的な信号量を有するアナログ信号が入力される1以上のアナログ信号入力部と、
前記アナログ信号入力部で入力された前記アナログ信号量を監視するアナログ信号量監視部と、
前記データ入力部に入力された1以上の韻律パラメータの初期値を、前記アナログ信号量監視部で監視された前記アナログ信号量に基づき、アナログ信号量と対応付けてあらかじめ設定された実行値に変換する韻律情報変形部と
を備えることを特徴とする音声合成装置。 - 信号入力部からの信号量と対応付けてあらかじめ設定された韻律パラメータの実行値の設定を変更し、
かつ、第1の前記信号入力部に入力する信号量と1つの前記韻律パラメータとのあらかじめ設定された対応付けを、第2の前記信号入力部に入力する信号量と前記1つの韻律パラメータとの対応付けに変更する
韻律パラメータ操作部をさらに備える
ことを特徴とする請求項1または2記載の音声合成装置。 - 信号入力部からの信号量と対応づけてあらかじめ設定された韻律パラメータの実行値の設定を変更し、
かつ、1つの前記信号入力部に入力する信号量と1つの前記韻律パラメータとのあらかじめ設定された対応付けを、前記1つの信号入力部に入力する信号量と2つ以上の前記韻律パラメータとの対応付けに変更する
韻律パラメータ操作部をさらに備える
ことを特徴とする請求項1または2記載の音声合成装置。 - 前記デジタル信号入力部が、スイッチ、ボタン、ジョグダイヤル、レバーおよびスティックからなる群から選択されたデジタル信号入力機器である
ことを特徴とする請求項1記載の音声合成装置。 - 前記アナログ信号入力部が、ボタン、制御つまみ、超音波センサ、光センサ、熱センサ、湿度センサ、レバーおよびスティックからなる群から選択されたアナログ信号入力機器である
ことを特徴とする請求項2記載の音声合成装置。 - 初期値を有する韻律パラメータを1以上含む韻律情報と、音韻情報と、を有するデータを入力するデータ入力工程と、
少なくとも前記音韻情報に基づいて、テキスト音声合成用の合成素片が格納された合成素片保存部から合成素片を選択する素片選択工程と、
前記韻律パラメータの実行値に基づいて、前記選択された合成素片を接続して合成音声を生成し、前記合成音声を再生する音声合成・再生工程と
を備える音声合成方法において、
2段階以上の信号量を有する1以上のデジタル信号を入力するデジタル信号入力工程と、
前記デジタル信号入力工程で入力されたそれぞれの前記デジタル信号量を監視するデジタル信号量監視工程と、
前記データ入力工程で入力された1以上の韻律パラメータの初期値を、前記デジタル信号量監視工程で監視されたそれぞれの前記デジタル信号量に基づき、デジタル信号量と対応付けてあらかじめ設定された実行値にそれぞれ変換する韻律情報変形工程と
からなる合成操作工程を備える
ことを特徴とする音声合成方法。 - 請求項7記載の音声合成方法を実行する制御プログラムが記録されたことを特徴とするプログラム記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003180986A JP2005017595A (ja) | 2003-06-25 | 2003-06-25 | テキスト音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003180986A JP2005017595A (ja) | 2003-06-25 | 2003-06-25 | テキスト音声合成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005017595A true JP2005017595A (ja) | 2005-01-20 |
Family
ID=34181812
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003180986A Pending JP2005017595A (ja) | 2003-06-25 | 2003-06-25 | テキスト音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005017595A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008203422A (ja) * | 2007-02-19 | 2008-09-04 | Animo:Kk | 音声合成プログラム、方法及び装置 |
JP2013246742A (ja) * | 2012-05-29 | 2013-12-09 | Azone Co Ltd | 受動型出力装置及び出力データ生成システム |
-
2003
- 2003-06-25 JP JP2003180986A patent/JP2005017595A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008203422A (ja) * | 2007-02-19 | 2008-09-04 | Animo:Kk | 音声合成プログラム、方法及び装置 |
JP2013246742A (ja) * | 2012-05-29 | 2013-12-09 | Azone Co Ltd | 受動型出力装置及び出力データ生成システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9489938B2 (en) | Sound synthesis method and sound synthesis apparatus | |
JP6465136B2 (ja) | 電子楽器、方法、及びプログラム | |
JP5949607B2 (ja) | 音声合成装置 | |
US20160071429A1 (en) | Method of Presenting a Piece of Music to a User of an Electronic Device | |
CN106133824A (zh) | 用于滚动乐谱的方法、设备以及计算机程序产品 | |
JP4702160B2 (ja) | 楽音合成装置及びプログラム | |
JP7230413B2 (ja) | 音信号発生装置、音信号発生方法および音信号発生プログラム | |
JP6003195B2 (ja) | 歌唱合成を行うための装置およびプログラム | |
KR0135792B1 (ko) | 노래반주용 곡프로그램 및 이에 적합한 노래반주장치 | |
JP2008139450A (ja) | 自動伴奏生成装置および自動伴奏生成方法を実現するためのプログラム | |
JP2005017595A (ja) | テキスト音声合成装置 | |
US20220044662A1 (en) | Audio Information Playback Method, Audio Information Playback Device, Audio Information Generation Method and Audio Information Generation Device | |
JP5157922B2 (ja) | 音声合成装置、およびプログラム | |
JP2009157220A (ja) | 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法 | |
JP4456088B2 (ja) | スコアデータ表示装置およびプログラム | |
JP2001042879A (ja) | カラオケ装置 | |
JPH05100692A (ja) | 音声合成装置 | |
JP4720974B2 (ja) | 音声発生装置およびそのためのコンピュータプログラム | |
JP2007072231A (ja) | ピッチ制御プログラム | |
JP7456430B2 (ja) | 情報処理装置、電子楽器システム、電子楽器、音節進行制御方法及びプログラム | |
JP2005128208A (ja) | 演奏再生装置及び演奏再生制御プログラム | |
JP3963141B2 (ja) | 歌唱合成装置、歌唱合成用プログラム及び歌唱合成用プログラムを記録したコンピュータで読み取り可能な記録媒体 | |
CN113255313B (zh) | 音乐生成方法、装置、电子设备和存储介质 | |
JP5471138B2 (ja) | 音素符号変換装置および音声合成装置 | |
JPH05224689A (ja) | 音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050810 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080403 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081226 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090512 |