JP2014098802A

JP2014098802A - 音声合成装置

Info

Publication number: JP2014098802A
Application number: JP2012250441A
Authority: JP
Inventors: Hiroshi Kayama; 啓嘉山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2012-11-14
Filing date: 2012-11-14
Publication date: 2014-05-29
Anticipated expiration: 2032-11-14
Also published as: JP6167503B2

Abstract

【課題】従来よりも表現力の豊な音声をリアルタイム方式で合成することを可能にする。
【解決手段】合成対象の歌唱音声の音韻列を示す音韻列情報と当該音韻列情報の示す音韻列の一部の音韻を変化させることを示す音韻制御情報とを含む複数種類の合成情報を取得する手段であって、前記複数種類の合成情報の少なくとも一部の合成情報を操作子の操作により取得する取得手段と、前記取得手段により取得された複数種類の合成情報に含まれる音韻列情報の示す音韻列の子音の継続長を音韻制御情報にしたがって変化させて音声合成を行う音声合成手段とを有する音声合成装置を提供する。
【選択図】図３

Description

この発明は、音声合成技術に関し、特に、リアルタイム音声合成技術に関する。

音声ガイダンスにおける案内音声や文芸作品の朗読音声、或いは歌唱曲の歌唱音声などを表す音声信号を、複数種類の合成情報を用いて電気的な信号処理により合成する音声合成技術が普及している。例えば、歌唱音声の合成の場合は、歌唱音声の合成対象の歌唱曲における韻律変化を示す韻律情報（例えば、当該歌唱曲のメロディを構成する各音符の音高や継続長を表す音符情報）と当該歌唱曲の歌詞の音韻列を表す情報などの音楽表現情報が上記合成情報として用いられる。音声ガイダンスにおける案内音声や文芸作品の朗読音声の音声信号を合成する場合は、案内文や文芸作品の文章の音韻列を表す情報と、イントネーションやアクセントなどの韻律変化を示す韻律情報が上記合成情報として用いられる。従来、この種の音声合成は、合成対象の音声全体に亙る各種合成情報を予め音声合成装置に全て入力しておき、合成対象の音声全体の音波形を表す音声信号をそれら合成情報に基づいて一括して生成する所謂バッチ処理方式が一般的であった。しかし、近年ではリアルタイム方式の音声合成技術も提案されている（例えば、特許文献１参照）。

リアルタイム方式の音声合成の一例としては、楽曲全体の歌詞の音韻列を示す情報を歌唱合成装置に予め入力しておき、ピアノ鍵盤を模したキーボードの操作により音符毎に歌詞を発音する際の音高や継続長を表す音符情報を逐次入力することで音符毎に歌唱音声を合成する技術が挙げられる。また、近年では、歌詞の音韻列を構成する各音韻（子音や母音）を入力するための操作子を配列した音韻情報入力部とピアノ鍵盤を模した音符情報入力部とを左右に並べた歌唱合成用キーボードを用いて、音符毎に音符情報と当該音符に合わせて発音する歌詞の音韻列を示す音韻列情報とをリアルタイムでユーザに逐次入力させ、音符毎に歌唱音声の合成を行うことも提案されている。

特許３８７９４０２号

電子ピアノなどの電子鍵盤楽器のなかには、押鍵速度によって音符毎の音の強さ（ベロシティ）を指定することができるものがあり、このような電子鍵盤楽器によれば表現力の豊な演奏を行うことができる。歌唱合成用キーボードのなかにも押鍵速度によってベロシティを指定可能なものもあるが、歌唱音声の場合、音符毎の音の強さを変えるだけでは十分な表現力を得られないことが多い。これは案内音声や朗読音声のリアルタイム合成においても同様である。

本発明は上記課題に鑑みて為されたものであり、従来よりも表現力の豊な音声をリアルタイム方式で合成することを可能にする技術を提供することを目的とする。

上記課題を解決するために本発明は、合成対象の音声の音韻列を示す音韻列情報と前記音声の韻律変化を示す韻律情報と前記音韻列情報の示す音韻列の一部の音韻を変化させることを示す音韻制御情報とを含む複数種類の合成情報を取得する手段であって、前記音韻列情報と前記韻律情報と前記音韻制御情報のうちの少なくとも１つについては操作子の操作により取得する取得手段と、前記取得手段により取得された複数種類の合成情報に含まれる音韻列情報の示す音韻列の一部の音韻を当該複数種類の合成情報に含まれる音韻制御情報にしたがって変化させて音声合成を行う音声合成手段とを有することを特徴とする音声合成装置、を提供する。

本発明の音声合成装置では、取得手段により複数種類の合成情報が取得されたことを契機として音声合成手段による音声合成が行われる。上記複数種類の合成情報のうち音韻列情報、韻律情報および音韻制御情報のうちの少なくとも１つは操作子の操作により取得されるのであるから、本発明の音声合成装置ではリアルタイム方式の音声合成が行われる。本発明の音声合成装置の音声合成手段は、音韻列情報の示す音韻列の一部の音韻を音韻制御情報にしたがって変化させて音声合成を行う。ここで、合成対象が日本語の歌唱音声であり、かつ音韻列情報の表す音韻列が「子音＋母音」である場合、音韻列の一部を変化させる処理の具体例としては、子音の継続長を変化させる（例えば、短くする）処理、子音を欠落させる処理、子音を音の近似した他の子音に差し替える処理、子音の繰り返しを発生させる（すなわち、母音の手前に１または複数の子音を挿入する）処理等が挙げられる。これらの処理によって音韻列の一部の音韻を変化させて歌唱合成を行うと、合成結果の歌唱音声では子音の聴き取り易さが低下する。人の歌唱音声や朗読音声には、発音が早口であるほど子音を聴き取り難くなる（子音の聴き取り易さが低下する）といった傾向があるため、本発明によれば、人の歌唱音声や朗読音声特有の傾向を再現することができ、従来よりも表現力の豊な音声をリアルタイム方式で合成することが可能になる。なお、合成対象が例えば英語などの日本語以外の言語の歌唱音声である場合には、音符に合わせて歌唱する歌詞の末尾に子音が位置している場合があり、この場合は末尾の子音について、継続長を変化させる処理、子音を欠落させる処理、子音を音の近似した他の子音に差し替える処理、子音の繰り返しを発生させる（例えば、当該子音とこれに先行する音素の間に当該子音を１または複数個挿入する）処理を行えば良い。

より好ましい態様においては、音韻制御情報に応じた頻度で子音の継続長を変化させる処理等を音声合成手段に実行させる態様や、子音の継続長の調整量や欠落或いは挿入する子音の個数、差し替える子音の個数を音韻制御情報に応じた可変値とする態様が考えられる。このような態様によれば、合成歌唱音声における子音の聴き取り易さをきめ細かく制御することが可能になり、合成歌唱音声の表現力をさらに向上させることができる。

複数種類の合成情報に基づいて歌唱音声を合成する歌唱合成装置に本発明を適用する場合には、音韻列情報や韻律情報をユーザに入力させるための入力装置として歌唱合成用キーボードを用いるようにすれば良い。この場合、歌唱合成用キーボードを用いて入力される一連の音符情報が韻律情報の役割を果たす。また、歌唱合成用キーボードを用いて音韻制御情報を入力できるようにするために、音韻情報入力部または音符情報入力部の何れかに音韻制御情報を入力するための専用の操作子を設けても良く、音符情報を入力するための操作子に音韻制御情報を入力する役割を担わせても良い。具体的には、音高を指定する際の押鍵速度に応じたベロシティに音韻制御情報の役割を担わせることが考えられる。

また、別の好ましい態様としては、前記複数種類の合成情報には、理想的な韻律変化からズレを生じさせて音声合成することを指示する韻律制御情報が含まれており、当該ズレが生じるように韻律制御情報にしたがって韻律変化を調整しつつ音声合成を行う処理を音声合成手段に実行させる態様が考えられる。ここで、理想的な韻律変化からのズレを生じさせる方法の具体例としては、アタック（子音から母音への過渡的な韻律変化）の深さを変化させる態様、アタックの継続長を変化させる態様、アタックの欠落を発生させる態様が挙げられる。また、韻律変化の調整の他の具体例としては、アンダーシュート（無音から子音への韻律変化）の深さまたはオーバーシュート（子音から母音への韻律変化）の高さ（或いは両者）を変化させる態様、アンダーシュートまたはオーバーシュート（或いは両者）の継続長を変化させる態様、アンダーシュートまたはオーバシュート（或いは両者）の欠落を発生させる態様が挙げられる。このように韻律変化に調整を加えることによっても合成音声における子音の聴き取り易さを調整することができる。

この発明の第１実施形態の歌唱合成装置１の構成例を示す図である。同歌唱合成装置１の動作を説明するための図である。子音の継続長の調整により、音韻列の一部の音韻を変化させる態様を説明するための図である。子音の欠落を発生させることで、音韻列の一部の音韻を変化させる態様を説明するための図である。子音の差し替えにより、音韻列の一部の音韻を変化させる態様を説明するための図である。子音の挿入により、音韻列の一部の音韻を変化させる態様を説明するための図である。アタックの深さの調整により理想的な韻律変化からのズレを生じさせる態様を説明するための図である。アタックの継続長の調整により理想的な韻律変化からのズレを生じさせる態様を説明するための図である。アタックを欠落させることにより理想的な韻律変化からのズレを生じさせる態様を説明するための図である。アンダーシュートの深さおよびオーバーシュートの高さの調整により理想的な韻律変化からのズレを生じさせる態様を説明するための図である。アンダーシュートおよびオーバーシュートの継続長の調整により理想的な韻律変化からのズレを生じさせる態様を説明するための図である。アンダーシュートおよびオーバーシュートを欠落させることにより理想的な韻律変化からのズレを生じさせる態様を説明するための図である。

以下、図面を参照しつつ、本発明の実施形態について説明する。
（Ａ：第１実施形態）
図１は、本発明の音声合成装置の一実施形態の歌唱合成装置１の構成例を示すブロック図である。この歌唱合成装置１は、音韻列情報および韻律情報などの複数種類の合成情報をユーザに入力させ、それら合成情報を用いてリアルタイム方式の歌唱合成を行う装置である。図１に示すように、歌唱合成装置１は、制御部１１０、操作部１２０、表示部１３０、音声出力部１４０、外部機器インタフェース（以下、「Ｉ／Ｆ」と略記）部１５０、記憶部１６０、および、これら構成要素間のデータ授受を仲介するバス１７０を含んでいる。

制御部１１０は、例えばＣＰＵ（Central Processing Unit）である。制御部１１０は、記憶部１６０に記憶されている歌唱合成プログラムにしたがって作動することにより、上記複数種類の合成情報に基づいて歌唱音声を合成する音声合成手段として機能する。この歌唱合成プログラムにしたがって制御部１１０が実行する処理の詳細については後に明らかにする。本実施形態では制御部１１０としてＣＰＵを用いるがＤＳＰ（Digital Signal Processor）を用いても勿論良い。

操作部１２０は、前述した歌唱合成用キーボードであり、音韻情報入力部と音符情報入力部とを有している。歌唱合成装置１のユーザは、操作部１２０を操作することによって、歌唱音声の合成対象の歌唱曲のメロディを構成する音符と音符に合わせて発音する歌詞の音韻列を指定することができる。例えば、「さ」という歌詞を指定する場合には音韻情報入力部に設けられている複数の操作子のうちの子音「ｓ」に対応した操作子と母音「ａ」に対応した操作子を順次押下すれば良く、当該歌詞に対応する音符の音高として「Ｃ４」を指定する場合には音符情報入力部に設けられている複数の操作子（鍵）のうち当該音高に応じた鍵を押下してその発音開始を指示し、当該鍵から指を離すことで発音終了を指示すれば良い。つまり、当該鍵を押下している時間の長さが当該音符の継続長となる。また、ユーザは、音符に対応する鍵の押鍵速度によって当該音符に合わせて歌詞を発音する際のベロシティを指定することができる。なお、ベロシティの指定を含む音符情報を押鍵操作によって入力することを可能にする仕組みとしては、従来の電子鍵盤楽器におけるものを採用すれば良い。

操作部１２０は、音韻列を指定する操作が為された場合には当該音韻列を示す音韻列情報を制御部１１０に与える。また、操作部１２０は、発音開始を指示する押鍵操作が為された場合には、押下された鍵に応じたノートオンイベント（ＭＩＤＩ（Musical Instrument Digital Interface）イベント）を発音開始を指示する音符情報として制御部１１０に与える。このノートオンイベントには、押下された鍵に対応した音高を示す情報とその押鍵速度に応じたベロシティの大きさを示す情報（１〜１２７の整数値）とが含まれている。そして、操作部１２０は、押鍵が解除されたことを契機として当該鍵に応じたノートオフイベント（ＭＩＤＩイベント）を発音終了を指示する音符情報として制御部１１０に与える。このように音符情報入力部の操作子に対する操作により入力される音符情報は前述した韻律情報の役割を果たす。

詳細については後述するが、歌唱合成装置１のユーザは、音符に対応する鍵の押鍵速度によって、合成後の歌唱音声における子音の聴き取り易さを調整する（低下させる）ことができる。このような子音の聴き取り易さの調整は、音韻情報入力部の操作により指定した音韻列（すなわち、操作部１２０を介して入力された音韻列情報の示す音韻列）の一部の音韻を変化させて歌唱合成を行うことで実現される。本実施形態では、発音開始を指示する音符情報に含まれているベロシティには、音韻列情報の示す音韻列の一部の音韻を変化させて歌唱合成を行うことを指示する音韻制御情報の役割が与えられている。つまり、操作部１２０は、歌唱音声の合成に用いる複数種類の合成情報（本実施形態では、音韻列情報、韻律情報および音韻制御情報）を制御部１１０に取得させるための取得手段の役割を果たす。

表示部１３０は、例えば液晶ディスプレイとその駆動回路であり、制御部１１０による制御の下、歌唱合成装置１の使用を促すメニュー画像などの各種画像を表示する。音声出力部１４０は、図１に示すように、Ｄ／Ａ変換器１４２、増幅器１４４、およびスピーカ
１４６を含んでいる。Ｄ／Ａ変換器１４２は、制御部１１０から与えられるデジタル形式の音声データ（合成歌唱音声の音波形を表す音声データ）にＤ／Ａ変換を施し、変換結果のアナログ音声信号を増幅器１４４に与える。増幅器１４４は、Ｄ／Ａ変換器１４２から与えられる音声信号の信号レベル（すなわち、音量）をスピーカ駆動に適したレベルまで増幅してスピーカ１４６に与える。スピーカ１４６は、増幅器１４４から与えられる音声信号を音として出力する。

外部機器Ｉ／Ｆ部１５０は、例えばＵＳＢ（Universal Serial Buss）インタフェースやオーディオインタフェースなど、歌唱合成装置１に他の外部機器を接続するためのインタフェースの集合体である。本実施形態では、歌唱合成用キーボード（操作部１２０）や音声出力部１４０が歌唱合成装置１の構成要素である場合について説明するが、歌唱合成用キーボードや音声出力部１４０を外部機器Ｉ／Ｆ部１５０に接続される外部機器としても勿論良い。

記憶部１６０は、不揮発性記憶部１６２と揮発性記憶部１６４とを含んでいる。不揮発性記憶部１６２は、例えばＲＯＭ（Read Only Memory）やフラッシュメモリ或いはハードディスクなどの不揮発性メモリにより構成されており、揮発性記憶部１６４は例えばＲＡＭ（Random Access Memory）などの揮発性メモリにより構成されている。揮発性記憶部１６４は各種プログラムを実行する際のワークエリアとして制御部１１０によって利用される。一方、不揮発性記憶部１６２には、図１に示すように、歌唱合成用ライブラリ１６２ａと、歌唱合成プログラム１６２ｂとが予め格納されている。

歌唱合成用ライブラリ１６２ａとは、様々な音素やダイフォン（音素から異なる音素（無音を含む）への遷移）の音声波形を表す素片データを格納したデータベースである。なお、歌唱合成用ライブラリ１６２ａは、モノフォンやダイフォンの他にトライフォンの素片データを格納したデータベースであっても良く、また、音声波形の音素の定常部や他の音素への遷移部（過渡部）が格納されたデータベースであっても良い。歌唱合成プログラム１６２ｂは、歌唱合成用ライブラリ１６２ａを利用した歌唱合成を制御部１１０に実行させるためのプログラムである。歌唱合成プログラム１６２ｂにしたがって作動している制御部１１０は明瞭度調整処理および歌唱合成処理の２種類の処理を実行する。

歌唱合成処理とは、操作部１２０を介して取得した複数種類の合成情報に基づいて歌唱音声の音波形を表す音声データを合成して出力する処理である。例えば、図２（ａ）に示すように、合成対象の歌詞として「ま」が指定され、当該歌詞を発音する際の音高として「Ｃ４」が指定されたとする。この場合、子音「ｍ」＋母音「ａ」を表す音韻列情報と音高「Ｃ４」の音の発音開始を指示する音符情報とが操作部１２０から制御部１１０に与えられる。制御部１１０は、当該音韻列情報の示す音韻列を生成する処理を歌唱合成処理の前処理として実行する。図２（ａ）に示すように、合成対象の歌詞として「ま」が指定された場合には、制御部１１０は、図２（ｂ）に示すように、無音（図２（ｂ）では、＃により表記、以降の図面においても同様）から子音「ｍ」への遷移、子音「ｍ」から母音「ａ」への遷移、母音「ａ」、および母音「ａ」から無音への遷移を配列した音韻列を生成する。また、この前処理では、制御部１１０は、発音開始を指示する音符情報に基づいて図２（ｃ）に示すピッチカーブを生成する。そして、歌唱合成処理では、制御部１１０は、上記音韻列を構成する各音素（或いはダイフォン）の素片データを歌唱合成用ライブラリ１６２ａから読み出して周波数領域のデータに変換し、周波数領域のデータに変換済の各素片データに上記ピッチカーブにしたがってピッチ変換を施して結合し、さらに時間領域のデータに戻して合成歌唱音声の音声データを生成する。

図２（ｃ）に示すピッチカーブは、自然な聴感の歌唱音声が得られるという点において理想的な韻律変化を示すピッチカーブである。図２（ｃ）に示すピッチカーブにおいて、区間Ｔ１における韻律変化は無音から子音「ｍ」への過渡的な遷移（アンダーシュート）に対応する。同区間Ｔ２における韻律変化は子音「ｍ」におけるアタックに対応する。同区間Ｔ３における韻律変化は子音「ｍ」から母音「ａ」への過渡的な遷移（オーバーシュート）に対応する。同区間Ｔ４における音高の変化は母音「ａ」における音高の定常的な変化（サスティン）に対応する。そして、同区間Ｔ５における音高の変化は母音「ａ」から無音への遷移（リリース）に対応する。本実施形態では、図２（ｃ）に示す理想的なピッチカーブを特徴付けるピッチカーブデータ（区間Ｔ１〜Ｔ５の各区間の継続長（継続時間）、アンダーシュートの深さ（Ｄ）、アタックの勾配（α）、オーバーシュートの高さＨの各々を示すデータなど）が不揮発性記憶部１６２に予め格納されており、制御部１１０はピッチカーブデータと、発音開始を指示する音符情報の示す音高と、に基づいてピッチカーブを生成し、そのピッチカーブにしたがって各素片データのピッチ変換を実行する。また、合成歌唱音声の音量についても同様に、自然な聴感を得られるという点において理想的な音量の時間変化を示すデータを不揮発性記憶部１６２に予め記憶させておき、このデータにしたがって音量を制御しつつ合成歌唱音声を出力するようにしても良い。

明瞭度調整処理とは、発音開始を指示する音符情報に含まれているベロシティの値ｖに応じて、当該音符に合わせて発音する歌詞の子音の聴き取り易さを調整する処理である。前述したように、本実施形態では、音韻列情報の示す音韻列（上記前処理にて生成した音韻列）の一部の音韻を変化させることで子音の聴き取り易さの調整が実現される。この明瞭度調整処理は歌唱合成処理に先立って（上記前処理と並列に、或いは前処理に後続して）実行される処理であり、（ａ）子音の継続長を変化させる（例えば、短くする）こと、（ｂ）子音の欠落を発生させること、（ｃ）子音を音の近似した他の子音に差し替えること、および（ｄ）子音の繰り返しを発生させることの何れかによって、音韻列情報の示す音韻列の一部の音韻を変化させる。以下、図２（ａ）に示す場合と同様に、「ま」（すなわち、子音「ｍ」＋母音「ａ」）を示す音韻列情報が操作部１２０から制御部１１０へ与えられた場合を例にとって、明瞭度調整処理の具体的な処理内容を説明する。

（Ａ−１：子音の継続長の短縮により、音韻列の一部の音韻を変化させる態様）
音韻列情報の示す音韻列の一部の音韻を、子音の継続長の短縮により変化させる態様の具体例としては、図３に示すように、無音から子音への過渡的な遷移（図３に示す例では、[＃−ｍ]）および子音から母音への過渡的な遷移（図３に示す例では、[ｍ−ａ]）の各々の継続長をベロシティの値ｖに応じた調整量（ベロシティの値ｖが大きいほど大きい値）だけ短縮し、母音の継続長を当該短縮した分だけ延長する態様が挙げられる。無音から子音への過渡的な遷移および子音から母音への過渡的な遷移が短縮されると、早口で発音された場合のように、子音の聴き取り易さが低下する。このように、子音の聴き取り易さを低下させる調整を施すのは、従来の歌唱合成技術によれば十分に子音を聴き取り易い歌唱音声が合成されるため、敢えて聴き取り易さが低下するように（すなわち、聴き取り難くなるように）調整することで、早口で発音されたかのような歌唱音声を合成することができるからである。

本実施形態では、子音の継続長の調整量をベロシティｖの値に応じた可変値としたが、当該調整量を固定値とし、ベロシティの値ｖが所定の閾値ｔｈ１を上回っている場合に、子音の継続長の調整を行うようにしても良い。また、子音の継続長の短縮をベロシティの値ｖに応じた頻度（すなわち、ベロシティが大きいほど高い頻度）で発生させる制御を制御部１１０に実行させも良い。具体的には、１〜１２７範囲で発生させた疑似乱数とベロシティの大小比較を行い、前者が後者以下である場合に子音の継続長を短縮する処理を制御部１１０に実行させるようにすれば良い。なお、子音の継続長の短縮をベロシティの値ｖに応じた頻度で発生させる場合には、子音の継続長の短縮量は固定値であっても良く、ベロシティの値ｖに応じた可変値であっても良い。

（Ａ−２：子音の欠落を発生させることで音韻列の一部の音韻を変化させる態様）
子音の欠落を発生させることで音韻列の一部の音韻を変化させる態様の具体例としては、ベロシティの値ｖに応じた頻度で子音の欠落を発生させる態様が挙げられる。具体的には、図４に示すように、音韻列情報の示す音韻列から、無音から子音への過渡的な遷移および子音から母音への過渡的な遷移の各々に対応するダイフォンを欠落させ、代わりに無音から母音への遷移に対応するダイフォンを補う処理をベロシティの値ｖに応じた頻度で制御部１１０に実行させるのである。無音から母音への過渡的な遷移に対応するダイフォンを補うのは、歌唱音声が滑らかに立ち上がるようにするためである。このような態様によれば、子音は最早発音されなくなる。なお、ベロシティの値ｖに応じた頻度で子音の欠落を発生させるのではなく、ベロシティの値ｖが所定の閾値ｔｈ１を上回っている場合には常に子音の欠落を発生させるようにしても良い。また、子音部分が複数の音韻で構成されている場合（例えば、図５における[＃−ｍ]を［＃−ｍ］＋［ｍ］と置き換えた場合など）には、子音部分を構成する複数の音韻のうちのベロシティの値ｖに応じた個数の音韻を欠落させる（或いは、当該個数の音韻を当該ベロシティの値ｖに応じた頻度で欠落させる）ことで子音の欠落を発生させても良い。

（Ａ−３：子音の差し替えにより音韻列の一部の音韻を変化させる態様）
子音の差し替えにより音韻列の一部の音韻を変化させる態様の具体例としては、子音の差し替えをベロシティの値ｖに応じた頻度で発生させる態様が挙げられる。具体的には、図５に示すように、音韻列情報の示す音韻列における子音を、音の近似した他の子音に差し替える処理をベロシティの値ｖに応じた頻度で制御部１１０に実行させるのである。図５には、子音「ｍ」を子音「ｎ」に差し替える場合について例示されている。このような子音の差し替えを可能にするには、子音毎に差し替え候補となる子音を示す差し替え制御情報を不揮発性記憶部１６２に予め記憶させておき、この差し替え制御情報にしたがって制御部１１０に子音の差し替えを行わせるようにすれば良い。なお、ベロシティの値ｖに応じた頻度で子音の差し替えを発生させるのではなく、ベロシティの値ｖが所定の閾値ｔｈ１を上回っている場合には常に子音の差し替えを発生させても良い。また、子音部分が複数の音韻で構成されている場合には、子音部分を構成する複数の音韻のうちのベロシティの値ｖに応じた個数の音韻を音の近似した他の音韻に差し替える（或いは、当該個数の音韻を当該ベロシティの値ｖに応じた頻度で差し替える）ようにしても良い。

（Ａ−４：子音の挿入により音韻列の一部の音韻を変化させる態様）
子音の挿入により音韻列の一部の音韻を変化させる態様の具体例としては、図６に示すように、音韻列情報の示す音韻列に含まれる子音に関連するダイフォン（図６に示す例では、子音から無音への過渡的な変化に対応するダイフォンＤ１と無音から子音への過渡的な変化に対応するダイフォンＤ２）を当該子音と母音の間に挿入する処理をベロシティｖの値に応じた頻度で制御部１１０に実行させる態様が挙げられる。このような子音の挿入を行うことによって、あたかも噛みながら発音しているかのような歌唱音声を合成し、子音の聴き取り易さを低下させることができる。なお、挿入するダイフォンの数については予め定めた固定値としても良く、ベロシティの値ｖに応じた可変値（ベロシティの値ｖが大きいほど、大きくなる値）としても良い。また、ベロシティの値ｖに応じた頻度で子音の挿入を発生させるのではなく、ベロシティの値ｖが所定の閾値ｔｈ１を上回っている場合には予め定めた数（或いはベロシティの値ｖに応じて定まる数）の子音を挿入する処理を常に制御部１１０に実行させるようにしても良く、また、ベロシティの値ｖに応じて定まる数の子音を挿入する処理を制御部１１０に実行させても良い。

以上説明したように本実施形態の歌唱合成装置１によれば、発音開始を指示する操作にて指定されたベロシティの値ｖに応じた頻度（或いは調整量）で音韻列情報の示す音韻列の一部の音韻を変化させた後に、歌唱音声の合成が行われる。このため、本実施形態によれば、発音開始を指示する際の押鍵速度によって歌唱音声における子音の聴き取り易さを制御し、早口で発音しているかのような歌唱音声や、噛みながら発音しているかのような歌唱音声など様々な態様の歌唱音声を合成することが可能になり、歌唱合成の表現力が向上する。なお、音韻列情報の示す音韻列の一部の音韻を変化させることを、（ａ）子音の継続長の短縮、（ｂ）子音の欠落を発生させること、（ｃ）子音の差し替え、および（ｄ）子音の挿入の何れにより実現するのかについては予め定めておいても良く、また、ユーザに選択させるようにしても良い。

また、上記（ａ）〜（ｄ）の態様の何れか１つにより、音韻列の一部の音韻を変化させるのではなく、これらのうちの複数の組み合わせ（例えば、子音の継続長の短縮と子音の差し替えの組み合わせ、或いは子音の差し替えと子音の挿入の組み合わせ）により音韻列の一部の音韻を変化させても良い。また、子音のみを対象とするのではなく母音についても、継続長の調整、欠落、他の母音への差し替え、或いは挿入の各処理を施しても良い。このような態様によれば、「さいた」という歌詞の歌唱音声を合成する場合に、「さ、さ、さ、いた」（子音＋母音部分を繰り返し）という歌唱音声を合成したり、「あ、あ、あいた」（子音の欠落＋母音の繰り返し）という歌唱音声を合成するなど、多様な歌唱音声を合成することが可能になり、表現力をさらに豊にすることが可能になる。また、英語などの日本語以外の言語で記述された歌詞では、末尾が子音の場合（例えば、ｆａｎなど）があるため、末尾の子音についても上記（ａ）〜（ｄ）の何れかの態様（或いはこれらのうちの複数の組み合わせ）によって聴き取り易さを調整しても良い。要は、音韻の継続長の調整、欠落、差し替え、或いは挿入により、音韻列情報の示す音韻の一部を変化させる態様であれば良い。

（Ｂ：第２実施形態）
上記第１実施形態の明瞭度調整処理では、音韻列情報に示す音韻列の一部の音韻（子音）を変化させて歌唱音声を合成することで子音の聴き取り易さを低下させた。これに対して本実施形態の明瞭度調整処理では、図２（ｃ）に示す理想的な韻律変化からのズレが生じるように歌唱音声を合成することで子音の聴き取り易さを低下させる点に特徴がある。ここで、理想的な韻律変化からのズレを生じさせる方法の具体例としては、理想的な韻律変化におけるものから、アタックの深さや継続長を変更する態様、アタックの欠落を発生させる態様、オーバーシュートの高さおよびアンダーシュートの深さや継続長を変更する態様、オーバーシュートおよびアンダーシュートの欠落を発生させる態様が挙げられる。なお、本実施形態の歌唱合成装置の構成は第１実施形態におけるものと特段に変わるところはないため詳細な説明を省略し、以下では韻律変化の具体的な調整態様について説明する。

（Ｂ−１：アタックの調整により理想的な韻律変化からのズレを生じさせる態様）
図７には、アタックの深さの調整により理想的な韻律変化からのズレを生じさせる態様が例示されている。図７では、理想的な韻律変化におけるピッチカーブが破線で描画されており、本態様にて用いるピッチカーブが実線で描画されている。なお、図７では、両ピッチカーブのオーバーシュート以降は重なっている（図８〜図１２においても両ピッチカーブの一部は重なっている）。本態様では、制御部１１０は、ピッチカーブデータ（より正確には、アタックの勾配αを表すデータ）に対して、発音開始を指示する音符情報に含まれているベロシティの値ｖに応じた調整量だけアタックの深さを変化させる（例えば、浅くする）調整を施し、当該調整後のピッチカーブデータと当該音符情報の示す音高とに基づいてピッチカーブを生成する。アタックの深さを理想的なピッチカーブにおける深さよりも浅くすることによって子音の聴き取り易さは低下するからである。本実施形態では、アタックの深さを理想的なピッチカーブにおける深さよりも浅くすることで子音の聴き取り易さを低下させるが、アタックの深さを理想的なピッチカーブにおける深さよりも深くすることでも子音の聴き取り易さは低下する。したがって、発音開始を指示する音符情報に含まれているベロシティの値ｖに応じてアタックの深さを深くする態様であっても良い。アタックの深さを変化させる態様として、理想的なピッチカーブにおける深さよりも浅くする態様と、理想的なピッチカーブにおける深さよりも深くする態様の何れを採用するのかについては予め定めておいても良いし、ユーザに選択させるようにしても良い。

本実施形態では、発音開始を指示する音符情報に含まれているベロシティは、理想的な韻律変化からズレを生じさせて歌唱音声を合成すること、およびそのズレの大きさを指示する韻律制御情報の役割を担っている。なお、発音開始を指示する音符情報に含まれているベロシティの値ｖに応じた頻度でアタックの深さを所定量（或いは当該ベロシティの値ｖに応じた量）だけ理想的なピッチカーブにおける深さから変化させる処理を制御部１１０に実行させても良い。また、発音開始を指示する音符情報に含まれているベロシティの値ｖが所定の閾値ｔｈ２（第１実施形態における閾値ｔｈ１と同じ値であっても良く、異なる値であっても良い）を上回っている場合に、アタックの深さを所定量（或いは当該ベロシティの値ｖに応じた量）だけ理想的なピッチカーブにおける深さから変化させる処理を制御部１１０に実行させても良い。

図８には、アタックの継続長の調整により理想的な韻律変化からのズレを生じさせる態様が例示されている。図８では、前掲図７と同様に、理想的な韻律変化におけるピッチカーブが破線で描画されており、本態様にて用いるピッチカーブが実線で描画されている。本態様では、制御部１１０は、発音開始を指示する音符情報に含まれているベロシティの値ｖに応じた調整量だけアタックの継続長を理想的なピッチカーブにおける継続長から変化させ（具体的には、短縮し）、その変化分だけ母音におけるサスティンを変化させて（具体的には、延長して）ピッチカーブを生成する。このように、アタックの継続長を理想的なピッチカーブにおける継続長から変化させることによっても、子音の聴き取り易さは低下する。ここで、図８にて実線で示すピッチカーブの具体的な生成方法としては、ピッチカーブデータ（より正確には、図２（ｃ）の区間Ｔ２の長さを示すデータ、アタックの勾配αを示すデータおよび区間Ｔ４の長さを示すデータ）に対して区間Ｔ２がベロシティの値ｖに応じた長さだけ短くなり、かつその分だけ区間Ｔ４が長くるように調整を施し、当該調整後のピッチカーブデータと発音開始を指示する音符情報の示す音高とに基づいてピッチカーブを生成する方法が考えられる。なお、本態様においても、発音開始を指示する音符情報に含まれているベロシティの値ｖに応じた頻度でアタックの継続長を所定量（或いは当該ベロシティの値ｖに応じた量）だけ理想的なピッチカーブにおける継続長から変化させる処理を制御部１１０に実行させても良い。また、発音開始を指示する音符情報に含まれているベロシティの値ｖが所定の閾値ｔｈ２を上回っている場合に、アタックの継続長を所定量（或いは当該ベロシティの値ｖに応じた量）だけ理想的なピッチカーブにおける継続長から変化させる処理を制御部１１０に実行させても良い。

図９には、アタックを欠落させる（アタックの継続長をゼロにしてピッチカーブを生成する）ことで理想的な韻律変化からのズレを生じさせる態様が例示されている。図９では、前掲図７と同様に、理想的な韻律変化におけるピッチカーブが破線で描画されており、本態様にて用いるピッチカーブが実線で描画されている。このように、アタックを欠落させる調整を施すことによっても子音の聴き取り易さが低下する。アタックの欠落については、発音開始を指示する音符情報に含まれているベロシティの値ｖに応じた頻度で発生させる態様や、当該ベロシティの値ｖが所定の閾値ｔｈ２を上回っている場合にアタックの欠落を発生させる態様が考えられる。

（Ｂ−２：アンダーシュートおよびオーバーシュートの調整により理想的な韻律変化からのズレを生じさせる態様）
図１０には、アンダーシュートの深さＤおよびオーバーシュートの高さＨの調整により、理想的な韻律変化からのズレを生じさせる態様が例示されている。図１０では、理想的な韻律変化におけるピッチカーブが破線で描画されており、本態様にて用いるピッチカーブが実線で描画されている。本態様では、制御部１１０は、発音開始を指示する音符情報に含まれているベロシティの値ｖに応じた調整量だけアンダーシュートの深さＤを理想的な韻律変化における深さから変化させ（例えば、浅くし）、かつオーバーシュートの高さＨを当該ベロシティの値ｖに応じた調整量だけ理想的な韻律変化における高さから変化させて（例えば、低くして）ピッチカーブを生成する。このような態様によっても、子音の聴き取り易さが低下する。なお、アタックの深さの調整と同様に、発音開始を指示する音符情報に含まれているベロシティの値ｖに応じた調整量だけアンダーシュートの深さＤを深くし、かつオーバーシュートの高さＨを当該ベロシティの値ｖに応じた調整量だけ高くする態様であっても良い。また、発音開始を指示する音符情報に含まれているベロシティの値ｖに応じた頻度でアンダーシュートの深さＤおよびオーバーシュートの高さＨを所定量（或いは当該ベロシティの値ｖに応じた量）だけ変化させる処理を制御部１１０に実行させても良い。また、当該ベロシティの値ｖが所定の閾値ｔｈ２を上回っている場合に、アンダーシュートの深さＤおよびオーバーシュートの高さＨを所定量（或いは当該ベロシティの値ｖに応じた量）だけ変化させる処理を制御部１１０に実行させても良い。

図１１には、アンダーシュートおよびオーバーシュートの継続長の調整により、理想的な韻律変化からのズレを生じさせる態様が例示されている。図１１では、理想的な韻律変化におけるピッチカーブが破線で描画されており、本態様にて用いるピッチカーブが実線で描画されている。本態様では、制御部１１０は、発音開始を指示する音符情報に含まれているベロシティの値ｖに応じた調整量だけアンダーシュートおよびオーバーシュートの各々の継続長を理想的な韻律変化における継続長から変化させ（具体的には、短縮し）、その変化分だけ母音のサスティンの継続長を変化させて（具体的には、延長して）ピッチカーブを生成する。このような態様によっても子音の聴き取り易さは低下する。なお、発音開始を指示する音符情報に含まれているベロシティの値ｖに応じた頻度でアンダーシュートおよびオーバーシュートの継続長を所定量（或いは当該ベロシティの値ｖに応じた量）だけ理想的なピッチカーブにおけるものから変化させる処理を制御部１１０に実行させても良い。また、当該ベロシティの値ｖが所定の閾値ｔｈ２を上回っている場合に、アンダーシュートおよびオーバーシュートの継続長を所定量（或いは当該ベロシティの値ｖに応じた量）だけ変化させる処理を制御部１１０に実行させても良い。

図１２には、アンダーシュートおよびオーバーシュートを欠落させる（アンダーシュートの継続長およびオーバーシュートの継続長を共にゼロにしてピッチカーブを生成する）ことにより、理想的な韻律変化からのズレを生じさせる態様が例示されている。図１２では、理想的な韻律変化におけるピッチカーブが破線で描画されており、本態様にて用いるピッチカーブが実線で描画されている。このような態様によっても子音の聴き取り易さは低下する。アンダーシュートおよびオーバーシュートの欠落については、発音開始を指示する音符情報に含まれているベロシティの値ｖに応じた頻度で発生させても良く、また、当該ベロシティの値ｖが所定の閾値ｔｈ２を上回っている場合に発生させても良い。

以上説明したように、理想的な韻律変化からズレを生じさせて音声合成することを指示する韻律制御情報にしたがって韻律変化を調整しつつ歌唱音声を合成することによっても、歌唱音声における子音の聴き取り易さを制御することができる。本実施形態では、発音開始を指示する音符情報に含まれているベロシティの値が上記韻律制御情報として用いられるため、ユーザは歌唱音声の音高を指定する際の押鍵速度によって、合成歌唱音声における子音の聴き取り易さを制御することができ、表現力の豊な歌唱音声をリアルタイム方式で合成することが可能になる。なお、アタックの調整態様として、深さの調整、継続長の調整、および欠落の発生の何れを採用するのかについては予め定めておいても良く、ユーザに選択させるようにしても良い。アンダーシュートおよびオーバーシュートの調整についても同様に、深さおよび高さの調整、継続長の調整、欠落の発生の何れを採用するのかについては予め定めておいても良く、ユーザに選択させても良い。また、オーバーシュートとアンダーシュートの両者を同時に調整するのではなく、何れか一方のみを調整する態様であっても良い。

（Ｃ：変形）
以上本発明の各実施形態について説明したが、これら実施形態に以下の変形を加えても勿論良い。
（１）上記第１実施形態では音韻列情報の示す音韻列の一部の音韻を変化させることで子音の聴き取り易さを調整する態様について説明し、上記第２実施形態では理想的な韻律変化からのズレを発生させることで子音の聴き取り易さを調整する態様について説明した。しかし、複数種類の合成情報として、音韻列情報、韻律情報、音韻制御情報および韻律制御情報を歌唱合成装置へ入力し、音韻列の一部の音韻を音韻制御情報に応じて変化させる処理と、理想的な韻律変化からのズレを韻律制御情報に応じて発生させる処理とを併用して子音の聴き取り易さを調整するようにしても勿論良い。両者を併用することで、何れか一方のみを行う場合に比較して、より多様な歌唱音声を合成することが可能になると期待されるからである。なお、音韻制御情報と韻律制御情報は互いに別個の情報であっても良いし、１つの情報に音韻制御情報と韻律制御情報の役割を兼ねさせても良い。例えば、後者の態様の一例としては、発音開始を指示する音符情報（ノートオンイベント）に含まれているベロシティに音韻制御情報の役割と韻律制御情報の役割の両方を担わせる態様が考えられる。

（２）上記第１実施形態では、発音開始を指示する音符情報に含まれているベロシティに音韻制御情報の役割を担わせ、上記第２実施形態では同ベロシティに韻律制御情報の役割を担わせた。しかし、当該ベロシティと音符情報の示す音高の組み合わせに音韻制御情報または韻律制御情報（或いは両者）の役割を担わせても勿論良い。また、歌唱合成用キーボードに音韻制御情報または韻律制御情報をユーザに入力させるための専用の操作子を設け、当該操作子に対する操作によって、発音開始を指示する音符情報とは別個に音韻制御情報または韻律制御情報を入力させるようにしても良い。

（３）上記各実施形態では、歌唱合成に用いる複数種類の合成情報（音韻列情報、韻律情報（上記各実施形態では、音符の音高、発音開始タイミングおよび発音終了タイミングを示す音符情報）、および音韻制御情報（或いは韻律制御情報））を歌唱合成装置１に取得させる取得手段の役割を果たす操作部１２０と、合成歌唱音声を出力するための音声出力部１４０が歌唱合成装置１に内蔵されていた。しかし、操作部１２０および音声出力部１４０の何れか一方或いは両方を歌唱合成装置１の外部機器Ｉ／Ｆ部１５０に接続する態様であっても良い。操作部１２０を外部機器Ｉ／Ｆ部１５０を介して歌唱合成装置１に接続する態様では、外部機器Ｉ／Ｆ部１５０が上記取得手段の役割を果たす。

操作部１２０および音声出力部１４０の両者を外部機器Ｉ／Ｆ部１５０に接続する態様の一例としては、外部機器Ｉ／Ｆ部１５０としてイーサネット（登録商標）インタフェースを用い、この外部機器Ｉ／Ｆ部１５０にＬＡＮ（Local Area Network）やインターネットなどの電気通信回線を接続するとともに、この電気通信回線に操作部１２０および音声出力部１４０を接続する態様が挙げられる。このような態様によれば、所謂クラウドコンピューティング形式の歌唱合成サービスを提供することが可能になる。具体的には、操作部１２０に設けられた各種操作子の操作により入力された複数種類の合成情報を電気通信回線を介して歌唱合成装置に与え、歌唱合成装置には、電気通信回線を介して取得した複数種類の合成情報に基づいて歌唱合成処理を実行させる。このようにして、歌唱合成装置により合成された合成歌唱音声の音声データは電気通信回線を介して音声出力部１４０に与えられ、当該音声データに応じた音が音声出力部１４０から出力される。

（４）上記各実施形態では、複数種類の合成情報を歌唱合成装置１に入力するための操作部１２０として歌唱合成用キーボードを用いた。しかし、テンキーやカーソルキー、アルファベットの各文字に対応したキーなどを配列した一般的なキーボードと、所謂ＭＩＤＩキーボードの組み合わせを操作部１２０として用いても良い。一般的なキーボードとＭＩＤＩキーボードの組み合わせを操作部１２０として用いる場合には、ＭＩＤＩキーボードに音符情報入力部の役割を担わせ、一般的なキーボードに音韻情報入力部の役割を担わせれば良い。また、マウスなどのポインティングデバイスとＧＵＩとの組み合わせにより音符情報入力部或いは音韻情報入力部を実現しても良い。ポインティングデバイスとＧＵＩの組み合わせにより音符情報入力部を実現する場合には、音韻情報入力部の役割を担う一般的なキーボードと当該音符情報入力部との組み合わせにより操作部１２０を構成すれば良い。また、ポインティングデバイスとＧＵＩの組み合わせにより音韻情報入力部を実現する場合には、音符情報入力部の役割を担うＭＩＤＩキーボードと当該音韻情報入力部との組み合わせにより操作部１２０を構成すれば良い。

（５）上記各実施形態では、歌唱合成処理と明瞭度調整処理とを制御部１１０に実行させる歌唱合成プログラム１６２ｂが歌唱合成装置１の不揮発性記憶部１６２に予め格納されていた。しかし、この歌唱合成プログラム１６２ｂをＣＤ−ＲＯＭ（Compact Disk- Read Only Memory）などのコンピュータ読み取り可能な記録媒体に書き込んで配布しても良く、また、インターネットなどの電気通信回線経由のダウンロードにより配布しても良い。このようにして配布されるプログラムをパーソナルコンピュータなどの一般的なコンピュータに実行させることによって、そのコンピュータを上記実施形態の歌唱合成装置１として機能させることが可能になるからである。また、リアルタイム方式の歌唱合成処理を一部に含むゲームのゲームプログラムに本発明を適用しても勿論良い。具体的には、当該ゲームプログラムに含まれている歌唱合成プログラムを歌唱合成プログラム１６２ｂに差し替えても良い。このような態様によれば、ゲームの進行にしたがって合成される歌唱音声の表現力を向上させることが可能になる。

（６）上記各実施形態では、リアルタイム方式の歌唱合成装置への本発明の適用例を説明した。しかし、本発明の適用対象はリアルタイム方式の歌唱合成装置に限定されるものではない。例えば、音声ガイダンスにおける案内音声をリアルタイム方式で合成する音声合成装置、或いは小説や詩などの文芸作品の朗読音声をリアルタイム方式で合成する音声合成装置に本発明を適用しても良い。また、本発明の適用対象は歌唱合成機能や音声合成機能を有する玩具（歌唱合成装置や音声合成装置を内蔵した玩具）であっても良い。

（７）上記第１実施形態では、歌唱音声の合成に用いる複数種類の合成情報として、音韻列情報、韻律情報および音韻制御情報を用い、第２実施形態では、歌唱音声の合成に用いる複数種類の合成情報として、音韻列情報、韻律情報、および韻律制御情報を用いた。しかし、歌唱音声の合成に用いる複数種類の合成情報は、音韻列情報、韻律情報および音韻制御情報（或いは韻律制御情報）のみに限定される訳ではない。例えば、歌唱合成用ライブラリ１６２ａに複数種類の声質の素片データが声質毎に分類されて格納されている場合には、音韻列情報、韻律情報および音韻制御情報（或いは韻律制御情報）の他に、声質を指定する声質指定情報を合成情報に含め、当該声質指定情報により指定された声質の素片データを用いて歌唱音声の合成を行うようにしても良い。

また、上記各実施形態では、音韻列情報、韻律情報、および音韻制御情報（或いは韻律制御情報）を操作部１２０の操作子に対する操作により歌唱合成装置１に入力したが、これらのうちの少なくとも１つを操作部１２０の操作子に対する操作により入力し、他のものは予め歌唱合成装置１に記憶させておいても良い。具体的には、歌唱音声の合成対象の歌唱曲全体の歌詞の音韻列を示す音韻列情報を予め不揮発性記憶部１６２に記憶させておき、韻律情報の役割を果たす音符情報と音韻制御情報を操作部１２０の操作子に対する操作によって音符毎に入力させるようにしても良い。この場合、操作部１２０と、不揮発性記憶部１６２に記憶されている音韻列情報を読み出す手段（例えば、制御部１１０）が、複数種類の合成情報を取得する取得手段の役割を果たす。また、韻律情報と音韻制御情報（音韻制御情報に換えて韻律制御情報、または音韻制御情報と韻律制御情報の両者）を歌唱合成装置１に予め記憶させておき、音韻列情報のみを操作部１２０の操作子に対する操作により歌唱合成装置１に入力させても良い。

（８）上記各実施形態では、子音の聴き取り易さを低下させる調整を行う場合について説明したが、ベロシティの大きさ等に応じて子音の聴き取り易さを向上させる調整を行うようにしても良い。例えば、図２（ｃ）に示す理想的なピッチカーブとはアタックの深さ等が異なるピッチカーブを表すピッチカーブデータが不揮発性記憶部１６２に記憶されている場合には、理想的なピッチカーブに近づくにようにアタックの深さ等を韻律制御情報にしたがって調整する処理を当該ピッチカーブデータに施した後に音声合成を行うようにすれば良い。

１…歌唱合成装置、１１０…制御部、１２０…操作部、１３０…表示部、１４０…音声出力部、１４２…Ｄ／Ａ変換器、１４４…増幅器、１４６…スピーカ、１５０…外部機器Ｉ／Ｆ、１６０…記憶部、１６２…不揮発性記憶部、１６２ａ…歌唱合成ライブラリ、１６２ｂ…歌唱合成プログラム、１６４…揮発性記憶部、１７０…バス。

Claims

合成対象の音声の音韻列を示す音韻列情報と前記音声の韻律変化を示す韻律情報と前記音韻列情報の示す音韻列の一部の音韻を変化させることを示す音韻制御情報とを含む複数種類の合成情報を取得する手段であって、前記音韻列情報と前記韻律情報と前記音韻制御情報のうちの少なくとも１つについては操作子の操作により取得する取得手段と、
前記取得手段により取得された複数種類の合成情報に含まれる音韻列情報の示す音韻列の一部の音韻を当該複数種類の合成情報に含まれる音韻制御情報にしたがって変化させて音声合成を行う音声合成手段と
を有することを特徴とする音声合成装置。
前記音声合成手段は、音韻列情報が示す音韻列の一部の音韻の継続長を変化させる処理、当該音韻列の一部の音韻を欠落させる処理、当該音韻列の一部の音韻を差し替える処理、および当該音韻列に音韻を挿入する処理のうちの予め定められた１または複数を、前記取得手段により取得された複数種類の合成情報に含まれる音韻列情報の示す音韻列の一部の音韻を変化させる処理として実行することを特徴とする請求項１に記載の音声合成装置。
前記音声合成手段は、音韻列情報が示す音韻列の一部の音韻の変化を前記取得手段により取得された複数種類の合成情報に含まれる音韻制御情報に応じた頻度で発生させることを特徴とする請求項２に記載の音声合成装置。
前記音声合成手段は、音韻列情報が示す音韻列の一部の音韻の継続長を変化させる処理においては前記取得手段により取得された複数種類の合成情報に含まれる音韻制御情報に応じて当該継続長を制御し、音韻列情報が示す音韻列に音韻を挿入する処理においては挿入する音韻の数を当該音韻制御情報に応じて制御し、音韻列情報が示す音韻列の一部の音韻を欠落させる処理においては欠落させる音韻の数を当該音韻制御情報に応じて制御し、音韻列情報が示す音韻列の一部の音韻を差し替える処理においては差し替える音韻の数を当該音韻制御情報に応じて制御することを特徴とする請求項２または請求項３に記載の音声合成装置。
前記取得手段により取得される複数種類の合成情報には、理想的な韻律変化からズレを生じさせて音声合成することを指示する韻律制御情報が含まれており、前記音声合成手段は、当該ズレが生じるように当該韻律制御情報にしたがって韻律変化を調整しつつ音声合成を行うことを特徴とする請求項１〜４の何れか１項に記載の音声合成装置。