JP3022270B2

JP3022270B2 - フォルマント音源のパラメータ生成装置

Info

Publication number: JP3022270B2
Application number: JP7234731A
Authority: JP
Inventors: 慎一大田
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 1995-08-21
Filing date: 1995-08-21
Publication date: 2000-03-15
Anticipated expiration: 2015-08-21
Also published as: JPH0962297A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、フォルマント合
成方式の音源により音声を発生させる際に、該音源に与
えるフォルマントパラメータを生成する装置に関する。

【０００２】

【従来の技術】従来より、ＣＳＭ分析法などを用いて実
際の音声データを分析してフォルマントデータ（例え
ば、フォルマント中心周波数、フォルマントレベル、お
よびフォルマントバンド幅などの時系列のパラメータ）
を取得し、このフォルマントデータをフォルマント発生
装置を備えた音声合成装置に送って音声を発生させる技
術が知られている。

【０００３】例えば、特開平３−２００２９９号公報に
は、複数のフォルマント発生部を備えた音声合成装置が
開示されている。特開平４−３４９４９７号公報には、
フォルマントを指定するパラメータを時系列に複数用意
したもの（フォルマントは細かく時変動するので一瞬一
瞬の音声のデータを示すパラメータを時系列に沿って用
意する）を、音源ごとに記憶回路に用意しておき、キー
オンごとにそれらを読み出してフォルトマント合成型音
源に渡すことにより、音声による演奏を行なう電子楽器
が開示されている。

【０００４】

【発明が解決しようとする課題】ところで、このような
フォルトマント合成方式の音源で音声を発生させる（言
葉を喋らせたり歌わせたりする）場合、上述のＣＭＳ分
析などで音声データを分析して一連のフォルトマントデ
ータを算出するのには、かなりの演算能力が必要である
し装置のコストも高くなる。また、音声から通常の楽音
に音色を徐々に変化させていくなど、音色のエディット
も困難である。

【０００５】そこで、例えば「あいうえお」と発音させ
る場合、「あ」「い」「う」「え」「お」というそれぞ
れの音に対して音色ファイル（音素のフォルマントパラ
メータ）を用意しておき、各音素の間はフォルマントパ
ラメータを徐々に変化させて（補間して）発音させる手
法が用いられている。ここでは、そのような手法をモー
フィングと呼ぶことにする。

【０００６】ところが、例えば「あいうえお」と滑らか
に発音させる場合にモーフィングを行なうとすると、各
音素の発声開始時間からフォルマントパラメータの補間
を始めることになるが、この場合、例えば「あ」の音素
がすぐにモーフィングの補間によって書き替えられ、
「あ」と聞こえなくなることがある。すなわち、モーフ
ィングの補間によって、聴感上、音声として聞こえなく
なることがある。

【０００７】この発明は、高い演算能力を必要とするこ
となく低コストの簡便な装置で音声を合成できるととも
に、音声から楽音に音色を変化させるなどの音色エディ
ットも可能なフォルマント音源のパラメータ生成装置を
提供することを目的とする。また、この発明は、フォル
マント合成方式の音声合成装置においてモーフィングを
行なう場合に、聴感上音声として聞こえなくなるような
ことを無くすことを目的とする。

【０００８】

【課題を解決するための手段】この目的を達成するた
め、請求項１に記載の発明は、フォルマントを規定する
フォルマントパラメータに応じたフォルマントを有する
音声を合成するフォルマント音源に与えるフォルマント
パラメータを生成するフォルマント音源のパラメータ生
成装置であって、複数の音韻についてのフォルマントパ
ラメータ（ハ゜ラメータ 611）と発生すべき音韻を指定する音
韻指定情報（SEGMENT VOICE 625）と該音韻の発生タイ
ミングを示す音韻発生タイミング情報（SEG DURATION 6
27）と補間開始タイミングを示す補間開始タイミング情
報（DEAD RATE 612，DEAD RATE COEF626）とを記憶した
記憶手段（テ゛ータメモリ 104）と、前記記憶手段に記憶された
音韻指定情報および音韻タイミング情報にしたがって、
前記記憶手段に記憶されたフォルマントパラメータを順
次読み出して前記フォルマント音源に出力する制御手段
であって、有声音間において、前の有声音に関するフォ
ルマントパラメータを前記フォルマント音源に前記補間
開始タイミング情報が示すタイミングまで出力した後、
前記前の有声音から後の有声音へとフォルマントパラメ
ータの補間を開始し、該補間結果を前記フォルマント音
源に出力するものとを備えたことを特徴とする。

【０００９】請求項２に記載の発明は、請求項１におい
て、前記補間開始タイミング情報は、第１種の補間開始
タイミング情報（DEAD RATE 612）と第２種の補間開始
タイミング情報（DEAD RATE COEF 626）とからなり、前
記記憶手段は、前記フォルマントパラメータと前記第１
種の補間開始タイミング情報とからなる音色ファイル
（V FRMNT DATA）を音韻種類毎に記憶するとともに、前
記音韻指定情報と前記音韻発生タイミング情報と前記第
２種の補間開始タイミング情報とからなるイベントデー
タ（VEVENT）を複数記憶するものであり（フォルマントハ゜ラメータ
テーフ゛ル 601とシーケンステーフ゛ル 602）、前記制御手段は、前の有
声音に関するフォルマントパラメータを前記フォルマン
ト音源に、前記第１種および第２種の補間開始タイミン
グ情報に応じたタイミングまで出力するものであること
を特徴とする。

【００１０】請求項３に記載の発明は、請求項１におい
て、有声音間に無声音が存在することを特徴とする。

【００１１】請求項４に記載の発明は、請求項１におい
て、前記音韻発生タイミング情報は各音韻の発音継続時
間を示す発音時間情報であり、前記補間開始タイミング
情報は各音韻の発音継続時間に対する割合を示すデッド
レートであり、前記制御手段は、（ａ）前記前の有声音
の発音時間情報が示す発音継続時間と前記デッドレート
とを乗算することにより、前記前の有声音の発音開始か
ら補間開始までの時間を算出する補間開始時間算出手段
と、（ｂ）前記前の有声音の発音開始から前記補間開始
時間算出手段により算出した補間開始までの時間の間、
前記前の有声音に関するフォルマントパラメータを前記
フォルマント音源に出力するフォルマントパラメータ出
力手段と、（ｃ）前記補間開始までの時間が経過したこ
とを検出する補間開始時間検出手段と、（ｄ）前記補間
開始までの時間が経過したときは、前記前の有声音から
前記後の有声音へのフォルマントパラメータの補間を開
始し、補間結果を前記フォルマント音源に出力する補間
手段とからなることを特徴とする。

【００１２】請求項５は、請求項１において、前記音韻
発生タイミング情報は各音韻の発音継続時間を示す発音
時間情報であり、前記補間開始タイミング情報は各音韻
の発音継続時間に対する割合を示すデッドレートであ
り、前記制御手段は、（ａ）前記前の有声音の発音時間
情報が示す発音継続時間と前記デッドレートとを乗算す
ることにより、前記前の有声音の発音開始から補間開始
までの時間を算出するとともに、前記前の有声音の発音
時間から前記算出した補間開始までの時間を減算するこ
とにより補間を実行する補間時間を算出する補間時間算
出手段と、（ｂ）前記先の音韻の発音開始から前記補間
時間算出手段により算出した補間開始までの時間の間、
前記前の有声音に関するフォルマントパラメータを前記
フォルマント音源に出力する第１のフォルマントパラメ
ータ出力手段と、（ｃ）前記補間開始までの時間が経過
したことを検出する補間開始時間検出手段と、（ｄ）前
記補間開始までの時間が経過したときは、前記前の有声
音のフォルマントパラメータから前記後の有声音のフォ
ルマントパラメータまでの間を、前記補間時間で補間
し、補間結果を前記フォルマント音源に順次出力する補
間手段と、（ｅ）前記補間時間が経過したことを検出す
る補間時間検出手段と、（ｆ）前記補間時間が経過した
ときは、前記後の有声音に関するフォルマントパラメー
タを前記フォルマント音源に出力する第２のフォルマン
トパラメータ出力手段とからなることを特徴とする。

【００１３】請求項６に記載の発明は、請求項１におい
て、前記音韻発生タイミング情報は各音韻の発音継続時
間を示す発音時間情報であり、前記補間開始タイミング
情報は各音韻の発音継続時間に対する割合を示すデッド
レートであり、前記制御手段は、（ａ）前記前の有声音
の発音時間情報が示す発音継続時間と前記デッドレート
とを乗算することにより前記前の有声音の発音開始から
補間開始までの時間を算出するとともに、前記前の有声
音の発音時間から前記算出した補間開始までの時間およ
び次に発音すべき無声音の発音時間を減算することによ
り補間を実行する補間時間を算出する補間時間算出手段
と、（ｂ）前記前の有声音の発音開始から前記補間時間
算出手段により算出した補間開始までの時間の間、前記
前の有声音に関するフォルマントパラメータを前記フォ
ルマント音源に出力する第１のフォルマントパラメータ
出力手段と、（ｃ）前記補間開始までの時間が経過した
ことを検出する補間開始時間検出手段と、（ｄ）前記補
間開始までの時間が経過したときは、前記前の有声音の
フォルマントパラメータから前記後の有声音のフォルマ
ントパラメータまでの間を、前記補間時間および前記無
声音の発音時間で補間し、補間結果を前記フォルマント
音源に順次出力する補間手段と、（ｅ）前記補間時間が
経過したことを検出する補間時間検出手段と、（ｆ）前
記補間時間が経過したときは、前記無声音に関するフォ
ルマントパラメータを前記フォルマント音源に出力し、
その後に、前記後の有声音に関するフォルマントパラメ
ータを前記フォルマント音源に出力する第２のフォルマ
ントパラメータ出力手段とからなることを特徴とする。

【００１４】請求項７に記載の発明は、請求項１から６
において、前記制御手段は、（ａ）前記有声音の発音継
続時間が所定時間より長いときは、前記請求項１乃至６
に記載の補間方法で補間し、（ｂ）前記有声音の発音継
続時間が所定時間より短いときは、前記有声音の合成初
期は目標値への変化が緩く後期になって目標値への変化
が急になる補間方法で補間することを特徴とする。

【００１５】

【００１６】

【発明の実施の形態】以下、図面を用いて、この発明の
実施の形態を説明する。

【００１７】図１は、本発明の一形態例に係るフォルマ
ントパラメータ生成装置を適用した電子楽器のシステム
構成を示す。この電子楽器は、中央処理装置１０１、リ
ードオンリメモリ（ＲＯＭ）１０２、ランダムアクセス
メモリ（ＲＡＭ）１０３、データメモリ１０４、表示部
１０５、演奏操作子１０６、設定操作子１０７、フォル
マント音源１０８、およびディジタルアナログ変換器
（ＤＡＣ）１０９を備えている。上記１０１〜１０８は
バスライン１１０に接続されている。

【００１８】演奏操作子１０６は、ユーザが演奏操作す
るための鍵盤などの操作子である。設定操作子１０７
は、ユーザが各種の設定を行なうためのスイッチなどの
操作子である。ＣＰＵ１０１は、この電子楽器全体の動
作を制御する。特に、ＣＰＵ１０１は、演奏操作子１０
６の演奏操作を検出し、その演奏操作に応じて時系列の
フォルマントパラメータを生成してフォルマント音源１
０８に向けて出力する。またＣＰＵ１０１は、設定操作
子１０７の操作を検出して各種の設定を実行する。

【００１９】ＲＯＭ１０２には、ＣＰＵ１０１が実行す
るプログラムおよび各種の定数データなどが格納されて
いる。ＲＡＭ１０３は、ＣＰＵ１０１が動作する際のワ
ーキング領域として用いる。データメモリ１０４は、フ
ォルマントパラメータテーブルとシーケンステーブルと
を格納する。これらのテーブルの内容については、図６
で後述する。表示部１０５は、各種の情報を表示する表
示部である。

【００２０】図２は、フォルマント音源１０８の概略構
成を示す。フォルマント音源１０８は、大きく２つのグ
ループ（ＶＴＧグループ２０１とＵＴＧグループ２０
２）に分かれる。

【００２１】ＶＴＧグループ２０１は、有声音（母音）
を発生するためのグループであり、内部に４つの音源Ｖ
ＴＧ１〜ＶＴＧ４を備える。各音源は、ＣＰＵ１０１か
ら与えられた有声音に関するフォルマントパラメータに
応じた１つのフォルマントを形成するための音源であ
り、ＣＰＵ１０１からのキーオン信号（ＶＫＯＮ）の入
力を契機として音声発生動作を開始する。４つの音源Ｖ
ＴＧ１〜ＶＴＧ４から出力されるディジタル楽音信号を
混合して、４つのフォルマントを備えた有声音の楽音信
号として出力する。

【００２２】ＵＴＧグループ２０２は、無声音（子音）
を発生するためのグループであり、内部に４つの音源Ｕ
ＴＧ１〜ＵＴＧ４を備える。各音源は、ＣＰＵ１０１か
ら与えられた無声音に関するフォルマントパラメータに
応じた１つのフォルマントを形成するための音源であ
り、ＣＰＵ１０１からのキーオン信号（ＵＫＯＮ）の入
力を契機として音声発生動作を開始する。４つの音源Ｕ
ＴＧ１〜ＵＴＧ４から出力されるディジタル楽音信号を
混合して、４つのフォルマントを備えた無声音の楽音信
号として出力する。

【００２３】ＶＴＧグループ２０１から出力される有声
音の楽音信号とＵＴＧグループ２０２から出力される無
声音の楽音信号とを加算器２０３で加算し、フォルマン
ト音源１０８の最終的な出力とする。

【００２４】ＣＰＵ１０１が生成して音源１０８に与え
るフォルマントパラメータについて説明する。この例で
は、説明の簡略化のため、１フォルマントは、図３
（ａ）に示すような３つのパラメータｆｆ，ｆｌ，ｂｗ
から構成されているとする。図３（ａ）は１フォルマン
トをパワースペクトルで示したものであり、ｆｆはフォ
ルマント中心周波数、ｆｌはフォルマントレベル、ｂｗ
はフォルマントバンド幅（フォルマントの山の鋭さ）を
示す。

【００２５】有声音を発生させたいとき、ＣＰＵ１０１
は、当該有声音の第１フォルマントを規定する上記パラ
メータｆｆ，ｆｌ，ｂｗをＶＴＧグループの音源ＶＴＧ
１に送る。同様に、第２〜第４フォルマントを規定する
パラメータｆｆ，ｆｌ，ｂｗをそれぞれ音源ＶＴＧ２〜
４に送る。これにより、それらのフォルマントパラメー
タで規定される第１〜第４フォルマントを有する当該有
声音がＶＴＧグループから出力されることになる。無声
音を発生させるときも同様であり、ＵＴＧグループの音
源ＵＴＧ１〜４にそれぞれ上記パラメータｆｆ，ｆｌ，
ｂｗを送って、所望の無声音を発生させる。

【００２６】本システムを用いて言葉を喋らせたり歌わ
せたりする場合、一瞬一瞬で変化するフォルマントを再
現するために一連のフォルマントパラメータを時系列デ
ータとして順次音源１０８に送る必要がある。しかし、
システムの構成を簡略化しコストを押さえるため、本シ
ステムでもモーフィングの手法を用いる。本システムに
おけるモーフィングの方式について説明する。本システ
ムでは、ＣＰＵ１０１により、複数の音素間でモーフィ
ングすなわちフォルマントパラメータの補間を行ない、
時系列の一連のフォルマントパラメータを作成し、それ
を音源１０８に与えることにより、言葉を喋らせたり歌
わせたり、フォルマント系の楽音と音声とのモーフィン
グを実現する。

【００２７】まず、有声フォルマントのみの音素を含ん
だモーフィングについて説明する。本システムでは、あ
らかじめ「ａ（あ）」「ｉ（い）」「ｕ（う）」「ｅ
（え）」「ｏ（お）」というそれぞれの有声音の音素の
音色ファイルを用意する。各音素の音色ファイルは、そ
の音素に関する複数（本例では４つ）のフォルマントを
表す図３（ａ）に示したパラメータｆｆ，ｆｌ，ｂｗお
よびその他のフォルマントパラメータからなる。例え
ば、フォルマント中心周波数ｆｆに注目すると、「ａ」
の音色ファイルには第１ｆｆとしてＦ１＝６９７Ｈｚ、
第２ｆｆとしてＦ２＝１０７２Ｈｚ、第３ｆｆとしてＦ
３＝２８３９Ｈｚ、…というように格納され、「ｕ」の
音色ファイルには第１ｆｆとしてＦ１＝２９８Ｈｚ、第
２ｆｆとしてＦ２＝１２８８Ｈｚ、第３ｆｆとしてＦ３
＝２１０４Ｈｚ、…というように格納されている。他の
音素および他のパラメータについても同様である。

【００２８】ある音素からある音素へモーフィングを行
なうにあたって必要となる情報は、それらの音素の音
色ファイル、各音素の発音時間、補間デッドレー
ト、および補間方法である。は、第１の音素から第
２の音素へとモーフィングを行なう場合、第１および第
２の音素のフォルマントパラメータを格納した音色ファ
イルが必要であるということである。〜について
は、図３（ｂ）で後述する。

【００２９】図３（ｂ）は、「ａ」→「ｉ」→「ｕ」の
順でモーフィングを行なう際のフォルマント中心周波数
ｆｆの補間の様子を示す。第１音素開始時間Ｔ１＝０か
ら「ａ」を発声するために、第１フォルマント中心周波
数ｆｆとしてＦ１＝６９７Ｈｚを補間開始時間Ｔ１１ま
でグラフ３０１のように出力する。補間開始時間Ｔ１１
に至ったら、「ａ」から「ｉ」へ移行するため、「ａ」
の第１ｆｆであるＦ１＝６９７Ｈｚから「ｉ」の第１ｆ
ｆであるＦ１＝３１０Ｈｚまでを補間し、補間結果を第
１ｆｆとしてグラフ３０２のように順次出力する。第２
音素開始時間Ｔ２から補間開始時間Ｔ２１までは、
「い」を発声するために、Ｆ１＝３１０Ｈｚを第１ｆｆ
としてグラフ３０３のように出力する。補間開始時間Ｔ
２１に至ったら、「ｉ」から「ｕ」へ移行するため、
「ｉ」の第１ｆｆであるＦ１＝３１０Ｈｚから「ｕ」の
第１ｆｆであるＦ１＝２９８Ｈｚまでを補間し、補間結
果を第１ｆｆとしてグラフ３０４のように順次出力す
る。以下、同様である。第１ｆｆ以外のパラメータにつ
いても同様にして出力する。

【００３０】モーフィングを行なう際に必要となる情報
のうち、「各音素の発音時間」は、図３（ｂ）の第ｎ音
素開始時間から第ｎ＋１音素開始時間までの時間をい
う。例えば、Ｔ１＝０からＴ２までの時間が「ａ」の発
音時間、Ｔ２からＴ３までの時間が「ｉ」の発音時間で
ある。この情報が指定されることにより、次の音素の開
始時間が決定できることになる。例えば、「ａ」の発音
時間が指定されれば、Ｔ１にその発音時間を加算して、
次の「ｉ」の開始時間Ｔ２が決定できる。

【００３１】モーフィングを行なう際に必要となる情報
のうち、「補間デッドレート」は、補間デッドレート＝（第ｎ音素補間開始時間−第ｎ音素発声開始時間）／（第ｎ音素発音時間）＝（第ｎ音素補間開始時間−第ｎ音素発声開始時間）／（第ｎ＋１音素発声開始時間−第ｎ音素発生開始時間）で定義される。補間デッドレートは、各音素ごとに指定
してもよいし、全音素に共通の定数としてもよい。

【００３２】従来方式で機械的に補間を行なった場合、
各音素の発声開始時間から補間を始めることがあり、聴
感上音声にならないことがある。例えば、図３（ｂ）の
例で「ａ」の開始時間から補間を始めると、「ａ」の音
素がすぐに補間によって書き替えられ、「ａ」と聞こえ
なくなる。そこで、本システムでは、モーフィングを行
なう際に補間デッドレートを指定し、ある音素の発音時
間に補間デッドレートを乗算した乗算結果の時間は当該
音素のフォルマントパラメータをそのまま出力し、その
時間の経過後、次の音素に向かう補間を開始するように
している。したがって、例えば図３（ｂ）の第１音素開
始時間から補間開始時間Ｔ１１までの間の時間は、
「ａ」の発音時間Ｔ２−Ｔ１に、指定された補間デット
レートを乗算して求める。そして、「ａ」の開始時間Ｔ
１からこの補間開始時間Ｔ１１までの間は「ａ」の音色
ファイルのフォルマントパラメータをそのまま出力し、
これにより「ａ」が聴感上明確に認識されるようにして
いる。

【００３３】モーフィングを行なう際に必要となる情報
のうち、「補間方法」は、リニア、またはスプラインな
どの補間の方法を示す。

【００３４】図３（ｂ）では有声音による補間例を説明
したが、次に無声音を含む場合の補間例を説明する。日
本語の場合、無声音部は有声音部と違い、Ｃ（無声）＋
Ｖ（有声）という構成をとるため基本的に無声音部の補
間は必要ない。そのため、例えば「ｈａｓｉ（はし）」
と発声させる場合、本システムでは、有声（母音）部分
の補間は前述の方法で実現し、無声（子音）部分は無声
音の音色ファイルのフォルマントパラメータを出力する
ようにする。無声音の後の有声音の発音タイミングは、
無声音のレベルに所定のしきい値を設定しておき、その
レベル以下になった場合に有声音の発音を開始するよう
にする。

【００３５】図４は、無声音と有声音とを組み合わせて
発声する際にモーフィングを行なう場合のフォルマント
レベルデータの出力例を示す。図４（ａ）は無声音のフ
ォルマントレベルデータ出力例、図４（ｂ）は有声音の
フォルマントレベルデータ出力例を示す。この例は、例
えば「ｈａ（は）」→「ｓｉ（し）」の順でモーフィン
グを行なう場合を示している。「ｈａ（は）」は無声音
の「ｈ」と有声音の「ａ」からなり、「ｓｉ（し）」は
無声音の「ｓ」と有声音の「ｉ」からなる。

【００３６】第１音素開始時間Ｔ１＝０から無声音
「ｈ」を発声するため、第１フォルマントレベルｆｌと
して、グラフ４０１のように「ｈ」の音色ファイルの内
容にしたがって出力する。この第１フォルマントレベル
ｆｌが所定のしきい値Ｓに至った時点が、第２音素
「ａ」の開始時間Ｔ２となる。Ｔ２から有声音「ａ」を
発声するため、第１フォルマントレベルｆｌとして、グ
ラフ４０２のように「ａ」の音色ファイルの内容にした
がって出力する。この有声音「ａ」の補間開始時間Ｔ２
１は、図３（ｂ）で説明したのと同様に決定する。すな
わち、有声音「ａ」に関する補間デッドレートが指定さ
れるので、「ａ」の発音時間（第３音素開始時間Ｔ３−
第２音素開始時間Ｔ２）に補間デットレートを乗算して
第２音素開始時間Ｔ２から補間開始時間Ｔ２１までの時
間を算出する。これにより補間開始時間Ｔ２１を決定す
ることができる。

【００３７】補間開始時間Ｔ２１に至ったら、「ａ」か
ら次の有声音「ｉ」（補間は有声音の間で行なう）に向
かう補間を開始し、補間した結果をグラフ４０３のよう
に順次出力する。第３音素開始時間Ｔ３に至ったら、第
３音素である無声音「ｓ」を発声するため、グラフ４０
４のように、「ｓ」の音色ファイルの内容にしたがって
第１フォルマントレベルｆｌを出力する。この第１フォ
ルマントレベルｆｌが所定のしきい値Ｓに至ったら、第
４音素「ｉ」に関する第１フォルマントレベルの出力を
開始する。第４音素「ｉ」の補間開始時間Ｔ４１や補間
については、第２音素「ａ」の場合と同様とする。

【００３８】なお、聴感上、有声音（母音）が鳴り始め
たタイミングがその音の鳴り始めのタイミングに聞こえ
る。例えば図４の例では、第４音素開始時間Ｔ４のタイ
ミングから「ｓｉ」が鳴り始めたように聞こえ、実際に
指定した開始時間Ｔ３より遅れて鳴り始めたように感じ
てしまう。これを防止するため、無声音部分（子音）が
前の母音を食うようなタイミングで発音させてもよい。
図５は、そのような例を示す。

【００３９】図５は、図４と同様の「ｈａｓｉ（は
し）」と発声する際のフォルマントレベルデータの出力
例を示す。図４の例と同様に、第１音素開始時間Ｔ１か
ら第１音素（無声音「ｈ」）に関する第１フォルマント
レベルデータをグラフ５０１のように「ｈ」の音色ファ
イルの内容にしたがって出力し、所定のしきい値Ｓに至
ったらその時点を第２音素（有声音「ａ」）の開始時間
Ｔ２として、第２音素に関する第１フォルマントレベル
データをグラフ５０２のように「ａ」の音色ファイルの
内容にしたがって出力する。

【００４０】図５の例は、補間開始時間Ｔ２１および第
３音素の開始時間Ｔ３の決め方が図４の例とは異なる。
すなわち、第２音素「ａ」の発音時間が指定されるが、
その発音時間を次の有声音（次に無声音＋有声音が続く
場合は、その無声音の後の有声音）の開始までの時間と
する。図５の例では、第２音素「ａ」の次に無声音
「ｓ」＋有声音「ｉ」が続くから、第２音素「ａ」の開
始時間Ｔ２にその発音時間を加算することにより、第４
音素である有声音「ｉ」の開始時間Ｔ４を決定する。補
間開始時間Ｔ２１は、第２音素の発音時間（＝Ｔ４−Ｔ
２）にその補間デッドレートを乗算してＴ２１−Ｔ２の
時間を求め、これにより補間開始時間Ｔ２１を決定す
る。第３音素「ｓ」の開始時間Ｔ３は、第４音素「ｉ」
の開始時間Ｔ４から第３音素の発音時間を減算して決定
する。無声音である第３音素「ｓ」の発音時間は、パラ
メータで与えるか、またはパラメータ中にエンベロープ
データが含まれるのでこれにより算出してもよい。

【００４１】図５の例において、第２音素「ａ」に着目
するとその発音時間はＴ４−Ｔ２になるが、その発音時
間でずっと「ａ」が発音されるわけではない。実際に
は、開始時間Ｔ１の時点からその発音時間Ｔ４−Ｔ２が
経過する前のＴ３の時点で「ａ」のフォルマントパラメ
ータの出力が打ち切られ、Ｔ３の時点から第３音素であ
る子音「ｓ」のフォルマントパラメータが出力されるこ
とになる。すなわち、第３音素の子音「ｓ」が第２音素
の母音「ａ」を食うようにタイミングが調整されてい
る。第３音素「ｓ」＋第４音素「ｉ」の「ｓｉ」の音
は、第４音素開始時間Ｔ４から鳴り始めたように聞こえ
るので、聴感上は、第２音素の発音時間の後に適正に
「ｓｉ」が鳴り始めたように感じる。

【００４２】図６は、データメモリ１０４の内容を示
す。データメモリ１０４には、フォルマントパラメータ
テーブル６０１とシーケンステーブル６０２が用意され
ている。フォルマントパラメータテーブル６０１は、各
音素のフォルマントパラメータを格納するテーブルであ
る。ＶＦＲＭＮＴＤＡＴＡは有声音（母音）の音色
ファイル（フォルマントパラメータ）を示し、「ａ」
「ｉ」「ｕ」「ｅ」「ｏ」の音色ファイルが用意されて
いる。ＵＦＲＭＮＴＤＡＴＡは無声音（子音）の音
色ファイル（フォルマントパラメータ）を示し、「ｂ」
「ｃｈ」などの音色ファイルが用意されている。

【００４３】１つの音素の音色ファイルは、第１〜第４
の各フォルマントに関するパラメータ６１１、デッドレ
ート（ＤＥＡＤＲＡＴＥ）６１２、およびその他のデ
ータ（ＭＩＳＣ）６１３からなる。パラメータ６１１の
うち、ＦＲＭＮＴＦＲＥＱ１、ＦＲＭＮＴＬＶＬ
１、およびＦＲＭＮＴＢＷ１は、それぞれ、第１フォ
ルマントに関するフォルマント中心周波数、フォルマン
トレベル、およびフォルマントバンド幅を示す。同様に
第２〜第４フォルマントに関するパラメータも保持して
いる。

【００４４】シーケンステーブル６０２は、本システム
により発声させる歌詞データを保持するテーブルであ
る。ＬＹＲＩＣＤＡＴＡは１つの歌詞データを示し、
複数の歌詞データが用意されている。１つの歌詞データ
は、先頭に格納された当該歌詞データのタイトル名（Ｔ
ＩＴＬＥＮＡＭＥ）６２１、複数のイベントデータ
（ＶＥＶＥＮＴ１〜ｎ）６２３、および歌詞の終りを示
すエンドデータ（ＥＮＤ）６２４からなる。１つのイベ
ントデータ（ＶＥＶＥＮＴi）は、発生すべき音素を指
定する音素指定情報（ＳＥＧＭＥＮＴＶＯＩＣＥ）６
２５、補間デッドレート調整係数（ＤＥＡＤＲＡＴＥ
ＣＯＥＦ）６２６、当該音素の発音時間（ＳＥＧＤ
ＵＲＡＴＩＯＮ）６２７、およびその他の情報（ＳＥＧ
ＭＩＳＣＤＡＴＡ）６２８からなる。その他の情報６
２８は、例えば当該音素のピッチや音量などを示すデー
タである。

【００４５】音素指定情報（ＳＥＧＭＥＮＴＶＯＩＣ
Ｅ）６２５に子音が指定されたときは、デッドレート調
整係数６２６と発音時間６２７は未使用とする。子音で
は、これらの情報は無意味だからである。子音の発音時
間は、エンベロープで決まるが、そのエンベロープに関
する情報はその他の情報６２８に含まれているものとす
る。

【００４６】ある音素の発音時間が、発音時間を格納す
る領域６２７で表現できる大きさを越えているときは、
その次のイベントデータは発音時間６２７のみを指定し
たイベントデータとする。発音時間のみを指定したイベ
ントデータは、発音時間６２７以外の領域はすべて０で
ある。逆にいえば、音素指定情報６２５に音素の指定が
ないイベントデータは、発音時間６２７のみを指定した
ものであり、現在発生中の音素の発音時間を延ばすこと
を示す。

【００４７】次に、図７〜図９のフローチャートを参照
して本システムによる歌詞演奏の手順を説明する。ま
ず、あらかじめ図６のシーケンステーブル６０２から演
奏すべき歌詞データが１つ選択されているものとする。
ステップ７０１では各種の初期化を行なう。特に、イベ
ントデータを指すための歌詞イベントポインタｉを１と
する。

【００４８】次に、ステップ７０２でポインタｉで指す
イベントデータ（ＶＥＶＥＮＴi）を読み込む。ステッ
プ７０３では、読み込んだデータがエンドデータ６２４
か否か判別する。エンドデータであったときは処理を終
了する。エンドデータでなかったときは、ステップ７０
４で、読み込んだイベントデータ（ＶＥＶＥＮＴi）の
音素指定情報（ＳＥＧＭＥＮＴＶＯＩＣＥ）６２５に
音素の指定があるか否か判別する。音素の指定がないと
きは、そのイベントデータは発音時間（ＳＥＧＤＵＲＡ
ＴＩＯＮ）６２７のみを指定したイベントデータである
から、ステップ８２１で当該発音時間（ＳＥＧＤＵＲ
ＡＴＩＯＮ）６２７の分だけカウントを行ない（その間
は現在発音中の音素の発音が継続している）、ステップ
８２２で当該発音時間分だけ時間経過したか否か判別す
る。未だ時間経過していないときは再びステップ８２１
に戻ってカウントを繰り返し、当該発音時間分だけ時間
経過したら、ステップ９１１に進む。ステップ９１１で
歌詞イベントポインタｉをインクリメントして、ステッ
プ７０２に戻る。

【００４９】ステップ７０４で、読み込んだイベントデ
ータの音素指定情報（ＳＥＧＭＥＮＴＶＯＩＣＥ）６
２５に音素の指定があるときは、その指定音素をＸiと
してステップ７０５に進む。ステップ７０５では当該指
定音素Ｘiが母音（有声音）か否か判別する。母音でな
いときは、子音（無声音）であるということだから、ス
テップ８１１で当該指定音素Ｘiのフォルマントパラメ
ータ（ＵＦＲＭＮＴＤＡＴＡＸi）を図６のフォル
マントパラメータテーブル６０１から読み出して音源１
０８のＵＴＧグループ２０２に転送し、キーオンする
（ＵＫＯＮを「１」とする）。これにより、子音の発音
が開始される。ステップ８１１の後、ステップ９１１に
進む。

【００５０】ステップ７０５で当該指定音素Ｘiが母音
であるときは、ステップ７０６で前の指定音素Ｘi-1が
子音か否か判別する。前の指定音素Ｘi-1が子音である
ときは、その子音（現在発音中）の発音レベルが所定の
しきい値Ｓを下回ったタイミングで指定音素（母音）Ｘ
iの発音を開始するため、ステップ７０７で指定音素Ｘi
-1の発音レベルをチェックし、ステップ７０８でその発
音レベルが所定のしきい値Ｓより小さくなったか否かを
チェックする。指定音素Ｘi-1の発音レベルがしきい値
Ｓ以上のときは、未だ子音Ｘi-1の発音を続けるため、
ステップ７０７に戻る。ステップ７０８で指定音素Ｘi-
1の発音レベルがしきい値Ｓより小さくなったら、次の
指定音素（母音）Ｘiの発音を開始するためステップ８
０１に進む。ステップ７０６で前の指定音素Ｘi-1が母
音のときは、次の指定音素Ｘiの発音を開始してよいか
ら、ステップ８０１に進む。

【００５１】なお、ステップ７０７，７０８のレベルチ
ェックは、ＵＴＧグループ２０２の出力などを直接監視
してもよいし、ソフト的にレベルを概算しながらチェッ
クしてもよい。また、子音のキーオン後にこのチェック
処理を行なうようにしてもよい。

【００５２】ステップ８０１では、指定音素Ｘiに関す
るフォルマントパラメータ（ＶＦＲＭＮＴＤＡＴＡ
Ｘi）を図６のフォルマントパラメータテーブル６０
１から読み出して、音源１０８のＶＴＧグループ２０１
に転送し、キーオンする（ＶＫＯＮを「１」とする）。
これにより、母音Ｘiの発音が開始する。次に、ステッ
プ８０２で補間開始までの時間（発音開始から補間開始
までの時間間隔）Ｔsiを算出する。Ｔsiは、Ｔsi＝ＳＥＧＤＵＲＡＴＩＯＮi×ＤＥＡＤＲＡＴ
ＥＣＯＥＦi×ＤＥＡＤＲＡＴＥｘで求める。すなわち、現在発音中の指定音素（母音）Ｘ
iの発音時間（ＳＥＧＤＵＲＡＴＩＯＮi）に、この音素
のデッドレート（ＤＥＡＤＲＡＴＥ）６１２とイベン
トデータで指定されたデッドレート調整係数（ＤＥＡＤ
ＲＡＴＥＣＯＥＦi）６２６とを乗算して、補間開始
までの時間Ｔsiを求める。

【００５３】デッドレート調整係数（ＤＥＡＤＲＡＴ
ＥＣＯＥＦ）は、デッドレート（ＤＥＡＤＲＡＴ
Ｅ）を部分的に調整したい場合に用いる。通常は、デッ
ドレートのみを用いて図４で説明したように補間開始ま
での時間を決定すればよいが、歌詞の言葉の並び方によ
っては部分的にデッドレートを変更したい場合もある。
そこで、デッドレート調整係数を用いて部分的にデッド
レートを調整するようにしている。これにより、歌詞の
言葉の並び方に応じた最適なデッドレートでフォルマン
トパラメータを出力でき、一連の歌詞が自然に聞こえる
ように発音することができる。

【００５４】ステップ８０２で補間開始までの時間Ｔsi
を求めたら、ステップ８０３でその時間Ｔsiをカウント
する処理を行なう。ステップ８０４で時間Ｔsiが経過し
たか否か判別し、経過していなかったらステップ８０３
に戻ってカウントを継続する。時間Ｔsiが経過したら、
補間を開始するため、ステップ８０５に進む。

【００５５】ステップ８０５では、補間時間ＴＩiを算
出する。ＴＩiは、ＴＩi＝ＳＥＧＤＵＲＡＴＩＯＮi−Ｔsi で求める。すなわち、指定音素Ｘiの発音時間（ＳＥＧ
ＤＵＲＡＴＩＯＮi）から補間開始時間（発音開始から
補間開始までの時間）Ｔsiを減算すればよい。次にステ
ップ８０６で、指定音素（母音）Ｘiに後続するイベン
トデータから、指定音素（ＳＥＧＭＥＮＴＶＯＩＣ
Ｅ）として母音が指定されたイベントデータ（ＶＥＮＥ
ＮＴ）を検索する。母音の次に続くのは母音または子音
であり、子音の次には必ず母音が続くから、ステップ８
０６ではＸi+1またはＸi+2が検索されるはずである。

【００５６】次にステップ９０１で、現在発音中の指定
音素Ｘiから次の母音音素（Ｘi+1またはＸi+2）までの
間を、時間ＴＩiで直線補間し、補間結果を所定タイミ
ングごとに音源１０８のＶＴＧグループ２０１に転送す
る。そして、ステップ９０２でＴＩiのカウントチェッ
クを行ない、ステップ９０３で時間ＴＩiが経過したか
否か判別する。未だ時間ＴＩiが経過していなかった
ら、ステップ９０１に戻って補間および補間結果の出力
を続ける。時間ＴＩiが経過したら、ステップ９０４に
進んで次のイベントデータの指定音素（ＳＥＧＭＥＮＴ
ＶＯＩＣＥi+1）を参照し、ステップ９０５で当該指
定音素（ＳＥＧＭＥＮＴＶＯＩＣＥi+1）が母音か否
か判別する。母音でないときは、次に子音が続くという
ことだから、ステップ９０６でＶＴＧグループ２０１に
キーオフを送り（ＶＫＯＮを「０」とする）、現在発音
中の音素Ｘiの発音を停止させて、次のイベントデータ
の発音を行なうべくステップ９１１に進む。ステップ９
０５で次に続くのが母音であったときは、現在発音中の
母音を消音せずに、引き続き次の母音の発音を行なって
よいから、そのままステップ９１１に進む。

【００５７】以上図７〜図９の手順により、図３（ｂ）
および図４で説明したようにフォルマントパラメータを
出力することができる。

【００５８】一方、図７〜図９と同様の手順で、図５で
説明したように子音が前の母音を食うようなタイミング
で発音されるようにすることもできる。そのためには、
ほぼ図７〜図９の処理手順をそのまま用いればよく、以
下のステップのみを変更すればよい。まず、上記ステッ
プ８０５で補間時間ＴＩiをＴＩi＝ＳＥＧＤＵＲＡＴＩＯＮi−（Ｔsi＋次の子音
Ｘi+1の発音時間）で求めるようにする。すなわち、母音である指定音素Ｘ
iの発音時間（ＳＥＧＤＵＲＡＴＩＯＮi）から、補間開
始時間（発音開始から補間開始までの時間）Ｔsiと次の
子音Ｘi+1の発音時間（見積もり時間）とを加算した時
間分を減算するようにする。次の音素Ｘi+1が母音のと
きは、ステップ８０５は変更の必要がない。また、ステ
ップ９０１で補間を行なう際に、時間ＴＩiで補間する
のでなく、時間ＴＩiに次の子音Ｘi+1の発音時間を加算
した時間で補間するようにする。以上により、図５で説
明したようにフォルマントパラメータを出力することが
できる。

【００５９】なお、上記のシステムでは、補間の開始や
次の音素の発音開始のタイミングなどの時間管理は、そ
の都度、必要な時間をカウントしてその時間が経過した
かどうかを判別することにより行なっているが、割り込
み処理を用いて時間管理を行なうようにしてもよい。

【００６０】また上記システムでは、デッドレートを設
けて、必ず発音時間×デッドレートの時間は当該音素の
フォルマントパラメータを出力するようにしたが、この
ようにすると、発音時間が短いときは補間時間も短くな
りプツンプツンと音が切れる感じがすることがある。そ
こで、発音時間が所定値以上のときは上述したように通
常の直線補間を行ない、発音時間が短い母音のときは初
期は目標値への変化が緩く後期になって目標値への変化
が急になる補間方法（例えば、指数関数による補間）用
いるとよい。これにより、初期は変化の緩い補間が為さ
れるので、実質的にデッドレート分の時間が確保されて
いるような効果がある。

【００６１】上記システムでは母音と子音に分けてそれ
ぞれの音素ごとにデッドレートを定めているが（図６の
フォルマントパラメータテーブル６０１）、母音と子音
に分けずに５０音の１つ１つの音を音素とし、５０音の
それぞれに対してデッドレートを含むフォルマントパラ
メータを設けるようにしてもよい。

【００６２】上記システムでは音素間のモーフィングを
行なう例を説明したが、音声と楽音（フォルマント系の
楽音）との間でモーフィングを行なうこともできる。ま
た、本発明は、電子楽器に組み込む形のほか、パソコン
システムのアプリケーションの形でも実施することがで
きる。

【００６３】

【発明の効果】以上説明したように、本発明によれば、
各音素のフォルマントパラメータを用いて、音素間はモ
ーフィングによってフォルマントパラメータを生成出力
するようにしているので、特別高い演算能力を必要とす
ることもなく低コストの簡便な装置で音声を合成するこ
とができる。また、音声から楽音に音色を変化させるな
どの音色エディットも可能となる。

【００６４】さらに、第１の音韻の発音時間にデッドレ
ートを乗算した時間だけ当該音韻のフォルマントパラメ
ータの出力を保持し、あるいは第１の音韻の発音の初期
には目標値への変化が緩い補間方法を用いることによ
り、第１の音韻が聴感上音声として明確に聞こえるよう
になる。デッドレートは音素ごとに定めておけば、音素
に応じて当該音素が確実に認識できるように発音させる
ことができる。また、デッドレート調整係数でデッドレ
ートの部分的な調整を行なうことができるので、音素の
並び方に応じた最適なデッドレートでフォルマントパラ
メータを出力でき、一連の歌詞が自然に聞こえるように
発音させることができる。

【００６５】また、第２の音韻が第１の音韻を食うよう
なタイミングで発音が為されるので、聴感上、有声音
（母音）が鳴り始めたタイミングがその音の鳴り始めの
タイミングに聞こえるということに基づき、適正なタイ
ミングで第２の音韻が鳴り始めたように聞こえるように
できる。

【図面の簡単な説明】

【図１】本発明の一形態例に係るフォルマントパラメー
タ生成装置を適用した電子楽器のシステム構成図

【図２】フォルマント音源の概略構成図

【図３】フォルマントパラメータの説明図および有声音
間でモーフィングを行なう際のフォルマント中心周波数
ｆｆの補間の様子を示す図

【図４】無声音と有声音とを組み合わせて発声する際に
モーフィングを行なう場合のフォルマントレベルデータ
の出力例を示す図（その１）

【図５】無声音と有声音とを組み合わせて発声する際に
モーフィングを行なう場合のフォルマントレベルデータ
の出力例を示す図（その２）

【図６】データメモリの内容を示す図

【図７】歌詞演奏の手順を示すフローチャート図（その
１）

【図８】歌詞演奏の手順を示すフローチャート図（その
２）

【図９】歌詞演奏の手順を示すフローチャート図（その
３）

【符号の説明】

１０１…中央処理装置、１０２…リードオンリメモリ
（ＲＯＭ）、１０３…ランダムアクセスメモリ（ＲＡ
Ｍ）、１０４…データメモリ、１０５…表示部、１０６
…演奏操作子、１０７…設定操作子、１０８…フォルマ
ント音源、１０９…ディジタルアナログ変換器（ＤＡ
Ｃ）、１１０…バスライン、２０１…ＶＴＧグループ、
２０２…ＵＴＧグループ、２０３…加算器、ｆｆ…フォ
ルマント中心周波数、ｆｌ…フォルマントレベル、ｂｗ
…フォルマントバンド幅。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開昭63−210900（ＪＰ，Ａ) 特開昭56−80099（ＪＰ，Ａ) 特開昭58−107597（ＪＰ，Ａ) 特開昭58−97093（ＪＰ，Ａ) 特開昭59−212899（ＪＰ，Ａ) 特開昭61−118798（ＪＰ，Ａ) 特開昭59−42598（ＪＰ，Ａ) 特開昭62−96999（ＪＰ，Ａ) 特開昭63−307500（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 13/00 G10L 13/04

Claims

(57)【特許請求の範囲】

【請求項１】フォルマントを規定するフォルマントパラ
メータに応じたフォルマントを有する音声を合成するフ
ォルマント音源に与えるフォルマントパラメータを生成
するフォルマント音源のパラメータ生成装置であって、複数の音韻についてのフォルマントパラメータ（ハ゜ラメータ
611）と発生すべき音韻を指定する音韻指定情報（SEGME
NT VOICE 625）と該音韻の発生タイミングを示す音韻発
生タイミング情報（SEG DURATION 627）と補間開始タイ
ミングを示す補間開始タイミング情報（DEAD RATE 61
2，DEAD RATE COEF 626）とを記憶した記憶手段（テ゛ータメ
モリ 104）と、前記記憶手段に記憶された音韻指定情報および音韻タイ
ミング情報にしたがって、前記記憶手段に記憶されたフ
ォルマントパラメータを順次読み出して前記フォルマン
ト音源に出力する制御手段であって、有声音間におい
て、前の有声音に関するフォルマントパラメータを前記
フォルマント音源に前記補間開始タイミング情報が示す
タイミングまで出力した後、前記前の有声音から後の有
声音へとフォルマントパラメータの補間を開始し、該補
間結果を前記フォルマント音源に出力するものとを備え
たことを特徴とするフォルマント音源のパラメータ生成
装置。
【請求項２】前記補間開始タイミング情報は、第１種の
補間開始タイミング情報（DEAD RATE 612）と第２種の
補間開始タイミング情報（DEAD RATE COEF 626）とから
なり、前記記憶手段は、前記フォルマントパラメータと前記第
１種の補間開始タイミング情報とからなる音色ファイル
（V FRMNT DATA）を音韻種類毎に記憶するとともに、前
記音韻指定情報と前記音韻発生タイミング情報と前記第
２種の補間開始タイミング情報とからなるイベントデー
タ（VEVENT）を複数記憶するものであり（フォルマントハ゜ラメータ
テーフ゛ル 601とシーケンステーフ゛ル 602）、前記制御手段は、前の有声音に関するフォルマントパラ
メータを前記フォルマント音源に、前記第１種および第
２種の補間開始タイミング情報に応じたタイミングまで
出力するものであることを特徴とする請求項１に記載の
フォルマント音源のパラメータ生成装置。
【請求項３】有声音間に無声音が存在することを特徴と
する請求項１に記載のフォルマント音源のパラメータ生
成装置。
【請求項４】前記音韻発生タイミング情報は各音韻の発
音継続時間を示す発音時間情報であり、前記補間開始タ
イミング情報は各音韻の発音継続時間に対する割合を示
すデッドレートであり、前記制御手段は、（ａ）前記前の有声音の発音時間情報が示す発音継続時
間と前記デッドレートとを乗算することにより、前記前
の有声音の発音開始から補間開始までの時間を算出する
補間開始時間算出手段と、（ｂ）前記前の有声音の発音開始から前記補間開始時間
算出手段により算出した補間開始までの時間の間、前記
前の有声音に関するフォルマントパラメータを前記フォ
ルマント音源に出力するフォルマントパラメータ出力手
段と、（ｃ）前記補間開始までの時間が経過したことを検出す
る補間開始時間検出手段と、（ｄ）前記補間開始までの時間が経過したときは、前記
前の有声音から前記後の有声音へのフォルマントパラメ
ータの補間を開始し、補間結果を前記フォルマント音源
に出力する補間手段とからなることを特徴とする請求項
１に記載のフォルマント音源のパラメータ生成装置。
【請求項５】前記音韻発生タイミング情報は各音韻の発
音継続時間を示す発音時間情報であり、前記補間開始タ
イミング情報は各音韻の発音継続時間に対する割合を示
すデッドレートであり、前記制御手段は、（ａ）前記前の有声音の発音時間情報が示す発音継続時
間と前記デッドレートとを乗算することにより、前記前
の有声音の発音開始から補間開始までの時間を算出する
とともに、前記前の有声音の発音時間から前記算出した
補間開始までの時間を減算することにより補間を実行す
る補間時間を算出する補間時間算出手段と、（ｂ）前記先の音韻の発音開始から前記補間時間算出手
段により算出した補間開始までの時間の間、前記前の有
声音に関するフォルマントパラメータを前記フォルマン
ト音源に出力する第１のフォルマントパラメータ出力手
段と、（ｃ）前記補間開始までの時間が経過したことを検出す
る補間開始時間検出手段と、（ｄ）前記補間開始までの時間が経過したときは、前記
前の有声音のフォルマントパラメータから前記後の有声
音のフォルマントパラメータまでの間を、前記補間時間
で補間し、補間結果を前記フォルマント音源に順次出力
する補間手段と、（ｅ）前記補間時間が経過したことを検出する補間時間
検出手段と、（ｆ）前記補間時間が経過したときは、前記後の有声音
に関するフォルマントパラメータを前記フォルマント音
源に出力する第２のフォルマントパラメータ出力手段と
からなることを特徴とする請求項１記載のフォルマント
音源のパラメータ生成装置。
【請求項６】前記音韻発生タイミング情報は各音韻の発
音継続時間を示す発音時間情報であり、前記補間開始タ
イミング情報は各音韻の発音継続時間に対する割合を示
すデッドレートであり、前記制御手段は、（ａ）前記前の有声音の発音時間情報が示す発音継続時
間と前記デッドレートとを乗算することにより前記前の
有声音の発音開始から補間開始までの時間を算出すると
ともに、前記前の有声音の発音時間から前記算出した補
間開始までの時間および次に発音すべき無声音の発音時
間を減算することにより補間を実行する補間時間を算出
する補間時間算出手段と、（ｂ）前記前の有声音の発音開始から前記補間時間算出
手段により算出した補間開始までの時間の間、前記前の
有声音に関するフォルマントパラメータを前記フォルマ
ント音源に出力する第１のフォルマントパラメータ出力
手段と、（ｃ）前記補間開始までの時間が経過したことを検出す
る補間開始時間検出手段と、（ｄ）前記補間開始までの時間が経過したときは、前記
前の有声音のフォルマントパラメータから前記後の有声
音のフォルマントパラメータまでの間を、前記補間時間
および前記無声音の発音時間で補間し、補間結果を前記
フォルマント音源に順次出力する補間手段と、（ｅ）前記補間時間が経過したことを検出する補間時間
検出手段と、（ｆ）前記補間時間が経過したときは、前記無声音に関
するフォルマントパラメータを前記フォルマント音源に
出力し、その後に、前記後の有声音に関するフォルマン
トパラメータを前記フォルマント音源に出力する第２の
フォルマントパラメータ出力手段とからなることを特徴
とする請求項１に記載のフォルマント音源のパラメータ
生成装置。
【請求項７】前記制御手段は、（ａ）前記有声音の発音継続時間が所定時間より長いと
きは、前記請求項１乃至６に記載の補間方法で補間し、（ｂ）前記有声音の発音継続時間が所定時間より短いと
きは、前記有声音の合成初期は目標値への変化が緩く後
期になって目標値への変化が急になる補間方法で補間す
ることを特徴とする請求項１から６の何れか１つに記載
のフォルマント音源のパラメータ生成装置。