JP3915703B2

JP3915703B2 - 音声合成装置

Info

Publication number: JP3915703B2
Application number: JP2003021681A
Authority: JP
Inventors: 敦一中村
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2003-01-30
Filing date: 2003-01-30
Publication date: 2007-05-16
Anticipated expiration: 2023-01-30
Also published as: JP2004233622A

Description

【０００１】
【発明が属する技術分野】
本発明は、複数のフォルマントを合成して音声を合成することができる音声合成装置に関するものである。
【０００２】
【従来の技術】
従来の音声合成装置の一例としては、数ｍｓないし数十ｍｓの短時間の音声を定常と見なして数個の正弦波の和で音声を表現することを原理としている。そして、正弦波を発生する正弦波発生器の位相をピッチ周期でリセットすることにより有声音を形成すると共に、正弦波発生器の位相初期化タイミングをランダムにすることによりスペクトルを広げて無声音を形成する音声合成装置が知られていた（例えば、特許文献１参照）。
【０００３】
【特許文献１】
特公昭５８−５３３５１号公報
【０００４】
【発明が解決しようとする課題】
しかしながら、従来の音声合成装置が合成することのできる音声の品位は低くリアリティがないという問題点があった。
そこで、本発明は、高品位の音声を合成することができる音声合成装置を提供することを目的としている。
【０００５】
【課題を解決するための手段】
上記目的を達成するために、本発明の音声合成装置は、所定のピッチ周期、および、有声音合成モードまたは無声音合成モードのいずれかを示すモード指定に従い、所望の有声音フォルマントまたは所望の無声音フォルマントのいずれかを形成する複数のフォルマント形成部を有し、該複数のフォルマント形成部で形成された複数の有声音フォルマントまたは複数の無声音フォルマントを合成することにより有声音または無声音を合成する音声合成装置であって、前記複数のフォルマント形成部のそれぞれが、所定の波形形状に対応した波形データを記憶している波形データ記憶手段と、前記フォルマント中心周波数に対応したレートで変化するアドレスを発生して前記波形データ記憶手段に記憶された波形データを読み出す波形データ読み出し手段と、有声音合成モードのときは前記ピッチ周期に対応した周期で繰り返すエンベロープ信号を生成し、無声音合成モードのときは発音開始指示に連動して立ち上がるとともに発音終了指示に連動して減衰するエンベロープ信号を生成して、該生成したエンベロープ信号を前記波形データ読み出し手段により前記波形データ記憶手段から読み出された波形データに付与するエンベロープ付与手段とを備えている。
【０００６】
また、上記目的を達成することのできる本発明の他の音声合成装置は、所定のピッチ周期、および、有声音合成モードまたは無声音合成モードのいずれかを示すモード指定に従い、所望の有声音フォルマントまたは所望の無声音フォルマントのいずれかを形成する複数のフォルマント形成部を有し、該複数のフォルマント形成部で形成された複数の有声音フォルマントまたは複数の無声音フォルマントを合成することにより有声音または無声音を合成する音声合成装置であって、前記複数のフォルマント形成部のそれぞれが、複数種類の波形形状に対応した複数の波形データを記憶している波形データ記憶手段と、有声音合成モードのときは前記複数種類の波形形状の中から所望の波形形状を指定する一方、無声音合成モードのときは予め決められた所定の波形形状を指定する波形形状指定手段と、フォルマント中心周波数に対応したレートで変化するアドレスを発生して、前記波形形状指定手段で指定された波形形状に対応した波形データを前記波形データ記憶手段から読み出す波形データ読み出し手段と、有声音合成モードのときは前記ピッチ周期に対応した周期で繰り返すエンベロープ信号を生成し、無声音合成モードのときは発音開始指示に連動して立ち上がるとともに発音終了指示に連動して減衰するエンベロープ信号を生成して、該生成したエンベロープ信号を前記波形データ読み出し手段により前記波形データ記憶手段から読み出された波形データに付与するエンベロープ付与手段とを備えていてもよい。
【０００７】
また、上記本発明の音声合成装置において、無声音合成モードのときに前記波形データ読み出し手段により前記波形データ記憶手段から読み出された波形データにノイズを付与するノイズ付与手段が、前記複数のフォルマント形成部にさらに備えられていてもよい。
【０００８】
このような本発明によれば、複数のフォルマント形成部により所望の有声音フォルマントまたは所望の無声音フォルマントを形成し、形成された複数の有声音フォルマントまたは複数の無声音フォルマントを合成することにより有声音または無声音を合成している。そして、有声音フォルマントを形成する波形データにピッチ周期のエンベロープ信号を付与するようにしている。これにより、有声音フォルマントにピッチ感を有させることができ、高品位のリアリティのある音声を合成することができるようになる。また、無声音フォルマントを形成する前記波形データにノイズを付与することにより、より高品位のリアリティのある音声を合成することができるようになる。
【０００９】
【発明の実施の形態】
本発明の実施の形態の音源装置と兼用される音声合成装置の構成を示すブロック図を図１に示す。
図１に示す音声合成装置１は、複数種類の波形形状の波形データを記憶している波形データ記憶部と、この波形データ記憶部から所定の波形データを読み出す読み出し手段を少なくとも備える９つの波形テーブルボイス（ＷＴボイス）部１０ａ，１０ｂ，１０ｃ，１０ｄ，１０ｅ，１０ｆ，１０ｇ，１０ｈ，１０ｉと、ＷＴボイス部１０ａ〜１０ｉから出力される波形データをミキシングするミキシング手段１１から構成され、ミキシング手段１１からは発生された楽音あるいは合成された音声が出力される。この場合、ＷＴボイス部１０ａ〜１０ｉに各種パラメータとして楽音パラメータおよび音声パラメータが供給されており、楽音／音声の発生指示をする音声モードフラグ（ＨＶＭＯＤＥ）が楽音の発生を指示（ＨＶＭＯＤＥ＝０）していた場合は、楽音パラメータが選択されてＷＴボイス部１０ａ〜１０ｉで使用される。そして、選択された楽音パラメータに基づいてＷＴボイス部１０ａ〜１０ｉから発生された複数の楽音の波形データが出力され、ミキシング手段１１から最大９音からなる楽音が出力される。
【００１０】
そして、楽音／音声の発生指示をする音声モードフラグ（ＨＶＭＯＤＥ）が音声の発生を指示（ＨＶＭＯＤＥ＝１）していた場合は、音声パラメータが選択されてＷＴボイス部１０ａ〜１０ｉで使用される。そして、選択された音声パラメータに基づいてＷＴボイス部１０ａ〜１０ｉから有声音ピッチ信号、有声音フォルマントあるいは無声音フォルマントを形成する波形データが出力され、有声音フォルマントおよび無声音フォルマントを形成している波形データがミキシング手段１１で合成されることにより１つの音声が出力される。なお、ＨＶＭＯＤＥのＨＶはHuman Voiceの略である。また、Ｕ／Ｖは無声音（Unvoiced Sound）／有声音（Voiced Sound）指示フラグであり、ＨＶＭＯＤＥ＝１およびＵ／Ｖ＝０が供給されている場合は、ＷＴボイス部１０ｂ〜１０ｉから有声音のフォルマントを形成する波形データが出力される。また、ＨＶＭＯＤＥ＝１およびＵ／Ｖ＝０が供給されているＷＴボイス部１０ａからは、有声音のピッチ周期とされる有声音ピッチ信号が出力され、波形データは利用されない。ＷＴボイス部１０ａから出力された有声音ピッチ信号はＷＴボイス部１０ｂ〜１０ｉに供給されて、有声音フォルマントを形成する波形データの位相が、有声音ピッチ信号の周期毎にリセットされるようになる。また、有声音フォルマントのエンベロープ形状が有声音ピッチ信号の周期に対応したものとなる。これにより、有声音フォルマントにピッチ感を有させることができる。
【００１１】
そして、ＷＴボイス部１０ｂ〜１０ｉにＨＶＭＯＤＥ＝１およびＵ／Ｖ＝１が供給されている場合は、ＷＴボイス部１０ｂ〜１０ｉから無声音のフォルマントを形成する波形データが出力される。また、ＨＶＭＯＤＥ＝１およびＵ／Ｖ＝１が供給されているＷＴボイス部１０ａからの出力は利用されない。このように、ＨＶＭＯＤＥ＝１とすると、ＷＴボイス部１０ｂ〜１０ｉにより有声音フォルマントあるいは無声音フォルマントのフォルマントを最大８フォルマント出力することができる。
【００１２】
ここで、音声について説明すると、音声の元になるのは声帯の振動であるが、声帯の振動は発音する言葉が違ってもほとんど変化することはない。口の開け方や喉の形などによって生じる共振や共鳴、そしてそれに付随する摩擦音や破裂音などが声帯の振動に付け加えられることでさまざまな音声になっている。このような音声には、特定の周波数領域にスペクトルが集中しているフォルマントと呼ばれる部分が周波数軸上で複数箇所存在している。このフォルマントの中央の周波数、あるいは、振幅最大の周波数がフォルマント中心周波数である。音声に含まれるフォルマントの数や、各フォルマントの中心周波数や振幅、帯域幅などは音声の性質を決める要素であり、音声を出す人の性別や体格、年齢などによって大きく異なるようになる。また、音声では発音する言葉の種類ごとに特徴的なフォルマントの組み合わせが決まっており、フォルマントの組み合わせは声質に関わることはない。フォルマントの種類を大別すると、有声音を合成するためのピッチ感を持った有声音フォルマントと、無声音を合成するためのピッチ感を持たない無声音フォルマントとなる。なお、有声音とは、発音する際に声帯が振動する音声であり、有声音には、母音と半母音、そしてバ行、ガ行、マ行、ラ行などで使用される有声子音が含まれる。また、無声音とは、発音する際に声帯が振動しない音声であり、ハ行、力行、サ行などの子音が無声音に該当する。
【００１３】
図１に示す構成の本発明にかかる音源装置と兼用される音声合成装置１において、楽音を発生する際には、ＨＶＭＯＤＥ＝０としてＷＴボイス部１０ａ〜１０ｉのそれぞれで複数の楽音を発生するようにしている。すなわち、最大９音からなる楽音を発生することができる。
音声を合成する際には、ＨＶＭＯＤＥ＝１として合成する有声音あるいは無声音の音声に対応する有声音フォルマントあるいは無声音フォルマントをＷＴボイス部１０ｂ〜１０ｉにより形成するようにしている。この場合、合成される音声は最大８つのフォルマントの組み合わせとなる。例えば、合成される音声が有声音の場合は、ＷＴボイス部１０ｂ〜１０ｉにＵ／Ｖ＝０が供給されて、供給されている音声パラメータに基づく有声音フォルマントがそれぞれＷＴボイス部１０ｂ〜１０ｉにより形成される。この際に、ＷＴボイス部１０ａにはＵ／Ｖ＝０が供給されて、ＷＴボイス部１０ａは供給されている音声パラメータに基づいて有声音ピッチ信号を発生する。この有声音ピッチ信号はＷＴボイス部１０ｂ〜１０ｉに供給されて、出力される有声音フォルマントを形成する波形データの位相が有声音ピッチ信号の周期毎にリセットされる。また、有声音フォルマントのエンベロープ形状が有声音ピッチ信号の周期に対応したものとなる。これによりピッチ感を持った有声音フォルマントがＷＴボイス部１０ｂ〜１０ｉにより形成されるようになる。
【００１４】
また、合成される音声が無声音の場合は、ＷＴボイス部１０ｂ〜１０ｉにＨＶＭＯＤＥ＝１およびＵ／Ｖ＝１が供給されて、供給されている音声パラメータに基づく無声音フォルマントがそれぞれＷＴボイス部１０ｂ〜１０ｉにより形成される。後述するように、無声音の場合にはノイズが付与された無声音フォルマントとされる。これにより、高品質のリアリティのある音声を合成することができる。なお、無声音を合成する場合はＷＴボイス１０ａの出力は利用されない。
【００１５】
音声合成装置１におけるＷＴボイス部１０ａ〜１０ｉの構成は同じ構成とされており、ＷＴボイス部１０として以下にその構成を説明する。図２は、ＷＴボイス部１０の概略構成を示すブロック図である。なお、図２以降において、（ＷＴ）、（有声音フォルマント）、（無声音フォルマント）の表記は、そのパラメータがそれぞれ、楽音、有声音フォルマント、無声音フォルマントを生成するためのパラメータであることを示している。
図２において、位相データ発生器（ＰＧ：Phase Generator）２０は、発生すべき楽音のピッチあるいは有声音ピッチ信号、有声音フォルマント中心周波数、無声音フォルマント中心周波数のいずれかに対応する位相データを発生している。ＰＧ２０には、音声モードフラグ（ＨＶＭＯＤＥ）、無声音／有声音指示フラグ（Ｕ／Ｖ）のフラグ情報と、楽音パラメータとして楽音のオクターブ情報ＢＬＯＣＫ（ＷＴ）、楽音の周波数情報ＦＮＵＭ（ＷＴ）が供給されている。さらに、音声パラメータとして、有声音ピッチ信号のオクターブ情報ＢＬＯＣＫ（有声音ピッチ）、有声音ピッチ信号の周波数情報ＦＮＵＭ（有声音ピッチ）、あるいは、有声音フォルマントのオクターブ情報ＢＬＯＣＫ（有声音フォルマント）、有声音フォルマントの周波数情報ＦＮＵＭ（有声音フォルマント）、無声音フォルマントのオクターブ情報ＢＬＯＣＫ（無声音フォルマント）、無声音フォルマントの周波数情報ＦＮＵＭ（無声音フォルマント）の各パラメータが供給されている。ＰＧ２０において、供給されている各種パラメータがフラグ情報により選択されて、選択したパラメータに基づいて発生すべき楽音の音程あるいは有声音ピッチ信号、有声音フォルマント中心周波数、無声音フォルマント中心周波数のいずれかに対応する位相データが発生されている。
【００１６】
ＰＧ２０の詳細構成を図３に示す。図３においてセレクタ３０では、Ｕ／Ｖフラグの状態に応じて有声音ピッチ信号あるいは有声音フォルマントの周波数情報ＦＮＵＭと、無声音フォルマントの周波数情報ＦＮＵＭとのいずれかが選択されてセレクタ３１に出力される。セレクタ３１では、ＨＶＭＯＤＥフラグの状態に応じて楽音の周波数情報ＦＮＵＭ（ＷＴ）と、セレクタ３０から出力される音声関連の周波数情報ＦＮＵＭとのいずれかが選択されてシフター３４に出力され、セレクタ３１から出力される周波数情報ＦＮＵＭがシフター３４にセットされる。また、セレクタ３２では、Ｕ／Ｖフラグの状態に応じて有声音ピッチ信号あるいは有声音フォルマントのオクターブ情報ＢＬＯＣＫと、無声音フォルマントのオクターブ情報ＢＬＯＣＫとのいずれかが選択されてセレクタ３３に出力される。セレクタ３３では、ＨＶＭＯＤＥフラグの状態に応じて楽音のオクターブ情報ＢＬＯＣＫ（ＷＴ）と、セレクタ３２から出力される音声関連のオクターブ情報ＢＬＯＣＫとのいずれかが選択されてシフター３４にシフト情報として出力され、シフター３４にセットされている周波数情報ＦＮＵＭがオクターブ情報ＢＬＯＣＫに応じてシフトされる。これにより、発生すべき楽音の音程、有声音ピッチ信号、有声音フォルマントの中心周波数、無声音フォルマントの中心周波数のいずれかを発生するためのオクターブの加味された位相データがＰＧ出力としてＰＧ２０から出力される。
【００１７】
図２に戻りＰＧ２０からのＰＧ出力は、アドレス発生器（ＡＤＧ：Address Generator）２１に入力され、ＰＧ出力とされる位相データを累算することにより、波形データ記憶部（WAVE TABLE）２２から所望の波形形状の波形データを読み出すための読み出しアドレスを発生している。ＡＤＧ２１には、音声モードフラグ（ＨＶＭＯＤＥ）、無声音／有声音指示フラグ（Ｕ／Ｖ）のフラグ情報と、楽音パラメータとしてスタートアドレスＳＡ（ＷＴ）、ループポイントＬＰ（ＷＴ）、エンドポイントＥＰ（ＷＴ）が供給され、さらに、音声パラメータとして、有声音フォルマントを形成するに適した波形を選択するための波形選択（ＷＳ）信号と、楽音および音声に共通の発音開始を指示するキーオン（KeyOn）信号が供給されている。
【００１８】
楽音を発生する場合には、ＨＶＭＯＤＥ＝０としてキーオン信号の開始タイミングでスタートアドレスＳＡ（ＷＴ）がＡＤＧ２１から出力され、スタートアドレスＳＡ（ＷＴ）で示される波形データ記憶部２２の位置から波形データの読み出しが開始される。そして、ＰＧ２０からの位相データを累算していくことによりエンドポイントＥＰ（ＷＴ）までの読み出しアドレスが、楽音の音程に応じたレートで変化するようにＡＤＧ２１から順次出力される。これにより、エンドポイントＥＰ（ＷＴ）で示される波形データ記憶部２２の位置までの波形データのサンプルが楽音の音程に応じたレートで順次読み出される。次いで、ループポイントＬＰ（ＷＴ）に相当する読み出しアドレスがＡＤＧ２１から出力され、さらにＰＧ２０からの位相データを累算していくことによりエンドポイントＥＰ（ＷＴ）までの読み出しアドレスが楽音の音程に応じたレートで変化しながらＡＤＧ２１から順次出力される。これにより、ループポイントＬＰ（ＷＴ）で示される波形データ記憶部２２の位置からエンドポイントＥＰ（ＷＴ）で示される波形データ記憶部２２の位置までの波形データのサンプルが楽音の音程に応じたレートで順次読み出される。ループポイントＬＰ（ＷＴ）からエンドポイントＥＰ（ＷＴ）までの読み出しアドレスは、キーオン信号により発音停止されるまで繰り返し発生される。これにより、キーオン信号で示される発音開始から発音停止までの所望の波形データを、楽音の音程に応じたレートで波形データ記憶部２２から読み出すことができる。
【００１９】
また、音声を合成する際には、ＨＶＭＯＤＥ＝１としてキーオン信号の開始タイミングでＷＳ（有声音フォルマント）信号で示されるスタートアドレス、あるいは、予め定められている無声音フォルマント用のスタートアドレスで示される波形データ記憶部２２の位置から波形データの読み出しが開始される。そして、ＰＧ２０からの位相データを累算していくことにより固定とされているアドレス範囲の読み出しアドレスが、有声音フォルマントあるいは無声音フォルマントの中心周波数に応じたレートで変化するようＡＤＧ２１から順次出力される。これにより、波形データのサンプルが波形データ記憶部２２から有声音フォルマントあるいは無声音フォルマントの中心周波数に応じたレートで順次読み出されるようになる。なお、ＷＴボイス部１０ａにおいては、ＰＧ２０からの位相データを累算した累算値が有声音ピッチ周期で予め定められている所定の値（定数値）に達するようになり、定数値に達した際に有声音ピッチ信号（パルス信号）が出力されるようになる。
【００２０】
このようなＡＤＧ２１の詳細構成を図４に示す。図４においてＰＧ２０からの位相データは累算器（ＡＣＣ：Accumulator）４１に入力されて、クロック毎に累算されることにより読み出しアドレスの増分値が生成される。この読み出しアドレスの増分値は、セレクタ４６を介して加算器４７に供給され加算器４７においてスタートアドレスが加算されて読み出しアドレスが生成され、ＡＤＧ出力としてＡＤＧ２１から出力される。
ＡＤＧ２１において、ＨＶＭＯＤＥ＝０とされて楽音を発生する際の動作を説明する。ＨＶＭＯＤＥ＝０とされると、アンドゲートＡＮＤが閉じるためオアゲートＯＲから出力されるキーオン信号（KeyOn）のみによって累算器４１は初期値にリセットされ、ＰＧ２０から供給される発生すべき楽音の音程に応じた位相データの累算を開始する。この累算はクロック毎に行われ、その累算値ｂはセレクタ４６および減算器４３に出力される。
【００２１】
減算器４３にデータａを供給するセレクタ４２はＨＶＭＯＤＥ＝０とされていることからエンドポイントＥＰ（ＷＴ）をデータａとして選択し減算器４３に出力する。これにより、減算器４３で演算された減算値（ａ−ｂ）が出力され、減算値（ａ−ｂ）のＭＳＢが除外された振幅値｜ａ−ｂ｜が加算器４５に供給される。また、減算値（ａ−ｂ）が負となった際に“１”となるＭＳＢ（Most Significant Bit）信号が選択信号としてセレクタ４６に供給されると共に、累算器４１にロード信号として供給される。ＭＳＢ信号は、減算値（ａ−ｂ）が負になった際に“１”になることから、セレクタ４６は累算値ｂがエンドポイントＥＰ（ＷＴ）を超えるまでは累算値ｂを加算器４７に出力する。加算器４７に加算データを供給するセレクタ５０は、ＨＶＭＯＤＥ＝０とされていることからスタートアドレスＳＡ（ＷＴ）を選択して加算器４７に出力する。これにより、スタートアドレスＳＡ（ＷＴ）が加算された累算値ｂがＡＤＧ出力として出力される。累算値ｂはクロック毎に位相データが累算されて、位相データのレートで変化することから、ＡＤＧ出力である読み出しアドレスも位相データに応じて変化していくようになる。
【００２２】
そして、累算値ｂがエンドポイントＥＰ（ＷＴ）を超えた際にＭＳＢ信号は“１”に変化することから、セレクタ４６は加算器４５から出力されるデータｃを出力するようになる。データｃは、ＨＶＭＯＤＥ＝０とされていることからセレクタ４４において選択されたループポイントＬＰ（ＷＴ）に、加算器４５において減算値（ａ−ｂ）のＭＳＢが除外された振幅値｜ａ−ｂ｜が加算された演算値とされる。これにより、加算器４７から出力されるＡＤＧ出力は振幅値｜ａ−ｂ｜で補正されたループポイントＬＰ（ＷＴ）の読み出しアドレスとなる。また、ＭＳＢ信号が“１”に変化することから累算器４１にロード信号が供給されて、累算器４１にデータｃがロードされるようになる。すると、ＭＳＢ信号が“０”に戻ることから累算器４１から出力されるデータｃがセレクタ４６から出力されるようになる。そして、累算器４１からはクロック毎に位相データがデータｃに加算された累算値ｂが出力されることから、ＡＤＧ出力はほぼループポイントＬＰ（ＷＴ）の読み出しアドレスから位相データに応じたレートで変化していくようになる。
【００２３】
この場合のＡＤＧ出力をグラフで図示して説明すると、ＡＤＧ出力は図５に示すようになる。すなわち、キーオン信号が印加されるとスタートアドレスＳＡ（ＷＴ）が出力され、位相データに応じたレートで変化しながら読み出しアドレスが上昇していきスタートアドレスＳＡ（ＷＴ）からエンドポイント（ＥＰ）分増分された際に、スタートアドレスＳＡ（ＷＴ）にループポイント（ＬＰ）を加算した値に戻り、以降は、スタートアドレスＳＡ（ＷＴ）にループポイント（ＬＰ）を加算した値からエンドポイント（ＥＰ）分増分されるまでの読み出しアドレスを繰り返し発生するようになる。この際の読み出しアドレスの変化は、位相データに応じたレートとなる。そして、キーオン信号により発音停止された際にＡＤＧ出力は停止されるようになる。このＡＤＧ出力である読み出しアドレスにより波形データ記憶部２２から読み出された波形データは、位相データに応じた周波数となる。なお、スタートアドレスＳＡ（ＷＴ）により波形データ記憶部２２から読み出される波形データの種類を選択することができることから、例えば、ＷＴボイス部１０ａ〜１０ｉ毎にスタートアドレスＳＡ（ＷＴ）を選択することにより、ＷＴボイス部１０ａ〜１０ｉ毎の音色を異ならせることができるようになる。
【００２４】
次に、ＡＤＧ２１がＷＴボイス部１０ａのアドレス発生器であって、ＨＶＭＯＤＥ＝１およびＵ／Ｖ＝０とされて有声音ピッチ信号を発生する際の動作を説明する。ＨＶＭＯＤＥ＝１およびＵ／Ｖ＝０とされると、アンドゲートＡＮＤが開くが、ＷＴボイス１０ａには有声音ピッチ信号が供給されていないため、オアゲートＯＲからはキーオン信号のみが出力される。従って、累算器４１はキーオン信号により初期値にリセットされ、ＰＧ２０から供給される発生すべき有声音ピッチ信号に応じた位相データの累算を開始する。この累算はクロック毎に行われ、その累算値ｂはセレクタ４６および減算器４３に出力される。減算器４３にデータａを供給するセレクタ４２はＨＶＭＯＤＥ＝１とされていることからあらかじめ定められている定数値をデータａとして選択し減算器４３に出力する。これにより、減算器４３で演算された減算値（ａ−ｂ）が出力され、減算値（ａ−ｂ）のＭＳＢが除外された振幅値｜ａ−ｂ｜が加算器４５に供給される。
【００２５】
また、減算値（ａ−ｂ）のＭＳＢ信号が選択信号としてセレクタ４６に供給されると共に、累算器４１にロード信号として供給される。ＭＳＢ信号は、減算値（ａ−ｂ）が負の値になった際、すなわち累算値が定数値に達した際に“１”になり、累算器４１にロード信号として供給されて、累算器４１にデータｃがロードされるようになる。データｃは、ＨＶＭＯＤＥ＝１とされていることからセレクタ４４において選択された“０”に、加算器４５において減算値（ａ−ｂ）のＭＳＢが除外された振幅値｜ａ−ｂ｜が加算された演算値とされる。累算器４１が次のクロックでデータｃに位相データを加算すると、ＭＳＢ信号は“０”になる。このようにして、ＭＳＢ信号はＰＧ２０から供給された有声音ピッチパラメータに基づく位相データに応じた周期、すなわち有声音ピッチの周期で発生されるようになる。そこで、ＨＶＭＯＤＥ＝１およびＵ／Ｖ＝０が供給されたＷＴボイス１０ａでは、このＭＳＢ信号を有声音ピッチ信号として出力している。有声音ピッチ信号をグラフで図示すると図７に示すように有声音ピッチの周期を有するパルス信号となる。この場合において、ＷＴボイス部１０ａからはＡＤＧ出力も出力されるが、このＡＤＧ出力は読み出しアドレスとして使用しない。
【００２６】
次に、ＡＤＧ２１において、ＨＶＭＯＤＥ＝１およびＵ／Ｖ＝０とされて有声音フォルマントを発生する際の動作を説明する。ＨＶＭＯＤＥ＝１およびＵ／Ｖ＝０とされると、ゲートＮＯＴの作用によりアンドゲートＡＮＤが開くためオアゲートＯＲから出力される有声音ピッチ信号およびキーオン信号によって累算器４１は初期値にリセットされ、ＰＧ２０から供給される発生すべき有声音フォルマントの中心周波数に応じた位相データの累算を開始する。アンドゲートＡＮＤには、ＷＴボイス部１０ａから出力される図７に示す有声音ピッチ信号が供給されている。累算器４１の累算はクロック毎に行われ、その累算値ｂはセレクタ４６および減算器４３に出力される。減算器４３にデータａを供給するセレクタ４２はＨＶＭＯＤＥ＝１とされていることから、あらかじめ定められている定数値をデータａとして選択し減算器４３に出力する。定数値とするのはフォルマントを形成する波形データのデータ量が固定値とされているからである。そして、減算器４３で演算された減算値（ａ−ｂ）が出力され、減算値（ａ−ｂ）のＭＳＢが除外された振幅値｜ａ−ｂ｜が加算器４５に供給される。
【００２７】
また、減算値（ａ−ｂ）のＭＳＢ信号が選択信号としてセレクタ４６に供給されると共に、累算器４１にロード信号として供給される。ＭＳＢ信号は、減算値（ａ−ｂ）が負の値になった際に“１”になることから、セレクタ４６は累算値ｂが定数値を超えるまでは累算値ｂを加算器４７に出力する。加算器４７に加算データを供給するセレクタ５０は、ＨＶＭＯＤＥ＝１とされていることからセレクタ４９の出力を選択して加算器４７に出力する。また、セレクタ４９はＵ／Ｖ＝０とされていることから、スタートアドレス発生器４８から出力される有声音フォルマントを形成する選択された波形データのスタートアドレスＳＡ（ＷＳ）をセレクタ４９に出力している。さらに、スタートアドレス発生器４８は、有声音フォルマントを形成するに適した波形を選択するよう入力されている波形選択（ＷＳ）信号に応じて波形データを選択するよう波形データ記憶部２２上のスタートアドレスＳＡを出力している。これにより、加算器４７においてスタートアドレスＳＡ（ＷＳ）に累算値ｂが加算され、ＡＤＧ出力として出力される。累算値ｂはクロック毎に位相データが累算されて位相データに応じたレートで変化していくことから、ＡＤＧ出力である有声音フォルマントを形成する波形データを読み出す読み出しアドレスも位相データに応じたレートで変化していくようになる。
【００２８】
そして、累算が進んで累算値が定数値に達すると、減算値（ａ−ｂ）が負の値となってＭＳＢ信号が“１”になり、セレクタ４６に供給される。すると、セレクタ４６からデータｃが出力されるようになるが、データｃは、ＨＶＭＯＤＥ＝１とされていることからセレクタ４４において選択された“０”に、加算器４５において減算値（ａ−ｂ）のＭＳＢが除外された振幅値｜ａ−ｂ｜が加算された演算値とされる。これにより、加算器４７から出力されるＡＤＧ出力は振幅値｜ａ−ｂ｜の読み出しアドレスとなる。また、ＭＳＢ信号は累算器４１にロード信号として供給されて、累算器４１にデータｃがロードされるようになる。そして、次のクロックで位相データがデータｃに加算されると、ＭＳＢ信号が“０”に戻ることから累算器４１から出力されるデータｂがセレクタ４６から出力されるようになる。累算器４１における位相データの累算はクロック毎に行われ、ＡＤＧ出力はスタートアドレスＳＡ（ＷＳ）から位相データに応じたレートで変化していき、定数値分だけ増分した際に再びスタートアドレスＳＡ（ＷＳ）に戻ることから、ＡＤＧ出力はスタートアドレスＳＡ（ＷＳ）から定数値分増分されるまでの読み出しアドレスを繰り返すようになる。この場合の位相データは有声音フォルマントの中心周波数に基づいていることから、読み出しアドレスは有声音フォルマントの中心周波数に応じたレートで変化するようになる。さらに、累算器４１はＷＴボイス部１０ａから出力される有声音ピッチ信号により初期値にリセットされることから、ＡＤＧ出力は有声音ピッチの周期毎にリセットされ、ＡＤＧ信号を読み出しアドレスとして波形データ記憶部２２から読み出した波形データにより形成される所定の中心周波数を有する有声音フォルマントに、ピッチ感を有させることができるようになる。
【００２９】
この場合のＡＤＧ出力をグラフで図示すると、図６に示すようになる。すなわち、キーオン信号が印加されると有声音フォルマントを形成させる波形データを選択するＷＳ信号に対応したスタートアドレスＳＡ（ＷＳ）が出力される。そして、累算器４１の作用により有声音フォルマントの中心周波数に応じたレートで変化する読み出しアドレスが上昇していきスタートアドレスＳＡ（ＷＳ）が定数値分増分された際に、スタートアドレスＳＡ（ＷＳ）に戻り、以降は、スタートアドレスＳＡ（ＷＳ）から定数値分増分した値までの読み出しアドレスを繰り返し発生するようになる。このＡＤＧ出力により、波形データ記憶部２２から選択された波形データを読み出すと、読み出された波形データにより所定の中心周波数の有声音フォルマントが形成されるようになる。そして、キーオン信号により発音停止された際にＡＤＧ出力は停止されるようになる。なお、スタートアドレスＳＡ（ＷＳ）すなわちＷＳ（有声音フォルマント）信号により波形データ記憶部２２から読み出される波形データの種類を選択することができ、これにより形成される有声音フォルマントのフォルマントを変化させることができる。また、図６では、累算器４１がＷＴボイス部１０ａから出力される有声音ピッチ信号により初期値にリセットされることは図示していない。
【００３０】
次に、ＡＤＧ２１において、ＨＶＭＯＤＥ＝１およびＵ／Ｖ＝１とされて無声音フォルマントを発生する際の動作を説明する。ＨＶＭＯＤＥ＝１およびＵ／Ｖ＝１とされると、アンドゲートＡＮＤがゲートＮＯＴの作用により閉じるためオアゲートＯＲから出力されるキーオン信号によってのみ累算器４１は初期値にリセットされ、ＰＧ２０から供給される発生すべき無声音フォルマントの中心周波数に応じた位相データの累算を開始する。この累算はクロック毎に行われ、その累算値ｂはセレクタ４６および減算器４３に出力される。減算器４３にデータａを供給するセレクタ４２はＨＶＭＯＤＥ＝１とされていることからあらかじめ定められている定数値をデータａとして選択し減算器４３に出力する。定数値とするのはフォルマントを形成する波形データのデータ量が固定値とされているからである。そして、減算器４３で演算された減算値（ａ−ｂ）が出力され、減算値（ａ−ｂ）のＭＳＢが除外された振幅値｜ａ−ｂ｜が加算器４５に供給される。
【００３１】
また、減算値（ａ−ｂ）のＭＳＢ信号が選択信号としてセレクタ４６に供給されると共に、累算器４１にロード信号として供給される。ＭＳＢ信号は、減算値（ａ−ｂ）が負の値になった際に“１”になることから、セレクタ４６は累算値ｂが定数値を超えるまでは累算値ｂを加算器４７に出力する。加算器４７に加算データを供給するセレクタ５０は、ＨＶＭＯＤＥ＝１とされていることからセレクタ４９の出力を選択して加算器４７に出力する。また、セレクタ４９はＵ／Ｖ＝１とされていることから、サイン波の波形データのスタートアドレスＳＡ（サイン）をセレクタ４９に出力している。これは、サイン波が無声音フォルマントを形成するのに適しているからである。これにより、加算器４７においてスタートアドレスＳＡ（サイン）に累算値ｂが加算され、ＡＤＧ出力として出力される。累算値ｂはクロック毎に位相データが累算されて無声音フォルマントの中心周波数に応じたレートで変化していくことから、ＡＤＧ出力である無声音フォルマントを形成する波形データを読み出す読み出しアドレスも無声音フォルマントの中心周波数に応じたレートで変化していくようになる。
【００３２】
そして、累算値ｂが定数値を超えた際にＭＳＢ信号は“１”に変化することから、セレクタ４６は加算器４５から出力されるデータｃを出力するようになる。データｃは、ＨＶＭＯＤＥ＝１とされていることからセレクタ４４において選択された“０”に、加算器４５において減算値（ａ−ｂ）のＭＳＢが除外された振幅値｜ａ−ｂ｜が加算された演算値とされる。これにより、加算器４７から出力されるＡＤＧ出力は振幅値｜ａ−ｂ｜の読み出しアドレスとなる。また、ＭＳＢ信号は累算器４１にロード信号として供給されて、累算器４１にデータｃがロードされるようになる。そして、次のクロックで位相データがデータｃに加算されると、ＭＳＢ信号が“０”に戻ることから累算器４１から出力されるデータｂがセレクタ４６から出力されるようになる。累算器４１における位相データの累算は、クロック毎に行われＡＤＧ出力はスタートアドレスＳＡ（サイン）から位相データに応じたレートで変化していき、定数値分だけ増分した際に再びスタートアドレスＳＡ（サイン）に戻ることから、ＡＤＧ出力はスタートアドレスＳＡ（サイン）から定数値分増分されるまでの読み出しアドレスを繰り返すようになる。この場合の位相データは無声音フォルマントの中心周波数に基づいていることから、読み出しアドレスは無声音フォルマントの中心周波数に応じたレートで変化するようになる。このＡＤＧ信号を読み出しアドレスとして波形データ記憶部２２から読み出した波形データにより、所定の中心周波数を有する無声音フォルマントが形成される。
【００３３】
この場合のＡＤＧ出力をグラフで図示すると、図８に示すようになる。すなわち、キーオン信号が印加されると無声音フォルマントを形成させるサイン波の波形データのスタートアドレスＳＡ（サイン）が出力され、累算器４１の作用により無声音フォルマントの中心周波数に応じたレートで変化する読み出しアドレスが上昇していきスタートアドレスＳＡ（サイン）が定数値分増分された際に、スタートアドレスＳＡ（サイン）に戻り、以降は、スタートアドレスＳＡ（サイン）から定数値分増分した値までの読み出しアドレスを繰り返し発生するようになる。このＡＤＧ出力により、波形データ記憶部２２からサイン波の波形データを読み出すと、読み出された波形データにより所定の中心周波数の無声音フォルマントが形成されるようになる。そして、キーオン信号により発音停止された際にＡＤＧ出力は停止されるようになる。
【００３４】
ここで、波形データ記憶部２２に記憶されている有声音フォルマントあるいは無声音フォルマントを形成するための複数種類の波形データの波形形状の一例を図１４に示す。
図１４では、波形データ記憶部２２に３２種類の波形形状の波形データが記憶されている例が示されており、ＷＳ（有声音フォルマント）信号として“０”をセットすると、０番のサイン波が読み出されるようになり、例えばＷＳ（有声音フォルマント）信号として“１６”をセットすると、１６番の三角波が読み出されるようになる。また、スタートアドレスＳＡ（サイン）は０番のサイン波の波形データ記憶部２２上のスタートアドレスとされている。これらの３２種類の波形データのデータ量は固定とされており、このデータ量に前記した定数値が対応している。従って、ＡＤＧ２１から出力されるＡＤＧ出力により３２種類の波形データのいずれかを読み出すと、選択された波形形状の波形データが発音停止されるまで繰り返し読み出されるようになる。
【００３５】
図２に戻り波形データ記憶部２２から読み出された波形データは乗算器２３に供給され、エンベロープ発生器（ＥＧ）２４により発生されたエンベロープ信号が乗算される。ＥＧ２４には、音声モードフラグ（ＨＶＭＯＤＥ）、無声音／有声音指示フラグ（Ｕ／Ｖ）のフラグ情報と、楽音パラメータとしてアタックレートＡＲ（ＷＴ）、ディケイレートＤＲ（ＷＴ）、サスティンレートＳＲ（ＷＴ）、リリースレートＲＲ（ＷＴ）、サスティンレベルＳＬ（ＷＴ）が供給され、さらに、楽音および音声に共通の発音開始を指示するキーオン（KeyOn）信号が供給されている。
【００３６】
このようなエンベロープ発生器（ＥＧ）２４の詳細構成を示すブロック図を図９に示す。
楽音を発生する場合には図９に示すＥＧ２４において、ＨＶＭＯＤＥ＝０としてセレクタ６０においてアタックレートＡＲ（ＷＴ）を選択してセレクタ６１へ出力し、セレクタ６３においてディケイレートＤＲ（ＷＴ）を選択してセレクタ６１へ出力し、セレクタ６４においてリリースレートＲＲ（ＷＴ）を選択してセレクタ６１へ出力する。さらに、セレクタ６１にはサスティンレートＳＲ（ＷＴ）が入力されている。セレクタ６１は、ステート制御部６６により制御されてアタック、ディケイ、サスティン、リリースの各ステート毎に当該ステートのエンベロープパラメータを選択して出力する。ステート制御部６６には、キーオン信号、音声モードフラグ（ＨＶＭＯＤＥ）が供給されると共に、サスティンレベルＳＬ（ＷＴ）信号が入力されている。また、ＷＴボイス部１０ａから出力される有声音ピッチ信号、無声音／有声音指示フラグ（Ｕ／Ｖ）も供給されているが、これらは使用されない。セレクタ６１からステートに応じて出力されるエンベロープパラメータは累算器（ＡＣＣ）６５により累算されてエンベロープが生成されてＥＧ出力として出力されると共に、ステート制御部６６に供給される。ステート制御部６６は、ＥＧ出力のレベルからステートを判断することができる。累算器６５ではキーオン信号の開始タイミングで累算をスタートする。
【００３７】
この場合のＥＧ出力をグラフで図示すると、図１０に示すようになる。すなわち、ステート制御部６６および累算器６５に供給されているキーオン信号が立ち上がると、ステート制御部６６は発音開始と判断してセレクタ６１から発音開始時のステートであるアタック用のアタックレートＡＲ（ＷＴ）のパラメータを出力させる。このアタックレートＡＲ（ＷＴ）のパラメータは、累算器６５においてクロック毎に累算されＥＧ出力は図１０に示すＡＲのように急速に上昇していく。そして、ＥＧ出力のレベルが例えば０ｄＢに達すると、ステート制御部６６はステートがディケイに移行したと判断してセレクタ６１からディケイレートＤＲ（ＷＴ）のパラメータを出力させる。このディケイレートＤＲ（ＷＴ）のパラメータは、累算器６５においてクロック毎に累算されＥＧ出力は図１０に示すＤＲのように急速に下降していく。
【００３８】
ＥＧ出力が下降していき、ＥＧ出力のレベルがサスティンレベルＳＬ（ＷＴ）に達すると、ステート制御部６６はそのことを検出してステートがサスティンに移行したと判断し、セレクタ６１からサスティンレートＳＲ（ＷＴ）のパラメータを出力させる。出力されたサスティンレートＳＲ（ＷＴ）のパラメータは、累算器６５においてクロック毎に累算されＥＧ出力は図１０に示すＳＲのように緩やかな傾斜で下降していく。ステート制御部６６は、キーオン信号が立ち下がるまではサスティンを継続させ、ここで、キーオン信号が立ち下がりステート制御部６６が発音停止と判断すると、セレクタ６１からリリースレートＲＲ（ＷＴ）のパラメータを出力させる。出力されたリリースレートＲＲ（ＷＴ）のパラメータは、累算器６５においてクロック毎に累算されＥＧ出力は図１０に示すＲＲのように急速に傾斜で下降していき発音が停止されるようになる。
【００３９】
次に、音声における有声音フォルマントを発生する場合には図９に示すＥＧ２４において、ＨＶＭＯＤＥ＝１およびＵ／Ｖ＝０としてセレクタ６０において初期ステート用の急速立ち上げレートを選択してセレクタ６１へ出力し、セレクタ６２でＵ／Ｖ＝０に応じて選択された中間ステート用の定数値をセレクタ６３において選択してセレクタ６１へ出力し、セレクタ６４において終了ステート用の急速減衰レートを選択してセレクタ６１へ出力する。さらに、セレクタ６１にはサスティンレートＳＲ（ＷＴ）が入力されているが、このパラメータは使用されない。セレクタ６１は、ステート制御部６６により制御されて初期、中間、終了の各ステート毎に当該ステートのエンベロープパラメータを選択して出力する。ステート制御部６６には、キーオン信号、ＷＴボイス部１０ａから出力される有声音ピッチ信号、音声モードフラグ（ＨＶＭＯＤＥ）、無声音／有声音指示フラグ（Ｕ／Ｖ）のフラグ情報が供給されている。また、サスティンレベルＳＬ（ＷＴ）信号が供給されているが、この場合は使用されない。セレクタ６１からステートに応じて出力されるエンベロープパラメータは累算器（ＡＣＣ）６５によりクロック毎に累算されてエンベロープが生成されてＥＧ出力として出力されると共に、ステート制御部６６に供給される。ステート制御部６６は、ＥＧ出力のレベルからステートを判断することができる。累算器６５ではキーオン信号の開始タイミングで累算をスタートする。
【００４０】
この場合のＥＧ出力をグラフで図示すると、図１１に示すようになる。すなわち、ステート制御部６６および累算器６５に供給されているキーオン信号が立ち上がると、ステート制御部６６は発音開始と判断してセレクタ６１から初期ステート用の急速立ち上げレートのパラメータを出力させる。この急速立ち上げレートのパラメータは、累算器６５においてクロック毎に累算されＥＧ出力は図１１に示すように急激に上昇していく。そして、ＥＧ出力のレベルが所定レベルに達すると、ステート制御部６６は中間ステートに移行したと判断してセレクタ６１から中間ステート用の定数値のパラメータを出力させる。この定数値のパラメータは、累算器６５においてクロック毎に累算されＥＧ出力は図１１に示すように緩やかに下降していく。
【００４１】
ここで、ステート制御部６６に図７に示す有声音ピッチ信号が入力されると、ステート制御部６６はセレクタ６１を制御して急速立ち下げレートのパラメータを選択して累算器６５に出力する。この急速立ち下げレートのパラメータは、累算器６５においてクロック毎に累算されＥＧ出力は図１１に示すように急激に下降していく。そして、ＥＧ出力のレベルが所定の最低レベルに達すると、ステート制御部６６はセレクタ６１を制御して急速立ち下げレートのパラメータを再び選択して累算器６５に出力する。この急速立ち上げレートのパラメータは、累算器６５においてクロック毎に累算されＥＧ出力は図１１に示すように急激に上昇していく。そして、ＥＧ出力のレベルが所定レベルに達すると、ステート制御部６６は中間ステートに移行したと判断してセレクタ６１から中間ステート用の定数値のパラメータを出力させる。以下、同様の動作が繰り返し行われる。このように、有声音ピッチの周期を有するエンベロープとされるため、このエンベロープが乗算器２３で乗算された波形データにピッチ感を与えることができるようになる。
【００４２】
また、キーオン信号が立ち下がりステート制御部６６が発音停止と判断すると、ステート制御部６６はセレクタ６１を制御して急速立ち下げレートのパラメータを選択して累算器６５に出力する。この急速立ち下げレートのパラメータは、累算器６５においてクロック毎に累算されＥＧ出力は急激に下降していき発音が停止されるようになる。
【００４３】
次に、音声における無声音フォルマントを発生する場合には図９に示すＥＧ２４において、ＨＶＭＯＤＥ＝１およびＵ／Ｖ＝１としてセレクタ６０において初期ステート用の急速立ち上げレートを選択してセレクタ６１へ出力し、セレクタ６２でＵ／Ｖ＝１に応じて選択された中間ステート用の“０”をセレクタ６３において選択してセレクタ６１へ出力し、セレクタ６４において終了ステート用の急速減衰レートを選択してセレクタ６１へ出力する。さらに、セレクタ６１にはサスティンレートＳＲ（ＷＴ）が入力されているが、このパラメータは使用されない。セレクタ６１は、ステート制御部６６により制御されて初期、中間、終了の各ステート毎に当該ステートのエンベロープパラメータを選択して出力する。ステート制御部６６には、キーオン信号、音声モードフラグ（ＨＶＭＯＤＥ）、無声音／有声音指示フラグ（Ｕ／Ｖ）のフラグ情報が供給されている。また、ＷＴボイス部１０ａから出力される有声音ピッチ信号およびサスティンレベルＳＬ（ＷＴ）信号が供給されているが、この場合は使用されない。セレクタ６１からステートに応じて出力されるエンベロープパラメータは累算器（ＡＣＣ）６５により累算されてエンベロープが生成されてＥＧ出力として出力されると共に、ステート制御部６６に供給される。ステート制御部６６は、ＥＧ出力のレベルからステートを判断することができる。累算器６５ではキーオン信号の開始タイミングで累算をスタートする。
【００４４】
この場合のＥＧ出力をグラフで図示すると、図１２に示すようになる。すなわち、ステート制御部６６および累算器６５に供給されているキーオン信号が立ち上がると、ステート制御部６６は発音開始と判断してセレクタ６１から初期ステート用の急速立ち上げレートのパラメータを出力させる。この急速立ち上げレートのパラメータは、累算器６５においてクロック毎に累算されＥＧ出力は図１２に示すように急激に上昇していく。そして、ＥＧ出力のレベルが所定レベルに達すると、ステート制御部６６は中間ステートに移行したと判断してセレクタ６１から中間ステート用の“０”のパラメータを出力させる。これにより、累算器６５から出力されるＥＧ出力は図１２に示すように、その値を維持するようになる。ここで、キーオン信号が立ち下がりステート制御部６６が発音停止と判断すると、ステート制御部６６はセレクタ６１を制御して急速立ち下げレートのパラメータを選択して累算器６５に出力する。この急速立ち下げレートのパラメータは、累算器６５においてクロック毎に累算されＥＧ出力は図１２に示すように急激に下降していき発音が停止されるようになる。
なお、図１０ないし図１２に示すＥＧ出力では直線的に変化しているエンベロープを形成するようにしたが、曲線的に変化するエンベロープを発生するようにしてもよい。また、ＥＧ２４の出力を波形データに乗算する乗算器２３は後述する加算器２５の後段に配置してもよい。
【００４５】
図２に戻り乗算器２３においてエンベロープが乗算された波形データは、加算器２５に供給されてノイズ発生部２６により発生されたノイズが加算される。ノイズは、例えばホワイトノイズとされる。この場合、ノイズ発生部２６には音声モードフラグ（ＨＶＭＯＤＥ）、無声音／有声音指示フラグ（Ｕ／Ｖ）のフラグ情報が供給されており、ＨＶＭＯＤＥ＝１およびＵ／Ｖ＝１とされて無声音フォルマントを発生する際にのみノイズを発生するようにしている。従って、加算器２５においては無声音フォルマントを形成するエンベロープが乗算された波形データにのみノイズが加算されて出力されるようになる。
【００４６】
ここで、ノイズ発生部２６の詳細構成を図１３に示す。図１３に示すように、ノイズ発生部２６におけるホワイトノイズ発生器７０から発生されたホワイトノイズは、４段のローパスフィルタ（ＬＰＦ１，ＬＰＦ２，ＬＰＦ３，ＬＰＦ４）７１，７２，７３，７４により帯域制限される。そして、ローパスフィルタ７４の出力は乗算器７５においてノイズのレベルが調整され、セレクタ７６に入力される。セレクタ７６はアンドゲート（ＡＮＤ）７７の出力により選択されており、アンドゲート７７はＨＶＭＯＤＥ＝１およびＵ／Ｖ＝１とされて無声音フォルマントを発生する際にセレクタ７６において乗算器７５から出力されるノイズを出力している。また、ＨＶＭＯＤＥ＝１およびＵ／Ｖ＝１のいずれかが“０”とされて楽音あるいは有声音フォルマントを発生する際には、アンドゲート７７の出力によりセレクタ７６からはノイズに代えて“０”が出力される。これにより、加算器２５においては無声音フォルマントを形成するエンベロープが乗算された波形データにのみノイズが加算されて出力されるようになる。
【００４７】
ローパスフィルタ７１〜７４は同様の構成とされており、代表としてローパスフィルタ７１の構成が図１３に示されている。ローパスフィルタ７１において、ホワイトノイズ発生器７０から入力されたホワイトノイズは、遅延回路７０ａにより１サンプル時間遅延され係数乗算器７０ｂにおいて所定の係数が乗算され加算器７０ｄに入力される。また、入力されたホワイトノイズは係数乗算器７０ｃにおいて所定の係数が乗算され加算器７０ｄに入力されて、係数乗算器７０ｂの出力に加算される。加算器７０ｄの出力がローパスフィルタ出力となる。このような構成の、例えば４段のローパスフィルタ７１〜７４によりホワイトノイズの帯域制限を行うことにより、音声における耳につく感じを抑制することができるようになる。なお、乗算器７５におけるノイズレベルのレベル調整は必ずしも必要なものではなく、省略するようにしてもよい。
【００４８】
図２に戻り加算器２５から出力された波形データは、乗算器２７に供給されて出力レベルが調整される。乗算器２７には、音声モードフラグ（ＨＶＭＯＤＥ）、無声音／有声音指示フラグ（Ｕ／Ｖ）のフラグ情報と、楽音の出力レベルを示すレベル（ＷＴ）、有声音フォルマントの出力レベルを示すレベル（有声音フォルマント）、無声音フォルマントの出力レベルを示すレベル（無声音フォルマント）が供給されている。そして、ＨＶＭＯＤＥ＝０とされて楽音を発生する場合には、乗算器２７においてレベル（ＷＴ）が乗算されて楽音の波形データの出力レベルが調整される。また、ＨＶＭＯＤＥ＝１、Ｕ／Ｖ＝０とされて有声音フォルマントを発生する場合には、乗算器２７においてレベル（有声音フォルマント）が乗算されて有声音フォルマントを形成する波形データの出力レベルが調整される。これにより、有声音フォルマントのレベルが所定のレベルとなる。さらに、ＨＶＭＯＤＥ＝１、Ｕ／Ｖ＝１とされて無声音フォルマントを発生する場合には、乗算器２７においてレベル（無声音フォルマント）が乗算されて無声音フォルマントを形成する波形データの出力レベルが調整される。これにより、無声音フォルマントのレベルが所定のレベルとなる。
【００４９】
以上の説明では、本発明にかかる音源装置と兼用される音声合成装置は９つの波形データ記憶部を有するＷＴボイス部から構成したが、これに限るものではなく９未満でも９を超えるＷＴボイス部としてもよい。９を超えるＷＴボイス部とすると、楽音の同時発音数を増加させることができると共に、合成するフォルマント数を増加することができ種々の音声を合成することができる。
また、本発明にかかる音源装置と兼用される音声合成装置は、音声モードフラグ（ＨＶＭＯＤＥ）で楽音を指定した場合には、複数のＷＴボイス部は楽音形成部として機能し、音声モードフラグ（ＨＶＭＯＤＥ）で音声を指定した場合には、複数のＷＴボイス部はフォルマント形成部として機能するようになる。また、音声モードフラグ（ＨＶＭＯＤＥ）を音声に固定することにより、専用の音声合成装置として使用することができる。
【００５０】
【発明の効果】
本発明は以上説明したように、複数の波形テーブルボイス部であるフォルマント形成部により所望の有声音フォルマントまたは所望の無声音フォルマントを形成し、形成された複数の有声音フォルマントまたは複数の無声音フォルマントを合成することにより有声音または無声音を合成している。そして、有声音フォルマントを形成する波形データにピッチ周期のエンベロープ信号を付与するようにしている。これにより、有声音フォルマントにピッチ感を有させることができ、高品位のリアリティのある音声を合成することができるようになる。また、無声音フォルマントを形成する前記波形データにノイズを付与することにより、より高品位のリアリティのある音声を合成することができるようになる。
【００５１】
また、複数の波形テーブルボイス部から楽音パラメータに基づいて出力される波形データを、ミキシングすることにより複数の楽音を発生することができ、複数の波形テーブルボイス部から音声パラメータに基づいて出力される有声音フォルマントあるいは無声音フォルマントを形成する波形データを合成することにより音声を合成することができる。このように、複数の波形テーブルボイス部を楽音発生と音声合成とで兼用することができるため、本発明の音声合成装置は音源装置と兼用することができるようになる。
【図面の簡単な説明】
【図１】本発明の実施の形態の音源装置と兼用される音声合成装置の構成を示すブロック図である。
【図２】本発明の実施の形態の音源装置と兼用される音声合成装置におけるＷＴボイス部の概略構成を示すブロック図である。
【図３】本発明の実施の形態の音源装置と兼用される音声合成装置における位相データ発生器の詳細構成を示すブロック図である。
【図４】本発明の実施の形態の音源装置と兼用される音声合成装置におけるアドレス発生器の詳細構成を示すブロック図である。
【図５】本発明の実施の形態の音源装置と兼用される音声合成装置におけるアドレス発生器のＡＤＧ出力の一例を示すグラフである。
【図６】本発明の実施の形態の音源装置と兼用される音声合成装置におけるアドレス発生器のＡＤＧ出力の他の例を示すグラフである。
【図７】本発明の実施の形態の音源装置と兼用される音声合成装置におけるアドレス発生器の有声音ピッチ信号の波形を示す図である。
【図８】本発明の実施の形態の音源装置と兼用される音声合成装置におけるアドレス発生器のＡＤＧ出力のさらに他の例を示すグラフである。
【図９】本発明の実施の形態の音源装置と兼用される音声合成装置におけるエンベロープ発生器の詳細構成を示すブロック図である。
【図１０】本発明の実施の形態の音源装置と兼用される音声合成装置におけるエンベロープ発生器のＥＧ出力の一例を示すグラフである。
【図１１】本発明の実施の形態の音源装置と兼用される音声合成装置におけるエンベロープ発生器のＥＧ出力の他の例を示すグラフである。
【図１２】本発明の実施の形態の音源装置と兼用される音声合成装置におけるエンベロープ発生器のＥＧ出力のさらに他の例を示すグラフである。
【図１３】本発明の実施の形態の音源装置と兼用される音声合成装置におけるノイズ発生部の詳細構成を示すブロック図である。
【図１４】本発明の実施の形態の音源装置と兼用される音声合成装置における波形データ記憶部に記憶されている有声音フォルマントあるいは無声音フォルマントを形成するための複数種類の波形データの波形形状の一例を示す図である。
【符号の説明】
１音声合成装置、１０ＷＴボイス部、１０ａ，１０ｂ，１０ｃ，１０ｄ，１０ｅ，１０ｆ，１０ｇ，１０ｈ，１０ｉＷＴボイス部、１１ミキシング手段、２０位相データ発生器、２１アドレス発生器、２２波形データ記憶部、２３乗算器、２５加算器、２６ノイズ発生部、２７乗算器、３０セレクタ、３１セレクタ、３２セレクタ、３３セレクタ、３４シフター、４１累算器、４２セレクタ、４３減算器、４４セレクタ、４５加算器、４６セレクタ、４７加算器、４８スタートアドレス発生器、４９セレクタ、５０セレクタ、６０セレクタ、６１セレクタ、６２セレクタ、６３セレクタ、６４セレクタ、６５累算器、６６ステート制御部、７０ホワイトノイズ発生器、７０ａ遅延回路、７０ｂ係数乗算器、７０ｃ係数乗算器、７０ｄ加算器、７１，７２，７３，７４ローパスフィルタ、７５乗算器、７６セレクタ、７７アンドゲート、ＡＲアタックレート、ＢＬＯＣＫオクターブ情報、ＤＲディケイレート、ＥＰエンドポイント、ＦＮＵＭ周波数情報、ＬＰループポイント、ＲＲリリースレート、ＳＡスタートアドレス、ＳＬサスティンレベル、ＳＲサスティンレート

Claims

所定のピッチ周期、および、有声音合成モードまたは無声音合成モードのいずれかを示すモード指定に従い、所望の有声音フォルマントまたは所望の無声音フォルマントのいずれかを形成する複数のフォルマント形成部を有し、該複数のフォルマント形成部で形成された複数の有声音フォルマントまたは複数の無声音フォルマントを合成することにより有声音または無声音を合成する音声合成装置であって、
前記複数のフォルマント形成部のそれぞれが、
所定の波形形状に対応した波形データを記憶している波形データ記憶手段と、
前記フォルマント中心周波数に対応したレートで変化するアドレスを発生して前記波形データ記憶手段に記憶された波形データを読み出す波形データ読み出し手段と、
有声音合成モードのときは前記ピッチ周期に対応した周期で繰り返すエンベロープ信号を生成し、無声音合成モードのときは発音開始指示に連動して立ち上がるとともに発音終了指示に連動して減衰するエンベロープ信号を生成して、該生成したエンベロープ信号を前記波形データ読み出し手段により前記波形データ記憶手段から読み出された波形データに付与するエンベロープ付与手段と、
を備えることを特徴とする音声合成装置。
所定のピッチ周期、および、有声音合成モードまたは無声音合成モードのいずれかを示すモード指定に従い、所望の有声音フォルマントまたは所望の無声音フォルマントのいずれかを形成する複数のフォルマント形成部を有し、該複数のフォルマント形成部で形成された複数の有声音フォルマントまたは複数の無声音フォルマントを合成することにより有声音または無声音を合成する音声合成装置であって、
前記複数のフォルマント形成部のそれぞれが、
複数種類の波形形状に対応した複数の波形データを記憶している波形データ記憶手段と、
有声音合成モードのときは前記複数種類の波形形状の中から所望の波形形状を指定する一方、無声音合成モードのときは予め決められた所定の波形形状を指定する波形形状指定手段と、
フォルマント中心周波数に対応したレートで変化するアドレスを発生して、前記波形形状指定手段で指定された波形形状に対応した波形データを前記波形データ記憶手段から読み出す波形データ読み出し手段と、
有声音合成モードのときは前記ピッチ周期に対応した周期で繰り返すエンベロープ信号を生成し、無声音合成モードのときは発音開始指示に連動して立ち上がるとともに発音終了指示に連動して減衰するエンベロープ信号を生成して、該生成したエンベロープ信号を前記波形データ読み出し手段により前記波形データ記憶手段から読み出された波形データに付与するエンベロープ付与手段と、
を備えることを特徴とする音声合成装置。
無声音合成モードのときに前記波形データ読み出し手段により前記波形データ記憶手段から読み出された波形データにノイズを付与するノイズ付与手段が、前記複数のフォルマント形成部にさらに備えられていることを特徴とする請求項１あるいは２記載の音声合成装置。