JP3233036B2

JP3233036B2 - 歌唱音合成装置

Info

Publication number: JP3233036B2
Application number: JP21593096A
Authority: JP
Inventors: 雅寛小山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 1996-07-30
Filing date: 1996-07-30
Publication date: 2001-11-26
Anticipated expiration: 2016-07-30
Also published as: JPH1049192A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、歌詞データに基づ
いて対応する音素を発音し、当該歌詞を人声音で歌唱す
るようになされた歌唱音合成装置に関する。

【０００２】

【従来の技術】音声合成技術の一つとして、任意の語彙
の音声を合成することができる規則合成法が知られてい
る。この方法は、音素など短い長さの音声を単位として
その分析パラメータを蓄積しておき、該蓄積した音声デ
ータと規則によって音声合成器を駆動するのに必要な制
御信号を生成する方法である。

【０００３】この規則合成法においては、ＰＣＭ波形を
用いた方法がよく使用されている。一般に音声合成にお
いては、音素間の調音結合の実現と合成される音声の自
然さが大きな問題であるが、これらは、波形重畳法など
で使用される音素片を編集することによりうまく調音結
合ができるように処理をし、また、多くの波形を準備す
ることにより実現されている。

【０００４】また、フォルマント合成による音声合成方
式も知られている（特開平４−２５１２９７号公報など
を参照されたい）。この方式は、時系列的に変化するフ
ォルマントに関するパラメータデータを複数ステップに
わたって予め記憶している記憶手段と、音声を発声すべ
きときに前記記憶手段から前記パラメータデータを前記
複数ステップにわたって時系列的に読み出す読出手段
と、読み出された前記パラメータデータが入力され、該
パラメータデータに応じて決定されるフォルマント特性
を持つ楽音信号を合成するフォルマント合成手段とを備
え、音声信号のフォルマントを時系列的に変化させるも
のである。

【０００５】一方、最近では、このような規則合成法を
音楽に適用し、歌詞データに基づいて自然な歌唱音を合
成出力する歌唱音合成装置（シンギングシンセサイザ）
も提案されている（特願平７−２１８２４１号）。

【０００６】

【発明が解決しようとする課題】前述のような歌唱音合
成装置（シンギングシンセサイザ）に、ＰＣＭ波形を使
用した規則合成法を採用する場合には、使用するデータ
量が多くなること、声質変換が容易ではないこと、ピッ
チの変化幅が大きい場合にそれに追従することが困難な
ことなどの問題点がある。

【０００７】また、フォルマント合成による場合には、
スムーズな調音結合が可能であること、使用するデータ
量が少ないこと、ピッチの変化幅を大きくとることがで
きることなど、前記ＰＣＭ波形を用いる場合よりも利点
があるものの、認識率すなわち合成音の自然さでは前述
したＰＣＭ方式よりも劣っている。特に、自然な無声子
音をフォルマント合成により発声させることは困難であ
った。

【０００８】そこで、本発明は、より自然な歌声を発声
することができる歌唱音合成装置を提供することを目的
としている。

【０００９】

【課題を解決するための手段】上記目的を達成するため
に、本発明の歌唱音合成装置は、有声音を生成する有声
音成分音源グループと無声音を生成する無声音成分音源
グループとを有するフォルマント合成音源部と、無声子
音に対応する音声波形が格納された波形メモリを有する
ＰＣＭ音源部と、当該楽曲の歌詞に対応した歌唱データ
を記憶する記憶部と、各音韻を発声するための音韻パラ
メータと先行音韻と後続音韻との調音結合のための調音
結合パラメータとが記憶された音韻データベースと、前
記歌唱データに基づいて前記音韻データベースから対応
する音韻パラメータと調音結合パラメータとを読み出
し、該読み出した音韻パラメータおよび調音結合パラメ
ータに基づいて前記フォルマント合成音源部および前記
ＰＣＭ音源部に対し制御信号を供給する制御部とを有す
る歌唱音合成装置であって、前記音韻データベースに
は、前記波形メモリに格納された音声波形を分析するこ
とにより得られた音韻パラメータおよび調音結合パラメ
ータも記憶されており、発声すべき音韻が無声子音であ
るとき、前記ＰＣＭ音源部と前記無声音成分音源グルー
プの両者において該無声子音の発声処理を実行させると
ともに、前記無声音成分音源グループからの合成出力は
外部に出力させないようにして、該無声子音から後続す
る有声音への調音結合をスムーズに行なうようになされ
ているものである。

【００１０】

【００１１】

【発明の実施の形態】図１は、本発明の歌唱音合成装置
のシステム構成の一例を示す図である。この図におい
て、１０は装置全体の制御を行う中央処理装置（ＣＰ
Ｕ）、１１は制御プログラムや後述する音韻データベー
スなど各種のデータなどが格納されているＲＯＭ、１２
はワーク領域および各種のバッファなどとして使用され
るＲＡＭ、１３は歌唱データや伴奏データなどからなる
ソングデータが格納されるデータメモリであり、半導体
メモリのほか、フロッピーディスク装置、ハードディス
ク装置、ＭＯディスク装置、ＩＣメモリカードなどの各
種メディアをこのデータメモリとして使用することがで
きる。また、１４は機器の動作状態や入力データおよび
操作者に対するメッセージなどを表示するための表示
部、１５は鍵盤などからなる演奏操作子、１６は操作つ
まみや操作ボタンなどの各種設定操作子である。

【００１２】２０は音源部であり、図示するようにフォ
ルマント合成音源部（FORMANT TG）とＰＣＭ音源部２３
（PCM TG）とが設けられている。このフォルマント合成
音源部は図示するように、ピッチを持つ有声音フォルマ
ント成分を生成する複数の音源ＶＴＧ１〜ｎからなる有
声音成分音源（ＶＴＧ）グループ２１と、母音に含まれ
るノイズ的成分や無声音フォルマント成分を生成する複
数の音源ＵＴＧ１〜ｎからなる無声音成分音源（ＵＴ
Ｇ）グループ２２とからなっている。そして、生成する
音韻にそれぞれ対応するフォルマント数分のＶＴＧおよ
びＵＴＧを組み合わせて、各成分を生成させるようにな
されている。なお、前記各音源は楽音の発生も行うこと
ができ、音声のための発音チャンネルとして割り当てら
れていない音源は、楽音の発生に割り当てることができ
るものである。

【００１３】１８は音源部２０から出力されるデータを
デジタルアナログ変換するＤ／Ａ変換器であり、この出
力は、図示しないサウンドシステムにおいて増幅され、
放音されることとなる。また、１９は装置内各部の間の
データ転送を行うためのバスである。

【００１４】図２に前記音源部２０の構成を示す。ここ
では、前記有声音成分音源（ＶＴＧ）グループ２１はｊ
個の音源ＶＴＧ１〜ｊからなっており、前記無声音成分
音源（ＵＴＧ）グループ２２はｋ個の音源ＵＴＧ１〜ｋ
からなっているものとしてある。なお、このようなフォ
ルマント合成音源部は本出願人により既に提案されてい
る（特開平３−２００３００号公報）。また、この音源
部は、ＣＰＵによって音源プログラムを実行させるこ
と、即ち、ソフトウエアで置き換えることも可能であ
る。なお、前記ＶＴＧグループ２１の各音源の具体的構
成は例えば特開平２−２５４４９７号公報に記載されて
いるように構成されており、また、前記ＵＴＧグループ
２２の各音源の具体的構成例は例えば特開平４−３４６
５０２号公報に記載されているように構成されている。

【００１５】このように構成されたフォルマント合成音
源部において、有声音フォルマントを生成するＶＴＧグ
ループ２１の各音源ＶＴＧ１〜ｊは、当該有声音フォル
マントの特徴的なｊ個の部分をそれぞれ分担して発生す
る。すなわち、各音源ＶＴＧ１〜ｊは、ＣＰＵ１０から
印加されるフォルマント発音開始指示信号ＦＫＯＮによ
りその動作が開始され、ＣＰＵ１０から有声音フォルマ
ントデータVOICED FORMANT DATA として供給される、フ
ォルマント中心周波数データ、フォルマント形状デー
タ、フォルマントレベルデータなどにより、各音源ＶＴ
Ｇが担当しているフォルマントの構成と特性（主に振幅
と周波数）が制御されるものであり、これら各ＶＴＧ１
〜ｊからのフォルマント出力を合成することにより、当
該音韻の有声音部分が生成されるものである。また、各
音源ＶＴＧ１〜４のピッチ周波数を制御することによ
り、発生される音韻の音高が制御される。

【００１６】一方、無声音フォルマントを生成するＵＴ
Ｇグループ２２の各音源ＵＴＧ１〜ｋは、当該音韻のノ
イズ的成分や無声音フォルマント成分などを分担して発
音する。すなわち、各音源ＵＴＧ１〜ｋは、前記フォル
マント発音開始指示信号ＦＫＯＮによりその動作が開始
され、ＣＰＵ１０から供給される無声音フォルマントデ
ータUNVOICED FORMANT DATA に含まれている各パラメー
タにより、音源により発音したホワイトノイズにそれぞ
れが分担している帯域通過特性あるいはフォルマント特
性を付加して出力する。そして、これら各ＵＴＧ１〜ｋ
からの出力を合成することにより、当該音声のノイズ的
成分や無声音フォルマント成分が生成されるものであ
る。

【００１７】また、前記ＰＣＭ音源２３は波形メモリ２
４を有しており、該波形メモリ２４には特定歌唱者の各
種無声子音の音声波形が格納されている。そして、前記
ＣＰＵ１０から供給されるＰＣＭ発音開始指示信号PCMK
ONによりその動作が開始され、ＣＰＵ１０から供給され
るＰＣＭフォルマントデータPCM FORMANT DATAにより指
定された無声子音の波形を波形メモリ２４から順次指定
されたタイミングで読み出し、無声子音の波形が再生さ
れる。

【００１８】このように構成されたＶＴＧグループ２
１、ＵＴＧグループ２２およびＰＣＭ音源２３からの出
力は、混合器２５において加算されて出力される。

【００１９】一般に、前記フォルマント合成音源部のＶ
ＴＧグループ２１およびＵＴＧグループ２２の各音源に
供給されるパラメータ（VOICED FORMANT DATA およびUN
VOICED FORMANT DATA ）は、いずれも、実際に人間によ
り発声された自然音声波形を分析することにより得てい
る。そこで、本発明においては、無声子音については前
記ＰＣＭＴＧ２３中の波形メモリ２４に自然音声波形を
そのまま記憶し、それを分析することにより得られたパ
ラメータを辞書（後述する音韻データベース）中に格納
しておく。また、その他の音韻（母音および有声子音）
に対しては、自然波形を記憶することなく分析して得ら
れたパラメータを辞書中に格納するようにしている。

【００２０】また、発音時間中、子音から母音に変化す
るときなどに、発生するフォルマントを連続的に変化さ
せることが自然な音声として聞こえるために重要であ
る。したがって、前述したフォルマント中心周波数、フ
ォルマントレベル、フォルマント帯域幅およびピッチ周
波数などの各パラメータを、所定時間間隔で（例えば、
数ミリ秒程度の間隔で）、制御部であるＣＰＵ１０から
逐次送出して制御すること、あるいは、各音源に含まれ
ているエンベロープジェネレータにより前記各パラメー
タを逐次制御させることが行われる。

【００２１】本発明においては、前述のように無声子音
についてはその自然音声波形を波形メモリ２４中に格納
しているため、無声子音を発声するときには該波形メモ
リ２４内に格納されている波形サンプルを読み出してＰ
ＣＭＴＧ２３からそのまま出力するとともに、該波形サ
ンプルから分析されたパラメータを使用して前記無声音
成分音源グループ（ＵＴＧグループ）２２においても、
該無声子音を同時に発生させている。ただし、このＵＴ
Ｇグループ２２において発声された無声子音については
その出力レベルを０として実際に出力されないようにし
ている。そして、この無声子音から後続する有声音（母
音）へのフォルマント周波数の遷移に従って有声音フォ
ルマントを生成するＶＴＧグループ２１の発音を開始さ
せるようにしている。したがって、先行音韻と後続音韻
との結合部において、前記ＰＣＭＴＧ２３から発声され
る無声子音とＶＴＧグループ２１において発声される後
続の母音とが重なり合って出力され、スムーズな子音か
ら母音への遷移を実現することができるとともに、高品
質の無声子音の発声を行なうことが可能となる。

【００２２】このような楽音の発生時における各フォル
マントの推移について、図３を参照して説明する。図３
において横軸は時間を示しており、この図に示したの
は、一つの音符、この場合には２分音符に対応して、
「ｓａｇａｉ」という音声を発声させる場合の各フォル
マント周波数の推移およびフォルマント出力レベルの推
移を示している。ここでは、有声音発声部および無声音
発声部ともに４つのフォルマント周波数ｆ１〜ｆ４を有
しているものとしている。

【００２３】図中（１）は前記２分音符に対応する期間
を示し、（２）は前記生成される各音韻の発声期間を示
している。（３）は前記有声音フォルマントおよび無声
音フォルマントのそれぞれ４つのフォルマント周波数ｆ
１〜ｆ４の推移を示しており、図中ｖは有声音フォルマ
ント、ｕは無声音フォルマントであることを表わしてい
る。また、（４）は前記無声音フォルマントの出力レベ
ルを示しており、（５）は前記有声音フォルマントの出
力レベルを示している。さらに、（６）は前記ＰＣＭ音
源２３から出力される音韻波形を示している。さらにま
た、（７）は前記ＶＴＧグループ２１およびＵＴＧグル
ープ２２に対して発音開始を指示するＦＫＯＮ信号を示
し、（８）は前記ＰＣＭＴＧ２３に対して供給されるＰ
ＣＭ発音開始指示信号PCMKONを示している。なお、この
図においては、前記ＰＣＭ発音開始指示信号PCMKONは当
該無声子音の発音期間中継続する信号とされているが、
この信号を波形メモリの読み出しを開始させるためのト
リガとなる短パルス信号とし、該トリガ信号が入力され
たときに当該波形サンプルを最後まで読み出すように構
成することもできる。

【００２４】さて、前記２分音符に対応して「ｓａｇａ
ｉ」という音声を発声させるときには、図示するよう
に、まず、キーオン信号（ＫＯＮ）に基づいて、（７）
のＦＫＯＮ信号と（８）のPCMKON信号が立ち上がる。こ
れに基づいて、前記ＶＴＧグループ２１、ＵＴＧグルー
プ２２およびＰＣＭＴＧ２３が起動される。最初に発音
されるのは、無声子音の「ｓ」であるため、前記ＰＣＭ
ＴＧ２３から該「ｓ」に対応する波形サンプルが読み出
され、（６）に示すように出力される。このとき、前記
ＵＴＧグループ２２においても、図示するように、その
第１フォルマントｆ１〜第４フォルマントｆ４がそれぞ
れ所定の周波数とされ発音処理が実行されるが、このと
きのｕレベルは（４）に示すように０とされているた
め、このＵＴＧグループ２２からの音韻は出力されな
い。また、この期間においてはＶＴＧグループ２１の各
ＴＧからはフォルマント周波数が発生されず、また、
（５）に示すようにｖレベルも０とされている。

【００２５】次に、前記「ｓ」の発音が終了に近づき、
つぎに発音する「ａ」との遷移部になると、（１）に示
すように、ＶＴＧグループ２１の各フォルマント周波数
ｆ１〜ｆ４が「ｓ」から「ａ」への変化に対応するよう
に発生され始め、これに伴い、（５）に示すように、ｖ
レベルが徐々に立ち上がってくる。

【００２６】そして、前記「ｓ」の発音が終了し、
「ａ」のみが発音される時間となると、（８）のPCMKON
がローレベルレベルとなり、前記ＰＣＭＴＧ２３の動作
が終了される。また、前記（３）に示すように、ＵＴＧ
グループ２２における各ＵＴＧのフォルマントの発生は
停止され、ＶＴＧグループ２１における各ＶＴＧによる
第１〜第４フォルマント周波数が発生される。このと
き、（５）に示すように、ｖレベルが大きな値とされて
いる。なお、このときに発生される音韻がノイズ的成分
を含むような音韻である場合には、（４）に破線で示す
ようにＵＴＧグループ２２からもフォルマント成分を発
生させ、前記ＶＴＧグループ２１により発生される音韻
と重畳して出力させることもできる。

【００２７】次に前記「ａ」の発音が終了に近づくと、
「ｇ」への遷移に対応するように前記ＵＴＧグループ２
２の発音が開始される。そして、これに伴い（４）に示
すようにｕレベルが立ち上がり始める。また、これに対
応して（５）に示すようにｖレベルは徐々に低下する。

【００２８】次に、前記「ａ」から「ｇ」への過渡期が
終了して、「ｇ」が発音される期間になると、前記ＵＴ
Ｇグループ２２は該「ｇ」を発音するためのフォルマン
ト周波数となる。また、「ｇ」は無声音成分だけではな
く有声音成分も含む音韻であるため、前記ＶＴＧグルー
プ２１も該「ｇ」に対応するフォルマントとされる。す
なわち、図示するようにこの期間においては、ＶＴＧグ
ループ２１およびＵＴＧグループ２２の両方から有声音
成分と無声音成分とが発生される。このとき、（４）に
示すようにｕレベルは大きな値とされ、また、（５）に
示すｖレベルも所定の値とされている。

【００２９】次に、「ｇ」の発音が終了に近づくと、
（３）に示すように、前記ＶＴＧグループ２１のフォル
マント周波数ｆ１〜ｆ４は「ｇ」から「ａ」への遷移に
対応するように変化され、（４）のｕレベルは徐々に低
下し、（５）のｖレベルは徐々に大きくなる。

【００３０】次に、「ｇ」の発音が終了し、「ａ」が発
音される期間になると、前記ＵＴＧグループ２２におけ
るフォルマント周波数の発生は停止され、前記ＶＴＧグ
ループ２１の各音源が「ａ」に対応する第１〜第４のフ
ォルマント周波数を発生する状態となる。これに応じ
て、前記（４）のｕレベルは減衰され、（５）のｖレベ
ルは大きなレベルとされる。

【００３１】続いて、「ａ」から「ｉ」への接続部にな
ると、前記ＶＴＧグループ２１の各フォルマント周波数
ｆ１〜ｆ４は「ａ」のフォルマント周波数から「ｉ」の
フォルマント周波数にスムーズに結合されるように変化
される。また、（５）のｖレベルも同様に「ａ」に対応
するレベルから「ｉ」のレベルに変化される。

【００３２】次いで、「ｉ」の期間となり、図示するよ
うに前記ＶＴＧグループ２１の各音源により「ｉ」に対
応する第１〜第４のフォルマント周波数が安定して発生
される。また、（５）のｖレベルも一定の状態とされ
る。

【００３３】続いて、前記（１）の音符の発音期間が終
了すると、前記（７）のＦＫＯＮ信号がローレベルとな
り、前記（５）のｖレベルが所定の減衰曲線をもって０
レベルとされる。これにより、この音符に対応する音韻
の発生が終了される。このようにして、有線音フォルマ
ント合成ＶＴＧグループ２１、無声音フォルマント合成
ＵＴＧグループおよびＰＣＭＴＧを用いて、一つの音符
に対応する音韻の発生が行なわれる。

【００３４】次に、本発明の歌唱音合成装置において上
述したような動作を実行させるために使用される各種デ
ータについて説明する。図４の（ａ）は、前記ＲＯＭ１
１のメモリマップの一例を示す図であり、図示するよう
に、このＲＯＭ１１内にはＣＰＵプログラムと音韻デー
タベースＰＨＤＢとが格納されている。ＣＰＵプログラ
ム部には、この装置全体の制御を行なうための制御プロ
グラムや後述する歌唱発生処理を実行するためのプログ
ラムなど各種の処理プログラムが格納されている。

【００３５】また、音韻データベースＰＨＤＢは、音韻
データ部と調音結合データ部とからなり、音韻データ部
には各音韻（母音および子音）を合成するための各種パ
ラメータPHPAR[*]が各音韻別に格納されており、調音結
合データ部には無声音から有声音あるいは有声音から無
声音に移行する際の調音結合（特に、フォルマント周波
数遷移）を行なうための各種パラメータPHCOMB[1-2] が
先行音韻と後続音韻の組ごとに格納されている。

【００３６】図４の（ｂ）に前記音韻データPHPAR[*]の
構成を示す。この図に示すように、音韻データPHPAR[*]
は、その音韻を発生するためにＰＣＭＴＧを用いて発声
するかフォルマント合成により発声するかを指定する音
源指定データTGSEL 、ＰＣＭ音源による場合にその音韻
に対応する波形サンプルを指定するための波形指定デー
タPCMWAVE 、ＰＣＭ音源による場合におけるその出力レ
ベルを指定するためのＰＣＭレベルデータPCMLEVEL、こ
の音韻を発生するための各フォルマントの形状を指定す
るFSHAPE、第１〜第４の各有声音フォルマントの中心周
波数をそれぞれ指定するVF FREQ1〜VF FREQ4、第１〜第
４の各無声音フォルマントの中心周波数をそれぞれ指定
するUF FREQ1〜UF FREQ4、第１〜第４の各有声音フォル
マントの出力レベルVF LEVEL1 〜VF LEVEL4 、第１〜第
４の各無声音フォルマントの出力レベルUF LEVEL1 〜UF
LEVEL4 の各データからなっており、この音韻データPH
PAR[*]がそれぞれの音韻別に格納されている。

【００３７】図４の（ｃ）は前記調音結合データPHCOMB
[1-2] の構成を示す図である。この調音結合データPHCO
MB[1-2] は１で示す先行音韻から２で示す後続音韻への
わたりの部分のフォルマントの変化を示すデータであ
り、図に示すように、先行音韻の有声音の振幅の下降特
性を指定するVF LEVEL CURVE1 、先行音韻の無声音の振
幅下降特性を指定するUF LEVEL CURVE1 、わたりの期間
における後続音韻の有声フォルマントの周波数変化特性
を指定するVF FREQ CURVE2、わたりの期間における後続
音韻の無声フォルマントの周波数変化特性を指定するUF
FREQ CURVE2、後続音韻の有声音の出力レベルの立上り
特性を指定するVF LEVEL CURVE2 、後続音韻の無声音の
出力レベルの立上り特性を指定するUF LEVEL CURVE2 、
先行音韻がなく、いきなり後続音韻から立ち上がる場合
における後続音韻の各フォルマント周波数の初期値であ
るVF INIT FREQ1 〜VF INIT FREQ4 およびUF FREQ1〜UF
FREQ4の各データが格納されている。

【００３８】調音結合データがPHCOMB[-a]のように［］
内のハイフンの前に音韻が記載されていないときは、先
行音韻がなく、この音韻「ａ」がいきなり発音されるこ
とを示している。このような場合には、前記VF INIT FR
EQ1 〜VF INIT FREQ4 およびUF INIT FREQ1 〜UF INIT
FREQ4 にデータが設定されており、前記先行音韻振幅下
降特性データVF LEVEL CURVE1 〜VF LEVEL CURVE4 およ
びUF LEVEL CURVE1 〜UF LEVEL CURVE4 のデータは無視
されることとなる。

【００３９】図５は、先行音韻から後続音韻へのわたり
の期間に、この調音結合データPHCOMB[1-2] がどのよう
に使用されるのかを説明するための図である。この図に
おいて（ａ）は先行音韻であり、その有声音の４つのフ
ォルマントは、VF FREQ1〜VFFREQ4によりそれぞれ指定
される中心周波数を有し、それぞれVF LEVEL1 〜VF LEV
EL4 により指定されるレベルで出力されており、また、
無声音の４つのフォルマントはそれぞれUF FREQ1〜UF F
REQ4により指定される中心周波数を有し、それぞれUF L
EVEL1 〜UF LEVEL4 により指定されるレベルで出力され
ている。

【００４０】そして、前記先行音韻から（ｂ）に示す後
続音韻に変化されるときに、前記先行音韻の有声音の各
フォルマントは、前記PHCOMB[1-2] に格納されている前
記VFFREQ CURVE2に従って、前記先行音韻の有声音のフ
ォルマント中心周波数VF FREQ1〜VF FREQ4から後続音韻
の有声音のフォルマント中心周波数VF FREQ1〜VF FREQ4
に変更される。同様に、先行音韻の無声音の各フォルマ
ントは、前記UF FREQCURVE2に従って、前記先行音韻の
無声音のフォルマント中心周波数から後続音韻の無声音
のフォルマント中心周波数に変更される。

【００４１】また、前記先行音韻の有声フォルマントの
各出力レベルVF LEVEL1 〜VF LEVEL4 は前記調音結合デ
ータPHCOMB[1-2] に含まれるVF LEVEL CURVE1 に従って
下降し、同様に、先行音韻の無声フォルマントの各出力
レベルUF LEVEL1 〜UF LEVEL4 は前記UF LEVEL CURVE1
に従って下降する。さらに、前記後続音韻の有声フォル
マントの出力レベルは、前記調音結合データPHCOMB[1-
2] に含まれるVF LEVEL CURVE2 に従って、後続音韻の
各有声音フォルマントレベルVF LEVEL1 〜VF LEVEL4 ま
で立ち上がる。同様に、後続音韻の無声フォルマントの
出力レベルは前記UF LEVEL CURVE2 により指定される立
上り特性に従って、後続音韻の各無声音フォルマントレ
ベルUF LEVEL1 〜UF LEVEL4 まで上昇する。このように
して、調音結合データPHCOMB[1-2] により１で示される
先行音韻と２で示される後続音韻との結合がスムーズに
行なわれる。

【００４２】図６の（ａ）は前記ＲＡＭ１２のメモリマ
ップの一例を示す図である。この図に示すように、ＲＡ
Ｍ１２内にはＣＰＵワーキングエリア、ソングデータが
格納されるソングバッファ、一音符に対応する音韻を発
生するための音韻データが展開されるＰＨバッファの各
領域が設定される。同図（ｂ）は前記ＰＨバッファへの
音韻データの展開例を示す図であり、この例において
は、「ｓａｇａｉ」という音韻を発生させる場合を示し
ている。この図に示すように、ＰＨバッファには、一つ
の音符に対応する期間において発生すべき音韻に対応す
る調音結合データPHCOMB[1-2] および音韻データPHPAR
[*]が交互に格納される。

【００４３】この前記ＰＨバッファ内に格納されている
調音結合データおよび音韻データは、前記ＶＴＧグルー
プ２１およびＵＴＧグループ２２の各音源ＶＴＧ１〜Ｖ
ＴＧ４およびＵＴＧ１〜ＵＴＧ４に印加され、当該デー
タに対応する音声が発音されることとなる。

【００４４】図７（ａ）は前記データメモリ１３のメモ
リマップの一例を示すもので、図示するように、複数の
ソングデータＳＯＮＧ１〜ＳＯＮＧｎがこのデータメモ
リ１３に格納されている。図７の（ｂ）は該ソングデー
タの構成を示す図である。図示するように、ソングデー
タは、その曲の曲名を示すSONGNAME、その曲の演奏テン
ポを示すTEMPO 、その曲の拍子や音色指定データなどを
示すMISC DATA 、歌唱音合成のために用いられる歌唱デ
ータLYRIC SEQ DATA、および、伴奏を演奏するための伴
奏データACCOMP DATA からなっている。

【００４５】図８（ａ）に前記歌唱データLYRIC SEQ DA
TAの構成を示す。図示するように、歌唱データLYRIC SE
Q DATAは、当該楽曲の各音符に対応した歌詞データLYRI
C DATA1 〜LYRIC DATAm からなっている。各歌詞データ
LYRIC DATAi は、その音符に対応する時間に発生すべき
歌詞がある場合とない場合とで異なる内容のデータとさ
れており、発声すべき歌詞がある場合には、その音符の
期間に発音すべき音素データLYPH DATA 、音高などを指
定するKEYON データ、その音符の長さに等しい発音時間
を指定するNOTE DURATION データなどにより構成されて
おり、また、発声すべき歌詞がないときには、発音の合
間の時間を指定するデュレイションデータDURATIONのみ
とされている。

【００４６】図示するように、その音符に対応する時間
に発声すべき歌詞があるときの歌詞データLYRIC DATAh
は、その音符の期間に発音すべき歌詞の音素の数（hma
x）だけ配列された音素を示すデータPHDATAとその発音
時間を示すデータPHTIMEとの組（PHDATA1,PHTIME1 〜PH
DATAhmax,PHTIMEhmax ）と、その音符のキーコードおよ
びベロシティデータ（図の例においては、それぞれＣ３
および６４とされている）を有するキーオンデータKEYO
N と、発音時間データNOTEDUR 、および、その音符にお
いて最後に発音される音素と後続する音符において最初
に発音される音素とを結合して発音させるか否かを指定
する結合フラグCOMBIFLGを有するキーオフデータKEYOFF
とから構成されている。

【００４７】ここで、前記データPHTIMEは、その値が
「１」以上の値とされているときは演奏のテンポなどに
より変化することのない絶対時間を単位としてその音素
の発音時間を指定するものであり、「０」であるときに
は、前記NOTEDUR により指定された当該音符全体の時間
に合わせて、PHTIMEが「０」とされた音素（通常は母音
とされている）の発音時間が適宜調整されることを示し
ている。なお、全ての音素のPHTIMEが１以上の数値とさ
れているときは、各音素はその値により指定された絶対
時間の期間発音されることとなる。

【００４８】また、その音符において発音すべき音素が
ないときには、前述したように歌詞データLYRIC DATAi
はその音符に対応する時間間隔を示すデータDURATIONと
そのLYRIC DATAi の終了を示す終了コードEND とから構
成されている。

【００４９】図８の（ｂ）は、前記LYRIC DATAi の一例
を示す図であり、この例は「ｈ」、「ｉ」および「ｔ」
の３つの音素を発声させる（hmax＝３）場合を示してい
る。図示するように、この音符の音高はＣ３、ベロシテ
ィは６４であり、また音符の発音時間の長さは９６単位
時間とされている。また、「ｈ」と「ｔ」のPHTIMEはい
ずれも５単位時間とされており、「ｉ」のPHTIMEは
「０」とされている。従って、この例の場合には、まず
「ｈ」が５単位時間の間発音され、続いて「ｉ」が８６
（＝（DUR の９６）−（「ｈ」の５）−（「ｔ」の
５））単位時間発音され、最後に「ｔ」が５単位時間発
音されることとなる。また、この「ｔ」と後続するLYRI
C DATAi=1 の最初の音素とを結合して発音するときに
は、KEYOFF中のCOMBIFLGがセットされている。

【００５０】図８の（ｃ）に前記LYRIC DATAi の他の例
を示す。この図に示す例は、「ｓ」、「ａ」、「ｇ」、
「ａ」、「ｉ」の５つの音素を発生させる場合を示して
いる。また、この音符の音高はＡ５であり、ベロシティ
は８５、長さは１２７単位時間とされている。したがっ
て、この場合には、「ｓ］を５単位時間、「ａ」を３２
単位時間（＝（DUR の１２７）−（「ｓ」の５）−
（「ｇ」の５）−（「ａ」の３５）−（「ｉ」の５
０））、「ｇ］を５単位時間、「ａ」を３５単位時間、
「ｉ」を５０単位時間、それぞれ発音することとなる。

【００５１】このように構成された歌唱音合成装置にお
いて、操作者が再生すべき楽曲の選択を行い、その動作
を開始させると、前記データメモリ１３中に格納されて
いるソングデータの中から指定された楽曲に対応するソ
ングデータが選択され前記ＲＡＭ１２に転送される。そ
して、ＣＰＵ１０は当該ソングデータ中に含まれている
TEMPO データに基づいて演奏の速度を決定し、また、MI
SC DATA に基づいて使用する音色の指定等を行う。そし
て、前記伴奏データACCOMP DATA 部に格納されている自
動演奏データに基づいて伴奏音を発声する処理を実行す
るとともに、歌唱データLYRIC SEQ DATAに基づいて歌唱
発声処理を実行する。

【００５２】図９は、この歌唱発声処理のフローチャー
トである。この処理が開始されると、まず、ステップＳ
１１において前記歌唱データLYRIC SEQ DATA部から各音
符に対応する音素データLYRIC DATAを読み出すためのポ
インタｉを「１」にリセットする。これにより、当該LY
RIC SEQ DATA中の第１番目の音符に対応する音素データ
LYRIC DATAが指定されることとなる。次に、ステップＳ
１２に進み、該第１番目のLYRIC DATA1 が読み込まれ
る。そして、この読み込んだLYRIC DATAが音素データの
最後であることを示すLYRIC END 以外のデータであるか
否かを判定し（Ｓ１３）、その判定の結果がＹＥＳ、す
なわち、LYRIC END ではないときは、ステップＳ１４に
進む。

【００５３】今の場合はｉ＝１でLYRIC DATA1 が読み込
まれたため、前記ステップＳ１３の判定の結果はＹＥＳ
となる。したがって、ステップＳ１４に進み、読み込ま
れたデータがDURARTION DATAであるか否かが判定され
る。この判定の結果がＹＥＳのときは、該デュレイショ
ンデータの値をタイマーにセットし（Ｓ１５）、その時
間が経過するまで待機する（Ｓ１６）。そして、その時
間が経過したとき、前記ポインタｉをｉ＋１にインクリ
メントして（Ｓ１７）、前記Ｓ１２にもどり、次の音素
データLYRIC DATAi+1 を読み込む。

【００５４】一方、読み込んだLYRIC DATAがDURATION D
ATA ではなく、前記Ｓ１４の判定結果がＮＯのときはス
テップＳ１９に進む。このステップＳ１９では、このLY
RICDATA中のLYPH DATA を指定するためのポインタｈを
「１」にセットする。これにより、このLYRIC DATA中の
第１番目のLYPH DATA が指定される。

【００５５】次に、ステップＳ２０に進み、直前に読み
込んで処理したLYRIC DATAのKEYOFFコード中のCOMBIFLG
に対応する調音結合データPHCOMBy をＲＯＭ１１中の音
韻データベースＰＨＤＢから読み出して、前記音韻バッ
ファＰＨＢＵＦＦに書き込む。すなわち、直前のLYRIC
DATAのKEYOFFコード中のCOMBIFLGがセットされていた場
合には、該直前のLYRIC DATAの最後に発音した音素デー
タPHDATA hmax と今回のLYRIC DATAの第１番目のPHDATA
1 に対応する調音結合データPHCOMBy を前記ＲＯＭ１１
中の音韻データベースＰＨＤＢから読み出して、前記音
韻バッファＰＨＢＵＦＦに書き込む。また、直前のLYRI
C DATAのKEYOFFコード中のCOMBIFLGがセットされていな
かった場合には、今回のLYRIC DATAのPHDATA1 の音素を
いきなり発生する調音結合データPHCOMBy を読み出して
ＰＨＢＵＦＦに書き込む。

【００５６】例えば、今回読み込んだLYRIC DATAが前記
図８の（ｃ）に示した「ｓａｇａｉ」を発声するデータ
であり、直前のLYRIC DATAのCOMBIFLGがセットされてい
なかった場合には、このステップＳ２０により、前記図
６の（ｂ）に示したように、PHCOMB[-s]がＰＨＢＵＦＦ
の先頭に書き込まれることとなる。

【００５７】次に、ステップＳ２１に進み、前記ポイン
タｈにより指定されるPHDATAh を参照して、それに対応
する音韻データPHPARhを前記音韻データベースＰＨＤＢ
から読み出して前記ＰＨＢＵＦＦに書き込む。前記例の
場合には、図６（ｂ）に示すように、PHPAR[s]が読み出
されてＰＨＢＵＦＦの第２番目のアドレスに書き込まれ
ることとなる。

【００５８】次にステップＳ２２に進み、前記ポインタ
ｈの値がｈｍａｘに達していないか否かが判定される。
ｈがｈｍａｘに達しておらず、この判定の結果がＹＥＳ
のときは、ステップＳ２３に進み、このPHDATAh とその
次のPHDATAh+1 との調音結合データPHCOMBy が音韻デー
タベースＰＨＤＢに存在するか否かを判定する。この結
果がＮＯのときはそのままステップＳ２５に進み、ま
た、この調音結合データPHCOMBy がＰＨＤＢ中に存在す
るときにはこれを読み出して、前記ＰＨＢＵＦＦに書き
並べる。前述の例の場合には、図６（ｂ）に示すように
PHCOMB[s-a] が書き込まれる。

【００５９】次にステップＳ２５に進み、前記ポインタ
の値ｈをｈ＋１にインクリメントして、前記ステップＳ
２１に戻る。そして、前述したように、その次の音素デ
ータPHDATAh に対応する音韻データPHPARhを読み出して
ＰＨＢＵＦＦに書き並べる。このようにして、ｈがｈｍ
ａｘに達するまで、前記ステップＳ２１〜Ｓ２５が繰り
返され、当該LYPH DATA 中のPHDATA1 〜PHDATAh に対応
するPHCOMBy とPHPARyとが交互にＰＨＢＵＦＦに書き並
べられることとなる。このようにして、前記図６の
（ｂ）に示すように、ＰＨＢＵＦＦに音韻データが展開
される。なお、ｈがｈｍａｘに達したか否かの判定は、
ｈ＋１の位置のデータを読み出してその内容がKEYON コ
ードであるときにｈ＝ｈｍａｘであると判定することな
どにより、行なうことができる。

【００６０】ｈがｈｍａｘに達して、前記ステップＳ２
２の判定結果がＮＯとなったときは、ステップＳ２６に
進み、前記ＰＨＢＵＦＦにＥＮＤコードが書き込まれ
る。続いて、ステップＳ２７に進み、ＰＨＢＵＦＦをそ
の先頭から読み出し、該読み出した調音結合データPHCO
MBおよび音韻データPHPAR に基づき、該データにより指
定された前記ＶＴＧグループ、ＵＴＧグループあるいは
ＰＣＭＴＧを用いて発声させる。なお、このときに、有
声音のピッチは当該キーオンコード中のキーコードＫＣ
に対応させ、各音韻の発音時間は、前述したように、NO
TE DURおよびPHTIMEにより制御する。

【００６１】そして、この第ｉ番目の音素データLYRIC
DATAi に対応する音韻列の発音が全て終了するまでこの
ステップＳ２７を繰り返す（Ｓ２８）。そして、前記Ｐ
ＨＢＵＦＦのＥＮＤコードまで達したら、ステップＳ２
９において、前記LYRIC DATA読み出し用ポインタｉをｉ
＋１にインクリメントして、再び、前記ステップＳ１２
に戻る。このようにして順次LYRIC SEQ DATAの読み込み
および発音処理を繰り返し、当該LYRIC SEQ DATAの読み
込みがその最後(LYRIC END) に達したとき、Ｓ１３の判
定の結果がＮＯとなりこの歌唱発生処理が終了される
（Ｓ１８）。

【００６２】なお、前記無声音部で使用するＰＣＭ波形
の分析データを当該ＰＣＭ波形と組にして、このような
ＰＣＭ波形と分析データの組を複数、例えば歌唱者別に
用意しておいてそれらを切り替えるようにすることによ
り音質変換を容易に行うことが可能となる。また、全て
の無声子音をＰＣＭ波形とする必要はなく、フォルマン
ト合成によりある程度の水準の音声合成を実現すること
ができるものは、そのままフォルマント合成により生成
するようにしてもよい。有声破裂音は有声無声分離した
無声ＰＣＭ波形を使用することが望ましいが、子音部に
は全てＰＣＭ波形を使用するようにしてもよい。さら
に、有声部のノイズ成分はフォルマントの変化があまり
ない場合、ＰＣＭ波形をループさせたものを使用しても
よい。さらにまた、ＰＣＭ音源により発音する子音に後
続する有声音の種類、ピッチあるいは音量などによっ
て、子音ＰＣＭ波形を変えるようにしてもよい。

【００６３】本発明の歌唱音合成装置の適用分野として
特に好適な例を挙げれば、歌唱音が出力可能な電子楽器
やコンピュータシステム、音声応答装置、あるいはゲー
ムマシンやカラオケなどのアミューズメント機器などが
考えられる。また、本発明の歌唱音合成装置は、パソコ
ンに代表されるコンピュータシステムのソフトウエアと
いう形態で実施することも可能である。その際、音声波
形合成までＣＰＵにより実行するようにしてもよいし、
あるいは図１に示したように別途音源を設けてもよい。
さらに、前記図１の構成に各種ネットワークインターフ
ェースあるいはモデムを加えて設け、音韻データなど必
要なデータ、パラメータ類をネットワークや電話回線を
通じてダウンロードしたり、また、合成した歌唱音をネ
ットワークを通して転送するようにしてもよい。

【００６４】

【発明の効果】無声子音についてはＰＣＭ音源（波形合
成処理）を用いて発声させるようにしたため、高品質の
歌唱音を合成出力することができる。また、無声子音に
対応するＰＣＭ波形の分析データを当該音韻のパラメー
タとして使用しているため、スムーズな調音結合を実現
することができる。さらに、歌唱者に応じた音韻データ
ベースを準備することが可能となるため、多種の歌唱音
を容易に発声させることが可能となる。

【図面の簡単な説明】

【図１】本発明の歌唱音合成装置のシステム構成の一
例を示す図である。

【図２】本発明の歌唱音合成装置の音源部の構成の一
例を示す図である。

【図３】本発明の歌唱音合成装置の動作を説明するた
めの図である。

【図４】本発明の歌唱音合成装置に用いられる音韻デ
ータベースに格納されているデータを説明するための図
である。

【図５】先行音韻から後続音韻への遷移を説明するた
めの図である。

【図６】ＲＡＭ１２中のデータを説明するための図で
ある。

【図７】データメモリ中のソングデータの構造を示す
図である。

【図８】歌唱データ（LYRIC SEQ DATA）の構造を示す
図である。

【図９】歌唱発声処理を説明するためのフローチャー
トである。

【符号の説明】

１０ＣＰＵ、１１ＲＯＭ、１２ＲＡＭ、１３デ
ータメモリ、１４表示部、１５演奏操作子、１６
設定操作子、１８Ｄ／Ａ変換器、１９バス、２０
音源部、２１有声音グループ、２２無声音グルー
プ、２３ＰＣＭ音源、２４波形メモリ、２５混合
器

フロントページの続き (56)参考文献特開平３−200300（ＪＰ，Ａ) 特開平５−204397（ＪＰ，Ａ) 特開平７−152396（ＪＰ，Ａ) 特開平９−50287（ＪＰ，Ａ) 特開昭60−225198（ＪＰ，Ａ) 特開昭59−72494（ＪＰ，Ａ) 特開平７−72898（ＪＰ，Ａ) 特開平４−331990（ＪＰ，Ａ) 特開平７−146695（ＪＰ，Ａ) 特開平８−194484（ＪＰ，Ａ) 特公昭45−35323（ＪＰ，Ｂ１) 特公昭55−34439（ＪＰ，Ｂ２) 特公平４−80399（ＪＰ，Ｂ２) 特公平３−15759（ＪＰ，Ｂ２) 米国特許5895449（ＵＳ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 13/04 G10L 13/00 ＪＩＣＳＴファイル（ＪＯＩＳ) 特許ファイル（ＰＡＴＯＬＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】有声音を生成する有声音成分音源グルー
プと無声音を生成する無声音成分音源グループとを有す
るフォルマント合成音源部と、無声子音に対応する音声波形が格納された波形メモリを
有するＰＣＭ音源部と、当該楽曲の歌詞に対応した歌唱データを記憶する記憶部
と、各音韻を発声するための音韻パラメータと先行音韻と後
続音韻との調音結合のための調音結合パラメータとが記
憶された音韻データベースと、前記歌唱データに基づいて前記音韻データベースから対
応する音韻パラメータと調音結合パラメータとを読み出
し、該読み出した音韻パラメータおよび調音結合パラメ
ータに基づいて前記フォルマント合成音源部および前記
ＰＣＭ音源部に対し制御信号を供給する制御部とを有す
る歌唱音合成装置であって、前記音韻データベースには、前記波形メモリに格納され
た音声波形を分析することにより得られた音韻パラメー
タおよび調音結合パラメータも記憶されており、発声すべき音韻が無声子音であるとき、前記ＰＣＭ音源
部と前記無声音成分音源グループの両者において該無声
子音の発声処理を実行させるとともに、前記無声音成分
音源グループからの合成出力は外部に出力させないよう
にして、該無声子音から後続する有声音への調音結合を
スムーズに行なうようになされていることを特徴とする
歌唱音合成装置。