JP3233036B2 - 歌唱音合成装置 - Google Patents

歌唱音合成装置

Info

Publication number
JP3233036B2
JP3233036B2 JP21593096A JP21593096A JP3233036B2 JP 3233036 B2 JP3233036 B2 JP 3233036B2 JP 21593096 A JP21593096 A JP 21593096A JP 21593096 A JP21593096 A JP 21593096A JP 3233036 B2 JP3233036 B2 JP 3233036B2
Authority
JP
Japan
Prior art keywords
sound
data
phoneme
sound source
formant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP21593096A
Other languages
English (en)
Other versions
JPH1049192A (ja
Inventor
雅寛 小山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP21593096A priority Critical patent/JP3233036B2/ja
Priority to US08/898,591 priority patent/US5895449A/en
Publication of JPH1049192A publication Critical patent/JPH1049192A/ja
Application granted granted Critical
Publication of JP3233036B2 publication Critical patent/JP3233036B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/471General musical sound synthesis principles, i.e. sound category-independent synthesis methods
    • G10H2250/481Formant synthesis, i.e. simulating the human speech production mechanism by exciting formant resonators, e.g. mimicking vocal tract filtering as in LPC synthesis vocoders, wherein musical instruments may be used as excitation signal to the time-varying filter estimated from a singer's speech

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、歌詞データに基づ
いて対応する音素を発音し、当該歌詞を人声音で歌唱す
るようになされた歌唱音合成装置に関する。
【0002】
【従来の技術】音声合成技術の一つとして、任意の語彙
の音声を合成することができる規則合成法が知られてい
る。この方法は、音素など短い長さの音声を単位として
その分析パラメータを蓄積しておき、該蓄積した音声デ
ータと規則によって音声合成器を駆動するのに必要な制
御信号を生成する方法である。
【0003】この規則合成法においては、PCM波形を
用いた方法がよく使用されている。一般に音声合成にお
いては、音素間の調音結合の実現と合成される音声の自
然さが大きな問題であるが、これらは、波形重畳法など
で使用される音素片を編集することによりうまく調音結
合ができるように処理をし、また、多くの波形を準備す
ることにより実現されている。
【0004】また、フォルマント合成による音声合成方
式も知られている(特開平4−251297号公報など
を参照されたい)。この方式は、時系列的に変化するフ
ォルマントに関するパラメータデータを複数ステップに
わたって予め記憶している記憶手段と、音声を発声すべ
きときに前記記憶手段から前記パラメータデータを前記
複数ステップにわたって時系列的に読み出す読出手段
と、読み出された前記パラメータデータが入力され、該
パラメータデータに応じて決定されるフォルマント特性
を持つ楽音信号を合成するフォルマント合成手段とを備
え、音声信号のフォルマントを時系列的に変化させるも
のである。
【0005】一方、最近では、このような規則合成法を
音楽に適用し、歌詞データに基づいて自然な歌唱音を合
成出力する歌唱音合成装置(シンギングシンセサイザ)
も提案されている(特願平7−218241号)。
【0006】
【発明が解決しようとする課題】前述のような歌唱音合
成装置(シンギングシンセサイザ)に、PCM波形を使
用した規則合成法を採用する場合には、使用するデータ
量が多くなること、声質変換が容易ではないこと、ピッ
チの変化幅が大きい場合にそれに追従することが困難な
ことなどの問題点がある。
【0007】また、フォルマント合成による場合には、
スムーズな調音結合が可能であること、使用するデータ
量が少ないこと、ピッチの変化幅を大きくとることがで
きることなど、前記PCM波形を用いる場合よりも利点
があるものの、認識率すなわち合成音の自然さでは前述
したPCM方式よりも劣っている。特に、自然な無声子
音をフォルマント合成により発声させることは困難であ
った。
【0008】そこで、本発明は、より自然な歌声を発声
することができる歌唱音合成装置を提供することを目的
としている。
【0009】
【課題を解決するための手段】上記目的を達成するため
に、本発明の歌唱音合成装置は、有声音を生成する有声
音成分音源グループと無声音を生成する無声音成分音源
グループとを有するフォルマント合成音源部と、無声子
音に対応する音声波形が格納された波形メモリを有する
PCM音源部と、当該楽曲の歌詞に対応した歌唱データ
を記憶する記憶部と、各音韻を発声するための音韻パラ
メータと先行音韻と後続音韻との調音結合のための調音
結合パラメータとが記憶された音韻データベースと、
記歌唱データに基づいて前記音韻データベースから対応
する音韻パラメータと調音結合パラメータとを読み出
し、該読み出した音韻パラメータおよび調音結合パラメ
ータに基づいて前記フォルマント合成音源部および前記
PCM音源部に対し制御信号を供給する制御部とを有す
る歌唱音合成装置であって、前記音韻データベースに
は、前記波形メモリに格納された音声波形を分析するこ
とにより得られた音韻パラメータおよび調音結合パラメ
ータも記憶されており、発声すべき音韻が無声子音であ
るとき、前記PCM音源部と前記無声音成分音源グルー
プの両者において該無声子音の発声処理を実行させると
ともに、前記無声音成分音源グループからの合成出力は
外部に出力させないようにして、該無声子音から後続す
る有声音への調音結合をスムーズに行なうようになされ
ているものである
【0010】
【0011】
【発明の実施の形態】図1は、本発明の歌唱音合成装置
のシステム構成の一例を示す図である。この図におい
て、10は装置全体の制御を行う中央処理装置(CP
U)、11は制御プログラムや後述する音韻データベー
スなど各種のデータなどが格納されているROM、12
はワーク領域および各種のバッファなどとして使用され
るRAM、13は歌唱データや伴奏データなどからなる
ソングデータが格納されるデータメモリであり、半導体
メモリのほか、フロッピーディスク装置、ハードディス
ク装置、MOディスク装置、ICメモリカードなどの各
種メディアをこのデータメモリとして使用することがで
きる。また、14は機器の動作状態や入力データおよび
操作者に対するメッセージなどを表示するための表示
部、15は鍵盤などからなる演奏操作子、16は操作つ
まみや操作ボタンなどの各種設定操作子である。
【0012】20は音源部であり、図示するようにフォ
ルマント合成音源部(FORMANT TG)とPCM音源部23
(PCM TG)とが設けられている。このフォルマント合成
音源部は図示するように、ピッチを持つ有声音フォルマ
ント成分を生成する複数の音源VTG1〜nからなる有
声音成分音源(VTG)グループ21と、母音に含まれ
るノイズ的成分や無声音フォルマント成分を生成する複
数の音源UTG1〜nからなる無声音成分音源(UT
G)グループ22とからなっている。そして、生成する
音韻にそれぞれ対応するフォルマント数分のVTGおよ
びUTGを組み合わせて、各成分を生成させるようにな
されている。なお、前記各音源は楽音の発生も行うこと
ができ、音声のための発音チャンネルとして割り当てら
れていない音源は、楽音の発生に割り当てることができ
るものである。
【0013】18は音源部20から出力されるデータを
デジタルアナログ変換するD/A変換器であり、この出
力は、図示しないサウンドシステムにおいて増幅され、
放音されることとなる。また、19は装置内各部の間の
データ転送を行うためのバスである。
【0014】図2に前記音源部20の構成を示す。ここ
では、前記有声音成分音源(VTG)グループ21はj
個の音源VTG1〜jからなっており、前記無声音成分
音源(UTG)グループ22はk個の音源UTG1〜k
からなっているものとしてある。なお、このようなフォ
ルマント合成音源部は本出願人により既に提案されてい
る(特開平3−200300号公報)。また、この音源
部は、CPUによって音源プログラムを実行させるこ
と、即ち、ソフトウエアで置き換えることも可能であ
る。なお、前記VTGグループ21の各音源の具体的構
成は例えば特開平2−254497号公報に記載されて
いるように構成されており、また、前記UTGグループ
22の各音源の具体的構成例は例えば特開平4−346
502号公報に記載されているように構成されている。
【0015】このように構成されたフォルマント合成音
源部において、有声音フォルマントを生成するVTGグ
ループ21の各音源VTG1〜jは、当該有声音フォル
マントの特徴的なj個の部分をそれぞれ分担して発生す
る。すなわち、各音源VTG1〜jは、CPU10から
印加されるフォルマント発音開始指示信号FKONによ
りその動作が開始され、CPU10から有声音フォルマ
ントデータVOICED FORMANT DATA として供給される、フ
ォルマント中心周波数データ、フォルマント形状デー
タ、フォルマントレベルデータなどにより、各音源VT
Gが担当しているフォルマントの構成と特性(主に振幅
と周波数)が制御されるものであり、これら各VTG1
〜jからのフォルマント出力を合成することにより、当
該音韻の有声音部分が生成されるものである。また、各
音源VTG1〜4のピッチ周波数を制御することによ
り、発生される音韻の音高が制御される。
【0016】一方、無声音フォルマントを生成するUT
Gグループ22の各音源UTG1〜kは、当該音韻のノ
イズ的成分や無声音フォルマント成分などを分担して発
音する。すなわち、各音源UTG1〜kは、前記フォル
マント発音開始指示信号FKONによりその動作が開始
され、CPU10から供給される無声音フォルマントデ
ータUNVOICED FORMANT DATA に含まれている各パラメー
タにより、音源により発音したホワイトノイズにそれぞ
れが分担している帯域通過特性あるいはフォルマント特
性を付加して出力する。そして、これら各UTG1〜k
からの出力を合成することにより、当該音声のノイズ的
成分や無声音フォルマント成分が生成されるものであ
る。
【0017】また、前記PCM音源23は波形メモリ2
4を有しており、該波形メモリ24には特定歌唱者の各
種無声子音の音声波形が格納されている。そして、前記
CPU10から供給されるPCM発音開始指示信号PCMK
ONによりその動作が開始され、CPU10から供給され
るPCMフォルマントデータPCM FORMANT DATAにより指
定された無声子音の波形を波形メモリ24から順次指定
されたタイミングで読み出し、無声子音の波形が再生さ
れる。
【0018】このように構成されたVTGグループ2
1、UTGグループ22およびPCM音源23からの出
力は、混合器25において加算されて出力される。
【0019】一般に、前記フォルマント合成音源部のV
TGグループ21およびUTGグループ22の各音源に
供給されるパラメータ(VOICED FORMANT DATA およびUN
VOICED FORMANT DATA )は、いずれも、実際に人間によ
り発声された自然音声波形を分析することにより得てい
る。そこで、本発明においては、無声子音については前
記PCMTG23中の波形メモリ24に自然音声波形を
そのまま記憶し、それを分析することにより得られたパ
ラメータを辞書(後述する音韻データベース)中に格納
しておく。また、その他の音韻(母音および有声子音)
に対しては、自然波形を記憶することなく分析して得ら
れたパラメータを辞書中に格納するようにしている。
【0020】また、発音時間中、子音から母音に変化す
るときなどに、発生するフォルマントを連続的に変化さ
せることが自然な音声として聞こえるために重要であ
る。したがって、前述したフォルマント中心周波数、フ
ォルマントレベル、フォルマント帯域幅およびピッチ周
波数などの各パラメータを、所定時間間隔で(例えば、
数ミリ秒程度の間隔で)、制御部であるCPU10から
逐次送出して制御すること、あるいは、各音源に含まれ
ているエンベロープジェネレータにより前記各パラメー
タを逐次制御させることが行われる。
【0021】本発明においては、前述のように無声子音
についてはその自然音声波形を波形メモリ24中に格納
しているため、無声子音を発声するときには該波形メモ
リ24内に格納されている波形サンプルを読み出してP
CMTG23からそのまま出力するとともに、該波形サ
ンプルから分析されたパラメータを使用して前記無声音
成分音源グループ(UTGグループ)22においても、
該無声子音を同時に発生させている。ただし、このUT
Gグループ22において発声された無声子音については
その出力レベルを0として実際に出力されないようにし
ている。そして、この無声子音から後続する有声音(母
音)へのフォルマント周波数の遷移に従って有声音フォ
ルマントを生成するVTGグループ21の発音を開始さ
せるようにしている。したがって、先行音韻と後続音韻
との結合部において、前記PCMTG23から発声され
る無声子音とVTGグループ21において発声される後
続の母音とが重なり合って出力され、スムーズな子音か
ら母音への遷移を実現することができるとともに、高品
質の無声子音の発声を行なうことが可能となる。
【0022】このような楽音の発生時における各フォル
マントの推移について、図3を参照して説明する。図3
において横軸は時間を示しており、この図に示したの
は、一つの音符、この場合には2分音符に対応して、
「sagai」という音声を発声させる場合の各フォル
マント周波数の推移およびフォルマント出力レベルの推
移を示している。ここでは、有声音発声部および無声音
発声部ともに4つのフォルマント周波数f1〜f4を有
しているものとしている。
【0023】図中(1)は前記2分音符に対応する期間
を示し、(2)は前記生成される各音韻の発声期間を示
している。(3)は前記有声音フォルマントおよび無声
音フォルマントのそれぞれ4つのフォルマント周波数f
1〜f4の推移を示しており、図中vは有声音フォルマ
ント、uは無声音フォルマントであることを表わしてい
る。また、(4)は前記無声音フォルマントの出力レベ
ルを示しており、(5)は前記有声音フォルマントの出
力レベルを示している。さらに、(6)は前記PCM音
源23から出力される音韻波形を示している。さらにま
た、(7)は前記VTGグループ21およびUTGグル
ープ22に対して発音開始を指示するFKON信号を示
し、(8)は前記PCMTG23に対して供給されるP
CM発音開始指示信号PCMKONを示している。なお、この
図においては、前記PCM発音開始指示信号PCMKONは当
該無声子音の発音期間中継続する信号とされているが、
この信号を波形メモリの読み出しを開始させるためのト
リガとなる短パルス信号とし、該トリガ信号が入力され
たときに当該波形サンプルを最後まで読み出すように構
成することもできる。
【0024】さて、前記2分音符に対応して「saga
i」という音声を発声させるときには、図示するよう
に、まず、キーオン信号(KON)に基づいて、(7)
のFKON信号と(8)のPCMKON信号が立ち上がる。こ
れに基づいて、前記VTGグループ21、UTGグルー
プ22およびPCMTG23が起動される。最初に発音
されるのは、無声子音の「s」であるため、前記PCM
TG23から該「s」に対応する波形サンプルが読み出
され、(6)に示すように出力される。このとき、前記
UTGグループ22においても、図示するように、その
第1フォルマントf1〜第4フォルマントf4がそれぞ
れ所定の周波数とされ発音処理が実行されるが、このと
きのuレベルは(4)に示すように0とされているた
め、このUTGグループ22からの音韻は出力されな
い。また、この期間においてはVTGグループ21の各
TGからはフォルマント周波数が発生されず、また、
(5)に示すようにvレベルも0とされている。
【0025】次に、前記「s」の発音が終了に近づき、
つぎに発音する「a」との遷移部になると、(1)に示
すように、VTGグループ21の各フォルマント周波数
f1〜f4が「s」から「a」への変化に対応するよう
に発生され始め、これに伴い、(5)に示すように、v
レベルが徐々に立ち上がってくる。
【0026】そして、前記「s」の発音が終了し、
「a」のみが発音される時間となると、(8)のPCMKON
がローレベルレベルとなり、前記PCMTG23の動作
が終了される。また、前記(3)に示すように、UTG
グループ22における各UTGのフォルマントの発生は
停止され、VTGグループ21における各VTGによる
第1〜第4フォルマント周波数が発生される。このと
き、(5)に示すように、vレベルが大きな値とされて
いる。なお、このときに発生される音韻がノイズ的成分
を含むような音韻である場合には、(4)に破線で示す
ようにUTGグループ22からもフォルマント成分を発
生させ、前記VTGグループ21により発生される音韻
と重畳して出力させることもできる。
【0027】次に前記「a」の発音が終了に近づくと、
「g」への遷移に対応するように前記UTGグループ2
2の発音が開始される。そして、これに伴い(4)に示
すようにuレベルが立ち上がり始める。また、これに対
応して(5)に示すようにvレベルは徐々に低下する。
【0028】次に、前記「a」から「g」への過渡期が
終了して、「g」が発音される期間になると、前記UT
Gグループ22は該「g」を発音するためのフォルマン
ト周波数となる。また、「g」は無声音成分だけではな
く有声音成分も含む音韻であるため、前記VTGグルー
プ21も該「g」に対応するフォルマントとされる。す
なわち、図示するようにこの期間においては、VTGグ
ループ21およびUTGグループ22の両方から有声音
成分と無声音成分とが発生される。このとき、(4)に
示すようにuレベルは大きな値とされ、また、(5)に
示すvレベルも所定の値とされている。
【0029】次に、「g」の発音が終了に近づくと、
(3)に示すように、前記VTGグループ21のフォル
マント周波数f1〜f4は「g」から「a」への遷移に
対応するように変化され、(4)のuレベルは徐々に低
下し、(5)のvレベルは徐々に大きくなる。
【0030】次に、「g」の発音が終了し、「a」が発
音される期間になると、前記UTGグループ22におけ
るフォルマント周波数の発生は停止され、前記VTGグ
ループ21の各音源が「a」に対応する第1〜第4のフ
ォルマント周波数を発生する状態となる。これに応じ
て、前記(4)のuレベルは減衰され、(5)のvレベ
ルは大きなレベルとされる。
【0031】続いて、「a」から「i」への接続部にな
ると、前記VTGグループ21の各フォルマント周波数
f1〜f4は「a」のフォルマント周波数から「i」の
フォルマント周波数にスムーズに結合されるように変化
される。また、(5)のvレベルも同様に「a」に対応
するレベルから「i」のレベルに変化される。
【0032】次いで、「i」の期間となり、図示するよ
うに前記VTGグループ21の各音源により「i」に対
応する第1〜第4のフォルマント周波数が安定して発生
される。また、(5)のvレベルも一定の状態とされ
る。
【0033】続いて、前記(1)の音符の発音期間が終
了すると、前記(7)のFKON信号がローレベルとな
り、前記(5)のvレベルが所定の減衰曲線をもって0
レベルとされる。これにより、この音符に対応する音韻
の発生が終了される。このようにして、有線音フォルマ
ント合成VTGグループ21、無声音フォルマント合成
UTGグループおよびPCMTGを用いて、一つの音符
に対応する音韻の発生が行なわれる。
【0034】次に、本発明の歌唱音合成装置において上
述したような動作を実行させるために使用される各種デ
ータについて説明する。図4の(a)は、前記ROM1
1のメモリマップの一例を示す図であり、図示するよう
に、このROM11内にはCPUプログラムと音韻デー
タベースPHDBとが格納されている。CPUプログラ
ム部には、この装置全体の制御を行なうための制御プロ
グラムや後述する歌唱発生処理を実行するためのプログ
ラムなど各種の処理プログラムが格納されている。
【0035】また、音韻データベースPHDBは、音韻
データ部と調音結合データ部とからなり、音韻データ部
には各音韻(母音および子音)を合成するための各種パ
ラメータPHPAR[*]が各音韻別に格納されており、調音結
合データ部には無声音から有声音あるいは有声音から無
声音に移行する際の調音結合(特に、フォルマント周波
数遷移)を行なうための各種パラメータPHCOMB[1-2] が
先行音韻と後続音韻の組ごとに格納されている。
【0036】図4の(b)に前記音韻データPHPAR[*]の
構成を示す。この図に示すように、音韻データPHPAR[*]
は、その音韻を発生するためにPCMTGを用いて発声
するかフォルマント合成により発声するかを指定する音
源指定データTGSEL 、PCM音源による場合にその音韻
に対応する波形サンプルを指定するための波形指定デー
タPCMWAVE 、PCM音源による場合におけるその出力レ
ベルを指定するためのPCMレベルデータPCMLEVEL、こ
の音韻を発生するための各フォルマントの形状を指定す
るFSHAPE、第1〜第4の各有声音フォルマントの中心周
波数をそれぞれ指定するVF FREQ1〜VF FREQ4、第1〜第
4の各無声音フォルマントの中心周波数をそれぞれ指定
するUF FREQ1〜UF FREQ4、第1〜第4の各有声音フォル
マントの出力レベルVF LEVEL1 〜VF LEVEL4 、第1〜第
4の各無声音フォルマントの出力レベルUF LEVEL1 〜UF
LEVEL4 の各データからなっており、この音韻データPH
PAR[*]がそれぞれの音韻別に格納されている。
【0037】図4の(c)は前記調音結合データPHCOMB
[1-2] の構成を示す図である。この調音結合データPHCO
MB[1-2] は1で示す先行音韻から2で示す後続音韻への
わたりの部分のフォルマントの変化を示すデータであ
り、図に示すように、先行音韻の有声音の振幅の下降特
性を指定するVF LEVEL CURVE1 、先行音韻の無声音の振
幅下降特性を指定するUF LEVEL CURVE1 、わたりの期間
における後続音韻の有声フォルマントの周波数変化特性
を指定するVF FREQ CURVE2、わたりの期間における後続
音韻の無声フォルマントの周波数変化特性を指定するUF
FREQ CURVE2、後続音韻の有声音の出力レベルの立上り
特性を指定するVF LEVEL CURVE2 、後続音韻の無声音の
出力レベルの立上り特性を指定するUF LEVEL CURVE2 、
先行音韻がなく、いきなり後続音韻から立ち上がる場合
における後続音韻の各フォルマント周波数の初期値であ
るVF INIT FREQ1 〜VF INIT FREQ4 およびUF FREQ1〜UF
FREQ4の各データが格納されている。
【0038】調音結合データがPHCOMB[-a]のように[]
内のハイフンの前に音韻が記載されていないときは、先
行音韻がなく、この音韻「a」がいきなり発音されるこ
とを示している。このような場合には、前記VF INIT FR
EQ1 〜VF INIT FREQ4 およびUF INIT FREQ1 〜UF INIT
FREQ4 にデータが設定されており、前記先行音韻振幅下
降特性データVF LEVEL CURVE1 〜VF LEVEL CURVE4 およ
びUF LEVEL CURVE1 〜UF LEVEL CURVE4 のデータは無視
されることとなる。
【0039】図5は、先行音韻から後続音韻へのわたり
の期間に、この調音結合データPHCOMB[1-2] がどのよう
に使用されるのかを説明するための図である。この図に
おいて(a)は先行音韻であり、その有声音の4つのフ
ォルマントは、VF FREQ1〜VFFREQ4によりそれぞれ指定
される中心周波数を有し、それぞれVF LEVEL1 〜VF LEV
EL4 により指定されるレベルで出力されており、また、
無声音の4つのフォルマントはそれぞれUF FREQ1〜UF F
REQ4により指定される中心周波数を有し、それぞれUF L
EVEL1 〜UF LEVEL4 により指定されるレベルで出力され
ている。
【0040】そして、前記先行音韻から(b)に示す後
続音韻に変化されるときに、前記先行音韻の有声音の各
フォルマントは、前記PHCOMB[1-2] に格納されている前
記VFFREQ CURVE2に従って、前記先行音韻の有声音のフ
ォルマント中心周波数VF FREQ1〜VF FREQ4から後続音韻
の有声音のフォルマント中心周波数VF FREQ1〜VF FREQ4
に変更される。同様に、先行音韻の無声音の各フォルマ
ントは、前記UF FREQCURVE2に従って、前記先行音韻の
無声音のフォルマント中心周波数から後続音韻の無声音
のフォルマント中心周波数に変更される。
【0041】また、前記先行音韻の有声フォルマントの
各出力レベルVF LEVEL1 〜VF LEVEL4 は前記調音結合デ
ータPHCOMB[1-2] に含まれるVF LEVEL CURVE1 に従って
下降し、同様に、先行音韻の無声フォルマントの各出力
レベルUF LEVEL1 〜UF LEVEL4 は前記UF LEVEL CURVE1
に従って下降する。さらに、前記後続音韻の有声フォル
マントの出力レベルは、前記調音結合データPHCOMB[1-
2] に含まれるVF LEVEL CURVE2 に従って、後続音韻の
各有声音フォルマントレベルVF LEVEL1 〜VF LEVEL4 ま
で立ち上がる。同様に、後続音韻の無声フォルマントの
出力レベルは前記UF LEVEL CURVE2 により指定される立
上り特性に従って、後続音韻の各無声音フォルマントレ
ベルUF LEVEL1 〜UF LEVEL4 まで上昇する。このように
して、調音結合データPHCOMB[1-2] により1で示される
先行音韻と2で示される後続音韻との結合がスムーズに
行なわれる。
【0042】図6の(a)は前記RAM12のメモリマ
ップの一例を示す図である。この図に示すように、RA
M12内にはCPUワーキングエリア、ソングデータが
格納されるソングバッファ、一音符に対応する音韻を発
生するための音韻データが展開されるPHバッファの各
領域が設定される。同図(b)は前記PHバッファへの
音韻データの展開例を示す図であり、この例において
は、「sagai」という音韻を発生させる場合を示し
ている。この図に示すように、PHバッファには、一つ
の音符に対応する期間において発生すべき音韻に対応す
る調音結合データPHCOMB[1-2] および音韻データPHPAR
[*]が交互に格納される。
【0043】この前記PHバッファ内に格納されている
調音結合データおよび音韻データは、前記VTGグルー
プ21およびUTGグループ22の各音源VTG1〜V
TG4およびUTG1〜UTG4に印加され、当該デー
タに対応する音声が発音されることとなる。
【0044】図7(a)は前記データメモリ13のメモ
リマップの一例を示すもので、図示するように、複数の
ソングデータSONG1〜SONGnがこのデータメモ
リ13に格納されている。図7の(b)は該ソングデー
タの構成を示す図である。図示するように、ソングデー
タは、その曲の曲名を示すSONGNAME、その曲の演奏テン
ポを示すTEMPO 、その曲の拍子や音色指定データなどを
示すMISC DATA 、歌唱音合成のために用いられる歌唱デ
ータLYRIC SEQ DATA、および、伴奏を演奏するための伴
奏データACCOMP DATA からなっている。
【0045】図8(a)に前記歌唱データLYRIC SEQ DA
TAの構成を示す。図示するように、歌唱データLYRIC SE
Q DATAは、当該楽曲の各音符に対応した歌詞データLYRI
C DATA1 〜LYRIC DATAm からなっている。各歌詞データ
LYRIC DATAi は、その音符に対応する時間に発生すべき
歌詞がある場合とない場合とで異なる内容のデータとさ
れており、発声すべき歌詞がある場合には、その音符の
期間に発音すべき音素データLYPH DATA 、音高などを指
定するKEYON データ、その音符の長さに等しい発音時間
を指定するNOTE DURATION データなどにより構成されて
おり、また、発声すべき歌詞がないときには、発音の合
間の時間を指定するデュレイションデータDURATIONのみ
とされている。
【0046】図示するように、その音符に対応する時間
に発声すべき歌詞があるときの歌詞データLYRIC DATAh
は、その音符の期間に発音すべき歌詞の音素の数(hma
x)だけ配列された音素を示すデータPHDATAとその発音
時間を示すデータPHTIMEとの組(PHDATA1,PHTIME1 〜PH
DATAhmax,PHTIMEhmax )と、その音符のキーコードおよ
びベロシティデータ(図の例においては、それぞれC3
および64とされている)を有するキーオンデータKEYO
N と、発音時間データNOTEDUR 、および、その音符にお
いて最後に発音される音素と後続する音符において最初
に発音される音素とを結合して発音させるか否かを指定
する結合フラグCOMBIFLGを有するキーオフデータKEYOFF
とから構成されている。
【0047】ここで、前記データPHTIMEは、その値が
「1」以上の値とされているときは演奏のテンポなどに
より変化することのない絶対時間を単位としてその音素
の発音時間を指定するものであり、「0」であるときに
は、前記NOTEDUR により指定された当該音符全体の時間
に合わせて、PHTIMEが「0」とされた音素(通常は母音
とされている)の発音時間が適宜調整されることを示し
ている。なお、全ての音素のPHTIMEが1以上の数値とさ
れているときは、各音素はその値により指定された絶対
時間の期間発音されることとなる。
【0048】また、その音符において発音すべき音素が
ないときには、前述したように歌詞データLYRIC DATAi
はその音符に対応する時間間隔を示すデータDURATIONと
そのLYRIC DATAi の終了を示す終了コードEND とから構
成されている。
【0049】図8の(b)は、前記LYRIC DATAi の一例
を示す図であり、この例は「h」、「i」および「t」
の3つの音素を発声させる(hmax=3)場合を示してい
る。図示するように、この音符の音高はC3、ベロシテ
ィは64であり、また音符の発音時間の長さは96単位
時間とされている。また、「h」と「t」のPHTIMEはい
ずれも5単位時間とされており、「i」のPHTIMEは
「0」とされている。従って、この例の場合には、まず
「h」が5単位時間の間発音され、続いて「i」が86
(=(DUR の96)−(「h」の5)−(「t」の
5))単位時間発音され、最後に「t」が5単位時間発
音されることとなる。また、この「t」と後続するLYRI
C DATAi=1 の最初の音素とを結合して発音するときに
は、KEYOFF中のCOMBIFLGがセットされている。
【0050】図8の(c)に前記LYRIC DATAi の他の例
を示す。この図に示す例は、「s」、「a」、「g」、
「a」、「i」の5つの音素を発生させる場合を示して
いる。また、この音符の音高はA5であり、ベロシティ
は85、長さは127単位時間とされている。したがっ
て、この場合には、「s]を5単位時間、「a」を32
単位時間(=(DUR の127)−(「s」の5)−
(「g」の5)−(「a」の35)−(「i」の5
0))、「g]を5単位時間、「a」を35単位時間、
「i」を50単位時間、それぞれ発音することとなる。
【0051】このように構成された歌唱音合成装置にお
いて、操作者が再生すべき楽曲の選択を行い、その動作
を開始させると、前記データメモリ13中に格納されて
いるソングデータの中から指定された楽曲に対応するソ
ングデータが選択され前記RAM12に転送される。そ
して、CPU10は当該ソングデータ中に含まれている
TEMPO データに基づいて演奏の速度を決定し、また、MI
SC DATA に基づいて使用する音色の指定等を行う。そし
て、前記伴奏データACCOMP DATA 部に格納されている自
動演奏データに基づいて伴奏音を発声する処理を実行す
るとともに、歌唱データLYRIC SEQ DATAに基づいて歌唱
発声処理を実行する。
【0052】図9は、この歌唱発声処理のフローチャー
トである。この処理が開始されると、まず、ステップS
11において前記歌唱データLYRIC SEQ DATA部から各音
符に対応する音素データLYRIC DATAを読み出すためのポ
インタiを「1」にリセットする。これにより、当該LY
RIC SEQ DATA中の第1番目の音符に対応する音素データ
LYRIC DATAが指定されることとなる。次に、ステップS
12に進み、該第1番目のLYRIC DATA1 が読み込まれ
る。そして、この読み込んだLYRIC DATAが音素データの
最後であることを示すLYRIC END 以外のデータであるか
否かを判定し(S13)、その判定の結果がYES、す
なわち、LYRIC END ではないときは、ステップS14に
進む。
【0053】今の場合はi=1でLYRIC DATA1 が読み込
まれたため、前記ステップS13の判定の結果はYES
となる。したがって、ステップS14に進み、読み込ま
れたデータがDURARTION DATAであるか否かが判定され
る。この判定の結果がYESのときは、該デュレイショ
ンデータの値をタイマーにセットし(S15)、その時
間が経過するまで待機する(S16)。そして、その時
間が経過したとき、前記ポインタiをi+1にインクリ
メントして(S17)、前記S12にもどり、次の音素
データLYRIC DATAi+1 を読み込む。
【0054】一方、読み込んだLYRIC DATAがDURATION D
ATA ではなく、前記S14の判定結果がNOのときはス
テップS19に進む。このステップS19では、このLY
RICDATA中のLYPH DATA を指定するためのポインタhを
「1」にセットする。これにより、このLYRIC DATA中の
第1番目のLYPH DATA が指定される。
【0055】次に、ステップS20に進み、直前に読み
込んで処理したLYRIC DATAのKEYOFFコード中のCOMBIFLG
に対応する調音結合データPHCOMBy をROM11中の音
韻データベースPHDBから読み出して、前記音韻バッ
ファPHBUFFに書き込む。すなわち、直前のLYRIC
DATAのKEYOFFコード中のCOMBIFLGがセットされていた場
合には、該直前のLYRIC DATAの最後に発音した音素デー
タPHDATA hmax と今回のLYRIC DATAの第1番目のPHDATA
1 に対応する調音結合データPHCOMBy を前記ROM11
中の音韻データベースPHDBから読み出して、前記音
韻バッファPHBUFFに書き込む。また、直前のLYRI
C DATAのKEYOFFコード中のCOMBIFLGがセットされていな
かった場合には、今回のLYRIC DATAのPHDATA1 の音素を
いきなり発生する調音結合データPHCOMBy を読み出して
PHBUFFに書き込む。
【0056】例えば、今回読み込んだLYRIC DATAが前記
図8の(c)に示した「sagai」を発声するデータ
であり、直前のLYRIC DATAのCOMBIFLGがセットされてい
なかった場合には、このステップS20により、前記図
6の(b)に示したように、PHCOMB[-s]がPHBUFF
の先頭に書き込まれることとなる。
【0057】次に、ステップS21に進み、前記ポイン
タhにより指定されるPHDATAh を参照して、それに対応
する音韻データPHPARhを前記音韻データベースPHDB
から読み出して前記PHBUFFに書き込む。前記例の
場合には、図6(b)に示すように、PHPAR[s]が読み出
されてPHBUFFの第2番目のアドレスに書き込まれ
ることとなる。
【0058】次にステップS22に進み、前記ポインタ
hの値がhmaxに達していないか否かが判定される。
hがhmaxに達しておらず、この判定の結果がYES
のときは、ステップS23に進み、このPHDATAh とその
次のPHDATAh+1 との調音結合データPHCOMBy が音韻デー
タベースPHDBに存在するか否かを判定する。この結
果がNOのときはそのままステップS25に進み、ま
た、この調音結合データPHCOMBy がPHDB中に存在す
るときにはこれを読み出して、前記PHBUFFに書き
並べる。前述の例の場合には、図6(b)に示すように
PHCOMB[s-a] が書き込まれる。
【0059】次にステップS25に進み、前記ポインタ
の値hをh+1にインクリメントして、前記ステップS
21に戻る。そして、前述したように、その次の音素デ
ータPHDATAh に対応する音韻データPHPARhを読み出して
PHBUFFに書き並べる。このようにして、hがhm
axに達するまで、前記ステップS21〜S25が繰り
返され、当該LYPH DATA 中のPHDATA1 〜PHDATAh に対応
するPHCOMBy とPHPARyとが交互にPHBUFFに書き並
べられることとなる。このようにして、前記図6の
(b)に示すように、PHBUFFに音韻データが展開
される。なお、hがhmaxに達したか否かの判定は、
h+1の位置のデータを読み出してその内容がKEYON コ
ードであるときにh=hmaxであると判定することな
どにより、行なうことができる。
【0060】hがhmaxに達して、前記ステップS2
2の判定結果がNOとなったときは、ステップS26に
進み、前記PHBUFFにENDコードが書き込まれ
る。続いて、ステップS27に進み、PHBUFFをそ
の先頭から読み出し、該読み出した調音結合データPHCO
MBおよび音韻データPHPAR に基づき、該データにより指
定された前記VTGグループ、UTGグループあるいは
PCMTGを用いて発声させる。なお、このときに、有
声音のピッチは当該キーオンコード中のキーコードKC
に対応させ、各音韻の発音時間は、前述したように、NO
TE DURおよびPHTIMEにより制御する。
【0061】そして、この第i番目の音素データLYRIC
DATAi に対応する音韻列の発音が全て終了するまでこの
ステップS27を繰り返す(S28)。そして、前記P
HBUFFのENDコードまで達したら、ステップS2
9において、前記LYRIC DATA読み出し用ポインタiをi
+1にインクリメントして、再び、前記ステップS12
に戻る。このようにして順次LYRIC SEQ DATAの読み込み
および発音処理を繰り返し、当該LYRIC SEQ DATAの読み
込みがその最後(LYRIC END) に達したとき、S13の判
定の結果がNOとなりこの歌唱発生処理が終了される
(S18)。
【0062】なお、前記無声音部で使用するPCM波形
の分析データを当該PCM波形と組にして、このような
PCM波形と分析データの組を複数、例えば歌唱者別に
用意しておいてそれらを切り替えるようにすることによ
り音質変換を容易に行うことが可能となる。また、全て
の無声子音をPCM波形とする必要はなく、フォルマン
ト合成によりある程度の水準の音声合成を実現すること
ができるものは、そのままフォルマント合成により生成
するようにしてもよい。有声破裂音は有声無声分離した
無声PCM波形を使用することが望ましいが、子音部に
は全てPCM波形を使用するようにしてもよい。さら
に、有声部のノイズ成分はフォルマントの変化があまり
ない場合、PCM波形をループさせたものを使用しても
よい。さらにまた、PCM音源により発音する子音に後
続する有声音の種類、ピッチあるいは音量などによっ
て、子音PCM波形を変えるようにしてもよい。
【0063】本発明の歌唱音合成装置の適用分野として
特に好適な例を挙げれば、歌唱音が出力可能な電子楽器
やコンピュータシステム、音声応答装置、あるいはゲー
ムマシンやカラオケなどのアミューズメント機器などが
考えられる。また、本発明の歌唱音合成装置は、パソコ
ンに代表されるコンピュータシステムのソフトウエアと
いう形態で実施することも可能である。その際、音声波
形合成までCPUにより実行するようにしてもよいし、
あるいは図1に示したように別途音源を設けてもよい。
さらに、前記図1の構成に各種ネットワークインターフ
ェースあるいはモデムを加えて設け、音韻データなど必
要なデータ、パラメータ類をネットワークや電話回線を
通じてダウンロードしたり、また、合成した歌唱音をネ
ットワークを通して転送するようにしてもよい。
【0064】
【発明の効果】無声子音についてはPCM音源(波形合
成処理)を用いて発声させるようにしたため、高品質の
歌唱音を合成出力することができる。また、無声子音に
対応するPCM波形の分析データを当該音韻のパラメー
タとして使用しているため、スムーズな調音結合を実現
することができる。さらに、歌唱者に応じた音韻データ
ベースを準備することが可能となるため、多種の歌唱音
を容易に発声させることが可能となる。
【図面の簡単な説明】
【図1】 本発明の歌唱音合成装置のシステム構成の一
例を示す図である。
【図2】 本発明の歌唱音合成装置の音源部の構成の一
例を示す図である。
【図3】 本発明の歌唱音合成装置の動作を説明するた
めの図である。
【図4】 本発明の歌唱音合成装置に用いられる音韻デ
ータベースに格納されているデータを説明するための図
である。
【図5】 先行音韻から後続音韻への遷移を説明するた
めの図である。
【図6】 RAM12中のデータを説明するための図で
ある。
【図7】 データメモリ中のソングデータの構造を示す
図である。
【図8】 歌唱データ(LYRIC SEQ DATA)の構造を示す
図である。
【図9】 歌唱発声処理を説明するためのフローチャー
トである。
【符号の説明】
10 CPU、11 ROM、12 RAM、13 デ
ータメモリ、14 表示部、15 演奏操作子、16
設定操作子、18 D/A変換器、19 バス、20
音源部、21 有声音グループ、22 無声音グルー
プ、23 PCM音源、24 波形メモリ、25 混合
フロントページの続き (56)参考文献 特開 平3−200300(JP,A) 特開 平5−204397(JP,A) 特開 平7−152396(JP,A) 特開 平9−50287(JP,A) 特開 昭60−225198(JP,A) 特開 昭59−72494(JP,A) 特開 平7−72898(JP,A) 特開 平4−331990(JP,A) 特開 平7−146695(JP,A) 特開 平8−194484(JP,A) 特公 昭45−35323(JP,B1) 特公 昭55−34439(JP,B2) 特公 平4−80399(JP,B2) 特公 平3−15759(JP,B2) 米国特許5895449(US,A) (58)調査した分野(Int.Cl.7,DB名) G10L 13/04 G10L 13/00 JICSTファイル(JOIS) 特許ファイル(PATOLIS)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 有声音を生成する有声音成分音源グルー
    プと無声音を生成する無声音成分音源グループとを有す
    るフォルマント合成音源部と、 無声子音に対応する音声波形が格納された波形メモリを
    有するPCM音源部と、 当該楽曲の歌詞に対応した歌唱データを記憶する記憶部
    と、 各音韻を発声するための音韻パラメータと先行音韻と後
    続音韻との調音結合のための調音結合パラメータとが記
    憶された音韻データベースと、前記歌唱データに基づいて前記音韻データベースから対
    応する音韻パラメータと調音結合パラメータとを読み出
    し、該読み出した音韻パラメータおよび調音結合パラメ
    ータに基づいて前記フォルマント合成音源部および前記
    PCM音源部に対し制御信号を供給する 制御部とを有す
    る歌唱音合成装置であって、前記音韻データベースには、前記波形メモリに格納され
    た音声波形を分析することにより得られた音韻パラメー
    タおよび調音結合パラメータも記憶されており、 発声すべき音韻が無声子音であるとき、前記PCM音源
    部と前記無声音成分音源グループの両者において該無声
    子音の発声処理を実行させるとともに、前記無声音成分
    音源グループからの合成出力は外部に出力させないよう
    にして、該無声子音から後続する有声音への調音結合を
    スムーズに行なうようになされている ことを特徴とする
    歌唱音合成装置。
JP21593096A 1996-07-24 1996-07-30 歌唱音合成装置 Expired - Fee Related JP3233036B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP21593096A JP3233036B2 (ja) 1996-07-30 1996-07-30 歌唱音合成装置
US08/898,591 US5895449A (en) 1996-07-24 1997-07-22 Singing sound-synthesizing apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP21593096A JP3233036B2 (ja) 1996-07-30 1996-07-30 歌唱音合成装置

Publications (2)

Publication Number Publication Date
JPH1049192A JPH1049192A (ja) 1998-02-20
JP3233036B2 true JP3233036B2 (ja) 2001-11-26

Family

ID=16680622

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21593096A Expired - Fee Related JP3233036B2 (ja) 1996-07-24 1996-07-30 歌唱音合成装置

Country Status (1)

Country Link
JP (1) JP3233036B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BE1006921A3 (nl) * 1993-03-16 1995-01-24 Koninkl Philips Electronics Nv Inrichting voor het schrijven van informatie.
JP2004086067A (ja) 2002-08-28 2004-03-18 Nintendo Co Ltd 音声発生装置および音声発生プログラム
JP6787491B2 (ja) * 2017-06-28 2020-11-18 ヤマハ株式会社 音発生装置及び方法
JP7468495B2 (ja) * 2021-03-18 2024-04-16 カシオ計算機株式会社 情報処理装置、電子楽器、情報処理システム、情報処理方法、及びプログラム

Also Published As

Publication number Publication date
JPH1049192A (ja) 1998-02-20

Similar Documents

Publication Publication Date Title
US10629179B2 (en) Electronic musical instrument, electronic musical instrument control method, and storage medium
US11545121B2 (en) Electronic musical instrument, electronic musical instrument control method, and storage medium
US11468870B2 (en) Electronic musical instrument, electronic musical instrument control method, and storage medium
US5704007A (en) Utilization of multiple voice sources in a speech synthesizer
JP3144273B2 (ja) 自動歌唱装置
Macon et al. A singing voice synthesis system based on sinusoidal modeling
US5930755A (en) Utilization of a recorded sound sample as a voice source in a speech synthesizer
US5895449A (en) Singing sound-synthesizing apparatus and method
US11417312B2 (en) Keyboard instrument and method performed by computer of keyboard instrument
JP3673471B2 (ja) テキスト音声合成装置およびプログラム記録媒体
JPH11184490A (ja) 規則音声合成による歌声合成方法
JP3233036B2 (ja) 歌唱音合成装置
JP3307283B2 (ja) 歌唱音合成装置
JP4277697B2 (ja) 歌声生成装置、そのプログラム並びに歌声生成機能を有する携帯通信端末
JP4300764B2 (ja) 歌唱音声を合成する方法および装置
JP4353174B2 (ja) 音声合成装置
JP3265995B2 (ja) 歌唱音声合成装置及び方法
JPH04146473A (ja) 電子音声楽器
JP7276292B2 (ja) 電子楽器、電子楽器の制御方法、及びプログラム
KR20040015605A (ko) 가상노래 합성장치 및 방법
JPH0895588A (ja) 音声合成装置
EP0396141A2 (en) System for and method of synthesizing singing in real time
JPH1031496A (ja) 楽音発生装置
JP3515268B2 (ja) 音声合成装置
JPH03203800A (ja) 音声合成方式

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20010821

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070921

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080921

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090921

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100921

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100921

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110921

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees