JP4305022B2 - データ作成装置、プログラム及び楽音合成装置 - Google Patents

データ作成装置、プログラム及び楽音合成装置 Download PDF

Info

Publication number
JP4305022B2
JP4305022B2 JP2003087474A JP2003087474A JP4305022B2 JP 4305022 B2 JP4305022 B2 JP 4305022B2 JP 2003087474 A JP2003087474 A JP 2003087474A JP 2003087474 A JP2003087474 A JP 2003087474A JP 4305022 B2 JP4305022 B2 JP 4305022B2
Authority
JP
Japan
Prior art keywords
information
division
time
pitch
volume
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003087474A
Other languages
English (en)
Other versions
JP2004294795A (ja
Inventor
靖雄 吉岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2003087474A priority Critical patent/JP4305022B2/ja
Publication of JP2004294795A publication Critical patent/JP2004294795A/ja
Application granted granted Critical
Publication of JP4305022B2 publication Critical patent/JP4305022B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、音声や楽器音などの楽音の合成に用いて好適な楽音合成制御データを作成するータ作成装置、プログラム及び楽音合成装置に関する。
【0002】
【従来の技術】
一般に、音声には、人体の構造(例えば、声道等)により所定のフォルマントが存在し、これによって音声特有の音色が特徴づけられている。
電子楽器分野においては、この音声により近い音色を得るべく、その固有のフォルマントに従って音声を合成することが行われている。
【0003】
しかしながら、一般に音声は楽器音よりも立ち上がりが遅い。このため、例えば楽器音の発音と歌唱音の発音とを同時に開始させたとしても、聴感上は歌唱音がやや遅れて開始されたように聞こえてしまう。
かかる事情に鑑み、楽器音のノートオン(発音)に伴って発生させる歌唱音については、楽器音のノートオンを伴わない歌唱音よりも短時間で立ち上げることにより、楽器音のノートオンに伴う歌唱音を適正なタイミングで発音させる技術が提案されている(例えば、特許文献1参照)。
【0004】
【特許文献1】
特開平10−49169号公報(第5−6頁、第13図)
【0005】
【発明が解決しようとする課題】
かかる技術によれば上記問題を解消することができるが、音に固有のフォルマントに従って音声を合成する技術においては、更に根本的な問題として人間がしゃべったが如く自然な韻律の変化(すなわち音高(ピッチ)と音量の自然な変化)を合成音に与えるためには、膨大な量の情報が必要になるという問題がある。
以下、かかる問題について図7〜図10を参照しながら詳細に説明する。
【0006】
図7は、従来の音声合成システム30の構成を示す図である。
音声合成システム30は、外部シーケンサ20と、この外部シーケンサ20と通信ケーブル等によって接続された音声合成装置10とを備える。
外部シーケンサ20は、MIDI(Musical Instrument Digital Interface)規格に準拠した音声合成に必要となる楽音制御データ(以下、MIDIデータ)を生成する。
音声合成装置10は、音声合成部11や音声辞書12等を備え、外部シーケンサ20から上記MIDIデータを受け取り、このMIDIデータに従って音声を合成する。
【0007】
ここで、図8は、外部シーケンサ20から音声合成装置10に時々刻々転送されるMIDIデータを例示した図である。なお、音声を合成するために最低限必要な情報は、発話タイミング、発音時間長、ピッチ、音量、音素を示す情報である。従って、図8では、これらの情報に関するMIDIデータであるノートオン/ノートオフメッセージ、ピッチベンドメッセージ、コントロールメッセージ、システムエクスクルーシブメッセージを例示している。
【0008】
ノートオン/ノートオフメッセージは、発音又は消音を指示するノートオン/ノートオフ情報、発音すべき音高を示すノートナンバ情報、発音の音量を示すベロシティ情報や、発話するタイミングを示すタイミング情報、発音時間長を示す時間長情報等によって構成される。
ピッチベンドメッセージは、発音時間内における上記音高(ピッチ)の細かな変動を指示するピッチベンド情報等によって構成される。
コントロールメッセージは、発音時間内における上記音量の細かな変化を指示するボリューム情報等によって構成される。
システムエクスクルーシブメッセージは、各電子楽器メーカ等が固有に設定することができるメッセージであり、音声合成システム30においては音素を一意に特定するため音素情報(例えば、音素番号)等によって構成される。
【0009】
これらMIDIデータを構成する各情報について、発話するタイミング、発音時間長、ピッチ、音量、音素を示す情報に分類すれば次の通りとなる。
・発話タイミング、発音時間長 → タイミング情報+時間長情報
・ピッチ → ノートナンバ情報+ピッチベンド情報
・音量 → ベロシティ情報+ボリューム情報
・音素 → 音素情報
【0010】
図7に戻り、音声合成装置10の音声合成部11は、このようなMIDIデータを外部シーケンサ20から順次受け取ると、該MIDIデータに含まれる音素情報を抽出し、この音素情報を検索キーとして音声辞書12を検索することにより、該当する音素データを読み出す。そして、音声合成部11は、読み出した音素データに対し、ピッチベンド情報等に示されるピッチやボリューム情報等に示されるボリューム等を付加して音声を合成する。
【0011】
図9は、外部シーケンサ20から音声合成装置10へ転送されるMIDIデータの時間的な流れを模式的に示した図である。なお、図中の黒丸は、該当する情報が転送されるタイミングを示しており、図中A、B、C、Dは、それぞれ音素情報、ノートオン/ノートオフ情報、ピッチベンド情報、ボリューム情報の様子を示し、図中Eは、合成波形の発生状態を示している。
図9においては、「まじ」という音声を発声させるために、音素情報“ma(ま)”と“dzi(じ)”がシステムエクスクルーシブメッセージに含められて外部シーケンサ20から音声合成装置10へ転送される(図9に示すA参照)。ただし、実際の発音は、ノートオンメッセージが転送された位置(時刻)から開始するため、この発音開始位置よりも前に該システムエクスクルーシブメッセージが転送される。
【0012】
一方、ノートオン情報を含むノートオンメッセージは、発音開始時に外部シーケンサ20から音声合成装置10へ転送される(図9に示すB参照)。このノートオンメッセージには、発音の開始を指示するノートオン情報のほか、発音開始位置でのピッチの値を示すノートナンバ情報や該発音開始位置での音量の値を示すベロシティ情報が含まれる。音声合成装置10は、このノートオンメッセージに従って当該メッセージを受け取った時点より発音を開始し、ノートオフメッセージを受け取ると発音を停止する。
【0013】
さらに、発音開始位置から発音停止位置までの間における細かなピッチ変動は、音声合成装置10がピッチベンドメッセージに含まれるピッチベンド情報に従って制御する一方(図9に示すC参照)、発音開始位置から発音停止位置までの間における細かな音量変化は、音声合成装置10がコントロールメッセージに含まれるボリューム情報に従って制御する(図9に示すD参照)。ここで、これらピッチベンド情報、ボリューム情報を含む各メッセージは、あるメッセージが転送されてから対応する次のメッセージが転送されるまでの間、図9に示すC、Dに実線で描くように一定の値に保たれるため、実際のピッチ及び音量は、一定のピッチ変動、音量変化を示すことになる。
【0014】
ここで、図10は、実際の音声波形とそれを分析することによって得られるピッチ及び音量の軌跡を示した図である。
図10(a)〜(c)に示すように、実際の音声においては、ピッチ及び音量の変化が極めて激しいことがわかる。このように極めて細かなピッチ変動及び音量変化を、上述したピッチベンドメッセージ及びコントロールメッセージを用いて実現するためには、ピッチ変動、音量変化を指定するこれらのメッセージを外部シーケンサ20から音声合成装置10へ非常に短い時間間隔で転送し続ける必要がある。なお、長い時間間隔でこれらのメッセージを転送したとすれば、ピッチ、音量の変化は図9のC、Dに示す如く階段状になってしまい、聴感上不自然な合成音声を生成することになるであろう。
【0015】
本発明は、以上説明した事情を鑑みてなされたものであり、従来よりも少ない情報量にて、より自然な合成音の生成を可能とするデータ作成装置、プログラム及び楽音合成装置を提供することを目的とする。
【0016】
上述した課題を解決するため、本発明に係るデータ作成装置は、楽音合成装置に与える複数の時間位置における複数種類の情報を音素ごとに定義した楽音合成制御データを作成する装置であって、楽音合成制御データに含まれる音素の発音時間の長さであるゲートタイムを規定した発音時間長情報を生成し、前記発音時間の分割数である第1の分割情報を生成し、前記発音時間長情報によって規定されるゲートタイムを前記第1の分割情報で分割した第1の分割点番号と当該第1の分割点番号が示す位置での音高値とを規定した複数の情報対であって、規定した各位置における音高値の間が前記楽音合成装置によって補間される複数の第1の情報対を生成し、前記発音時間の分割数である第2の分割情報を生成し、前記発音時間長情報によって規定されるゲートタイムを前記第2の分割情報で分割した第2の分割点番号と当該第2の分割点番号が示す位置での音量値とを規定した複数の情報対であって、規定した各位置における音量値の間が前記楽音合成装置によって補間される複数の第2の情報対を生成することにより、前記発音時間長情報、前記複数の第1の情報対、前記複数の第2の情報対を備える楽音合成制御データを作成することを特徴とする。
【0017】
かかる楽音合成制御データには、発音時間内における音高値の変動を表す第1の情報対と、発音時間内における音量値の変動を表す第2の情報対とが含まれている。このように、細かな音高変動を与えるための情報及び細かな音量変化を与えるための情報を楽音合成制御データに新たに定義することにより、従来必要であった膨大な量の情報(例えば、細かなピッチ変動を与えるためのピッチベンド情報及び細かな音量変化を与えるためのボリューム情報)を大幅に低減することが可能となる。
【0018】
なお、上記楽音合成制御データは、発音初期時における音高値を規定した初期音高情報と発音初期時における音量値を規定する初期音量情報とをさらに備える態様が好ましい。
【0019】
また、上記楽音合成制御データを音声合成に適用した場合には、該楽音合成制御データに発音すべき音声に係る音素情報を含めるようにしても良い。
【0020】
また、上記楽音合成制御データを提供する態様として、該楽音合成制御データを所定の記録媒体に記録し、かかる記録媒体を通じて提供するようにしても良い。
【0021】
また、本発明に係る楽音合成装置は、上述した楽音合成制御データを受信し、受信した前記楽音合成制御データから前記複数の第1の情報対及び前記複数の第2の情報対を取得し、取得した第1の情報対に規定されている前記各位置における音高値の間を補間することにより楽音合成に用いる音高を求めると共に、取得した第2の情報対に規定されている前記各位置における音量値の間を補間することにより楽音合成に用いる音量を求めることを特徴とする。
【0023】
また、本発明に係るプログラムは、楽音合成装置に与える複数の時間位置における複数種類の情報を音素ごとに定義した楽音合成制御データを作成するコンピュータに、楽音合成制御データに含まれる音素の発音時間の長さであるゲートタイムを規定した発音時間長情報を生成する第1の生成機能と、前記発音時間の分割数である第1の分割情報を生成し、前記発音時間長情報によって規定されるゲートタイムを前記第1の分割情報で分割した第1の分割点番号と当該第1の分割点番号が示す位置での音高値とを規定した複数の情報対であって、規定した各位置における音高値の間が前記楽音合成装置によって補間される複数の第1の情報対を生成する第2の生成機能と、前記発音時間の分割数である第2の分割情報を生成し、前記発音時間長情報によって規定されるゲートタイムを前記第2の分割情報で分割した第2の分割点番号と当該第2の分割点番号が示す位置での音量値とを規定した複数の情報対であって、規定した各位置における音量値の間が前記楽音合成装置によって補間される複数の第2の情報対を生成する第3の生成機能とを実現させることを特徴とする。
【0024】
【発明の実施の形態】
以下、本発明に係る実施の形態について図面を参照しながら説明する。
【0025】
A.本実施形態
図1は、本実施形態に係るシステムエクスクルーシブメッセージ(楽音合成制御データ)のフォーマットを例示した図である。図1においては、システムエクスクルーシブメッセージの先頭部分に付加されるステータス(0xF0)や電子楽器メーカに固有のID、及び該メッセージの終端部分に付加されるステータス(0xF7)等は除かれており、必要なデータ部分のみが示されている。
【0026】
図1に示すシステムエクスクルーシブメッセージにおいては、音声を合成するために必要な発話タイミング、発音時間長、ピッチ、音量、音素の情報がまとめて定義されている。外部シーケンサは、このように定義したシステムエクスクルーシブメッセージを、図2に黒丸で示すように実際の発音開始位置よりも少し手前で音声合成装置に送る。
【0027】
かかるシステムエクスクルーシブメッセージを新たに定義することにより、人間がしゃべったが如く自然な韻律の変化を合成音声に与えるために従来必要であった膨大な量の情報(具体的には、細かなピッチ変動を与えるためのピッチベンド情報及び細かな音量変化を与えるためのボリューム情報)を大幅に低減することが可能となる。
以下、本実施形態に係るシステムエクスクルーシブメッセージについて詳説する。
【0028】
図1に示す“Channel”は、MIDIのチャネル番号(0x00-0x0F)を示す情報であり、そのメッセージがどのチャンネル(パート)に対してのメッセージなのかをチャネル番号により判別するための情報である。
“Delay Time”(タイミング情報)は、当該メッセージを受け取ってから、実際に発音を開始するまでの時間(複数バイトで示す場合にはそれぞれ(0x00−0x7F))を示す情報であり、単位としては例えば10ms=1tickとしたときのtick数が用いられる。
【0029】
“Note Number”は、ノート番号(0x00-0x7F)を示す情報であり、通常のノートオンメッセージに含まれるノートナンバ情報(前掲図8参照)と同じものである。
“Velocity”は、ベロシティ値(0x00-0x7F)を示す情報であり、通常のノートオンメッセージに含まれるベロシティ情報(前掲図8参照)と同じものである。
つまり、“Note Number”及び“Velocity”は、それぞれ発音初期時における音高値を規定する情報(初期音高情報)及び発音初期時における音量値を規定する情報(初期音量情報)といえる。
【0030】
“Gate Time”(発音時間長情報)は、発音時間の長さ(複数バイトで示す場合にはそれぞれ(0x00−0x007F))を示す情報である。単位としては、上記“Delay Time”と同様、例えば10ms=1tickとしたときのtick数が用いられる。ここで、図3に“Delay Time”と“Gate Time”との関係を示す。
音声合成装置は、本システムエクスクルーシブメッセージを受け取ってから、“Delay Time”に示される時間だけ待った後に発音を開始し、“Gate Time”に示される時間だけ発音を行う。
【0031】
“Number of Phonetic Symbol”は、音素記号をSAMPA(Speech Assessment Methods Phonetic Alphabet;0x00−0x7FのASCII記号のみで発音記号を表現できるようにしたもの)で表現した時のその文字数(0x00−0x7F)を示す情報である。
この“Number of Phonetic Symbol”に続く“Phonetic Symbol Position 1”、“Phonetic Symbol 1”〜“Phonetic Symbol Position n”、“Phonetic Symbol n”は、それぞれ音素記号の時間位置と、それぞれの音素記号をSAMPAで表現した時の1文字目〜n文字までのコード(0x00−0x7F)を示す情報である。
【0032】
各音素記号の時間位置は、“Gate Time”によって規定される発音時間の長さを“Number of Phonetic Symbol”の数で分割したときの分割点の番号で指定される。
なお、本実施形態においては、1つのMIDIデータが7bitであること等を考慮し、上記発音時間を128等分する。ここで、上記発音時間を128等分する旨の情報については、本システムエクスクルーシブメッセージ内に入れ込んでも良いし、これとは別のメッセージに含めて送るようにしても良い。また、発音時間の分割の割合は任意であり、等間隔で音素記号を割り当てるときは、“Phonetic Symbol Position”を省略することもできる(この点については、以下に説明する“Prosodic PitchBend Change Position”、“Prosodic Volume Position”も同様である)。
これらにより、発音すべき音声に係る音素情報(音素の種類や音素数、音素の発音時間等)を定義する。なお、本実施形態では、SAMPAを利用して音素記号を表現する態様を例示しているが、音声合成システムに固有の音素記号等を用いるようにしても良い。
【0033】
“Number of Prosodic PitchBend Change”は、以下に説明する“Prosodic PitchBend”の個数を示す情報である(0x00−0x7F)。“Prosodic PitchBend”は、“Prosodic PitchBend Change Position”と“Prosodic PitchBend Change LSB”及び“Prosodic PitchBend Change MSB”とからなる情報対である。
“Prosodic PitchBend Change Position”は、“Phonetic Symbol Position”と同様に、“Gate Time”によって規定される発音時間内においてピッチベンドの値を変更等する時間位置を指定するための情報である(0x00−0x7F)。
【0034】
一方、“Prosodic PitchBend Change LSB(Prosodic PitchBend Changeのロー側バイトの値を表す)”及び“Prosodic PitchBend Change MSB(Prosodic PitchBend Changeのハイ側バイトの値を表す)”は、通常ピッチベンドメッセージに含まれるピッチベンド情報(前掲図8参照)と同じものであり、対応する“Prosodic PitchBend Change Position”によって指定された時間位置におけるピッチベンドの値(音高値)を示す情報である(0x00−0x7F)。上述した場合を例に説明すると、“Prosodic PitchBend Change LSB 1”及び“Prosodic PitchBend Change MSB 1”は、“Prosodic PitchBend Change Position 1”におけるピッチベンドの値を示し、・・・、“Prosodic PitchBend Change LSB n”及び“Prosodic PitchBend Change MSB n”は、“Prosodic PitchBend Change Position n”におけるピッチベンドの値を示すことになる。
【0035】
図4は、“Prosodic PitchBend Change Position”と“Prosodic PitchBend Change LSB”及び“Prosodic PitchBend Change MSB”との関係を例示した図である。なお、図4及びこの説明では、便宜上、“Prosodic PitchBend Change Position”を“Position”と表記し、“Prosodic PitchBend Change LSB”及び“Prosodic PitchBend Change MSB”を“PitchBend”と表記する。
さて、この図4においては、(Position,PitchBend)=(8,0)、(16,300)、・・・、(120,0)の場合が示されている。このように定義された情報が音声合成装置に与えられると、当該合成音声装置は発音時間内における合成音声のピッチが、図4に直線で示す変化をするように各ピッチベンド値の間を補間(直線補間)する。
【0036】
図1に戻り、“Number of Prosodic Volume”は、これに続く“Prosodic Volume”の個数を示す情報である(0x00−0x7F)。この“Prosodic Volume”は、“Prosodic Volume Position”と“Prosodic Volume”とからなる情報対である。
“Prosodic Volume Position”は、上記“Gate Time”によって規定される発音時間内において音量値の変更等する時間位置を指定するための情報である(0x00−0x7F)。
一方、“Prosodic Volume”は、通常コントロールメッセージに含まれるボリューム情報(前掲図8参照)と同じものであり、対応する“Prosodic Volume Position”によって指定された時間位置における音量値を示す情報である(0x00−0x7F)。
【0037】
なお、“Prosodic Volume Position”は、上記“Prosodic PitchBend Change Position”に対応し、“Prosodic Volume”は、上記“Prosodic PitchBend Change LSB”及び“Prosodic PitchBend Change MSB”に対応する。これら“Prosodic Volume Position”、“Prosodic Volume”の意味するところは、上述した“Prosodic PitchBend Change Position”、“Prosodic PitchBend Change LSB”及び“Prosodic PitchBend Change MSB”と同様に説明することができるため割愛する。
【0038】
ここで、図5は、本実施形態に係る音声合成システム300の構成を示す図である。
外部シーケンサ(データ作成装置)200は、上記フォーマットを有するエクスクルーシブメッセージを作成する機能を有する。外部シーケンサ200は、この機能によって該エクスクルーシブメッセージを作成すると、本メッセージに上記フォーマットを有するエクスクルーシブメッセージであることを示す識別ID等を付加し、これを通信ケーブル等を介して音声合成装置100に転送する。
【0039】
音声合成装置100は、上記システムエクスクルーシブメッセージを受信する通信部(図示略)や、音声合成部110、音声辞書120等を備える。
音声合成部110には、上記システムエクスクルーシブメッセージを判別・解釈し、該メッセージに従った処理を行う解釈処理部111が設けられている。この解釈処理部111は、受信手段を介して上記システムエクスクルーシブメッセージを受け取ると、このメッセージに付加されている識別ID等を参照し、上記フォーマットを有するシステムエクスクルーシブメッセージであるか否かを判断する。解釈処理部111は、受け取ったメッセージが該システムエクスクルーシブメッセージであると判断すると、このメッセージに含まれる“Delay Time”、“Gate Time”、“Note Number”、“Velocity”、“Number of Phonetic Symbol”、“Phonetic Symbol ”等を参照し、発話するタイミング、発音時間長、発音開始時におけるピッチ及び音量、音素等を特定する。
【0040】
さらに、解釈処理部111は、該メッセージに含まれる“Number of Prosodic PitchBend Change”及び“Prosodic PitchBend”を参照して各ピッチベンド値の間を補間する一方、“Number of Prosodic Volume”及び“Prosodic Volume”を参照して各ボリューム値の間を補間する。
直線補間を行うことによって得られるピッチの例を図6に示す。図6においては黒丸で各ピッチベンド値を示しており、詳細には時間軸上において先頭4つの黒丸が“ma(ま)”の音声に対応するピッチベンド値を示し、これに続く7つの黒丸が“dZi(じ)”の音声に対応するピッチベンド値を示す。なお、補間の方法は直線補間に限られない。
【0041】
この図6に示すピッチと前掲図10に示す実際の音声のピッチを比較して明らかなように、上記直線補間を行うことで、実際の音声のピッチにかなり近似したピッチを得ることが可能となる。なお、前述したピッチベンドメッセージは、次のメッセージが転送されるまでの間、前のピッチベンド値が維持されるという性質を有する(解決しようとする課題の項参照)。よって、ピッチベンドメッセージを利用してこのようなピッチを得ようとすれば、大量のメッセージが必要になることは言及するまでもなく明らかであろう。なお、音量については、上記ピッチと同様に説明することができるため、説明を割愛する。
【0042】
以上説明したように、本実施形態によれば、上記の如く音声を合成するために必要な発話タイミング、発音時間長、ピッチ、音量、音素の情報をまとめて定義したシステムエクスクルーシブメッセージを新たに定義することにより、人間がしゃべったが如く自然な韻律の変化を合成音声に与えるために、従来必要であった膨大な量の情報(具体的には、細かなピッチ変動を与えるためのピッチベンド情報及び細かな音量変化を与えるためのボリューム情報)を大幅に低減することが可能となる。なお、かかるシステムエクスクルーシブメッセージには、音高を示すノートナンバ情報も含まれるため、合成音声による歌唱も可能である。
【0043】
B.変形例
以上この発明の一実施形態について説明したが、上記実施形態はあくまで例示であり、本発明の趣旨から逸脱しない範囲で様々な変形を加えることができる。変形例としては、例えば以下のようなものが考えられる。
【0044】
(変形例1)
上述した本実施形態では、音声合成システムに適用した場合について説明したが、例えば上述したシステムエクスクルーシブメッセージから音素情報を除いた(或いは無視した)、楽器音の合成システムにも適用可能である。
【0045】
(変形例2)
また、本実施形態では、MIDI規格に準拠した音声合成システムを想定し、システムエクスクルーシブメッセージを利用してピッチや音量の細かな変動を表したが、本発明はこれに限定する趣旨ではない。すなわち、本発明は、ピッチや音量の細かな変動を規定することができるあらゆる楽音合成制御データに適用可能である。
【0046】
(変形例3)
また、本実施形態では、自然な韻律をもった合成音声を得るためにピッチ変動や音量変化を示す情報について上記のように定義したが、本発明はこれに限らず、発音時間内に細かな変化を示すあらゆる情報に適用可能である。
【0047】
(変形例4)
また、本実施形態では、音声合成の信号処理方法や音声辞書の単位などについて特に限定しなかったが、これらについては音声合成装置の設計等に応じて適宜設定すればよい。
【0048】
(変形例5)
また、本実施形態では、外部シーケンサによって生成された上記システムエクスクルーシブメッセージを直接音声合成装置に供給する態様を例示したが、例えば該システムエクスクルーシブメッセージを記録媒体(例えばCD−ROM等)を介して音声合成装置に供給する、あるいは該システムエクスクルーシブメッセージを備えたサーバからインターネット等を介して音声合成装置に供給するようにしても良い。また、外部シーケンサに実装されている上記システムエクスクルーシブメッセージの作成機能をソフトウェアによって実現しても良い。
【0049】
【発明の効果】
以上説明したように、本発明によれば、従来よりも少ない情報量にて、より自然な合成音を生成することが可能となる。
【図面の簡単な説明】
【図1】 本実施形態に係る本システムエクスクルーシブメッセージのフォーマットを例示した図である。
【図2】 同実施形態に係るMIDIデータの時間的な流れを模式的に示した図である。
【図3】 同実施形態に係る“Delay Time”と“Gate Time”との関係を例示した図である。
【図4】 同実施形態に係る“Prosodic PitchBend Change Position”と“Prosodic PitchBend Change LSB”及び“Prosodic PitchBend Change MSB”との関係を例示した図である。
【図5】 同実施形態に係る音声合成システムの構成を示す図である。
【図6】 同実施形態に係る直線補間を行うことによって得られるピッチの例を示した図である。
【図7】 従来の音声合成システムの構成を示した図である。
【図8】 従来における外部シーケンサから音声合成装置に転送されるMIDIデータを例示した図である。
【図9】 従来におけるMIDIデータの時間的な流れを模式的に示した図である。
【図10】 実際の音声波形とそれを分析することによって得られるピッチ及び音量の軌跡を示した図である。
【符号の説明】
300・・・音声合成システム、200・・・外部シーケンサ、100・・・音声合成装置、110・・・音声合成部、111・・・解釈処理部、120・・・音声辞書。

Claims (5)

  1. 楽音合成装置に与える複数の時間位置における複数種類の情報を音素ごとに定義した楽音合成制御データを作成する装置であって、
    楽音合成制御データに含まれる音素の発音時間の長さであるゲートタイムを規定した発音時間長情報を生成し、
    前記発音時間の分割数である第1の分割情報を生成し、前記発音時間長情報によって規定されるゲートタイムを前記第1の分割情報で分割した第1の分割点番号と当該第1の分割点番号が示す位置での音高値とを規定した複数の情報対であって、規定した各位置における音高値の間が前記楽音合成装置によって補間される複数の第1の情報対を生成し、
    前記発音時間の分割数である第2の分割情報を生成し、前記発音時間長情報によって規定されるゲートタイムを前記第2の分割情報で分割した第2の分割点番号と当該第2の分割点番号が示す位置での音量値とを規定した複数の情報対であって、規定した各位置における音量値の間が前記楽音合成装置によって補間される複数の第2の情報対を生成することにより、
    前記発音時間長情報、前記複数の第1の情報対、前記複数の第2の情報対を備える楽音合成制御データを作成する
    ことを特徴とするデータ作成装置。
  2. 発音初期時における音高値を規定した初期音高情報と発音初期時における音量値を規定する初期音量情報とをさらに生成することにより、前記発音時間長情報、前記複数の第1の情報対、前記複数の第2の情報対、前記初期音高情報及び前記初期音量情報を備える楽音合成制御データを作成する
    ことを特徴とする請求項1に記載のデータ作成装置。
  3. 前記発音時間の分割数である第3の分割情報を生成し、前記発音時間長情報によって規定されるゲートタイムを前記第3の分割情報で分割した第3の分割点番号と当該第3の分割点番号が示す位置での音素情報とを規定した複数の情報対であって、規定した各位置における音素情報の間が前記楽音合成装置によって補間される複数の第3の情報対を生成することにより、
    前記発音時間長情報、前記複数の第1の情報対、前記複数の第2の情報対及び前記複数の第3の情報対を備える楽音合成制御データを作成する
    ことを特徴とする請求項1に記載のデータ作成装置。
  4. 楽音合成装置に与える複数の時間位置における複数種類の情報を音素ごとに定義した楽音合成制御データを作成するコンピュータに、
    楽音合成制御データに含まれる音素の発音時間の長さであるゲートタイムを規定した発音時間長情報を生成する第1の生成機能と、
    前記発音時間の分割数である第1の分割情報を生成し、前記発音時間長情報によって規定されるゲートタイムを前記第1の分割情報で分割した第1の分割点番号と当該第1の分割点番号が示す位置での音高値とを規定した複数の情報対であって、規定した各位置における音高値の間が前記楽音合成装置によって補間される複数の第1の情報対を生成する第2の生成機能と、
    前記発音時間の分割数である第2の分割情報を生成し、前記発音時間長情報によって規定されるゲートタイムを前記第2の分割情報で分割した第2の分割点番号と当該第2の分割点番号が示す位置での音量値とを規定した複数の情報対であって、規定した各位置における音量値の間が前記楽音合成装置によって補間される複数の第2の情報対を生成する第3の生成機能と
    を実現させるためのプログラム。
  5. 請求項1に記載のデータ作成装置が作成した楽音合成制御データ又は請求項4に記載のプログラムに従ってコンピュータが作成した楽音合成制御データを受信し、
    受信した前記楽音合成制御データから前記複数の第1の情報対及び前記複数の第2の情報対を取得し、
    取得した第1の情報対に規定されている前記各位置における音高値の間を補間することにより楽音合成に用いる音高を求めると共に、取得した第2の情報対に規定されている前記各位置における音量値の間を補間することにより楽音合成に用いる音量を求める
    ことを特徴とする楽音合成装置。
JP2003087474A 2003-03-27 2003-03-27 データ作成装置、プログラム及び楽音合成装置 Expired - Fee Related JP4305022B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003087474A JP4305022B2 (ja) 2003-03-27 2003-03-27 データ作成装置、プログラム及び楽音合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003087474A JP4305022B2 (ja) 2003-03-27 2003-03-27 データ作成装置、プログラム及び楽音合成装置

Publications (2)

Publication Number Publication Date
JP2004294795A JP2004294795A (ja) 2004-10-21
JP4305022B2 true JP4305022B2 (ja) 2009-07-29

Family

ID=33401852

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003087474A Expired - Fee Related JP4305022B2 (ja) 2003-03-27 2003-03-27 データ作成装置、プログラム及び楽音合成装置

Country Status (1)

Country Link
JP (1) JP4305022B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4548424B2 (ja) * 2007-01-09 2010-09-22 ヤマハ株式会社 楽音処理装置およびプログラム

Also Published As

Publication number Publication date
JP2004294795A (ja) 2004-10-21

Similar Documents

Publication Publication Date Title
US6785652B2 (en) Method and apparatus for improved duration modeling of phonemes
Bonada et al. Synthesis of the singing voice by performance sampling and spectral models
US5915237A (en) Representing speech using MIDI
US5890115A (en) Speech synthesizer utilizing wavetable synthesis
JP5471858B2 (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP2016161919A (ja) 音声合成装置
JP3576840B2 (ja) 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体
JP6044284B2 (ja) 音声合成装置
WO2022054496A1 (ja) 電子楽器、電子楽器の制御方法、及びプログラム
JP4305022B2 (ja) データ作成装置、プログラム及び楽音合成装置
JP5360489B2 (ja) 音素符号変換装置および音声合成装置
JP5175422B2 (ja) 音声合成における時間幅を制御する方法
JP4026446B2 (ja) 歌唱合成方法、歌唱合成装置及び歌唱合成用プログラム
JP3094622B2 (ja) テキスト音声合成装置
JPH08248993A (ja) 音韻時間長制御方法
JP3233036B2 (ja) 歌唱音合成装置
JP5560769B2 (ja) 音素符号変換装置および音声合成装置
JP5106437B2 (ja) カラオケ装置及びその制御方法並びにその制御プログラム
JPH0895588A (ja) 音声合成装置
WO2023171522A1 (ja) 音響生成方法、音響生成システムおよびプログラム
JP2004061753A (ja) 歌唱音声を合成する方法および装置
JP3963141B2 (ja) 歌唱合成装置、歌唱合成用プログラム及び歌唱合成用プログラムを記録したコンピュータで読み取り可能な記録媒体
JP3081300B2 (ja) 残差駆動型音声合成装置
JPH11161297A (ja) 音声合成方法及び装置
Howard Virtual choirs

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050927

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070828

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090407

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090420

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120515

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130515

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140515

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees