JP3985814B2 - 歌唱合成装置 - Google Patents
歌唱合成装置 Download PDFInfo
- Publication number
- JP3985814B2 JP3985814B2 JP2004302795A JP2004302795A JP3985814B2 JP 3985814 B2 JP3985814 B2 JP 3985814B2 JP 2004302795 A JP2004302795 A JP 2004302795A JP 2004302795 A JP2004302795 A JP 2004302795A JP 3985814 B2 JP3985814 B2 JP 3985814B2
- Authority
- JP
- Japan
- Prior art keywords
- component
- data
- phoneme
- anharmonic
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 34
- 238000003786 synthesis reaction Methods 0.000 title claims description 34
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 40
- 238000001228 spectrum Methods 0.000 claims description 149
- 230000003595 spectral effect Effects 0.000 claims description 46
- 238000000034 method Methods 0.000 claims description 34
- 230000008569 process Effects 0.000 claims description 17
- 238000009499 grossing Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 239000012634 fragment Substances 0.000 abstract description 9
- 239000011295 pitch Substances 0.000 description 66
- 238000004458 analytical method Methods 0.000 description 27
- 230000002087 whitening effect Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000006837 decompression Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Description
そのうちの1つは、規則音声合成の応用で、音符の音程に対応する音高データと歌詞データを入力とし、テキスト音声合成用の規則音声合成器を用いて合成するものである。多くの場合、音素(あるいは音韻:phoneme)あるいは2つ以上の音素を含む音素連鎖を単位とする生波形データあるいはそれを分析しパラメータ化したものをデータベースに蓄積し、合成時に必要な音声素片(音素あるいは音素連鎖)を選択し、接続、合成するものである。例えば、特許文献1、特許文献2、特許文献3などを参照されたい。
しかしながら、これらの技術は、本来、話し言葉を合成することを目的としているため、歌声を合成する場合には品質が必ずしも満足することのできるものではなかった。
また、大規模コーパスベースの波形接続型音声合成器を使って歌唱音声を合成しようとすれば、もとの波形を原則として全く加工せずに接続して出力するため、天文学的数字の素片データが必要となる。
このSMS分析合成によれば、楽音の音楽的特徴を良好に制御することができると同時に、歌声の場合には、非調和成分の利用により、子音部分でも高い明瞭度が得られることが期待できる。したがって、この技術を歌声の合成に応用すれば、高い明瞭度と音楽性を併せ持った合成音が得られることが期待される。現に、特許文献6では、SMS分析合成技術に基づき音を合成する手法についての具体的応用の提案が行われているが、同時にSMS技術を歌唱合成(シンギング・シンセサイザ)に利用する場合の方法論についても述べられている。
図17において、音韻データベース100は、入力音声をSMS分析および区間切り出し部103において、SMS分析し、音声素片(音素あるいは音素連鎖)ごとに切り出して、記憶することにより作成される。データベース100中の音声素片データ(音素データ101、音素連鎖データ102)は、時系列に並べられた単一あるいは複数のフレーム列のデータから構成され、各フレームに対応するSMSデータ、すなわち、調和成分のスペクトル包絡、非調和成分のスペクトル包絡と位相スペクトルなどの時間的変化が記憶されている。
歌唱音を合成するときには、所望の歌詞を構成する音素列を求め、音素→素片変換部104により、その音素列を構成するのに必要な音声素片(音素あるいは音素連鎖)を決定し、前記データベース100から必要な音声素片のSMSデータ(調和成分と非調和成分)を読み出す。そして、素片接続部105において読み出した音声素片のSMSデータを時系列的に接続し、調和成分については調和成分生成部106においてその楽曲のメロディーに対応するピッチ情報に応じて、そのスペクトル包絡の形状を保ったまま、所望のピッチを有する倍音成分を生成する。例えば、「サイタ」(saita)と合成する場合には、[#s],[s],[s-a],[a],[a-i],[i],[i-t],[t],[t-a],[a],[a#]という素片を接続し、素片の接続により得られたSMSデータに含まれるスペクトル包絡の形状を保ったまま、所望のピッチの調和成分を生成する。そして、この生成した調和成分と非調和成分とを合成手段107で加算し、時間領域のデータに変換することにより、合成音声を得る。
しかし、上記特許文献6で述べられている方式は、あまりにも原始的かつ単純であり、その方式のまま歌声を合成すると、次のような問題点が生じる。
・有声音の調和成分のスペクトル包絡の形状がピッチによって若干変化するため、分析時とは異なるピッチで合成する場合に、そのままでは良い音色が得られない。
・SMS分析を行う場合、有声音の場合に調和成分を取り去っても残差成分にわずかながら調和成分が残るため、上記のように同じ残差成分(非調和成分)をそのまま用いて元の音とは異なるピッチの歌唱音で合成すると残差成分が浮いて聴こえたり、ノイズに聴こえる原因となる。
・SMSの分析結果としての音素データ、音素連鎖データをそのまま時間的に重ね合わせているため、音を伸ばす時間や音素間の移り変わりの時間の調整ができない。すなわち、所望のテンポで歌わせることができない。
・音素あるいは音素連鎖の接続時に雑音が発生しやすい。
また、前記データベースのサイズを小さくすることができるとともに、データベース作成の効率を向上させた歌唱合成装置を提供することを目的としている。
さらに、合成音声のハスキーさの度合いを調整することのできる歌唱合成装置を提供することを目的としている。
また、前記音声素片データを接続するときに、調和成分、非調和成分それぞれについてスムージング処理あるいはレベル調整処理を行なう素片レベル調整手段を有するものである。
さらに、前記音韻データベース中に記憶される各音声素片データには、ピッチ、ダイナミクス、テンポの情報が見出しとして付加されているものである。
さらにまた、前記継続時間調整手段は、音声素片に含まれるフレーム列中の1または複数のフレームを繰り返すこと、あるいは、フレームを間引くことにより所望の時間長のフレーム列を生成するものであるものである。
さらにまた、歌唱音合成時に、調和成分について、音声素片データに含まれている調和成分のスペクトル包絡の概形を保ったまま所望のピッチに対応する倍音列を発生させる調和成分生成手段を有するものである。
さらにまた、歌唱音合成時に、伸ばし音の非調和成分については、その調和成分の振幅スペクトル包絡に基づいて非調和成分の振幅スペクトル包絡を計算し、それを前記記憶された平坦なスペクトルに乗ずることにより、非調和成分の振幅スペクトルを得るようになされているものである。
さらにまた、前記音韻データベース中の一部の伸ばし音についての音声素片については、その非調和成分の振幅スペクトルを記憶せず、他の伸ばし音の音声素片に記憶されている前記平坦なスペクトルを使用して、その伸ばし音を合成するようになされているものである。
さらにまた、前記調和成分の振幅スペクトルに基づいて非調和成分の振幅スペクトルを計算するときに、ハスキー度を制御するパラメータに応じて前記計算する非調和成分の振幅スペクトルの0Hzにおけるゲインを制御するようになされているものである。
さらにまた、前記調整手段は、前記非調和成分の調整を行う際に、当該非調和成分の低域成分に対して、振幅スペクトルの概形を保ったまま目的のピッチに合うように調整し、高域成分に対しては調整を行わないようになされているものである。
・SMS技術の利用により、了解度は良好で、伸ばしている部分も自然な合成歌唱音が得られる。
・SMS技術の利用により、ビブラートやピッチの微妙な変化を行なった場合でも不自然な合成音にならない。
・有声音部分(調和成分)のスペクトル包絡の形状が最適なものを含む素片を選択あるいは補間により求めるため、ピッチによるスペクトル包絡の形状の変化にも対処することができる。その結果、幅広いピッチにおいて良い音色が得られる。
・有声音の場合の非調和成分について、所望のピッチに合うようにスペクトル形状の微細な形状を変化させるため、非調和成分と調和成分を混合しても雑音に聴こえたり浮いた音に聴こえたりすることがない。
・音素の伸ばし部分の長さや音素連鎖の長さを自由に調整できるので、所望のテンポどおりに合成歌唱音を得ることができる。
・音素・音韻の接続部分について、スムージング、あるいはその音素・音韻のレベル調整を行うため、接続時に雑音が発生しない。
・合成された歌声は、所望のピッチに合う音色になり、求めるタイミングで歌われ、接続単位間の雑音も無く、高い品質の歌声となる。
・伸ばし音の非調和成分を白色化して記憶しているため、データベースのサイズを非常に小さくすることができるととともに、データベース作成の効率を向上させることが可能となる。
・簡単に合成音声のハスキーさの度合いを調整することができる。
また、前記データベース作成のために、入力歌唱音声を非調和成分、調和成分に分解して分析するSMS分析手段を備える。また、必要とする音素または音素連鎖(素片)を切り出すための手段(自動、手動を問わない)を備える。
図1において、10は音韻データベースであり、前述した音韻データベース100と同様に、入力歌唱音声をSMS分析部13でSMS分析し、区間切り出し部14により音素または音素連鎖(音声素片)毎に切り出された各素片毎のSMSデータ(その素片に含まれている各フレームのSMSデータ)が格納されている。ただし、この音韻データベース10においては、素片データが異なるピッチ、異なるダイナミクス、異なるテンポ毎に別個のデータとして記憶されている。
規則合成などの音声合成装置においては、通常、音節よりも長いVCV(母音・子音・母音)あるいはCVC(子音・母音・子音)などを音韻データベースに記録する単位としているが、特に歌唱音の合成を目的としている本発明の歌唱合成装置においては、歌唱においてよく現れる母音などを長く発音する伸ばし音のデータ、子音から母音(CV)あるいは母音から子音(VC)のデータ、子音から子音のデータ、および、母音から母音のデータを音韻データベースに格納している。
すなわち、入力音声を一連の時間フレームに分け、各フレーム毎にFFTなどにより周波数分析する。その結果得られた周波数スペクトル(複素スペクトル)から振幅スペクトルと位相スペクトルを求め、振幅スペクトルのピークに対応する特定の周波数のスペクトルを線スペクトルとして抽出する。このとき、基本周波数およびその整数倍の周波数の近傍の周波数を持つスペクトルを線スペクトルとする。この抽出した線スペクトルが前記調和成分に対応している。
そして、上記のようにして抽出した線スペクトルをそのフレームの入力波形のスペクトルから減算することにより、残差スペクトルを得る。あるいは、前記抽出した線スペクトルから合成した調和成分の時間波形データをそのフレームの入力波形データから減算して残差成分の時間波形データを得、これを周波数分析することにより残差スペクトルを得る。このようにして得た残差スペクトルが、前記非調和成分(ストカスティック成分)に対応する。
また、この区間切り出し部14において、前記SMS分析結果からその入力音声のピッチを検出する。このピッチ検出は、その素片に含まれるフレームの調和成分のうちの低次の線スペクトルの周波数から平均ピッチを求め、これを全フレームについて平均することにより行なわれる。
図1には、このようにして作成された音韻データベース10の一例を示しており、音韻データベース10中に音素に対応する音素データ領域11および音素連鎖に対応する音素連鎖データ領域12が示されている。そして、前記音素データ領域11には、母音[a]の伸ばし音に対してピッチ周波数130Hz,150Hz,200Hz,220Hzの4通りの音素データ、母音[i]の伸ばし音に対してピッチ周波数140Hz,180Hz,300Hzの3通りの音素データが格納されている様子が示されている。また、前記音素連鎖データ領域12には、音素[a]と[i]のつながりを示す音素連鎖[a-i]に対してピッチ周波数130Hzと150Hzの2通り、音素連鎖[a-p]に対して120Hzと220Hzの2通り、音素連鎖[a-s]に対して140Hzと180Hz、音素連鎖[a-z]に対して100Hzの各音素連鎖データが格納されている様子が示されている。なお、ここでは、同一の音素あるいは音素連鎖に対してピッチが異なるデータを格納している場合を示しているが、前述のように、その入力歌唱音声のダイナミクスやテンポなどの音楽表現が異なるデータについても、同様に、異なるデータとして記憶する。
このように、本発明の歌唱合成装置における音韻データベース10には、同一の音素あるいは音韻に対して異なるピッチあるいはダイナミクス、テンポなどの音楽表現に対応する複数のデータが格納されている。
図2において、10は前述した音韻データベースである。また、21は音素→素片変換手段であり、歌唱音を合成すべき楽曲の歌詞データに対応する音素列を、前記音韻データベース10を検索するための素片に変換するものである。例えば、「s_a_i_t_a」という音素列の入力に対し、素片列[s] [s-a] [a] [a-i] [i] [i-t] [t] [t-a] [a]を出力する。
22は、前記楽曲のメロディデータなどに含まれているピッチやダイナミクスやテンポなどのコントロールパラメータに基づいて、前記音韻データベース10から読み出された素片データのうちの調和成分のデータの調整を行う調和成分調整手段、23は前記非調和成分のデータに対して調整を行う非調和成分調整手段である。
24は、前記調和成分調整手段22および前記非調和成分調整手段23からの素片データの継続時間を変更する継続時間調整手段、25は前記継続時間調整手段24からの各素片データのレベルの調整を行う素片レベル調整手段、26は前記素片レベル調整手段25によりレベル調整された各素片データを時系列に接続する素片接続手段、27は前記素片接続手段26により接続された素片データのうちの調和成分のデータ(スペクトル包絡情報)に基づいて所望のピッチの調和成分(倍音成分)を生成する調和成分生成手段、28は前記調和成分生成手段27で生成された倍音成分と前記素片接続手段26から出力される非調和成分とを合成する加算手段である。この加算手段28の出力を時間領域の信号に変換することにより、合成音声が得られる。
前記音素→素片変換手段21は、入力歌詞をもとに変換した音素列から素片列を生成し、それにより、音韻データベース10中の音声素片(音素や音素連鎖)の選択を行なう。前述のように、同じ音素や音素連鎖であっても、ピッチ、ダイナミクス、テンポなどに対応してデータベース中に複数のもの(音声素片データ)が格納されており、素片選択時に各種コントロールパラメータに応じて最適なものを選択する。
また、選択するのではなくいくつかの候補を選択し、それらの補間により合成に用いるSMSデータを求めるようにしても良い。選択された音声素片にはSMS分析の結果としての調和成分と非調和成分が格納されている。この内容は、SMSデータ、すなわち、調和成分のスペクトル包絡(強度と位相)と非調和成分のスペクトル包絡(強度と位相)または波形そのものが入っている。これらの内容を元に、所望のピッチ、要求される継続時間に合うように調和成分、非調和成分を生成する。例えば、所望のピッチに合うように調和・非調和成分のスペクトル包絡を補間などにより求めたり、スペクトル形状を変形させる。
前記調和成分調整手段22では、調和成分の調整処理を行う。
有声音の場合、調和成分については、SMS分析結果である調和成分の強度および位相のスペクトル包絡が入っている。素片が複数の場合は、その中から所望のコントロールパラメータ(ピッチなど)に最適なものを選択するか、あるいは複数の素片の中から補間などの操作により所望のコントロールパラメータに適したスペクトル包絡を求める。また、得られたスペクトル包絡をさらに別のコントロールパラメータに対応して何らかの方法で変形させても良い。
また、耳障りとなる音を軽減させたり、音に特徴を持たせたりするため、一定の帯域のみ通過させるようなフィルターをかけても良い。
なお、無声音の場合は調和成分はない。
有声音のSMS分析結果の非調和成分には、元のピッチの影響が残っているので、別のピッチの音を合成する場合には、音が不自然になってしまう場合がある。これを防ぐために、非調和成分の低域成分に対し、所望のピッチに合うような操作を行なう必要がある。前記非調和成分調整手段23では、この操作を行う。
図3を参照して、この非調和成分に対する調整操作について説明する。
図3の(a)は、有声音をSMS分析したときに得られる非調和成分の振幅スペクトルの例である。この図に示すように、調和成分の影響を完全に取り去ることは難しく、倍音付近に若干の山ができている。この非調和成分をそのまま用いて、もとのピッチとは別のピッチで音声を合成すると、低域の倍音付近の山々が知覚され、調和成分とうまく溶け合わずに耳障りな音に聴こえる場合がある。そこで、非調和成分の周波数をピッチの変化に合わせて変えてやればよいが、高域の非調和成分はもともと調和成分の影響が少ないので、もともとの振幅スペクトルをそのまま用いることが望ましい。つまり、低域においては求めるピッチにしたがって周波数軸の圧縮・伸長を行なえばよい。ただし、このときに元の音色は変化させてはならない。つまり、振幅スペクトルの概形を保ったままこの処理を行なう必要がある。
なお、無声音の場合は、元のピッチの影響はないので、上記の操作は必要ない。
また、得られた非調和成分に対し、コントロールパラメータに対応してさらに何らかの操作(例えば、スペクトル包絡形状の変形など)を行なってもよい。また、耳障りとなる音を軽減させたり、音に特徴を持たせたりするため、一定の帯域のみ通過させるようなフィルターをかけてもよい。
さて、このままでは素片の持つもともとの長さをそのまま使うことになるため、一定のタイミングでしか歌声を合成することができない。そこで、求めるタイミングに応じて必要ならば素片の継続長を変更する必要がある。例えば、音素連鎖の場合には、素片内に含まれるフレームを間引くことで素片の長さは短くなり、重複させることで長くすることができる。また、例えば、音素が1つの場合(伸ばし音の場合)には、素片内のフレーム一部だけを用いれば伸ばし部分は短くなり、素片内を繰り返すことで長くすることができる。
もとの波形をf(t)(便宜上、無限に続く波形と考える)、時間的に逆方向になる波形をg(t)とし、それぞれのフーリエ変換をF(ω)、G(ω)とすると、g(t)=f(-t)であり、かつ、f(t)、g(t)ともに実関数なので、
G(ω)=F(ω)*(*は複素共役を示す)
が成立する。振幅と位相で表わした場合に、複素共役は位相を逆にしたものになるので、時間的に逆の波形を生成するためには、周波数領域のフレームデータの位相スペクトルをすべて逆にすれば良いことがわかる。このようにすれば、図4の(c)に示すように、フレーム内部も時間的に逆の波形となり、雑音や歪みが生じない。
さらに、素片と素片の接続部分で調和・非調和の各成分のスペクトル包絡の形状に差がありすぎる場合は、雑音として聴こえる怖れがある。複数のフレームをかけて接続部分をスムージングすることによりこれを解消することができる。
このスムージング処理について図5〜図7を参照して説明する。
非調和成分については、素片の接続部に音色やレベルのばらつきがあっても、比較的聴こえにくいため、ここでは、調和成分のみスムージングするものとする。このとき、データを扱いやすくして計算を簡単にするために、調和成分のスペクトル包絡を図5に示すように、直線あるいは指数関数で表現した傾き成分と指数関数などで表現した共鳴成分とに分けて考えることとする。ここで、共鳴成分の強度は傾き成分を基準に計算するものとし、傾き成分と共鳴成分を足し合わせてスペクトル包絡を表わすものとする。すなわち、調和成分を前記傾き成分と共鳴成分とを用いたスペクトル包絡を表わす関数で表現している。ここで、前記傾き成分を0Hzまで延長した値を傾き成分のゲインと称することとする。
各パラメータをクロスフェードするためには、図7に示すように、接続部分で0.5となるような関数(クロスフェードパラメータ)を両素片の各パラメータに掛けて足し合わせてやればよい。図7に示す例では、第1の共鳴成分の(傾き成分を基準とした)強度の[a-i],[i-a]の各素片における動きと、これをクロスフェードする例を示している。
このように、各パラメータ(この場合は、各共鳴成分)にクロスフェードパラメータを乗算して足し合わせることにより素片の接続部におけるノイズの発生を防止することができる。
上記と同様に、[a-i]と[i-a]を接続して合成する場合を例にとって、レベル調整の一例につき説明する。
ここでは、前記各素片の傾き成分のゲインを合わせることを考える。
図8の(a)、(b)に示すように、まず、[a-i]と[i-a]の各素片について、その最初のフレームと最終フレームの間の傾き成分のゲインを直線補間したもの(図中の破線)を基準に、実際の傾き成分のゲインとの差分を求める。
次に、[a],[i]の各音韻の代表的なサンプル(傾き成分および共鳴成分の各パラメータ)を求める。これは、例えば、[a-i]の最初のフレームと最終フレームのデータを用いても良い。
この代表サンプルをもとに、まず、パラメータを直線補間したものを求め、次いで、上で求めた差分を足し込んでいけば、図8の(c)に示すように、境界ではかならず全てのパラメータが同じになるため、傾き成分のゲインの不連続は発生しない。共鳴成分のパラメータなど他のパラメータについても、同様に不連続を防止することができる。
なお、以上に述べた方法によらず、例えば、調和成分のデータを波形データに変換し、時間領域でレベル調整などを行うようにしてもよい。
そして、調和成分生成手段27において、得られた調和成分スペクトル包絡を保ったまま所望のピッチに対応する倍音列を発生することにより、実際の調和成分が得られ、それに非調和成分を足し合わせることにより、合成歌唱音が得られる。そして、これを時間領域の信号に変換する。例えば、調和・非調和の両成分を周波数成分で持っている場合には、両成分を周波数領域で足し合わせ逆FFTと窓掛けおよびオーバーラップを行なうことにより、合成波形が得られる。
なお、両成分を別々に逆FFTを窓掛けおよびオーバラップを行い、後で足し合わせてもよい。また、調和成分については、各倍音に対応する正弦波を生成し、逆FFTと窓掛けおよびオーバーラップにより求められた非調和成分と足しあわせても良い。
図9において、31は、歌声を合成すべき楽曲の楽譜データから歌詞データとメロディデータを分離する歌詞・メロディー分離手段、32は前記歌詞・メロディー分離手段31からの歌詞データを音声記号(音素)列に変換する歌詞音声記号変換手段であり、この歌詞音声記号変換手段32からの音素列は前記音素(音声記号)素片変換手段21に入力される。また、演奏を制御するテンポなどの各種コントロールパラメータが入力可能とされており、前記歌詞・メロディー分離手段31で楽譜データから分離されたピッチ情報と強弱記号などのダイナミクス情報および前記コントロールパラメータはピッチ決定手段33に入力され、歌唱音のピッチやダイナミクスおよびテンポが決定される。前記音素素片変換手段21からの素片情報および前記ピッチ決定手段からのピッチ、ダイナミクス、テンポなどの情報は、素片選択手段34に供給され、該素片選択手段34は、前記音声素片データベース(音韻データベース)10から最も適切な素片データを検索して出力する。このとき、検索条件に完全に一致する素片データが記憶されていないときには、類似する1または複数の素片データを読み出す。
一方、前記素片選択手段34から出力された素片データのうちの非調和成分のデータは非調和成分調整手段23に入力される。この非調和成分調整手段23には、前記ピッチ決定手段33からのピッチ情報が入力されており、前記図3に関して説明したように、非調和成分の低域成分に対してピッチに応じた周波数軸の圧縮あるいは伸長処理を行なう。すなわち、バンドパスフィルター37により、非調和成分の振幅スペクトルおよび位相スペクトルを低域、中域、高域に3分割し、低域および中域については周波数軸圧縮・伸長部38および39でそれぞれピッチに対応した周波数軸の圧縮あるいは伸長を行なう。この周波数軸の圧縮あるいは伸長処理が行なわれた低域および中域の信号およびこのような操作がなされない高域の信号は、ピーク調整部40に供給され、この非調和成分のスペクトル包絡の形状を維持するように、そのピーク値が調整される。
前記継続時間長調整手段24で継続時間長を調整された素片データは、レベル調整手段25で前記図5〜図8に関して説明したようなレベル調整処理を施され、素片接続手段26で調和成分、非調和成分それぞれ時系列に接続される。
そして、前記素片接続手段26からの非調和成分の振幅スペクトル包絡情報および位相スペクトル包絡情報と、前記調和成分生成手段27からの調和成分の振幅スペクトルを加算器28で合成する。
そして、このように合成された各フレームに対応する周波数領域の信号を逆フーリエ変換手段(逆FFT手段)51で時間領域の波形信号に変換し、さらに、窓掛け手段52でフレーム長に対応した窓関数を乗算し、さらに、オーバーラップ手段53により各フレーム毎の波形信号をオーバーラップさせながら合成する。
そして、このように合成した時間波形信号をD/A変換手段54でアナログ信号に変換し、増幅器55を介してスピーカ56から出力する。
ここで、前記ROM62あるいはRAM63上に前記音韻データベース10がロードされ、歌詞・メロディ入力部66およびコントロールパラメータ入力部67から入力されたデータに従い、前述のように歌唱音の合成を行ない、合成音はスピーカ71から出力される。
この図10に示す構成は、通常の汎用コンピュータと同一の構成とされており、本発明の歌唱合成装置の上記各機能部は、汎用コンピュータのアプリケーションプログラムとしても実現することができる。
調和成分の場合は、基本ピッチの整数倍の周波数ごとにデータを持てばよいので、例えば基本ピッチが150Hz、最大周波数が22025zとして、150の周波数についての振幅データ(あるいは位相も)を持つ必要がある。これに対し、非調和成分の場合にはさらに多くのデータが必要で、振幅スペクトル包絡と位相スペクトル包絡を全ての周波数について持つ必要がある。1フレーム内のサンプリング点数を1024点とした場合、1024の周波数について振幅および位相のデータが必要となる。特に、伸ばし音については、伸ばし音区間中の全てのフレームについてデータを持つ必要があるため、データの大きさは非常に大きなものとなってしまう。また、伸ばし音の区間のデータは各音素ごとに用意する必要があるのに加え、上述のように、自然性を上げるためにはさまざまなピッチごとにデータを用意するのが望ましいが、このことによってデータベース中のデータの量はさらに大きくなってしまう。
また、伸ばし音では、対象区間内の各フレームでの各周波数成分の微妙なゆらぎが重要であり、このゆらぎの度合いは母音が変わってもさほど変らないと考えられる。そこで、非調和成分の振幅スペクトル包絡をあらかじめ何らかの形で平坦なものにして、もとの母音の音色の影響を取り去っておく(白色化する)。白色化により、見た目に平坦なスペクトルとされる。そして、合成時には調和成分のスペクトル包絡の形状をもとに非調和成分のスペクトル包絡を求め、前記白色化したスペクトル包絡にかけてやれば非調和成分の振幅スペクトル包絡を求めることができる。すなわち、スペクトル包絡のみ調和成分のスペクトル包絡をもとに生成し、位相についてはもともとの伸ばし音の非調和成分に含まれるものをそのまま利用する。このようにすることで、白色化された伸ばし音データをもとに、異なる母音の伸ばし音データの非調和成分を生成することが可能となる。
前述のように、このスペクトル白色化手段80により伸ばし音の非調和成分の振幅スペクトルは白色化され、見た目に平坦なものとされるのであるが、このときに、区間内の全てのフレームにわたってスペクトルを完全に平坦(全ての周波数で同一の値を持つ)にするのではなく、各周波数の時間的な微妙なゆらぎを残したまま各フレームの形状を平坦に近くする、という動作が必要になる。そこで、図13に示すように、代表振幅スペクトル包絡作成部81において、区間内の代表的な振幅スペクトル包絡を求め、スペクトル包絡の逆数生成部82で、そのスペクトル包絡の各周波数成分の逆数を求め、これをフィルタ83において、各フレームのスペクトル包絡のそれぞれの周波数成分に掛け算するという操作を行なっている。
ここで、前記区間内の代表的な振幅スペクトル包絡を求めるには、例えば、各周波数ごとに平均値をとって、その平均値を使って代表的スペクトル包絡としてもよい。また、区間内の各周波数成分の最大値を使って代表的スペクトル包絡としても良い。
これにより、前記フィルタ83から白色化された振幅スペクトルが得られる。また、位相スペクトルはそのままその素片の非調和成分領域に記憶される。
前述のように、前記音韻データベース10から伸ばし音の白色化された非調和成分が読み出されたときは、スペクトル包絡生成手段90において、調和成分のスペクトル包絡をもとに、非調和成分の振幅スペクトル包絡を計算する。例えば、最大周波数の成分は変わらないものとして、スペクトルの包絡の傾きだけを変えるように非調和成分のスペクトル包絡を定める方法が考えられる。
そして、この振幅スペクトル包絡を同時に読み出された非調和成分の位相スペクトル包絡とともに、前記非調和成分調整手段23に入力する。以下の処理は、前記図2に示した場合と同様である。
この場合には、合成時に、伸ばし音の素片データに非調和成分の振幅スペクトルがないので、合成する音素に最も近い音素をデータベース中から選択し、その伸ばし音の非調和成分を用いて、上述のようにしてその非調和成分の振幅スペクトルを作成すればよい。
また、伸ばし音が可能な音素を1つ以上のグループに分け、合成する音韻が属するグループの伸ばし音データの内の1つを使用して、上述のように、非調和成分の振幅スペクトルを生成するようにしてもよい。
このようにこの実施の形態によれば、データベース中に全ての母音についての伸ばし音の非調和成分を記憶しておく必要がなくなり、データ量を削減することが可能となる。
すなわち、合成音声において非調和成分が多ければハスキーな声になり、少なければ潤いのある声になるので、傾きが急(0Hzにおけるゲインが大きい)ならばハスキーな声になり、傾きがなだらか(0Hzにおけるゲインが小さい)ならば潤いのある声になる。そこで、図15に示すように、非調和成分のスペクトル包絡の傾きをハスキー度を表すパラメータで制御することにより、合成音声のハスキー度を制御することができる。
また、ハスキー度は時間的に固定としても良いし、可変としても良い。可変にした場合、音韻を伸ばしている途中でだんだん声がハスキーになってくるというような面白い効果を得ることもできる。
Claims (10)
- 歌詞に対応した音声素片データを接続することにより、歌唱音を合成する歌唱合成装置であって、
音素あるいは2つ以上の音素のつながりである音素連鎖である音声素片の調和成分のデータと非調和成分のデータからなる音声素片データを、同一の音声素片であってピッチが異なる複数の音声素片について記憶した音韻データベースと、
目的のテンポや歌い方に合うように前記音韻データベースから読み出した音声素片データの時間長を調整する継続時間調整手段と、
目的のピッチに合うように前記音韻データベースから読み出した音声素片データの前記調和成分及び前記非調和成分を調整する調整手段とを有し、
前記音韻データベースには、前記音声素片データの前記調和成分のデータと前記非調和成分のデータが、その素片の区間に含まれるフレーム列の各フレームに対応する周波数領域のデータ列として記憶されており、
前記音韻データベース中に記憶される音声素片データのうち伸ばし音に対応する音声素片については、非調和成分の振幅スペクトルとして、その非調和成分の振幅スペクトルにその伸ばし音の区間を代表するスペクトル包絡の各周波数成分の逆数を、該伸ばし音の区間の各フレームの非調和成分の振幅スペクトルの各周波数成分に乗算することにより得られた平坦なスペクトルが記憶されている
ことを特徴とする歌唱合成装置。 - 前記音声素片データを接続するときに、調和成分、非調和成分それぞれについてスムージング処理あるいはレベル調整処理を行なう素片レベル調整手段を有することを特徴とする請求項1記載の歌唱合成装置。
- 前記音韻データベース中に記憶される各音声素片データには、ピッチ、ダイナミクス、テンポの情報が見出しとして付加されていることを特徴とする請求項1又は2に記載の歌唱合成装置。
- 前記継続時間調整手段は、音声素片に含まれるフレーム列中の1または複数のフレームを繰り返すこと、あるいは、フレームを間引くことにより所望の時間長のフレーム列を生成するものであることを特徴とする請求項1記載の歌唱合成装置。
- 前記継続時間調整手段は、非調和成分のフレームを繰り返すときに、合成時に時間的に逆行する場合には、その非調和成分の位相スペクトルの位相を反転させることを特徴とする請求項4記載の歌唱合成装置。
- 歌唱音合成時に、調和成分について、音声素片データに含まれている調和成分のスペクトル包絡の概形を保ったまま所望のピッチに対応する倍音列を発生させる調和成分生成手段を有することを特徴とする請求項1記載の歌唱合成装置。
- 歌唱音合成時に、伸ばし音の非調和成分については、その調和成分の振幅スペクトル包絡に基づいて非調和成分の振幅スペクトル包絡を計算し、それを前記記憶された平坦なスペクトルに乗ずることにより、非調和成分の振幅スペクトルを得ることを特徴とする請求項1記載の歌唱合成装置。
- 前記音韻データベース中の一部の伸ばし音についての音声素片については、その非調和成分の振幅スペクトルを記憶せず、他の伸ばし音の音声素片に記憶されている前記平坦なスペクトルを使用して、その伸ばし音を合成することを特徴とする請求項1又は7に記載の歌唱合成装置。
- 前記調和成分の振幅スペクトルに基づいて非調和成分の振幅スペクトルを計算するときに、ハスキー度を制御するパラメータに応じて前記計算する非調和成分の振幅スペクトルの0Hzにおけるゲインを制御することを特徴とする請求項7記載の歌唱合成装置。
- 前記調整手段は、前記非調和成分の調整を行う際に、当該非調和成分の低域成分に対して、振幅スペクトルの概形を保ったまま目的のピッチに合うように調整し、高域成分に対しては調整を行わないことを特徴とする請求項1から9のいずれかに記載の歌唱合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004302795A JP3985814B2 (ja) | 2000-12-28 | 2004-10-18 | 歌唱合成装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000401041A JP4067762B2 (ja) | 2000-12-28 | 2000-12-28 | 歌唱合成装置 |
JP2004302795A JP3985814B2 (ja) | 2000-12-28 | 2004-10-18 | 歌唱合成装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000401041A Division JP4067762B2 (ja) | 2000-12-28 | 2000-12-28 | 歌唱合成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005018097A JP2005018097A (ja) | 2005-01-20 |
JP3985814B2 true JP3985814B2 (ja) | 2007-10-03 |
Family
ID=18865531
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000401041A Expired - Fee Related JP4067762B2 (ja) | 2000-12-28 | 2000-12-28 | 歌唱合成装置 |
JP2004302795A Expired - Fee Related JP3985814B2 (ja) | 2000-12-28 | 2004-10-18 | 歌唱合成装置 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000401041A Expired - Fee Related JP4067762B2 (ja) | 2000-12-28 | 2000-12-28 | 歌唱合成装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US7016841B2 (ja) |
EP (1) | EP1220195B1 (ja) |
JP (2) | JP4067762B2 (ja) |
DE (1) | DE60126575T2 (ja) |
Families Citing this family (73)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE0004163D0 (sv) | 2000-11-14 | 2000-11-14 | Coding Technologies Sweden Ab | Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering |
JP3879402B2 (ja) * | 2000-12-28 | 2007-02-14 | ヤマハ株式会社 | 歌唱合成方法と装置及び記録媒体 |
US6934675B2 (en) * | 2001-06-14 | 2005-08-23 | Stephen C. Glinski | Methods and systems for enabling speech-based internet searches |
KR20030006308A (ko) * | 2001-07-12 | 2003-01-23 | 엘지전자 주식회사 | 이동통신 단말기의 음성 변조 장치 및 방법 |
JP4153220B2 (ja) * | 2002-02-28 | 2008-09-24 | ヤマハ株式会社 | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム |
US20030182106A1 (en) * | 2002-03-13 | 2003-09-25 | Spectral Design | Method and device for changing the temporal length and/or the tone pitch of a discrete audio signal |
JP3941611B2 (ja) * | 2002-07-08 | 2007-07-04 | ヤマハ株式会社 | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム |
AU2003255914A1 (en) * | 2002-09-17 | 2004-04-08 | Koninklijke Philips Electronics N.V. | Speech synthesis using concatenation of speech waveforms |
JP3823928B2 (ja) | 2003-02-27 | 2006-09-20 | ヤマハ株式会社 | スコアデータ表示装置およびプログラム |
JP3871657B2 (ja) * | 2003-05-27 | 2007-01-24 | 株式会社東芝 | 話速変換装置、方法、及びそのプログラム |
JP4654621B2 (ja) * | 2004-06-30 | 2011-03-23 | ヤマハ株式会社 | 音声処理装置およびプログラム |
JP4265501B2 (ja) | 2004-07-15 | 2009-05-20 | ヤマハ株式会社 | 音声合成装置およびプログラム |
JP4701684B2 (ja) | 2004-11-19 | 2011-06-15 | ヤマハ株式会社 | 音声処理装置およびプログラム |
US8296143B2 (en) * | 2004-12-27 | 2012-10-23 | P Softhouse Co., Ltd. | Audio signal processing apparatus, audio signal processing method, and program for having the method executed by computer |
JP4207902B2 (ja) * | 2005-02-02 | 2009-01-14 | ヤマハ株式会社 | 音声合成装置およびプログラム |
JP4526979B2 (ja) * | 2005-03-04 | 2010-08-18 | シャープ株式会社 | 音声素片生成装置 |
US7571104B2 (en) * | 2005-05-26 | 2009-08-04 | Qnx Software Systems (Wavemakers), Inc. | Dynamic real-time cross-fading of voice prompts |
US8249873B2 (en) * | 2005-08-12 | 2012-08-21 | Avaya Inc. | Tonal correction of speech |
US20070050188A1 (en) * | 2005-08-26 | 2007-03-01 | Avaya Technology Corp. | Tone contour transformation of speech |
KR100658869B1 (ko) * | 2005-12-21 | 2006-12-15 | 엘지전자 주식회사 | 음악생성장치 및 그 운용방법 |
US7737354B2 (en) * | 2006-06-15 | 2010-06-15 | Microsoft Corporation | Creating music via concatenative synthesis |
JP4827661B2 (ja) * | 2006-08-30 | 2011-11-30 | 富士通株式会社 | 信号処理方法及び装置 |
JP4548424B2 (ja) | 2007-01-09 | 2010-09-22 | ヤマハ株式会社 | 楽音処理装置およびプログラム |
JP5018105B2 (ja) | 2007-01-25 | 2012-09-05 | 株式会社日立製作所 | 生体光計測装置 |
US9251782B2 (en) | 2007-03-21 | 2016-02-02 | Vivotext Ltd. | System and method for concatenate speech samples within an optimal crossing point |
BRPI0808289A2 (pt) * | 2007-03-21 | 2015-06-16 | Vivotext Ltd | "biblioteca de amostras de fala para transformar texto em falta e métodos e instrumentos para gerar e utilizar o mesmo" |
US7962530B1 (en) * | 2007-04-27 | 2011-06-14 | Michael Joseph Kolta | Method for locating information in a musical database using a fragment of a melody |
JP5029167B2 (ja) * | 2007-06-25 | 2012-09-19 | 富士通株式会社 | 音声読み上げのための装置、プログラム及び方法 |
WO2009059300A2 (en) * | 2007-11-02 | 2009-05-07 | Melodis Corporation | Pitch selection, voicing detection and vibrato detection modules in a system for automatic transcription of sung or hummed melodies |
KR101504522B1 (ko) * | 2008-01-07 | 2015-03-23 | 삼성전자 주식회사 | 음악 저장/검색 장치 및 방법 |
JP5159325B2 (ja) | 2008-01-09 | 2013-03-06 | 株式会社東芝 | 音声処理装置及びそのプログラム |
US7977562B2 (en) * | 2008-06-20 | 2011-07-12 | Microsoft Corporation | Synthesized singing voice waveform generator |
US7977560B2 (en) * | 2008-12-29 | 2011-07-12 | International Business Machines Corporation | Automated generation of a song for process learning |
JP2010249940A (ja) * | 2009-04-13 | 2010-11-04 | Sony Corp | ノイズ低減装置、ノイズ低減方法 |
JP5471858B2 (ja) * | 2009-07-02 | 2014-04-16 | ヤマハ株式会社 | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 |
JP5293460B2 (ja) | 2009-07-02 | 2013-09-18 | ヤマハ株式会社 | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 |
US20110046957A1 (en) * | 2009-08-24 | 2011-02-24 | NovaSpeech, LLC | System and method for speech synthesis using frequency splicing |
JP5482042B2 (ja) * | 2009-09-10 | 2014-04-23 | 富士通株式会社 | 合成音声テキスト入力装置及びプログラム |
US8457965B2 (en) * | 2009-10-06 | 2013-06-04 | Rothenberg Enterprises | Method for the correction of measured values of vowel nasalance |
GB2480108B (en) * | 2010-05-07 | 2012-08-29 | Toshiba Res Europ Ltd | A speech processing method an apparatus |
FR2961938B1 (fr) * | 2010-06-25 | 2013-03-01 | Inst Nat Rech Inf Automat | Synthetiseur numerique audio ameliore |
JP6024191B2 (ja) * | 2011-05-30 | 2016-11-09 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
JP6047922B2 (ja) * | 2011-06-01 | 2016-12-21 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
JP6011039B2 (ja) * | 2011-06-07 | 2016-10-19 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
US9640172B2 (en) * | 2012-03-02 | 2017-05-02 | Yamaha Corporation | Sound synthesizing apparatus and method, sound processing apparatus, by arranging plural waveforms on two successive processing periods |
US9159310B2 (en) | 2012-10-19 | 2015-10-13 | The Tc Group A/S | Musical modification effects |
JP5821824B2 (ja) * | 2012-11-14 | 2015-11-24 | ヤマハ株式会社 | 音声合成装置 |
JP5817854B2 (ja) * | 2013-02-22 | 2015-11-18 | ヤマハ株式会社 | 音声合成装置およびプログラム |
US9104298B1 (en) | 2013-05-10 | 2015-08-11 | Trade Only Limited | Systems, methods, and devices for integrated product and electronic image fulfillment |
KR101541606B1 (ko) * | 2013-11-21 | 2015-08-04 | 연세대학교 산학협력단 | 초음파 신호의 포락선 검출 방법 및 그 장치 |
US9302393B1 (en) * | 2014-04-15 | 2016-04-05 | Alan Rosen | Intelligent auditory humanoid robot and computerized verbalization system programmed to perform auditory and verbal artificial intelligence processes |
US9123315B1 (en) * | 2014-06-30 | 2015-09-01 | William R Bachand | Systems and methods for transcoding music notation |
CN107076631A (zh) * | 2014-08-22 | 2017-08-18 | 爵亚公司 | 用于将文本消息自动地转换成音乐作品的系统和方法 |
JP6821970B2 (ja) * | 2016-06-30 | 2021-01-27 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
US10157408B2 (en) | 2016-07-29 | 2018-12-18 | Customer Focus Software Limited | Method, systems, and devices for integrated product and electronic image fulfillment from database |
TWI582755B (zh) * | 2016-09-19 | 2017-05-11 | 晨星半導體股份有限公司 | 文字轉語音方法及系統 |
JP6683103B2 (ja) * | 2016-11-07 | 2020-04-15 | ヤマハ株式会社 | 音声合成方法 |
EP3537432A4 (en) * | 2016-11-07 | 2020-06-03 | Yamaha Corporation | LANGUAGE SYNTHESIS PROCEDURE |
US10248971B2 (en) | 2017-09-07 | 2019-04-02 | Customer Focus Software Limited | Methods, systems, and devices for dynamically generating a personalized advertisement on a website for manufacturing customizable products |
JP6733644B2 (ja) * | 2017-11-29 | 2020-08-05 | ヤマハ株式会社 | 音声合成方法、音声合成システムおよびプログラム |
JP6977818B2 (ja) * | 2017-11-29 | 2021-12-08 | ヤマハ株式会社 | 音声合成方法、音声合成システムおよびプログラム |
CN108257613B (zh) * | 2017-12-05 | 2021-12-10 | 北京小唱科技有限公司 | 修正音频内容音高偏差的方法及装置 |
CN108206026B (zh) * | 2017-12-05 | 2021-12-03 | 北京小唱科技有限公司 | 确定音频内容音高偏差的方法及装置 |
US10753965B2 (en) | 2018-03-16 | 2020-08-25 | Music Tribe Brands Dk A/S | Spectral-dynamics of an audio signal |
US11183169B1 (en) * | 2018-11-08 | 2021-11-23 | Oben, Inc. | Enhanced virtual singers generation by incorporating singing dynamics to personalized text-to-speech-to-singing |
US11227579B2 (en) * | 2019-08-08 | 2022-01-18 | International Business Machines Corporation | Data augmentation by frame insertion for speech data |
CN111445897B (zh) * | 2020-03-23 | 2023-04-14 | 北京字节跳动网络技术有限公司 | 歌曲生成方法、装置、可读介质及电子设备 |
KR102168529B1 (ko) * | 2020-05-29 | 2020-10-22 | 주식회사 수퍼톤 | 인공신경망을 이용한 가창음성 합성 방법 및 장치 |
CN112086097B (zh) * | 2020-07-29 | 2023-11-10 | 广东美的白色家电技术创新中心有限公司 | 语音终端的指令响应方法、电子设备及计算机存储介质 |
CN112037757B (zh) * | 2020-09-04 | 2024-03-15 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌声合成方法、设备及计算机可读存储介质 |
CN112767914B (zh) * | 2020-12-31 | 2024-04-30 | 科大讯飞股份有限公司 | 歌唱语音合成方法及合成设备、计算机存储介质 |
US11495200B2 (en) * | 2021-01-14 | 2022-11-08 | Agora Lab, Inc. | Real-time speech to singing conversion |
CN113643717A (zh) * | 2021-07-07 | 2021-11-12 | 深圳市联洲国际技术有限公司 | 一种音乐节奏检测方法、装置、设备及存储介质 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5912189B2 (ja) | 1981-04-01 | 1984-03-21 | 沖電気工業株式会社 | 音声合成装置 |
JPS626299A (ja) | 1985-07-02 | 1987-01-13 | 沖電気工業株式会社 | 電子歌唱装置 |
JPH0758438B2 (ja) | 1986-07-18 | 1995-06-21 | 松下電器産業株式会社 | 長音結合方法 |
US5029509A (en) | 1989-05-10 | 1991-07-09 | Board Of Trustees Of The Leland Stanford Junior University | Musical synthesizer combining deterministic and stochastic waveforms |
JP2900454B2 (ja) | 1989-12-15 | 1999-06-02 | 株式会社明電舎 | 音声合成装置の音節データ作成方式 |
US5248845A (en) * | 1992-03-20 | 1993-09-28 | E-Mu Systems, Inc. | Digital sampling instrument |
US5536902A (en) | 1993-04-14 | 1996-07-16 | Yamaha Corporation | Method of and apparatus for analyzing and synthesizing a sound by extracting and controlling a sound parameter |
JP2921428B2 (ja) * | 1995-02-27 | 1999-07-19 | ヤマハ株式会社 | カラオケ装置 |
JP3102335B2 (ja) * | 1996-01-18 | 2000-10-23 | ヤマハ株式会社 | フォルマント変換装置およびカラオケ装置 |
JP4037455B2 (ja) | 1996-03-26 | 2008-01-23 | ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | 画像合成 |
US5998725A (en) * | 1996-07-23 | 1999-12-07 | Yamaha Corporation | Musical sound synthesizer and storage medium therefor |
US5895449A (en) * | 1996-07-24 | 1999-04-20 | Yamaha Corporation | Singing sound-synthesizing apparatus and method |
JPH1091191A (ja) | 1996-09-18 | 1998-04-10 | Toshiba Corp | 音声合成方法 |
JPH10124082A (ja) | 1996-10-18 | 1998-05-15 | Matsushita Electric Ind Co Ltd | 歌声合成装置 |
JP3349905B2 (ja) * | 1996-12-10 | 2002-11-25 | 松下電器産業株式会社 | 音声合成方法および装置 |
US6304846B1 (en) * | 1997-10-22 | 2001-10-16 | Texas Instruments Incorporated | Singing voice synthesis |
JPH11184490A (ja) | 1997-12-25 | 1999-07-09 | Nippon Telegr & Teleph Corp <Ntt> | 規則音声合成による歌声合成方法 |
US6748355B1 (en) * | 1998-01-28 | 2004-06-08 | Sandia Corporation | Method of sound synthesis |
US6462264B1 (en) * | 1999-07-26 | 2002-10-08 | Carl Elam | Method and apparatus for audio broadcast of enhanced musical instrument digital interface (MIDI) data formats for control of a sound generator to create music, lyrics, and speech |
US6836761B1 (en) * | 1999-10-21 | 2004-12-28 | Yamaha Corporation | Voice converter for assimilation by frame synthesis with temporal alignment |
JP3838039B2 (ja) * | 2001-03-09 | 2006-10-25 | ヤマハ株式会社 | 音声合成装置 |
JP3815347B2 (ja) * | 2002-02-27 | 2006-08-30 | ヤマハ株式会社 | 歌唱合成方法と装置及び記録媒体 |
JP4153220B2 (ja) * | 2002-02-28 | 2008-09-24 | ヤマハ株式会社 | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム |
JP3941611B2 (ja) * | 2002-07-08 | 2007-07-04 | ヤマハ株式会社 | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム |
JP3864918B2 (ja) * | 2003-03-20 | 2007-01-10 | ソニー株式会社 | 歌声合成方法及び装置 |
-
2000
- 2000-12-28 JP JP2000401041A patent/JP4067762B2/ja not_active Expired - Fee Related
-
2001
- 2001-12-27 US US10/034,359 patent/US7016841B2/en not_active Expired - Lifetime
- 2001-12-28 DE DE60126575T patent/DE60126575T2/de not_active Expired - Lifetime
- 2001-12-28 EP EP01131008A patent/EP1220195B1/en not_active Expired - Lifetime
-
2004
- 2004-10-18 JP JP2004302795A patent/JP3985814B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
DE60126575T2 (de) | 2007-05-31 |
EP1220195B1 (en) | 2007-02-14 |
EP1220195A2 (en) | 2002-07-03 |
JP2005018097A (ja) | 2005-01-20 |
US20030009336A1 (en) | 2003-01-09 |
JP2002202790A (ja) | 2002-07-19 |
JP4067762B2 (ja) | 2008-03-26 |
DE60126575D1 (de) | 2007-03-29 |
EP1220195A3 (en) | 2003-09-10 |
US7016841B2 (en) | 2006-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3985814B2 (ja) | 歌唱合成装置 | |
JP3815347B2 (ja) | 歌唱合成方法と装置及び記録媒体 | |
JP4207902B2 (ja) | 音声合成装置およびプログラム | |
JP4839891B2 (ja) | 歌唱合成装置および歌唱合成プログラム | |
JP3941611B2 (ja) | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム | |
JP4265501B2 (ja) | 音声合成装置およびプログラム | |
EP1701336B1 (en) | Sound processing apparatus and method, and program therefor | |
JP4153220B2 (ja) | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム | |
JPH086592A (ja) | 音声合成方法及び装置 | |
KR100457414B1 (ko) | 음성합성방법, 음성합성장치 및 기록매체 | |
JP3966074B2 (ja) | ピッチ変換装置、ピッチ変換方法及びプログラム | |
JP4844623B2 (ja) | 合唱合成装置、合唱合成方法およびプログラム | |
JP4304934B2 (ja) | 合唱合成装置、合唱合成方法およびプログラム | |
JP5360489B2 (ja) | 音素符号変換装置および音声合成装置 | |
JP2007226174A (ja) | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム | |
JP4565846B2 (ja) | ピッチ変換装置 | |
JP3233036B2 (ja) | 歌唱音合成装置 | |
JP2000010597A (ja) | 音声変換装置及び音声変換方法 | |
JP3081300B2 (ja) | 残差駆動型音声合成装置 | |
JPH1031496A (ja) | 楽音発生装置 | |
JP3540609B2 (ja) | 音声変換装置及び音声変換方法 | |
JP2011180194A (ja) | 音素符号変換装置、音素符号データベース、および音声合成装置 | |
JP6822075B2 (ja) | 音声合成方法 | |
JP3447220B2 (ja) | 音声変換装置及び音声変換方法 | |
JP2000003187A (ja) | 音声特徴情報記憶方法および音声特徴情報記憶装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041224 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070228 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070501 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070619 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070702 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100720 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100720 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110720 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110720 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120720 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130720 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |