JP2002202790A - 歌唱合成装置 - Google Patents
歌唱合成装置Info
- Publication number
- JP2002202790A JP2002202790A JP2000401041A JP2000401041A JP2002202790A JP 2002202790 A JP2002202790 A JP 2002202790A JP 2000401041 A JP2000401041 A JP 2000401041A JP 2000401041 A JP2000401041 A JP 2000401041A JP 2002202790 A JP2002202790 A JP 2002202790A
- Authority
- JP
- Japan
- Prior art keywords
- harmonic component
- phoneme
- data
- spectrum
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001228 spectrum Methods 0.000 claims abstract description 161
- 238000000034 method Methods 0.000 claims abstract description 39
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 28
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 28
- 230000008569 process Effects 0.000 claims abstract description 20
- 239000011295 pitch Substances 0.000 claims description 68
- 230000002194 synthesizing effect Effects 0.000 claims description 55
- 230000003595 spectral effect Effects 0.000 claims description 46
- 238000009499 grossing Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 25
- 230000008859 change Effects 0.000 description 10
- 230000002087 whitening effect Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 230000006835 compression Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000005562 fading Methods 0.000 description 3
- 238000001308 synthesis method Methods 0.000 description 3
- 230000006837 decompression Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
成法において、音素または2つ以上の音素連鎖について
SMS分析を行いデータベース10を作成し、合成時に
必要な音素または音素連鎖のSMSデータを接続し合成
することで歌声を得る。前記データベース10には、同
じ音素あるいは音素連鎖につき、異なるピッチ、ダイナ
ミクス、テンポごとに別個の素片データを記憶する。調
和成分調整手段22、非調和成分調整手段23で、読み
出した素片データの調和成分および非調和成分を目的の
ピッチに合うように調整し、継続時間調整手段24で目
的のテンポに合うように音素または音素連鎖の長さを調
整し、素片レベル調整手段25でレベル調整した後、各
素片を接続し、所望のピッチに対応した調和成分を生成
して、非調和成分と合成する。
Description
唱合成装置に関する。
は幅広く行われてきた。そのうちの1つは、規則音声合
成の応用で、音符の音程に対応する音高データと歌詞デ
ータを入力とし、テキスト音声合成用の規則音声合成器
を用いて合成するものである。多くの場合、音素(ある
いは音韻:phoneme)あるいは2つ以上の音素を含む音
素連鎖を単位とする生波形データあるいはそれを分析し
パラメータ化したものをデータベースに蓄積し、合成時
に必要な音声素片(音素あるいは音素連鎖)を選択し、
接続、合成するものである。例えば、特開昭62−62
99号公報、特開平10−124082号公報、特開平
11−1184490号公報などを参照されたい。しか
しながら、これらの技術は、本来、話し言葉を合成する
ことを目的としているため、歌声を合成する場合には品
質が必ずしも満足することのできるものではなかった。
OverLap and Add)に代表される波形重畳合成方式で
は、合成歌唱音の了解度は良好であるが、歌唱音の品質
を最も左右する音を伸ばしている部分が不自然になって
しまう場合が多い、歌唱音声に必要不可欠なビブラート
やピッチの微妙な変動を行なった場合に不自然な合成音
になってしまうことが多いという問題点があった。ま
た、大規模コーパスベースの波形接続型音声合成器を使
って歌唱音声を合成しようとすれば、もとの波形を原則
として全く加工せずに接続して出力するため、天文学的
数字の素片データが必要となる。
合成器も考案されている。例えば、フォルマント合成方
式による合成方式が知られている(特開平3−2003
00号公報)。これは、伸ばし音の品質やビブラートや
ピッチ変化の自由度は大きいが、合成音(特に子音部
分)の明瞭度が低く、品質は必ずしも満足できるもので
はない。
細書に示されるように、オリジナルの音を2つの成分、
すなわち調和成分(deterministic component)と非調
和成分(stochastic component)で表わすモデルを使用
して楽音の分析および合成を行なう、スペクトルモデリ
ング合成(SMS:Spectral Modeling Synthesis)と
呼ばれる技術が知られている。このSMS分析合成によ
れば、楽音の音楽的特徴を良好に制御することができる
と同時に、歌声の場合には、非調和成分の利用により、
子音部分でも高い明瞭度が得られることが期待できる。
したがって、この技術を歌声の合成に応用すれば、高い
明瞭度と音楽性を併せ持った合成音が得られることが期
待される。現に、特許第2906970号では、SMS
分析合成技術に基づき音を合成する手法についての具体
的応用の提案が行われているが、同時にSMS技術を歌
唱合成(シンギング・シンセサイザ)に利用する場合の
方法論についても述べられている。
いる手法を適用した歌唱合成装置について、図17を参
照して説明する。図17において、音韻データベース1
00は、入力音声をSMS分析および区間切り出し部1
03において、SMS分析し、音声素片(音素あるいは
音素連鎖)ごとに切り出して、記憶することにより作成
される。データベース100中の音声素片データ(音素
データ101、音素連鎖データ102)は、時系列に並
べられた単一あるいは複数のフレーム列のデータから構
成され、各フレームに対応するSMSデータ、すなわ
ち、調和成分のスペクトル包絡、非調和成分のスペクト
ル包絡と位相スペクトルなどの時間的変化が記憶されて
いる。歌唱音を合成するときには、所望の歌詞を構成す
る音素列を求め、音素→素片変換部104により、その
音素列を構成するのに必要な音声素片(音素あるいは音
素連鎖)を決定し、前記データベース100から必要な
音声素片のSMSデータ(調和成分と非調和成分)を読
み出す。そして、素片接続部105において読み出した
音声素片のSMSデータを時系列的に接続し、調和成分
については調和成分生成部106においてその楽曲のメ
ロディーに対応するピッチ情報に応じて、そのスペクト
ル包絡の形状を保ったまま、所望のピッチを有する倍音
成分を生成する。例えば、「サイタ」(saita)と合成
する場合には、[#s],[s],[s-a],[a],[a-i],[i],[i-t],
[t],[t-a],[a],[a#]という素片を接続し、素片の接続に
より得られたSMSデータに含まれるスペクトル包絡の
形状を保ったまま、所望のピッチの調和成分を生成す
る。そして、この生成した調和成分と非調和成分とを合
成手段107で加算し、時間領域のデータに変換するこ
とにより、合成音声を得る。
を利用することにより、了解度が良好で、かつ、伸ばし
ている部分についても自然な合成歌唱音を得ることが可
能となる。しかし、上記特許第2906970号で述べ
られている方式は、あまりにも原始的かつ単純であり、
その方式のまま歌声を合成すると、次のような問題点が
生じる。 ・有声音の調和成分のスペクトル包絡の形状がピッチに
よって若干変化するため、分析時とは異なるピッチで合
成する場合に、そのままでは良い音色が得られない。 ・SMS分析を行う場合、有声音の場合に調和成分を取
り去っても残差成分にわずかながら調和成分が残るた
め、上記のように同じ残差成分(非調和成分)をそのま
ま用いて元の音とは異なるピッチの歌唱音で合成すると
残差成分が浮いて聴こえたり、ノイズに聴こえる原因と
なる。 ・SMSの分析結果としての音素データ、音素連鎖デー
タをそのまま時間的に重ね合わせているため、音を伸ば
す時間や音素間の移り変わりの時間の調整ができない。
すなわち、所望のテンポで歌わせることができない。 ・音素あるいは音素連鎖の接続時に雑音が発生しやす
い。
0号において提案されているSMS技術を歌唱合成に利
用する場合の手法を具体化し、さらに合成音の品質につ
いて大幅な改良を加え、上述の各問題点を解決した歌唱
合成装置を提供することを目的としている。また、前記
データベースのサイズを小さくすることができるととも
に、データベース作成の効率を向上させた歌唱合成装置
を提供することを目的としている。さらに、合成音声の
ハスキーさの度合いを調整することのできる歌唱合成装
置を提供することを目的としている。
に、本発明の歌唱合成装置は、音素あるいは2つ以上の
音素のつながりである音素連鎖である音声素片について
調和成分のデータと非調和成分のデータを記憶した音韻
データベースを有し、歌詞に対応した音声素片データを
前記音韻データベースから読み出して接続することによ
り、歌唱音を合成する歌唱合成装置であって、目的のテ
ンポや歌い方に合うように前記音韻データベースから読
み出した音声素片データの時間長を調整する継続時間調
整手段と、目的のピッチに合うように前記音韻データベ
ースから読み出した音声素片データの前記調和成分およ
び前記非調和成分を調整する調整手段とを有するもので
ある。また、前記音声素片データを接続するときに、調
和成分、非調和成分それぞれについてスムージング処理
あるいはレベル調整処理を行なう素片レベル調整手段を
有するものである。さらに、前記音韻データベース中に
は、同一の音素または音素連鎖について、ピッチ、ダイ
ナミクス、テンポの異なる複数の音声素片データが記憶
されているものである。さらにまた、前記音韻データベ
ース中には、母音などの伸ばし音からなる音声素片デー
タ、子音から母音あるいは母音から子音への音素連鎖か
らなる音声素片データ、子音から子音への音素連鎖から
なる音声素片データおよび母音から母音への音素連鎖か
らなる音声素片データが記憶されているものである。
非調和成分のデータは、その素片の区間に含まれるフレ
ーム列の各フレームに対応する周波数領域のデータ列と
して記憶されているものである。さらにまた、前記継続
時間調整手段は、音声素片に含まれるフレーム列中の1
または複数のフレームを繰り返すこと、あるいは、フレ
ームを間引くことにより所望の時間長のフレーム列を生
成するものである。さらにまた、前記継続時間調整手段
は、非調和成分のフレームを繰り返すときに、合成時に
時間的に逆行する場合には、その非調和成分の位相スペ
クトルの位相を反転させるものである。さらにまた、歌
唱音合成時に、調和成分について、音声素片データに含
まれている調和成分のスペクトル包絡の概形を保ったま
まピッチだけを所望のピッチに変換する調和成分生成手
段を有するものである。
憶される音声素片データのうち伸ばし音に対応する音声
素片については、非調和成分の振幅スペクトルとして、
その非調和成分の振幅スペクトルにその伸ばし音の区間
を代表するスペクトルの逆数を乗算することにより得ら
れた平坦なスペクトルを記憶しているものである。さら
にまた、歌唱音合成時に、伸ばし音の非調和成分につい
ては、その調和成分の振幅スペクトルに基づいて非調和
成分の振幅スペクトルを計算し、それを前記平坦なスペ
クトルに乗ずることにより、非調和成分の振幅スペクト
ルを得るものである。さらにまた、前記音韻データベー
ス中の一部の伸ばし音についての音声素片については、
その非調和成分の振幅スペクトルを記憶せず、他の伸ば
し音の音声素片に記憶されている前記平坦なスペクトル
を使用して、その伸ばし音を合成するものである。さら
にまた、前記調和成分の振幅スペクトルに基づいて非調
和成分の振幅スペクトルを計算するときに、ハスキー度
を制御するパラメータに応じて前記計算する非調和成分
の振幅スペクトルの0Hzにおけるゲインを制御するもの
である。
非調和成分の振幅スペクトルに、その伸ばし音区間内に
おける代表振幅スペクトルの逆数を乗算して平坦なスペ
クトルを作成し、その伸ばし音の調和成分の振幅スペク
トルに基づいてハスキー度を制御するパラメータに応じ
た振幅スペクトルを計算し、該振幅スペクトルと前記作
成した平坦なスペクトルとを乗ずることにより得られた
振幅スペクトルをその伸ばし音の非調和成分の振幅スペ
クトルとして使用するものである。
声をSMS分析し、調和成分、非調和成分のSMSデー
タを求め、必要な区間を切り出して音素ごと、および音
素連鎖ごとにまとめた音韻データベースを持つ。このデ
ータベース内には、見出しとして音素または音素連鎖の
情報に加え、その音声素片のピッチを示す情報、およ
び、ダイナミクスやテンポなどの音楽表現を示す情報も
含まれる。ここで、ダイナミクス情報は、その音声素片
(音素または音素連鎖)がフォルテの音であるのかメゾ
フォルテの音であるのかといった感覚的な情報であって
もよいし、あるいは、その素片のレベルを示す物理的な
情報であってもよい。また、前記データベース作成のた
めに、入力歌唱音声を非調和成分、調和成分に分解して
分析するSMS分析手段を備える。また、必要とする音
素または音素連鎖(素片)を切り出すための手段(自
動、手動を問わない)を備える。
成の例について説明する。図1において、10は音韻デ
ータベースであり、前述した音韻データベース100と
同様に、入力歌唱音声をSMS分析部13でSMS分析
し、区間切り出し部14により音素または音素連鎖(音
声素片)毎に切り出された各素片毎のSMSデータ(そ
の素片に含まれている各フレームのSMSデータ)が格
納されている。ただし、この音韻データベース10にお
いては、素片データが異なるピッチ、異なるダイナミク
ス、異なるテンポ毎に別個のデータとして記憶されてい
る。
は、音声素片は例えば母音だけのデータ(1フレームあ
るいは複数のフレーム)と、子音から母音へのデータ
(複数フレーム)あるいは母音から子音へのデータ(複
数フレーム)と、子音から子音へのデータ(複数フレー
ム)と、母音から母音へのデータ(複数フレーム)とか
らなる。規則合成などの音声合成装置においては、通
常、音節よりも長いVCV(母音・子音・母音)あるい
はCVC(子音・母音・子音)などを音韻データベース
に記録する単位としているが、特に歌唱音の合成を目的
としている本発明の歌唱合成装置においては、歌唱にお
いてよく現れる母音などを長く発音する伸ばし音のデー
タ、子音から母音(CV)あるいは母音から子音(V
C)のデータ、子音から子音のデータ、および、母音か
ら母音のデータを音韻データベースに格納している。
力歌唱音声をSMS分析し、各フレーム毎のSMS分析
データを出力する。すなわち、入力音声を一連の時間フ
レームに分け、各フレーム毎にFFTなどにより周波数
分析する。その結果得られた周波数スペクトル(複素ス
ペクトル)から振幅スペクトルと位相スペクトルを求
め、振幅スペクトルのピークに対応する特定の周波数の
スペクトルを線スペクトルとして抽出する。このとき、
基本周波数およびその整数倍の周波数の近傍の周波数を
持つスペクトルを線スペクトルとする。この抽出した線
スペクトルが前記調和成分に対応している。そして、上
記のようにして抽出した線スペクトルをそのフレームの
入力波形のスペクトルから減算することにより、残差ス
ペクトルを得る。あるいは、前記抽出した線スペクトル
から合成した調和成分の時間波形データをそのフレーム
の入力波形データから減算して残差成分の時間波形デー
タを得、これを周波数分析することにより残差スペクト
ルを得る。このようにして得た残差スペクトルが、前記
非調和成分(ストカスティック成分)に対応する。
期は、一定の固定長であってもよいし、あるいは、入力
音声のピッチ等に応じてその周期を変更する可変長の周
期であっても良い。フレーム周期を可変長とする場合に
は、固定長の第1のフレーム周期で入力音声を処理して
そのピッチを検出し、その結果に応じたフレーム周期で
入力音声を再処理する、あるいは、そのフレームの前の
フレームの分析結果から得たピッチにより後続するフレ
ームの周期を変更するなどの手法を採用すればよい。
出力されるSMS分析データは、区間切り出し部14に
おいて、音韻データベースに記憶する音声素片の長さに
対応するように切り出される。すなわち、歌唱音の合成
に最も適するように、母音の音素、母音と子音あるいは
子音と母音の音素連鎖、子音と子音の音素連鎖、およ
び、母音と母音の音素連鎖が手動あるいは自動的に切り
出される。ここで、母音の音素として、その母音を伸ば
して歌唱している長区間のデータ(伸ばし音)も切り出
される。また、この区間切り出し部14において、前記
SMS分析結果からその入力音声のピッチを検出する。
このピッチ検出は、その素片に含まれるフレームの調和
成分のうちの低次の線スペクトルの周波数から平均ピッ
チを求め、これを全フレームについて平均することによ
り行なわれる。
分のデータおよび非調和成分のデータを切り出し、さら
に、その入力歌唱音声のピッチ、音楽表現を表わすダイ
ナミクス、テンポなどの情報を見出しとして付加して前
記音韻データベース10に格納する。図1には、このよ
うにして作成された音韻データベース10の一例を示し
ており、音韻データベース10中に音素に対応する音素
データ領域11および音素連鎖に対応する音素連鎖デー
タ領域12が示されている。そして、前記音素データ領
域11には、母音[a]の伸ばし音に対してピッチ周波数
130Hz,150Hz,200Hz,220Hzの4通りの音素データ、母
音[i]の伸ばし音に対してピッチ周波数140Hz,180Hz,
300Hzの3通りの音素データが格納されている様子が示
されている。また、前記音素連鎖データ領域12には、
音素[a]と[i]のつながりを示す音素連鎖[a-i]に対
してピッチ周波数130Hzと150Hzの2通り、音素連鎖[a-
p]に対して120Hzと220Hzの2通り、音素連鎖[a-s]に
対して140Hzと180Hz、音素連鎖[a-z]に対して100Hzの
各音素連鎖データが格納されている様子が示されてい
る。なお、ここでは、同一の音素あるいは音素連鎖に対
してピッチが異なるデータを格納している場合を示して
いるが、前述のように、その入力歌唱音声のダイナミク
スやテンポなどの音楽表現が異なるデータについても、
同様に、異なるデータとして記憶する。
る調和成分と非調和成分を表わすデータは、前記区間切
り出し部14により各素片ごとに切り出された前記SM
S分析部13からのSMSデータ、すなわち、調和成分
については、その素片に含まれる各フレームの全てのス
ペクトル包絡(線スペクトル(倍音系列)の強度(振
幅)および位相のスペクトル)をそのまま記憶する、あ
るいは、スペクトル包絡そのものではなく、スペクトル
包絡を何らかの関数で表現したものとして記憶する、の
いずれの方法で記憶しても良い。あるいは、調和成分を
逆変換した時間波形の形で記憶しても良い。また、非調
和成分についても、その素片に対応する区間の各フレー
ムの強度スペクトル(振幅スペクトル)および位相スペ
クトルとして記憶しても良いし、その区間の時間波形デ
ータそのものの形で記憶しても良い。また、上記各記憶
形式は固定である必要はなく、素片毎に、あるいは、そ
の区間の音声の性質(例えば、鼻音、摩擦音、破裂音な
ど)に応じてその記憶形式を異ならしめるようにしても
よい。なお、以下の説明では、前記調和成分のデータは
スペクトル包絡の形式で記憶し、非調和成分はその振幅
スペクトルおよび位相スペクトルの形式で記憶している
ものとして説明する。このような記憶形式の場合には、
必要とされる記憶容量を少なくすることができる。この
ように、本発明の歌唱合成装置における音韻データベー
ス10には、同一の音素あるいは音韻に対して異なるピ
ッチあるいはダイナミクス、テンポなどの音楽表現に対
応する複数のデータが格納されている。
ース10を用いた歌唱音の合成処理について図2を参照
して説明する。図2において、10は前述した音韻デー
タベースである。また、21は音素→素片変換手段であ
り、歌唱音を合成すべき楽曲の歌詞データに対応する音
素列を、前記音韻データベース10を検索するための素
片に変換するものである。例えば、「s_a_i_t_a」とい
う音素列の入力に対し、素片列[s] [s-a] [a] [a-i]
[i][i-t] [t] [t-a] [a]を出力する。22は、前記楽曲
のメロディデータなどに含まれているピッチやダイナミ
クスやテンポなどのコントロールパラメータに基づい
て、前記音韻データベース10から読み出された素片デ
ータのうちの調和成分のデータの調整を行う調和成分調
整手段、23は前記非調和成分のデータに対して調整を
行う非調和成分調整手段である。24は、前記調和成分
調整手段22および前記非調和成分調整手段23からの
素片データの継続時間を変更する継続時間調整手段、2
5は前記継続時間調整手段24からの各素片データのレ
ベルの調整を行う素片レベル調整手段、26は前記素片
レベル調整手段25によりレベル調整された各素片デー
タを時系列に接続する素片接続手段、27は前記素片接
続手段26により接続された素片データのうちの調和成
分のデータ(スペクトル包絡情報)に基づいて所望のピ
ッチの調和成分(倍音成分)を生成する調和成分生成手
段、28は前記調和成分生成手段27で生成された倍音
成分と前記素片接続手段26から出力される非調和成分
とを合成する加算手段である。この加算手段28の出力
を時間領域の信号に変換することにより、合成音声が得
られる。
て詳細に説明する。前記音素→素片変換手段21は、入
力歌詞をもとに変換した音素列から素片列を生成し、そ
れにより、音韻データベース10中の音声素片(音素や
音素連鎖)の選択を行なう。前述のように、同じ音素や
音素連鎖であっても、ピッチ、ダイナミクス、テンポな
どに対応してデータベース中に複数のもの(音声素片デ
ータ)が格納されており、素片選択時に各種コントロー
ルパラメータに応じて最適なものを選択する。また、選
択するのではなくいくつかの候補を選択し、それらの補
間により合成に用いるSMSデータを求めるようにして
も良い。選択された音声素片にはSMS分析の結果とし
ての調和成分と非調和成分が格納されている。この内容
は、SMSデータ、すなわち、調和成分のスペクトル包
絡(強度と位相)と非調和成分のスペクトル包絡(強度
と位相)または波形そのものが入っている。これらの内
容を元に、所望のピッチ、要求される継続時間に合うよ
うに調和成分、非調和成分を生成する。例えば、所望の
ピッチに合うように調和・非調和成分のスペクトル包絡
を補間などにより求めたり、スペクトル形状を変形させ
る。
22では、調和成分の調整処理を行う。有声音の場合、
調和成分については、SMS分析結果である調和成分の
強度および位相のスペクトル包絡が入っている。素片が
複数の場合は、その中から所望のコントロールパラメー
タ(ピッチなど)に最適なものを選択するか、あるいは
複数の素片の中から補間などの操作により所望のコント
ロールパラメータに適したスペクトル包絡を求める。ま
た、得られたスペクトル包絡をさらに別のコントロール
パラメータに対応して何らかの方法で変形させても良
い。また、耳障りとなる音を軽減させたり、音に特徴を
持たせたりするため、一定の帯域のみ通過させるような
フィルターをかけても良い。なお、無声音の場合は調和
成分はない。
結果の非調和成分には、元のピッチの影響が残っている
ので、別のピッチの音を合成する場合には、音が不自然
になってしまう場合がある。これを防ぐために、非調和
成分の低域成分に対し、所望のピッチに合うような操作
を行なう必要がある。前記非調和成分調整手段23で
は、この操作を行う。図3を参照して、この非調和成分
に対する調整操作について説明する。図3の(a)は、
有声音をSMS分析したときに得られる非調和成分の振
幅スペクトルの例である。この図に示すように、調和成
分の影響を完全に取り去ることは難しく、倍音付近に若
干の山ができている。この非調和成分をそのまま用い
て、もとのピッチとは別のピッチで音声を合成すると、
低域の倍音付近の山々が知覚され、調和成分とうまく溶
け合わずに耳障りな音に聴こえる場合がある。そこで、
非調和成分の周波数をピッチの変化に合わせて変えてや
ればよいが、高域の非調和成分はもともと調和成分の影
響が少ないので、もともとの振幅スペクトルをそのまま
用いることが望ましい。つまり、低域においては求める
ピッチにしたがって周波数軸の圧縮・伸長を行なえばよ
い。ただし、このときに元の音色は変化させてはならな
い。つまり、振幅スペクトルの概形を保ったままこの処
理を行なう必要がある。
果を示す図である。この図に示すように、低域の3つの
山は所望のピッチに従い、右に移動されている。中域の
山の間隔は狭められ、高域の山はそのままとなってい
る。それぞれの山は、破線で示す振幅スペクトルの概形
を保つように高さが調整される。なお、無声音の場合
は、元のピッチの影響はないので、上記の操作は必要な
い。また、得られた非調和成分に対し、コントロールパ
ラメータに対応してさらに何らかの操作(例えば、スペ
クトル包絡形状の変形など)を行なってもよい。また、
耳障りとなる音を軽減させたり、音に特徴を持たせたり
するため、一定の帯域のみ通過させるようなフィルター
をかけてもよい。
の持つもともとの長さをそのまま使うことになるため、
一定のタイミングでしか歌声を合成することができな
い。そこで、求めるタイミングに応じて必要ならば素片
の継続長を変更する必要がある。例えば、音素連鎖の場
合には、素片内に含まれるフレームを間引くことで素片
の長さは短くなり、重複させることで長くすることがで
きる。また、例えば、音素が1つの場合(伸ばし音の場
合)には、素片内のフレーム一部だけを用いれば伸ばし
部分は短くなり、素片内を繰り返すことで長くすること
ができる。
単に一方向だけ繰り返すよりも一方向に進んで逆方向に
戻り、再び元の方向に進む(すなわち、一定区間あるい
はランダムな区間内をループする)ということを繰り返
すほうが、つなぎ目の雑音が軽減できることが知られて
いるが、非調和成分がフレーム(固定あるいは可変長)
ごとに区切られて周波数領域で記憶されている場合に
は、周波数領域のフレームデータをそのままの形で繰り
返して波形を合成するのは問題である。これは、時間的
に逆方向に進むときにはフレーム内の波形自体も時間的
に逆になるようにしなければならないからである。時間
的に逆方向に進む波形を元の周波数領域のフレームデー
タから生成するには、周波数領域の位相を反転させて時
間領域に変換すればよい。図4は、この様子を示す図で
ある。
波形を示す図である。図に示す繰り返し区間t1からt2ま
で進み、t2に達した後は時間的に逆方向に進み、再びt1
に達した後は順方向に進む、ということを繰り返して伸
ばし音のための非調和成分を生成するものとする。非調
和成分は、前述のように、固定あるいは可変長のフレー
ムごとに区切られて周波数成分で記憶されている。時間
領域の波形を生成するには、周波数領域のフレームデー
タを逆FFTし、窓関数を掛けてオーバーラップさせな
がら合成すればよい。ここで、時間的に逆方向にフレー
ムを読み込んで合成する場合、周波数領域のフレームデ
ータをそのまま時間領域に変換すると、図4(b)に示
すように、フレーム内の波形は時間的に元のままフレー
ムの順番だけが逆になった波形になってしまい、不連続
となって雑音や歪みなどの原因となる。
から時間領域の波形を求める際に、時間的に逆の波形が
生成されるようにあらかじめフレームデータを加工すれ
ばよい。もとの波形をf(t)(便宜上、無限に続く波形
と考える)、時間的に逆方向になる波形をg(t)とし、
それぞれのフーリエ変換をF(ω)、G(ω)とすると、g
(t)=f(-t)であり、かつ、f(t)、g(t)ともに実関数
なので、 G(ω)=F(ω)*(*は複素共役を示す) が成立する。振幅と位相で表わした場合に、複素共役は
位相を逆にしたものになるので、時間的に逆の波形を生
成するためには、周波数領域のフレームデータの位相ス
ペクトルをすべて逆にすれば良いことがわかる。このよ
うにすれば、図4の(c)に示すように、フレーム内部
も時間的に逆の波形となり、雑音や歪みが生じない。
うな素片の圧縮処理(フレームの間引き)、伸長処理
(フレームの繰り返し)およびループ処理(伸ばし音の
場合)を行なう。これにより、読み出した各素片の継続
時間(すなわちフレーム列の長さ)を所望の長さに調整
することができる。
接続部分で調和・非調和の各成分のスペクトル包絡の形
状に差がありすぎる場合は、雑音として聴こえる怖れが
ある。複数のフレームをかけて接続部分をスムージング
することによりこれを解消することができる。このスム
ージング処理について図5〜図7を参照して説明する。
非調和成分については、素片の接続部に音色やレベルの
ばらつきがあっても、比較的聴こえにくいため、ここで
は、調和成分のみスムージングするものとする。このと
き、データを扱いやすくして計算を簡単にするために、
調和成分のスペクトル包絡を図5に示すように、直線あ
るいは指数関数で表現した傾き成分と指数関数などで表
現した共鳴成分とに分けて考えることとする。ここで、
共鳴成分の強度は傾き成分を基準に計算するものとし、
傾き成分と共鳴成分を足し合わせてスペクトル包絡を表
わすものとする。すなわち、調和成分を前記傾き成分と
共鳴成分とを用いたスペクトル包絡を表わす関数で表現
している。ここで、前記傾き成分を0Hzまで延長した値
を傾き成分のゲインと称することとする。
[a-i]と[i-a]とを接続するものとする。各素片は、
もともと別の録音から採集したものであるため、接続部
のiの音色とレベルにミスマッチがあるため、図6に示
すように、接続部分で波形の段差が発生し、ノイズとし
て聴こえる。そこで、その接続部を中心とし前後に何フ
レームかかけて、それぞれの素片に含まれる傾き成分と
共鳴成分の各パラメータをクロスフェードしてやれば、
接続部分での段差が消え去り、ノイズの発生を防止する
ことができる。各パラメータをクロスフェードするため
には、図7に示すように、接続部分で0.5となるような
関数(クロスフェードパラメータ)を両素片の各パラメ
ータに掛けて足し合わせてやればよい。図7に示す例で
は、第1の共鳴成分の(傾き成分を基準とした)強度の
[a-i],[i-a]の各素片における動きと、これをクロ
スフェードする例を示している。このように、各パラメ
ータ(この場合は、各共鳴成分)にクロスフェードパラ
メータを乗算して足し合わせることにより素片の接続部
におけるノイズの発生を防止することができる。
わりに、素片の接続部分で前後の振幅がほぼ同じになる
ように、素片の調和・非調和の各成分のレベル調整を行
っても良い。レベル調整は、素片の振幅に対し、一定あ
るいは時変の係数を掛けることにより行なうことができ
る。上記と同様に、[a-i]と[i-a]を接続して合成す
る場合を例にとって、レベル調整の一例につき説明す
る。ここでは、前記各素片の傾き成分のゲインを合わせ
ることを考える。図8の(a)、(b)に示すように、
まず、[a-i]と[i-a]の各素片について、その最初の
フレームと最終フレームの間の傾き成分のゲインを直線
補間したもの(図中の破線)を基準に、実際の傾き成分
のゲインとの差分を求める。次に、[a],[i]の各音韻
の代表的なサンプル(傾き成分および共鳴成分の各パラ
メータ)を求める。これは、例えば、[a-i]の最初の
フレームと最終フレームのデータを用いても良い。この
代表サンプルをもとに、まず、パラメータを直線補間し
たものを求め、次いで、上で求めた差分を足し込んでい
けば、図8の(c)に示すように、境界ではかならず全
てのパラメータが同じになるため、傾き成分のゲインの
不連続は発生しない。共鳴成分のパラメータなど他のパ
ラメータについても、同様に不連続を防止することがで
きる。なお、以上に述べた方法によらず、例えば、調和
成分のデータを波形データに変換し、時間領域でレベル
調整などを行うようにしてもよい。
述した素片間のスムージングあるいはレベル調整処理が
行われた後、素片接続手段26で素片接続処理が行なわ
れる。そして、調和成分生成手段27において、得られ
た調和成分スペクトル包絡を保ったまま所望のピッチに
対応する倍音列を発生することにより、実際の調和成分
が得られ、それに非調和成分を足し合わせることによ
り、合成歌唱音が得られる。そして、これを時間領域の
信号に変換する。例えば、調和・非調和の両成分を周波
数成分で持っている場合には、両成分を周波数領域で足
し合わせ逆FFTと窓掛けおよびオーバーラップを行な
うことにより、合成波形が得られる。なお、両成分を別
々に逆FFTを窓掛けおよびオーバラップを行い、後で
足し合わせてもよい。また、調和成分については、各倍
音に対応する正弦波を生成し、逆FFTと窓掛けおよび
オーバーラップにより求められた非調和成分と足しあわ
せても良い。
成装置の一実施の形態の構成をより詳細に示す機能ブロ
ック図である。この図において、前記図2と同一の構成
要素には同一の符号を付す。また、この例では、音韻
(音声素片)データベース10中には、調和成分はフレ
ーム毎の振幅スペクトル包絡情報、非調和成分はフレー
ム毎の振幅スペクトル包絡情報と位相スペクトル包絡情
報が含まれているものとする。図9において、31は、
歌声を合成すべき楽曲の楽譜データから歌詞データとメ
ロディデータを分離する歌詞・メロディー分離手段、3
2は前記歌詞・メロディー分離手段31からの歌詞デー
タを音声記号(音素)列に変換する歌詞音声記号変換手
段であり、この歌詞音声記号変換手段32からの音素列
は前記音素(音声記号)素片変換手段21に入力され
る。また、演奏を制御するテンポなどの各種コントロー
ルパラメータが入力可能とされており、前記歌詞・メロ
ディー分離手段31で楽譜データから分離されたピッチ
情報と強弱記号などのダイナミクス情報および前記コン
トロールパラメータはピッチ決定手段33に入力され、
歌唱音のピッチやダイナミクスおよびテンポが決定され
る。前記音素素片変換手段21からの素片情報および前
記ピッチ決定手段からのピッチ、ダイナミクス、テンポ
などの情報は、素片選択手段34に供給され、該素片選
択手段34は、前記音声素片データベース(音韻データ
ベース)10から最も適切な素片データを検索して出力
する。このとき、検索条件に完全に一致する素片データ
が記憶されていないときには、類似する1または複数の
素片データを読み出す。
データの内の調和成分のデータは、調和成分調整手段2
2に供給される。前記素片選択手段34により読み出さ
れた素片データが複数の場合には、この調和成分調整手
段22におけるスペクトル包絡補間部35で前記検索条
件に合致するように補間処理を行ない、さらに、必要に
応じて、スペクトル包絡変形部36で前記コントロール
パラメータに対応してスペクトル包絡の形状を変形す
る。一方、前記素片選択手段34から出力された素片デ
ータのうちの非調和成分のデータは非調和成分調整手段
23に入力される。この非調和成分調整手段23には、
前記ピッチ決定手段33からのピッチ情報が入力されて
おり、前記図3に関して説明したように、非調和成分の
低域成分に対してピッチに応じた周波数軸の圧縮あるい
は伸長処理を行なう。すなわち、バンドパスフィルター
37により、非調和成分の振幅スペクトルおよび位相ス
ペクトルを低域、中域、高域に3分割し、低域および中
域については周波数軸圧縮・伸長部38および39でそ
れぞれピッチに対応した周波数軸の圧縮あるいは伸長を
行なう。この周波数軸の圧縮あるいは伸長処理が行なわ
れた低域および中域の信号およびこのような操作がなさ
れない高域の信号は、ピーク調整部40に供給され、こ
の非調和成分のスペクトル包絡の形状を維持するよう
に、そのピーク値が調整される。
データおよび前記非調和成分調整手段23からの非調和
成分データは、継続時間長調整手段24に入力される。
そして、この継続時間長調整手段24において、前記メ
ロディー情報および前記テンポ情報により決定される発
音時間長に応じて素片の時間長の変更が行なわれる。前
述のように、素片データの継続時間を短くする場合に
は、時間軸圧縮・伸長部43でフレームの間引きを行
い、継続時間を長くするときには、ループ部42で、前
記図4に関して説明したループ処理を行なう。前記継続
時間長調整手段24で継続時間長を調整された素片デー
タは、レベル調整手段25で前記図5〜図8に関して説
明したようなレベル調整処理を施され、素片接続手段2
6で調和成分、非調和成分それぞれ時系列に接続され
る。
ータの調和成分(スペクトル包絡情報)は調和成分生成
手段27に入力される。この調和成分生成手段27に
は、前記ピッチ決定手段33からのピッチ情報が供給さ
れており、前記スペクトル包絡情報に従った前記ピッチ
情報に対応する倍音成分を生成する。これにより、その
フレームの実際の調和成分が得られる。そして、前記素
片接続手段26からの非調和成分の振幅スペクトル包絡
情報および位相スペクトル包絡情報と、前記調和成分生
成手段27からの調和成分の振幅スペクトルを加算器2
8で合成する。そして、このように合成された各フレー
ムに対応する周波数領域の信号を逆フーリエ変換手段
(逆FFT手段)51で時間領域の波形信号に変換し、
さらに、窓掛け手段52でフレーム長に対応した窓関数
を乗算し、さらに、オーバーラップ手段53により各フ
レーム毎の波形信号をオーバーラップさせながら合成す
る。そして、このように合成した時間波形信号をD/A
変換手段54でアナログ信号に変換し、増幅器55を介
してスピーカ56から出力する。
例を動作させるためのハードウエア装置の一例を示す図
である。この図において、61はこの歌唱合成装置全体
の動作を制御する中央処理装置(CPU)、62は各種
プログラムや定数などが記憶されているROM、63は
ワークエリアや各種データを記憶するRAM、64はデ
ータメモリ、65は所定のタイマ割込みなどを発生させ
るタイマ、66は前記演奏すべき楽曲の楽譜データや歌
詞データなどを入力する歌詞・メロディー入力部、67
は演奏に関する各コントロールパラメータなどを入力す
るコントロールパラメータ入力部、68は各種情報を表
示する表示部、69は前記合成された歌唱データをアナ
ログ信号に変換するD/A変換器、70は増幅器、71
はスピーカ、72は前記各構成要素間を接続するバスで
ある。ここで、前記ROM62あるいはRAM63上に
前記音韻データベース10がロードされ、歌詞・メロデ
ィ入力部66およびコントロールパラメータ入力部67
から入力されたデータに従い、前述のように歌唱音の合
成を行ない、合成音はスピーカ71から出力される。こ
の図10に示す構成は、通常の汎用コンピュータと同一
の構成とされており、本発明の歌唱合成装置の上記各機
能部は、汎用コンピュータのアプリケーションプログラ
ムとしても実現することができる。
記音韻データベース10に格納されている素片データ
は、SMSデータ、代表的な例では、調和成分の単位時
間(フレーム)毎のスペクトル包絡、および、非調和成
分のフレーム毎の振幅スペクトルおよび位相スペクトル
であった。そして、前述のように、母音などの伸ばし音
の素片データを記憶することにより、高品質の歌唱音を
合成することができるものであった。しかしながら、特
に伸ばし音の場合には、その伸ばし音の区間全ての時刻
(フレーム)における調和成分および非調和成分が記憶
されているため、データ量が大きくなってしまうという
問題がある。調和成分の場合は、基本ピッチの整数倍の
周波数ごとにデータを持てばよいので、例えば基本ピッ
チが150Hz、最大周波数が22025zとして、150の周波
数についての振幅データ(あるいは位相も)を持つ必要
がある。これに対し、非調和成分の場合にはさらに多く
のデータが必要で、振幅スペクトル包絡と位相スペクト
ル包絡を全ての周波数について持つ必要がある。1フレ
ーム内のサンプリング点数を1024点とした場合、1024の
周波数について振幅および位相のデータが必要となる。
特に、伸ばし音については、伸ばし音区間中の全てのフ
レームについてデータを持つ必要があるため、データの
大きさは非常に大きなものとなってしまう。また、伸ば
し音の区間のデータは各音素ごとに用意する必要がある
のに加え、上述のように、自然性を上げるためにはさま
ざまなピッチごとにデータを用意するのが望ましいが、
このことによってデータベース中のデータの量はさらに
大きくなってしまう。
に小さくすることの出来る本発明の他の実施の形態につ
いて説明する。この実施の形態では、前記データベース
10を作成するときに、伸ばし音の非調和成分のデータ
を記憶する際、スペクトル包絡白色化手段を付加する。
そして、合成時の前記非調和成分調整手段内に、非調和
成分のスペクトル包絡生成手段を設けるようにしてい
る。これにより、伸ばし音の非調和成分について、その
スペクトル包絡を個別に記憶する必要をなくし、データ
量の削減を可能としている。
分と非調和成分のスペクトル包絡の一例を示す図であ
る。この図に示すように、母音などの伸ばし音の場合の
非調和成分のスペクトル包絡は、一般に、調和成分のス
ペクトル包絡に形状が似ている、すなわち、山や谷の位
置がおおよそ一致している。したがって、調和成分のス
ペクトル包絡に何らかの操作(ゲイン調整、全体的な傾
きの調整など)を行なえば、非調和成分のスペクトル包
絡として妥当なものを得ることができる。また、伸ばし
音では、対象区間内の各フレームでの各周波数成分の微
妙なゆらぎが重要であり、このゆらぎの度合いは母音が
変わってもさほど変らないと考えられる。そこで、非調
和成分の振幅スペクトル包絡をあらかじめ何らかの形で
平坦なものにして、もとの母音の音色の影響を取り去っ
ておく(白色化する)。白色化により、見た目に平坦な
スペクトルとされる。そして、合成時には調和成分のス
ペクトル包絡の形状をもとに非調和成分のスペクトル包
絡を求め、前記白色化したスペクトル包絡にかけてやれ
ば非調和成分の振幅スペクトル包絡を求めることができ
る。すなわち、スペクトル包絡のみ調和成分のスペクト
ル包絡をもとに生成し、位相についてはもともとの伸ば
し音の非調和成分に含まれるものをそのまま利用する。
このようにすることで、白色化された伸ばし音データを
もとに、異なる母音の伸ばし音データの非調和成分を生
成することが可能となる。
る前記音韻データベース10の作成処理を説明するため
の図であり、前記図1と同一の構成要素には同一の番号
を付し、説明を省略することとする。この図12に示す
ように、この実施の形態においては、伸ばし音につい
て、前記区間切り出し手段14から出力される非調和成
分の振幅スペクトルを白色化するスペクトル白色化手段
80を有している。これにより、伸ばし音の非調和成分
の振幅スペクトルとして白色化された振幅スペクトルの
みが記憶されており、各素片データの非調和成分として
はその位相スペクトルのみが記憶されることとなる。
の一構成例を示す図である。前述のように、このスペク
トル白色化手段80により伸ばし音の非調和成分の振幅
スペクトルは白色化され、見た目に平坦なものとされる
のであるが、このときに、区間内の全てのフレームにわ
たってスペクトルを完全に平坦(全ての周波数で同一の
値を持つ)にするのではなく、各周波数の時間的な微妙
なゆらぎを残したまま各フレームの形状を平坦に近くす
る、という動作が必要になる。そこで、図13に示すよ
うに、代表振幅スペクトル包絡作成部81において、区
間内の代表的な振幅スペクトル包絡を求め、スペクトル
包絡の逆数生成部82で、そのスペクトル包絡の各周波
数成分の逆数を求め、これをフィルタ83において、各
フレームのスペクトル包絡のそれぞれの周波数成分に掛
け算するという操作を行なっている。ここで、前記区間
内の代表的な振幅スペクトル包絡を求めるには、例え
ば、各周波数ごとに平均値をとって、その平均値を使っ
て代表的スペクトル包絡としてもよい。また、区間内の
各周波数成分の最大値を使って代表的スペクトル包絡と
しても良い。これにより、前記フィルタ83から白色化
された振幅スペクトルが得られる。また、位相スペクト
ルはそのままその素片の非調和成分領域に記憶される。
白色化されるが、合成時には調和成分のスペクトル包絡
を用いて非調和成分を求めるので、白色化された非調和
成分は、母音であればすべての母音に共通に使用するこ
とができる。すなわち、母音であれば、1つの伸ばし音
の白色化された非調和成分があれば、充分である。もち
ろん、複数の白色化非調和成分を持っても差し支えな
い。
分について白色化した振幅スペクトルを記憶するように
した場合の合成処理について説明するための図である。
この図において、前記図2と同一の構成要素には同一の
番号を付し、説明を省略する。この図に示すように、こ
の実施の形態においては、前記音韻データベース10か
ら読み出された当該素片の非調和成分(白色スペクト
ル)が入力されるスペクトル包絡生成手段90が、前記
非調和成分調整手段24の前段に付加されている。前述
のように、前記音韻データベース10から伸ばし音の白
色化された非調和成分が読み出されたときは、スペクト
ル包絡生成手段90において、調和成分のスペクトル包
絡をもとに、非調和成分の振幅スペクトル包絡を計算す
る。例えば、最大周波数の成分は変わらないものとし
て、スペクトルの包絡の傾きだけを変えるように非調和
成分のスペクトル包絡を定める方法が考えられる。そし
て、この振幅スペクトル包絡を同時に読み出された非調
和成分の位相スペクトル包絡とともに、前記非調和成分
調整手段24に入力する。以下の処理は、前記図2に示
した場合と同様である。
スペクトルを白色化して記憶する場合には、一部の伸ば
し音についてのみ白色化された非調和成分の振幅スペク
トルを記憶し、他の伸ばし音については非調和成分の振
幅スペクトルを記憶しないようにすることができる。こ
の場合には、合成時に、伸ばし音の素片データに非調和
成分の振幅スペクトルがないので、合成する音素に最も
近い音素をデータベース中から選択し、その伸ばし音の
非調和成分を用いて、上述のようにしてその非調和成分
の振幅スペクトルを作成すればよい。また、伸ばし音が
可能な音素を1つ以上のグループに分け、合成する音韻
が属するグループの伸ばし音データの内の1つを使用し
て、上述のように、非調和成分の振幅スペクトルを生成
するようにしてもよい。
スペクトルと調和成分の振幅スペクトルから求めた非調
和成分の振幅スペクトルを用いる場合に、その非調和成
分の位相スペクトルの周波数軸の全てまたは一部を元デ
ータのピッチに対応する倍音付近のデータが再生する所
望のピッチに対応する倍音付近に位置するように移動さ
せる、すなわち、倍音付近の位相データは合成時にも倍
音付近の位相データとして用いるようにすることによ
り、より自然な合成音とすることが可能となる。このよ
うにこの実施の形態によれば、データベース中に全ての
母音についての伸ばし音の非調和成分を記憶しておく必
要がなくなり、データ量を削減することが可能となる。
を変えることによって非調和成分のスペクトル包絡を定
める場合に、その傾きの変化を「ハスキー度」と関連付
けることにより、合成音声のハスキー度をコントロール
することができるようになる。すなわち、合成音声にお
いて非調和成分が多ければハスキーな声になり、少なけ
れば潤いのある声になるので、傾きが急(0Hzにおける
ゲインが大きい)ならばハスキーな声になり、傾きがな
だらか(0Hzにおけるゲインが小さい)ならば潤いのあ
る声になる。そこで、図15に示すように、非調和成分
のスペクトル包絡の傾きをハスキー度を表すパラメータ
で制御することにより、合成音声のハスキー度を制御す
ることができる。
ができるようにした場合の前記スペクトル包絡生成手段
90の構成例を示す図であり、スペクトル包絡生成部9
1において、調和成分のスペクトル包絡に対して、コン
トロールパラメータとして供給されるハスキー度情報に
従った傾きを乗算し、このようにして得られた特性を前
記非調和成分の白色化された振幅スペクトルにフィルタ
92で付加する。そして、前記非調和成分の位相スペク
トル包絡と前記フィルタ92の出力を非調和成分のデー
タとして、前記非調和成分調整部24に出力する。
の形でモデル化し、その中のパラメータとハスキー度を
関連付けても良い。例えば、調和成分のスペクトル包絡
を定式化するときのパラメータのうちのいずれか(傾き
に関連するパラメータ)を変化させることでハスキー度
と関連付けて非調和成分のスペクトル包絡を求めても良
い。また、ハスキー度は時間的に固定としても良いし、
可変としても良い。可変にした場合、音韻を伸ばしてい
る途中でだんだん声がハスキーになってくるというよう
な面白い効果を得ることもできる。
ができるようにするためには、上述のように、音韻デー
タベース10に非調和成分の白色化した振幅スペクトル
を記憶しておく必要はない。上述した最初の実施の形態
のように、伸ばし音の非調和成分についても他の素片と
同様に振幅スペクトルをそのまま記憶しておき、合成時
に、その非調和成分の振幅スペクトルに、その伸ばし音
区間内を代表する振幅スペクトルを求めてその逆数を乗
算することにより平坦なスペクトルを作成し、調和成分
の振幅スペクトルに基づいてハスキー度を制御するパラ
メータに応じた非調和成分の振幅スペクトルを計算し、
前記平坦なスペクトルに乗算することにより得たスペク
トルを非調和成分の振幅スペクトルとすればよい。
装置によれば、次のような効果を得ることができる。 ・SMS技術の利用により、了解度は良好で、伸ばして
いる部分も自然な合成歌唱音が得られる。 ・SMS技術の利用により、ビブラートやピッチの微妙
な変化を行なった場合でも不自然な合成音にならない。 ・有声音部分(調和成分)のスペクトル包絡の形状が最
適なものを含む素片を選択あるいは補間により求めるた
め、ピッチによるスペクトル包絡の形状の変化にも対処
することができる。その結果、幅広いピッチにおいて良
い音色が得られる。 ・有声音の場合の非調和成分について、所望のピッチに
合うようにスペクトル形状の微細な形状を変化させるた
め、非調和成分と調和成分を混合しても雑音に聴こえた
り浮いた音に聴こえたりすることがない。 ・音素の伸ばし部分の長さや音素連鎖の長さを自由に調
整できるので、所望のテンポどおりに合成歌唱音を得る
ことができる。 ・音素・音韻の接続部分について、スムージング、ある
いはその音素・音韻のレベル調整を行うため、接続時に
雑音が発生しない。 ・合成された歌声は、所望のピッチに合う音色になり、
求めるタイミングで歌われ、接続単位間の雑音も無く、
高い品質の歌声となる。
記憶する本願の歌唱合成装置によれば、データベースの
サイズを非常に小さくすることができるととともに、デ
ータベース作成の効率を向上させることが可能となる。
また、簡単に合成音声のハスキーさの度合いを調整する
ことのできる歌唱合成装置を提供することが可能とな
る。
ベースの作成処理について説明するための図である。
理について説明するための図である。
整処理について説明するための図である。
ついて説明するための図である。
ための図である。
いて説明するための図である。
処理について説明するための図である。
理について説明するための図である。
を詳細に示す機能ブロック図である。
ハードウエア装置の一例を示す図である。
スペクトル包絡の一例を示す図である。
おける音韻データベースの作成処理について説明するた
めの図である。
である。
おける歌唱音合成処理について説明するための図であ
る。
図である。
うにした場合のスペクトル包絡生成手段の構成例を示す
図である。
について説明するための図である。
区間切り出し手段、21 音素→素片変換手段、22
調和成分調整手段、23 非調和成分調整手段、24
継続時間調整手段、25 素片レベル調整手段、26
素片接続手段、27 調和成分生成手段、28 合成
手段、80 スペクトル白色化手段、90 スペクトル
包絡生成手段
Claims (13)
- 【請求項1】 音素あるいは2つ以上の音素のつながり
である音素連鎖である音声素片について調和成分のデー
タと非調和成分のデータを記憶した音韻データベースを
有し、歌詞に対応した音声素片データを前記音韻データ
ベースから読み出して接続することにより、歌唱音を合
成する歌唱合成装置であって、 目的のテンポや歌い方に合うように前記音韻データベー
スから読み出した音声素片データの時間長を調整する継
続時間調整手段と、 目的のピッチに合うように前記音韻データベースから読
み出した音声素片データの前記調和成分および前記非調
和成分を調整する調整手段とを有することを特徴とする
歌唱合成装置。 - 【請求項2】 前記音声素片データを接続するときに、
調和成分、非調和成分それぞれについてスムージング処
理あるいはレベル調整処理を行なう素片レベル調整手段
を有することを特徴とする請求項1記載の歌唱合成装
置。 - 【請求項3】 前記音韻データベース中には、同一の音
素または音素連鎖について、ピッチ、ダイナミクス、テ
ンポの異なる複数の音声素片データが記憶されているこ
とを特徴とする請求項1あるいは2記載の歌唱合成装
置。 - 【請求項4】 前記音韻データベース中には、母音など
の伸ばし音からなる音声素片データ、子音から母音ある
いは母音から子音への音素連鎖からなる音声素片デー
タ、子音から子音への音素連鎖からなる音声素片データ
および母音から母音への音素連鎖からなる音声素片デー
タが記憶されていることを特徴とする請求項1〜3のい
ずれかに記載の歌唱合成装置。 - 【請求項5】 前記調和成分のデータと前記非調和成分
のデータは、その素片の区間に含まれるフレーム列の各
フレームに対応する周波数領域のデータ列として記憶さ
れていることを特徴とする請求項1〜4のいずれかに記
載の歌唱合成装置。 - 【請求項6】 前記継続時間調整手段は、音声素片に含
まれるフレーム列中の1または複数のフレームを繰り返
すこと、あるいは、フレームを間引くことにより所望の
時間長のフレーム列を生成するものであることを特徴と
する請求項5記載の歌唱合成装置。 - 【請求項7】 前記継続時間調整手段は、非調和成分の
フレームを繰り返すときに、合成時に時間的に逆行する
場合には、その非調和成分の位相スペクトルの位相を反
転させることを特徴とする請求項6記載の歌唱合成装
置。 - 【請求項8】 歌唱音合成時に、調和成分について、音
声素片データに含まれている調和成分のスペクトル包絡
の概形を保ったままピッチだけを所望のピッチに変換す
る調和成分生成手段を有することを特徴とする請求項5
記載の歌唱合成装置。 - 【請求項9】 前記音韻データベース中に記憶される音
声素片データのうち伸ばし音に対応する音声素片につい
ては、非調和成分の振幅スペクトルとして、その非調和
成分の振幅スペクトルにその伸ばし音の区間を代表する
スペクトルの逆数を乗算することにより得られた平坦な
スペクトルを記憶していることを特徴とする請求項5記
載の歌唱合成装置。 - 【請求項10】 歌唱音合成時に、伸ばし音の非調和成
分については、その調和成分の振幅スペクトルに基づい
て非調和成分の振幅スペクトルを計算し、それを前記平
坦なスペクトルに乗ずることにより、非調和成分の振幅
スペクトルを得ることを特徴とする請求項9記載の歌唱
合成装置。 - 【請求項11】 前記音韻データベース中の一部の伸ば
し音についての音声素片については、その非調和成分の
振幅スペクトルを記憶せず、他の伸ばし音の音声素片に
記憶されている前記平坦なスペクトルを使用して、その
伸ばし音を合成することを特徴とする請求項9あるいは
10に記載の歌唱合成装置。 - 【請求項12】 前記調和成分の振幅スペクトルに基づ
いて非調和成分の振幅スペクトルを計算するときに、ハ
スキー度を制御するパラメータに応じて前記計算する非
調和成分の振幅スペクトルの0Hzにおけるゲインを制御
することを特徴とする請求項10記載の歌唱合成装置。 - 【請求項13】 歌唱音合成時に、伸ばし音の非調和成
分の振幅スペクトルに、その伸ばし音区間内における代
表振幅スペクトルの逆数を乗算して平坦なスペクトルを
作成し、その伸ばし音の調和成分の振幅スペクトルに基
づいてハスキー度を制御するパラメータに応じた振幅ス
ペクトルを計算し、該振幅スペクトルと前記作成した平
坦なスペクトルとを乗ずることにより得られた振幅スペ
クトルをその伸ばし音の非調和成分の振幅スペクトルと
して使用することを特徴とする請求項5記載の歌唱合成
装置。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000401041A JP4067762B2 (ja) | 2000-12-28 | 2000-12-28 | 歌唱合成装置 |
US10/034,359 US7016841B2 (en) | 2000-12-28 | 2001-12-27 | Singing voice synthesizing apparatus, singing voice synthesizing method, and program for realizing singing voice synthesizing method |
EP01131008A EP1220195B1 (en) | 2000-12-28 | 2001-12-28 | Singing voice synthesizing apparatus, singing voice synthesizing method, and program for realizing singing voice synthesizing method |
DE60126575T DE60126575T2 (de) | 2000-12-28 | 2001-12-28 | Vorrichtung und Verfahren zur Synthese einer singenden Stimme und Programm zur Realisierung des Verfahrens |
JP2004302795A JP3985814B2 (ja) | 2000-12-28 | 2004-10-18 | 歌唱合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000401041A JP4067762B2 (ja) | 2000-12-28 | 2000-12-28 | 歌唱合成装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004302795A Division JP3985814B2 (ja) | 2000-12-28 | 2004-10-18 | 歌唱合成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002202790A true JP2002202790A (ja) | 2002-07-19 |
JP4067762B2 JP4067762B2 (ja) | 2008-03-26 |
Family
ID=18865531
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000401041A Expired - Fee Related JP4067762B2 (ja) | 2000-12-28 | 2000-12-28 | 歌唱合成装置 |
JP2004302795A Expired - Fee Related JP3985814B2 (ja) | 2000-12-28 | 2004-10-18 | 歌唱合成装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004302795A Expired - Fee Related JP3985814B2 (ja) | 2000-12-28 | 2004-10-18 | 歌唱合成装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US7016841B2 (ja) |
EP (1) | EP1220195B1 (ja) |
JP (2) | JP4067762B2 (ja) |
DE (1) | DE60126575T2 (ja) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005539267A (ja) * | 2002-09-17 | 2005-12-22 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声波形の連結を用いる音声合成 |
US7003451B2 (en) * | 2000-11-14 | 2006-02-21 | Coding Technologies Ab | Apparatus and method applying adaptive spectral whitening in a high-frequency reconstruction coding system |
US7094962B2 (en) | 2003-02-27 | 2006-08-22 | Yamaha Corporation | Score data display/editing apparatus and program |
JP2006243473A (ja) * | 2005-03-04 | 2006-09-14 | Sharp Corp | 音声素片生成装置 |
US7552052B2 (en) | 2004-07-15 | 2009-06-23 | Yamaha Corporation | Voice synthesis apparatus and method |
JP2009163121A (ja) * | 2008-01-09 | 2009-07-23 | Toshiba Corp | 音声処理装置及びそのプログラム |
JP2010249940A (ja) * | 2009-04-13 | 2010-11-04 | Sony Corp | ノイズ低減装置、ノイズ低減方法 |
US8170870B2 (en) | 2004-11-19 | 2012-05-01 | Yamaha Corporation | Apparatus for and program of processing audio signal |
JP2013011863A (ja) * | 2011-05-30 | 2013-01-17 | Yamaha Corp | 音声合成装置 |
JP2013015829A (ja) * | 2011-06-07 | 2013-01-24 | Yamaha Corp | 音声合成装置 |
US9424831B2 (en) | 2013-02-22 | 2016-08-23 | Yamaha Corporation | Voice synthesizing having vocalization according to user manipulation |
JP2020166299A (ja) * | 2017-11-29 | 2020-10-08 | ヤマハ株式会社 | 音声合成方法 |
KR102168529B1 (ko) * | 2020-05-29 | 2020-10-22 | 주식회사 수퍼톤 | 인공신경망을 이용한 가창음성 합성 방법 및 장치 |
Families Citing this family (61)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3879402B2 (ja) * | 2000-12-28 | 2007-02-14 | ヤマハ株式会社 | 歌唱合成方法と装置及び記録媒体 |
US6934675B2 (en) * | 2001-06-14 | 2005-08-23 | Stephen C. Glinski | Methods and systems for enabling speech-based internet searches |
KR20030006308A (ko) * | 2001-07-12 | 2003-01-23 | 엘지전자 주식회사 | 이동통신 단말기의 음성 변조 장치 및 방법 |
JP4153220B2 (ja) * | 2002-02-28 | 2008-09-24 | ヤマハ株式会社 | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム |
US20030182106A1 (en) * | 2002-03-13 | 2003-09-25 | Spectral Design | Method and device for changing the temporal length and/or the tone pitch of a discrete audio signal |
JP3941611B2 (ja) | 2002-07-08 | 2007-07-04 | ヤマハ株式会社 | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム |
JP3871657B2 (ja) * | 2003-05-27 | 2007-01-24 | 株式会社東芝 | 話速変換装置、方法、及びそのプログラム |
JP4654621B2 (ja) * | 2004-06-30 | 2011-03-23 | ヤマハ株式会社 | 音声処理装置およびプログラム |
US8296143B2 (en) * | 2004-12-27 | 2012-10-23 | P Softhouse Co., Ltd. | Audio signal processing apparatus, audio signal processing method, and program for having the method executed by computer |
JP4207902B2 (ja) * | 2005-02-02 | 2009-01-14 | ヤマハ株式会社 | 音声合成装置およびプログラム |
US7571104B2 (en) * | 2005-05-26 | 2009-08-04 | Qnx Software Systems (Wavemakers), Inc. | Dynamic real-time cross-fading of voice prompts |
US8249873B2 (en) * | 2005-08-12 | 2012-08-21 | Avaya Inc. | Tonal correction of speech |
US20070050188A1 (en) * | 2005-08-26 | 2007-03-01 | Avaya Technology Corp. | Tone contour transformation of speech |
KR100658869B1 (ko) * | 2005-12-21 | 2006-12-15 | 엘지전자 주식회사 | 음악생성장치 및 그 운용방법 |
US7737354B2 (en) * | 2006-06-15 | 2010-06-15 | Microsoft Corporation | Creating music via concatenative synthesis |
JP4827661B2 (ja) * | 2006-08-30 | 2011-11-30 | 富士通株式会社 | 信号処理方法及び装置 |
JP4548424B2 (ja) | 2007-01-09 | 2010-09-22 | ヤマハ株式会社 | 楽音処理装置およびプログラム |
JP5018105B2 (ja) | 2007-01-25 | 2012-09-05 | 株式会社日立製作所 | 生体光計測装置 |
US8340967B2 (en) * | 2007-03-21 | 2012-12-25 | VivoText, Ltd. | Speech samples library for text-to-speech and methods and apparatus for generating and using same |
US9251782B2 (en) | 2007-03-21 | 2016-02-02 | Vivotext Ltd. | System and method for concatenate speech samples within an optimal crossing point |
US7962530B1 (en) * | 2007-04-27 | 2011-06-14 | Michael Joseph Kolta | Method for locating information in a musical database using a fragment of a melody |
JP5029167B2 (ja) * | 2007-06-25 | 2012-09-19 | 富士通株式会社 | 音声読み上げのための装置、プログラム及び方法 |
US8473283B2 (en) * | 2007-11-02 | 2013-06-25 | Soundhound, Inc. | Pitch selection modules in a system for automatic transcription of sung or hummed melodies |
KR101504522B1 (ko) * | 2008-01-07 | 2015-03-23 | 삼성전자 주식회사 | 음악 저장/검색 장치 및 방법 |
US7977562B2 (en) * | 2008-06-20 | 2011-07-12 | Microsoft Corporation | Synthesized singing voice waveform generator |
US7977560B2 (en) * | 2008-12-29 | 2011-07-12 | International Business Machines Corporation | Automated generation of a song for process learning |
JP5293460B2 (ja) | 2009-07-02 | 2013-09-18 | ヤマハ株式会社 | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 |
JP5471858B2 (ja) * | 2009-07-02 | 2014-04-16 | ヤマハ株式会社 | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 |
WO2011025532A1 (en) * | 2009-08-24 | 2011-03-03 | NovaSpeech, LLC | System and method for speech synthesis using frequency splicing |
JP5482042B2 (ja) * | 2009-09-10 | 2014-04-23 | 富士通株式会社 | 合成音声テキスト入力装置及びプログラム |
US8457965B2 (en) * | 2009-10-06 | 2013-06-04 | Rothenberg Enterprises | Method for the correction of measured values of vowel nasalance |
GB2480108B (en) * | 2010-05-07 | 2012-08-29 | Toshiba Res Europ Ltd | A speech processing method an apparatus |
FR2961938B1 (fr) * | 2010-06-25 | 2013-03-01 | Inst Nat Rech Inf Automat | Synthetiseur numerique audio ameliore |
JP6047922B2 (ja) * | 2011-06-01 | 2016-12-21 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
US9640172B2 (en) * | 2012-03-02 | 2017-05-02 | Yamaha Corporation | Sound synthesizing apparatus and method, sound processing apparatus, by arranging plural waveforms on two successive processing periods |
US8847056B2 (en) | 2012-10-19 | 2014-09-30 | Sing Trix Llc | Vocal processing with accompaniment music input |
JP5821824B2 (ja) * | 2012-11-14 | 2015-11-24 | ヤマハ株式会社 | 音声合成装置 |
US9104298B1 (en) | 2013-05-10 | 2015-08-11 | Trade Only Limited | Systems, methods, and devices for integrated product and electronic image fulfillment |
KR101541606B1 (ko) * | 2013-11-21 | 2015-08-04 | 연세대학교 산학협력단 | 초음파 신호의 포락선 검출 방법 및 그 장치 |
US9302393B1 (en) * | 2014-04-15 | 2016-04-05 | Alan Rosen | Intelligent auditory humanoid robot and computerized verbalization system programmed to perform auditory and verbal artificial intelligence processes |
US9123315B1 (en) * | 2014-06-30 | 2015-09-01 | William R Bachand | Systems and methods for transcoding music notation |
JP2017532608A (ja) * | 2014-08-22 | 2017-11-02 | ザイア インクZya, Inc. | テキストメッセージを音楽組成物に自動的に変換するシステム及び方法 |
JP6821970B2 (ja) * | 2016-06-30 | 2021-01-27 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
US10157408B2 (en) | 2016-07-29 | 2018-12-18 | Customer Focus Software Limited | Method, systems, and devices for integrated product and electronic image fulfillment from database |
TWI582755B (zh) * | 2016-09-19 | 2017-05-11 | 晨星半導體股份有限公司 | 文字轉語音方法及系統 |
JP6683103B2 (ja) * | 2016-11-07 | 2020-04-15 | ヤマハ株式会社 | 音声合成方法 |
JP6791258B2 (ja) * | 2016-11-07 | 2020-11-25 | ヤマハ株式会社 | 音声合成方法、音声合成装置およびプログラム |
US10248971B2 (en) | 2017-09-07 | 2019-04-02 | Customer Focus Software Limited | Methods, systems, and devices for dynamically generating a personalized advertisement on a website for manufacturing customizable products |
JP6733644B2 (ja) * | 2017-11-29 | 2020-08-05 | ヤマハ株式会社 | 音声合成方法、音声合成システムおよびプログラム |
CN108206026B (zh) * | 2017-12-05 | 2021-12-03 | 北京小唱科技有限公司 | 确定音频内容音高偏差的方法及装置 |
CN108257613B (zh) * | 2017-12-05 | 2021-12-10 | 北京小唱科技有限公司 | 修正音频内容音高偏差的方法及装置 |
US10753965B2 (en) | 2018-03-16 | 2020-08-25 | Music Tribe Brands Dk A/S | Spectral-dynamics of an audio signal |
US11183169B1 (en) * | 2018-11-08 | 2021-11-23 | Oben, Inc. | Enhanced virtual singers generation by incorporating singing dynamics to personalized text-to-speech-to-singing |
JP7359164B2 (ja) * | 2019-02-06 | 2023-10-11 | ヤマハ株式会社 | 音信号合成方法およびニューラルネットワークの訓練方法 |
US11227579B2 (en) * | 2019-08-08 | 2022-01-18 | International Business Machines Corporation | Data augmentation by frame insertion for speech data |
CN111445897B (zh) * | 2020-03-23 | 2023-04-14 | 北京字节跳动网络技术有限公司 | 歌曲生成方法、装置、可读介质及电子设备 |
CN112086097B (zh) * | 2020-07-29 | 2023-11-10 | 广东美的白色家电技术创新中心有限公司 | 语音终端的指令响应方法、电子设备及计算机存储介质 |
CN112037757B (zh) * | 2020-09-04 | 2024-03-15 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌声合成方法、设备及计算机可读存储介质 |
CN112767914B (zh) * | 2020-12-31 | 2024-04-30 | 科大讯飞股份有限公司 | 歌唱语音合成方法及合成设备、计算机存储介质 |
US11495200B2 (en) * | 2021-01-14 | 2022-11-08 | Agora Lab, Inc. | Real-time speech to singing conversion |
CN113643717B (zh) * | 2021-07-07 | 2024-09-06 | 深圳市联洲国际技术有限公司 | 一种音乐节奏检测方法、装置、设备及存储介质 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5912189B2 (ja) | 1981-04-01 | 1984-03-21 | 沖電気工業株式会社 | 音声合成装置 |
JPS626299A (ja) | 1985-07-02 | 1987-01-13 | 沖電気工業株式会社 | 電子歌唱装置 |
JPH0758438B2 (ja) | 1986-07-18 | 1995-06-21 | 松下電器産業株式会社 | 長音結合方法 |
US5029509A (en) * | 1989-05-10 | 1991-07-09 | Board Of Trustees Of The Leland Stanford Junior University | Musical synthesizer combining deterministic and stochastic waveforms |
JP2900454B2 (ja) | 1989-12-15 | 1999-06-02 | 株式会社明電舎 | 音声合成装置の音節データ作成方式 |
US5248845A (en) * | 1992-03-20 | 1993-09-28 | E-Mu Systems, Inc. | Digital sampling instrument |
US5536902A (en) | 1993-04-14 | 1996-07-16 | Yamaha Corporation | Method of and apparatus for analyzing and synthesizing a sound by extracting and controlling a sound parameter |
JP2921428B2 (ja) * | 1995-02-27 | 1999-07-19 | ヤマハ株式会社 | カラオケ装置 |
JP3102335B2 (ja) * | 1996-01-18 | 2000-10-23 | ヤマハ株式会社 | フォルマント変換装置およびカラオケ装置 |
DE69715175T2 (de) | 1996-03-26 | 2003-05-15 | British Telecommunications P.L.C., London | Bildsynthetisierung |
US5998725A (en) * | 1996-07-23 | 1999-12-07 | Yamaha Corporation | Musical sound synthesizer and storage medium therefor |
US5895449A (en) * | 1996-07-24 | 1999-04-20 | Yamaha Corporation | Singing sound-synthesizing apparatus and method |
JPH1091191A (ja) | 1996-09-18 | 1998-04-10 | Toshiba Corp | 音声合成方法 |
JPH10124082A (ja) | 1996-10-18 | 1998-05-15 | Matsushita Electric Ind Co Ltd | 歌声合成装置 |
JP3349905B2 (ja) * | 1996-12-10 | 2002-11-25 | 松下電器産業株式会社 | 音声合成方法および装置 |
US6304846B1 (en) * | 1997-10-22 | 2001-10-16 | Texas Instruments Incorporated | Singing voice synthesis |
JPH11184490A (ja) | 1997-12-25 | 1999-07-09 | Nippon Telegr & Teleph Corp <Ntt> | 規則音声合成による歌声合成方法 |
US6748355B1 (en) * | 1998-01-28 | 2004-06-08 | Sandia Corporation | Method of sound synthesis |
US6462264B1 (en) * | 1999-07-26 | 2002-10-08 | Carl Elam | Method and apparatus for audio broadcast of enhanced musical instrument digital interface (MIDI) data formats for control of a sound generator to create music, lyrics, and speech |
US6836761B1 (en) * | 1999-10-21 | 2004-12-28 | Yamaha Corporation | Voice converter for assimilation by frame synthesis with temporal alignment |
JP3838039B2 (ja) * | 2001-03-09 | 2006-10-25 | ヤマハ株式会社 | 音声合成装置 |
JP3815347B2 (ja) * | 2002-02-27 | 2006-08-30 | ヤマハ株式会社 | 歌唱合成方法と装置及び記録媒体 |
JP4153220B2 (ja) * | 2002-02-28 | 2008-09-24 | ヤマハ株式会社 | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム |
JP3941611B2 (ja) * | 2002-07-08 | 2007-07-04 | ヤマハ株式会社 | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム |
JP3864918B2 (ja) * | 2003-03-20 | 2007-01-10 | ソニー株式会社 | 歌声合成方法及び装置 |
-
2000
- 2000-12-28 JP JP2000401041A patent/JP4067762B2/ja not_active Expired - Fee Related
-
2001
- 2001-12-27 US US10/034,359 patent/US7016841B2/en not_active Expired - Lifetime
- 2001-12-28 EP EP01131008A patent/EP1220195B1/en not_active Expired - Lifetime
- 2001-12-28 DE DE60126575T patent/DE60126575T2/de not_active Expired - Lifetime
-
2004
- 2004-10-18 JP JP2004302795A patent/JP3985814B2/ja not_active Expired - Fee Related
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7003451B2 (en) * | 2000-11-14 | 2006-02-21 | Coding Technologies Ab | Apparatus and method applying adaptive spectral whitening in a high-frequency reconstruction coding system |
US7433817B2 (en) | 2000-11-14 | 2008-10-07 | Coding Technologies Ab | Apparatus and method applying adaptive spectral whitening in a high-frequency reconstruction coding system |
JP2005539267A (ja) * | 2002-09-17 | 2005-12-22 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声波形の連結を用いる音声合成 |
US7094962B2 (en) | 2003-02-27 | 2006-08-22 | Yamaha Corporation | Score data display/editing apparatus and program |
US7552052B2 (en) | 2004-07-15 | 2009-06-23 | Yamaha Corporation | Voice synthesis apparatus and method |
US8170870B2 (en) | 2004-11-19 | 2012-05-01 | Yamaha Corporation | Apparatus for and program of processing audio signal |
JP2006243473A (ja) * | 2005-03-04 | 2006-09-14 | Sharp Corp | 音声素片生成装置 |
JP4526979B2 (ja) * | 2005-03-04 | 2010-08-18 | シャープ株式会社 | 音声素片生成装置 |
US8195464B2 (en) | 2008-01-09 | 2012-06-05 | Kabushiki Kaisha Toshiba | Speech processing apparatus and program |
JP2009163121A (ja) * | 2008-01-09 | 2009-07-23 | Toshiba Corp | 音声処理装置及びそのプログラム |
JP2010249940A (ja) * | 2009-04-13 | 2010-11-04 | Sony Corp | ノイズ低減装置、ノイズ低減方法 |
JP2013011863A (ja) * | 2011-05-30 | 2013-01-17 | Yamaha Corp | 音声合成装置 |
JP2013015829A (ja) * | 2011-06-07 | 2013-01-24 | Yamaha Corp | 音声合成装置 |
US9424831B2 (en) | 2013-02-22 | 2016-08-23 | Yamaha Corporation | Voice synthesizing having vocalization according to user manipulation |
JP2020166299A (ja) * | 2017-11-29 | 2020-10-08 | ヤマハ株式会社 | 音声合成方法 |
KR102168529B1 (ko) * | 2020-05-29 | 2020-10-22 | 주식회사 수퍼톤 | 인공신경망을 이용한 가창음성 합성 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
JP2005018097A (ja) | 2005-01-20 |
JP4067762B2 (ja) | 2008-03-26 |
US20030009336A1 (en) | 2003-01-09 |
EP1220195B1 (en) | 2007-02-14 |
DE60126575T2 (de) | 2007-05-31 |
EP1220195A3 (en) | 2003-09-10 |
DE60126575D1 (de) | 2007-03-29 |
JP3985814B2 (ja) | 2007-10-03 |
EP1220195A2 (en) | 2002-07-03 |
US7016841B2 (en) | 2006-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3985814B2 (ja) | 歌唱合成装置 | |
JP3815347B2 (ja) | 歌唱合成方法と装置及び記録媒体 | |
JP6791258B2 (ja) | 音声合成方法、音声合成装置およびプログラム | |
JP4207902B2 (ja) | 音声合成装置およびプログラム | |
JP3941611B2 (ja) | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム | |
EP0982713A2 (en) | Voice converter with extraction and modification of attribute data | |
JP4839891B2 (ja) | 歌唱合成装置および歌唱合成プログラム | |
JP4153220B2 (ja) | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム | |
EP1701336B1 (en) | Sound processing apparatus and method, and program therefor | |
JP2001522471A (ja) | 特定の声を目標とする音声変換 | |
JP4265501B2 (ja) | 音声合成装置およびプログラム | |
KR100457414B1 (ko) | 음성합성방법, 음성합성장치 및 기록매체 | |
JP2018077283A (ja) | 音声合成方法 | |
JP3966074B2 (ja) | ピッチ変換装置、ピッチ変換方法及びプログラム | |
JP4844623B2 (ja) | 合唱合成装置、合唱合成方法およびプログラム | |
JP4304934B2 (ja) | 合唱合成装置、合唱合成方法およびプログラム | |
Meron et al. | Synthesis of vibrato singing | |
JP2007226174A (ja) | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム | |
JP6834370B2 (ja) | 音声合成方法 | |
JP2000010597A (ja) | 音声変換装置及び音声変換方法 | |
JP6822075B2 (ja) | 音声合成方法 | |
JP2018077280A (ja) | 音声合成方法 | |
JP3447220B2 (ja) | 音声変換装置及び音声変換方法 | |
JP4207237B2 (ja) | 音声合成装置およびその合成方法 | |
Siivola | A survey of methods for the synthesis of the singing voice |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040217 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040419 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040817 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041018 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20041025 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20041224 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071130 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080109 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110118 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4067762 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120118 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130118 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140118 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |