JPH10124082A - 歌声合成装置 - Google Patents

歌声合成装置

Info

Publication number
JPH10124082A
JPH10124082A JP8275791A JP27579196A JPH10124082A JP H10124082 A JPH10124082 A JP H10124082A JP 8275791 A JP8275791 A JP 8275791A JP 27579196 A JP27579196 A JP 27579196A JP H10124082 A JPH10124082 A JP H10124082A
Authority
JP
Japan
Prior art keywords
singing voice
voice
scale
timing
singing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8275791A
Other languages
English (en)
Inventor
Kiyotaka Nagai
清隆 永井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP8275791A priority Critical patent/JPH10124082A/ja
Publication of JPH10124082A publication Critical patent/JPH10124082A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 PSOLA(波形のピッチ同期重畳加算)法
を用いた歌声合成装置において、音切れ感がなく自然で
滑らかな歌声を合成することを目的とする。 【解決手段】 音声素片データ記憶手段4から読み出し
たピッチ周期で切り出した音声波形を、ピッチ周期算出
手段5で算出した音階に対応するピッチ周期間隔で、加
算合成処理手段7を用いて並べ、重ね合わせることによ
り、所望の歌声を合成する装置であって、有声音同士を
接続する場合、前記音階の切り替えタイミングでピッチ
周期間隔の急激な変化が発生しないようにピッチ周期間
隔を補正するピッチ周期補正手段6を設けることによ
り、音切れ感がなく滑らかな歌声を合成することができ
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、PSOLA(Pitc
h-synchronus Overlap-add:波形のピッチ同期重畳加
算)法をもちいて、任意の歌声を合成する歌声合成装置
に関する。
【0002】
【従来の技術】従来、歌声合成装置としては、例えば特
開昭62−65098号公報に記載されたものが知られ
ている。前記歌声合成装置は、入力される音声信号をデ
ジタル信号に変換するAD変換器と、このAD変換器に
よって変換された音声データを記憶するメモリと、この
メモリに記憶した音声データを分析し、所用のデータ区
間から成る音素を切り出す手段と、この切り出された音
素を鍵盤操作によって選択された周期で出力する手段と
から構成されている。
【0003】音素を切り出し、合成するときの具体的な
アルゴリズムについては、例えばケイス・レント(Keit
h Lent)氏によって、1989年にコンピュータ・ミュ
ージック・ジャーナル(Computer Music Journal)誌の
第13巻,第4号の61頁から75頁に発表された「デ
ジタルサンプル音の効率的なピッチシフト方法」(AnEf
ficient Method for Pitch Shifting Digitally Sample
d Sounds)と題する論文に詳細に記載されている。
【0004】図9に前記論文に記載されている合成処理
内容を説明する図を示す。同図に示す全ての図の縦軸は
信号振幅を表し、横軸は時間を表す。同図(a)は入力
された音声データ、同図(b)は(a)の音声データを
ピッチ周期毎に切り出すときに用いるピッチ周期の2倍
の長さの窓関数を示す。また、同図(c)は(b)の窓
関数によって切り出された音声データをピッチ周期間隔
で並べ、重ね合わせて、所望のピッチ周期の音声データ
を合成するときの様子を示している。同図(c)では、
入力された音声データのピッチ周期より長いピッチ周期
の音声データを合成する場合を示している。
【0005】このように音声のピッチ周期毎に窓関数
(通常、ピッチ周期の2倍程度の長さの窓関数)を用い
て音声を切り出し、切り出したピッチ波形を所望のピッ
チ周期間隔で並べ直し、これらを重ね合わせてピッチ周
期を変換した音声を合成する方法をPSOLA法と呼
び、従来電子楽器等で用いられてきた時間軸の圧縮・伸
張によるピッチ変換法と比較して、フォルマント周波数
を大きく変化させることなくピッチ周波数を変化させる
ことができるので、声質の変化が少なく、ピッチ変換範
囲の広い音声を合成することができる、という特徴があ
り、広く用いられてきた。
【0006】
【発明が解決しようとする課題】しかしながら、従来の
PSOLA法を用いた歌声合成装置では、音階の切り替
えタイミングで音切れ感が生じ、滑らかな歌声を合成す
ることができない、という問題があった。伴奏音に合わ
せて歌声を合成する場合、音階の切り替えタイミング、
すなわちピッチ周期の切り替えタイミングは、音符長に
よって定められる時間で切り替える必要がある。このた
めピッチ周期の途中でピッチを切り替える場合が生じ、
これによりピッチ周期の不連続が生じる。このときの音
声波形を図10に示す。同図でT1とT2はそれぞれ音階
の切り替えタイミングの前と後のピッチ周期を、またT
xは音階を切り替える直前のピッチ波形のピーク値から
音階の切り替えタイミングまでの時間を表し、Txは音
階を切り替えるタイミングにより変化する。同図で、
(a)は音階を切り替える前の音声波形を、(b)は音
階を切り替えた後の音声波形を、また(c)は、(a)
と(b)を接続して合成した音声波形を示す。図10に
示す音声波形の場合、音階の切り替えタイミングで(T
x+T2)という不連続なピッチ周期を生じ、これにより
異音が発生する。
【0007】このピッチ周期の不連続による異音の発生
を防止するため、従来、図11(a)に示すフェードア
ウトした音声波形と同図(b)に示すフェードインした
音声波形を接続して同図(c)に示す音声波形を合成出
力することが行われてきた。これにより、異音の発生を
防止できるが、音階の切り替え時に音声波形の振幅減少
による音切れ感が生じ、特に有声音同士を接続する場合
にはこの音切れ感によって自然で滑らかな歌声を合成す
ることができないという問題があった。
【0008】また、従来の歌声合成装置では、図7
(a)に示す楽譜に従って、同図(b)に示すガイドメ
ロディの伴奏音に合わせて歌声を合成する場合、同図
(c)に示したように音階の切り替えタイミングと音階
に対応する音節の開始タイミングとを一致させて音声デ
ータを接続し、歌声を合成していた。しかしながら、音
節の聴覚上のリズム知覚点は必ずしも音節の開始点と一
致せず、通常、音節を構成している子音と母音の間にあ
るので、リズムを知覚するタイミングが音節の種類によ
って変動し、合成した歌声のリズム感がよくない、とい
う問題があった。
【0009】本発明は上記問題点を解決するもので、音
切れ感がなく自然で滑らかな歌声を合成することができ
る歌声合成装置を提供することを目的とする。
【0010】また、リズム感がよい歌声を合成すること
ができる歌声合成装置を提供することを目的とする。
【0011】
【課題を解決するための手段】この課題を解決するため
に、本発明の歌声合成装置は、ピッチ周期で切り出した
音声波形を、音階に対応するピッチ周期間隔で並べ、重
ね合わせることにより、所望の歌声を合成する装置であ
って、有声音同士を接続する場合、前記音階の切り替え
タイミングでピッチ周期間隔の急激な変化が発生しない
ように補正して音声波形を並べる手段を備えている。
【0012】これにより、音切れ感がなく滑らかな歌声
を合成する歌声合成装置が得られる。
【0013】また、本発明の歌声合成装置は、音階の切
り替えタイミングで切り替え前後の音声波形を前記補正
したピッチ周期間隔でオーバーラップして並べ、クロス
フェード接続処理を行う手段を備えている。
【0014】これにより、音階の切り替えタイミングで
音声波形のスペクトルが徐々に変化し、自然で滑らかな
歌声を合成する歌声合成装置が得られる。
【0015】また、本発明の歌声合成装置は、音階の開
始タイミングと前記音階に対応する歌声の最初の音節の
聴覚上のリズム知覚点とをほぼ一致させるように制御し
て音声波形を並べる手段を備えている。
【0016】これにより、リズム感がよい歌声を合成す
る歌声合成装置が得られる。
【0017】
【発明の実施の形態】本発明の第1の発明は、ピッチ周
期で切り出した音声波形を、音階に対応するピッチ周期
間隔で並べ、重ね合わせることにより、所望の歌声を合
成する装置であって、有声音同士を接続する場合、前記
音階の切り替えタイミングでピッチ周期間隔の急激な変
化が発生しないように補正して音声波形を並べる手段を
設けたものであり、有声音の音階の切り替えタイミング
においてもピッチ周期間隔が滑らかに変化するするよう
に補正して音声波形を並べ、重ね合わせることにより、
ピッチ周期の不連続により発生する異音を防止するため
必要であったフェードアウト処理とフェードイン処理を
不要とし、音切れ感のない滑らかな歌声を合成すること
ができる。
【0018】第2の発明は、ピッチ周期で切り出した音
声波形を、音階に対応するピッチ周期間隔で並べ、重ね
合わせることにより、所望の歌声を合成する装置であっ
て、有声音同士を接続する場合、前記音階の切り替えタ
イミングでピッチ周期間隔の急激な変化が発生しないよ
うに補正して音声波形を並べる手段と、前記音階切り替
えタイミング前後の音声波形を前記補正したピッチ周期
間隔でオーバーラップして並べ、クロスフェード接続処
理を行う手段とを設けたものであり、音階の切り替えタ
イミングで、切り替え前後の音声波形をクロスフェード
処理で接続することにより、音声波形のスペクトルを徐
々に変化させ、自然で滑らかな歌声を合成することがで
きる。
【0019】第3の発明は、上記第1または第2の発明
に、音階の開始タイミングと前記音階に対応する歌声の
最初の音節の聴覚上のリズム知覚点とをほぼ一致させる
ように制御して音声波形を並べる手段を設けたものであ
り、これによりリズム感のよい歌声を合成できる。
【0020】第4の発明は、上記第1または第2の発明
に、音階の開始タイミングと前記音階に対応する歌声の
最初の音節の聴覚上のリズム知覚点との時間が所望の時
間となるように制御して音声波形を並べる手段を設けた
ものであり、これによりリズム感がよく、かつ前記時間
を例えば長めにとることによって、ためて歌う等、歌声
としての表現力を増すことができる。
【0021】第5の発明は、上記第1〜第4の発明に、
並べた音声波形データのサンプルタイミングが合成音声
の出力サンプルタイミングと異なるときには前記サンプ
ルタイミングでの音声波形データを入力として、出力サ
ンプルタイミングでの音声波形データを求める補間手段
を設け、補間した音声波形データを重ね合わせることに
より、所望の歌声を合成するものである。これにより、
従来、サンプル周期を単位として表現されていたピッチ
周期間隔の精度を例えば12ビット精度分、すなわちサ
ンプル周期の2-12まで向上させ、自然で滑らかな歌声
を合成することができる。
【0022】第6の発明は、上記第5の発明において、
無声音波形データのサンプルタイミングが合成音声の出
力サンプルタイミングと一致しない場合、無声音波形デ
ータのサンプルタイミングを出力サンプルタイミングに
一致するようにシフトし、無声音波形データに対しては
補間を行わないことにより、高周波数成分を多く含んで
いる無声音の補間による音質変化を抑え、自然な歌声を
合成することができる。
【0023】第7の発明は、上記第5または第6の発明
において、補間手段が高次補間を行うもので、補間精度
を向上させることにより、より自然で滑らかな歌声を合
成することができる。
【0024】第8の発明は、上記第1〜第7の発明に、
音階に対応するピッチ周期間隔に周期的な変化を与える
ビブラート付加手段を設けたもので、ピッチ周期にビブ
ラートを付加することで、より自然な歌声を合成するこ
とができる。
【0025】以下、本発明の実施の形態について、図面
を用いて説明する。 (実施の形態1)図1は、本発明の実施の形態1による
歌声合成装置の構成を示すブロック図である。図1にお
いて、1は歌声合成制御手段、2は歌声シーケンス記憶
手段、3は音声素片データアドレス算出手段、4は音声
素片データ記憶手段、5はピッチ周期算出手段、6はピ
ッチ周期補正手段、7は加算合成処理手段、8はエンベ
ロープ算出手段、9はエンベロープ処理手段、10はD
Aコンバータである。
【0026】以上のように構成された実施の形態1にお
ける歌声合成装置について、以下その動作について説明
する。
【0027】歌声合成制御手段1は、歌声合成装置全体
の動作とそのタイミングを制御する。
【0028】歌声シーケンス記憶手段2は、任意の歌声
を合成するのに必要な歌声シーケンスデータを記憶して
いる。
【0029】図2に歌声シーケンス記憶手段2に記憶し
ている歌声シーケンスデータの例を示す。同図におい
て、(a)に示す楽譜に対応する歌声シーケンスデータ
が、(b)に示されている。同図(b)で音階は音名で
表現し、また、発音記号は音節単位で表現している。本
実施の形態においては、歌声シーケンスデータは、イベ
ントデータから構成されている。イベントデータは、イ
ベントの発生する時刻と発音記号と音階と音量とから構
成され、同図(b)で1行として表されている。イベン
トデータは、発音記号で指定された音節の音声が、指定
された時刻に指定された音階と音量で出力されることを
表す。また、音量0は該当する音声の発音終了を表す。
【0030】音声素片データアドレス算出手段3は、歌
声シーケンス記憶手段2から読み出された歌声シーケン
スデータの発音記号から前記発音記号に対応する音声素
片データのアドレスを算出し、音声素片データ記憶手段
4に出力する。
【0031】音声素片データ記憶手段4は、ピッチ周期
で窓を掛けて切り出した音声波形(音声素片と呼ぶ)デ
ータを記憶しており、音声素片データアドレス算出手段
3から出力されたアドレスにしたがって音声素片データ
を読み出し、出力する。
【0032】一方、ピッチ周期算出手段5は、歌声シー
ケンス記憶手段2から読み出された歌声シーケンスデー
タの音階から前記音階に対応するピッチ周期間隔を算出
する。
【0033】次に、ピッチ周期補正手段6は、音階の切
り替えタイミングで有声音同士を接続する場合、ピッチ
周期間隔の急激な変化が生じないように、ピッチ周期算
出手段5から出力されたピッチ周期間隔を補正し、出力
する。
【0034】ピッチ周期補正手段6の動作について図面
を用いてさらに説明する。音階の切り替えタイミングで
の補正前のピッチ周期を図10に示すものとしたとき、
ピッチ周期補正手段6によって補正されたピッチ周期を
図3に示す。図3は、実施の形態1において、(a)は
音階を切り替える前の音声波形を、(b)は音階を切り
替えた後の音声波形を、(c)は(a)と(b)を接続
して合成した音声波形を示す。音階の切り替えタイミン
グで、図10に示す補正前のピッチ周期は(T x+T2
であるのの対し、図3に示す補正後のピッチ周期は(T
1+T2)/2である。すなわち、ピッチ周期補正手段6
は、音階の切り替えタイミングでピッチ周期の急激な変
化が発生することを検出し、この実施の形態では切り替
え前後のピッチ周期の平均値に置き換える。
【0035】加算合成処理手段7は、音声素片データ記
憶手段4から読み出された音声素片データをピッチ周期
補正手段6で補正されたピッチ周期間隔で並べ、重ね合
わせて図3(c)に示す音声を合成し、出力する。
【0036】エンベロープ算出手段8は、歌声シーケン
ス記憶手段2から読み出された歌声シーケンスデータの
音量から前記音量に対応するゲインを算出し、エンベロ
ープ情報(この場合はゲインのみ)をエンベロープ処理
手段9に出力する。
【0037】エンベロープ処理手段9は、エンベロープ
算出手段8からのエンベロープ情報にしたがって加算合
成手段7から出力された合成音声に対してエンベロープ
処理を行い、結果の歌声合成音声をDAコンバータ10
を介してスピーカから出力する。
【0038】以上のように、実施の形態1によれば、有
声音同士を接続する場合、前記音階の切り替えタイミン
グでピッチ周期間隔の急激な変化が発生しないように補
正する手段を設けることにより、有声音の音階の切り替
えタイミングにおいてもピッチ周期間隔を滑らかに変化
させ、音階の切り替えタイミングでのフェードアウト処
理とフェードイン処理を不要とすることによって、音切
れ感のない滑らかな歌声を合成することができる。
【0039】なお、実施の形態1では、音声素片データ
記憶手段4は、ピッチ周期で窓を掛けて切り出した音声
波形を記憶しているものとしたが、切り出し前の音声波
形データを記憶し、読み出すときに窓を掛けることによ
って切り出してもよい。
【0040】(実施の形態2)図4は、本発明の実施の
形態2による歌声合成装置の構成を示すブロック図であ
る。図4において、1は歌声合成制御手段、2は歌声シ
ーケンス記憶手段、3は音声素片データアドレス算出手
段、4は音声素片データ記憶手段、5はピッチ周期算出
手段、6はピッチ周期補正手段、7は加算合成処理手
段、8はエンベロープ算出手段、9はエンベロープ処理
手段、10はDAコンバータ、11は加算合成処理手段
である。
【0041】実施の形態1と実施の形態2の構成上の相
違点は、実施の形態2では加算合成処理手段11が追加
されている点である。
【0042】以上のように構成された実施の形態2にお
ける歌声合成装置について、前記構成上の相違点を中心
にして、以下その動作について説明する。
【0043】歌声合成制御手段1は、歌声合成装置全体
の動作とそのタイミングを制御する。歌声シーケンス記
憶手段2は、任意の歌声を合成するのに必要な歌声シー
ケンスデータを記憶している。歌声シーケンス記憶手段
2に記憶している歌声シーケンスデータは、実施の形態
1で説明したものと同一である。音声素片データアドレ
ス算出手段3は、歌声シーケンス記憶手段2から読み出
された歌声シーケンスデータの発音記号から前記発音記
号に対応する音声素片データのアドレスを算出し、音声
素片データ記憶手段4に出力する。音声素片データ記憶
手段4は、ピッチ周期で切り出した音声素片波形データ
を記憶しており、音声素片データアドレス算出手段3か
ら出力されるアドレスにしたがって音声素片データを読
み出し、出力する。
【0044】一方、ピッチ周期算出手段5は、歌声シー
ケンス記憶手段2から読み出された歌声シーケンスデー
タの音階から前記音階に対応するピッチ周期間隔を算出
し、出力する。次に、ピッチ周期補正手段6は、音階の
切り替えタイミングで有声音同士を接続する場合、実施
の形態1で説明したのと同様にして、ピッチ周期間隔の
急激な変化が生じないように補正したピッチ周期間隔を
加算合成処理手段7と加算合成処理手段11に出力す
る。
【0045】加算合成処理手段7は、音声素片データ記
憶手段4から読み出された音声素片データをピッチ周期
補正手段6で補正されたピッチ周期間隔で並べ、音階単
位で重ね合わせて合成音声を出力する。実施の形態1で
は、加算合成処理手段7は音階間の重ね合わせ(加算合
成)も行っていたのに対して、実施の形態2では、加算
合成処理手段7は音階単位での重ね合わせを行い、音階
間の重ね合わせは加算合成手段11で行う。
【0046】次に、エンベロープ算出手段8の動作につ
いて、図5を用いて説明する。エンベロープ算出手段8
は、図5(a)に示すように、音階の切り替え前の音声
波形をピッチ周期補正手段6で補正したピッチ間隔で並
べた音声波形に対してフェードアウト処理を行うのに必
要なエンベロープ情報(図5の破線で示す)を算出す
る。前記エンベロープ情報の最大振幅は、実施の形態1
と同様に、歌声シーケンスデータの音量に対応するゲイ
ンにより定められる。さらに、エンベロープ算出手段8
は、図5(b)に示すように、音階の切り替え後の音声
波形をピッチ周期補正手段6で補正したピッチ間隔で並
べた音声波形に対してフェードイン処理を行うのに必要
なエンベロープ情報も算出する。図5に示したように、
フェードアウトする音声波形とフェードインする音声波
形は、音節の切り替えタイミングをほぼ中心にして互い
にオーバーラップしている。エンベロープ算出手段8
は、以上のようにして算出したエンベロープ情報をエン
ベロープ処理手段9に出力する。
【0047】エンベロープ処理手段9は、エンベロープ
算出手段8からのエンベロープ情報にしたがって加算合
成手段7から出力された音階単位の合成音声に対してエ
ンベロープ処理を行い、図5(a),(b)に示す合成
音声波形を出力する。
【0048】加算合成処理手段11は、エンベロープ処
理手段9から出力された音階単位の合成音声をオーバー
ラップして接続し、加算合成処理を行うことにより、図
5(c)に示す音声を合成し、出力する。
【0049】次に、加算合成処理手段11から出力され
た歌声合成音声をDAコンバータ10を介してスピーカ
から出力する。
【0050】以上のように、実施の形態2によれば、有
声音同士を接続する場合、音階の切り替えタイミングで
ピッチ周期間隔の急激な変化が発生しないように補正す
る手段と、前記音階切り替えタイミング前後の音声波形
を前記補正したピッチ周期間隔でオーバーラップして並
べ、クロスフェード接続処理を行う手段とを設けること
により、音階の切り替えタイミングにおいて音声波形の
スペクトルを徐々に変化させることができるので、自然
で滑らかな歌声を合成することができる。
【0051】(実施の形態3)図6は、本発明の実施の
形態3による歌声合成装置の構成を示すブロック図であ
る。図6において、1は歌声合成制御手段、2は歌声シ
ーケンス記憶手段、3は音声素片データアドレス算出手
段、4は音声素片データ記憶手段、5はピッチ周期算出
手段、6はピッチ周期補正手段、7は加算合成処理手
段、8はエンベロープ算出手段、9はエンベロープ処理
手段、10はDAコンバータ、11は加算合成処理手
段、12は音節開始時刻算出手段、13はビブラート付
加手段、14はサンプル間データ補間手段である。
【0052】実施の形態2と実施の形態3の構成上の相
違点は、実施の形態3では音節開始時刻算出手段12、
ビブラート付加手段13、サンプル間データ補間手段1
4が追加されている点である。
【0053】以上のように構成された実施の形態3にお
ける歌声合成装置について、前記構成上の相違点を中心
にして、以下その動作について説明する。
【0054】歌声合成制御手段1は、歌声合成装置全体
の動作とそのタイミングを制御する。歌声シーケンス記
憶手段2は、任意の歌声を合成するのに必要な歌声シー
ケンスデータを記憶している。歌声シーケンス記憶手段
2に記憶している歌声シーケンスデータは、実施の形態
1で説明したものと同一である。
【0055】音節開始時刻算出手段12は、歌声シーケ
ンス記憶手段2から読み出された歌声シーケンスデータ
の音階の開始時刻と発音記号とから、音階の開始時刻と
前記音階に対応する最初の音節の聴覚上のリズム知覚点
とがほぼ一致するように音節の開始時刻を算出する。
【0056】以下、図7を用いて音節開始時刻算出手段
12の動作についてさらに説明する。図7において、
(a)は以下の説明で例として用いる楽譜、(b)は前
記楽譜の第1小節に示されたメロディの音階(音名で表
記)とその時間長(単位はms)、(c)は従来の音階
の開始時刻と前記音階に対応する最初の音節の開始時刻
の時間関係、(d)は実施の形態3における音階の開始
時刻と前記音階に対応する最初の音節の開始時刻の時間
関係を表す。同図(d)で▽は音節のリズム知覚点を表
す。
【0057】音節のリズム知覚点とは、聴覚上のリズム
知覚の基準点のことで、通常、音節を構成している子音
と母音との間にある。同図(c)と(d)においては、
音節の発音記号を子音と母音とに分けて表し、(d)で
は音節のリズム知覚点の位置を模式的に示している。
【0058】音節の聴覚上のリズム知覚点の算出法につ
いては、例えば、新居康彦、大崎正巳著の「音声処理と
DSP」(1989年啓学出版発行)と題する本の16
4頁から166頁に記載されている。なお、この本で
は、音節のリズム知覚点のことを拍同期点、あるいは受
聴タイミング点と呼んで説明している。
【0059】従来、図7(c)に示すように音階の開始
時刻と音節の開始時刻とを一致させていたのに対し、本
実施の形態では、同図(d)に示すように、音階の開始
時刻と音節のリズム知覚点とを一致させる。実際には、
有声音同士を接続する場合、音階の切り替えタイミング
でピッチ周期が不連続とならないように制御しているの
で音階の開始時刻と音節のリズム知覚点とが若干ずれる
場合がある。
【0060】音節開始時刻算出手段12は、各音節の音
節開始点からリズム知覚点のまでの時間を予め記憶して
おり、音階の開始時刻から前記リズム知覚点までの時間
分逆のぼった時刻を音節の開始時刻として算出し、出力
する。
【0061】音声素片データアドレス算出手段3は、音
節開始時刻算出手段12で算出された音節の開始時刻を
用いて前記音節に対応する音声素片データのアドレスを
算出し、音声素片データ記憶手段4に出力する。
【0062】音声素片データ記憶手段4は、ピッチ周期
で切り出した音声素片波形を記憶しており、音声素片デ
ータアドレス算出手段3から出力されるアドレスにした
がって音声素片データを読み出し、出力する。
【0063】一方、ピッチ周期算出手段5は、歌声シー
ケンス記憶手段2から読み出された歌声シーケンスデー
タの音階から前記音階に対応するピッチ周期間隔を算出
し、出力する。次に、ピッチ周期補正手段6は、音階の
切り替えタイミングで有声音同士を接続する場合、実施
の形態1で説明したのと同様にして、ピッチ周期間隔の
急激な変化が生じないように補正したピッチ周期間隔を
出力する。
【0064】ビブラート付加手段13は、ピッチ周期補
正手段6から出力された補正したピッチ周期間隔に周期
的な変動を与え、ビブラートを付加し、ビブラートを付
加したピッチ周期間隔をサンプル間データ補間手段14
と加算合成処理手段7と加算合成処理手段11とに出力
する。ピッチ周期にビブラートを付加することで、より
自然な歌声を合成することができる。
【0065】以下、サンプル間データ補間手段14の動
作について図8を用いて説明する。同図で縦の実線が音
声素片データ記憶手段4に記憶されたサンプルタイミン
グでのデータ値であり、縦の破線が出力サンプルタイミ
ングにおけるデータ値である。また、同図でTは音声素
片データのサンプル周期を表す。同図は、ピッチ周期間
隔が8.5Tで2つの音声素片データ(同図(a),
(b)に示す)を並べ、重ね合わせて合成する(同図
(c)に示す)場合を示す。音声素片データ記憶手段4
から読み出された2つの音声素片波形データの内、
(a)では音声素片データ記憶手段4から読み出された
音声素片データのサンプルタイミングと出力タイミング
が一致している。同図(a)で破線は見えていないが、
これは実線と破線が重なっているためである。一方、同
図(b)では音声素片データ記憶手段4から読み出され
た音声素片データのサンプルタイミングと出力タイミン
グが0.5T分ずれている。
【0066】サンプル間データ補間手段14は、音声素
片データ記憶手段4から読み出されたサンプルタイミン
グの音声素片波形データから出力サンプルタイミングに
おける音声素片波形データを補間して出力する。出力サ
ンプルタイミングの前後のサンプルタイミングの音声素
片波形データから出力サンプルタイミングにおける音声
素片波形データを直線補間することにより求め、出力す
る。すなわち、図8(b)に示すように、縦の実線で示
す音声素片波形データを入力として破線で示す出力サン
プルタイミングの音声素片波形データを補間して算出
し、出力する。
【0067】なお、無声音波形データに対しては、前記
無声音波形データのサンプルタイミングが合成音声の出
力サンプルタイミングと一致しない場合、前記無声音波
形データのサンプルタイミングを出力サンプルタイミン
グに一致するようにシフトし、補間を行わないようにす
ることにより、高周波数成分を多く含んでいる無声音の
補間による音質変化を抑え、より自然な歌声を合成する
ことができる。
【0068】加算合成処理手段7は、サンプル間データ
補間手段14から出力された音声素片データをビブラー
ト付加手段13から出力されたピッチ周期間隔で並べ、
音階単位で重ね合わせて合成音声を出力する。
【0069】エンベロープ算出手段8は、実施の形態2
で説明したのと同様に、有声音同士を接続する場合、音
階の切り替えタイミング前後の音声波形を補正したピッ
チ周期間隔でオーバーラップして並べ、クロスフェード
接続処理を行うのに必要なエンベロープ情報を算出し、
エンベロープ処理手段9に出力する。
【0070】エンベロープ処理手段9は、エンベロープ
算出手段8からのエンベロープ情報にしたがって加算合
成手段7から出力された音階単位での合成音声に対して
エンベロープ処理を行う。加算合成処理手段11は、エ
ンベロープ処理手段7から出力された音階単位の合成音
声をオーバーラップして接続、加算合成処理を行うこと
で歌声合成音声を出力する。次に、加算処理手段11か
ら出力される歌声合成音声をDAコンバータ10を介し
てスピーカから出力する。
【0071】以上のように実施の形態3によれば、音階
の開始タイミングと前記音階に対応する歌声の最初の音
節の聴覚上のリズム知覚点とをほぼ一致させるように前
記音節の開始時刻を制御する手段を設けることにより、
リズム感のよい歌声を合成することができる。
【0072】なお、音階の開始タイミングと前記音階に
対応する歌声の最初の音節の聴覚上のリズム知覚点との
時間が所望の時間となるように前記音節の開始時刻を制
御する手段を設け、例えば前記所望の時間を長めにとる
ことによって、ためて歌う感じを出す等、歌声としての
表現力を増すことができる。
【0073】また、実施の形態3においては、サンプル
間データ補間手段14で直線補間を行うことにしたが、
必ずしも直線補間でなく高次の補間演算を行うようにし
ても良い。これにより補間精度を向上させ、より自然で
滑らかな歌声を合成することができる。
【0074】
【発明の効果】以上のように本発明は、ピッチ周期で切
り出した音声波形を、音階に対応するピッチ周期間隔で
並べ、重ね合わせることにより、所望の歌声を合成する
装置であって、有声音同士を接続する場合、音階の切り
替えタイミングでピッチ周期間隔の急激な変化が発生し
ないように補正して音声波形を並べる手段を設けたもの
であり、有声音の音階の切り替えタイミングにおいても
ピッチ周期間隔を滑らかに変化させ、音階の切り替えタ
イミングでのフェードアウト処理とフェードイン処理を
不要とすることによって、音切れ感のない滑らかな歌声
を合成することができる。
【0075】また、本発明は、ピッチ周期で切り出した
音声波形を、音階に対応するピッチ周期間隔で並べ、重
ね合わせることにより、所望の歌声を合成する装置であ
って、有声音同士を接続する場合、音階の切り替えタイ
ミングでピッチ周期間隔の急激な変化が発生しないよう
に補正して音声波形を並べる手段と、音階切り替えタイ
ミング前後の音声波形を補正したピッチ周期間隔でオー
バーラップして並べ、クロスフェード接続処理を行う手
段とを設けたものであり、音階の切り替えタイミングに
おいて音声波形のスペクトルを徐々に変化させることに
より、自然で滑らかな歌声を合成することができる。
【0076】また、本発明は、音階の開始タイミングと
音階に対応する歌声の最初の音節の聴覚上のリズム知覚
点とをほぼ一致させるように制御して音声波形を並べる
手段を設けたものであり、これによりリズム感のよい歌
声を合成することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態1による歌声合成装置の構
成を示すブロック図
【図2】同歌声合成装置の歌声シーケンス記憶手段に記
憶している歌声シーケンスデータの例を示す図
【図3】同歌声合成装置の音階切り替えタイミングにお
ける歌声合成波形を説明するための図
【図4】本発明の実施の形態2による歌声合成装置の構
成を示すブロック図
【図5】同歌声合成装置の音階切り替えタイミングにお
ける歌声合成波形を説明するための図
【図6】本発明の実施の形態3による歌声合成装置の構
成を示すブロック図
【図7】同歌声合成装置の音階の開始タイミングと音節
の開始タイミングとの時間関係を示す図
【図8】同歌声合成装置のサンプル間データ補間手段の
動作を説明するための図
【図9】従来の音声合成方法の処理内容を説明するため
の図
【図10】音階の切り替えタイミングでピッチ周期の不
連続が発生することを説明するための図
【図11】従来の歌声合成装置の音階の切り替えタイミ
ングにおける歌声合成波形を説明するための図
【符号の説明】 1 歌声合成制御手段 2 歌声シーケンス記憶手段 3 音声素片データアドレス算出手段 4 音声素片データ記憶手段 5 ピッチ周期算出手段 6 ピッチ周期補正手段 7,11 加算合成処理手段 8 エンベロープ算出手段 9 エンベロープ処理手段 10 DAコンバータ 12 音節開始時刻算出手段 13 ビブラート付加手段 14 サンプル間データ補間手段

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 ピッチ周期で切り出した音声波形を、音
    階に対応するピッチ周期間隔で並べ、重ね合わせること
    により、所望の歌声を合成する装置であって、有声音同
    士を接続する場合、前記音階の切り替えタイミングでピ
    ッチ周期間隔の急激な変化が発生しないように補正して
    音声波形を並べる手段を設けたことを特徴とする歌声合
    成装置。
  2. 【請求項2】 ピッチ周期で切り出した音声波形を、音
    階に対応するピッチ周期間隔で並べ、重ね合わせること
    により、所望の歌声を合成する装置であって、 有声音同士を接続する場合、前記音階の切り替えタイミ
    ングでピッチ周期間隔の急激な変化が発生しないように
    補正して音声波形を並べる手段と、 前記音階切り替えタイミング前後の音声波形を前記補正
    したピッチ周期間隔でオーバーラップして並べ、クロス
    フェード接続処理を行う手段とを設けたことを特徴とす
    る歌声合成装置。
  3. 【請求項3】 音階の開始タイミングと前記音階に対応
    する歌声の最初の音節の聴覚上のリズム知覚点とをほぼ
    一致させるように制御して音声波形を並べる手段を設け
    たことを特徴とする請求項1または2に記載の歌声合成
    装置。
  4. 【請求項4】 音階の開始タイミングと前記音階に対応
    する歌声の最初の音節の聴覚上のリズム知覚点との時間
    が所望の時間となるように制御して音声波形を並べる手
    段を設けたことを特徴とする請求項1または2に記載の
    歌声合成装置。
  5. 【請求項5】 並べた音声波形データのサンプルタイミ
    ングが合成音声の出力サンプルタイミングと異なるとき
    には前記サンプルタイミングでの音声波形データを入力
    として、出力サンプルタイミングでの音声波形データを
    求める補間手段を設け、補間した音声波形データを並
    べ、重ね合わせることにより、所望の歌声を合成するこ
    とを特徴とする請求項1ないし4のいずれかに記載の歌
    声合成装置。
  6. 【請求項6】 無声音波形データのサンプルタイミング
    が合成音声の出力サンプルタイミングと一致しない場
    合、無声音波形データのサンプルタイミングを出力サン
    プルタイミングに一致するようにシフトし、無声音波形
    データに対しては補間を行わないことを特徴とする請求
    項5に記載の歌声合成装置。
  7. 【請求項7】 補間手段は高次補間を行うことを特徴と
    する請求項5または6に記載の歌声合成装置。
  8. 【請求項8】 音階に対応するピッチ周期間隔に周期的
    な変化を与えるビブラート付加手段を設けたことを特徴
    とする請求項1ないし7のいずれかに記載の歌声合成装
    置。
JP8275791A 1996-10-18 1996-10-18 歌声合成装置 Pending JPH10124082A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8275791A JPH10124082A (ja) 1996-10-18 1996-10-18 歌声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8275791A JPH10124082A (ja) 1996-10-18 1996-10-18 歌声合成装置

Publications (1)

Publication Number Publication Date
JPH10124082A true JPH10124082A (ja) 1998-05-15

Family

ID=17560470

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8275791A Pending JPH10124082A (ja) 1996-10-18 1996-10-18 歌声合成装置

Country Status (1)

Country Link
JP (1) JPH10124082A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7016841B2 (en) 2000-12-28 2006-03-21 Yamaha Corporation Singing voice synthesizing apparatus, singing voice synthesizing method, and program for realizing singing voice synthesizing method
JP2006084859A (ja) * 2004-09-16 2006-03-30 Advanced Telecommunication Research Institute International 音声合成方法及び音声合成プログラム
US7389231B2 (en) 2001-09-03 2008-06-17 Yamaha Corporation Voice synthesizing apparatus capable of adding vibrato effect to synthesized voice
JP2011128186A (ja) * 2009-12-15 2011-06-30 Yamaha Corp 音声合成装置
US8271284B2 (en) 2006-07-21 2012-09-18 Nec Corporation Speech synthesis device, method, and program
US8484018B2 (en) 2009-08-21 2013-07-09 Casio Computer Co., Ltd Data converting apparatus and method that divides input data into plural frames and partially overlaps the divided frames to produce output data

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7016841B2 (en) 2000-12-28 2006-03-21 Yamaha Corporation Singing voice synthesizing apparatus, singing voice synthesizing method, and program for realizing singing voice synthesizing method
US7389231B2 (en) 2001-09-03 2008-06-17 Yamaha Corporation Voice synthesizing apparatus capable of adding vibrato effect to synthesized voice
JP2006084859A (ja) * 2004-09-16 2006-03-30 Advanced Telecommunication Research Institute International 音声合成方法及び音声合成プログラム
US8271284B2 (en) 2006-07-21 2012-09-18 Nec Corporation Speech synthesis device, method, and program
US8484018B2 (en) 2009-08-21 2013-07-09 Casio Computer Co., Ltd Data converting apparatus and method that divides input data into plural frames and partially overlaps the divided frames to produce output data
JP2011128186A (ja) * 2009-12-15 2011-06-30 Yamaha Corp 音声合成装置

Similar Documents

Publication Publication Date Title
JP3985814B2 (ja) 歌唱合成装置
JP3333022B2 (ja) 歌声合成装置
JP3563772B2 (ja) 音声合成方法及び装置並びに音声合成制御方法及び装置
JP6024191B2 (ja) 音声合成装置および音声合成方法
EP1701336B1 (en) Sound processing apparatus and method, and program therefor
JP4153220B2 (ja) 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
KR100457414B1 (ko) 음성합성방법, 음성합성장치 및 기록매체
JPH10124082A (ja) 歌声合成装置
JPH11126083A (ja) カラオケ再生装置
JP4433734B2 (ja) 音声分析合成装置、音声分析装置、及びプログラム
JPH1115489A (ja) 歌唱音合成装置
JP5560769B2 (ja) 音素符号変換装置および音声合成装置
JP2011090218A (ja) 音素符号変換装置、音素符号データベース、および音声合成装置
JP2001042879A (ja) カラオケ装置
JP5106437B2 (ja) カラオケ装置及びその制御方法並びにその制御プログラム
JP3233036B2 (ja) 歌唱音合成装置
JP2000010597A (ja) 音声変換装置及び音声変換方法
JP2005539267A (ja) 音声波形の連結を用いる音声合成
JPH0895588A (ja) 音声合成装置
WO2023140151A1 (ja) 情報処理装置、電子楽器、電子楽器システム、方法及びプログラム
JP2004061753A (ja) 歌唱音声を合成する方法および装置
JP3515268B2 (ja) 音声合成装置
JP4305022B2 (ja) データ作成装置、プログラム及び楽音合成装置
JPH056191A (ja) 音声合成装置
JPH1011083A (ja) テキスト音声変換装置