JPH10124082A

JPH10124082A - 歌声合成装置

Info

Publication number: JPH10124082A
Application number: JP8275791A
Authority: JP
Inventors: Kiyotaka Nagai; 清隆永井
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1996-10-18
Filing date: 1996-10-18
Publication date: 1998-05-15

Abstract

(57)【要約】【課題】ＰＳＯＬＡ（波形のピッチ同期重畳加算）法
を用いた歌声合成装置において、音切れ感がなく自然で
滑らかな歌声を合成することを目的とする。【解決手段】音声素片データ記憶手段４から読み出し
たピッチ周期で切り出した音声波形を、ピッチ周期算出
手段５で算出した音階に対応するピッチ周期間隔で、加
算合成処理手段７を用いて並べ、重ね合わせることによ
り、所望の歌声を合成する装置であって、有声音同士を
接続する場合、前記音階の切り替えタイミングでピッチ
周期間隔の急激な変化が発生しないようにピッチ周期間
隔を補正するピッチ周期補正手段６を設けることによ
り、音切れ感がなく滑らかな歌声を合成することができ
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ＰＳＯＬＡ（Pitc
h-synchronus Overlap-add：波形のピッチ同期重畳加
算)法をもちいて、任意の歌声を合成する歌声合成装置
に関する。

【０００２】

【従来の技術】従来、歌声合成装置としては、例えば特
開昭６２−６５０９８号公報に記載されたものが知られ
ている。前記歌声合成装置は、入力される音声信号をデ
ジタル信号に変換するＡＤ変換器と、このＡＤ変換器に
よって変換された音声データを記憶するメモリと、この
メモリに記憶した音声データを分析し、所用のデータ区
間から成る音素を切り出す手段と、この切り出された音
素を鍵盤操作によって選択された周期で出力する手段と
から構成されている。

【０００３】音素を切り出し、合成するときの具体的な
アルゴリズムについては、例えばケイス・レント（Keit
h Lent）氏によって、１９８９年にコンピュータ・ミュ
ージック・ジャーナル（Computer Music Journal）誌の
第１３巻，第４号の６１頁から７５頁に発表された「デ
ジタルサンプル音の効率的なピッチシフト方法」（AnEf
ficient Method for Pitch Shifting Digitally Sample
d Sounds）と題する論文に詳細に記載されている。

【０００４】図９に前記論文に記載されている合成処理
内容を説明する図を示す。同図に示す全ての図の縦軸は
信号振幅を表し、横軸は時間を表す。同図（ａ）は入力
された音声データ、同図（ｂ）は（ａ）の音声データを
ピッチ周期毎に切り出すときに用いるピッチ周期の２倍
の長さの窓関数を示す。また、同図（ｃ）は（ｂ）の窓
関数によって切り出された音声データをピッチ周期間隔
で並べ、重ね合わせて、所望のピッチ周期の音声データ
を合成するときの様子を示している。同図（ｃ）では、
入力された音声データのピッチ周期より長いピッチ周期
の音声データを合成する場合を示している。

【０００５】このように音声のピッチ周期毎に窓関数
（通常、ピッチ周期の２倍程度の長さの窓関数）を用い
て音声を切り出し、切り出したピッチ波形を所望のピッ
チ周期間隔で並べ直し、これらを重ね合わせてピッチ周
期を変換した音声を合成する方法をＰＳＯＬＡ法と呼
び、従来電子楽器等で用いられてきた時間軸の圧縮・伸
張によるピッチ変換法と比較して、フォルマント周波数
を大きく変化させることなくピッチ周波数を変化させる
ことができるので、声質の変化が少なく、ピッチ変換範
囲の広い音声を合成することができる、という特徴があ
り、広く用いられてきた。

【０００６】

【発明が解決しようとする課題】しかしながら、従来の
ＰＳＯＬＡ法を用いた歌声合成装置では、音階の切り替
えタイミングで音切れ感が生じ、滑らかな歌声を合成す
ることができない、という問題があった。伴奏音に合わ
せて歌声を合成する場合、音階の切り替えタイミング、
すなわちピッチ周期の切り替えタイミングは、音符長に
よって定められる時間で切り替える必要がある。このた
めピッチ周期の途中でピッチを切り替える場合が生じ、
これによりピッチ周期の不連続が生じる。このときの音
声波形を図１０に示す。同図でＴ₁とＴ₂はそれぞれ音階
の切り替えタイミングの前と後のピッチ周期を、またＴ
_xは音階を切り替える直前のピッチ波形のピーク値から
音階の切り替えタイミングまでの時間を表し、Ｔ_xは音
階を切り替えるタイミングにより変化する。同図で、
（ａ）は音階を切り替える前の音声波形を、（ｂ）は音
階を切り替えた後の音声波形を、また（ｃ）は、（ａ）
と（ｂ）を接続して合成した音声波形を示す。図１０に
示す音声波形の場合、音階の切り替えタイミングで（Ｔ
_x＋Ｔ₂）という不連続なピッチ周期を生じ、これにより
異音が発生する。

【０００７】このピッチ周期の不連続による異音の発生
を防止するため、従来、図１１（ａ）に示すフェードア
ウトした音声波形と同図（ｂ）に示すフェードインした
音声波形を接続して同図（ｃ）に示す音声波形を合成出
力することが行われてきた。これにより、異音の発生を
防止できるが、音階の切り替え時に音声波形の振幅減少
による音切れ感が生じ、特に有声音同士を接続する場合
にはこの音切れ感によって自然で滑らかな歌声を合成す
ることができないという問題があった。

【０００８】また、従来の歌声合成装置では、図７
（ａ）に示す楽譜に従って、同図（ｂ）に示すガイドメ
ロディの伴奏音に合わせて歌声を合成する場合、同図
（ｃ）に示したように音階の切り替えタイミングと音階
に対応する音節の開始タイミングとを一致させて音声デ
ータを接続し、歌声を合成していた。しかしながら、音
節の聴覚上のリズム知覚点は必ずしも音節の開始点と一
致せず、通常、音節を構成している子音と母音の間にあ
るので、リズムを知覚するタイミングが音節の種類によ
って変動し、合成した歌声のリズム感がよくない、とい
う問題があった。

【０００９】本発明は上記問題点を解決するもので、音
切れ感がなく自然で滑らかな歌声を合成することができ
る歌声合成装置を提供することを目的とする。

【００１０】また、リズム感がよい歌声を合成すること
ができる歌声合成装置を提供することを目的とする。

【００１１】

【課題を解決するための手段】この課題を解決するため
に、本発明の歌声合成装置は、ピッチ周期で切り出した
音声波形を、音階に対応するピッチ周期間隔で並べ、重
ね合わせることにより、所望の歌声を合成する装置であ
って、有声音同士を接続する場合、前記音階の切り替え
タイミングでピッチ周期間隔の急激な変化が発生しない
ように補正して音声波形を並べる手段を備えている。

【００１２】これにより、音切れ感がなく滑らかな歌声
を合成する歌声合成装置が得られる。

【００１３】また、本発明の歌声合成装置は、音階の切
り替えタイミングで切り替え前後の音声波形を前記補正
したピッチ周期間隔でオーバーラップして並べ、クロス
フェード接続処理を行う手段を備えている。

【００１４】これにより、音階の切り替えタイミングで
音声波形のスペクトルが徐々に変化し、自然で滑らかな
歌声を合成する歌声合成装置が得られる。

【００１５】また、本発明の歌声合成装置は、音階の開
始タイミングと前記音階に対応する歌声の最初の音節の
聴覚上のリズム知覚点とをほぼ一致させるように制御し
て音声波形を並べる手段を備えている。

【００１６】これにより、リズム感がよい歌声を合成す
る歌声合成装置が得られる。

【００１７】

【発明の実施の形態】本発明の第１の発明は、ピッチ周
期で切り出した音声波形を、音階に対応するピッチ周期
間隔で並べ、重ね合わせることにより、所望の歌声を合
成する装置であって、有声音同士を接続する場合、前記
音階の切り替えタイミングでピッチ周期間隔の急激な変
化が発生しないように補正して音声波形を並べる手段を
設けたものであり、有声音の音階の切り替えタイミング
においてもピッチ周期間隔が滑らかに変化するするよう
に補正して音声波形を並べ、重ね合わせることにより、
ピッチ周期の不連続により発生する異音を防止するため
必要であったフェードアウト処理とフェードイン処理を
不要とし、音切れ感のない滑らかな歌声を合成すること
ができる。

【００１８】第２の発明は、ピッチ周期で切り出した音
声波形を、音階に対応するピッチ周期間隔で並べ、重ね
合わせることにより、所望の歌声を合成する装置であっ
て、有声音同士を接続する場合、前記音階の切り替えタ
イミングでピッチ周期間隔の急激な変化が発生しないよ
うに補正して音声波形を並べる手段と、前記音階切り替
えタイミング前後の音声波形を前記補正したピッチ周期
間隔でオーバーラップして並べ、クロスフェード接続処
理を行う手段とを設けたものであり、音階の切り替えタ
イミングで、切り替え前後の音声波形をクロスフェード
処理で接続することにより、音声波形のスペクトルを徐
々に変化させ、自然で滑らかな歌声を合成することがで
きる。

【００１９】第３の発明は、上記第１または第２の発明
に、音階の開始タイミングと前記音階に対応する歌声の
最初の音節の聴覚上のリズム知覚点とをほぼ一致させる
ように制御して音声波形を並べる手段を設けたものであ
り、これによりリズム感のよい歌声を合成できる。

【００２０】第４の発明は、上記第１または第２の発明
に、音階の開始タイミングと前記音階に対応する歌声の
最初の音節の聴覚上のリズム知覚点との時間が所望の時
間となるように制御して音声波形を並べる手段を設けた
ものであり、これによりリズム感がよく、かつ前記時間
を例えば長めにとることによって、ためて歌う等、歌声
としての表現力を増すことができる。

【００２１】第５の発明は、上記第１〜第４の発明に、
並べた音声波形データのサンプルタイミングが合成音声
の出力サンプルタイミングと異なるときには前記サンプ
ルタイミングでの音声波形データを入力として、出力サ
ンプルタイミングでの音声波形データを求める補間手段
を設け、補間した音声波形データを重ね合わせることに
より、所望の歌声を合成するものである。これにより、
従来、サンプル周期を単位として表現されていたピッチ
周期間隔の精度を例えば１２ビット精度分、すなわちサ
ンプル周期の２^-12まで向上させ、自然で滑らかな歌声
を合成することができる。

【００２２】第６の発明は、上記第５の発明において、
無声音波形データのサンプルタイミングが合成音声の出
力サンプルタイミングと一致しない場合、無声音波形デ
ータのサンプルタイミングを出力サンプルタイミングに
一致するようにシフトし、無声音波形データに対しては
補間を行わないことにより、高周波数成分を多く含んで
いる無声音の補間による音質変化を抑え、自然な歌声を
合成することができる。

【００２３】第７の発明は、上記第５または第６の発明
において、補間手段が高次補間を行うもので、補間精度
を向上させることにより、より自然で滑らかな歌声を合
成することができる。

【００２４】第８の発明は、上記第１〜第７の発明に、
音階に対応するピッチ周期間隔に周期的な変化を与える
ビブラート付加手段を設けたもので、ピッチ周期にビブ
ラートを付加することで、より自然な歌声を合成するこ
とができる。

【００２５】以下、本発明の実施の形態について、図面
を用いて説明する。（実施の形態１）図１は、本発明の実施の形態１による
歌声合成装置の構成を示すブロック図である。図１にお
いて、１は歌声合成制御手段、２は歌声シーケンス記憶
手段、３は音声素片データアドレス算出手段、４は音声
素片データ記憶手段、５はピッチ周期算出手段、６はピ
ッチ周期補正手段、７は加算合成処理手段、８はエンベ
ロープ算出手段、９はエンベロープ処理手段、１０はＤ
Ａコンバータである。

【００２６】以上のように構成された実施の形態１にお
ける歌声合成装置について、以下その動作について説明
する。

【００２７】歌声合成制御手段１は、歌声合成装置全体
の動作とそのタイミングを制御する。

【００２８】歌声シーケンス記憶手段２は、任意の歌声
を合成するのに必要な歌声シーケンスデータを記憶して
いる。

【００２９】図２に歌声シーケンス記憶手段２に記憶し
ている歌声シーケンスデータの例を示す。同図におい
て、（ａ）に示す楽譜に対応する歌声シーケンスデータ
が、（ｂ）に示されている。同図（ｂ）で音階は音名で
表現し、また、発音記号は音節単位で表現している。本
実施の形態においては、歌声シーケンスデータは、イベ
ントデータから構成されている。イベントデータは、イ
ベントの発生する時刻と発音記号と音階と音量とから構
成され、同図（ｂ）で１行として表されている。イベン
トデータは、発音記号で指定された音節の音声が、指定
された時刻に指定された音階と音量で出力されることを
表す。また、音量０は該当する音声の発音終了を表す。

【００３０】音声素片データアドレス算出手段３は、歌
声シーケンス記憶手段２から読み出された歌声シーケン
スデータの発音記号から前記発音記号に対応する音声素
片データのアドレスを算出し、音声素片データ記憶手段
４に出力する。

【００３１】音声素片データ記憶手段４は、ピッチ周期
で窓を掛けて切り出した音声波形（音声素片と呼ぶ）デ
ータを記憶しており、音声素片データアドレス算出手段
３から出力されたアドレスにしたがって音声素片データ
を読み出し、出力する。

【００３２】一方、ピッチ周期算出手段５は、歌声シー
ケンス記憶手段２から読み出された歌声シーケンスデー
タの音階から前記音階に対応するピッチ周期間隔を算出
する。

【００３３】次に、ピッチ周期補正手段６は、音階の切
り替えタイミングで有声音同士を接続する場合、ピッチ
周期間隔の急激な変化が生じないように、ピッチ周期算
出手段５から出力されたピッチ周期間隔を補正し、出力
する。

【００３４】ピッチ周期補正手段６の動作について図面
を用いてさらに説明する。音階の切り替えタイミングで
の補正前のピッチ周期を図１０に示すものとしたとき、
ピッチ周期補正手段６によって補正されたピッチ周期を
図３に示す。図３は、実施の形態１において、（ａ）は
音階を切り替える前の音声波形を、（ｂ）は音階を切り
替えた後の音声波形を、（ｃ）は（ａ）と（ｂ）を接続
して合成した音声波形を示す。音階の切り替えタイミン
グで、図１０に示す補正前のピッチ周期は（Ｔ _x＋Ｔ₂）
であるのの対し、図３に示す補正後のピッチ周期は（Ｔ
₁＋Ｔ₂）／２である。すなわち、ピッチ周期補正手段６
は、音階の切り替えタイミングでピッチ周期の急激な変
化が発生することを検出し、この実施の形態では切り替
え前後のピッチ周期の平均値に置き換える。

【００３５】加算合成処理手段７は、音声素片データ記
憶手段４から読み出された音声素片データをピッチ周期
補正手段６で補正されたピッチ周期間隔で並べ、重ね合
わせて図３（ｃ）に示す音声を合成し、出力する。

【００３６】エンベロープ算出手段８は、歌声シーケン
ス記憶手段２から読み出された歌声シーケンスデータの
音量から前記音量に対応するゲインを算出し、エンベロ
ープ情報（この場合はゲインのみ）をエンベロープ処理
手段９に出力する。

【００３７】エンベロープ処理手段９は、エンベロープ
算出手段８からのエンベロープ情報にしたがって加算合
成手段７から出力された合成音声に対してエンベロープ
処理を行い、結果の歌声合成音声をＤＡコンバータ１０
を介してスピーカから出力する。

【００３８】以上のように、実施の形態１によれば、有
声音同士を接続する場合、前記音階の切り替えタイミン
グでピッチ周期間隔の急激な変化が発生しないように補
正する手段を設けることにより、有声音の音階の切り替
えタイミングにおいてもピッチ周期間隔を滑らかに変化
させ、音階の切り替えタイミングでのフェードアウト処
理とフェードイン処理を不要とすることによって、音切
れ感のない滑らかな歌声を合成することができる。

【００３９】なお、実施の形態１では、音声素片データ
記憶手段４は、ピッチ周期で窓を掛けて切り出した音声
波形を記憶しているものとしたが、切り出し前の音声波
形データを記憶し、読み出すときに窓を掛けることによ
って切り出してもよい。

【００４０】（実施の形態２）図４は、本発明の実施の
形態２による歌声合成装置の構成を示すブロック図であ
る。図４において、１は歌声合成制御手段、２は歌声シ
ーケンス記憶手段、３は音声素片データアドレス算出手
段、４は音声素片データ記憶手段、５はピッチ周期算出
手段、６はピッチ周期補正手段、７は加算合成処理手
段、８はエンベロープ算出手段、９はエンベロープ処理
手段、１０はＤＡコンバータ、１１は加算合成処理手段
である。

【００４１】実施の形態１と実施の形態２の構成上の相
違点は、実施の形態２では加算合成処理手段１１が追加
されている点である。

【００４２】以上のように構成された実施の形態２にお
ける歌声合成装置について、前記構成上の相違点を中心
にして、以下その動作について説明する。

【００４３】歌声合成制御手段１は、歌声合成装置全体
の動作とそのタイミングを制御する。歌声シーケンス記
憶手段２は、任意の歌声を合成するのに必要な歌声シー
ケンスデータを記憶している。歌声シーケンス記憶手段
２に記憶している歌声シーケンスデータは、実施の形態
１で説明したものと同一である。音声素片データアドレ
ス算出手段３は、歌声シーケンス記憶手段２から読み出
された歌声シーケンスデータの発音記号から前記発音記
号に対応する音声素片データのアドレスを算出し、音声
素片データ記憶手段４に出力する。音声素片データ記憶
手段４は、ピッチ周期で切り出した音声素片波形データ
を記憶しており、音声素片データアドレス算出手段３か
ら出力されるアドレスにしたがって音声素片データを読
み出し、出力する。

【００４４】一方、ピッチ周期算出手段５は、歌声シー
ケンス記憶手段２から読み出された歌声シーケンスデー
タの音階から前記音階に対応するピッチ周期間隔を算出
し、出力する。次に、ピッチ周期補正手段６は、音階の
切り替えタイミングで有声音同士を接続する場合、実施
の形態１で説明したのと同様にして、ピッチ周期間隔の
急激な変化が生じないように補正したピッチ周期間隔を
加算合成処理手段７と加算合成処理手段１１に出力す
る。

【００４５】加算合成処理手段７は、音声素片データ記
憶手段４から読み出された音声素片データをピッチ周期
補正手段６で補正されたピッチ周期間隔で並べ、音階単
位で重ね合わせて合成音声を出力する。実施の形態１で
は、加算合成処理手段７は音階間の重ね合わせ（加算合
成）も行っていたのに対して、実施の形態２では、加算
合成処理手段７は音階単位での重ね合わせを行い、音階
間の重ね合わせは加算合成手段１１で行う。

【００４６】次に、エンベロープ算出手段８の動作につ
いて、図５を用いて説明する。エンベロープ算出手段８
は、図５（ａ）に示すように、音階の切り替え前の音声
波形をピッチ周期補正手段６で補正したピッチ間隔で並
べた音声波形に対してフェードアウト処理を行うのに必
要なエンベロープ情報（図５の破線で示す）を算出す
る。前記エンベロープ情報の最大振幅は、実施の形態１
と同様に、歌声シーケンスデータの音量に対応するゲイ
ンにより定められる。さらに、エンベロープ算出手段８
は、図５（ｂ）に示すように、音階の切り替え後の音声
波形をピッチ周期補正手段６で補正したピッチ間隔で並
べた音声波形に対してフェードイン処理を行うのに必要
なエンベロープ情報も算出する。図５に示したように、
フェードアウトする音声波形とフェードインする音声波
形は、音節の切り替えタイミングをほぼ中心にして互い
にオーバーラップしている。エンベロープ算出手段８
は、以上のようにして算出したエンベロープ情報をエン
ベロープ処理手段９に出力する。

【００４７】エンベロープ処理手段９は、エンベロープ
算出手段８からのエンベロープ情報にしたがって加算合
成手段７から出力された音階単位の合成音声に対してエ
ンベロープ処理を行い、図５（ａ），（ｂ）に示す合成
音声波形を出力する。

【００４８】加算合成処理手段１１は、エンベロープ処
理手段９から出力された音階単位の合成音声をオーバー
ラップして接続し、加算合成処理を行うことにより、図
５（ｃ）に示す音声を合成し、出力する。

【００４９】次に、加算合成処理手段１１から出力され
た歌声合成音声をＤＡコンバータ１０を介してスピーカ
から出力する。

【００５０】以上のように、実施の形態２によれば、有
声音同士を接続する場合、音階の切り替えタイミングで
ピッチ周期間隔の急激な変化が発生しないように補正す
る手段と、前記音階切り替えタイミング前後の音声波形
を前記補正したピッチ周期間隔でオーバーラップして並
べ、クロスフェード接続処理を行う手段とを設けること
により、音階の切り替えタイミングにおいて音声波形の
スペクトルを徐々に変化させることができるので、自然
で滑らかな歌声を合成することができる。

【００５１】（実施の形態３）図６は、本発明の実施の
形態３による歌声合成装置の構成を示すブロック図であ
る。図６において、１は歌声合成制御手段、２は歌声シ
ーケンス記憶手段、３は音声素片データアドレス算出手
段、４は音声素片データ記憶手段、５はピッチ周期算出
手段、６はピッチ周期補正手段、７は加算合成処理手
段、８はエンベロープ算出手段、９はエンベロープ処理
手段、１０はＤＡコンバータ、１１は加算合成処理手
段、１２は音節開始時刻算出手段、１３はビブラート付
加手段、１４はサンプル間データ補間手段である。

【００５２】実施の形態２と実施の形態３の構成上の相
違点は、実施の形態３では音節開始時刻算出手段１２、
ビブラート付加手段１３、サンプル間データ補間手段１
４が追加されている点である。

【００５３】以上のように構成された実施の形態３にお
ける歌声合成装置について、前記構成上の相違点を中心
にして、以下その動作について説明する。

【００５４】歌声合成制御手段１は、歌声合成装置全体
の動作とそのタイミングを制御する。歌声シーケンス記
憶手段２は、任意の歌声を合成するのに必要な歌声シー
ケンスデータを記憶している。歌声シーケンス記憶手段
２に記憶している歌声シーケンスデータは、実施の形態
１で説明したものと同一である。

【００５５】音節開始時刻算出手段１２は、歌声シーケ
ンス記憶手段２から読み出された歌声シーケンスデータ
の音階の開始時刻と発音記号とから、音階の開始時刻と
前記音階に対応する最初の音節の聴覚上のリズム知覚点
とがほぼ一致するように音節の開始時刻を算出する。

【００５６】以下、図７を用いて音節開始時刻算出手段
１２の動作についてさらに説明する。図７において、
（ａ）は以下の説明で例として用いる楽譜、（ｂ）は前
記楽譜の第１小節に示されたメロディの音階（音名で表
記）とその時間長（単位はｍｓ）、（ｃ）は従来の音階
の開始時刻と前記音階に対応する最初の音節の開始時刻
の時間関係、（ｄ）は実施の形態３における音階の開始
時刻と前記音階に対応する最初の音節の開始時刻の時間
関係を表す。同図（ｄ）で▽は音節のリズム知覚点を表
す。

【００５７】音節のリズム知覚点とは、聴覚上のリズム
知覚の基準点のことで、通常、音節を構成している子音
と母音との間にある。同図（ｃ）と（ｄ）においては、
音節の発音記号を子音と母音とに分けて表し、（ｄ）で
は音節のリズム知覚点の位置を模式的に示している。

【００５８】音節の聴覚上のリズム知覚点の算出法につ
いては、例えば、新居康彦、大崎正巳著の「音声処理と
ＤＳＰ」（１９８９年啓学出版発行）と題する本の１６
４頁から１６６頁に記載されている。なお、この本で
は、音節のリズム知覚点のことを拍同期点、あるいは受
聴タイミング点と呼んで説明している。

【００５９】従来、図７（ｃ）に示すように音階の開始
時刻と音節の開始時刻とを一致させていたのに対し、本
実施の形態では、同図（ｄ）に示すように、音階の開始
時刻と音節のリズム知覚点とを一致させる。実際には、
有声音同士を接続する場合、音階の切り替えタイミング
でピッチ周期が不連続とならないように制御しているの
で音階の開始時刻と音節のリズム知覚点とが若干ずれる
場合がある。

【００６０】音節開始時刻算出手段１２は、各音節の音
節開始点からリズム知覚点のまでの時間を予め記憶して
おり、音階の開始時刻から前記リズム知覚点までの時間
分逆のぼった時刻を音節の開始時刻として算出し、出力
する。

【００６１】音声素片データアドレス算出手段３は、音
節開始時刻算出手段１２で算出された音節の開始時刻を
用いて前記音節に対応する音声素片データのアドレスを
算出し、音声素片データ記憶手段４に出力する。

【００６２】音声素片データ記憶手段４は、ピッチ周期
で切り出した音声素片波形を記憶しており、音声素片デ
ータアドレス算出手段３から出力されるアドレスにした
がって音声素片データを読み出し、出力する。

【００６３】一方、ピッチ周期算出手段５は、歌声シー
ケンス記憶手段２から読み出された歌声シーケンスデー
タの音階から前記音階に対応するピッチ周期間隔を算出
し、出力する。次に、ピッチ周期補正手段６は、音階の
切り替えタイミングで有声音同士を接続する場合、実施
の形態１で説明したのと同様にして、ピッチ周期間隔の
急激な変化が生じないように補正したピッチ周期間隔を
出力する。

【００６４】ビブラート付加手段１３は、ピッチ周期補
正手段６から出力された補正したピッチ周期間隔に周期
的な変動を与え、ビブラートを付加し、ビブラートを付
加したピッチ周期間隔をサンプル間データ補間手段１４
と加算合成処理手段７と加算合成処理手段１１とに出力
する。ピッチ周期にビブラートを付加することで、より
自然な歌声を合成することができる。

【００６５】以下、サンプル間データ補間手段１４の動
作について図８を用いて説明する。同図で縦の実線が音
声素片データ記憶手段４に記憶されたサンプルタイミン
グでのデータ値であり、縦の破線が出力サンプルタイミ
ングにおけるデータ値である。また、同図でＴは音声素
片データのサンプル周期を表す。同図は、ピッチ周期間
隔が８．５Ｔで２つの音声素片データ（同図（ａ），
（ｂ）に示す）を並べ、重ね合わせて合成する（同図
（ｃ）に示す）場合を示す。音声素片データ記憶手段４
から読み出された２つの音声素片波形データの内、
（ａ）では音声素片データ記憶手段４から読み出された
音声素片データのサンプルタイミングと出力タイミング
が一致している。同図（ａ）で破線は見えていないが、
これは実線と破線が重なっているためである。一方、同
図（ｂ）では音声素片データ記憶手段４から読み出され
た音声素片データのサンプルタイミングと出力タイミン
グが０．５Ｔ分ずれている。

【００６６】サンプル間データ補間手段１４は、音声素
片データ記憶手段４から読み出されたサンプルタイミン
グの音声素片波形データから出力サンプルタイミングに
おける音声素片波形データを補間して出力する。出力サ
ンプルタイミングの前後のサンプルタイミングの音声素
片波形データから出力サンプルタイミングにおける音声
素片波形データを直線補間することにより求め、出力す
る。すなわち、図８（ｂ）に示すように、縦の実線で示
す音声素片波形データを入力として破線で示す出力サン
プルタイミングの音声素片波形データを補間して算出
し、出力する。

【００６７】なお、無声音波形データに対しては、前記
無声音波形データのサンプルタイミングが合成音声の出
力サンプルタイミングと一致しない場合、前記無声音波
形データのサンプルタイミングを出力サンプルタイミン
グに一致するようにシフトし、補間を行わないようにす
ることにより、高周波数成分を多く含んでいる無声音の
補間による音質変化を抑え、より自然な歌声を合成する
ことができる。

【００６８】加算合成処理手段７は、サンプル間データ
補間手段１４から出力された音声素片データをビブラー
ト付加手段１３から出力されたピッチ周期間隔で並べ、
音階単位で重ね合わせて合成音声を出力する。

【００６９】エンベロープ算出手段８は、実施の形態２
で説明したのと同様に、有声音同士を接続する場合、音
階の切り替えタイミング前後の音声波形を補正したピッ
チ周期間隔でオーバーラップして並べ、クロスフェード
接続処理を行うのに必要なエンベロープ情報を算出し、
エンベロープ処理手段９に出力する。

【００７０】エンベロープ処理手段９は、エンベロープ
算出手段８からのエンベロープ情報にしたがって加算合
成手段７から出力された音階単位での合成音声に対して
エンベロープ処理を行う。加算合成処理手段１１は、エ
ンベロープ処理手段７から出力された音階単位の合成音
声をオーバーラップして接続、加算合成処理を行うこと
で歌声合成音声を出力する。次に、加算処理手段１１か
ら出力される歌声合成音声をＤＡコンバータ１０を介し
てスピーカから出力する。

【００７１】以上のように実施の形態３によれば、音階
の開始タイミングと前記音階に対応する歌声の最初の音
節の聴覚上のリズム知覚点とをほぼ一致させるように前
記音節の開始時刻を制御する手段を設けることにより、
リズム感のよい歌声を合成することができる。

【００７２】なお、音階の開始タイミングと前記音階に
対応する歌声の最初の音節の聴覚上のリズム知覚点との
時間が所望の時間となるように前記音節の開始時刻を制
御する手段を設け、例えば前記所望の時間を長めにとる
ことによって、ためて歌う感じを出す等、歌声としての
表現力を増すことができる。

【００７３】また、実施の形態３においては、サンプル
間データ補間手段１４で直線補間を行うことにしたが、
必ずしも直線補間でなく高次の補間演算を行うようにし
ても良い。これにより補間精度を向上させ、より自然で
滑らかな歌声を合成することができる。

【００７４】

【発明の効果】以上のように本発明は、ピッチ周期で切
り出した音声波形を、音階に対応するピッチ周期間隔で
並べ、重ね合わせることにより、所望の歌声を合成する
装置であって、有声音同士を接続する場合、音階の切り
替えタイミングでピッチ周期間隔の急激な変化が発生し
ないように補正して音声波形を並べる手段を設けたもの
であり、有声音の音階の切り替えタイミングにおいても
ピッチ周期間隔を滑らかに変化させ、音階の切り替えタ
イミングでのフェードアウト処理とフェードイン処理を
不要とすることによって、音切れ感のない滑らかな歌声
を合成することができる。

【００７５】また、本発明は、ピッチ周期で切り出した
音声波形を、音階に対応するピッチ周期間隔で並べ、重
ね合わせることにより、所望の歌声を合成する装置であ
って、有声音同士を接続する場合、音階の切り替えタイ
ミングでピッチ周期間隔の急激な変化が発生しないよう
に補正して音声波形を並べる手段と、音階切り替えタイ
ミング前後の音声波形を補正したピッチ周期間隔でオー
バーラップして並べ、クロスフェード接続処理を行う手
段とを設けたものであり、音階の切り替えタイミングに
おいて音声波形のスペクトルを徐々に変化させることに
より、自然で滑らかな歌声を合成することができる。

【００７６】また、本発明は、音階の開始タイミングと
音階に対応する歌声の最初の音節の聴覚上のリズム知覚
点とをほぼ一致させるように制御して音声波形を並べる
手段を設けたものであり、これによりリズム感のよい歌
声を合成することができる。

【図面の簡単な説明】

【図１】本発明の実施の形態１による歌声合成装置の構
成を示すブロック図

【図２】同歌声合成装置の歌声シーケンス記憶手段に記
憶している歌声シーケンスデータの例を示す図

【図３】同歌声合成装置の音階切り替えタイミングにお
ける歌声合成波形を説明するための図

【図４】本発明の実施の形態２による歌声合成装置の構
成を示すブロック図

【図５】同歌声合成装置の音階切り替えタイミングにお
ける歌声合成波形を説明するための図

【図６】本発明の実施の形態３による歌声合成装置の構
成を示すブロック図

【図７】同歌声合成装置の音階の開始タイミングと音節
の開始タイミングとの時間関係を示す図

【図８】同歌声合成装置のサンプル間データ補間手段の
動作を説明するための図

【図９】従来の音声合成方法の処理内容を説明するため
の図

【図１０】音階の切り替えタイミングでピッチ周期の不
連続が発生することを説明するための図

【図１１】従来の歌声合成装置の音階の切り替えタイミ
ングにおける歌声合成波形を説明するための図

【符号の説明】１歌声合成制御手段２歌声シーケンス記憶手段３音声素片データアドレス算出手段４音声素片データ記憶手段５ピッチ周期算出手段６ピッチ周期補正手段７，１１加算合成処理手段８エンベロープ算出手段９エンベロープ処理手段１０ＤＡコンバータ１２音節開始時刻算出手段１３ビブラート付加手段１４サンプル間データ補間手段

Claims

【特許請求の範囲】

【請求項１】ピッチ周期で切り出した音声波形を、音
階に対応するピッチ周期間隔で並べ、重ね合わせること
により、所望の歌声を合成する装置であって、有声音同
士を接続する場合、前記音階の切り替えタイミングでピ
ッチ周期間隔の急激な変化が発生しないように補正して
音声波形を並べる手段を設けたことを特徴とする歌声合
成装置。
【請求項２】ピッチ周期で切り出した音声波形を、音
階に対応するピッチ周期間隔で並べ、重ね合わせること
により、所望の歌声を合成する装置であって、有声音同士を接続する場合、前記音階の切り替えタイミ
ングでピッチ周期間隔の急激な変化が発生しないように
補正して音声波形を並べる手段と、前記音階切り替えタイミング前後の音声波形を前記補正
したピッチ周期間隔でオーバーラップして並べ、クロス
フェード接続処理を行う手段とを設けたことを特徴とす
る歌声合成装置。
【請求項３】音階の開始タイミングと前記音階に対応
する歌声の最初の音節の聴覚上のリズム知覚点とをほぼ
一致させるように制御して音声波形を並べる手段を設け
たことを特徴とする請求項１または２に記載の歌声合成
装置。
【請求項４】音階の開始タイミングと前記音階に対応
する歌声の最初の音節の聴覚上のリズム知覚点との時間
が所望の時間となるように制御して音声波形を並べる手
段を設けたことを特徴とする請求項１または２に記載の
歌声合成装置。
【請求項５】並べた音声波形データのサンプルタイミ
ングが合成音声の出力サンプルタイミングと異なるとき
には前記サンプルタイミングでの音声波形データを入力
として、出力サンプルタイミングでの音声波形データを
求める補間手段を設け、補間した音声波形データを並
べ、重ね合わせることにより、所望の歌声を合成するこ
とを特徴とする請求項１ないし４のいずれかに記載の歌
声合成装置。
【請求項６】無声音波形データのサンプルタイミング
が合成音声の出力サンプルタイミングと一致しない場
合、無声音波形データのサンプルタイミングを出力サン
プルタイミングに一致するようにシフトし、無声音波形
データに対しては補間を行わないことを特徴とする請求
項５に記載の歌声合成装置。
【請求項７】補間手段は高次補間を行うことを特徴と
する請求項５または６に記載の歌声合成装置。
【請求項８】音階に対応するピッチ周期間隔に周期的
な変化を与えるビブラート付加手段を設けたことを特徴
とする請求項１ないし７のいずれかに記載の歌声合成装
置。