JP2003255998A

JP2003255998A - 歌唱合成方法と装置及び記録媒体

Info

Publication number: JP2003255998A
Application number: JP2002052006A
Authority: JP
Inventors: Hidenori Kenmochi; 秀紀劔持; Bonada Jordi; ボナダジョルディ; Rosukosu Alex; ロスコスアレックス
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2002-02-27
Filing date: 2002-02-27
Publication date: 2003-09-10
Anticipated expiration: 2022-02-27
Also published as: US6992245B2; JP3815347B2; US20030221542A1

Abstract

(57)【要約】【課題】自然な歌唱音声又は高品質の歌唱音声を合成
する。【解決手段】音素又は音素連鎖からなる音声素片に対
応する音声波形を周波数分析して周波数スペクトル
（Ａ）を検出する。周波数スペクトル（Ａ）上でＰ _１等
の局所的ピークを検知し、これらのピークを含むＲ_１等
のスペクトル分布領域を指定する。各スペクトル分布領
域毎に、振幅スペクトル分布を周波数軸に関して表わす
振幅スペクトルデータと、位相スペクトル分布を周波数
軸に関して表わす位相スペクトルデータとを生成する。
各スペクトル分布領域の振幅スペクトル分布を入力音符
ピッチに応じて周波数軸上で（Ｂ）の様に移動すべく振
幅スペクトルデータを修正し、この修正に対応して位相
スペクトルデータを修正する。所望の音色に対応するス
ペクトル包絡に沿うようにスペクトル強度を調整する。
修正された振幅及び位相スペクトルデータを時間領域の
合成音声信号に変換する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、フェーズボコー
ダ技術を用いて歌唱音声を合成する方法と装置及び記録
媒体に関するものである。

【０００２】

【従来の技術】従来、歌唱合成技術としては、米国特許
第５０２９５０９号明細書等により公知のＳＭＳ（Spec
tral Modeling Synthesis）技術を用いて歌唱合成を
行なうものが知られている（例えば、特許第２９０６９
７０号参照）。

【０００３】図２１は、特許２９０６９７０号に示され
る技術を採用した歌唱合成装置を示すものである。ステ
ップＳ１では、歌唱音声信号を入力し、ステップＳ２で
は、入力された歌唱音声信号にＳＭＳ分析処理及び区間
切出し処理を施す。

【０００４】ＳＭＳ分析処理では、入力音声信号を一連
の時間フレームに区分し、各フレーム毎にＦＦＴ（Fast
Fourier Transform）等により１組の強度（マグニチ
ュード）スペクトルデータを生成し、各フレーム毎に１
組の強度スペクトルデータから複数のピークに対応する
線スペクトルを抽出する。これらの線スペクトルの振幅
値及び周波数を表わすデータを調和成分（Deterministi
c Component）のデータと称する。次に、入力音声波形
のスペクトルから調和成分のスペクトルを差引いて残差
スペクトルを得る。この残差スペクトルを非調和成分
（Stochastic Component）と称する。

【０００５】区間切出し処理では、ＳＭＳ分析処理で得
られた調和成分のデータ及び非調和成分のデータを音声
素片に対応して区分する。音声素片とは、歌詞の構成要
素であり、例えば［ａ］，［ｉ］のような単一の音素
（又は音韻：Phoneme）又は例えば「ａｉ」，［ａ
ｐ］のような音素連鎖（複数音素の連鎖）からなるもの
である。

【０００６】音声素片データベースＤＢには、音声素片
毎に調和成分のデータ及び非調和成分のデータが記憶さ
れる。

【０００７】歌唱合成に際しては、ステップＳ３で歌詞
データ及びメロディデータを入力する。そして、ステッ
プＳ４では、歌詞データが表わす音素列に音素列／音声
素片変換処理を施して音素列を音声素片に区分し、音声
素片毎にそれに対応する調和成分のデータ及び非調和成
分のデータを音声素片データとしてデータベースＤＢか
ら読出す。

【０００８】ステップＳ５では、データベースＤＢから
読出された音声素片データ（調和成分のデータ及び非調
和成分のデータ）に音声素片接続処理を施して音声素片
データ同士を発音順に接続する。ステップＳ６では、音
声素片毎に調和成分のデータと入力メロディデータの示
す音符ピッチとに基づいて該音符ピッチに適合した新た
な調和成分のデータを生成する。このとき、新たな調和
成分のデータでは、ステップＳ５の処理を受けた調和成
分のデータが表わすスペクトル包絡の形状をそのまま引
継ぐようにスペクトル強度を調整すると、ステップＳ１
で入力した音声信号の音色を再現することができる。

【０００９】ステップＳ７では、ステップＳ６で生成し
た調和成分のデータとステップＳ５の処理を受けた非調
和成分のデータとを音声素片毎に加算する。そして、ス
テップＳ８では、ステップＳ７で加算処理を受けたデー
タを音声素片毎に逆ＦＦＴ等により時間領域の合成音声
信号に変換する。

【００１０】一例として、「サイタ」（ｓａｉｔａ）と
いう歌唱音声を合成するには、データベースＤＢから音
声素片「＃ｓ」、「ｓａ」、「ａ」、「ａｉ」、
「ｉ」、「ｉｔ」、「ｔａ」、「ａ」、「ａ＃」（＃
は無音を表わす）にそれぞれ対応する音声素片データを
読出してステップＳ５で接続する。そして、ステップＳ
６で音声素片毎に入力音符ピッチに対応するピッチを有
する調和成分のデータを生成し、ステップＳ７の加算処
理及びステップＳ８の変換処理を経ると、「サイタ」の
歌唱合成音信号が得られる。

【００１１】

【発明が解決しようとする課題】上記した従来技術によ
ると、調和成分と非調和成分の一体感が十分でないとい
う問題点がある。すなわち、ステップＳ１で入力した音
声信号のピッチをステップＳ６で入力音符ピッチに対応
して変更し、変更したピッチを有する調和成分のデータ
にステップＳ７で非調和成分のデータを加算するため、
例えば、「サイタ」の歌唱における「ｉ」のような伸ば
し音の区間で非調和成分が分離して響き、人工的な音声
として聴こえるという問題点がある。

【００１２】このような問題点に対処するため、非調和
成分のデータが表わす低域の振幅スペクトル分布を入力
音符ピッチに応じて修正することを本願出願人は先に提
案した（特願２０００−４０１０４１参照）。しかし、
このように非調和成分のデータを修正しても、非調和成
分が分離して響くのを完全に抑えるのは容易でない。

【００１３】また、ＳＭＳ技術にあっては、有音の摩擦
音や破裂音等の分析が難しく、合成音が非常に人工的な
音になってしまうという問題点もある。ＳＭＳ技術は、
音声信号が調和成分と非調和成分とから成り立っている
ことを前提にしているものであり、音声信号を調和成分
と非調和成分とに完全に分離できないことは、ＳＭＳ技
術にとって根本的な問題といえる。

【００１４】一方、フェーズボコーダ技術は、米国特許
第３３６０６１０号明細書に示されている。フェーズボ
コーダ技術では、古くはフィルタバンクとして、新しく
は入力信号のＦＦＴ結果として周波数領域で信号を表現
する。最近では、フェーズボコーダ技術が楽音の時間軸
圧伸（ピッチをそのままにして時間だけ圧縮又は伸張す
る）やピッチ変換（時間長はそのままにしてピッチだけ
変化させる）などに広く利用されている。この種のピッ
チ変換技術としては、入力信号のＦＦＴ結果をそのまま
用いるのではなく、ＦＦＴスペクトルを局所的ピークを
中心とした複数のスペクトル分布領域に分割し、各スペ
クトル分布領域毎にスペクトル分布を周波数軸上で移動
することによりピッチ変換を行なうものが知られている
（例えば、Ｊ．Laroche and Ｍ．Dolson，“New Pha
se−Vocoder Techniques forReal−Time Pitch Shi
fting，Chorusing，Harmonizing，and Other ExoticA
udio Modifications”Ｊ．Audio Eng．Soc．，Vol．
４７，No．１１，１９９９ November 参照）。しか
し、このようなピッチ変換技術と歌唱合成技術との関連
性については明らかにされていない。

【００１５】この発明の目的は、フェーズボコーダ技術
を用いて自然で高品質の音声合成を可能にした新規な歌
唱合成方法と装置及び記録媒体を提供することにある。

【００１６】

【課題を解決するための手段】この発明に係る第１の歌
唱合成方法は、合成すべき音声の音声素片に対応する音
声波形を周波数分析して周波数スペクトルを検出するス
テップと、前記周波数スペクトル上でスペクトル強度の
局所的ピークを複数検知するステップと、各局所的ピー
ク毎に該局所的ピークとその前後のスペクトルとを含む
スペクトル分布領域を前記周波数スペクトル上で指定
し、各スペクトル分布領域毎に振幅スペクトル分布を周
波数軸に関して表わす振幅スペクトルデータを生成する
ステップと、各スペクトル分布領域毎に位相スペクトル
分布を周波数軸に関して表わす位相スペクトルデータを
生成するステップと、前記合成すべき音声についてピッ
チを指定するステップと、各スペクトル分布領域毎に前
記振幅スペクトルデータが表わす振幅スペクトル分布を
前記ピッチに応じて周波数軸上で移動するように前記振
幅スペクトルデータを修正するステップと、各スペクト
ル分布領域毎に前記位相スペクトルデータが表わす位相
スペクトル分布を前記振幅スペクトルデータの修正に対
応して修正するステップと、前記修正に係る振幅スペク
トルデータ及び前記修正に係る位相スペクトルデータを
時間領域の合成音声信号に変換するステップとを含むも
のである。

【００１７】第１の歌唱合成方法によれば、音声素片
（音素又は音素連鎖）に対応する音声波形が周波数分析
されて周波数スペクトルが検出される。そして、周波数
スペクトルに基づいて振幅スペクトルデータと、位相ス
ペクトルデータとが生成される。所望のピッチが指定さ
れると、指定のピッチに応じて振幅スペクトルデータ及
び位相スペクトルデータが修正され、修正に係る振幅ス
ペクトルデータ及び位相スペクトルデータに基づいて時
間領域の合成音声信号が発生される。このように音声波
形の周波数分析結果を調和成分と非調和成分とに分離し
ないで音声合成を行なうため、非調和成分が分離して響
くことがなく、自然な合成音を得ることができる。ま
た、有声の摩擦音や破裂音であっても自然な合成音が得
られる。

【００１８】この発明に係る第２の歌唱合成方法は、合
成すべき音声の音声素片に対応する振幅スペクトルデー
タ及び位相スペクトルデータを取得するステップであっ
て、前記振幅スペクトルデータとしては、前記音声素片
の音声波形を周波数分析して得た周波数スペクトルにお
いてスペクトル強度の複数の局所的ピークのうちの各局
所的ピーク毎に該局所的ピークとその前後のスペクトル
とを含むスペクトル分布領域における振幅スペクトル分
布を周波数軸に関して表わすデータを取得し、前記位相
スペクトルデータとしては、各スペクトル分布領域毎に
位相スペクトル分布を周波数軸に関して表わすデータを
取得するものと、前記合成すべき音声についてピッチを
指定するステップと、各スペクトル分布領域毎に前記振
幅スペクトルデータが表わす振幅スペクトル分布を前記
ピッチに応じて周波数軸上で移動するように前記振幅ス
ペクトルデータを修正するステップと、各スペクトル分
布領域毎に前記位相スペクトルデータが表わす位相スペ
クトル分布を前記振幅スペクトルデータの修正に対応し
て修正するステップと、前記修正に係る振幅スペクトル
データ及び前記修正に係る位相スペクトルデータを時間
領域の合成音声信号に変換するステップとを含むもので
ある。

【００１９】第２の歌唱合成方法は、第１の歌唱合成方
法において、位相スペクトルデータを生成するステップ
までの処理を予め実行して振幅スペクトルデータ及び位
相スペクトルデータを音声素片毎にデータベースに記憶
しておいた場合、又は位相スペクトルデータを生成する
ステップまでの処理を他の機器で実行する場合に相当す
る。すなわち、第２の歌唱合成方法において、取得する
ステップでは、他の機器又はデータベースから合成すべ
き音声の音声素片に対応する振幅スペクトルデータ及び
位相スペクトルデータを取得し、ピッチを指定するステ
ップ以降の処理を第１の歌唱合成方法と同様に実行す
る。従って、第２の歌唱合成方法によれば、第１の歌唱
合成方法と同様に自然な合成音が得られる。

【００２０】第１又は第２の歌唱合成方法において、前
記ピッチを指定するステップでは、経時的なピッチ変化
を示すピッチゆらぎデータに従って前記ピッチを指定す
るようにしてもよい。このようにすると、合成音のピッ
チを経時的に変化させることができ、例えばピッチベン
ド、ビブラート等を付加することができる。また、前記
ピッチゆらぎデータとしては、前記合成すべき音声につ
いて音楽的表情を制御するための制御パラメータに対応
したピッチゆらぎデータを用いるようにしてもよい。こ
のようにすると、例えば音色、ダイナミクス等の制御パ
ラメータに応じて経時的なピッチ変化態様を異ならせる
ことができる。

【００２１】第１又は第２の歌唱合成方法において、前
記振幅スペクトルデータを修正するステップでは、修正
前の複数の局所的ピークを結ぶ線に対応するスペクトル
包絡に沿わない局所的ピークについてスペクトル強度を
該スペクトル包絡に沿うように修正するようにしてもよ
い。このようにすると、元の音声波形の音色を再現する
ことができる。また、前記振幅スペクトルデータを修正
するステップでは、予め定めたスペクトル包絡に沿わな
い局所的ピークについてスペクトル強度を該スペクトル
包絡に沿うように修正するようにしてもよい。このよう
にすると、元の音声波形とは音色を異ならせることがで
きる。

【００２２】上記のようにスペクトル強度をスペクトル
包絡に沿うように修正する場合において、前記振幅スペ
クトルデータを修正するステップでは、一連の時間フレ
ームについて経時的なスペクトル包絡の変化を示すスペ
クトル包絡ゆらぎデータに従ってスペクトル強度を調整
することにより経時的に変化するスペクトル包絡を設定
するようにしてもよい。このようにすると、合成音の音
色を経時的に変化させることができ、例えばトーンベン
ド等を付加することができる。また、前記スペクトル包
絡ゆらぎデータとしては、前記合成すべき音声について
音楽的表情を制御するための制御パラメータに対応した
スペクトル包絡ゆらぎデータを用いるようにしてもよ
い。このようにすると、例えば音色、ダイナミクス等の
制御パラメータに応じて経時的な音色変化態様を異なら
せることができる。

【００２３】この発明に係る第１の歌唱合成装置は、合
成すべき音声について音声素片及びピッチを指定する指
定手段と、音声素片データベースから音声素片データと
して前記音声素片に対応する音声波形を表わす音声波形
データを読出す読出手段と、前記音声波形データが表わ
す音声波形を周波数分析して周波数スペクトルを検出す
る検出手段と、前記音声波形に対応する周波数スペクト
ル上でスペクトル強度の局所的ピークを複数検知する検
知手段と、各局所的ピーク毎に該局所的ピークとその前
後のスペクトルとを含むスペクトル分布領域を前記周波
数スペクトル上で指定し、各スペクトル分布領域毎に振
幅スペクトル分布を周波数軸に関して表わす振幅スペク
トルデータを生成する第１の生成手段と、各スペクトル
分布領域毎に位相スペクトル分布を周波数軸に関して表
わす位相スペクトルデータを生成する第２の生成手段
と、各スペクトル分布領域毎に前記振幅スペクトルデー
タが表わす振幅スペクトル分布を前記ピッチに応じて周
波数軸上で移動するように前記振幅スペクトルデータを
修正する第１の修正手段と、各スペクトル分布領域毎に
前記位相スペクトルデータが表わす位相スペクトル分布
を前記振幅スペクトルデータの修正に対応して修正する
第２の修正手段と、前記修正に係る振幅スペクトルデー
タ及び前記修正に係る位相スペクトルデータを時間領域
の合成音声信号に変換する変換手段とを備えたものであ
る。

【００２４】また、この発明に係る第２の歌唱合成装置
は、合成すべき音声について音声素片及びピッチを指定
する指定手段と、音声素片データベースから音声素片デ
ータとして前記音声素片に対応する振幅スペクトルデー
タ及び位相スペクトルデータを読出す読出手段であっ
て、前記振幅スペクトルデータとしては、前記音声素片
の音声波形を周波数分析して得た周波数スペクトルにお
いてスペクトル強度の複数の局所的ピークのうちの各局
所的ピーク毎に該局所的ピークとその前後のスペクトル
とを含むスペクトル分布領域における振幅スペクトル分
布を周波数軸に関して表わすデータを読出し、前記位相
スペクトルデータとしては、各スペクトル分布領域毎に
位相スペクトル分布を周波数軸に関して表わすデータを
読出すものと、各スペクトル分布領域毎に前記振幅スペ
クトルデータが表わす振幅スペクトル分布を前記ピッチ
に応じて周波数軸上で移動するように前記振幅スペクト
ルデータを修正する第１の修正手段と、各スペクトル分
布領域毎に前記位相スペクトルデータが表わす位相スペ
クトル分布を前記振幅スペクトルデータの修正に対応し
て修正する第２の修正手段と、前記修正に係る振幅スペ
クトルデータ及び前記修正に係る位相スペクトルデータ
を時間領域の合成音声信号に変換する変換手段とを備え
たものである。

【００２５】第１又は第２の歌唱合成装置は、音声素片
データベースを用いて前述の第１又は第２の歌唱合成方
法を実施するものであり、自然な歌唱合成音を得ること
ができる。

【００２６】第１又は第２の歌唱合成装置において、前
記指定手段は、前記合成すべき音声について音楽的表情
を制御するための制御パラメータを指定し、前記読出手
段は、前記音声素片及び前記制御パラメータに対応する
音声素片データを読出すようにしてもよい。このように
すると、例えば音色、ダイナミクス等の制御パラメータ
に最適の音声素片データを用いて歌唱合成を行なうこと
ができる。

【００２７】第１又は第２の歌唱合成装置において、前
記指定手段は、前記合成すべき音声について音符長及び
／又はテンポを指定し、前記読出手段は、前記音声素片
データを読出す際に前記音声素片データの一部を省略す
るか又は前記音声素片データの一部もしくは全部を繰返
すかして前記音符長及び／又はテンポに対応する時間の
あいだ前記音声素片データの読出しを継続するようにし
てもよい。このようにすると、音符長及び／又はテンポ
に最適の発音継続時間を得ることができる。

【００２８】この発明に係る第３の歌唱合成装置は、順
次に合成すべき音声のうちの各音声毎に音声素片及びピ
ッチを指定する指定手段と、音声素片データベースから
前記指定手段での指定に係る各音声素片に対応する音声
波形を読出す読出手段と、各音声素片に対応する音声波
形を周波数分析して周波数スペクトルを検出する検出手
段と、各音声素片に対応する周波数スペクトル上でスペ
クトル強度の局所的ピークを複数検知する検知手段と、
各音声素片について各局所的ピーク毎に該局所的ピーク
とその前後のスペクトルとを含むスペクトル分布領域を
該音声素片に対応する周波数スペクトル上で指定し、各
音声素片について各スペクトル分布領域毎に振幅スペク
トル分布を周波数軸に関して表わす振幅スペクトルデー
タを生成する第１の生成手段と、各音声素片について各
スペクトル分布領域毎に位相スペクトル分布を周波数軸
に関して表わす位相スペクトルデータを生成する第２の
生成手段と、各音声素片について各スペクトル分布領域
毎に前記振幅スペクトルデータが表わす振幅スペクトル
分布を該音声素片に対応するピッチに応じて周波数軸上
で移動するように前記振幅スペクトルデータを修正する
第１の修正手段と、各音声素片について各スペクトル分
布領域毎に前記位相スペクトルデータが表わす位相スペ
クトル分布を前記振幅スペクトルデータの修正に対応し
て修正する第２の修正手段と、前記順次に合成すべき音
声にそれぞれ対応する順次の音声素片が発音順につなが
るように前記修正に係る振幅スペクトルデータを接続す
る第１の接続手段であって、前記順次の音声素片のつな
がり部においてスペクトル強度を一致又は近似させるべ
く調整するものと、前記順次に合成すべき音声にそれぞ
れ対応する順次の音声素片が発音順につながるように前
記修正に係る位相スペクトルデータを接続する第２の接
続手段であって、前記順次の音声素片のつながり部にお
いて位相を一致又は近似させるべく調整するものと、前
記接続に係る振幅スペクトルデータ及び前記接続に係る
位相スペクトルデータを時間領域の合成音声信号に変換
する変換手段とを備えたものである。

【００２９】また、この発明に係る第４の歌唱合成装置
は、順次に合成すべき音声のうちの各音声毎に音声素片
及びピッチを指定する指定手段と、音声素片データベー
スから前記指定手段での指定に係る各音声素片に対応す
る振幅スペクトルデータ及び位相スペクトルデータを読
出す読出手段であって、前記振幅スペクトルデータとし
ては、対応する音声素片の音声波形を周波数分析して得
た周波数スペクトルにおいてスペクトル強度の複数の局
所的ピークのうちの各局所的ピーク毎に該局所的ピーク
とその前後のスペクトルとを含むスペクトル分布領域に
おける振幅スペクトル分布を周波数軸に関して表わすデ
ータを読出し、前記位相スペクトルデータとしては、各
スペクトル分布領域毎に位相スペクトル分布を周波数軸
に関して表わすデータを読出すものと、各音声素片につ
いて各スペクトル分布領域毎に前記振幅スペクトルデー
タが表わす振幅スペクトル分布を該音声素片に対応する
ピッチに応じて周波数軸上で移動するように前記振幅ス
ペクトルデータを修正する第１の修正手段と、各音声素
片について各スペクトル分布領域毎に前記位相スペクト
ルデータが表わす位相スペクトル分布を前記振幅スペク
トルデータの修正に対応して修正する第２の修正手段
と、前記順次に合成すべき音声にそれぞれ対応する順次
の音声素片が発音順につながるように前記修正に係る振
幅スペクトルデータを接続する第１の接続手段であっ
て、前記順次の音声素片のつながり部においてスペクト
ル強度を一致又は近似させるべく調整するものと、前記
順次に合成すべき音声にそれぞれ対応する順次の音声素
片が発音順につながるように前記修正に係る位相スペク
トルデータを接続する第２の接続手段であって、前記順
次の音声素片のつながり部において位相を一致又は近似
させるべく調整するものと、前記接続に係る振幅スペク
トルデータ及び前記接続に係る位相スペクトルデータを
時間領域の合成音声信号に変換する変換手段とを備えた
ものである。

【００３０】第３又は第４の歌唱合成装置は、音声素片
データベースを用いて前述の第１又は第２の歌唱合成方
法を実施するものであり、自然な歌唱合成音を得ること
ができる。その上、順次の音声素片が発音順につながる
ように修正に係る振幅スペクトルデータ同士、修正に係
る位相スペクトルデータ同士をそれぞれ接続する際に順
次の音声素片のつながり部においてスペクトル強度、位
相をそれぞれ一致又は近似させるべく調整するようにし
たので、合成音の発生時にノイズが発生するのを防止す
ることができる。

【００３１】

【発明の実施の形態】図１は、この発明の一実施形態に
係る歌唱合成装置の回路構成を示すものである。この歌
唱合成装置は、小型コンピュータ１０によって動作が制
御される構成になっている。

【００３２】バス１１には、ＣＰＵ（中央処理装置）１
２、ＲＯＭ（リード・オンリィ・メモリ）１４、ＲＡＭ
（ランダム・アクセス・メモリ）１６、歌唱入力部１
７、歌詞・メロディ入力部１８、制御パラメータ入力部
２０、外部記憶装置２２、表示部２４、タイマ２６、Ｄ
／Ａ（ディジタル／アナログ）変換部２８、ＭＩＤＩ
（Musical Instrument Digital Interface）インタ
ーフェース３０、通信インターフェース３２等が接続さ
れている。

【００３３】ＣＰＵ１２は、ＲＯＭ１４にストアされた
プログラムに従って歌唱合成等に関する各種処理を実行
するもので、歌唱合成に関する処理については図２〜７
等を参照して後述する。

【００３４】ＲＡＭ１６は、ＣＰＵ１２の各種処理に際
してワーキングエリアとして使用される種々の記憶部を
含むものである。この発明の実施に関係する記憶部とし
ては、例えば入力部１７，１８，２０にそれぞれ対応す
る入力データ記憶領域等が存在するが、詳細については
後述する。

【００３５】歌唱入力部１７は、歌唱音声信号を入力す
るためのマイクロホン、音声入力端子等を有するもの
で、入力した歌唱音声信号をディジタル波形データに変
換するＡ／Ｄ（アナログ／ディジタル）変換器を備えて
いる。入力に係るディジタル波形データは、ＲＡＭ１６
内の所定領域に記憶される。

【００３６】歌詞・メロディ入力部１８は、文字、数字
等を入力可能なキーボード、楽譜読取り可能な読取器等
を備えたもので、所望の歌唱曲について歌詞を構成する
音素列を表わす歌詞データとメロディを構成する音符列
（休符も含む）を表わすメロディデータを入力可能であ
る。入力に係る歌詞データ及びメロディデータは、ＲＡ
Ｍ１６内の所定の領域に記憶される。

【００３７】制御パラメータ入力部２０は、スイッチ、
ボリューム等のパラメータ設定器を備えたもので、歌唱
合成音について音楽的表情を制御するための制御パラメ
ータを設定可能である。制御パラメータとしては、音
色、ピッチ区分（高、中、低等）、ピッチのゆらぎ（ピ
ッチベンド、ビブラート等）、ダイナミクス区分（音量
レベルの大、中、小等）、テンポ区分（テンポの速い、
中位、遅い等）などを設定可能である。設定に係る制御
パラメータを表わす制御パラメータデータは、ＲＡＭ１
６内の所定領域に記憶される。

【００３８】外部記憶装置２２は、ＨＤ（ハードディス
ク）、ＦＤ（フレキシブルディスク）、ＣＤ（コンパク
トディスク）、ＤＶＤ（ディジタル多目的ディスク）、
ＭＯ（光磁気ディスク）等のうち１又は複数種類の記録
媒体を着脱可能なものである。外部記憶装置２２に所望
の記録媒体を装着した状態では、記録媒体からＲＡＭ１
６へデータを転送可能である。また、装着した記録媒体
がＨＤやＦＤのように書込み可能なものであれば、ＲＡ
Ｍ１６のデータを記録媒体に転送可能である。

【００３９】プログラム記録手段としては、ＲＯＭ１４
の代わりに外部記憶装置２２の記録媒体を用いることが
できる。この場合、記録媒体に記録したプログラムは、
外部記憶装置２２からＲＡＭ１６へ転送する。そして、
ＲＡＭ１６に記憶したプログラムにしたがってＣＰＵ１
２を動作させる。このようにすると、プログラムの追加
やバージョンアップ等を容易に行なうことができる。

【００４０】表示部２４は、液晶表示器等の表示器を含
むもので、前述した歌詞データ及びメロディデータ、後
述する周波数分析結果等の種々の情報を表示可能であ
る。

【００４１】タイマ２６は、テンポデータＴＭの指示す
るテンポに対応した周期でテンポクロック信号ＴＣＬを
発生するもので、テンポクロック信号ＴＣＬは、ＣＰＵ
１２に供給される。ＣＰＵ１２は、テンポクロック信号
ＴＣＬに基づいてＤ／Ａ変換部２８への信号出力処理を
行なう。テンポデータＴＭの指示するテンポは、入力部
２０内のテンポ設定器により可変設定することができ
る。

【００４２】Ｄ／Ａ変換部２８は、合成されたディジタ
ル音声信号をアナログ音声信号に変換するものである。
Ｄ／Ａ変換部２８から送出されるアナログ音声信号は、
アンプ、スピーカ等を含むサウンドシステム３４により
音響に変換される。

【００４３】ＭＩＤＩインターフェース３０は、この歌
唱合成装置とは別体のＭＩＤＩ機器３６との間でＭＩＤ
Ｉ通信を行なうために設けられたもので、この発明で
は、ＭＩＤＩ機器３６から歌唱合成用のデータを受信す
るために用いられる。歌唱合成用のデータとしては、所
望の歌唱曲に関する歌詞データ及びメロディデータ、音
楽的表情を制御するための制御パラメータデータ等を受
信可能である。これらの歌唱合成用データは、いわゆる
ＭＩＤＩフォーマットに従って作成されるものであり、
入力部１８から入力される歌詞データ及びメロディデー
タや入力部２０から入力される制御パラメータデータに
ついてもＭＩＤＩフォーマットを採用するのが好まし
い。

【００４４】ＭＩＤＩインターフェース３０を介して受
信される歌詞データ、メロディデータ及び制御パラメー
タデータについては、他のデータより時間的に先送り可
能とするため、ＭＩＤＩのシステムエクスクルーシブデ
ータ（メーカーで独自に定義可能なデータ）とするのが
好ましい。また、入力部２０から入力される制御パラメ
ータデータ又はＭＩＤＩインターフェース３０を介して
受信される制御パラメータデータのうちの１種類のデー
タとしては、後述するデータベースに歌手（音色）毎に
音声素片データを記憶した場合に歌手（音色）指定デー
タを用いるようにしてもよい。この場合、歌手（音色）
指定データとしては、ＭＩＤＩのプログラムチェンジデ
ータを使用することができる。

【００４５】通信インターフェース３２は、通信ネット
ワーク（例えばＬＡＮ（ローカル・エリア・ネットワー
ク）、インターネット、電話回線等）３７を介して他の
コンピュータ３８と情報通信を行なうために設けられた
ものである。この発明の実施に必要なプログラムや各種
データ（例えば歌詞データ、メロディデータ、音声素片
データ等）は、コンピュータ３８から通信ネットワーク
３７及び通信インターフェース３２を介してＲＡＭ１６
または外部記憶装置２２へダウンロード要求に応じて取
込むようにしてもよい。

【００４６】次に、図２を参照して歌唱分析処理の一例
を説明する。ステップ４０では、入力部１７からマイク
ロホン又は音声入力端子を介して歌唱音声信号を入力し
てＡ／Ｄ変換し、入力信号の音声波形を表わすディジタ
ル波形データをＲＡＭ１６に記憶させる。図８（Ａ）に
は、入力音声波形の一例を示す。なお、図８（Ａ）及び
その他の図において、「ｔ」は時間を表わす。

【００４７】ステップ４２では、記憶に係るディジタル
波形データについて音声素片（音素又は音素連鎖）に対
応する区間毎に区間波形を切出す（ディジタル波形デー
タを分割する）。音声素片としては、母音の音素、母音
と子音又は子音と母音の音素連鎖、子音と子音の音素連
鎖、母音と母音の音素連鎖、無音と子音又は母音の音素
連鎖、母音又は子音と無音の音素連鎖等があり、母音の
音素としては、母音を伸ばして歌唱した伸ばし音の音素
もある。一例として、「サイタ」の歌唱については、音
声素片「＃ｓ」、「ｓａ」、「ａ」、「ａｉ」、
「ｉ」、「ｉｔ」、「ｔａ」、「ａ」、「ａ＃」にそ
れぞれ対応する区間波形を切出す。

【００４８】ステップ４４では、区間波形毎に１又は複
数の時間フレームを定め、各フレーム毎にＦＦＴ等によ
り周波数分析を実行して周波数スペクトル（振幅スペク
トルと位相スペクトル）を検出する。そして、周波数ス
ペクトルを表わすデータをＲＡＭ１６の所定領域に記憶
させる。フレーム長は、一定長であってもよく、あるい
は可変長であってもよい。フレーム長を可変長とするに
は、あるフレームを固定長として周波数分析した後、周
波数分析の結果からピッチを検出し、検出ピッチに応じ
たフレーム長を設定して再び該フレームの周波数分析を
行なう方法、あるいはあるフレームを固定長として周波
数分析した後、周波数分析の結果からピッチを検出し、
検出ピッチに応じて次のフレームの長さを設定し、該次
のフレームの周波数分析を行なう方法等を採用すること
ができる。フレーム数は、母音のみからなる単一の音素
については、１又は複数フレームとするが、音素連鎖に
ついては、複数フレームとする。図８（Ｂ）には、図８
（Ａ）の音声波形をＦＦＴにより周波数分析して得た周
波数スペクトルを示す。なお、図８（Ｂ）及びその他の
図において、「ｆ」は周波数を表わす。

【００４９】次に、ステップ４６では、音声素片毎に振
幅スペクトルに基づいてピッチを検出し、検出ピッチを
表わすピッチデータを生成し、ＲＡＭ１６の所定領域に
記憶させる。ピッチ検出は、フレーム毎に求めたピッチ
を全フレームについて平均する方法等により行なうこと
ができる。

【００５０】ステップ４８では、フレーム毎に振幅スペ
クトル上でスペクトル強度（振幅）の局所的ピークを複
数検知する。局所的ピークを検知するには、近隣の複数
（例えば４つ）のピークについて振幅値が最大のピーク
を検知する方法等を用いることができる。図８（Ｂ）に
は、検知した複数の局所的ピークＰ_１，Ｐ_２，Ｐ_３…が
示されている。

【００５１】ステップ５０では、フレーム毎に振幅スペ
クトル上で各局所的ピークに対応するスペクトル分布領
域を指定し、該領域内の振幅スペクトル分布を周波数軸
に関して表わす振幅スペクトルデータを生成し、ＲＡＭ
１６の所定領域に記憶させる。スペクトル分布領域を指
定する方法としては、隣り合う２つの局所的ピーク間で
周波数軸を半分に切り、各半分を近い方の局所的ピーク
を含むスペクトル分布領域に割当てる方法、あるいは隣
り合う２つの局所的ピーク間で振幅値が最低の谷を見出
し、最低の振幅値に対応する周波数を隣り合うスペクト
ル分布領域間の境界とする方法等を採用することができ
る。図８（Ｂ）には、前者の方法により局所的ピークＰ
_１，Ｐ_２，Ｐ_３…をそれぞれ含むスペクトル分布領域Ｒ
_１，Ｒ_２，Ｒ_３…を指定した例を示す。

【００５２】ステップ５２では、フレーム毎に位相スペ
クトルに基づいて各スペクトル分布領域内の位相スペク
トル分布を周波数軸に関して表わす位相スペクトルデー
タを生成し、ＲＡＭ１６内の所定領域に記憶させる。図
１０（Ａ）には、あるフレームのあるスペクトル分布領
域における振幅スペクトル分布及び位相スペクトル分布
がそれぞれ曲線ＡＭ_１及びＰＨ_１により示されている。

【００５３】ステップ５４では、音声素片毎にピッチデ
ータ、振幅スペクトルデータ及び位相スペクトルデータ
を音声素片データベースに記憶させる。音声素片データ
ベースとしては、ＲＡＭ１６または外部記憶装置２２を
使用することができる。

【００５４】図３は、音声素片データベースＤＢＳにお
ける記憶状況の一例を示すものである。データベースＤ
ＢＳには、「ａ」、「ｉ」…等の単一音素に対応する音
声素片データと、「ａｉ」、「ｓａ」…等の音素連鎖
に対応する音声素片データとが記憶される。ステップ５
４では、音声素片データとして、ピッチデータ、振幅ス
ペクトルデータ及び位相スペクトルデータが記憶され
る。

【００５５】音声素片データの記憶に際しては、各音声
素片毎に歌手（音色）、ピッチ区分、ダイナミクス区
分、テンポ区分等を異にする音声素片データを記憶する
と、自然な（又は高品質）の歌唱音を合成可能になる。
例えば、［ａ］の音声素片について、歌手Ａにピッチ区
分を低、中、高として、ダイナミクス区分を小、中、大
として、テンポ区分を遅い、中位、速いとして歌っても
らい、ピッチ区分「低」で且つダイナミクス区分「小」
であっても、テンポ区分「遅い」、「中位」、「速い」
にそれぞれ対応する音声素片データＭ１，Ｍ２，Ｍ３を
記憶し、同様にしてピッチ区分「中」、「高」やダイナ
ミクス区分「中」、「大」についても音声素片データを
記憶する。ステップ４６で生成したピッチデータは、音
声素片データが「低」、「中」、「高」のいずれのピッ
チ区分に属するか判定する際に利用される。

【００５６】また、歌手Ａとは音色を異にする歌手Ｂに
ついても、歌手Ａについて上記したと同様にピッチ区
分、ダイナミクス区分、テンポ区分等を異にする多数の
［ａ］の音声素片データをデータベースＤＢＳに記憶さ
せる。［ａ］以外の他の音声素片についても、歌手Ａ，
Ｂについて上記したと同様に多数の音声素片データをデ
ータベースＤＢＳに記憶させる。

【００５７】上記した例では、入力部１７から入力した
歌唱音声信号に基づいて音声素片データを作成したが、
歌唱音声信号は、インターフェース３０又は３２を介し
て入力し、この入力音声信号に基づいて音声素片データ
を作成するようにしてもよい。また、データベースＤＢ
Ｓとしては、ＲＡＭ１６や外部記憶装置２２に限らず、
ＲＯＭ１４、ＭＩＤＩ機器３６内の記憶装置、コンピュ
ータ３８内の記憶装置等を用いてもよい。

【００５８】図４は、歌唱合成処理の一例を示すもので
ある。ステップ６０では、所望の歌唱曲に関して歌詞デ
ータ及びメロディデータを入力部１８から入力し、ＲＡ
Ｍ１６に記憶させる。歌詞データ及びメロディデータ
は、インターフェース３０又は３２を介して入力するこ
ともできる。

【００５９】ステップ６２では、入力に係る歌詞データ
が表わす音素列を個々の音声素片に変換する。そして、
ステップ６４では、音声素片毎に対応する音声素片デー
タ（ピッチデータ、振幅スペクトルデータ及び位相スペ
クトルデータ）をデータベースＤＢＳから読出す。ステ
ップ６４では、入力部２０から制御パラメータとして音
色、ピッチ区分、ダイナミクス区分、テンポ区分等のデ
ータを入力し、該データの指示する制御パラメータに対
応した音声素片データを読出してもよい。

【００６０】ところで、音声素片の発音継続時間は、音
声素片データのフレーム数に対応する。すなわち、記憶
に係る音声素片データをそのまま用いて音声合成を行な
うと、該音声素片データのフレーム数に対応した発音継
続時間が得られる。しかし、入力される音符の音価（入
力音符長）や設定テンポ等によっては記憶に係る音声素
片データをそのまま用いたのでは発音継続時間が不適切
になることがあり、発音継続時間を変更することが必要
となる。このような必要に応えるためには、入力音符長
や設定テンポ等に応じて音声素片データの読出しフレー
ム数を制御すればよい。

【００６１】例えば、音声素片の発音継続時間を短縮す
るには、音声素片データを読出す際に、一部のフレーム
を飛ばして読出す。また、音声素片の発音継続時間を伸
張するには、音声素片データを反復的に読出す。なお、
「ａ」のような単一音素の伸ばし音を合成する際には、
発音継続時間を変更することが多い。伸ばし音の合成に
ついては、図１４〜１６を参照して後述する。

【００６２】ステップ６６では、音声素片毎に対応する
入力音符のピッチに応じて各フレームの振幅スペクトル
データを修正する。すなわち、各スペクトル分布領域毎
に振幅スペクトルデータが表わす振幅スペクトル分布を
入力音符ピッチに相当するピッチになる様に周波数軸上
で移動する。

【００６３】図１０（Ａ），（Ｂ）は、局所的ピークの
周波数がｆ_ｉであり且つ下限周波数及び上限周波数がそ
れぞれｆ_Ｌ及びｆ_Ｕであるスペクトル分布領域について
ピッチを上昇させるためスペクトル分布ＡＭ_１をＡＭ_２
のように周波数軸上で高音側に移動した例を示す。この
場合、スペクトル分布ＡＭ_２については、局所的ピーク
の周波数がＦ_ｉ＝Ｔ・ｆ_ｉであり、Ｔ＝Ｆ_ｉ／ｆ_ｉをピ
ッチ変換比と称する。また、下限周波数Ｆ_Ｌ及び上限周
波数Ｆ_Ｕは、それぞれ周波数差（ｆ_ｉ−ｆ_Ｌ）及び（ｆ
_Ｕ−ｆ_ｉ）に対応して定める。

【００６４】図９には、（Ａ）に示すようなスペクトル
分布領域（図８（Ｂ）と同じもの）Ｒ_１，Ｒ_２，Ｒ_３…
について局所的ピークＰ_１，Ｐ_２，Ｐ_３…をそれぞれ有
するスペクトル分布を（Ｂ）に示す様に周波数軸上で高
音側に移動した例を示す。図９（Ｂ）に示されるスペク
トル分布領域Ｒ_１において、局所的ピークＰ_１の周波
数、下限周波数ｆ_１１及び上限周波数ｆ_１２は、図１０
に関して上記したと同様に定められる。このことは、他
のスペクトル分布領域についても同様である。

【００６５】上記した例では、ピッチを上昇させるため
スペクトル分布を周波数軸上で高音側に移動したが、ピ
ッチを低下させるためスペクトル分布を周波数軸上で低
音側に移動することもできる。この場合、図１１に示す
様に２つのスペクトル分布領域Ｒａ，Ｒｂに部分的な重
なりが生ずる。

【００６６】図１１の例では、局所的ピークＰａと下限
周波数ｆ_ａ１と上限周波数ｆ_ａ２とを有するスペクトル
分布領域Ｒａに対して、局所的ピークＰｂと下限周波数
ｆ_ｂ _１（ｆ_ｂ１＜ｆ_ａ２）と上限周波数ｆ_ｂ２（ｆ_ｂ２
＞ｆ_ａ２）とを有するスペクトル分布領域Ｒｂが周波数
ｆ_ｂ１〜ｆ_ａ２の領域で重なっている。このような事態
を回避するため、一例として、ｆ_ｂ１〜ｆ_ａ２の周波数
領域を中心周波数ｆ_ｃで２分割し、領域Ｒａの上限周波
数ｆ_ａ２をｆ_ｃより低い所定の周波数に変更すると共
に、領域Ｒｂの下限周波数ｆ_ｂ１をｆ_ｃより高い所定の
周波数に変更する。この結果、領域Ｒａでは、ｆ_ｃより
低い周波数領域でスペクトル分布ＡＭａを利用可能とな
り、領域Ｒｂでは、ｆ_ｃより高い周波数領域でスペクト
ル分布ＡＭｂを利用可能となる。

【００６７】上記のように局所的ピークを含むスペクト
ル分布を周波数軸上で移動する際、周波数の設定を変更
するだけではスペクトル包絡が伸び縮みすることにな
り、音色が入力音声波形のものとは異なる事態が生ず
る。そこで、入力音声波形の音色を再現するためには、
各フレーム毎に一連のスペクトル分布領域の局所的ピー
クを結ぶ線に相当するスペクトル包絡に沿うように１又
は複数のスペクトル分布領域の局所的ピークについてス
ペクトル強度を調整する必要がある。

【００６８】図１２は、スペクトル強度調整の一例を示
すもので、（Ａ）は、ピッチ変換前の局所的ピークＰ
_１１〜Ｐ_１８に対応するスペクトル包絡ＥＶを示す。入
力音符ピッチに応じてピッチを上昇させるため局所的ピ
ークＰ_１１〜Ｐ_１８をそれぞれ（Ｂ）のＰ_２１〜Ｐ_２８
に示すように周波数軸上で移動する際にスペクトル包絡
ＥＶに沿わない局所的ピークについてはスペクトル包絡
ＥＶに沿うようにスペクトル強度を増大又は減少させ
る。この結果、入力音声波形と同様の音色が得られる。

【００６９】図１２（Ａ）において、Ｒｆは、スペクト
ル包絡が欠如した周波数領域であり、ピッチを上昇させ
る場合には、図１２（Ｂ）に示す様に周波数領域Ｒｆ内
にＰ _２７，Ｐ_２８等の局所的ピークを移動する必要が生
ずることがある。このような事態に対処するには、図１
２（Ｂ）に示す様に周波数領域Ｒｆについて補間法によ
りスペクトル包絡ＥＶを求め、求めたスペクトル包絡Ｅ
Ｖに従って局所的ピークのスペクトル強度の調整を行な
えばよい。

【００７０】上記した例では、入力音声波形の音色を再
現するようにしたが、入力音声波形とは異なる音色を合
成音声に付与するようにしてもよい。このためには、図
１２に示したようなスペクトル包絡ＥＶを変形したスペ
クトル包絡を用いるか又は全く新しいスペクトル包絡を
用いるかして上記したと同様に局所的ピークのスペクト
ル強度を調整すればよい。

【００７１】スペクトル包絡を用いた処理を簡素化する
には、スペクトル包絡を曲線又は直線等で表現するのが
好ましい。図１３には、２種類のスペクトル包線曲線Ｅ
Ｖ_１，ＥＶ_２を示す。曲線ＥＶ_１は、局所的ピーク間を
直線で結ぶことによりスペクトル包絡を折れ線で簡単に
表現したものである。また、曲線ＥＶ_２は、スペクトル
包絡を３次のスプライン関数で表わしたものである。曲
線ＥＶ_２を用いると、補間をより正確に行なうことがで
きる。

【００７２】次に、図４のステップ６８では、音声素片
毎に各フレームの振幅スペクトルデータの修正に対応し
て位相スペクトルデータを修正する。すなわち、図１０
（Ａ）に示すようにあるフレームにおけるｉ番目の局所
的ピークを含むスペクトル分布領域では、位相スペクト
ル分布ＰＨ_１が振幅スペクトル分布ＡＭ_１に対応したも
のであり、ステップ６６で振幅スペクトル分布ＡＭ_１を
ＡＭ_２のように移動したときは、振幅スペクトル分布Ａ
Ｍ_２に対応して位相スペクトル分布ＰＨ_１を調整する必
要がある。これは、移動先の局所的ピークの周波数で正
弦波になるようにするためである。

【００７３】ｉ番目の局所的ピークを含むスペクトル分
布領域に関する位相の補正量Δψ_ｉは、フレーム間の時
間間隔をΔｔ、局所的ピークの周波数をｆ_ｉ、ピッチ変
換比をＴとすると、次の数１の式で与えられる。

【００７４】

【数１】Δψ_ｉ＝２πｆ_ｉ（Ｔ−１）Δｔ数１の式で求められた補正量Δψ_ｉは、図１０（Ｂ）に
示す様に周波数Ｆ_Ｌ〜Ｆ_Ｕの領域内の各位相スペクトル
の位相に加算され、局所的ピークの周波数Ｆ_ｉでは位相
がψ_ｉ＋Δψ_ｉとなる。

【００７５】上記のような位相の補正は、各スペクトル
分布領域毎に行なわれる。例えば、あるフレームにおい
て、局所的ピークの周波数が完全に調和関係にある（倍
音の周波数が基音の周波数の完全な整数倍になってい
る）場合には、入力音声の基音周波数（すなわち音声素
片データ内のピッチデータが示すピッチ）をｆ_０とし、
スペクトル分布領域の番号をｋ＝１，２，３…とする
と、位相補正量Δψ_ｉは、次の数２の式で与えられる。

【００７６】

【数２】Δψ_ｉ＝２πｆ_０ｋ（Ｔ−１）Δｔステップ７０では、音声素片毎に設定テンポ等に応じて
発音開始時刻を決定する。発音開始時刻は、設定テンポ
や入力音符長等に依存し、テンポクロック信号ＴＣＬの
クロック数で表わすことができる。一例として、「サイ
タ」の歌唱の場合、「ｓａ」の音声素片の発音開始時
刻は、入力音符長及び設定テンポで決まるノートオン時
刻に「ｓ」ではなく「ａ」の発音が開始されるように設
定する。ステップ６０でリアルタイムで歌詞データ及び
メロディを入力してリアルタイムで歌唱合成を行なうと
きは、子音及び母音の音素連鎖について上記のような発
音開始時刻の設定が可能になるようにノートオン時刻よ
り前に歌詞データ及びメロディデータを入力する。

【００７７】ステップ７２では、音声素片間でスペクト
ル強度のレベルを調整する。このレベル調整処理は、振
幅スペクトルデータ及び位相スペクトルデータのいずれ
についても行なわれるもので、次のステップ７４でのデ
ータ接続に伴って合成音発生時にノイズが発生するのを
回避するために行なわれる。レベル調整処理としては、
スムージング処理、レベル整合処理等があるが、これら
の処理については図１７〜２０を参照して後述する。

【００７８】ステップ７４では、音声素片の発音順に振
幅スペクトルデータ同士、位相スペクトルデータ同士を
それぞれ接続する。そして、ステップ７６では、音声素
片毎に振幅スペクトルデータ及び位相スペクトルデータ
を時間領域の合成音声信号（ディジタル波形データ）に
変換する。

【００７９】図５は、ステップ７６の変換処理の一例を
示すもので、ステップ７６ａでは、周波数領域のフレー
ムデータ（振幅スペクトルデータ及び位相スペクトルデ
ータ）に逆ＦＦＴ処理を施して時間領域の合成音声信号
を得る。そして、ステップ７６ｂでは、時間領域の合成
音声信号に窓掛け処理を施す。この処理は、時間領域の
合成音声信号に時間窓関数を乗算するものである。ステ
ップ７６ｃでは、時間領域の合成音声信号にオーバーラ
ップ処理を施す。この処理は、順次の音声素片について
波形をオーバーラップさせながら時間領域の合成音声信
号を接続するものである。

【００８０】ステップ７８では、ステップ７０で決定し
た発音開始時刻を参照して音声素片毎に合成音声信号を
Ｄ／Ａ変換部２８に出力する。この結果、サウンドシス
テム３４から合成に係る歌唱音声が発生される。

【００８１】図６は、歌唱分析処理の他の例を示すもの
である。ステップ８０では、ステップ４０に関して前述
したと同様にして歌唱音声信号を入力し、入力信号の音
声波形を表すディジタル波形データをＲＡＭ１６に記憶
させる。歌唱音声信号は、インターフェース３０又は３
２を介して入力してもよい。

【００８２】ステップ８２では、ステップ４２に関して
前述したと同様にして記憶に係るディジタル波形データ
について音声素片に対応する区間ごとに区間波形を切出
す。

【００８３】ステップ８４では、音声素片毎に区間波形
を表わす区間波形データ（音声素片データ）を音声素片
データベースに記憶させる。音声素片データベースとし
ては、ＲＡＭ１６や外部記憶装置２２を用いることがで
き、所望によりＲＯＭ１４、ＭＩＤＩ機器３６内の記憶
装置、コンピュータ３８内の記憶装置等を用いてもよ
い。音声素片データの記憶に際しては、図３に関して前
述したと同様に各音声素片毎に歌手（音色）、ピッチ区
分、ダイナミクス区分、テンポ区分等を異にする区間波
形データｍ１，ｍ２，ｍ３…を音声素片データベースＤ
ＢＳに記憶させることができる。

【００８４】次に、図７を参照して歌唱合成処理の他の
例を説明する。ステップ９０では、ステップ６０に関し
て前述したと同様にして所望の歌唱曲に関して歌詞デー
タ及びメロディデータを入力する。

【００８５】ステップ９２では、ステップ６２に関して
前述したと同様にして歌詞データが表わす音素列を個々
の音声素片に変換する。そして、ステップ９４では、ス
テップ８４で記憶処理したデータベースから音声素片毎
に対応する区間波形データ（音声素片データ）を読出
す。この場合、入力部２０から制御パラメータとして音
色、ピッチ区分、ダイナミクス区分、テンポ区分等のデ
ータを入力し、該データの指示する制御パラメータに対
応した区間波形データを読出すようにしてもよい。ま
た、ステップ６４に関して前述したと同様に入力音符長
や設定テンポ等に応じて音声素片の発音継続時間を変更
するようにしてもよい。このためには、音声波形を読出
す際に音声波形の一部を省略するか又は音声波形の一部
あるいは全部を繰返すかして所望の発音継続時間だけ音
声波形の読出しを継続すればよい。

【００８６】ステップ９６では、読出しに係る区間波形
データ毎に区間波形について１又は複数の時間フレーム
を定め、各フレーム毎にＦＦＴ等により周波数分析を実
行して周波数スペクトル（振幅スペクトルと位相スペク
トル）を検出する。そして，周波数スペクトルを表わす
データをＲＡＭ１６の所定領域に記憶させる。

【００８７】ステップ９８では、図２のステップ４６〜
５２と同様の処理を実行して音声素片毎にピッチデー
タ、振幅スペクトルデータ及び位相スペクトルデータを
生成する。そして、ステップ１００では、図４のステッ
プ６６〜７８と同様の処理を実行して歌唱音声を合成
し、発音させる。

【００８８】図７の歌唱合成処理を図４の歌唱合成処理
と対比すると、図４の歌唱合成処理では、データベース
から音声素片毎にピッチデータ、振幅スペクトルデータ
及び位相スペクトルデータを取得して歌唱合成を行なう
のに対し、図７の歌唱合成処理では、データベースから
音声素片毎に区間波形データを取得して歌唱合成を行な
っている点で両者が異なるものの、歌唱合成の手順は、
両者で実質的に同一である。図４又は図７の歌唱合成処
理によれば、入力音声波形の周波数分析結果を調和成分
と非調和成分とに分離しないので、非調和成分が分離し
て響くことがなく、自然な（又は高品質の）合成音が得
られる。また、有声の摩擦音や破裂音についても自然な
合成音が得られる。

【００８９】図１４は、例えば「ａ」のような単一音素
の伸ばし音に関するピッチ変換処理及び音色調整処理
（図４のステップ６６に対応）を示すものである。この
場合、伸ばし音の音声素片データＳＤとして、図３に示
したようなピッチデータ、振幅スペクトルデータ及び位
相スペクトルデータのデータ組（又は区間波形データ）
をデータベース内に用意する。また、伸ばし音毎に歌手
（音色）、ピッチ区分、ダイナミクス区分、テンポ区分
等を異にする音声素片データをデータベースに記憶して
おき、入力部２０で所望の歌手（音色）、ピッチ区分、
ダイナミクス区分、テンポ区分等の制御パラメータを指
定すると、指定に係る制御パラメータに対応する音声素
片データを読出すようにする。

【００９０】ステップ１１０では、伸ばし音の音声素片
データＳＤに由来する振幅スペクトルデータＦＳＰにス
テップ６６で述べたと同様のピッチ変換処理を施す。す
なわち、振幅スペクトルデータＦＳＰに関して各フレー
ムの各スペクトル分布領域毎にスペクトル分布を入力音
符ピッチデータＰＴの示す入力音符ピッチに相当するピ
ッチになるように周波数軸上で移動する。

【００９１】音声素片データＳＤの時間長より長い発音
継続時間の伸ばし音が要求される場合には、音声素片デ
ータＳＤを最後まで読出した後最初に戻って再び読出
し、必要に応じてこのような時間的に順方向の読出しを
繰返す方法を採用することができる。別の方法として
は、音声素片データＳＤを最後まで読出した後最初に向
かって読出し、必要に応じてこのような時間的に順方向
の読出しと時間的に逆方向の読出しとを繰返す方法を採
用してもよい。この方法では、時間的に逆方向に読出す
際の読出開始点をランダムに設定するようにしてもよ
い。

【００９２】ステップ１１０のピッチ変換処理では、図
３に示したデータベースＤＢＳにおいて、例えば「ａ」
のような伸ばし音声素片データＭ１（又はｍ１），Ｍ２
（又はｍ２），Ｍ３（又はｍ３）…にそれぞれ対応して
経時的なピッチ変化を表わすピッチゆらぎデータを記憶
しておき、入力部２０で音色、ピッチ区分、ダイナミク
ス区分、テンポ区分等の制御パラメータを指定するのに
応答して指定に係る制御パラメータに対応するピッチゆ
らぎデータを読出すようにしてもよい。この場合、ステ
ップ１１２では、読出しに係るピッチゆらぎデータＶＰ
を入力音符ピッチデータＰＴに加算し、加算結果として
のピッチ制御データに応じてステップ１１０でのピッチ
変換を制御する。このようにすると、合成音にピッチの
ゆらぎ（例えばピッチベンド、ビブラート等）を付加す
ることができ、自然な合成音が得られる。また、音色、
ピッチ区分、ダイナミクス区分、テンポ区分等の制御パ
ラメータに応じてピッチのゆらぎ態様を異ならせること
ができるので、自然感が一層向上する。なお、ピッチゆ
らぎデータは、音声素片に対応する１又は複数のピッチ
ゆらぎデータを音色等の制御パラメータに応じて補間等
により改変して使うようにしてもよい。

【００９３】ステップ１１４では、ステップ１１０でピ
ッチ変換処理を受けた振幅スペクトルデータＦＳＰ’に
音色調整処理を施す。この処理は、図１２に関して前述
したように各フレーム毎にスペクトル包絡に従ってスペ
クトル強度を調整して合成音の音色を設定するものであ
る。

【００９４】図１５は、ステップ１１４の音色調整処理
の一例を示すものである。この例では、図３に示したデ
ータベースＤＢＳにおいて、例えば「ａ」の伸ばし音の
音声素片に対応して代表的な１つのスペクトル包絡を表
わすスペクトル包絡データを記憶する。

【００９５】ステップ１１６では、伸ばし音の音声素片
に対応するスペクトル包絡データをデータベースＤＢＳ
から読出す。そして、ステップ１１８では、読出しに係
るスペクトル包絡データに基づいてスペクトル包絡設定
処理を行なう。すなわち、伸ばし音のフレーム群ＦＲに
おける複数ｎ個のフレームの振幅スペクトルデータＦＲ
_１〜ＦＲ_ｎのうちの各フレームの振幅スペクトルデータ
毎に、読出しに係るスペクトル包絡データの示すスペク
トル包絡に沿うようにスペクトル強度を調整することに
よりスペクトル包絡を設定する。この結果、伸ばし音に
適切な音色を付与することができる。

【００９６】ステップ１１８のスペクトル包絡設定処理
では、図３に示したデータベースＤＢＳにおいて、例え
ば「ａ」のような伸ばし音声素片データＭ１（又はｍ
１），Ｍ２（又はｍ２），Ｍ３（又はｍ３）…にそれぞ
れ対応して経時的なスペクトル包絡変化を表わすスペク
トル包絡ゆらぎデータを記憶しておき、入力部２０で音
色、ピッチ区分、ダイナミクス区分、テンポ区分等の制
御パラメータを指定するのに応答して指定に係る制御パ
ラメータに対応するスペクトル包絡ゆらぎデータを読出
すようにしてもよい。この場合、ステップ１１８では、
各フレーム毎にステップ１１６での読出しに係るスペク
トル包絡データに読出しに係るスペクトル包絡ゆらぎデ
ータＶＥを加算し、加算結果としてのスペクトル包絡制
御データに応じてステップ１１８でのスペクトル包絡設
定を制御する。このようにすると、合成音に音色のゆら
ぎ（例えばトーンベンド等）を付加することができ、自
然な合成音が得られる。また、音色、ピッチ区分、ダイ
ナミクス区分、テンポ区分等の制御パラメータに応じて
ピッチのゆらぎ態様を異ならせることができるので、自
然感が一層向上する。なお、ピッチゆらぎデータは、音
声素片に対応する１又は複数のピッチゆらぎデータを音
色等の制御パラメータに応じて補間等により改変して使
うようにしてもよい。

【００９７】図１６は、ステップ１１４の音色調整処理
の他の例を示すものである。歌唱合成では、前述した
「サイタ」の歌唱例の様に音素連鎖（例えば「ｓ
ａ」）−単一音素（例えば「ａ」）−音素連鎖（例えば
「ａｉ」）の歌唱合成が典型的な例であり、このよう
な歌唱合成例に適したのが図１６の例である。図１６に
おいて、前音の最終フレームの振幅スペクトルデータＰ
ＦＲにおける前音とは、例えば「ｓａ」の音素連鎖に
対応し、伸ばし音のｎ個のフレームの振幅スペクトルデ
ータＦＲ_１〜ＦＲ_ｎにおける伸ばし音とは、例えば
「ａ」の単一音素に対応し、後音の先頭フレームの振幅
スペクトルデータＮＦＲにおける後音とは、例えば「ａ
ｉ」の音素連鎖に対応する。

【００９８】ステップ１２０では、前音の最終フレーム
の振幅スペクトルデータＰＦＲからスペクトル包絡を抽
出すると共に、後音の先頭フレームの振幅スペクトルデ
ータＮＦＲからスペクトル包絡を抽出する。そして、抽
出に係る２つのスペクトル包絡を時間的に補間して伸ば
し音用のスペクトル包絡を表わすスペクトル包絡データ
を作成する。

【００９９】ステップ１２２では、ｎ個のフレームの振
幅スペクトルデータＦＲ_１〜ＦＲ_ｎのうちの各フレーム
の振幅スペクトルデータ毎に、ステップ１２０での作成
に係るスペクトル包絡データの示すスペクトル包絡に沿
うようにスペクトル強度を調整することによりスペクト
ル包絡を設定する。この結果、音素連鎖間の伸ばし音に
適切な音色を付与することができる。

【０１００】ステップ１２２においても、ステップ１１
８に関して前述したと同様にしてデータベースＤＢＳか
ら音色等の制御パラメータに応じてスペクトル包絡ゆら
ぎデータＶＥを読出すなどしてスペクトル包絡の設定を
制御することができる。このようにすると、自然な合成
音が得られる。

【０１０１】次に、図１７〜１９を参照してスムージン
グ処理（ステップ７２に対応）の一例を説明する。この
例では、データを扱いやすくして計算を簡単にするため
に、音声素片の各フレームのスペクトル包絡を図１７に
示すように直線（あるいは指数関数）で表現した傾き成
分と指数関数などで表現した１又は複数の共鳴部分とに
分解する。すなわち、共鳴部分の強度は、傾き成分を基
準に計算し、傾き成分と共鳴成分を足し合わせてスペク
トル包絡を表わす。また、傾き成分を０Ｈｚまで延長し
た値を傾き成分のゲインと称する。

【０１０２】一例として、図１８に示すような２つの音
声素片「ａｉ」と「ｉａ」とを接続するものとする。
これらの音声素片は、もともと別の録音から採取したも
のであるため、接続部のｉの音色とレベルにミスマッチ
があり、図１８に示すように接続部分で波形の段差が発
生し、ノイズとして聴こえる。２つの音声素片について
接続部を中心として前後に何フレームかかけて、傾き成
分のパラメータ同士、共鳴成分のパラメータ同士をそれ
ぞれクロスフェードしてやれば、接続部分での段差が消
え去り、ノイズの発生を防止することができる。

【０１０３】例えば、共鳴成分のパラメータをクロスフ
ェードするためには、図１９に示すように、接続部分で
０．５となるような関数（クロスフェードパラメータ）
を両音声素片の共鳴成分のパラメータに掛けて足し合わ
せてやればよい。図１９に示す例では、「ａｉ」，
「ｉａ」の音声素片における第１の共鳴成分の（傾き
成分を基準とした）強度の時間的変化を示す波形に対し
てそれぞれクロスフェードパラメータを掛けて加算する
ことによりクロスフェードを行なった例を示している。

【０１０４】他の共鳴成分、傾き成分等のパタメータに
ついても、上記したと同様にクロスフェードを行なうこ
とができる。

【０１０５】図２０は、レベル整合処理（ステップ７２
に対応）の一例を示すものである。この例では、上記と
同様に「ａｉ」と「ｉａ」を接続して合成する場合に
ついて、レベル整合処理を説明する。

【０１０６】この場合、上記のようにクロスフェードす
る代りに、音声素片の接続部分で前後の振幅がほぼ同じ
になる様にレベル整合を行なう。レベル整合は、音声素
片の振幅に対し、一定あるいは時変の係数を掛けること
により行なうことができる。

【０１０７】この例では、２つの音声素片について傾き
成分のゲインを合わせる処理について説明する。まず、
図２０（ａ），（ｂ）に示すように、「ａｉ」と「ｉ
ａ」の各音声素片について、その最初のフレームと最終
フレームの間の傾き成分のゲインを直線補間したパラメ
ータ（図中の破線）を求め、各パラメータを基準に、実
際の傾き成分のゲインとの差分を求める。

【０１０８】次に、［ａ］，［ｉ］の各音韻の代表的な
サンプル（傾き成分及び共鳴成分の各パラメータ）を求
める。これは、例えば、「ａｉ」の最初のフレームと
最終フレームの振幅スペクトルデータを用いて求めても
よい。

【０１０９】［ａ］，［ｉ］の代表的なサンプルをもと
に、まず、図２０（ｃ）に破線で示すように［ａ］，
［ｉ］の間の傾き成分のゲインを直線補間したパラメー
タを求めると共に、［ｉ］と［ａ］の間の傾き成分のゲ
インを直線補間したパラメータを求める。次いで、図２
０（ａ），（ｂ）で求めた差分を直線補間に係るパラメ
ータにそれぞれ足し込んでいけば、図２０（ｃ）に示す
ように、境界では必ず直線補間に係るパラメータが一致
するため、傾き成分のゲインの不連続は発生しない。共
鳴成分のパラメータなど他のパラメータについても、同
様に不連続を防止することができる。

【０１１０】前述したステップ７２では、振幅スペクト
ルデータのみならず位相スペクトルデータについても、
上記のようなスムージング処理又はレベル整合処理を準
用して位相の調整を行なう。この結果、ノイズ発生を回
避することができ、高品質の歌唱合成が可能となる。な
お、スムージング処理又はレベル整合処理において、接
続部では、スペクトル強度を一致させたが近似させるだ
けでよいこともある。

【０１１１】

【発明の効果】以上のように、この発明によれば、音声
素片に対応する音声波形を周波数分析した結果に基づい
て振幅スペクトルデータ及び位相スペクトルデータを生
成し、指定のピッチに応じて振幅スペクトルデータ及び
位相スペクトルデータを修正し、修正に係る振幅スペク
トルデータ及び位相スペクトルデータに基づいて時間領
域の合成音声信号を発生させるようにしたので、周波数
分析結果を調和成分と非調和成分とに分離した従来例の
ように非調和成分が分離して響くといった事態は原理的
に発生しなくなり、自然な歌唱音声又は高品質の歌唱音
声を合成可能となる効果が得られる。

【図面の簡単な説明】

【図１】この発明の一実施形態に係る歌唱合成装置の
回路構成を示すブロック図である。

【図２】歌唱分析処理の一例を示すフローチャートで
ある。

【図３】音声素片データベース内の記憶状況を示す図
である。

【図４】歌唱合成処理の一例を示すフローチャートで
ある。

【図５】図４のステップ７６の変換処理の一例を示す
フローチャートである。

【図６】歌唱分析処理の他の例を示すフローチャート
である。

【図７】歌唱合成処理の他の例を示すフローチャート
である。

【図８】（Ａ）は、分析対象としての入力音声信号を
示す波形図、（Ｂ）は、（Ａ）の波形の周波数分析結果
を示すスペクトル図である。

【図９】（Ａ）は、ピッチ変換前のスペクトル分布領
域配置を示すスペクトル図、（Ｂ）は、ピッチ変換後の
スペクトル分布領域配置を示すスペクトル図である。

【図１０】（Ａ）は、ピッチ変換前の振幅スペクトル
分布及び位相スペクトル分布を示すグラフ、（Ｂ）は、
ピッチ変換後の振幅スペクトル分布及び位相スペクトル
分布を示すグラフである。

【図１１】ピッチを低下させた場合のスペクトル分布
領域の指定処理を説明するためのグラフである。

【図１２】（Ａ）は、ピッチ変換前の局所的ピーク配
置及びスペクトル包絡を示すグラフ、（Ｂ）は、ピッチ
変換後の局所的ピーク配置及びスペクトル包絡を示すグ
ラフである。

【図１３】スペクトル包絡曲線を例示するグラフであ
る。

【図１４】伸ばし音に関するピッチ変換処理及び音色
調整処理を示すブロック図である。

【図１５】伸ばし音に関する音色調整処理の一例を示
すブロック図である。

【図１６】伸ばし音に関する音色調整処理の他の例を
示すブロック図である。

【図１７】スペクトル包絡のモデル化を説明するため
のグラフである。

【図１８】音声素片の接続時に生ずるレベル及び音色
のミスマッチを説明するためのグラフである。

【図１９】スムージング処理を説明するためのグラフ
である。

【図２０】レベル整合処理を説明するためのグラフで
ある。

【図２１】歌唱合成処理の従来例を示すブロック図で
ある。

【符号の説明】１０：小型コンピュータ、１１：バス、１２：ＣＰＵ、
１４：ＲＯＭ、１６：ＲＡＭ、１７：歌唱入力部、１
８：歌詞・メロディ入力部、２０：制御パラメータ入力
部、２２：外部記憶装置、２４：表示部、２６：タイ
マ、２８：Ｄ／Ａ変換部、３０：ＭＩＤＩインターフェ
ース、３２：通信インターフェース、３４：サウンドシ
ステム、３６：ＭＩＤＩ機器、３７：通信ネットワー
ク、３８：他のコンピュータ、ＤＢＳ：音声素片データ
ベース。

───────────────────────────────────────────────────── フロントページの続き (72)発明者アレックスロスコスパセイデシルコンバル−ラシオ、８. 08003 バルセロナＦターム(参考） 5D045 AA07 BA10

Claims

【特許請求の範囲】

【請求項１】合成すべき音声の音声素片に対応する音声
波形を周波数分析して周波数スペクトルを検出するステ
ップと、前記周波数スペクトル上でスペクトル強度の局所的ピー
クを複数検知するステップと、各局所的ピーク毎に該局所的ピークとその前後のスペク
トルとを含むスペクトル分布領域を前記周波数スペクト
ル上で指定し、各スペクトル分布領域毎に振幅スペクト
ル分布を周波数軸に関して表わす振幅スペクトルデータ
を生成するステップと、各スペクトル分布領域毎に位相スペクトル分布を周波数
軸に関して表わす位相スペクトルデータを生成するステ
ップと、前記合成すべき音声についてピッチを指定するステップ
と、各スペクトル分布領域毎に前記振幅スペクトルデータが
表わす振幅スペクトル分布を前記ピッチに応じて周波数
軸上で移動するように前記振幅スペクトルデータを修正
するステップと、各スペクトル分布領域毎に前記位相スペクトルデータが
表わす位相スペクトル分布を前記振幅スペクトルデータ
の修正に対応して修正するステップと、前記修正に係る振幅スペクトルデータ及び前記修正に係
る位相スペクトルデータを時間領域の合成音声信号に変
換するステップとを含む歌唱合成方法。
【請求項２】合成すべき音声の音声素片に対応する振幅
スペクトルデータ及び位相スペクトルデータを取得する
ステップであって、前記振幅スペクトルデータとして
は、前記音声素片の音声波形を周波数分析して得た周波
数スペクトルにおいてスペクトル強度の複数の局所的ピ
ークのうちの各局所的ピーク毎に該局所的ピークとその
前後のスペクトルとを含むスペクトル分布領域における
振幅スペクトル分布を周波数軸に関して表わすデータを
取得し、前記位相スペクトルデータとしては、各スペク
トル分布領域毎に位相スペクトル分布を周波数軸に関し
て表わすデータを取得するものと、前記合成すべき音声についてピッチを指定するステップ
と、各スペクトル分布領域毎に前記振幅スペクトルデータが
表わす振幅スペクトル分布を前記ピッチに応じて周波数
軸上で移動するように前記振幅スペクトルデータを修正
するステップと、各スペクトル分布領域毎に前記位相スペクトルデータが
表わす位相スペクトル分布を前記振幅スペクトルデータ
の修正に対応して修正するステップと、前記修正に係る振幅スペクトルデータ及び前記修正に係
る位相スペクトルデータを時間領域の合成音声信号に変
換するステップとを含む歌唱合成方法。
【請求項３】前記ピッチを指定するステップでは、経
時的なピッチ変化を示すピッチゆらぎデータに従って前
記ピッチを指定する請求項１又は２記載の歌唱合成方
法。
【請求項４】前記ピッチゆらぎデータとしては、前記
合成すべき音声について音楽的表情を制御するための制
御パラメータに対応したピッチゆらぎデータを用いる請
求項３記載の歌唱合成方法。
【請求項５】前記振幅スペクトルデータを修正するス
テップでは、修正前の複数の局所的ピークを結ぶ線に対
応するスペクトル包絡に沿わない局所的ピークについて
スペクトル強度を該スペクトル包絡に沿うように修正す
る請求項１又は２記載の歌唱合成方法。
【請求項６】前記振幅スペクトルデータを修正するス
テップでは、予め定めたスペクトル包絡に沿わない局所
的ピークについてスペクトル強度を該スペクトル包絡に
沿うように修正する請求項１又は２記載の歌唱合成方
法。
【請求項７】前記振幅スペクトルデータを修正するス
テップでは、一連の時間フレームについて経時的なスペ
クトル包絡の変化を示すスペクトル包絡ゆらぎデータに
従ってスペクトル強度を調整することにより経時的に変
化するスペクトル包絡を設定する請求項５又は６記載の
歌唱合成方法。
【請求項８】前記スペクトル包絡ゆらぎデータとして
は、前記合成すべき音声について音楽的表情を制御する
ための制御パラメータに対応したスペクトル包絡ゆらぎ
データを用いる請求項７記載の歌唱合成方法。
【請求項９】合成すべき音声について音声素片及びピッ
チを指定する指定手段と、音声素片データベースから音声素片データとして前記音
声素片に対応する音声波形を表わす音声波形データを読
出す読出手段と、前記音声波形データが表わす音声波形を周波数分析して
周波数スペクトルを検出する検出手段と、前記音声波形に対応する周波数スペクトル上でスペクト
ル強度の局所的ピークを複数検知する検知手段と、各局所的ピーク毎に該局所的ピークとその前後のスペク
トルとを含むスペクトル分布領域を前記周波数スペクト
ル上で指定し、各スペクトル分布領域毎に振幅スペクト
ル分布を周波数軸に関して表わす振幅スペクトルデータ
を生成する第１の生成手段と、各スペクトル分布領域毎に位相スペクトル分布を周波数
軸に関して表わす位相スペクトルデータを生成する第２
の生成手段と、各スペクトル分布領域毎に前記振幅スペクトルデータが
表わす振幅スペクトル分布を前記ピッチに応じて周波数
軸上で移動するように前記振幅スペクトルデータを修正
する第１の修正手段と、各スペクトル分布領域毎に前記位相スペクトルデータが
表わす位相スペクトル分布を前記振幅スペクトルデータ
の修正に対応して修正する第２の修正手段と、前記修正に係る振幅スペクトルデータ及び前記修正に係
る位相スペクトルデータを時間領域の合成音声信号に変
換する変換手段とを備えた歌唱合成装置。
【請求項１０】合成すべき音声について音声素片及びピ
ッチを指定する指定手段と、音声素片データベースから音声素片データとして前記音
声素片に対応する振幅スペクトルデータ及び位相スペク
トルデータを読出す読出手段であって、前記振幅スペク
トルデータとしては、前記音声素片の音声波形を周波数
分析して得た周波数スペクトルにおいてスペクトル強度
の複数の局所的ピークのうちの各局所的ピーク毎に該局
所的ピークとその前後のスペクトルとを含むスペクトル
分布領域における振幅スペクトル分布を周波数軸に関し
て表わすデータを読出し、前記位相スペクトルデータと
しては、各スペクトル分布領域毎に位相スペクトル分布
を周波数軸に関して表わすデータを読出すものと、各スペクトル分布領域毎に前記振幅スペクトルデータが
表わす振幅スペクトル分布を前記ピッチに応じて周波数
軸上で移動するように前記振幅スペクトルデータを修正
する第１の修正手段と、各スペクトル分布領域毎に前記位相スペクトルデータが
表わす位相スペクトル分布を前記振幅スペクトルデータ
の修正に対応して修正する第２の修正手段と、前記修正に係る振幅スペクトルデータ及び前記修正に係
る位相スペクトルデータを時間領域の合成音声信号に変
換する変換手段とを備えた歌唱合成装置。
【請求項１１】前記指定手段は、前記合成すべき音声
について音楽的表情を制御するための制御パラメータを
指定し、前記読出手段は、前記音声素片及び前記制御パ
ラメータに対応する音声素片データを読出す請求項９又
は１０記載の歌唱合成装置。
【請求項１２】前記指定手段は、前記合成すべき音声
について音符長及び／又はテンポを指定し、前記読出手
段は、前記音声素片データを読出す際に前記音声素片デ
ータの一部を省略するか又は前記音声素片データの一部
もしくは全部を繰返すかして前記音符長及び／又はテン
ポに対応する時間のあいだ前記音声素片データの読出し
を継続する請求項９又は１０記載の歌唱合成装置。
【請求項１３】順次に合成すべき音声のうちの各音声毎
に音声素片及びピッチを指定する指定手段と、音声素片データベースから前記指定手段での指定に係る
各音声素片に対応する音声波形を読出す読出手段と、各音声素片に対応する音声波形を周波数分析して周波数
スペクトルを検出する検出手段と、各音声素片に対応する周波数スペクトル上でスペクトル
強度の局所的ピークを複数検知する検知手段と、各音声素片について各局所的ピーク毎に該局所的ピーク
とその前後のスペクトルとを含むスペクトル分布領域を
該音声素片に対応する周波数スペクトル上で指定し、各
音声素片について各スペクトル分布領域毎に振幅スペク
トル分布を周波数軸に関して表わす振幅スペクトルデー
タを生成する第１の生成手段と、各音声素片について各スペクトル分布領域毎に位相スペ
クトル分布を周波数軸に関して表わす位相スペクトルデ
ータを生成する第２の生成手段と、各音声素片について各スペクトル分布領域毎に前記振幅
スペクトルデータが表わす振幅スペクトル分布を該音声
素片に対応するピッチに応じて周波数軸上で移動するよ
うに前記振幅スペクトルデータを修正する第１の修正手
段と、各音声素片について各スペクトル分布領域毎に前記位相
スペクトルデータが表わす位相スペクトル分布を前記振
幅スペクトルデータの修正に対応して修正する第２の修
正手段と、前記順次に合成すべき音声にそれぞれ対応する順次の音
声素片が発音順につながるように前記修正に係る振幅ス
ペクトルデータを接続する第１の接続手段であって、前
記順次の音声素片のつながり部においてスペクトル強度
を一致又は近似させるべく調整するものと、前記順次に合成すべき音声にそれぞれ対応する順次の音
声素片が発音順につながるように前記修正に係る位相ス
ペクトルデータを接続する第２の接続手段であって、前
記順次の音声素片のつながり部において位相を一致又は
近似させるべく調整するものと、前記接続に係る振幅スペクトルデータ及び前記接続に係
る位相スペクトルデータを時間領域の合成音声信号に変
換する変換手段とを備えた歌唱合成装置。
【請求項１４】順次に合成すべき音声のうちの各音声毎
に音声素片及びピッチを指定する指定手段と、音声素片データベースから前記指定手段での指定に係る
各音声素片に対応する振幅スペクトルデータ及び位相ス
ペクトルデータを読出す読出手段であって、前記振幅ス
ペクトルデータとしては、対応する音声素片の音声波形
を周波数分析して得た周波数スペクトルにおいてスペク
トル強度の複数の局所的ピークのうちの各局所的ピーク
毎に該局所的ピークとその前後のスペクトルとを含むス
ペクトル分布領域における振幅スペクトル分布を周波数
軸に関して表わすデータを読出し、前記位相スペクトル
データとしては、各スペクトル分布領域毎に位相スペク
トル分布を周波数軸に関して表わすデータを読出すもの
と、各音声素片について各スペクトル分布領域毎に前記振幅
スペクトルデータが表わす振幅スペクトル分布を該音声
素片に対応するピッチに応じて周波数軸上で移動するよ
うに前記振幅スペクトルデータを修正する第１の修正手
段と、各音声素片について各スペクトル分布領域毎に前記位相
スペクトルデータが表わす位相スペクトル分布を前記振
幅スペクトルデータの修正に対応して修正する第２の修
正手段と、前記順次に合成すべき音声にそれぞれ対応する順次の音
声素片が発音順につながるように前記修正に係る振幅ス
ペクトルデータを接続する第１の接続手段であって、前
記順次の音声素片のつながり部においてスペクトル強度
を一致又は近似させるべく調整するものと、前記順次に合成すべき音声にそれぞれ対応する順次の音
声素片が発音順につながるように前記修正に係る位相ス
ペクトルデータを接続する第２の接続手段であって、前
記順次の音声素片のつながり部において位相を一致又は
近似させるべく調整するものと、前記接続に係る振幅スペクトルデータ及び前記接続に係
る位相スペクトルデータを時間領域の合成音声信号に変
換する変換手段とを備えた歌唱合成装置。
【請求項１５】歌唱合成装置において使用される記録
媒体であって、合成すべき音声の音声素片に対応する音声波形を周波数
分析して周波数スペクトルを検出するステップと、前記周波数スペクトル上でスペクトル強度の局所的ピー
クを複数検知するステップと、各局所的ピーク毎に該局所的ピークとその前後のスペク
トルとを含むスペクトル分布領域を前記周波数スペクト
ル上で指定し、各スペクトル分布領域毎に振幅スペクト
ル分布を周波数軸に関して表わす振幅スペクトルデータ
を生成するステップと、各スペクトル分布領域毎に位相スペクトル分布を周波数
軸に関して表わす位相スペクトルデータを生成するステ
ップと、前記合成すべき音声についてピッチを指定するステップ
と、各スペクトル分布領域毎に前記振幅スペクトルデータが
表わす振幅スペクトル分布を前記ピッチに応じて周波数
軸上で移動するように前記振幅スペクトルデータを修正
するステップと、各スペクトル分布領域毎に前記位相スペクトルデータが
表わす位相スペクトル分布を前記振幅スペクトルデータ
の修正に対応して修正するステップと、前記修正に係る振幅スペクトルデータ及び前記修正に係
る位相スペクトルデータを時間領域の合成音声信号に変
換するステップとを含むプログラムを記録した記録媒
体。
【請求項１６】歌唱合成装置において使用される記録
媒体であって、合成すべき音声の音声素片に対応する振幅スペクトルデ
ータ及び位相スペクトルデータを取得するステップであ
って、前記振幅スペクトルデータとしては、前記音声素
片の音声波形を周波数分析して得た周波数スペクトルに
おいてスペクトル強度の複数の局所的ピークのうちの各
局所的ピーク毎に該局所的ピークとその前後のスペクト
ルとを含むスペクトル分布領域における振幅スペクトル
分布を周波数軸に関して表わすデータを取得し、前記位
相スペクトルデータとしては、各スペクトル分布領域毎
に位相スペクトル分布を周波数軸に関して表わすデータ
を取得するものと、前記合成すべき音声についてピッチを指定するステップ
と、各スペクトル分布領域毎に前記振幅スペクトルデータが
表わす振幅スペクトル分布を前記ピッチに応じて周波数
軸上で移動するように前記振幅スペクトルデータを修正
するステップと、各スペクトル分布領域毎に前記位相スペクトルデータが
表わす位相スペクトル分布を前記振幅スペクトルデータ
の修正に対応して修正するステップと、前記修正に係る振幅スペクトルデータ及び前記修正に係
る位相スペクトルデータを時間領域の合成音声信号に変
換するステップとを含むプログラムを記録した記録媒
体。
【請求項１７】歌唱合成装置において使用される記録
媒体であって、音声素片毎に音声合成用の振幅スペクト
ルデータ及び位相スペクトルデータが記録されており、
各振幅スペクトルデータとしては、対応する音声素片の
音声波形を周波数分析して得た周波数スペクトルにおい
てスペクトル強度の複数の局所的ピークのうちの各局所
的ピーク毎に該局所的ピークとその前後のスペクトルと
を含むスペクトル分布領域における振幅スペクトル分布
を周波数軸に関して表わすデータが記録されており、各
位相スペクトルデータとしては、各スペクトル分布領域
毎に位相スペクトル分布を周波数軸に関して表わすデー
タが記録されている記録媒体。