JP2002202790A

JP2002202790A - 歌唱合成装置

Info

Publication number: JP2002202790A
Application number: JP2000401041A
Authority: JP
Inventors: Hidenori Kenmochi; 秀紀劔持; Sera Xavier; セラザビエル; Bonada Jordi; ボナダジョルディ
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2000-12-28
Filing date: 2000-12-28
Publication date: 2002-07-19
Anticipated expiration: 2020-12-28
Also published as: JP2005018097A; JP4067762B2; US20030009336A1; EP1220195B1; DE60126575T2; EP1220195A3; DE60126575D1; JP3985814B2; EP1220195A2; US7016841B2

Abstract

(57)【要約】【課題】高品質な歌声を合成する。【解決手段】スペクトルモデル合成（ＳＭＳ）分析合
成法において、音素または２つ以上の音素連鎖について
ＳＭＳ分析を行いデータベース１０を作成し、合成時に
必要な音素または音素連鎖のＳＭＳデータを接続し合成
することで歌声を得る。前記データベース１０には、同
じ音素あるいは音素連鎖につき、異なるピッチ、ダイナ
ミクス、テンポごとに別個の素片データを記憶する。調
和成分調整手段２２、非調和成分調整手段２３で、読み
出した素片データの調和成分および非調和成分を目的の
ピッチに合うように調整し、継続時間調整手段２４で目
的のテンポに合うように音素または音素連鎖の長さを調
整し、素片レベル調整手段２５でレベル調整した後、各
素片を接続し、所望のピッチに対応した調和成分を生成
して、非調和成分と合成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、歌声を合成する歌
唱合成装置に関する。

【０００２】

【従来の技術】従来より、歌声を合成しようとする試み
は幅広く行われてきた。そのうちの１つは、規則音声合
成の応用で、音符の音程に対応する音高データと歌詞デ
ータを入力とし、テキスト音声合成用の規則音声合成器
を用いて合成するものである。多くの場合、音素（ある
いは音韻：phoneme）あるいは２つ以上の音素を含む音
素連鎖を単位とする生波形データあるいはそれを分析し
パラメータ化したものをデータベースに蓄積し、合成時
に必要な音声素片（音素あるいは音素連鎖）を選択し、
接続、合成するものである。例えば、特開昭６２−６２
９９号公報、特開平１０−１２４０８２号公報、特開平
１１−１１８４４９０号公報などを参照されたい。しか
しながら、これらの技術は、本来、話し言葉を合成する
ことを目的としているため、歌声を合成する場合には品
質が必ずしも満足することのできるものではなかった。

【０００３】例えば、ＰＳＯＬＡ（Pitch-Synchronous
OverLap and Add）に代表される波形重畳合成方式で
は、合成歌唱音の了解度は良好であるが、歌唱音の品質
を最も左右する音を伸ばしている部分が不自然になって
しまう場合が多い、歌唱音声に必要不可欠なビブラート
やピッチの微妙な変動を行なった場合に不自然な合成音
になってしまうことが多いという問題点があった。ま
た、大規模コーパスベースの波形接続型音声合成器を使
って歌唱音声を合成しようとすれば、もとの波形を原則
として全く加工せずに接続して出力するため、天文学的
数字の素片データが必要となる。

【０００４】一方、はじめから歌声の合成を目的とした
合成器も考案されている。例えば、フォルマント合成方
式による合成方式が知られている（特開平３−２００３
００号公報）。これは、伸ばし音の品質やビブラートや
ピッチ変化の自由度は大きいが、合成音（特に子音部
分）の明瞭度が低く、品質は必ずしも満足できるもので
はない。

【０００５】ところで、米国特許第５０２９５０９号明
細書に示されるように、オリジナルの音を２つの成分、
すなわち調和成分（deterministic component）と非調
和成分（stochastic component）で表わすモデルを使用
して楽音の分析および合成を行なう、スペクトルモデリ
ング合成（ＳＭＳ：Spectral Modeling Synthesis）と
呼ばれる技術が知られている。このＳＭＳ分析合成によ
れば、楽音の音楽的特徴を良好に制御することができる
と同時に、歌声の場合には、非調和成分の利用により、
子音部分でも高い明瞭度が得られることが期待できる。
したがって、この技術を歌声の合成に応用すれば、高い
明瞭度と音楽性を併せ持った合成音が得られることが期
待される。現に、特許第２９０６９７０号では、ＳＭＳ
分析合成技術に基づき音を合成する手法についての具体
的応用の提案が行われているが、同時にＳＭＳ技術を歌
唱合成（シンギング・シンセサイザ）に利用する場合の
方法論についても述べられている。

【０００６】前記特許第２９０６９７０号に提案されて
いる手法を適用した歌唱合成装置について、図１７を参
照して説明する。図１７において、音韻データベース１
００は、入力音声をＳＭＳ分析および区間切り出し部１
０３において、ＳＭＳ分析し、音声素片（音素あるいは
音素連鎖）ごとに切り出して、記憶することにより作成
される。データベース１００中の音声素片データ（音素
データ１０１、音素連鎖データ１０２）は、時系列に並
べられた単一あるいは複数のフレーム列のデータから構
成され、各フレームに対応するＳＭＳデータ、すなわ
ち、調和成分のスペクトル包絡、非調和成分のスペクト
ル包絡と位相スペクトルなどの時間的変化が記憶されて
いる。歌唱音を合成するときには、所望の歌詞を構成す
る音素列を求め、音素→素片変換部１０４により、その
音素列を構成するのに必要な音声素片（音素あるいは音
素連鎖）を決定し、前記データベース１００から必要な
音声素片のＳＭＳデータ（調和成分と非調和成分）を読
み出す。そして、素片接続部１０５において読み出した
音声素片のＳＭＳデータを時系列的に接続し、調和成分
については調和成分生成部１０６においてその楽曲のメ
ロディーに対応するピッチ情報に応じて、そのスペクト
ル包絡の形状を保ったまま、所望のピッチを有する倍音
成分を生成する。例えば、「サイタ」（saita）と合成
する場合には、[#s],[s],[s-a],[a],[a-i],[i],[i-t],
[t],[t-a],[a],[a#]という素片を接続し、素片の接続に
より得られたＳＭＳデータに含まれるスペクトル包絡の
形状を保ったまま、所望のピッチの調和成分を生成す
る。そして、この生成した調和成分と非調和成分とを合
成手段１０７で加算し、時間領域のデータに変換するこ
とにより、合成音声を得る。

【０００７】

【発明が解決しようとする課題】このようにＳＭＳ技術
を利用することにより、了解度が良好で、かつ、伸ばし
ている部分についても自然な合成歌唱音を得ることが可
能となる。しかし、上記特許第２９０６９７０号で述べ
られている方式は、あまりにも原始的かつ単純であり、
その方式のまま歌声を合成すると、次のような問題点が
生じる。・有声音の調和成分のスペクトル包絡の形状がピッチに
よって若干変化するため、分析時とは異なるピッチで合
成する場合に、そのままでは良い音色が得られない。・ＳＭＳ分析を行う場合、有声音の場合に調和成分を取
り去っても残差成分にわずかながら調和成分が残るた
め、上記のように同じ残差成分（非調和成分）をそのま
ま用いて元の音とは異なるピッチの歌唱音で合成すると
残差成分が浮いて聴こえたり、ノイズに聴こえる原因と
なる。・ＳＭＳの分析結果としての音素データ、音素連鎖デー
タをそのまま時間的に重ね合わせているため、音を伸ば
す時間や音素間の移り変わりの時間の調整ができない。
すなわち、所望のテンポで歌わせることができない。・音素あるいは音素連鎖の接続時に雑音が発生しやす
い。

【０００８】そこで本発明は、上記特許第２９０６９７
０号において提案されているＳＭＳ技術を歌唱合成に利
用する場合の手法を具体化し、さらに合成音の品質につ
いて大幅な改良を加え、上述の各問題点を解決した歌唱
合成装置を提供することを目的としている。また、前記
データベースのサイズを小さくすることができるととも
に、データベース作成の効率を向上させた歌唱合成装置
を提供することを目的としている。さらに、合成音声の
ハスキーさの度合いを調整することのできる歌唱合成装
置を提供することを目的としている。

【０００９】

【課題を解決するための手段】上記目的を達成するため
に、本発明の歌唱合成装置は、音素あるいは２つ以上の
音素のつながりである音素連鎖である音声素片について
調和成分のデータと非調和成分のデータを記憶した音韻
データベースを有し、歌詞に対応した音声素片データを
前記音韻データベースから読み出して接続することによ
り、歌唱音を合成する歌唱合成装置であって、目的のテ
ンポや歌い方に合うように前記音韻データベースから読
み出した音声素片データの時間長を調整する継続時間調
整手段と、目的のピッチに合うように前記音韻データベ
ースから読み出した音声素片データの前記調和成分およ
び前記非調和成分を調整する調整手段とを有するもので
ある。また、前記音声素片データを接続するときに、調
和成分、非調和成分それぞれについてスムージング処理
あるいはレベル調整処理を行なう素片レベル調整手段を
有するものである。さらに、前記音韻データベース中に
は、同一の音素または音素連鎖について、ピッチ、ダイ
ナミクス、テンポの異なる複数の音声素片データが記憶
されているものである。さらにまた、前記音韻データベ
ース中には、母音などの伸ばし音からなる音声素片デー
タ、子音から母音あるいは母音から子音への音素連鎖か
らなる音声素片データ、子音から子音への音素連鎖から
なる音声素片データおよび母音から母音への音素連鎖か
らなる音声素片データが記憶されているものである。

【００１０】さらにまた、前記調和成分のデータと前記
非調和成分のデータは、その素片の区間に含まれるフレ
ーム列の各フレームに対応する周波数領域のデータ列と
して記憶されているものである。さらにまた、前記継続
時間調整手段は、音声素片に含まれるフレーム列中の１
または複数のフレームを繰り返すこと、あるいは、フレ
ームを間引くことにより所望の時間長のフレーム列を生
成するものである。さらにまた、前記継続時間調整手段
は、非調和成分のフレームを繰り返すときに、合成時に
時間的に逆行する場合には、その非調和成分の位相スペ
クトルの位相を反転させるものである。さらにまた、歌
唱音合成時に、調和成分について、音声素片データに含
まれている調和成分のスペクトル包絡の概形を保ったま
まピッチだけを所望のピッチに変換する調和成分生成手
段を有するものである。

【００１１】さらにまた、前記音韻データベース中に記
憶される音声素片データのうち伸ばし音に対応する音声
素片については、非調和成分の振幅スペクトルとして、
その非調和成分の振幅スペクトルにその伸ばし音の区間
を代表するスペクトルの逆数を乗算することにより得ら
れた平坦なスペクトルを記憶しているものである。さら
にまた、歌唱音合成時に、伸ばし音の非調和成分につい
ては、その調和成分の振幅スペクトルに基づいて非調和
成分の振幅スペクトルを計算し、それを前記平坦なスペ
クトルに乗ずることにより、非調和成分の振幅スペクト
ルを得るものである。さらにまた、前記音韻データベー
ス中の一部の伸ばし音についての音声素片については、
その非調和成分の振幅スペクトルを記憶せず、他の伸ば
し音の音声素片に記憶されている前記平坦なスペクトル
を使用して、その伸ばし音を合成するものである。さら
にまた、前記調和成分の振幅スペクトルに基づいて非調
和成分の振幅スペクトルを計算するときに、ハスキー度
を制御するパラメータに応じて前記計算する非調和成分
の振幅スペクトルの０Hzにおけるゲインを制御するもの
である。

【００１２】さらにまた、歌唱音合成時に、伸ばし音の
非調和成分の振幅スペクトルに、その伸ばし音区間内に
おける代表振幅スペクトルの逆数を乗算して平坦なスペ
クトルを作成し、その伸ばし音の調和成分の振幅スペク
トルに基づいてハスキー度を制御するパラメータに応じ
た振幅スペクトルを計算し、該振幅スペクトルと前記作
成した平坦なスペクトルとを乗ずることにより得られた
振幅スペクトルをその伸ばし音の非調和成分の振幅スペ
クトルとして使用するものである。

【００１３】

【発明の実施の形態】本発明の歌唱合成装置は、入力音
声をＳＭＳ分析し、調和成分、非調和成分のＳＭＳデー
タを求め、必要な区間を切り出して音素ごと、および音
素連鎖ごとにまとめた音韻データベースを持つ。このデ
ータベース内には、見出しとして音素または音素連鎖の
情報に加え、その音声素片のピッチを示す情報、およ
び、ダイナミクスやテンポなどの音楽表現を示す情報も
含まれる。ここで、ダイナミクス情報は、その音声素片
（音素または音素連鎖）がフォルテの音であるのかメゾ
フォルテの音であるのかといった感覚的な情報であって
もよいし、あるいは、その素片のレベルを示す物理的な
情報であってもよい。また、前記データベース作成のた
めに、入力歌唱音声を非調和成分、調和成分に分解して
分析するＳＭＳ分析手段を備える。また、必要とする音
素または音素連鎖（素片）を切り出すための手段（自
動、手動を問わない）を備える。

【００１４】図１を参照して、前記音韻データベース作
成の例について説明する。図１において、１０は音韻デ
ータベースであり、前述した音韻データベース１００と
同様に、入力歌唱音声をＳＭＳ分析部１３でＳＭＳ分析
し、区間切り出し部１４により音素または音素連鎖（音
声素片）毎に切り出された各素片毎のＳＭＳデータ（そ
の素片に含まれている各フレームのＳＭＳデータ）が格
納されている。ただし、この音韻データベース１０にお
いては、素片データが異なるピッチ、異なるダイナミク
ス、異なるテンポ毎に別個のデータとして記憶されてい
る。

【００１５】なお、日本語の歌詞を歌唱させる場合に
は、音声素片は例えば母音だけのデータ（１フレームあ
るいは複数のフレーム）と、子音から母音へのデータ
（複数フレーム）あるいは母音から子音へのデータ（複
数フレーム）と、子音から子音へのデータ（複数フレー
ム）と、母音から母音へのデータ（複数フレーム）とか
らなる。規則合成などの音声合成装置においては、通
常、音節よりも長いＶＣＶ（母音・子音・母音）あるい
はＣＶＣ（子音・母音・子音）などを音韻データベース
に記録する単位としているが、特に歌唱音の合成を目的
としている本発明の歌唱合成装置においては、歌唱にお
いてよく現れる母音などを長く発音する伸ばし音のデー
タ、子音から母音（ＣＶ）あるいは母音から子音（Ｖ
Ｃ）のデータ、子音から子音のデータ、および、母音か
ら母音のデータを音韻データベースに格納している。

【００１６】前記ＳＭＳ分析部１３は、オリジナルの入
力歌唱音声をＳＭＳ分析し、各フレーム毎のＳＭＳ分析
データを出力する。すなわち、入力音声を一連の時間フ
レームに分け、各フレーム毎にＦＦＴなどにより周波数
分析する。その結果得られた周波数スペクトル（複素ス
ペクトル）から振幅スペクトルと位相スペクトルを求
め、振幅スペクトルのピークに対応する特定の周波数の
スペクトルを線スペクトルとして抽出する。このとき、
基本周波数およびその整数倍の周波数の近傍の周波数を
持つスペクトルを線スペクトルとする。この抽出した線
スペクトルが前記調和成分に対応している。そして、上
記のようにして抽出した線スペクトルをそのフレームの
入力波形のスペクトルから減算することにより、残差ス
ペクトルを得る。あるいは、前記抽出した線スペクトル
から合成した調和成分の時間波形データをそのフレーム
の入力波形データから減算して残差成分の時間波形デー
タを得、これを周波数分析することにより残差スペクト
ルを得る。このようにして得た残差スペクトルが、前記
非調和成分（ストカスティック成分）に対応する。

【００１７】なお、前記ＳＭＳ分析に用いるフレーム周
期は、一定の固定長であってもよいし、あるいは、入力
音声のピッチ等に応じてその周期を変更する可変長の周
期であっても良い。フレーム周期を可変長とする場合に
は、固定長の第１のフレーム周期で入力音声を処理して
そのピッチを検出し、その結果に応じたフレーム周期で
入力音声を再処理する、あるいは、そのフレームの前の
フレームの分析結果から得たピッチにより後続するフレ
ームの周期を変更するなどの手法を採用すればよい。

【００１８】前記ＳＭＳ分析部１３から各フレーム毎に
出力されるＳＭＳ分析データは、区間切り出し部１４に
おいて、音韻データベースに記憶する音声素片の長さに
対応するように切り出される。すなわち、歌唱音の合成
に最も適するように、母音の音素、母音と子音あるいは
子音と母音の音素連鎖、子音と子音の音素連鎖、およ
び、母音と母音の音素連鎖が手動あるいは自動的に切り
出される。ここで、母音の音素として、その母音を伸ば
して歌唱している長区間のデータ（伸ばし音）も切り出
される。また、この区間切り出し部１４において、前記
ＳＭＳ分析結果からその入力音声のピッチを検出する。
このピッチ検出は、その素片に含まれるフレームの調和
成分のうちの低次の線スペクトルの周波数から平均ピッ
チを求め、これを全フレームについて平均することによ
り行なわれる。

【００１９】このようにして、各素片ごとにその調和成
分のデータおよび非調和成分のデータを切り出し、さら
に、その入力歌唱音声のピッチ、音楽表現を表わすダイ
ナミクス、テンポなどの情報を見出しとして付加して前
記音韻データベース１０に格納する。図１には、このよ
うにして作成された音韻データベース１０の一例を示し
ており、音韻データベース１０中に音素に対応する音素
データ領域１１および音素連鎖に対応する音素連鎖デー
タ領域１２が示されている。そして、前記音素データ領
域１１には、母音[ａ]の伸ばし音に対してピッチ周波数
130Hz，150Hz，200Hz，220Hzの４通りの音素データ、母
音[ｉ]の伸ばし音に対してピッチ周波数140Hz，180Hz，
300Hzの３通りの音素データが格納されている様子が示
されている。また、前記音素連鎖データ領域１２には、
音素[ａ]と[ｉ]のつながりを示す音素連鎖[ａ-ｉ]に対
してピッチ周波数130Hzと150Hzの２通り、音素連鎖[ａ-
ｐ]に対して120Hzと220Hzの２通り、音素連鎖[ａ-ｓ]に
対して140Hzと180Hz、音素連鎖[ａ-ｚ]に対して100Hzの
各音素連鎖データが格納されている様子が示されてい
る。なお、ここでは、同一の音素あるいは音素連鎖に対
してピッチが異なるデータを格納している場合を示して
いるが、前述のように、その入力歌唱音声のダイナミク
スやテンポなどの音楽表現が異なるデータについても、
同様に、異なるデータとして記憶する。

【００２０】なお、それぞれの素片データに含まれてい
る調和成分と非調和成分を表わすデータは、前記区間切
り出し部１４により各素片ごとに切り出された前記ＳＭ
Ｓ分析部１３からのＳＭＳデータ、すなわち、調和成分
については、その素片に含まれる各フレームの全てのス
ペクトル包絡（線スペクトル（倍音系列）の強度（振
幅）および位相のスペクトル）をそのまま記憶する、あ
るいは、スペクトル包絡そのものではなく、スペクトル
包絡を何らかの関数で表現したものとして記憶する、の
いずれの方法で記憶しても良い。あるいは、調和成分を
逆変換した時間波形の形で記憶しても良い。また、非調
和成分についても、その素片に対応する区間の各フレー
ムの強度スペクトル（振幅スペクトル）および位相スペ
クトルとして記憶しても良いし、その区間の時間波形デ
ータそのものの形で記憶しても良い。また、上記各記憶
形式は固定である必要はなく、素片毎に、あるいは、そ
の区間の音声の性質（例えば、鼻音、摩擦音、破裂音な
ど）に応じてその記憶形式を異ならしめるようにしても
よい。なお、以下の説明では、前記調和成分のデータは
スペクトル包絡の形式で記憶し、非調和成分はその振幅
スペクトルおよび位相スペクトルの形式で記憶している
ものとして説明する。このような記憶形式の場合には、
必要とされる記憶容量を少なくすることができる。この
ように、本発明の歌唱合成装置における音韻データベー
ス１０には、同一の音素あるいは音韻に対して異なるピ
ッチあるいはダイナミクス、テンポなどの音楽表現に対
応する複数のデータが格納されている。

【００２１】次に、このように作成された音韻データベ
ース１０を用いた歌唱音の合成処理について図２を参照
して説明する。図２において、１０は前述した音韻デー
タベースである。また、２１は音素→素片変換手段であ
り、歌唱音を合成すべき楽曲の歌詞データに対応する音
素列を、前記音韻データベース１０を検索するための素
片に変換するものである。例えば、「s_a_i_t_a」とい
う音素列の入力に対し、素片列[s] [s-a] [a] [a-i]
[i][i-t] [t] [t-a] [a]を出力する。２２は、前記楽曲
のメロディデータなどに含まれているピッチやダイナミ
クスやテンポなどのコントロールパラメータに基づい
て、前記音韻データベース１０から読み出された素片デ
ータのうちの調和成分のデータの調整を行う調和成分調
整手段、２３は前記非調和成分のデータに対して調整を
行う非調和成分調整手段である。２４は、前記調和成分
調整手段２２および前記非調和成分調整手段２３からの
素片データの継続時間を変更する継続時間調整手段、２
５は前記継続時間調整手段２４からの各素片データのレ
ベルの調整を行う素片レベル調整手段、２６は前記素片
レベル調整手段２５によりレベル調整された各素片デー
タを時系列に接続する素片接続手段、２７は前記素片接
続手段２６により接続された素片データのうちの調和成
分のデータ（スペクトル包絡情報）に基づいて所望のピ
ッチの調和成分（倍音成分）を生成する調和成分生成手
段、２８は前記調和成分生成手段２７で生成された倍音
成分と前記素片接続手段２６から出力される非調和成分
とを合成する加算手段である。この加算手段２８の出力
を時間領域の信号に変換することにより、合成音声が得
られる。

【００２２】以下、上記各ブロックにおける処理につい
て詳細に説明する。前記音素→素片変換手段２１は、入
力歌詞をもとに変換した音素列から素片列を生成し、そ
れにより、音韻データベース１０中の音声素片（音素や
音素連鎖）の選択を行なう。前述のように、同じ音素や
音素連鎖であっても、ピッチ、ダイナミクス、テンポな
どに対応してデータベース中に複数のもの（音声素片デ
ータ）が格納されており、素片選択時に各種コントロー
ルパラメータに応じて最適なものを選択する。また、選
択するのではなくいくつかの候補を選択し、それらの補
間により合成に用いるＳＭＳデータを求めるようにして
も良い。選択された音声素片にはＳＭＳ分析の結果とし
ての調和成分と非調和成分が格納されている。この内容
は、ＳＭＳデータ、すなわち、調和成分のスペクトル包
絡（強度と位相）と非調和成分のスペクトル包絡（強度
と位相）または波形そのものが入っている。これらの内
容を元に、所望のピッチ、要求される継続時間に合うよ
うに調和成分、非調和成分を生成する。例えば、所望の
ピッチに合うように調和・非調和成分のスペクトル包絡
を補間などにより求めたり、スペクトル形状を変形させ
る。

【００２３】［調和成分の調整］前記調和成分調整手段
２２では、調和成分の調整処理を行う。有声音の場合、
調和成分については、ＳＭＳ分析結果である調和成分の
強度および位相のスペクトル包絡が入っている。素片が
複数の場合は、その中から所望のコントロールパラメー
タ（ピッチなど）に最適なものを選択するか、あるいは
複数の素片の中から補間などの操作により所望のコント
ロールパラメータに適したスペクトル包絡を求める。ま
た、得られたスペクトル包絡をさらに別のコントロール
パラメータに対応して何らかの方法で変形させても良
い。また、耳障りとなる音を軽減させたり、音に特徴を
持たせたりするため、一定の帯域のみ通過させるような
フィルターをかけても良い。なお、無声音の場合は調和
成分はない。

【００２４】［非調和成分の調整］有声音のＳＭＳ分析
結果の非調和成分には、元のピッチの影響が残っている
ので、別のピッチの音を合成する場合には、音が不自然
になってしまう場合がある。これを防ぐために、非調和
成分の低域成分に対し、所望のピッチに合うような操作
を行なう必要がある。前記非調和成分調整手段２３で
は、この操作を行う。図３を参照して、この非調和成分
に対する調整操作について説明する。図３の（ａ）は、
有声音をＳＭＳ分析したときに得られる非調和成分の振
幅スペクトルの例である。この図に示すように、調和成
分の影響を完全に取り去ることは難しく、倍音付近に若
干の山ができている。この非調和成分をそのまま用い
て、もとのピッチとは別のピッチで音声を合成すると、
低域の倍音付近の山々が知覚され、調和成分とうまく溶
け合わずに耳障りな音に聴こえる場合がある。そこで、
非調和成分の周波数をピッチの変化に合わせて変えてや
ればよいが、高域の非調和成分はもともと調和成分の影
響が少ないので、もともとの振幅スペクトルをそのまま
用いることが望ましい。つまり、低域においては求める
ピッチにしたがって周波数軸の圧縮・伸長を行なえばよ
い。ただし、このときに元の音色は変化させてはならな
い。つまり、振幅スペクトルの概形を保ったままこの処
理を行なう必要がある。

【００２５】図３の（ｂ）は、上述の処理を行なった結
果を示す図である。この図に示すように、低域の３つの
山は所望のピッチに従い、右に移動されている。中域の
山の間隔は狭められ、高域の山はそのままとなってい
る。それぞれの山は、破線で示す振幅スペクトルの概形
を保つように高さが調整される。なお、無声音の場合
は、元のピッチの影響はないので、上記の操作は必要な
い。また、得られた非調和成分に対し、コントロールパ
ラメータに対応してさらに何らかの操作（例えば、スペ
クトル包絡形状の変形など）を行なってもよい。また、
耳障りとなる音を軽減させたり、音に特徴を持たせたり
するため、一定の帯域のみ通過させるようなフィルター
をかけてもよい。

【００２６】［継続時間調整］さて、このままでは素片
の持つもともとの長さをそのまま使うことになるため、
一定のタイミングでしか歌声を合成することができな
い。そこで、求めるタイミングに応じて必要ならば素片
の継続長を変更する必要がある。例えば、音素連鎖の場
合には、素片内に含まれるフレームを間引くことで素片
の長さは短くなり、重複させることで長くすることがで
きる。また、例えば、音素が１つの場合（伸ばし音の場
合）には、素片内のフレーム一部だけを用いれば伸ばし
部分は短くなり、素片内を繰り返すことで長くすること
ができる。

【００２７】伸ばし音の場合に素片内を繰り返すとき、
単に一方向だけ繰り返すよりも一方向に進んで逆方向に
戻り、再び元の方向に進む（すなわち、一定区間あるい
はランダムな区間内をループする）ということを繰り返
すほうが、つなぎ目の雑音が軽減できることが知られて
いるが、非調和成分がフレーム（固定あるいは可変長）
ごとに区切られて周波数領域で記憶されている場合に
は、周波数領域のフレームデータをそのままの形で繰り
返して波形を合成するのは問題である。これは、時間的
に逆方向に進むときにはフレーム内の波形自体も時間的
に逆になるようにしなければならないからである。時間
的に逆方向に進む波形を元の周波数領域のフレームデー
タから生成するには、周波数領域の位相を反転させて時
間領域に変換すればよい。図４は、この様子を示す図で
ある。

【００２８】図４の（ａ）は、もともとの非調和成分の
波形を示す図である。図に示す繰り返し区間t1からt2ま
で進み、t2に達した後は時間的に逆方向に進み、再びt1
に達した後は順方向に進む、ということを繰り返して伸
ばし音のための非調和成分を生成するものとする。非調
和成分は、前述のように、固定あるいは可変長のフレー
ムごとに区切られて周波数成分で記憶されている。時間
領域の波形を生成するには、周波数領域のフレームデー
タを逆ＦＦＴし、窓関数を掛けてオーバーラップさせな
がら合成すればよい。ここで、時間的に逆方向にフレー
ムを読み込んで合成する場合、周波数領域のフレームデ
ータをそのまま時間領域に変換すると、図４（ｂ）に示
すように、フレーム内の波形は時間的に元のままフレー
ムの順番だけが逆になった波形になってしまい、不連続
となって雑音や歪みなどの原因となる。

【００２９】これを解決するためには、フレームデータ
から時間領域の波形を求める際に、時間的に逆の波形が
生成されるようにあらかじめフレームデータを加工すれ
ばよい。もとの波形をｆ(t)（便宜上、無限に続く波形
と考える）、時間的に逆方向になる波形をｇ(t)とし、
それぞれのフーリエ変換をＦ(ω)、Ｇ(ω)とすると、ｇ
(t)＝ｆ(-t)であり、かつ、ｆ(t)、ｇ(t)ともに実関数
なので、Ｇ(ω)＝Ｆ(ω)^*（*は複素共役を示す）が成立する。振幅と位相で表わした場合に、複素共役は
位相を逆にしたものになるので、時間的に逆の波形を生
成するためには、周波数領域のフレームデータの位相ス
ペクトルをすべて逆にすれば良いことがわかる。このよ
うにすれば、図４の（ｃ）に示すように、フレーム内部
も時間的に逆の波形となり、雑音や歪みが生じない。

【００３０】前記継続時間調整手段２４では、上述のよ
うな素片の圧縮処理（フレームの間引き）、伸長処理
（フレームの繰り返し）およびループ処理（伸ばし音の
場合）を行なう。これにより、読み出した各素片の継続
時間（すなわちフレーム列の長さ）を所望の長さに調整
することができる。

【００３１】［素片レベル調整］さらに、素片と素片の
接続部分で調和・非調和の各成分のスペクトル包絡の形
状に差がありすぎる場合は、雑音として聴こえる怖れが
ある。複数のフレームをかけて接続部分をスムージング
することによりこれを解消することができる。このスム
ージング処理について図５〜図７を参照して説明する。
非調和成分については、素片の接続部に音色やレベルの
ばらつきがあっても、比較的聴こえにくいため、ここで
は、調和成分のみスムージングするものとする。このと
き、データを扱いやすくして計算を簡単にするために、
調和成分のスペクトル包絡を図５に示すように、直線あ
るいは指数関数で表現した傾き成分と指数関数などで表
現した共鳴成分とに分けて考えることとする。ここで、
共鳴成分の強度は傾き成分を基準に計算するものとし、
傾き成分と共鳴成分を足し合わせてスペクトル包絡を表
わすものとする。すなわち、調和成分を前記傾き成分と
共鳴成分とを用いたスペクトル包絡を表わす関数で表現
している。ここで、前記傾き成分を０Hzまで延長した値
を傾き成分のゲインと称することとする。

【００３２】このとき、図６に示すような２つの素片
[ａ-ｉ]と[ｉ-ａ]とを接続するものとする。各素片は、
もともと別の録音から採集したものであるため、接続部
のｉの音色とレベルにミスマッチがあるため、図６に示
すように、接続部分で波形の段差が発生し、ノイズとし
て聴こえる。そこで、その接続部を中心とし前後に何フ
レームかかけて、それぞれの素片に含まれる傾き成分と
共鳴成分の各パラメータをクロスフェードしてやれば、
接続部分での段差が消え去り、ノイズの発生を防止する
ことができる。各パラメータをクロスフェードするため
には、図７に示すように、接続部分で0.5となるような
関数（クロスフェードパラメータ）を両素片の各パラメ
ータに掛けて足し合わせてやればよい。図７に示す例で
は、第１の共鳴成分の（傾き成分を基準とした）強度の
[ａ-ｉ]，[ｉ-ａ]の各素片における動きと、これをクロ
スフェードする例を示している。このように、各パラメ
ータ（この場合は、各共鳴成分）にクロスフェードパラ
メータを乗算して足し合わせることにより素片の接続部
におけるノイズの発生を防止することができる。

【００３３】また、上記のようにクロスフェードする代
わりに、素片の接続部分で前後の振幅がほぼ同じになる
ように、素片の調和・非調和の各成分のレベル調整を行
っても良い。レベル調整は、素片の振幅に対し、一定あ
るいは時変の係数を掛けることにより行なうことができ
る。上記と同様に、[ａ-ｉ]と[ｉ-ａ]を接続して合成す
る場合を例にとって、レベル調整の一例につき説明す
る。ここでは、前記各素片の傾き成分のゲインを合わせ
ることを考える。図８の（ａ）、（ｂ）に示すように、
まず、[ａ-ｉ]と[ｉ-ａ]の各素片について、その最初の
フレームと最終フレームの間の傾き成分のゲインを直線
補間したもの（図中の破線）を基準に、実際の傾き成分
のゲインとの差分を求める。次に、[ａ]，[ｉ]の各音韻
の代表的なサンプル（傾き成分および共鳴成分の各パラ
メータ）を求める。これは、例えば、[ａ-ｉ]の最初の
フレームと最終フレームのデータを用いても良い。この
代表サンプルをもとに、まず、パラメータを直線補間し
たものを求め、次いで、上で求めた差分を足し込んでい
けば、図８の（ｃ）に示すように、境界ではかならず全
てのパラメータが同じになるため、傾き成分のゲインの
不連続は発生しない。共鳴成分のパラメータなど他のパ
ラメータについても、同様に不連続を防止することがで
きる。なお、以上に述べた方法によらず、例えば、調和
成分のデータを波形データに変換し、時間領域でレベル
調整などを行うようにしてもよい。

【００３４】前記素片レベル調整手段２６において、上
述した素片間のスムージングあるいはレベル調整処理が
行われた後、素片接続手段２６で素片接続処理が行なわ
れる。そして、調和成分生成手段２７において、得られ
た調和成分スペクトル包絡を保ったまま所望のピッチに
対応する倍音列を発生することにより、実際の調和成分
が得られ、それに非調和成分を足し合わせることによ
り、合成歌唱音が得られる。そして、これを時間領域の
信号に変換する。例えば、調和・非調和の両成分を周波
数成分で持っている場合には、両成分を周波数領域で足
し合わせ逆ＦＦＴと窓掛けおよびオーバーラップを行な
うことにより、合成波形が得られる。なお、両成分を別
々に逆ＦＦＴを窓掛けおよびオーバラップを行い、後で
足し合わせてもよい。また、調和成分については、各倍
音に対応する正弦波を生成し、逆ＦＦＴと窓掛けおよび
オーバーラップにより求められた非調和成分と足しあわ
せても良い。

【００３５】図９は、前記図２に示した本発明の歌唱合
成装置の一実施の形態の構成をより詳細に示す機能ブロ
ック図である。この図において、前記図２と同一の構成
要素には同一の符号を付す。また、この例では、音韻
（音声素片）データベース１０中には、調和成分はフレ
ーム毎の振幅スペクトル包絡情報、非調和成分はフレー
ム毎の振幅スペクトル包絡情報と位相スペクトル包絡情
報が含まれているものとする。図９において、３１は、
歌声を合成すべき楽曲の楽譜データから歌詞データとメ
ロディデータを分離する歌詞・メロディー分離手段、３
２は前記歌詞・メロディー分離手段３１からの歌詞デー
タを音声記号（音素）列に変換する歌詞音声記号変換手
段であり、この歌詞音声記号変換手段３２からの音素列
は前記音素（音声記号）素片変換手段２１に入力され
る。また、演奏を制御するテンポなどの各種コントロー
ルパラメータが入力可能とされており、前記歌詞・メロ
ディー分離手段３１で楽譜データから分離されたピッチ
情報と強弱記号などのダイナミクス情報および前記コン
トロールパラメータはピッチ決定手段３３に入力され、
歌唱音のピッチやダイナミクスおよびテンポが決定され
る。前記音素素片変換手段２１からの素片情報および前
記ピッチ決定手段からのピッチ、ダイナミクス、テンポ
などの情報は、素片選択手段３４に供給され、該素片選
択手段３４は、前記音声素片データベース（音韻データ
ベース）１０から最も適切な素片データを検索して出力
する。このとき、検索条件に完全に一致する素片データ
が記憶されていないときには、類似する１または複数の
素片データを読み出す。

【００３６】前記素片選択手段３４から出力された素片
データの内の調和成分のデータは、調和成分調整手段２
２に供給される。前記素片選択手段３４により読み出さ
れた素片データが複数の場合には、この調和成分調整手
段２２におけるスペクトル包絡補間部３５で前記検索条
件に合致するように補間処理を行ない、さらに、必要に
応じて、スペクトル包絡変形部３６で前記コントロール
パラメータに対応してスペクトル包絡の形状を変形す
る。一方、前記素片選択手段３４から出力された素片デ
ータのうちの非調和成分のデータは非調和成分調整手段
２３に入力される。この非調和成分調整手段２３には、
前記ピッチ決定手段３３からのピッチ情報が入力されて
おり、前記図３に関して説明したように、非調和成分の
低域成分に対してピッチに応じた周波数軸の圧縮あるい
は伸長処理を行なう。すなわち、バンドパスフィルター
３７により、非調和成分の振幅スペクトルおよび位相ス
ペクトルを低域、中域、高域に３分割し、低域および中
域については周波数軸圧縮・伸長部３８および３９でそ
れぞれピッチに対応した周波数軸の圧縮あるいは伸長を
行なう。この周波数軸の圧縮あるいは伸長処理が行なわ
れた低域および中域の信号およびこのような操作がなさ
れない高域の信号は、ピーク調整部４０に供給され、こ
の非調和成分のスペクトル包絡の形状を維持するよう
に、そのピーク値が調整される。

【００３７】前記調和成分調整手段２２からの調和成分
データおよび前記非調和成分調整手段２３からの非調和
成分データは、継続時間長調整手段２４に入力される。
そして、この継続時間長調整手段２４において、前記メ
ロディー情報および前記テンポ情報により決定される発
音時間長に応じて素片の時間長の変更が行なわれる。前
述のように、素片データの継続時間を短くする場合に
は、時間軸圧縮・伸長部４３でフレームの間引きを行
い、継続時間を長くするときには、ループ部４２で、前
記図４に関して説明したループ処理を行なう。前記継続
時間長調整手段２４で継続時間長を調整された素片デー
タは、レベル調整手段２５で前記図５〜図８に関して説
明したようなレベル調整処理を施され、素片接続手段２
６で調和成分、非調和成分それぞれ時系列に接続され
る。

【００３８】前記素片接続手段２６で接続された素片デ
ータの調和成分（スペクトル包絡情報）は調和成分生成
手段２７に入力される。この調和成分生成手段２７に
は、前記ピッチ決定手段３３からのピッチ情報が供給さ
れており、前記スペクトル包絡情報に従った前記ピッチ
情報に対応する倍音成分を生成する。これにより、その
フレームの実際の調和成分が得られる。そして、前記素
片接続手段２６からの非調和成分の振幅スペクトル包絡
情報および位相スペクトル包絡情報と、前記調和成分生
成手段２７からの調和成分の振幅スペクトルを加算器２
８で合成する。そして、このように合成された各フレー
ムに対応する周波数領域の信号を逆フーリエ変換手段
（逆ＦＦＴ手段）５１で時間領域の波形信号に変換し、
さらに、窓掛け手段５２でフレーム長に対応した窓関数
を乗算し、さらに、オーバーラップ手段５３により各フ
レーム毎の波形信号をオーバーラップさせながら合成す
る。そして、このように合成した時間波形信号をＤ／Ａ
変換手段５４でアナログ信号に変換し、増幅器５５を介
してスピーカ５６から出力する。

【００３９】さらに、図１０は、前記図９に示した具体
例を動作させるためのハードウエア装置の一例を示す図
である。この図において、６１はこの歌唱合成装置全体
の動作を制御する中央処理装置（ＣＰＵ）、６２は各種
プログラムや定数などが記憶されているＲＯＭ、６３は
ワークエリアや各種データを記憶するＲＡＭ、６４はデ
ータメモリ、６５は所定のタイマ割込みなどを発生させ
るタイマ、６６は前記演奏すべき楽曲の楽譜データや歌
詞データなどを入力する歌詞・メロディー入力部、６７
は演奏に関する各コントロールパラメータなどを入力す
るコントロールパラメータ入力部、６８は各種情報を表
示する表示部、６９は前記合成された歌唱データをアナ
ログ信号に変換するＤ／Ａ変換器、７０は増幅器、７１
はスピーカ、７２は前記各構成要素間を接続するバスで
ある。ここで、前記ＲＯＭ６２あるいはＲＡＭ６３上に
前記音韻データベース１０がロードされ、歌詞・メロデ
ィ入力部６６およびコントロールパラメータ入力部６７
から入力されたデータに従い、前述のように歌唱音の合
成を行ない、合成音はスピーカ７１から出力される。こ
の図１０に示す構成は、通常の汎用コンピュータと同一
の構成とされており、本発明の歌唱合成装置の上記各機
能部は、汎用コンピュータのアプリケーションプログラ
ムとしても実現することができる。

【００４０】さて、上述した実施の形態においては、前
記音韻データベース１０に格納されている素片データ
は、ＳＭＳデータ、代表的な例では、調和成分の単位時
間（フレーム）毎のスペクトル包絡、および、非調和成
分のフレーム毎の振幅スペクトルおよび位相スペクトル
であった。そして、前述のように、母音などの伸ばし音
の素片データを記憶することにより、高品質の歌唱音を
合成することができるものであった。しかしながら、特
に伸ばし音の場合には、その伸ばし音の区間全ての時刻
（フレーム）における調和成分および非調和成分が記憶
されているため、データ量が大きくなってしまうという
問題がある。調和成分の場合は、基本ピッチの整数倍の
周波数ごとにデータを持てばよいので、例えば基本ピッ
チが150Hz、最大周波数が22025zとして、１５０の周波
数についての振幅データ（あるいは位相も）を持つ必要
がある。これに対し、非調和成分の場合にはさらに多く
のデータが必要で、振幅スペクトル包絡と位相スペクト
ル包絡を全ての周波数について持つ必要がある。１フレ
ーム内のサンプリング点数を1024点とした場合、1024の
周波数について振幅および位相のデータが必要となる。
特に、伸ばし音については、伸ばし音区間中の全てのフ
レームについてデータを持つ必要があるため、データの
大きさは非常に大きなものとなってしまう。また、伸ば
し音の区間のデータは各音素ごとに用意する必要がある
のに加え、上述のように、自然性を上げるためにはさま
ざまなピッチごとにデータを用意するのが望ましいが、
このことによってデータベース中のデータの量はさらに
大きくなってしまう。

【００４１】そこで、前記データベースのサイズを非常
に小さくすることの出来る本発明の他の実施の形態につ
いて説明する。この実施の形態では、前記データベース
１０を作成するときに、伸ばし音の非調和成分のデータ
を記憶する際、スペクトル包絡白色化手段を付加する。
そして、合成時の前記非調和成分調整手段内に、非調和
成分のスペクトル包絡生成手段を設けるようにしてい
る。これにより、伸ばし音の非調和成分について、その
スペクトル包絡を個別に記憶する必要をなくし、データ
量の削減を可能としている。

【００４２】図１１は、伸ばし音の場合における調和成
分と非調和成分のスペクトル包絡の一例を示す図であ
る。この図に示すように、母音などの伸ばし音の場合の
非調和成分のスペクトル包絡は、一般に、調和成分のス
ペクトル包絡に形状が似ている、すなわち、山や谷の位
置がおおよそ一致している。したがって、調和成分のス
ペクトル包絡に何らかの操作（ゲイン調整、全体的な傾
きの調整など）を行なえば、非調和成分のスペクトル包
絡として妥当なものを得ることができる。また、伸ばし
音では、対象区間内の各フレームでの各周波数成分の微
妙なゆらぎが重要であり、このゆらぎの度合いは母音が
変わってもさほど変らないと考えられる。そこで、非調
和成分の振幅スペクトル包絡をあらかじめ何らかの形で
平坦なものにして、もとの母音の音色の影響を取り去っ
ておく（白色化する）。白色化により、見た目に平坦な
スペクトルとされる。そして、合成時には調和成分のス
ペクトル包絡の形状をもとに非調和成分のスペクトル包
絡を求め、前記白色化したスペクトル包絡にかけてやれ
ば非調和成分の振幅スペクトル包絡を求めることができ
る。すなわち、スペクトル包絡のみ調和成分のスペクト
ル包絡をもとに生成し、位相についてはもともとの伸ば
し音の非調和成分に含まれるものをそのまま利用する。
このようにすることで、白色化された伸ばし音データを
もとに、異なる母音の伸ばし音データの非調和成分を生
成することが可能となる。

【００４３】図１２は、本発明のこの実施の形態におけ
る前記音韻データベース１０の作成処理を説明するため
の図であり、前記図１と同一の構成要素には同一の番号
を付し、説明を省略することとする。この図１２に示す
ように、この実施の形態においては、伸ばし音につい
て、前記区間切り出し手段１４から出力される非調和成
分の振幅スペクトルを白色化するスペクトル白色化手段
８０を有している。これにより、伸ばし音の非調和成分
の振幅スペクトルとして白色化された振幅スペクトルの
みが記憶されており、各素片データの非調和成分として
はその位相スペクトルのみが記憶されることとなる。

【００４４】図１３は、前記スペクトル白色化手段８０
の一構成例を示す図である。前述のように、このスペク
トル白色化手段８０により伸ばし音の非調和成分の振幅
スペクトルは白色化され、見た目に平坦なものとされる
のであるが、このときに、区間内の全てのフレームにわ
たってスペクトルを完全に平坦（全ての周波数で同一の
値を持つ）にするのではなく、各周波数の時間的な微妙
なゆらぎを残したまま各フレームの形状を平坦に近くす
る、という動作が必要になる。そこで、図１３に示すよ
うに、代表振幅スペクトル包絡作成部８１において、区
間内の代表的な振幅スペクトル包絡を求め、スペクトル
包絡の逆数生成部８２で、そのスペクトル包絡の各周波
数成分の逆数を求め、これをフィルタ８３において、各
フレームのスペクトル包絡のそれぞれの周波数成分に掛
け算するという操作を行なっている。ここで、前記区間
内の代表的な振幅スペクトル包絡を求めるには、例え
ば、各周波数ごとに平均値をとって、その平均値を使っ
て代表的スペクトル包絡としてもよい。また、区間内の
各周波数成分の最大値を使って代表的スペクトル包絡と
しても良い。これにより、前記フィルタ８３から白色化
された振幅スペクトルが得られる。また、位相スペクト
ルはそのままその素片の非調和成分領域に記憶される。

【００４５】このようにして、伸ばし音の非調和成分は
白色化されるが、合成時には調和成分のスペクトル包絡
を用いて非調和成分を求めるので、白色化された非調和
成分は、母音であればすべての母音に共通に使用するこ
とができる。すなわち、母音であれば、１つの伸ばし音
の白色化された非調和成分があれば、充分である。もち
ろん、複数の白色化非調和成分を持っても差し支えな
い。

【００４６】図１４は、このように伸ばし音の非調和成
分について白色化した振幅スペクトルを記憶するように
した場合の合成処理について説明するための図である。
この図において、前記図２と同一の構成要素には同一の
番号を付し、説明を省略する。この図に示すように、こ
の実施の形態においては、前記音韻データベース１０か
ら読み出された当該素片の非調和成分（白色スペクト
ル）が入力されるスペクトル包絡生成手段９０が、前記
非調和成分調整手段２４の前段に付加されている。前述
のように、前記音韻データベース１０から伸ばし音の白
色化された非調和成分が読み出されたときは、スペクト
ル包絡生成手段９０において、調和成分のスペクトル包
絡をもとに、非調和成分の振幅スペクトル包絡を計算す
る。例えば、最大周波数の成分は変わらないものとし
て、スペクトルの包絡の傾きだけを変えるように非調和
成分のスペクトル包絡を定める方法が考えられる。そし
て、この振幅スペクトル包絡を同時に読み出された非調
和成分の位相スペクトル包絡とともに、前記非調和成分
調整手段２４に入力する。以下の処理は、前記図２に示
した場合と同様である。

【００４７】このように、伸ばし音の非調和成分の振幅
スペクトルを白色化して記憶する場合には、一部の伸ば
し音についてのみ白色化された非調和成分の振幅スペク
トルを記憶し、他の伸ばし音については非調和成分の振
幅スペクトルを記憶しないようにすることができる。こ
の場合には、合成時に、伸ばし音の素片データに非調和
成分の振幅スペクトルがないので、合成する音素に最も
近い音素をデータベース中から選択し、その伸ばし音の
非調和成分を用いて、上述のようにしてその非調和成分
の振幅スペクトルを作成すればよい。また、伸ばし音が
可能な音素を１つ以上のグループに分け、合成する音韻
が属するグループの伸ばし音データの内の１つを使用し
て、上述のように、非調和成分の振幅スペクトルを生成
するようにしてもよい。

【００４８】なお、上述のようにして白色化された振幅
スペクトルと調和成分の振幅スペクトルから求めた非調
和成分の振幅スペクトルを用いる場合に、その非調和成
分の位相スペクトルの周波数軸の全てまたは一部を元デ
ータのピッチに対応する倍音付近のデータが再生する所
望のピッチに対応する倍音付近に位置するように移動さ
せる、すなわち、倍音付近の位相データは合成時にも倍
音付近の位相データとして用いるようにすることによ
り、より自然な合成音とすることが可能となる。このよ
うにこの実施の形態によれば、データベース中に全ての
母音についての伸ばし音の非調和成分を記憶しておく必
要がなくなり、データ量を削減することが可能となる。

【００４９】さらに、このスペクトルの包絡の傾きだけ
を変えることによって非調和成分のスペクトル包絡を定
める場合に、その傾きの変化を「ハスキー度」と関連付
けることにより、合成音声のハスキー度をコントロール
することができるようになる。すなわち、合成音声にお
いて非調和成分が多ければハスキーな声になり、少なけ
れば潤いのある声になるので、傾きが急（０Hzにおける
ゲインが大きい）ならばハスキーな声になり、傾きがな
だらか（０Hzにおけるゲインが小さい）ならば潤いのあ
る声になる。そこで、図１５に示すように、非調和成分
のスペクトル包絡の傾きをハスキー度を表すパラメータ
で制御することにより、合成音声のハスキー度を制御す
ることができる。

【００５０】図１６は、ハスキー度の制御を行なうこと
ができるようにした場合の前記スペクトル包絡生成手段
９０の構成例を示す図であり、スペクトル包絡生成部９
１において、調和成分のスペクトル包絡に対して、コン
トロールパラメータとして供給されるハスキー度情報に
従った傾きを乗算し、このようにして得られた特性を前
記非調和成分の白色化された振幅スペクトルにフィルタ
９２で付加する。そして、前記非調和成分の位相スペク
トル包絡と前記フィルタ９２の出力を非調和成分のデー
タとして、前記非調和成分調整部２４に出力する。

【００５１】なお、調和成分のスペクトル包絡を何らか
の形でモデル化し、その中のパラメータとハスキー度を
関連付けても良い。例えば、調和成分のスペクトル包絡
を定式化するときのパラメータのうちのいずれか（傾き
に関連するパラメータ）を変化させることでハスキー度
と関連付けて非調和成分のスペクトル包絡を求めても良
い。また、ハスキー度は時間的に固定としても良いし、
可変としても良い。可変にした場合、音韻を伸ばしてい
る途中でだんだん声がハスキーになってくるというよう
な面白い効果を得ることもできる。

【００５２】また、単にハスキー度の制御を行なうこと
ができるようにするためには、上述のように、音韻デー
タベース１０に非調和成分の白色化した振幅スペクトル
を記憶しておく必要はない。上述した最初の実施の形態
のように、伸ばし音の非調和成分についても他の素片と
同様に振幅スペクトルをそのまま記憶しておき、合成時
に、その非調和成分の振幅スペクトルに、その伸ばし音
区間内を代表する振幅スペクトルを求めてその逆数を乗
算することにより平坦なスペクトルを作成し、調和成分
の振幅スペクトルに基づいてハスキー度を制御するパラ
メータに応じた非調和成分の振幅スペクトルを計算し、
前記平坦なスペクトルに乗算することにより得たスペク
トルを非調和成分の振幅スペクトルとすればよい。

【００５３】

【発明の効果】以上説明したように、本発明の歌唱合成
装置によれば、次のような効果を得ることができる。・ＳＭＳ技術の利用により、了解度は良好で、伸ばして
いる部分も自然な合成歌唱音が得られる。・ＳＭＳ技術の利用により、ビブラートやピッチの微妙
な変化を行なった場合でも不自然な合成音にならない。・有声音部分（調和成分）のスペクトル包絡の形状が最
適なものを含む素片を選択あるいは補間により求めるた
め、ピッチによるスペクトル包絡の形状の変化にも対処
することができる。その結果、幅広いピッチにおいて良
い音色が得られる。・有声音の場合の非調和成分について、所望のピッチに
合うようにスペクトル形状の微細な形状を変化させるた
め、非調和成分と調和成分を混合しても雑音に聴こえた
り浮いた音に聴こえたりすることがない。・音素の伸ばし部分の長さや音素連鎖の長さを自由に調
整できるので、所望のテンポどおりに合成歌唱音を得る
ことができる。・音素・音韻の接続部分について、スムージング、ある
いはその音素・音韻のレベル調整を行うため、接続時に
雑音が発生しない。・合成された歌声は、所望のピッチに合う音色になり、
求めるタイミングで歌われ、接続単位間の雑音も無く、
高い品質の歌声となる。

【００５４】また、伸ばし音の非調和成分を白色化して
記憶する本願の歌唱合成装置によれば、データベースの
サイズを非常に小さくすることができるととともに、デ
ータベース作成の効率を向上させることが可能となる。
また、簡単に合成音声のハスキーさの度合いを調整する
ことのできる歌唱合成装置を提供することが可能とな
る。

【図面の簡単な説明】

【図１】本発明の歌唱合成装置に使用する音韻データ
ベースの作成処理について説明するための図である。

【図２】本発明の歌唱合成装置における歌唱音合成処
理について説明するための図である。

【図３】本発明の歌唱合成装置における非調和成分調
整処理について説明するための図である。

【図４】本発明の歌唱合成装置におけるループ処理に
ついて説明するための図である。

【図５】スペクトル包絡のモデル化について説明する
ための図である。

【図６】素片データの接続部におけるミスマッチにつ
いて説明するための図である。

【図７】本発明の歌唱合成装置におけるスムージング
処理について説明するための図である。

【図８】本発明の歌唱合成装置におけるレベル調整処
理について説明するための図である。

【図９】本発明の歌唱合成装置の一実施の形態の構成
を詳細に示す機能ブロック図である。

【図１０】本発明の歌唱合成装置を動作させるための
ハードウエア装置の一例を示す図である。

【図１１】伸ばし音における調和成分と非調和成分の
スペクトル包絡の一例を示す図である。

【図１２】本発明の歌唱合成装置の他の実施の形態に
おける音韻データベースの作成処理について説明するた
めの図である。

【図１３】スペクトル白色化手段の一構成例を示す図
である。

【図１４】本発明の歌唱合成装置の他の実施の形態に
おける歌唱音合成処理について説明するための図であ
る。

【図１５】ハスキー度の制御について説明するための
図である。

【図１６】ハスキー度の制御を行なうことができるよ
うにした場合のスペクトル包絡生成手段の構成例を示す
図である。

【図１７】従来のＳＭＳ方式を適用した歌唱合成装置
について説明するための図である。

【符号の説明】

１０音韻データベース、１３ＳＭＳ分析手段、１４
区間切り出し手段、２１音素→素片変換手段、２２
調和成分調整手段、２３非調和成分調整手段、２４
継続時間調整手段、２５素片レベル調整手段、２６
素片接続手段、２７調和成分生成手段、２８合成
手段、８０スペクトル白色化手段、９０スペクトル
包絡生成手段

───────────────────────────────────────────────────── フロントページの続き (72)発明者ジョルディボナダスペインバルセロナ 08002 メルセ 12 Ｆターム(参考） 5D045 AA08 AA09

Claims

【特許請求の範囲】

【請求項１】音素あるいは２つ以上の音素のつながり
である音素連鎖である音声素片について調和成分のデー
タと非調和成分のデータを記憶した音韻データベースを
有し、歌詞に対応した音声素片データを前記音韻データ
ベースから読み出して接続することにより、歌唱音を合
成する歌唱合成装置であって、目的のテンポや歌い方に合うように前記音韻データベー
スから読み出した音声素片データの時間長を調整する継
続時間調整手段と、目的のピッチに合うように前記音韻データベースから読
み出した音声素片データの前記調和成分および前記非調
和成分を調整する調整手段とを有することを特徴とする
歌唱合成装置。
【請求項２】前記音声素片データを接続するときに、
調和成分、非調和成分それぞれについてスムージング処
理あるいはレベル調整処理を行なう素片レベル調整手段
を有することを特徴とする請求項１記載の歌唱合成装
置。
【請求項３】前記音韻データベース中には、同一の音
素または音素連鎖について、ピッチ、ダイナミクス、テ
ンポの異なる複数の音声素片データが記憶されているこ
とを特徴とする請求項１あるいは２記載の歌唱合成装
置。
【請求項４】前記音韻データベース中には、母音など
の伸ばし音からなる音声素片データ、子音から母音ある
いは母音から子音への音素連鎖からなる音声素片デー
タ、子音から子音への音素連鎖からなる音声素片データ
および母音から母音への音素連鎖からなる音声素片デー
タが記憶されていることを特徴とする請求項１〜３のい
ずれかに記載の歌唱合成装置。
【請求項５】前記調和成分のデータと前記非調和成分
のデータは、その素片の区間に含まれるフレーム列の各
フレームに対応する周波数領域のデータ列として記憶さ
れていることを特徴とする請求項１〜４のいずれかに記
載の歌唱合成装置。
【請求項６】前記継続時間調整手段は、音声素片に含
まれるフレーム列中の１または複数のフレームを繰り返
すこと、あるいは、フレームを間引くことにより所望の
時間長のフレーム列を生成するものであることを特徴と
する請求項５記載の歌唱合成装置。
【請求項７】前記継続時間調整手段は、非調和成分の
フレームを繰り返すときに、合成時に時間的に逆行する
場合には、その非調和成分の位相スペクトルの位相を反
転させることを特徴とする請求項６記載の歌唱合成装
置。
【請求項８】歌唱音合成時に、調和成分について、音
声素片データに含まれている調和成分のスペクトル包絡
の概形を保ったままピッチだけを所望のピッチに変換す
る調和成分生成手段を有することを特徴とする請求項５
記載の歌唱合成装置。
【請求項９】前記音韻データベース中に記憶される音
声素片データのうち伸ばし音に対応する音声素片につい
ては、非調和成分の振幅スペクトルとして、その非調和
成分の振幅スペクトルにその伸ばし音の区間を代表する
スペクトルの逆数を乗算することにより得られた平坦な
スペクトルを記憶していることを特徴とする請求項５記
載の歌唱合成装置。
【請求項１０】歌唱音合成時に、伸ばし音の非調和成
分については、その調和成分の振幅スペクトルに基づい
て非調和成分の振幅スペクトルを計算し、それを前記平
坦なスペクトルに乗ずることにより、非調和成分の振幅
スペクトルを得ることを特徴とする請求項９記載の歌唱
合成装置。
【請求項１１】前記音韻データベース中の一部の伸ば
し音についての音声素片については、その非調和成分の
振幅スペクトルを記憶せず、他の伸ばし音の音声素片に
記憶されている前記平坦なスペクトルを使用して、その
伸ばし音を合成することを特徴とする請求項９あるいは
１０に記載の歌唱合成装置。
【請求項１２】前記調和成分の振幅スペクトルに基づ
いて非調和成分の振幅スペクトルを計算するときに、ハ
スキー度を制御するパラメータに応じて前記計算する非
調和成分の振幅スペクトルの０Hzにおけるゲインを制御
することを特徴とする請求項１０記載の歌唱合成装置。
【請求項１３】歌唱音合成時に、伸ばし音の非調和成
分の振幅スペクトルに、その伸ばし音区間内における代
表振幅スペクトルの逆数を乗算して平坦なスペクトルを
作成し、その伸ばし音の調和成分の振幅スペクトルに基
づいてハスキー度を制御するパラメータに応じた振幅ス
ペクトルを計算し、該振幅スペクトルと前記作成した平
坦なスペクトルとを乗ずることにより得られた振幅スペ
クトルをその伸ばし音の非調和成分の振幅スペクトルと
して使用することを特徴とする請求項５記載の歌唱合成
装置。