JP2010009034A

JP2010009034A - 歌声合成パラメータデータ推定システム

Info

Publication number: JP2010009034A
Application number: JP2009129446A
Authority: JP
Inventors: Michiyasu Nakano; 倫靖中野; Masataka Goto; 真孝後藤
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2008-05-28
Filing date: 2009-05-28
Publication date: 2010-01-14
Anticipated expiration: 2029-05-28
Also published as: US20090306987A1; US8244546B2; JP5024711B2

Abstract

【課題】入力歌声の音響信号から「人間らしい歌声」を合成するための歌声合成パラメータデータを自動推定する歌声合成パラメータデータ推定システムを提供する。
【解決手段】音高パラメータ推定部９が、入力歌声の音響信号の少なくとも音高の特徴量と音節境界が指定された歌詞データとに基づいて、入力歌声の音響信号の音高の特徴量に合成された歌声の音響信号の音高の特徴量を近づけることができる音高パラメータを推定する。音量パラメータ推定部１１が、入力歌声の音響信号の音量の特徴量を合成された歌声の音響信号の音量の特徴量に対して相対値化し、入力歌声の音響信号の相対値化した音量についての特徴量に合成された歌声の音響信号の音量の特徴量を近づけることができる音量パラメータを推定する。
【選択図】図１

Description

本発明は、歌声合成を使用した音楽制作を支援するために、例えばユーザの入力歌声の音響信号から歌声合成パラメータデータを自動推定する歌声合成パラメータデータ推定システム及び方法並びに歌声合成パラメータデータ作成用プログラムに関するものである。

従来、「人間らしい歌声」を、コンピュータを利用した歌声合成技術により作成する様々な研究がなされている。例えば、非特許文献１乃至３には、サンプリングした入力歌声の音響信号の素片(波形) を連結する方式が開示されている。また非特許文献４には、歌声の音響信号をモデル化して合成を行う方式(HMM 合成) が開示されている。また、非特許文献５乃至７には、朗読音声の音響信号から入力歌声の音響信号を分析合成する研究が開示されている。非特許文献５乃至７に記載の研究では、ユーザの声質を保って、高品質で歌声合成をすることが検討されてきた。これらの研究によって、現在では「人間らしい歌声」の合成が可能となりつつあり、商品化されているものもある［非特許文献３及び８］。

そして従来の技術をユーザが利用するためには、歌詞データと楽譜情報(何を歌わせるか) と、歌唱の表情(どう歌わせるか) を入力するインタフェースが必要となる。非特許文献２乃至４の技術では、歌詞データと楽譜情報(音高・発音開始時刻・音長) を必要とする。また非特許文献９では、歌詞データのみを歌声合成システムに与える。更に非特許文献５乃至７に記載の技術では、朗読音声の音響信号と歌詞データと楽譜情報を歌声合成システムに与える。更に非特許文献１０に記載の技術では、入力歌声の音響信号と歌詞データとを歌声合成システムに与える。これに対して非特許文献２及び３に記載の技術では、歌声合成システムに与えられるパラメータのうち、ユーザが表情に関するパラメータを調整する。また非特許文献４及び６に記載の技術では、歌い方や歌唱スタイルを予めモデル化している。さらに非特許文献７に記載の方法では、演奏記号(crescendo 等)を歌声合成システムに入力する。また非特許文献１０の方法では、入力歌声の音響信号から表情パラメータを抽出する。

しかし、従来は、入力歌声の音響信号を入力として与えることができても、パラメータを反復推定したり、入力歌声の音響信号の音高や音量を修正したりできるものはなかった。ヤマハ株式会社が製造販売する「Vocaloid」（登録商標）と呼ばれる歌声合成システムでは、ユーザはピアノロール形式のスコアエディタで歌詞情報と楽譜情報とを入力し、表情付けパラメータを操作して歌声を合成している。

J. Bonada et al.: "Synthesis of the Singing Voice by Performance Sampling and Spectral Models," In IEEE Signal Processing Magazine, Vol.24, Iss.2, pp.67−79, 2007. 吉田由紀他: "歌声合成システム: CyberSingers," 情処研報99−SLP−25−8, pp. 35−40, 1998. 剣持秀紀他: "歌声合成システムVOCALOID− 現状と課題," 情処研報2008−MUS−74−9, pp.51−58, 2008. 酒向慎司他: "声質と歌唱スタイルを自動学習可能な歌声合成システム," 情処研報2008−MUS−74−7, pp.39−44, 2008. 河原英紀他: "高品質音声分析変換合成システムSTRAIGHTを用いたスキャット生成研究の提案," 情処学論, Vol.43, No.2,pp.208−218, 2002. 齋藤毅他: "SingBySpeaking: 歌声知覚に重要な音響特徴を制御して話声を歌声に変換するシステム," 情処研報2008−MUS−74−5, pp.25−32, 2008. 森山剛他: "好みの歌唱様式による歌詞朗読音声からの歌唱合成," 情処研報2008−MUS−74−6, pp.33−38, 2008. NTT-AT ワンダーホル（ｈｔｔｐ：／／ｗｗｗ.ｎｔｔａｔ．ｃｏ．ｊｐ／ｐｒｏｄｕｃｔ／ｗｏｎｄｅｒｈｏｒｎ／）米林裕一郎他: "Orpheus: 歌詞の韻律を利用したWeb ベース自動作曲システム," インタラクション2008, pp.27−28, 2008. J. Janer et al.: "Performance−Driven Control for Sample-Based Singing Voice Synthesis," In DAFx−06, pp.42−44,2006.

より自然、あるいはより個性的な歌声を得るためには、表情パラメータの細かな調整が必要である。しかし、ユーザの能力によっては、自分の望む歌声を作るのが困難であった。また、歌声合成の条件(歌声合成システムやその音源データ) が異なると、歌声構成パラメータデータを調整しなおす必要があった。

非特許文献１０には、入力歌声の音響信号と歌詞データとを入力として、音高、音量、ビブラート情報(深さ・速さ) 等の特徴量を抽出し、抽出した特徴量を歌声合成パラメータとして与える手法を提案している。また、非特許文献１０に記載の技術では、そのようにして得られた歌声合成パラメータデータを、歌声合成システムのスコアエディタ上でユーザが編集することを想定している。しかし、入力歌声の音響信号から抽出した音高等の特徴量をそのまま歌声合成パラメータとしても、また既存の歌声合成システムのエディタを利用した編集作業を行っても、歌声合成の条件の違いには対処できなかった。

また非特許文献１０に記載の技術では、音声認識技術で用いられるViterbiアラインメントによって、歌詞の音節毎の発音開始時刻と音長の決定(以降、歌詞アラインメントと呼ぶ) も自動的に行っていた。ここで、高品質な合成音を得るためには、100%に近い精度の歌詞アラインメントが必要である。しかしViterbi アラインメントのみではそのような高い精度を得ることが難しい。しかも、歌詞アラインメントの結果と、出力される合成音は完全には一致しない。しかし従来は、この不一致に対しては、何も対処は考えられていなかった。

本発明の目的は、入力歌声の音響信号から「人間らしい歌声」を合成するための歌声合成パラメータデータを自動推定する歌声合成パラメータデータ推定システム及び方法並びに歌声合成パラメータデータ作成用プログラムを提供することにある。

本発明のより具体的な目的は、合成された歌唱が入力歌唱と近くなるように、歌声合成パラメータデータを構成する音高パラメータ及び音量パラメータを反復更新することで、歌声合成の条件の変化に対処することができる歌声合成パラメータデータ推定システム及び方法並びに歌声合成パラメータデータ作成用プログラムを提供することにある。

上記目的に加えて、本発明の別の目的は、入力歌声の音響信号に対して、音高のずれやビブラートなどの歌唱要素を修正できる歌声合成パラメータデータ推定システムを提供することにある。

本発明の歌声合成パラメータデータ推定システムは、歌声合成システムにおいて使用する、選択した１種類の歌声音源データに適した歌声合成パラメータデータを作成する。本発明が作成する歌声合成パラメータデータを使用することができる歌声合成システムは、１種以上の歌声音源データが蓄積された歌声音源データベースと、歌声の音響信号を少なくとも音高パラメータ及び音量パラメータを含む複数種類のパラメータで表現した歌声合成パラメータデータを記憶する歌声合成パラメータデータ記憶部と、入力歌声の音響信号に対応した音節境界が指定された歌詞データを記憶する歌詞データ記憶部と歌声合成部とを備えている。そして、歌声合成部は、歌声音源データベースから選択した１種類の歌声音源データと歌声合成パラメータデータと歌詞データとに基づいて、合成された歌声の音響信号を歌声合成部で合成して出力する。

本発明の歌声合成パラメータデータ推定システムは、入力歌声音響信号分析部と、音高パラメータ推定部と、音量パラメータ推定部と、歌声合成パラメータデータ作成部とを備えている。

入力歌声音響信号分析部は、入力歌声の音響信号の少なくとも音高及び音量を含む複数種類の特徴量を分析する。また音高パラメータ推定部は、入力歌声の音響信号の少なくとも音高の特徴量と音節境界が指定された歌詞データとに基づいて、音量パラメータを一定のものとして、入力歌声の音響信号の音高の特徴量に合成された歌声の音響信号の音高の特徴量を近づけることができる音高パラメータを推定する。そこで音高パラメータ推定部では、推定した音高パラメータに基づいて作成した仮の歌声合成パラメータデータを歌声合成部で合成して仮の合成された歌声の音響信号を得る。そしてこの仮の合成された歌声の音響信号の音高の特徴量が、入力歌声の音響信号の音高の特徴量に近づくまで、所定の回数音高パラメータの推定を繰り返すか、または仮の合成された歌声の音響信号の音高の特徴量が、入力歌声の音響信号の音高の特徴量に収束するまで音高パラメータの推定を繰り返す。このようにすると音源データが異なった場合でも、また歌声合成システムが異なったとしても、推定が繰り返されるたびに、仮の合成された歌声の音響信号の音高の特徴量が入力歌声の音響信号の音高の特徴量に自動的に近づいていく。

また本発明では、音高パラメータの推定を完了した後に、音量パラメータ推定部が、入力歌声の音響信号の音量の特徴量を合成された歌声の音響信号の音量の特徴量に対して相対値化し、入力歌声の音響信号の相対値化した音量についての特徴量に合成された歌声の音響信号の音量の特徴量を近づけることができる音量パラメータを推定する。この音量パラメータ推定部は、推定が完了した音高パラメータと推定した音量パラメータとに基づいて作成した仮の歌声合成パラメータデータを歌声合成部で合成して仮の合成された歌声の音響信号を得る。そして音量パラメータ推定部は、仮の合成された歌声の音響信号の音量の特徴量が、入力歌声の音響信号の相対値化した音量の特徴量に近づくまで所定の回数音量パラメータの推定を繰り返すか、または仮の合成された歌声の音響信号の音量の特徴量が、入力歌声の音響信号の相対値化した音量の特徴量に収束するまで音量パラメータの推定を繰り返す。音量パラメータについて、音高パラメータの推定と同様に、推定を繰り返すと、音量パラメータの推定精度をより高いものとすることができる。

そして歌声合成パラメータデータ作成部は、推定が完了した音高パラメータ及び推定が完了した音量パラメータに基づいて歌声合成パラメータデータを作成して歌声合成パラメータデータ記憶部に記憶させる。

なお音高パラメータが代わると、音量パラメータも変わるが、音量パラメータが変わっても音高パラメータが変わる歌声合成システムはほとんどない。そのため、本発明のように音高パラメータの推定を先に完了した後で、音量パラメータの推定を行えば、音高パラメータの推定のやり直しが不要になる。その結果、本発明によれば、歌声合成パラメータデータを短い時間で、且つ簡単に作成することができる。ただし、音量パラメータが代わると、音高パラメータも変わる例外的な歌声合成システムの場合には、音高パラメータの推定を先に完了した後で、音量パラメータの推定を行い、さらに音高パラメータの推定をやり直す必要がある。また本発明によれば、音高パラメータ及び音量パラメータを複数回推定するため、歌声合成の条件の変化に対処して、入力歌声の音響信号から「人間らしい歌声」を合成するための歌声合成パラメータデータを高い精度で自動推定することができる。

音高パラメータは、音高の変化を示すことができるものであればよい。例えば、音高パラメータを、歌詞データの複数の音節のそれぞれに対応する入力歌声の音響信号の複数の部分区間の信号の基準音高レベルを示すパラメータ要素と、部分区間の信号の基準音高レベルに対する音高の時間的相対変化分を示すパラメータ要素と、部分区間の信号の音高方向への変化幅を示すパラメータ要素とから構成することができる。例えばMIDI規格あるいは市販の歌声合成システムで見ると、具体的には、基準音高レベルを示すパラメータ要素は、MIDI規格あるいは市販の歌声合成システムのノートナンバであり、基準音高レベルに対する音高の時間的相対変化分を示すパラメータ要素は、MIDI規格あるいは市販の歌声合成システムのピッチベンド（PIT）であり、音高方向への変化幅を示すパラメータ要素は、MIDI規格あるいは市販の歌声合成システムのピッチベンドセンシティビィティ（PBS）である。

このように音高パラメータを３つのパラメータ要素によって構成する場合には、音高パラメータ推定部を、次のようしてこれらのパラメータ要素を推定することができる。まず基準音高レベルを示すパラメータ要素を決定した後、音高の時間的相対変化分を示すパラメータ要素と音高方向への変化幅を示すパラメータ要素について予め定めた初期値を設定する。次に、初期値に基づいて仮の歌声合成パラメータデータを作成し、該仮の歌声合成パラメータデータを歌声合成部で合成し仮の合成された歌声の音響信号を得る。そして仮の合成された歌声の音響信号の音高の特徴量を、入力歌声の音響信号の音高の特徴量に近づけるように音高の時間的相対変化分を示すパラメータ要素と音高方向への変化幅を示すパラメータ要素を推定する。以後推定したパラメータ要素に基づいて次の仮の歌声合成パラメータデータを作成する。そして次の仮の歌声合成パラメータデータを歌声合成部で合成して得た次の仮の合成された歌声の音響信号の音高の特徴量を、入力歌声の音響信号の音高の特徴量に近づけるように音高の時間的相対変化分を示すパラメータ要素と音高方向への変化幅を示すパラメータ要素を再推定する動作を繰り返す。このようにすると最初に基準音高レベルを決定した後は、残りの２つのパラメータ要素を繰り返し推定すればよいので、パラメータ要素の推定が容易になり、音高パラメータを３つのパラメータ要素によって構成することが可能になる。

また音量パラメータ推定部は、音量パラメータの推定のために、次の二つの機能を備えているのが好ましい。一つの機能は、推定が完了した音高パラメータと設定可能な音量パラメータの範囲の中心の音量パラメータとに基づいて作成した仮の歌声合成パラメータデータを、歌声合成部で合成して得た仮の合成された歌声の音響信号の音量の特徴量と、入力歌声の音響信号の音量の特徴量との距離が最も小さくなるように相対値化係数αを定める機能である。二つ目の機能は、相対値化係数αを入力歌声の音響信号の音量の特徴量に乗算して相対値化した音量の特徴量を作る機能である。これら二つの機能があれば、入力歌声の音響信号の音量の特徴量が、歌声合成部で合成して得る仮の合成された歌声の音響信号の音量の特徴量と比べて、かなり大きい場合でも、またかなり小さい場合でも、相対値化によって、音量パラメータを適正に推定することができる。

音量パラメータは、音量の変化を示すことができるものであればよい。例えば、音量パラメータは、MIDI規格のエクスプレッションあるいは市販の歌声合成部のダイナミクス（DYN）である。音量パラメータとしてダイナミクスを用いる場合には、ダイナミクスの表現可能な範囲に合わせて、入力歌声の音響信号の音量の特徴量を全体的に相対値化する。相対値化では、入力歌声の音響信号の各音節の音量の特徴量の大部分が、ダイナミクスの設定範囲の全ての値における仮の合成された歌声の音響信号の音量の特徴量が存在する範囲内に入るようにする。そして現在のパラメータを用いて得た仮の合成された歌声の音響信号の音量の特徴量を、相対値化した入力歌声の音響信号の音量の特徴量に近づけるように、各音節の音量パラメータ（ダイナミクス）を推定することを繰り返せばよい。

音節境界が指定されていない歌詞データが入力される場合には、歌声合成パラメータデータ推定システムに、音節境界が指定されていない歌詞データと入力歌声の音響信号とに基づいて、音節境界が指定された歌詞データを作成する歌詞アラインメント部を更に設ければよい。歌詞アラインメント部を設けておけば、音節境界が指定されていない歌詞データが入力された場合であっても、音節境界が指定された歌詞データを歌声合成パラメータデータ推定システムにおいて、簡単に準備することができる。歌詞アラインメント部の構成は任意である。例えば、歌詞アラインメント部を、音素列変換部と、音素マニュアル修正部と、アラインメント推定部と、アラインメント・マニュアル修正部と、音素−音節列変換部と、有声区間補正部と、音節境界訂正部と、歌詞データ記憶部とから構成することができる。音素列変換部は、歌詞データに含まれる歌詞を複数の音素から構成される音素列に変換する。音素マニュアル修正部は、音素列変換部の変換結果をマニュアルで修正することを可能にする。またアラインメント推定部は、アラインメント用文法を生成した後に、入力歌声の音響信号における、音素列に含まれる複数の音素のそれぞれの開始時期と終了時期とを推定する。そしてアラインメント・マニュアル修正部は、アラインメント推定部が推定した音素列に含まれる複数の音素のそれぞれの開始時期と終了時期とをマニュアルで修正することを可能にする。また音素−音節列変換部は、音素列を、音節列に変換する。そして有声区間補正部は、音素−音節列変換部から出力された音節列における有声区間のずれを補正する。更に音節境界訂正部は、有声区間が補正された音節列の音節境界の誤りをマニュアルによる指摘に基づいて訂正することを可能にする。そして歌詞データ記憶部は、音節列を音節境界が指定された歌詞データとして記憶する。このような構成の歌詞アラインメント部を用いると、自動修正または自動決定が難しい部分にはユーザを介入させるので、より高い精度で歌詞アラインメントを達成することができる。その結果、音節境界が指定されていない歌詞データが入力された場合でもあっても、音節境界が指定された歌詞データを歌声合成パラメータデータ推定システムにおいて、簡単に準備することができる。

なお前述の有声区間補正部は、入力歌声音響信号分析部による分析により得た１つの有声区間中に含まれる二つ以上の音節を接続して部分的に接続された部分接続音節列を作成する部分音節列作成部と、入力歌声音響信号分析部による分析により得た有声区間に、歌声合成部で合成して得た仮の合成された歌声の音響信号を分析して得た有声区間を一致させるように部分接続音節列に含まれる複数の音節の開始時期と終了時期とを変更して音節を伸縮させる伸縮補正部とを備えているものを用いるのが好ましい。このような部分音節列作成部と伸縮補正部とを設ければ、自動的に有声区間のずれを補正することが可能になる。

また音節境界訂正部は、入力歌声の音響信号のスペクトルの時間変化を演算する演算部と、訂正実行部とから構成することができる。訂正実行部は、ユーザが介在する。訂正実行部では次のことを行う。まず音節境界の誤り箇所の前後Ｎ１個（Ｎ１は１以上の正の整数）の音節を候補算出対象区間とする。また音節境界の誤り箇所の前後Ｎ２個（Ｎ２は１以上の正の整数）の音節を距離計算区間とする。そして候補算出対象区間のスペクトルの時間変化によりスペクトルの時間変化の大きいＮ３（Ｎ３は１以上の正の整数）箇所を境界候補点として検出する。次に、各境界候補点に音節境界をずらした仮説の距離を取得し、仮説の距離が最小となる仮説をユーザに提示する。提示した仮説がユーザにより正しいと判断されるまで、境界候補点を繰り下げて他の仮説を提示する。そして提示した他の仮説がユーザにより正しいと判断されたときに、該他の仮説のための境界候補点へ音節境界をずらす訂正を行う。このように自動化が難しい部分に関して、仮説を提示してユーザに判断を求めると、音節境界の誤り訂正の精度をかなり高いレベルまで高めることができる。

なおこの場合、訂正実行部は、境界候補点に音節境界をずらした仮説の距離を取得するために、距離計算区間に対して音高パラメータを推定し、推定した音高パラメータを用いて歌声合成パラメータデータを合成して得た合成された歌声の音響信号を取得し、距離計算区間における入力歌声の音響信号と合成された歌声の音響信号のスペクトルの距離を仮説の距離として計算する。このように仮説の距離を計算すると、スペクトル形状の違い、すなわち音節の違いに着目した距離が計算できるという利点が得られる。なおスペクトルの時間変化としては、例えば、デルタ・メル周波数ケプストラム係数（ΔＭＦＣＣ）を求めればよい。

入力歌声音響信号分析部は、入力歌声の音響信号の特徴量を分析（抽出）できるものであればどのような構成のものであってもよい。好ましい入力歌声音響信号分析部は、次の３つの機能を有している。第１の機能は、所定の周期で、入力歌声の音響信号から基本周波数Ｆ_０を推定し、基本周波数から入力歌声の音響信号の音高を観測して音高の特徴量データとして分析データ記憶部に記憶する機能である。なお基本周波数Ｆ_０の推定方法は任意である。第２の機能は、入力歌声の音響信号から有声音らしさを推定し、予め定めた閾値を基準にして閾値よりも有声音らしさが高い区間を入力歌声の音響信号の有声区間として観測して分析データ記憶部に記憶する機能である。そして第３の機能は、入力歌声の音響信号の音量の特徴量を観測して、音量の特徴量データとして分析データ記憶部に記憶する機能である。

入力歌声の音響信号の音楽的な質は常に保証されているものではなく、調子がずれたものや、ビブラートがおかしいもの等もある。また男性と女性とでは、キーが異なる場合が多い。そこでこのような場合に対処するためには、入力歌声の音響信号を修正または変更できるようにするのが好ましい。そこでこの対処のために、分析データ記憶部に記憶された入力歌声の音響信号の有声区間における音高の特徴量データから調子はずれ量を推定する調子はずれ量推定部と、調子はずれ量推定部が推定した調子はずれ量を音高の特徴量データから除くように音高の特徴量データを補正する音高補正部を更に設ける。調子はずれ量を推定して、その分を除けば、調子はずれの度合いが低い入力歌声の音響信号を得ることができる。

また音高の特徴量データに任意の値を加算して音高トランスポーズをする音高トランスポーズ部を更に設けてもよい。音高トランスポーズ部を設ければ、入力歌声の音響信号を簡単に声域を変えたり移調したりすることができる。

更に入力歌声音響信号分析部は、音高の特徴量データからビブラートが存在している区間を観測してビブラート区間として分析データ記憶部に記憶する機能を更に備えていてもよい。このような機能を入力歌声音響信号分析部が備えていれば、ビブラート区間におけるビブラートの深さを任意に調整するビブラート調整部を更に設けることにより、ビブラートを任意に調整することができる。さらにビブラート区間以外における音高の特徴量データ及び前記音量の特徴量データを任意にスムージング処理するスムージング処理部を設けると、ビブラート区間を正確に除いてスムージング処理をすることができる。ただし、ここでのスムージング処理は、「ビブラートの深さを任意に調整する」ことと同等の処理であり、音高や音量の変動を大きくしたり小さくしたりする効果を持つものである。

上記に説明した上記特徴の全部を備えた歌声合成パラメータデータ推定システムが、現時点においては、実用上最も好ましいものとなるが、上記特徴の少なくとも一つを備えているだけでも、従来のシステムの個々の問題点を解消できるものである。

本発明は、１種以上の歌声音源データが蓄積された歌声音源データベースと、歌声の音響信号を少なくとも音高パラメータ及び音量パラメータを含む複数種類のパラメータで表現した歌声合成パラメータデータを記憶する歌声合成パラメータデータ記憶部と、入力歌声の音響信号に対応した音節境界が指定された歌詞データを記憶する歌詞データ記憶部と、歌声音源データベースから選択した１種類の歌声音源データと前記歌声合成パラメータデータと歌詞データとに基づいて、合成された歌声の音響信号を合成して出力する歌声合成部とを備えた歌声合成システムにおいて使用する、選択した１種類の歌声音源データに適した歌声合成パラメータデータをコンピュータが作成する歌声合成パラメータデータ作成方法としても表現できる。本発明の方法では、コンピュータが、入力歌声の音響信号の少なくとも音高及び音量を含む複数種類の特徴量を分析し、入力歌声の音響信号の少なくとも音高の特徴量と歌詞データとに基づいて、音量パラメータを一定のものとして、入力歌声の音響信号の音高の特徴量に合成された歌声の音響信号の音高の特徴量を近づけることができる音高パラメータを推定し、音高パラメータの推定を完了した後に、入力歌声の音響信号の音量の特徴量を合成された歌声の音響信号の音量の特徴量に対して相対値化し、入力歌声の音響信号の相対値化した音量についての特徴量に前記合成された歌声の音響信号の音量の特徴量を近づけることができる音量パラメータを推定し、推定された音高パラメータ及び推定された音量パラメータに基づいて歌声合成パラメータデータを作成するように構成される。そしてコンピュータが更に、推定した音高パラメータに基づいて作成した仮の歌声合成パラメータデータを歌声合成部で合成して得た仮の合成された歌声の音響信号の音高の特徴量が、入力歌声の音響信号の音高の特徴量に近づくまで所定の回数前記音高パラメータの推定を繰り返すか、または仮の合成された歌声の音響信号の前記音高の特徴量が、入力歌声の音響信号の音高の特徴量に収束するまで音高パラメータの推定を繰り返し、推定が完了した音高パラメータと推定した音量パラメータとに基づいて作成した仮の歌声合成パラメータデータを歌声合成部で合成して得た仮の合成された歌声の音響信号の音量の特徴量が、入力歌声の音響信号の相対値化した音量の特徴量に近づくまで所定の回数前記音量パラメータの推定を繰り返すか、または仮の合成された歌声の音響信号の音量の特徴量が、入力歌声の音響信号の相対値化した音量の特徴量に収束するまで音量パラメータの推定を繰り返す。

さらに本発明は、１種以上の歌声音源データが蓄積された歌声音源データベースと、歌声の音響信号を少なくとも音高パラメータ及び音量パラメータを含む複数種類のパラメータで表現した歌声合成パラメータデータを記憶する歌声合成パラメータデータ記憶部と、入力歌声の音響信号に対応した音節境界が指定された歌詞データを記憶する歌詞データ記憶部と、歌声音源データベースから選択した１種類の歌声音源データと歌声合成パラメータデータと歌詞データとに基づいて、合成された歌声の音響信号を合成して出力する歌声合成部とを備えた歌声合成システムにおいて使用する、選択した１種類の歌声音源データに適した歌声合成パラメータデータをコンピュータで作成する際にコンピュータで使用される歌声合成パラメータデータ作成用プログラムとしても表現できる。本発明のプログラムは、入力歌声の音響信号の少なくとも音高及び音量を含む複数種類の特徴量を分析する入力歌声音響信号分析部と、入力歌声の音響信号の少なくとも音高の特徴量と歌詞データとに基づいて、音量パラメータを一定のものとして、入力歌声の音響信号の音高の特徴量に前記合成された歌声の音響信号の音高の特徴量を近づけることができる音高パラメータを推定する音高パラメータ推定部と、音高パラメータ推定部が音高パラメータの推定を完了した後に、入力歌声の音響信号の音量の特徴量を合成された歌声の音響信号の音量の特徴量に対して相対値化し、入力歌声の音響信号の相対値化した音量についての特徴量に合成された歌声の音響信号の音量の特徴量を近づけることができる音量パラメータを推定する音量パラメータ推定部と、推定が完了した音高パラメータ及び推定が完了した音量パラメータに基づいて歌声合成パラメータデータを作成し歌声合成パラメータデータ記憶部に記憶させる歌声合成パラメータデータ作成部とを前記コンピュータ内に構築する。そして音高パラメータ推定部が、推定した音高パラメータに基づいて作成した仮の歌声合成パラメータデータを歌声合成部で合成して得た仮の合成された歌声の音響信号の前記音高の特徴量が、入力歌声の音響信号の音高の特徴量に近づくまで所定の回数前記音高パラメータの推定を繰り返すか、または仮の合成された歌声の音響信号の音高の特徴量が、入力歌声の音響信号の音高の特徴量に収束するまで音高パラメータの推定を繰り返し、音量パラメータ推定部が、推定が完了した音高パラメータと推定した音量パラメータとに基づいて作成した仮の歌声合成パラメータデータを歌声合成部で合成して得た仮の合成された歌声の音響信号の音量の特徴量が、入力歌声の音響信号の相対値化した音量の特徴量に近づくまで所定の回数音量パラメータの推定を繰り返すか、または仮の合成された歌声の音響信号の音量の特徴量が、入力歌声の音響信号の相対値化した音量の特徴量に収束するまで音量パラメータの推定を繰り返すようにプログラムは構成されている。なおプログラムは、コンピュータ読み取り可能な記憶媒体に記憶されていてもよいのは勿論である。

本発明の歌声合成パラメータデータ推定システムの実施の形態の一例の構成を示すブロック図である。歌声合成パラメータデータ推定システムをコンピュータを用いて実現する場合に使用されるプログラムの最も上位のアルゴリズムを示すフローチャートである。（Ａ）は入力歌声の音響信号の一例と歌詞データの一例を示す図であり、（Ｂ）は音高の特徴量の分析結果の一例を示す図である。ノートナンバを決定する場合の概念を説明するために用いる図である。音高パラメータを説明するために用いる図である。音高パラメータ推定部をコンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。音量パラメータ推定部を、コンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。ＤＹＮ＝３２，６４，９２及び１２７について、それぞれ仮の合成された歌声の音響信号を取得し、４種類の仮の合成された歌声の音響信号から音量の特徴量を推定した結果を示す図である。音量パラメータの推定をコンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。歌詞アラインメント部の構成を示すブロック図である。歌詞アラインメントを説明するために用いる図である。有声区間のずれ補正を説明するために用いる図である。音節境界訂正部をコンピュータで実現する場合のプログラムのアルゴリズムを示すフローチャートである。音節境界の誤り箇所の訂正を説明するために用いる図である。音高変更機能及び歌唱スタイル変更機能の運用結果を示す図である。インテレーションによる音高・音量の推移（実験Ｂ）を示す図である。

以下、図面を参照して本発明の歌声合成パラメータデータ推定システムの一実施の形態を説明する。図１は、本発明の歌声合成パラメータデータ推定システムの実施の形態の一例の構成を示すブロック図である。本実施の形態の歌声合成パラメータデータ推定システムでは、合成歌唱（合成された歌声の音響信号）を入力歌唱（入力歌声の音響信号）と比較しながら、歌声合成パラメータデータを反復更新する。また以下、ユーザによって与えられた歌唱の音響信号を入力歌声の音響信号、歌声合成部によって合成された合成歌唱の音響信号を合成された歌声の音響信号と呼ぶ。

本実施の形態では、ユーザが、入力歌声の音響信号とその歌詞データとを入力としてシステムに与えるものとする。入力歌声の音響信号は、入力歌声の音響信号記憶部１に記憶される。この入力歌声の音響信号は、マイクロフォン等から入力されたユーザの歌声の音響信号であっても、既製の歌声の音響信号であっても、また他の任意の歌声合成システムが出力した音響信号であってもよい。歌詞データは、通常、漢字かな混じり文の文字列のデータである。歌詞データは、後述する歌詞アラインメント部３に入力される。入力歌声音響信号分析部５は、入力歌声の音響信号に対して分析を行う。また歌詞アラインメント部３は、入力された歌詞データを、入力歌声の音響信号と同期するように音節境界が指定された歌詞データに変換して、変換結果を歌詞データ記憶部１５に記憶させる。また歌詞アラインメント部３は、漢字かな混じり文をかな文字列に変換する際の誤りや、歌詞の割り当てでフレーズをまたがるような大きな誤りがあった場合には、ユーザが手作業で訂正することを可能にする。なお音節境界が指定された歌詞データが与えられた場合には、そのような歌詞データは、歌詞データ記憶部１５に直接入力される。

図１の歌声合成パラメータデータ推定システムは、既存の歌声合成システム１００において使用する、歌声音源データベース１０３から選択した１種類の歌声音源データに適した歌声合成パラメータデータを作成して、歌声合成パラメータデータ記憶部１０５に記憶させる。歌声合成パラメータデータを使用することができる歌声合成システム１００は、歌声合成部１０１と、１種以上の歌声音源データが蓄積された歌声音源データベース１０３とを備えている。歌声合成部１０１は、入力歌声の音響信号及び合成された歌声の音響信号を少なくとも音高パラメータ及び音量パラメータを含む複数種類のパラメータで表現した歌声合成パラメータデータを記憶する歌声合成パラメータデータ記憶部１０５の出力を入力とする。そして、歌声合成部１０１は、歌声音源データベースから選択した１種類の歌声音源データと歌声合成パラメータデータと歌詞データとに基づいて、合成された歌声の音響信号を合成して再生装置１０７に出力する。再生装置１０７は、合成された歌声の音響信号を再生する。なお直接再生せずに、その音響信号をハードディスク等に音声ファイルとして保存してもよいことは言うまでもない。

本実施の形態の歌声合成パラメータデータ推定システムは、大きく分けて、入力歌声音響信号分析部５と、分析データ記憶部７と、音高パラメータ推定部９と、音量パラメータ推定部１１と、歌声合成パラメータデータ作成部１３とを備えている。図２は、歌声合成パラメータデータ推定システムをコンピュータを用いて実現する場合に使用されるプログラムの最も上位のアルゴリズムを示している。ステップＳＴ１で入力が行われ、ステップＳＴ２で入力歌声の音響信号の分析が行われ、ステップＳＴ３で音高パラメータの推定が行われ、ステップＳＴ４で音量パラメータの推定が行われ、ステップＳＴ５で歌声合成パラメータが作成される。

入力歌声音響信号分析部５は、ステップＳＴ２を実行する。そこで入力歌声音響信号分析部５は、入力歌声の音響信号の音高、音量、有声区間及びビブラート区間を特徴量として分析して、分析結果を分析データ記憶部７に記憶させる。なお、後述する調子はずれ推定部１７、音高補正部１９、音高トランスポーズ部、ビブラート調整部、スムージング処理部を設けない場合には、ビブラート区間を特徴量として分析する必要はない。本実施の形態の入力歌声音響信号分析部５は、入力歌声の音響信号の特徴量を分析（抽出）できるものであればどのような構成のものであってもよい。本実施の形態の入力歌声音響信号分析部５は、次の４つの機能を有している。第１の機能は、所定の周期で、入力歌声の音響信号から基本周波数Ｆ_０を推定し、それを入力歌声の音響信号の音高の特徴量データとして分析データ記憶部７に記憶する機能である。なお基本周波数Ｆ_０の推定方法は任意である。無伴奏歌唱から基本周波数Ｆ_０を推定する手法を用いても良いし、伴奏付き歌唱から基本周波数Ｆ_０を推定する手法を用いても良い。図３（Ａ）は入力歌声の音響信号の一例と歌詞データの一例を示している。そして図３（Ｂ）は、音高の特徴量の分析結果の一例を示している。図３（Ｂ）の縦軸の単位は後述MIDI規格のノートナンバに相当するものである。第２の機能は、入力歌声の音響信号から有声音らしさを推定し、予め定めた閾値を基準にして閾値よりも有声音らしさが高い区間を入力歌声の音響信号の有声区間として観測して分析データ記憶部に記憶する機能である。図３（Ｂ）には、音高の下に有声区間を示してある。有声区間とは、有声音が存在する区間であり、有声区間以外の区間は無声区間である。そして第３の機能は、入力歌声の音響信号の音量の特徴量を観測して、音量の特徴量データとして分析データ記憶部に記憶する機能である。図３（Ｃ）には分析した音量の特徴量の一例が示されている。図３（Ｃ）の縦軸の単位は、ここでは相対値（相対的な変化）としてのみ意味を持つ量であればよいため、音量を表すものであれば任意の単位で良い。第４の機能は、音高の特徴量データからビブラートが存在している区間を観測してビブラート区間として分析データ記憶部に記憶する機能である。ビブラートの検出手法は、公知の検出手法のいずれを採用してもよい。図３（Ｂ）にはビブラートが検出されているビブラート区間を示してある。ビブラート区間では、他の区間と比べて、音高が周期的に変化している。

音高パラメータ推定部９は、図２のステップＳＴ３を実行する。そこで音高パラメータ推定部９は、分析データ記憶部７から読み出した入力歌声の音響信号の音高の特徴量と歌詞データ記憶部１５に記憶された音節境界が指定された歌詞データとに基づいて、音量パラメータを一定のものとして、入力歌声の音響信号の音高の特徴量に合成された歌声の音響信号の音高の特徴量を近づけることができる音高パラメータを推定する。そこで音高パラメータ推定部９では、推定した音高パラメータに基づいて歌声合成パラメータデータ作成部１３が作成した仮の歌声合成パラメータデータを歌声合成部１０１で合成して仮の合成された歌声の音響信号を得る。歌声合成パラメータデータ作成部１３が作成した仮の歌声合成パラメータデータは、歌声合成パラメータデータ記憶部１０５に記憶される。したがって歌声合成部１０１は、通常の合成動作に従って、仮の歌声合成パラメータデータと歌詞データとに基づいて歌声合成部１０１で合成して仮の合成された歌声の音響信号を出力する。そして音高パラメータ推定部９では、この仮の合成された歌声の音響信号の音高の特徴量が、入力歌声の音響信号の音高の特徴量に近づくまで、音高パラメータの推定を繰り返す。なお音高パラメータの推定手法については、後に詳しく説明する。本実施の形態の音高パラメータ推定部９は、入力歌声音響信号分析部５と同様に、歌声合成部１０１から出力された仮の合成された歌声の音響信号の音高の特徴量を分析する機能を内蔵している。そして本実施の形態の音高パラメータ推定部９は、予め定めた回数（具体的には、４回）、音高パラメータの推定を繰り返す。なお予め定めた回数ではなく、仮の合成された歌声の音響信号の音高の特徴量が、入力歌声の音響信号の音高の特徴量に収束するまで音高パラメータの推定を繰り返すように音高パラメータ推定部９を構成してもよいのは勿論である。本実施の形態のように、音高パラメータの推定を繰り返すと、音源データが異なった場合でも、また歌声合成部１０１の合成方法が異なったとしても、推定が繰り返されるたびに、仮の合成された歌声の音響信号の音高の特徴量が入力歌声の音響信号の音高の特徴量に自動的に近づいていくので、歌声合成部１０１の合成の品質と精度は高くなる。

また音高パラメータの推定を完了した後に、音量パラメータ推定部１１が、図２のステップＳＴ４を実行する。そこで音量パラメータ推定部１１は、入力歌声の音響信号の音量の特徴量を合成された歌声の音響信号の音量の特徴量に対して相対値化し、入力歌声の音響信号の相対値化した音量の特徴量に合成された歌声の音響信号の音量の特徴量を近づけることができる音量パラメータを推定する。歌声合成パラメータ作成部１３は、音高パラメータ推定部９において推定が完了した音高パラメータと、音量パラメータ推定部１１が新たに推定した音量パラメータとに基づいて作成した仮の歌声合成パラメータデータを歌声合成パラメータ記憶部１０５に記憶させる。歌声合成部１０１は、仮の歌声合成パラメータデータを合成して仮の合成された歌声の音響信号を出力する。音量パラメータ推定部１１は、仮の合成された歌声の音響信号の音量の特徴量が、入力歌声の音響信号の相対値化した音量の特徴量に近づくまで所定の回数音量パラメータの推定を繰り返す。音高パラメータ推定部９と同様に、音量パラメータ推定部１１も、入力歌声音響信号分析部５と同様に、歌声合成部１０１から出力された仮の合成された歌声の音響信号の音量の特徴量を分析する機能を内蔵している。そして本実施の形態の音量パラメータ推定部１１は、予め定めた回数（具体的には、４回）、音量パラメータの推定を繰り返す。なお仮の合成された歌声の音響信号の音量の特徴量が、入力歌声の音響信号の相対値化した音量の特徴量に収束するまで音量パラメータの推定を繰り返すように、音量パラメータ推定部１１を構成してもよいのは勿論である。音量パラメータについても、音高パラメータの推定と同様に、推定を繰り返すと、音量パラメータの推定精度をより高いものとすることができる。

そして歌声合成パラメータデータ作成部１３は、図２のステップＳＴ５を実行する。歌声合成パラメータデータ作成部１３は、推定が完了した音高パラメータ及び推定が完了した音量パラメータに基づいて歌声合成パラメータデータを作成し、歌声合成パラメータデータを歌声合成パラメータデータ記憶部１０５に記憶させる。

なお音高パラメータが変わると、音量パラメータも変わるが、音量パラメータが変わっても音高パラメータが変わる歌声合成システムはほとんどない。そのため、本実施の形態のように音高パラメータの推定を先に完了した後で、音量パラメータの推定を行えば、音高パラメータの推定のやり直しが不要になる。その結果、本実施の形態によれば、歌声合成パラメータデータを短い時間で、且つ簡単に作成することができる。ただし、音量パラメータが変わると、音高パラメータも変わる例外的な歌声合成システムの場合には、音高パラメータの推定を先に完了した後で、音量パラメータの推定を行い、さらに音高パラメータの推定のやり直す必要がある。

音高パラメータ推定部９で推定する音高パラメータは、音高の変化を示すことができるものであればよい。本実施の形態では、音高パラメータを、歌詞データの複数の音節のそれぞれに対応する入力歌声の音響信号の複数の部分区間の信号の基準音高レベルを示すパラメータ要素と、部分区間の信号の基準音高レベルに対する音高の時間的相対変化分を示すパラメータ要素と、部分区間の信号の音高方向への変化幅を示すパラメータ要素とから構成する。例えばMIDI規格あるいは市販の歌声合成システムで見ると、具体的には、基準音高レベルを示すパラメータ要素は、MIDI規格あるいは市販の歌声合成システムのノートナンバである。図４は、ノートナンバを決定する場合の概念を図示するものである。なお図４において、「入力歌声の音高」とは、入力歌声の音響信号の音高を意味する。そして図５（Ａ）は、歌詞データの複数の音節のそれぞれに対応する入力歌声の音響信号の複数の部分区間の信号の基準音高レベルをノートナンバで表現した場合の例を示している。音節「た」「ち」等の下の番号「６４」、「６３」等がノートナンバである。ノートナンバは、音高が半音違うごとに一つずつ違う数字（整数）で音高を表現したものであり、０〜１２７の数字で表現される。鍵盤は整数のノートナンバに対応するが、単位として考えるときは同じ尺度上で実数として扱っても良い。例えば、ピアノの鍵盤の一つ一つには、一番低い鍵盤から一つずつ増える整数のノートナンバが割り当てられており、１オクターブの音高の違いはノートナンバで１２の差に対応する。また本実施の形態では、基準音高レベル（整数のノートナンバ）に対する音高（ノートナンバの単位で実数で表現される音高）の時間的相対変化分を示すパラメータ要素として、MIDI規格あるいは市販の歌声合成システムのピッチベンド（PIT）を用いている。ピッチベンド（PIT）は−８１９２から８１９１の範囲の整数で表現される。図５（Ｂ）は、ピッチベンド（PIT）の一例を示している。図５（Ｂ）においては、中心ラインは各音節における基準音高レベル（ノートナンバ）に相当する。音節ごとにノートナンバの値自体は異なるが、それらを一直線上に表現して、その一直線への相対値としてピッチベンド（PIT）を示してある。さらに本実施の形態では、音高方向への変化幅を示すパラメータ要素として、MIDI規格あるいは市販の歌声合成システムのピッチベンドセンシティビィティ（PBS）を用いている。図５（Ｃ）は、ピッチベンドセンシティビィティ（PBS）の一例を示している。ピッチベンドセンシティビィティ（PBS）は、通常は１であり、音高の変化が大きい場合には、２，３等の値を取る。最大値は２４である。なお、必要がなければピッチベンドセンシティビィティ（PBS）は小さいほどよい。これは、小さいほうが、音高を表現する周波数分解能が細かくなるからである。

このように音高パラメータを３つのパラメータ要素によって構成する場合には、音高パラメータ推定部９は、次のようにしてこれらのパラメータ要素を推定することができる。図６は、音高パラメータ推定部９をコンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示している。まずステップＳＴ１１においては、基準音高レベルを示すパラメータ要素としてのノートナンバを決定する。ノートナンバの決定に関しては、図４に示すように、各音節の始端から終端の区間について入力歌声の音響信号の音高の特徴量と、０〜１２７までの各ノートナンバとの類似度を計算する。そして各音節ごとに、類似度が最大となるノートナンバを該当するノートナンバとして決定する。

そしてステップＳＴ１２で、音高の時間的相対変化分を示すパラメータ要素［ピッチベンド（PIT）］と音高方向への変化幅を示すパラメータ要素［ピッチベンドセンシティビィティ（PBS）］について予め定めた初期値を設定する。本実施の形態では、PIT＝０、PBS＝１を初期値として設定する。次に、ステップＳＴ１３で、ノートナンバと音量パラメータを固定して、ステップＳＴ１３ＡとステップＳＴ１３Ｂとを繰り返し実行する。まずステップＳＴ１３Ａでは、初期値に基づいて仮の歌声合成パラメータデータを作成し、仮の歌声合成パラメータデータを歌声合成システムで合成し仮の合成された歌声の音響信号を得る。そしてステップＳＴ１３Ｂで、仮の合成された歌声の音響信号の音高の特徴量を、入力歌声の音響信号の音高の特徴量に近づけるように音高の時間的相対変化分を示すパラメータ要素（PIT）と音高方向への変化幅を示すパラメータ要素（PBS）を推定する。そして推定回数Ｘ１が４回に達するまで、推定したパラメータ要素（PIT，PBS）に基づいて次の仮の歌声合成パラメータデータを作成する。そして次の仮の歌声合成パラメータデータを歌声合成部で合成して得た次の仮の合成された歌声の音響信号の音高の特徴量を、入力歌声の音響信号の音高の特徴量に近づけるように音高の時間的相対変化分を示すパラメータ要素（PIT）と音高方向への変化幅を示すパラメータ要素（PBS）を再推定する動作（ステップＳＴ１３Ａ及び１３Ｂ）を繰り返す。

初期値を入力した以降のピッチベンド（PIT）とピッチベンドセンシティビィティ（PBS）の推定（決定）をするために、まずその推定時点（現在）のピッチベンド（PIT）とピッチベンドセンシティビィティ（PBS）を、後述する式（１２）でノートナンバの単位を持つ実数値Ｐｂに変換する。次に仮の合成された歌声の音響信号の音高の特徴量を推定する。そして入力歌声の音響信号の音高の特徴量と仮の合成された歌声の音響信号の音高の特徴量との差を求め、この差を前述の実数値Ｐｂに加算する。そして実数値Ｐｂに基づきピッチベンドセンシティビィティ（PBS）が小さくなるようにピッチベンド（PIT）とピッチベンドセンシティビィティ（PBS）を決定する。本実施の形態では、上記動作を、４回繰り返すことになる。

このようにすると最初に基準音高レベル（ノートナンバ）を決定した後は、残りの２つのパラメータ要素（PIT，PBS）を繰り返し推定すればよいので、パラメータ要素の推定が容易になり、音高パラメータを３つのパラメータ要素によって構成することが可能になる。ステップＳＴ１４で、Ｘ１が４になったときに推定を終了する。ただし、この４は他の整数値でもよい。

図７は、音量パラメータ推定部１１を、コンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。このアルゴリズムにより、音量パラメータ推定部１１は、音量パラメータの推定のために、次の二つの機能を備えることになる。一つの機能は、推定が完了した音高パラメータと設定可能な音量パラメータの範囲の中心の音量パラメータとに基づいて作成した仮の歌声合成パラメータデータを、歌声合成部で合成して得た仮の合成された歌声の音響信号の音量の特徴量と、入力歌声の音響信号の音量の特徴量との距離が最も小さくなるように相対値化係数αを定める機能である。二つ目の機能は、相対値化係数αを入力歌声の音響信号の音量の特徴量に乗算して相対値化した音量の特徴量を作る機能である。これら二つの機能があれば、入力歌声の音響信号の音量の特徴量が、歌声合成部１０１で合成して得られる仮の合成された歌声の音響信号の音量の特徴量と比べて、かなり大きい場合でも、またかなり小さい場合でも、相対値化によって、音量パラメータを適正に推定することができるようになる。なお本実施の形態では、音量パラメータとして、MIDI規格のエクスプレッションあるいは市販の歌声合成システムのダイナミクス（ＤＹＮ）を用いている。

そこで図７のフローチャートでは、まずステップＳＴ２１で、音量パラメータ（ＤＹＮ）を設定可能な範囲（０〜１２７）の中央の値（６４）に設定する。すなわち最初は、すべての区間の音量パラメータを中央の値（６４）に設定する。なお音量パラメータ（ＤＹＮ）の設定可能な範囲（０〜１２７）は、設定可能な音量のレベルの範囲を示すものであって、前述のノートナンバの０〜１２７とは無関係である。そしてステップＳＴ２２で、先に推定が完了した音高パラメータと中央の値に設定した音量パラメータとを歌声合成パラメータ作成部１３で合成して仮の歌声合成パラメータデータを作成し、歌声合成部１０１で合成を行って、仮の合成された歌声の音響信号を取得する。次にステップＳＴ２３で仮の合成された歌声の音響信号の音量の特徴量を、入力歌声信号分析部５における分析と同様にして推定する。次にステップＳＴ２４で、入力歌声の音響信号の音量の特徴量と仮の合成された歌声の音響信号の音量の特徴量との距離（区間全体での距離）が最も小さくなるように、入力歌声の音響信号の音量の特徴量を相対値化する相対値化係数αを決定する。

相対値化係数αを決定した後は、ステップＳＴ２５において相対値化係数αを固定したまま、設定可能な０から１２７のダイナミクス（ＤＹＮ）の全てで仮の合成された歌声の音響信号の音量の特徴量を取得したときのデータを取得する。設定可能な０から１２７のダイナミクス（ＤＹＮ）の全てにおいて、仮の合成された歌声の音響信号の音量の特徴量を推定する処理を行ってもよいが、処理量が多くなる。そこで本実施の形態では、例えば、ＤＹＮ＝０，３２，６４，９２及び１２７について、それぞれ仮の合成された歌声の音響信号を取得し、取得した５種類の仮の合成された歌声の音響信号の音量の特徴量をそれぞれ取得する。そしてＤＹＮ＝０，３２，６４，９２及び１２７以外のその他のＤＹＮにおける仮の合成された歌声の音響信号の音量の特徴量については、線形補間（内挿）を用いてそれぞれ推定する。このようにして取得したＤＹＮ＝０〜１２７についての仮の合成された歌声の音響信号の音量の特徴量は、音量パラメータを推定するために使用される。図８には、ＤＹＮ＝３２，６４，９２及び１２７について、それぞれ仮の合成された歌声の音響信号を取得し、４種類の仮の合成された歌声の音響信号から音量の特徴量を推定した結果を示してある。図８においては符号ＩＶで示したデータは、入力歌声の音響信号から分析した音量の特徴量である。図８の状態では、入力歌声の音響信号から分析した各音節における音量の特徴量が、ＤＹＮ＝１２７における仮の合成された歌声の音響信号の音量の特徴量よりも大きくなっている場合が多い。そこで本実施の形態では、入力歌声の音響信号から分析した音量の特徴量に対して相対値化係数αを乗算して、音量パラメータの推定が可能なレベルまで入力歌声の音響信号の音量の特徴量を小さくする。

ステップＳＴ２６では、仮の合成された歌声の音響信号の音量の特徴量の初期値を得るためのダイナミクス（ＤＹＮ）を６４（中間値）に設定する。そしてステップＳＴ２７へと進む。ステップＳＴ２７では、先に推定が完了した音高パラメータとダイナミクス（ＤＹＮ）を６４に設定した音量パラメータとを用いて、歌声合成パラメータデータ作成部１３で歌声合成パラメータデータを作成し、歌声合成部１０１から仮の合成された歌声の音響信号を取得する。そしてステップＳＴ２８で、音量パラメータとしての第１回目のダイナミクスの推定を行う。

ステップＳＴ２８における推定は図９に示すアルゴリズムに従って実行される。図９のステップＳＴ３１では、まずステップＳＴ２７で取得した仮の合成された歌声の音響信号の音量の特徴量を分析する。そしてステップＳＴ３２では、先に取得したＤＹＮ＝０〜１２７の全てにおける仮の合成された歌声の音響信号の音量の特徴量の関係を用いて、ダイナミクスで表される現在の音量パラメータを入力歌声の音響信号の音量の特徴量に対応する実数値（Ｄｐ）に変換する。次にステップＳＴ３３で、入力歌声の音響信号の音量の特徴量に相対値係数αを乗算して、入力歌声の音響信号の音量の特徴量を相対値化する。次にステップＳＴ３４では、相対値化した入力歌声の音響信号の音量の特徴量と仮の合成された歌声の音響信号の音量の特徴量との差を前述の実数値（Ｄｐ）に加算して得た新たな値（Ｄｐ′）を得る。そしてステップＳＴ３５では、新たな値（Ｄｐ′）と先に取得したＤＹＮ＝０〜１２７の全てにおける仮の合成された歌声の音響信号の音量の特徴量との類似度（距離）を計算する。そしてステップＳＴ３６では、計算した類似度（距離）が最大（最小）となるように各音節の音量パラメータ（ダイナミクス）を決定する。

すなわち図８に示す入力歌声の音響信号の音量の特徴量（ＩＶ）を全体的に相対値化して、入力歌声の音響信号の各音節の音量の特徴量の大部分が、ＤＹＮ＝０〜１２７の全てにおける仮の合成された歌声の音響信号の音量の特徴量（図８のＤＹＮ＝３２，６４，９６，１２７等）が存在する範囲内に入るようにする。そして現在のパラメータを用いて得た仮の合成された歌声の音響信号の音量の特徴量を相対値化した入力歌声の音響信号の音量の特徴量に近づけるように、各音節の音量パラメータ（ダイナミクス）を推定する。本実施の形態では、図７のステップＳＴ２７〜ステップＳＴ２８を４回繰り返した後、音量パラメータの推定を完了する。ただし、この４回は他の整数値でもよい。

図１に戻って、音節境界が指定された歌詞データを用いる場合には、そのデータは歌詞記憶データ記憶部１５に直接記憶する。しかし音節境界が指定されていない歌詞データが歌声合成パラメータデータ作成に入力される場合には、歌詞アラインメント部３が、音節境界が指定されていない歌詞データと入力歌声の音響信号とに基づいて、音節境界が指定された歌詞データを作成する。本実施の形態のように、歌詞アラインメント部３を設けておけば、音節境界が指定されていない歌詞データが入力された場合であっても、音節境界が指定された歌詞データを歌声合成パラメータデータ推定システムにおいて、簡単に準備することができる。

歌詞アラインメント部の構成は任意である。図１０には、本実施の形態の歌詞アラインメント部３の構成を示している。この歌詞アラインメント部３は、音素列変換部３１と、音素マニュアル修正部３２と、アラインメント推定部３３と、アラインメント・マニュアル修正部３４と、音素−音節列変換部３５と、有声区間補正部３６と、音節境界訂正部３９と、歌詞データ記憶部１５とを有している。音素列変換部３１は、図１１（Ａ）に示すように、音節境界が指定されていない歌詞データに含まれる歌詞を複数の音素から構成される音素列に変換する（形態素解析）。図１１（Ａ）の例では、上段に示された平仮名で表示された歌詞データが、下段に示されたアルファベット表示の音素列に変換されている。

音素マニュアル修正部３２は、音素列変換部３１の変換結果をユーザがマニュアルで修正することを可能にする。修正を行うために、変換された音素列はパソコンのモニタ等の表示部４２に表示される。ユーザは、パソコンのキーボード等の入力部を操作して、表示部４２に表示された音素列中の音素の誤りを修正する。

またアラインメント推定部３３は、まず図１１（Ｂ）に示すようなアラインメント用文法を生成する。図１１（Ｂ）のアラインメント用文法では、音節と音節との間に短い無音に対応するショートポーズｓｐを配置している。なおアラインメント用文法の定め方は、周知の音声認識技術に従って定めればよく、任意である。その後、アラインメント推定部３３は、図１１（Ｃ）に示すように入力歌声の音響信号ＩＳにおける、音素列に含まれる複数の音素のそれぞれの開始時期と終了時期とを推定して、推定結果を表示部４２に表示する。このアラインメントには、例えば音声認識技術で使用されているViterbiアラインメント技術を用いることができる。図１１（Ｃ）においては、表示部４２に表示した推定結果の一例を示している。この例では、横に並ぶ複数のブロックがそれぞれ音素に対応しており、各ブロックの前端の発生時期が対応する音素の開始時期を示し、ブロックの後端が音素の終了時期を示している。図１１（Ｃ）においては、音素列の子音を対応するブロックの上に表示し、母音を対応するブロックの中に表示している。図１１（Ｃ）に示して例では、Ｅｒで表示した音素「ｍａ」で、２つのフレーズを跨る誤り（前方のフレーズに後方のフレーズの音素が誤って入り込む誤り）が発生している。そこでアラインメント・マニュアル修正部３４は、アラインメント推定部３３が推定した音素列に含まれる複数の音素のそれぞれの開始時期と終了時期とをマニュアルで修正することを可能にする。図１１（Ｄ）には、図１１（Ｃ）に示した音素列を修正した修正後の音素列が示されている。アラインメント・マニュアル修正部３４は、表示部４２に表示した推定結果の誤り箇所Ｅｒをユーザがカーソル等で指摘すると、誤り箇所を前のフレーズから後ろのフレーズへと移動させる修正動作を行う。

図１０に示す音素−音節列変換部３５は、アラインメント推定部３３が最終的に推定した音素列を、音節列に変換する。図１２（ｉ）は、音素−音節列変換部３５により音素列が音節列に変換された状態を概念的に示す図である。日本語の歌詞であれば、日本語の音素列中の「子音＋母音」あるいは母音を１つの音節とすることができる。本実施の形態では、図１２（ｉ）に示すように、母音部分を音節として、音素列を音節列ＳＬに変換している。そして本実施の形態のシステムでは、入力歌声の音響信号の歌詞の実際の音節と、変換された音節列ＳＬの有声区間のずれの補正と、音節境界の誤りの訂正とを行う。本実施の形態では、有声区間補正部３６が、音素−音節列変換部３５から出力された音節列ＳＬにおける有声区間のずれを補正する。更に音節境界訂正部３９が、有声区間補正部３６により有声区間が補正された音節列の音節境界の誤りを、ユーザからのマニュアルによる指摘に基づいて訂正することを可能にする。

有声区間補正部３６は、部分音節列作成部３７と、伸縮補正部３８とを備えている。部分音節列作成部３７は、図１２（ii）に示すように、図１に示した入力歌声音響信号分析部５により分析されて分析データ記憶部７に保存された入力歌声の音響信号の１つの有声区間［図３（Ｂ）及び図１２（iv）の破線で示した有声区間ＴＰ参照］中に含まれる二つ以上の音節を接続して部分的に接続された部分接続音節列ＰＳＬを作成する。そして伸縮補正部３８は、入力歌声音響信号分析部５による分析により得た入力歌声の音響信号の有声区間ＴＰ［図１２（iv）に破線で示した有声区間ＴＰ参照］に、後述する方法で合成して得た仮の合成された歌声の音響信号を分析して得た有声区間ＴＰ′［図１２（iv）に実線で示した有声区間ＴＰ′参照］を一致させるように部分接続音節列ＰＳＬに含まれる複数の音節の開始時期と終了時期とを変更して音節を伸縮させる。

伸縮補正部３８では、最初に、仮の合成された歌声の音響信号を得るために、部分接続音節列ＰＳＬに含まれる複数の音節のそれぞれについて図５（Ａ）において説明したノートナンバを取得する。ノートナンバは、前述のとおり、部分接続音節列ＰＳＬ中の複数の音節のそれぞれに対応する入力歌声の音響信号の複数の部分区間の信号の基準音高レベルを数字で表現したものである。部分接続音節列ＰＳＬ中の複数の音節のノートナンバが判れば、そのノートナンバと、音源データベース１０３から選択した１つの音源データと、部分接続音素列を含む歌詞データとを用いて、仮の合成された歌声の音響信号を生成することができる。そこで伸縮補正部３８は、音高パラメータ及び音量パラメータを一定にして、仮の合成された歌声の音響信号を生成する。次にこの仮の合成された歌声の音響信号について、図１に示した入力音声信号分析部５と同様に、分析を行って、仮の合成された歌声の音響信号の有声区間ＴＰ′を決定する。この有声区間ＴＰ′の決定方法は、前述の有声区間ＴＰの決定方法と同じである。このようにして仮の合成された歌声の音響信号の有声区間ＴＰ′を決定した後、入力歌声の音響信号の有声区間ＴＰ［図１２（iv）に破線で示した有声区間ＴＰ参照］と、仮の合成された歌声の音響信号を分析して得た有声区間ＴＰ′［図１２（iv）に実線で示した有声区間ＴＰ′参照］とを対比する。両者の間にずれがある場合には、有声区間ＴＰ′を有声区間ＴＰに一致させるように、部分接続音節列ＰＳＬに含まれる複数の音節の開始時期と終了時期とを変更して音節を伸縮させる。図１２（iv）に示した矢印（→，←）は、音節の開始時期と終了時期の伸縮方向（シフト方向）を示している。有声区間ＴＰ′のずれの補正は、図１２（iii）に示すように、各音節を示すブロックの長さの調整となって顕在化する。例えば、図１２（iii）の最後の音節「き」のブロックの長さは、有声区間ＴＰ′のずれの補正に伴って長くなっている。このような部分音節列作成部３７と伸縮補正部３８とを設ければ、自動的に有声区間ＴＰ′の有声区間ＴＰに対するずれを補正することができる。

音節境界訂正部３９は、合成された歌声の音響信号の有声区間ＴＰ′のずれを補正した部分接続音節列ＰＳＬ′の音節境界の誤りを訂正するものである。図１０に示すように、音節境界訂正部３９は、入力歌声の音響信号のスペクトルの時間変化を演算する演算部４０と、訂正実行部４１とから構成することができる。図１３は、音節境界訂正部３９をコンピュータで実現する場合のプログラムのアルゴリズムを示すフローチャートである。なお訂正実行部４１は、ユーザが介在して訂正を実行する。演算部４０は、図１３のステップＳＴ４１に示すように、入力歌声の音響信号のデルタＭＦＣＣ(Mel-Frequency Cepstrum Coefficient)を計算することにより、音響信号のスペクトルの時間変化を演算する。訂正実行部４１では演算部４０で演算したデルタＭＦＣＣを用いて音節境界の誤り箇所の訂正を次のステップにより実行する。訂正実行部４１は、図１４（Ａ）に示すように、補正した部分接続音節列ＰＳＬ′を表示部４２に表示する。そしてユーザが、表示部４２の画面上で、誤り箇所ＥＰを指摘すると、訂正実行部４１は、図１３のステップＳＴ４２に従って、誤り箇所ＥＰの前後Ｎ１個（本実施の形態では、Ｎ１＝１である。但し、Ｎ１は１以上の正の整数である）の音節を候補算出対象区間Ｓ１とする。またステップＳＴ４３で、誤り箇所ＥＰの前後Ｎ２個（本実施の形態では、Ｎ２＝２である。但しＮ２は、１以上の正の整数である）の音節を距離計算区間Ｓ２とする。そしてステップＳＴ４４においては、候補算出対象区間Ｓ１のスペクトルの時間変化によりスペクトルの時間変化の大きいＮ３（本実施の形態では、Ｎ３＝３である。但し、Ｎ３は１以上の正の整数である）箇所を境界候補点として検出する。図１４（Ｂ）は、３箇所の境界候補点の例を示している。但し、既に誤りだと指摘された（正しくないと判断された）箇所を除くものとする。次に、ステップＳＴ４５で、各境界候補点に音節境界をずらした仮説の距離を取得する。仮説の距離の計算には、距離計算区間Ｓ２に対して、各音節のノートナンバを推定し、また予め定めた初期値のピッチベンド（PIT）及びピッチベンドセンシティビィティ（PBS）を導入して音高パラメータを推定する。この音高パラメータの推定には、図１に示した音高パラメータ推定部９における推定動作と同様の演算が行われる。そして推定により得た音高パラメータと予め定めた一定の音量パラメータとを用いて、仮の合成された歌声の音響信号を作成する。その次に、距離計算区間Ｓ２全体における入力歌声の音響信号のスペクトルと仮の合成された歌声の音響信号のスペクトルとの距離を計算する。なおスペクトルの距離は、振幅スペクトルあるいはＭＦＣＣを用いればよい。本実施の形態では、振幅スペクトルを用いている。図１４（Ｂ）に示した３箇所の境界候補点に音節境界をそれぞれずらした仮説について、距離計算区間Ｓ２における距離を計算する。

そしてステップＳＴ４６において、距離が最小となる仮説を提示する。この仮説の提示は、表示部４２への音節列の表示と、仮の合成された歌声の音響信号を再生装置で再生することにより実施される。あるいはこの仮説の提示をいずれか一方のみで実施しても良い。ステップＳＴ４７では、提示した仮説がユーザにより正しいと判断されたか否かが判断される。そしてユーザが正しいと判断しなかった場合には、ステップＳＴ４４へと戻って、次の仮説の提示が行われる。ステップＳＴ４７でユーザが仮説を正しいと判断した場合には、ステップＳＴ４８へと進んで、その仮説に従って音節境界をずらす。このようにして音節境界の誤りを訂正する。本実施の形態のように、自動化が難しい部分に関して、仮説を提示してユーザに判断を求めると、音節境界の誤り訂正の精度をかなり高いレベルまで高めることができる。また本実施の形態のように、距離計算区間全体における入力歌声の音響信号と合成された歌声の音響信号のスペクトルの距離を仮説の距離として計算すると、スペクトル形状の違い、すなわち音節の違いに着目した距離が計算できるという利点が得られる。なおスペクトルの時間変化は、前述のデルタ・メル周波数ケプストラム係数（ΔＭＦＣＣ）以外のスペクトルの時間変化を示すものを用いてもよいのは勿論である。

入力歌声の音響信号の音楽的な質は常に保証されているものではなく、調子がずれたものや、ビブラートがおかしいもの等もある。また男性と女性とでは、キーが異なる場合が多い。そこでこのような場合に対処するためには、本実施の形態では、図１に示すように、調子はずれ量推定部１７、音高補正部１９、音高トランスポーズ部２１、ビブラート調整部２３及びスムージング処理部２５を備えている。本実施の形態では、これらを用いて、入力歌声の音響信号自体を編集することにより、歌唱入力の表現を広げる。具体的には、以下の二種類の変更機能を実現できる。なおこれらの変更機能は、状況に応じて利用すればよく、使わないという選択も可能である。

（Ａ）音高の変更機能
・調子はずれ(off Pitch) の補正：音高がずれた音を修正する。

・音高トランスポーズ：自分では歌えない声域の歌唱を合成する。

（Ｂ）歌唱スタイルの変更機能
・ビブラート深さ(vibrato extent) の調整：ビブラートを強く・弱くという直感的操作で、自分好みの表現へ変更できる。

・音高・音量のスムージング：音高のオーバーシュート、微細変動等を抑制できる。

上記の変更機能を実現するため、調子はずれ量推定部１７は、分析データ記憶部７に記憶された入力歌声の音響信号の連続する有声区間における音高の特徴量データから調子はずれ量を推定する。そして音高補正部１９は、調子はずれ量推定部１７が推定した調子はずれ量を音高の特徴量データから除くように音高の特徴量データを補正する。調子はずれ量を推定して、その分を除けば、調子はずれの度合いが低い入力歌声の音響信号を得ることができる。なお具体例については、後に説明する。

また音高トランスポーズ部２１は、音高の特徴量データに任意の値を加減算して音高トランスポーズをする際に用いられる。音高トランスポーズ部２１を設ければ、入力歌声の音響信号を簡単に声域を変えたり移調したりすることができる。

ビブラート調整部は、ビブラート区間におけるビブラートの深さを任意に調整する。ビブラートの深さの調整のためには、例えば、図３（Ｂ）に示すような入力歌声の音響信号の音高の軌跡を平滑化し、また図３（Ｃ）に示すような入力歌声の音響信号の音量の軌跡を平滑化する。そして平滑化した音高の軌跡と平滑化前の音高の軌跡を、図３（Ｂ）に示すようなビブラート区間に関して補間（内挿あるいは外挿）する。また平滑化した音量の軌跡と平滑化前の音量の軌跡を、図３（Ｂ）に示すようなビブラート区間に関して補間（内挿あるいは外挿）する。すなわち内挿の場合には、平滑化した軌跡と平滑化前の軌跡の間に音高または音量が入るように補間する。そして外挿の場合には、平滑化した軌跡と平滑化前の軌跡の間ではなく、それらの外側に音高または音量が出るように補間する。

スムージング処理部２５は、ビブラート区間以外における音高の特徴量データ及び音量の特徴量データを任意にスムージング処理する。ただし、ここでのスムージング処理は、「ビブラートの深さを任意に調整する」ことと同等の処理をビブラート区間外で行うことであり、ビブラート区間以外で音高や音量の変動を大きくしたり小さくしたりする効果を持つものである。そこでビブラート調整部と同様に、例えば、図３（Ｂ）に示すような入力歌声の音響信号の音高の軌跡を平滑化し、また図３（Ｃ）に示すような入力歌声の音響信号の音量の軌跡を平滑化する。そして平滑化した音高の軌跡と平滑化前の音高の軌跡を、図３（Ｂ）に示すようなビブラート区間以外に関して補間（内挿あるいは外挿）する。また平滑化した音量の軌跡と平滑化前の音量の軌跡を、図３（Ｂ）に示すようなビブラート区間以外に関して補間（内挿あるいは外挿）する。

なお図２に示したコンピュータ用プログラムのアルゴリズムは、音節境界が指定された歌詞を用いる場合のものであるが、音節境界が指定されていない歌詞を用いる場合には、図１のステップＳＴ２の後に歌詞アラインメントを実行するステップを入れればよい。また音高または歌唱スタイルの変更を行う場合には、歌詞アラインメントを実行する前に、ビブラート区間の検出を行い、その後に音高または歌唱スタイルの変更機能を使用するステップを入れればよい。

［実施例］
以下上記に説明した本発明の歌声合成パラメータデータ推定システムを具体的に実現する場合に使用した技術について項を分けて説明し、最後に本実施の形態の運用及び評価実験について説明する。

［歌声合成パラメータの推定］
次の３つのステップによって歌声合成パラメータを推定する。

・入力歌声の音響信号の分析
・音高パラメータと音量パラメータの推定
・音高パラメータと音量パラメータの更新(反復しながら更新)
まず入力歌声の音響信号から歌声の合成に必要な情報を分析・抽出する。ここで、分析は入力歌声の音響信号に対してだけでなく、推定の途中で作成される歌声合成パラメータ及び歌詞データに基づいて合成された仮の合成された歌声の音響信号に対しても行う。仮の合成された歌声の音響信号の分析が必要なのは、歌声合成パラメータが同一であっても、歌声合成の条件の違い（歌声合成システムの相違や音源データの相違）によって、合成される歌声の音響信号が異なるからである。以下、歌声合成パラメータを構成する音高パラメータ及び音量パラメータとの区別を明確にするため、分析によって得られた入力歌声の音響信号の音高の特徴量及び音量の特徴量を、必要に応じて観測値と呼ぶこともある。

［歌声分析及び歌声合成の要素技術］
以下「歌声分析」及び「歌声合成」に関する、要素技術について説明する。以下の説明では、入力歌声の音響信号のサンプリング周波数は44.1kHz のモノラル音声信号を扱うものとし、処理の時間単位は10 msec とする。

歌声分析においては、入力歌声の音響信号から、合成された歌声の音響信号の合成に必要な歌声合成パラメータを構成するパラメータを抽出する必要がある。以下、「音高」、「音量」、「発音開始時刻」、「音長」の抽出のための要素技術について説明する。なおこれらの要素技術は、状況に応じて別の技術で代用することができるのは勿論である。

音高については、入力歌声の音響信号の音高(Ｆ_０: 基本周波数) を入力歌声の音響信号から抽出し、有声/無声の判定も同時に行う。Ｆ_０推定には任意の手法が使えるが、後述する実験では、Gross Errorが低いと報告されている「A. Camacho: “SWIPE: A Sawtooth Waveform Inspired PITch Estimator for Speech And Music,” Ph.D. Thesis, University of Florida, 116p., 2007.」に記載の手法を用いた。以後、Ｆ_０ (ｆHz) は、特に明記しない限り、次式でMIDI ノートナンバに対応する単位の実数値(ｆNote#) へ変換して扱う。

音量は、Ｎを窓幅、ｘ（ｔ）を音声波形、ｈ（ｔ）を窓関数として、以下のように計算する。

Ｎは2048 点(約46ms)、ｈ（ｔ）はハニング窓とする。

[発音開始時刻及び音長]
発音開始時刻及び音長は、音声認識で使われるViterbiアラインメントによって自動的に推定したものを利用する。ここで、漢字かな混じり文の歌詞は、前述の歌詞アラインメント部３の一部を構成する形態素解析器(工藤拓, MeCab: Yet Another Part-of-Speech and Morphological Analyzer；hhtp://mecab.sourceforge.net/MeCab 等)によってかな文字列に変換した後、音素列に変換する。変換結果に誤りがあった場合は、前述の歌詞アラインメント部３は、ユーザが手作業で訂正することを許容する。Viterbiアラインメントでは、図１１（Ｂ）に示すように、音節境界に短い無音(short pause) が入ることを許容したアラインメント文法を用いる。音響モデルには、朗読音声用のHMM [河原達也他: 連続音声認識コンソーシアム2002 年度版ソフトウェアの概要, 情処研報2003-SLP-48-1, pp.1−6, 2003.15] を、MLLR-MAP法[V.V. Digalakis et al.: “Speaker adaptation using combined transformation and Bayesian methods,” IEEE Transactionson Speech and Audio Processing, Vol.4, No.4,pp.294−300, 1996.16] によって入力歌声の音響信号に適応させて使用した。

［歌声合成の要素技術]
歌声合成部１０１としては、ヤマハ株式会社の開発した「Vocaloid2」 [商標] の応用商品である、クリプトン・フューチャー・メディア株式会社の「初音ミク(以下、CV01)」及び「鏡音リン(以下、CV02)」を用いた。これらは、歌詞と楽譜情報を入力でき、表情(音高, 音量など) に関するパラメータを各時刻毎に指定できるという条件を満たし、市販されていて入手しやすく、異なる音源データも利用できる。またVSTi プラグイン(Vocaloid Playback VST Instrument) によって後述する反復推定(イテレーション) の実装が容易である。

［入力歌声の音響信号の編集］
調子はずれ量推定部１７、音高補正部１９、音高トランスポーズ部２１、ビブラート調整部２３とスムージング処理部２５を用いて実現する変更機能の具体例を説明する。

［音高の変更機能］
調子はずれ量推定部１７及び音高補正部１９を用いて、入力歌声の音響信号の音高を変更する「調子はずれの補正」及び「音高トランスポーズ」機能は次のようにして実現する。まず調子はずれの補正として、音高の遷移(相対音高) が歌唱力の評価において重要であるため、音高の遷移を補正する。具体的には、音高遷移が半音単位となるように音高をずらす。このような補正方法を採ることで、ユーザ歌唱の歌唱スタイルを保持したまま調子はずれを補正できる。有声音と判断された有声区間毎に、次式で定義する半音間隔に大きな重みを与える関数ｉ(半音グリッド：０〜１２７) をずらしながら、その区間のＦ_０軌跡が最も適合する（最も大きくなる）オフセットＦｄを決定する。

上記式において実際の実装では、σ = 0.17 とし、Ｆ_０には事前にカットオフ周波数5Hz のローパスフィルタをかけ平滑化を行った。オフセットＦｄは0 ≦Ｆｄ＜１の範囲で計算し、音高を次式で変更した。

音高トランスポーズ部２１で実現する音高トランスポーズは、ユーザ歌唱の音高を全体的、もしくは部分的にずらす機能である。本機能によって、ユーザ自身が表現できない声域の歌唱を合成することができる。変更したい区間を選択した後、次式によってＦｔ分だけ変更する。

例えば、Ｆｔを＋１２とすれば、１オクターブ高い音高の合成歌唱が得られる。

［歌唱スタイルの変更機能］
ビブラート調整部２３及びスムージング処理部２５では、入力歌声の音響信号の歌唱スタイルを「ビブラート深さの調節」及び「音高・音量のスムージング」を以下のようにして具体的に実現する。

まず、音高の軌跡となるＦ_０（ｔ）にカットオフ周波数３Hz のローパスフィルタをかけて、歌唱におけるＦ_０の動的変動成分[非特許文献６で説明されている] を除去した平滑化された音高の軌跡Ｆ_LPF（ｔ）を得る。また、音量に関しても同様に音量の軌跡となるＰｏｗ（ｔ）からＰｏｗ_LPF（ｔ）を得る。ビブラート深さと音高・音量スムージングは、それぞれ調節パラメータｒ_ｖとｒ_ｓによって、次式でその度合いを調節する。

基本的にビブラート深さの調節パラメータｒ_ｖは、ビブラート自動検出法[中野倫靖他: 楽譜情報を用いない歌唱力自動評価手法,” 情処学論, Vol.48, No.1, pp.227−236, 2007.] で検出されたビブラート区間に適用する。また音高・音量スムージングの調節パラメータｒ_ｓはビブラート区間以外の区間に適用する。ここで、ｒ_ｖ＝ｒ_ｓ＝１の時に元の入力歌声の音響信号となる。これらは入力歌声の音響信号に対して適用しても、ユーザが指定した区間だけに適用してもよい。ビブラート深さの調節パラメータｒ_ｖを１より大きくすればビブラートをより強調し、音高・音量スムージングの調節パラメータｒ_ｓを1 より小さくすればＦ_０の動的変動成分を抑制できる。例えば、オーバーシュートは、歌唱技量の差によらず生起するが、プロによる歌唱の方が、アマチュアによる歌唱よりも変動が小さいという知見がある。そこでｒ_ｓを１より小さく設定することで変動を小さくできる。

［歌声合成パラメータの推定］
歌声分析によって得られた入力歌声の音響信号の分析値と合成された歌声の音響信号の分析値に基づいて、歌声合成パラメータを推定する。具体的には、以下のようにして歌声合成パラメータを推定する。

［初期値の決定］
まず、歌詞アラインメント、音高及び音量に関する初期値をシステムに与える。歌詞アラインメント部３には、Viterbi アラインメントによって得られた母音の開始時刻と終了時刻を初期値として与えた。音高パラメータとしては、歌声合成システムとして前述のVocaloid2 （商標）を用いる場合には、「音符の音高(ノートナンバ)」「ピッチベンド(PIT)」「ピッチベンドセンシティビティ(PBS)」を用いる。ここで、ピッチベンド（PIT）は−8192〜8191、ピッチベンドセンシティビティ(PBS)は０から２４の値を取り、デフォルト値はそれぞれ0, 1 である。PBS が1 なら、ノートナンバから±１半音の範囲を、16384 の分解能で表現できる。また、ノートナンバは0〜127 の値を取り、１が半音、１２が１オクターブに相当する。一方、音量パラメータとしては、ダイナミクス(DYN) を用いる。ダイナミクスは、0〜127 の値を取る(デフォルト値は64)。歌声合成パラメータとしてのPIT, PBS, DYN 初期値は、全時刻でデフォルト値とした。

［歌詞アラインメントの推定及び誤り訂正］
音響モデルによって歌詞(音素列) と入力歌声の音響信号とを対応付ける歌詞アラインメントを実施すると、Viterbi アラインメントの誤りに加えて、歌声合成システムに対して指定した発音開始時刻や音長とずれて合成が実施される問題が生じる。したがって、Viterbiアラインメント結果をそのまま用いた歌詞アラインメントでは、入力歌声の音響信号と合成された歌声の音響信号の有声区間(信号処理によって有声と判断された区間) にずれが生じてしまう。そこでまず、有声区間のずれを以下の二つの処理によって補正する。

・二つの音節が繋がっておらず、かつ、入力歌声の音響信号ではその区間が有声と判定されていた場合、前の音節の終端を次の音節の始端まで伸ばす。

・合成歌唱の有声区間が入力歌声の音響信号とずれている音節の始端と終端を、一致するように伸縮させる。

これらの処理と歌声合成(ノートナンバも推定する)を繰り返して行い、入力歌声の音響信号と合成歌唱の有声区間をあわせていく。

上記実施の形態では、合成された歌声の音響信号を再生して得た合成歌唱をユーザが聴いて、ある音節境界が誤っていることに気付いて指摘すると、他の境界の候補が提示される。その候補は次のようにして得た。入力歌声の音響信号のMFCCの変動(時間変化) が大きい上位３箇所のそれぞれについて、まず音高を反復計算で合わせて合成し、得られた合成された歌声の音響信号と入力歌声の音響信号との振幅スペクトル距離が最小のものをユーザに提示する。提示したものが誤りだと指摘されたら、次の候補を提示する(最終的には手作業で修正してもよい)。MFCCの変動Ｍｆ(t)は、次数ＩのΔMFCC(t, i) を用いて、次式で定義する。

MFCC は16kHz にリサンプリングした入力歌声の音響信号から算出し、次数Ｉ＝12 である。また、振幅スペクトル距離は、入力歌声の音響信号と合成された歌声の音響信号の振幅スペクトルをハニング窓(2048 点) で算出し、それぞれをS_org(t, f), S_syn(t, f) として次式で定義する。

ここで、母音の特徴が現れる第２フォルマントまでを良く含むように、周波数ｆには50Hz〜3000Hz の帯域制限を設けた。またｔは、対象の音節境界から前後２音節の区間を計算する。最後に、上記の処理で適切に訂正しきれない箇所のみ、ユーザが手作業で訂正を行う。

［ノートナンバの決定］
観測されたＦ_０からノートナンバを決定する。合成された歌声の音響信号は、PIT とPBS の組み合わせによっては、ノートナンバ± 2 オクターブまで表現可能である。しかし大きなPBS では量子化誤差が大きくなってしまう。そこで、その音符の区間に存在する音高の出現頻度から、PBS の値が小さくなるように、以下の式でノートナンバ(Note#) を選択する（図４)。

ここで、σ = 0.33 として計算し、t は音符の始端から終端の時刻で計算する。これにより、Ｆ_０が長い時間留まっているノートナンバを選択することになる。

［ピッチベンドの決定］
ノートナンバは固定したまま、合成された歌声の音響信号の音高Ｆ_０ ⁽ⁿ⁾ _syn（ｔ）が入力歌声の音響信号の音高Ｆ_０org（ｔ）に近づくように、イテレーション(反復計算) によって音高パラメータ(PIT, PBS) を更新して推定する。時刻ｔ，ｎ回目のイテレーションにおけるPIT とPBS をノートナンバに対応する値へ変換したものをＰｂ^（ｎ）（ｔ）とすると、更新式は以下のようになる。

このようにして得られたＰｂ^（n+1）（ｔ）から、PBS が小さくなるように、PIT とPBS を決定する。

［音量パラメータの推定］
入力歌声の音響信号の音量の特徴量は、収録条件の違い等が原因でその絶対的な値が変化するため、相対値化を行う。すなわち、音量の相対的な変化を表現するパラメータを推定するために、入力歌声の音響信号の音量をα倍する。ここで、入力歌声の音響信号の相対変化を完全に表現するためには、全時刻で入力歌声の音響信号の音量を、DYN＝127で合成した歌唱の音量以下に調整する必要がある。しかし、そのような条件を例えば図８の「Ａ」の箇所などでも満たそうとすると、目標音量が小さくなりすぎて、量子化誤差が大きくなってしまう。そこで、図８の「Ａ」のような一部の再現を断念する代わりに、全体としての再限度が高くなるよう相対値化を行う。入力歌声の音響信号の音量観測値をＰｏｗ_org（ｔ）、ダイナミクスDYN が６４の時の合成歌唱の音量観測値をＰｏｗ^DYN=64 _syn（ｔ）として、次式を最小化する相対値化係数αを決定する。

こうして得られた相対値化係数αは固定したまま、音量パラメータ(DYN) を反復推定する。そのために、まずは全てのダイナミクスDYNにおける合成歌唱の音量観測値を取得する。そこで、DYN= (0, 32, 64, 96, 127)のそれぞれで実際に各フレーズを合成して、音量観測値を取得しておき、その間は線形補間で求めた。ｎ回目のイテレーションにおいて、ダイナミクスDYN から上述のように求めた音量観測値へ変換したものをＤｙｎ⁽ⁿ⁾(t)とし、そのDYN で合成された歌唱の音量観測値をＰｏｗ⁽ⁿ⁾ _ｓｙｎ(t) とすると、更新式は以下のようになる。

このようにして得られたＤｙｎ^(ｎ+1)（ｔ）から、上述の、DYN とその音量観測値の関係を利用して、音量パラメータDYN に変換する。

［運用及び評価実験］
以下本発明の具体的な実施例の実際の運用結果を説明し、本発明の実施例を「歌詞アラインメントの誤り訂正機能の有効性」、「イテレーションの必要性」及び「音源データの違いに対する頑健性」の観点から評価した結果について説明する。

図１５に、音高変更機能として「調子はずれ補正」を、歌唱スタイル変更機能として「ビブラート深さの変更」及び「音高スムージング」を適用した結果を示す。図１５においては実線が変更後の音高及び音量の特徴量であり、破線が変更前の音高及び音量の特徴量である。図１５からは、音高が補正されること、ビブラートのみの深さを変更可能なこと、スムージングによってプレパレーションなどの変動を抑制可能なことが分かる。

［評価の実験条件］
歌声分析及び歌声合成の要素技術には前述の技術を利用し、歌声合成システム(Vocaloid2) では、「ビブラートをつけない」、「ベンドの深さを0 %」と設定した以外は全てデフォルト値を用いた。音源データとしては前述のCV01 及びCV02 を用いた。実験では便宜上、入力歌声の音響信号として、ユーザ歌唱の代わりにRWC研究用音楽データベース(ポピュラー音楽) RWC−MDB−P−2001 [後藤真孝他: “RWC 研究用音楽データベース：研究目的で利用可能な著作権処理済み楽曲・楽器音データベース,” 情処学論,Vol.45, No.3, pp.728−738, 2004.]の伴奏なし歌唱データを用いた。

以下のA〜B の二種類の実験を行った。それぞれの実験で利用した楽曲を表１に示す。

実験Ａ：長い歌唱(曲中の1 番) を利用し、歌詞アラインメントの誤り訂正機能の有効性を評価する。

実験Ｂ：短い歌唱(曲中の1 フレーズ) を利用し、以下で定義するエラー(err⁽ⁿ⁾ _{{ Ｆ０|pow}}) 及び相対エラー量(Δerr⁽ⁿ⁾ _{{ Ｆ０|pow}}) を用いて、パラメータ推定におけるイテレーションの必要性と頑健性を評価する。

ただし、実験Ｂでは、パラメータ更新の評価が目的であるため、歌詞アラインメント(発音開始時刻と音長)については、人手で正解を与えた。

実験Ａ: 歌詞アラインメントの誤り訂正
Viterbi アラインメント結果は、表１のNo.07 ではフレーズをまたぐ等の大きな誤りは起きず、表１のNo.16 では大きな誤りが２箇所起きた。それらを手作業で直した後、実験Ａを行った結果を表２に示す。

表２のNo.07 では、計166 個の音節について、8 箇所の境界誤りがあり、それらは3 回の指摘で訂正できたことを表す。自動推定に誤りが発生する箇所としては、音節境界の直後の音節が/w/ や/r/ (半母音・流音)、/m/ や/n/ (鼻音) で始まる箇所が多かった。

表２の結果からは、音節境界の誤り自体が少ないこと、２，３回の指摘でその誤りが改善できることが分かった。No.07 での結果の例では、166 箇所という多数の音節に対し、計12 箇所を指摘することで正しい音節境界が得られた。このことから、本発明はユーザの労力削減に寄与できることが判る。

実験Ｂ：ユーザ歌唱からの合成パラメータ推定
実験Ｂで対象としたどの曲に対しても、イテレーションによってエラーは減少した。4 回のイテレーションにおける初期値からの相対エラー量は、音高に関しては1.7〜2.8 %、音量に関しては13.8〜17.5%であった。これをNo.07 について詳しく見ると表３のようになり、その結果を図１６に示す。図１６は、インテレーションによる音高・音量の推移（実験Ｂ）を示す図であり、音高と音量につてそれぞれ０．８４secの箇所を示している。但し図１６では、音量の目標値は、ＣＶ０１とＣＶ０２で相対値化係数αが異なっている。

図１６及び表３からは、イテレーションによってエラーが減少し、入力歌声の音響信号へ近づいていくといえる。音源データが変わることで初期値が異なっても、最終的に入力歌声の音響信号の音高・音量を得るためのパラメータを推定できた。ただし、音高パラメータ推定における、CV01での4 回目のイテレーションでは、エラーが増加していた(表３)。これは、音高パラメータの量子化誤差が原因と考えられる。このような誤差は音量パラメータにも存在し、場合によってはエラーが若干増加した。しかし、既に高い精度で合成パラメータが得られていることが多く、合成歌唱の品質への影響は少なかった。

上記実施の形態では、ユーザの歌唱を入力歌声の音響信号として入力することを前提に説明したが、歌声合成システムの出力を入力してもよい。例えば、過去にCV01 用に手作業でパラメータ調整した合成歌唱を入力歌声の音響信号として、本発明のシステムでCV02 用にパラメータ推定すれば、手作業による再調整なしで音源データ(声色) を切り替えることができる。

本発明によれば、合成された歌唱が入力歌唱と近くなるように、入力歌声の音響信号から「人間らしい歌声」を合成するための歌声合成パラメータデータを自動推定することができる歌声合成パラメータデータ推定システム及び方法並びに歌声合成パラメータデータ作成用プログラムを提供することができる。したがって本発明によれば、既存の歌声合成システムを利用する多様なユーザが、魅力的な歌声を自由自在に作ることを助けて、歌唱という音楽表現の可能性を広げることができる。

１入力歌声の音響信号記憶部
３歌詞アラインメント部
５入力歌声音響信号分析部
７分析データ記憶部
９音高パラメータ推定部
１１音量パラメータ推定部
１３歌声合成パラメータデータ作成部
１５歌詞データ記憶部
１７調子はずれ量推定部
１９音高補正部
２１音高トランスポーズ部
２３ビブラート調整部
２５スムージング処理部
１０１歌声合成部
１０３歌声音源データベース
１０５歌声合成パラメータデータ記憶部
１０７再生装置

Claims

１種以上の歌声音源データが蓄積された歌声音源データベースと、
歌声の音響信号を少なくとも音高パラメータ及び音量パラメータを含む複数種類のパラメータで表現した歌声合成パラメータデータを記憶する歌声合成パラメータデータ記憶部と、
入力歌声の音響信号に対応した音節境界が指定された歌詞データを記憶する歌詞データ記憶部と、
前記歌声音源データベースから選択した１種類の前記歌声音源データと前記歌声合成パラメータデータと前記歌詞データとに基づいて、合成された歌声の音響信号を合成して出力する歌声合成部とを備えた歌声合成システムにおいて使用する、前記選択した１種類の歌声音源データに適した前記歌声合成パラメータデータを作成する歌声合成パラメータデータ推定システムであって、
前記入力歌声の音響信号の少なくとも音高及び音量を含む複数種類の特徴量を分析する入力歌声音響信号分析部と、
前記入力歌声の音響信号の少なくとも前記音高の特徴量と前記歌詞データとに基づいて、前記音量パラメータを一定のものとして、前記入力歌声の音響信号の前記音高の特徴量に前記合成された歌声の音響信号の音高の特徴量を近づけることができる前記音高パラメータを推定する音高パラメータ推定部と、
前記音高パラメータ推定部が前記音高パラメータの推定を完了した後に、前記入力歌声の音響信号の前記音量の特徴量を前記合成された歌声の音響信号の音量の特徴量に対して相対値化し、前記入力歌声の音響信号の相対値化した音量の特徴量に前記合成された歌声の音響信号の音量の特徴量を近づけることができる前記音量パラメータを推定する音量パラメータ推定部と、
推定された前記音高パラメータ及び推定された前記音量パラメータに基づいて前記歌声合成パラメータデータを作成し前記合成パラメータデータ記憶部に記憶させる歌声合成パラメータデータ作成部と、
音節境界が指定されていない歌詞データと前記入力歌声の音響信号とに基づいて、前記音節境界が指定された歌詞データを作成する歌詞アラインメント部とを備え、
前記音高パラメータ推定部は、推定した前記音高パラメータに基づいて作成した仮の歌声合成パラメータデータを前記歌声合成部で合成して得た仮の合成された歌声の音響信号の前記音高の特徴量が、前記入力歌声の音響信号の前記音高の特徴量に近づくまで所定の回数前記音高パラメータの推定を繰り返すか、または前記仮の合成された歌声の音響信号の前記音高の特徴量が、前記入力歌声の音響信号の前記音高の特徴量に収束するまで前記音高パラメータの推定を繰り返し、
前記音量パラメータ推定部は、推定が完了した前記音高パラメータと推定した前記音量パラメータとに基づいて作成した仮の歌声合成パラメータデータを前記歌声合成部で合成して得た仮の合成された歌声の音響信号の前記音量の特徴量が、前記入力歌声の音響信号の前記相対値化した音量の特徴量に近づくまで所定の回数前記音量パラメータの推定を繰り返すか、または前記仮の合成された歌声の音響信号の前記音量の特徴量が、前記入力歌声の音響信号の前記相対値化した音量の特徴量に収束するまで前記音量パラメータの推定を繰り返し、
前記入力歌声音響信号分析部は、所定の周期で、前記入力歌声の音響信号から基本周波数Ｆ_０を推定し、前記基本周波数から前記入力歌声の音響信号の前記音高を観測して音高の特徴量データとして分析データ記憶部に記憶する機能と、前記入力歌声の音響信号から有声音らしさを推定し、予め定めた閾値を基準にして該閾値よりも前記有声音らしさが高い区間を前記入力歌声の音響信号の有声区間として観測して前記分析データ記憶部に記憶する機能と、前記入力歌声の音響信号の前記音量の特徴量を観測して、音量の特徴量データとして前記分析データ記憶部に記憶する機能と、前記音高の特徴量データからビブラートが存在している区間を観測してビブラート区間として前記分析データ記憶部に記憶する機能とを有し、
前記分析データ記憶部に記憶された前記入力歌声の音響信号の有声区間における前記音高の特徴量データから調子はずれ量を推定する調子はずれ量推定部と、
前記調子はずれ量推定部が推定した調子はずれ量を前記音高の特徴量データから除くように前記音高の特徴量データを補正する音高補正部と、
前記音高の特徴量データに任意の値を加算して音高トランスポーズをする音高トランスポーズ部と、
前記ビブラート区間におけるビブラートの深さを任意に調整するビブラート調整部と、
前記ビブラート区間以外における前記音高の特徴量データ及び前記音量の特徴量データを任意にスムージング処理するスムージング処理部とを更に備えていることを特徴とする歌声合成パラメータデータ推定システム。
１種以上の歌声音源データが蓄積された歌声音源データベースと、
歌声の音響信号を少なくとも音高パラメータ及び音量パラメータを含む複数種類のパラメータで表現した歌声合成パラメータデータを記憶する歌声合成パラメータデータ記憶部と、
入力歌声の音響信号に対応した音節境界が指定された歌詞データを記憶する歌詞データ記憶部と、
前記歌声音源データベースから選択した１種類の前記歌声音源データと前記歌声合成パラメータデータと前記歌詞データとに基づいて、合成された歌声の音響信号を合成して出力する歌声合成部とを備えた歌声合成システムにおいて使用する、前記選択した１種類の歌声音源データに適した前記歌声合成パラメータデータを作成する歌声合成パラメータデータ推定システムであって、
前記入力歌声の音響信号の少なくとも音高及び音量を含む複数種類の特徴量を分析する入力歌声音響信号分析部と、
前記入力歌声の音響信号の少なくとも前記音高の特徴量と前記歌詞データとに基づいて、前記音量パラメータを一定のものとして、前記入力歌声の音響信号の前記音高の特徴量に前記合成された歌声の音響信号の音高の特徴量を近づけることができる前記音高パラメータを推定する音高パラメータ推定部と、
前記音高パラメータ推定部が前記音高パラメータの推定を完了した後に、前記入力歌声の音響信号の前記音量の特徴量を前記合成された歌声の音響信号の音量の特徴量に対して相対値化し、前記入力歌声の音響信号の相対値化した音量の特徴量に前記合成された歌声の音響信号の音量の特徴量を近づけることができる前記音量パラメータを推定する音量パラメータ推定部と、
推定された前記音高パラメータ及び推定された前記音量パラメータに基づいて前記歌声合成パラメータデータを作成し前記歌声合成パラメータデータ記憶部に記憶させる歌声合成パラメータデータ作成部とを備え、
前記音高パラメータ推定部は、推定した前記音高パラメータに基づいて作成した仮の歌声合成パラメータデータを前記歌声合成部で合成して得た仮の合成された歌声の音響信号の前記音高の特徴量が、前記入力歌声の音響信号の前記音高の特徴量に近づくまで所定の回数前記音高パラメータの推定を繰り返すか、または前記仮の合成された歌声の音響信号の前記音高の特徴量が、前記入力歌声の音響信号の前記音高の特徴量に収束するまで前記音高パラメータの推定を繰り返し、
前記音量パラメータ推定部は、推定が完了した前記音高パラメータと推定した前記音量パラメータとに基づいて作成した仮の歌声合成パラメータデータを前記歌声合成部で合成して得た仮の合成された歌声の音響信号の前記音量の特徴量が、前記入力歌声の音響信号の前記相対値化した音量の特徴量に近づくまで所定の回数前記音量パラメータの推定を繰り返すか、または前記仮の合成された歌声の音響信号の前記音量の特徴量が、前記入力歌声の音響信号の前記相対値化した音量の特徴量に収束するまで前記音量パラメータの推定を繰り返すことを特徴とする歌声合成パラメータデータ推定システム。
前記音高パラメータが、前記歌詞データの複数の音節のそれぞれに対応する前記入力歌声の音響信号の複数の部分区間の信号の基準音高レベルを示すパラメータ要素と、前記部分区間の信号の前記基準音高レベルに対する音高の時間的相対変化分を示すパラメータ要素と、前記部分区間の信号の音高方向への変化幅を示すパラメータ要素とからなり、
前記音高パラメータ推定部は、前記基準音高レベルを示すパラメータ要素を決定した後、前記音高の時間的相対変化分を示すパラメータ要素と前記音高方向への変化幅を示すパラメータ要素について予め定めた初期値を設定し、前記初期値に基づいて前記仮の歌声合成パラメータデータを作成し、該仮の歌声合成パラメータデータを前記歌声合成部で合成して得た仮の合成された歌声の音響信号の音高の特徴量を、前記入力歌声の音響信号の前記音高の特徴量に近づけるように前記音高の時間的相対変化分を示すパラメータ要素と前記音高方向への変化幅を示すパラメータ要素を推定し、以後推定した前記パラメータ要素に基づいて次の仮の歌声合成パラメータデータを作成し、該次の仮の歌声合成パラメータデータを前記歌声合成部で合成して得た次の仮の合成された歌声の音響信号の音高の特徴量を、前記入力歌声の音響信号の前記音高の特徴量に近づけるように前記音高の時間的相対変化分を示すパラメータ要素と前記音高方向への変化幅を示すパラメータ要素を再推定することを繰り返すことを特徴とする請求項１または２に記載の歌声合成パラメータデータ推定システム。
前記基準音高レベルを示すパラメータ要素は、MIDI規格あるいは市販の歌声合成システムのノートナンバであり、
前記基準音高レベルに対する音高の時間的相対変化分を示すパラメータ要素は、MIDI規格あるいは市販の歌声合成システムのピッチベンド（PIT）であり、
前記音高方向への変化幅を示すパラメータ要素は、MIDI規格あるいは市販の歌声合成システムのピッチベンドセンシティビィティ（PBS）である請求項３に記載の歌声合成パラメータデータ推定システム。
前記音量パラメータ推定部は、
推定が完了した前記音高パラメータと設定可能な音量パラメータの範囲の中心の音量パラメータとに基づいて作成した仮の歌声合成パラメータデータを前記歌声合成部で合成して得た仮の合成された歌声の音響信号の音量の特徴量と、前記入力歌声の音響信号の前記音量の特徴量との距離が最も小さくなるように相対値化係数αを定める機能と、
前記相対値化係数αを前記入力歌声の音響信号の前記音量の特徴量に乗算して前記相対値化した音量の特徴量を作る機能とを備えていることを特徴とする請求項１または２に記載の歌声合成パラメータデータ推定システム。
前記音量パラメータがMIDI規格のエクスプレッションあるいは市販の歌声合成システムのダイナミクス（DYN）である請求項５に記載の歌声合成パラメータデータ推定システム。
音節境界が指定されていない歌詞データと前記入力歌声の音響信号とに基づいて、前記音節境界が指定された歌詞データを作成する歌詞アラインメント部を更に備えている請求項２に記載の歌声合成パラメータデータ推定システム。
前記歌詞アラインメント部は、
前記歌詞データに含まれる歌詞を複数の音素から構成される音素列に変換する音素列変換部と、
前記音素列変換部の変換結果をマニュアルで修正することを可能にする音素マニュアル修正部と、
アラインメント用文法を生成した後に、前記入力歌声の音響信号における、前記音素列に含まれる前記複数の音素のそれぞれの開始時期と終了時期とを推定するアラインメント推定部と、
前記アラインメント推定部が推定した前記音素列に含まれる前記複数の音素のそれぞれの前記開始時期と前記終了時期とをマニュアルで修正することを可能にするアラインメント・マニュアル修正部と、
前記音素列を、音節列に変換する音素−音節列変換部と、
前記音素−音節列変換部から出力された前記音節列における有声区間のずれを補正する有声区間補正部と、
前記有声区間が補正された前記音節列の音節境界の誤りをマニュアルによる指摘に基づいて訂正することを可能にする音節境界訂正部と、
前記音節列を前記音節境界が指定された歌詞データとして記憶する歌詞データ記憶部とからなる請求項１または７に記載の歌声合成パラメータデータ推定システム。
前記有声区間補正部は、
前記入力歌声音響信号分析部による分析により得た１つの前記有声区間中に含まれる二つ以上の前記音節を接続して部分的に接続された部分接続音節列を作成する部分音節列作成部と、
前記入力歌声音響信号分析部による分析により得た前記有声区間に、前記歌声合成部で合成して得た仮の合成された歌声の音響信号を分析して得た有声区間を一致させるように前記部分接続音節列に含まれる複数の前記音節の開始時期と終了時期とを変更して前記音節を伸縮させる伸縮補正部とを備えている請求項８に記載の歌声合成パラメータデータ推定システム。
前記音節境界訂正部は、
前記入力歌声の音響信号のスペクトルの時間変化を演算する演算部と、
前記音節境界の誤り箇所の前後Ｎ１個（Ｎ１は１以上の正の整数）の音節を候補算出対象区間とし、前記音節境界の誤り箇所の前後Ｎ２個（Ｎ２は１以上の正の整数）の音節を距離計算区間とし、前記候補算出対象区間の前記スペクトルの時間変化により前記スペクトルの時間変化の大きいＮ３（Ｎ３は１以上の正の整数）箇所を境界候補点として検出し、各前記境界候補点に音節境界をずらした仮説の距離を取得し、前記仮説の距離が最小となる仮説をユーザに提示し、提示した前記仮説が前記ユーザにより正しいと判断されるまで、境界候補点を繰り下げて他の仮説を提示し、提示した前記他の仮説が前記ユーザにより正しいと判断されたときに、該他の仮説のための境界候補点へ音節境界をずらす訂正を行う訂正実行部とからなる請求項８に記載の歌声合成パラメータデータ推定システム。
前記訂正実行部は、前記境界候補点に音節境界をずらしたときの仮説の距離を取得するために、前記距離計算区間に対して前記音高パラメータを推定し、推定した前記音高パラメータを用いて前記歌声合成パラメータデータを合成して得た合成された歌声の音響信号を取得し、前記距離計算区間における前記入力歌声の音響信号と前記合成された歌声の音響信号のスペクトルの距離を前記仮説の距離として計算する請求項１０に記載の歌声合成パラメータデータ推定システム。
前記スペクトルの時間変化が、デルタ・メル周波数ケプストラム係数（ΔＭＦＣＣ）である請求項１０または１１に記載の歌声合成パラメータデータ推定システム。
前記入力歌声音響信号分析部は、
所定の周期で、前記入力歌声の音響信号から基本周波数Ｆ_０を推定し、前記基本周波数から前記入力歌声の音響信号の前記音高を観測して音高の特徴量データとして分析データ記憶部に記憶する機能と、
前記入力歌声の音響信号から有声音らしさを推定し、予め定めた閾値を基準にして該閾値よりも前記有声音らしさが高い区間を前記入力歌声の音響信号の有声区間として観測して前記分析データ記憶部に記憶する機能と、
前記入力歌声の音響信号の前記音量の特徴量を観測して、音量の特徴量データとして前記分析データ記憶部に記憶する機能とを有している請求項２に記載の歌声合成パラメータデータ推定システム。
前記分析データ記憶部に記憶された前記入力歌声の音響信号の有声区間における前記音高の特徴量データから調子はずれ量を推定する調子はずれ量推定部と、
前記調子はずれ量推定部が推定した調子はずれ量を前記音高の特徴量データから除くように前記音高の特徴量データを補正する音高補正部を更に備えている請求項１３に記載の歌声合成パラメータデータ推定システム。
前記音高の特徴量データに任意の値を加算して音高トランスポーズをする音高トランスポーズ部を更に備えている請求項１３または１４に記載の歌声合成パラメータデータ推定システム。
前記入力歌声音響信号分析部は、前記音高の特徴量データからビブラートが存在している区間を観測してビブラート区間として前記分析データ記憶部に記憶する機能を更に備えており、
前記ビブラート区間におけるビブラートの深さを任意に調整するビブラート調整部を更に備えている請求項１３，１４または１５に記載の歌声合成パラメータデータ推定システム。
前記入力歌声音響信号分析部は、前記音高の特徴量データからビブラートが存在している区間を観測してビブラート区間として前記分析データ記憶部に記憶する機能を更に備えており、
前記ビブラート区間以外における前記音高の特徴量データ及び前記音量の特徴量データを任意にスムージング処理するスムージング処理部を更に備えている請求項１３，１４，１５または１６に記載の歌声合成パラメータデータ推定システム。
１種以上の歌声音源データが蓄積された歌声音源データベースと、
歌声の音響信号を少なくとも音高パラメータ及び音量パラメータを含む複数種類のパラメータで表現した歌声合成パラメータデータを記憶する歌声合成パラメータデータ記憶部と、
入力歌声の音響信号に対応した音節境界が指定された歌詞データを記憶する歌詞データ記憶部と、
前記歌声音源データベースから選択した１種類の前記歌声音源データと前記歌声合成パラメータデータと前記歌詞データとに基づいて、合成された歌声の音響信号を合成して出力する歌声合成部を備えた歌声合成システムにおいて使用する、前記選択した１種類の歌声音源データに適した前記歌声合成パラメータデータをコンピュータが作成する歌声合成パラメータデータ作成方法であって、
前記コンピュータは、
前記入力歌声の音響信号の少なくとも音高及び音量を含む複数種類の特徴量を分析し、
前記入力歌声の音響信号の少なくとも前記音高の特徴量と前記歌詞データとに基づいて、前記音量パラメータを一定のものとして、前記入力歌声の音響信号の前記音高の特徴量に前記合成された歌声の音響信号の音高の特徴量を近づけることができる前記音高パラメータを推定し、
前記音高パラメータの推定を完了した後に、前記入力歌声の音響信号の前記音量の特徴量を前記合成された歌声の音響信号の音量の特徴量に対して相対値化し、
前記入力歌声の音響信号の相対値化した音量についての特徴量に前記合成された歌声の音響信号の音量の特徴量を近づけることができる前記音量パラメータを推定し、
推定が完了した前記音高パラメータ及び推定が完了した前記音量パラメータに基づいて前記歌声合成パラメータデータを作成するように構成され、
前記コンピュータが更に、
推定した前記音高パラメータに基づいて作成した仮の歌声合成パラメータデータを前記歌声合成部で合成して得た仮の合成された歌声の音響信号の前記音高の特徴量が、前記入力歌声の音響信号の前記音高の特徴量に近づくまで所定の回数前記音高パラメータの推定を繰り返すか、または前記仮の合成された歌声の音響信号の前記音高の特徴量が、前記入力歌声の音響信号の前記音高の特徴量に収束するまで前記音高パラメータの推定を繰り返し、
推定された前記音高パラメータと推定された前記音量パラメータとに基づいて作成した仮の歌声合成パラメータデータを前記歌声合成部で合成して得た仮の合成された歌声の音響信号の前記音量の特徴量が、前記入力歌声の音響信号の前記相対値化した音量の特徴量に近づくまで所定の回数前記音量パラメータの推定を繰り返すか、または前記仮の合成された歌声の音響信号の前記音量の特徴量が、前記入力歌声の音響信号の前記相対値化した音量の特徴量に収束するまで前記音量パラメータの推定を繰り返すことを特徴とする歌声合成パラメータデータ作成方法。
１種以上の歌声音源データが蓄積された歌声音源データベースと、
歌声の音響信号を少なくとも音高パラメータ及び音量パラメータを含む複数種類のパラメータで表現した歌声合成パラメータデータを記憶する歌声合成パラメータデータ記憶部と、
入力歌声の音響信号に対応した音節境界が指定された歌詞データを記憶する歌詞データ記憶部と、
前記歌声音源データベースから選択した１種類の前記歌声音源データと前記歌声合成パラメータデータと前記歌詞データとに基づいて、合成された歌声の音響信号を合成して出力する歌声合成部とを備えた歌声合成システムにおいて使用する、前記選択した１種類の歌声音源データに適した前記歌声合成パラメータデータをコンピュータで作成する際に前記コンピュータで使用される歌声合成パラメータデータ作成用プログラムであって、
前記入力歌声の音響信号の少なくとも音高及び音量を含む複数種類の特徴量を分析する入力歌声音響信号分析部と、
前記入力歌声の音響信号の少なくとも前記音高の特徴量と前記歌詞データとに基づいて、前記音量パラメータを一定のものとして、前記入力歌声の音響信号の前記音高の特徴量に前記合成された歌声の音響信号の音高の特徴量を近づけることができる前記音高パラメータを推定する音高パラメータ推定部と、
前記音高パラメータ推定部が前記音高パラメータの推定を完了した後に、前記入力歌声の音響信号の前記音量の特徴量を前記合成された歌声の音響信号の音量の特徴量に対して相対値化し、前記入力歌声の音響信号の相対値化した音量についての特徴量に前記合成された歌声の音響信号の音量の特徴量を近づけることができる前記音量パラメータを推定する音量パラメータ推定部と、
推定された前記音高パラメータ及び推定された前記音量パラメータに基づいて前記歌声合成パラメータデータを作成し前記歌声合成パラメータデータ記憶部に記憶させる歌声合成パラメータデータ作成部とを前記コンピュータ内に構築し、
前記音高パラメータ推定部が、推定した前記音高パラメータに基づいて作成した仮の歌声合成パラメータデータを前記歌声合成部で合成して得た仮の合成された歌声の音響信号の前記音高の特徴量が、前記入力歌声の音響信号の前記音高の特徴量に近づくまで所定の回数前記音高パラメータの推定を繰り返すか、または前記仮の合成された歌声の音響信号の前記音高の特徴量が、前記入力歌声の音響信号の前記音高の特徴量に収束するまで前記音高パラメータの推定を繰り返し、
前記音量パラメータ推定部が、推定が完了した前記音高パラメータと推定した前記音量パラメータとに基づいて作成した仮の歌声合成パラメータデータを前記歌声合成部で合成して得た仮の合成された歌声の音響信号の前記音量の特徴量が、前記入力歌声の音響信号の前記相対値化した音量の特徴量に近づくまで所定の回数前記音量パラメータの推定を繰り返すか、または前記仮の合成された歌声の音響信号の前記音量の特徴量が、前記入力歌声の音響信号の前記相対値化した音量の特徴量に収束するまで前記音量パラメータの推定を繰り返すように構成されていることを特徴とする歌声合成パラメータデータ作成用プログラム。
請求項１９に記載の歌声合成パラメータデータ作成用プログラムがコンピュータ読み取り可能に記憶された記憶媒体。