JP6004358B1

JP6004358B1 - 音声合成装置および音声合成方法

Info

Publication number: JP6004358B1
Application number: JP2015229428A
Authority: JP
Inventors: 恵一徳田; 圭一郎大浦; 和寛中村
Original assignee: Techno Speech Inc
Current assignee: Techno Speech Inc
Priority date: 2015-11-25
Filing date: 2015-11-25
Publication date: 2016-10-05
Anticipated expiration: 2035-11-25
Also published as: JP2017097176A

Abstract

【課題】構成パラメータから生成される加算パラメータを編集する際の操作性を向上させる。【解決手段】音声合成装置は、統計的手法により学習された音響パラメータを含む音響モデルを予め記憶する記憶部と、音響パラメータから生成され入力された楽譜に対応した音響パラメータ値の変化を表す第１のパラメータ系列と、第１のパラメータ系列から生成される第２のパラメータ系列と、をそれぞれ生成するパラメータ生成部と、少なくとも第２のパラメータ系列を編集可能な態様で使用者に提示するパラメータ提示部と、第１のパラメータ系列に含まれる各音響パラメータ値と第２のパラメータ系列に含まれる各音響パラメータ値との少なくとも一方を用いて歌声を合成する合成部を備える。パラメータ生成部は、第２のパラメータ系列が編集された場合、編集後の第２のパラメータ系列を用いて第１のパラメータ系列を再生成する。【選択図】図１０

Description

本発明は、音声合成の技術に関する。

従来から、自然な音声をコンピュータによって合成する装置が種々提案されている。こうした音声合成を可能とする方式としては、波形接続方式や、隠れマルコフモデル（ＨＭＭ、Hidden Markov Model）を用いた方式が知られている。

音声合成のうち、特に歌声を合成する歌声合成においては、ピッチ（音高）やボリューム（音の大きさ）を変動させることで聴感的に自然な合成音を生成できることが知られている。従来、ピッチやボリュームを変動させる方法として、ピッチやボリュームを構成する種々のパラメータ（例えば、基本周波数パラメータ、ビブラート等の歌唱表現のパラメータ、以降「構成パラメータ」とも呼ぶ。）をＧＵＩ（Graphical User Interface）により編集可能とした装置が知られている（例えば、特許文献１）。このような装置では、使用者は、ＧＵＩを用いて構成パラメータを変更することによってピッチやボリュームを変動させることができる。

特開２０１５−０４９２５３号公報

しかし、上述した従来の技術では、ピッチやボリュームの変動は、あくまで構成パラメータの変更に追随して起こるに過ぎない。すなわち、従来の技術では、使用者がピッチやボリュームを直接編集することができず、直感的な操作ができないという課題があった。なお、このような課題は、ピッチとボリュームの何れか一方を変動させようとする場合と、ピッチとボリュームの両方を変動させようとする場合と、に共通する課題であった。また、このような課題は、ピッチやボリュームに限らず、構成パラメータから生成される各種パラメータ（以降「加算パラメータ」とも呼ぶ。）に共通する課題であった。

本発明は、構成パラメータから生成される加算パラメータを編集する際の操作性を向上させることを目的とする。

本発明は、上述の課題の少なくとも一部を解決するためになされたものであり、以下の形態として実現することが可能である。本発明の第１の実施形態として、音声合成装置が提供される。この音声合成装置は、統計的手法により学習された音響パラメータを含む音響モデルを予め記憶する記憶部と、パラメータ生成部と、少なくとも前記第２のパラメータ系列を、編集可能な態様で使用者に提示するパラメータ提示部と、前記第１のパラメータ系列に含まれる各音響パラメータ値と、前記第２のパラメータ系列に含まれる各音響パラメータ値と、の少なくとも一方を用いて歌声を合成する合成部と、を備える。この音声合成装置におけるパラメータ生成部は、入力された楽譜を解析して得られた情報と前記記憶されている音響モデルとを用いて生成された音響パラメータの系列であり、歌唱表現を加えていない基本データが少なくとも含まれる第１のパラメータ系列と、関係する前記第１のパラメータ系列を加算することで生成される第２のパラメータ系列とをそれぞれ生成する。しかも、このパラメータ生成部は、前記第２のパラメータ系列が編集された場合、編集後の前記第２のパラメータ系列を用いて、前記加算に使用された前記第１のパラメータ系列のうち、前記編集の内容に応じた少なくとも一部を再生成する。

（１）本発明の一形態によれば、音声合成装置が提供される。この音声合成装置は；統計的手法により学習された音響パラメータを含む音響モデルを予め記憶する記憶部と；パラメータ生成部であって；記憶されている前記音響パラメータから生成される第１のパラメータ系列であって、入力された楽譜に対応した音響パラメータ値の変化を表す第１のパラメータ系列と；前記第１のパラメータ系列から生成される第２のパラメータ系列と、をそれぞれ生成するパラメータ生成部と；少なくとも前記第２のパラメータ系列を、編集可能な態様で使用者に提示するパラメータ提示部と；前記第１のパラメータ系列に含まれる各音響パラメータ値と、前記第２のパラメータ系列に含まれる各音響パラメータ値と、の少なくとも一方を用いて歌声を合成する合成部と、を備え；前記パラメータ生成部は；前記第２のパラメータ系列が編集された場合、編集後の前記第２のパラメータ系列を用いて前記第１のパラメータ系列を再生成する。
この形態の音声合成装置によれば、入力された楽譜に対応した音響パラメータ値の変化を表す第１のパラメータ系列（すなわち構成パラメータ系列）と、第１のパラメータ系列から生成される第２のパラメータ系列（すなわち加算パラメータ系列）とが取り扱われる。本形態の音声合成装置によれば、第２のパラメータ系列（加算パラメータ系列）がパラメータ提示部により編集可能な態様で提示される。このため、使用者は、第２のパラメータ系列（加算パラメータ系列）中の各値を、直接、所望の値に編集することができるため、第２のパラメータ系列（加算パラメータ系列）を編集する際の操作性を向上させることができる。

（２）上記形態の音声合成装置において；前記パラメータ提示部は；前記第２のパラメータ系列に加えてさらに、前記第１のパラメータ系列を使用者に提示し；前記第１のパラメータ系列が再生成された場合は、再生成後の前記第１のパラメータ系列を使用者に提示してもよい。
この形態の音声合成装置によれば、使用者は、第１，２のパラメータ系列の両方を確認することができ、かつ、再生成後の第１のパラメータ系列を確認することもできるため、使用者における利便性を向上させることができる。

（３）上記形態の音声合成装置において；前記パラメータ提示部は；使用者が、前記第１のパラメータ系列と、前記第２のパラメータ系列とを同時に視認可能な態様で提示してもよい。
この形態の音声合成装置によれば、使用者は、第１，２のパラメータ系列を同時に確認することができるため、使用者における利便性をより向上させることができる。

（４）上記形態の音声合成装置において；前記パラメータ提示部は；前記第２のパラメータ系列の視認性を、前記第１のパラメータ系列と比較して高くした状態で、前記第１のパラメータ系列と前記第２のパラメータ系列とを提示してもよい。
この形態の音声合成装置によれば、使用者は、同時に提示される第１，２のパラメータ系列の間において、第２のパラメータ系列をより確認（視認）しやすくなる。このため、使用者は、第２のパラメータ系列が編集対象であるという旨を直感的に理解することができる。

（５）上記形態の音声合成装置において；前記パラメータ提示部は、前記第２のパラメータ系列に加えてさらに、前記第１のパラメータ系列を編集可能な態様で使用者に提示し；前記パラメータ生成部は、さらに、前記第１のパラメータ系列が編集された場合、編集後の前記第１のパラメータ系列を用いて前記第２のパラメータ系列を再生成し；前記パラメータ提示部は、さらに、前記第２のパラメータ系列が再生成された場合は、再生成後の前記第２のパラメータ系列を使用者に提示してもよい。
この形態の音声合成装置によれば、使用者は、第１，２のパラメータ系列の両方を直接、所望の値に編集することができ、かつ、再生成後の第１，２のパラメータ系列を確認することもできる。即ち使用者は、第１，２のパラメータ系列を双方向に編集し、その結果をリアルタイムに確認することができるため、使用者における利便性をより向上させることができる。

（６）上記形態の音声合成装置において、さらに；前記編集の内容を取得するパラメータ取得部を備え；前記パラメータ取得部は；予め割り当てられた第１の操作方法による操作を、前記第１のパラメータ系列に含まれる、あるパラメータ系列に対する編集内容として取得し；予め割り当てられた第２の操作方法であって、前記第１の操作方法とは異なる第２の操作方法による操作を、前記第１のパラメータ系列に含まれる、別のパラメータ系列に対する編集内容として取得してもよい。
この形態の音声合成装置によれば、使用者は、異なる操作方法を用いることによって、第１のパラメータ系列に含まれる種々のパラメータ系列の中から、編集を意図する１つのパラメータ系列を指定することができるため、使用者における利便性をより向上させることができる。

（７）上記形態の音声合成装置において、さらに；前記編集の内容を取得するパラメータ取得部を備え；前記パラメータ取得部は；予め割り当てられた第３の操作方法による操作を、前記第１のパラメータ系列に対する編集内容として取得し；予め割り当てられた第４の操作方法であって、前記第３の操作方法とは異なる第４の操作方法による操作を、前記第２のパラメータ系列に対する編集内容として取得してもよい。
この形態の音声合成装置によれば、使用者は、異なる操作方法を用いることによって、第１，２のパラメータ系列のうち、編集を意図するパラメータ系列を指定することができるため、使用者における利便性をより向上させることができる。

（８）上記形態の音声合成装置において；前記第１のパラメータ系列には、少なくとも；音高のパラメータ値の変化を表す音高のパラメータ系列と；歌唱表現のパラメータ値の変化を表す歌唱表現パラメータ系列と；が含まれ；前記パラメータ提示部は；前記第１のパラメータ系列に含まれる全てのパラメータ系列を使用者に提示してもよい。
この形態の音声合成装置によれば、使用者は、第１のパラメータ系列に含まれる全てのパラメータ系列を確認することができるため、使用者における利便性をより向上させることができる。

（９）上記形態の音声合成装置において；前記歌唱表現には、少なくとも、ビブラート、しゃくり、こぶし、アタック、リリースのうちの１つが含まれてもよい。

（１０）上記形態の音声合成装置において；前記音声合成装置には、ポインティングデバイスを備える画像表示装置が接続され；前記パラメータ提示部は；グラフィカルユーザインタフェースを用い、かつ、前記ポインティングデバイスによる操作が可能な態様で、前記第２のパラメータ系列を前記画像表示装置に対して表示させてもよい。
この形態の音声合成装置によれば、使用者は、ＧＵＩ表示された第２のパラメータ系列を、ポインティングデバイスを用いることによって簡単に編集することができる。

（１１）上記形態の音声合成装置において；第２のパラメータ系列には、少なくとも、音高に関するパラメータ系列と、音の大きさに関するパラメータ系列と、声の年齢に関するパラメータ系列と、音のかすれ具合に関するパラメータ系列と、のうちのいずれか１つを含んでもよい。

なお、本発明は、種々の態様で実現することが可能であり、例えば、歌声合成装置、歌声合成装置を利用した歌声合成システム、歌声合成装置や歌声合成システムの機能を実現するために情報処理装置において実行される方法、コンピュータプログラム、そのコンピュータプログラムを配布するためのサーバ装置、そのコンピュータプログラムを記憶した一時的でない記憶媒体等の形態で実現することができる。

歌声合成装置の実施形態の概略構成図。ＨＭＭを用いた音響モデルとその学習の原理を示す説明図。歌声合成準備ルーチンを示すフローチャート。データから抽出される代表的なパラメータを示す説明図。音響モデルを用いた学習の基本単位であるコンテキスト依存の音素を示す説明図。ＨＭＭの状態の集合をクラスタリングする様子を示す説明図。状態継続長モデルと各パラメータの決定木の様子を示す説明図。歌声合成ルーチンの手順を示すフローチャート。編集画面の一例を示す図。パラメータ系列の編集方法の第１の例を示す図。パラメータ系列の編集方法の第２の例を示す図。パラメータ系列の編集方法の第３の例を示す図。パラメータ系列の編集方法の第４の例を示す図。パラメータ系列の編集方法の第５の例を示す図。

Ａ．実施形態：
本発明のいくつかの実施形態について、図面を参照しながら説明する。

Ａ−１．歌声処理装置の構成：
図１は、本発明の歌声処理装置の第１実施形態を示す概略構成図である。本実施形態の歌声処理装置１００は、統計的手法により学習された音響パラメータを含む音響モデルから歌声を合成する装置であって、使用者が、合成される音の高低（以降、「音高」または「ピッチ」とも呼ぶ）および音の大きさ（以降「ボリューム」とも呼ぶ）を編集する際の操作性を向上させた歌声処理装置１００である。歌声処理装置１００は、予め歌声を合成するための音響パラメータを学習する構成と、実際に歌声を合成する構成（即ち歌声合成装置としての構成）と、の両方を含んでいる。単に歌声の合成のみを行なうのであれば、前者の構成は必要ない。ここでは、両方を併せて説明するが、歌声合成のみを行なうのであれば、学習済みの音響モデルをハードディスクなどの記憶部に記憶しておき、この音響モデルを用いて音声合成を行なえばよい。

図１に示した歌声処理装置１００は、ネットワークＮＷを介して接続されたコンピュータＰＣ１と、サーバ３０およびサーバ３０に接続されたもう一台のコンピュータＰＣ２とから構成されている。歌声処理装置１００は、一台のコンピュータによって構成することもできるし、ネットワーク上に分散して置かれた複数のコンピュータから構成することも可能である。

コンピュータＰＣ１は、歌声を入力するために設けられており、楽譜入力部１０および歌唱（歌声として音声）を入力するための音声入力部２０とを備える。楽譜入力部１０は一般にはキーボードが用いられ、音声入力部２０としてはマイクが用いられる。歌い手が音声入力部２０としてマイクに向かって歌い、その歌詞を含む楽譜を楽譜入力部１０であるキーボードから入力すると、楽譜と歌声とが対応付けられて、コンピュータＰＣ１内に保存される。楽譜を入力する場合、五線紙に記載された楽譜の形で入力しても良いが、鍵盤タイプのキーボードを用いて入力しても良い。後者の場合、楽譜入力部１０として、テキスト入力用のキーボードの他に、ピアノ鍵盤タイプのキーボードを併用するものとし、鍵盤タイプのキーボードによる音程および音の長さの入力と、テキスト入力用のキーボードによる歌詞（日本語の場合は、各音に対応したかな文字列）の入力とを、対応付けながら行えば良い。歌唱の楽譜と歌声のデータは、一回当たり少なくとも数分蓄積される。後述するように、この楽譜と歌声のデータは、サーバ３０内の音響パラメータ学習部により解析される。解析するためには、楽譜と歌声のデータに、全ての音素やその組み合わせ、全ての歌唱表現が含まれている必要はないが、統計的な学習が可能な程度の種類の音素とその組み合わせ、および種々の歌唱表現が含まれていることが望ましい。従って、一般に、おおよそ数分から数十分程度の歌声が必要とされる。

歌声入力用のコンピュータＰＣ１をサーバ３０と分離したのは、複数の歌い手のデータ入力を容易にするためである。コンピュータＰＣ１は、マイクを備えたノートパソコンなどにより実現でき、簡易に持ち運んで、楽譜と歌声を採取・保存することができる。なお、この例では、歌声は、直接マイクなどの音声入力部２０から入力するものとしたが、音源は生歌である必要はなく、ＣＤやＤＶＤなどに記録された歌声から採取するものとしても差し支えない。あるいはネットワークＮＷを介して入力するものとしても良い。

こうして採取・記録された歌声のデータは、ネットワークＮＷを介してサーバ３０に送られ、サーバ３０内のハードディスク３１に保存される。サーバ３０内には、楽譜解析部３３と音響パラメータ学習部４０と音響モデル記憶部５０とが備えられている。音響モデル記憶部５０は「記憶部」として機能する。サーバ３０には、この他、パラメータ取得部５５、パラメータ提示部５６、楽譜解析部５７、音声合成部６０が設けられており、音響モデル記憶部５０と共に、歌声合成装置を構成している。音声合成部６０は「合成部」として機能する。

パラメータ取得部５５とパラメータ提示部５６と楽譜解析部５７とは、コンピュータＰＣ２との間でデータのやり取りを行なう。コンピュータＰＣ２には、キーボード５１、マウスなどのポインティングデバイス５２、および表示部５３が設けられている。キーボード５１からは、主に合成しようとする歌声の楽譜のデータが入力される。また表示部５３には、後述する音響パラメータを表すＧＵＩ（Graphical User Interface）が表示される。コンピュータＰＣ２は、ＧＵＩを用い、ポインティングデバイス５２により、この音響パラメータを指定あるいは修正することができる。詳細は後述する。

サーバ３０内の学習部４０について説明する。学習部は、ハードディスク３１内に記憶された各楽譜と音声データとの組から、音響モデルを構築するための学習を行なう。この学習は、最終的に歌声の合成を行なうためになされるので、本実施形態で用いる歌声合成の手法について先にその概略を説明する。本実施形態では、人が歌声を生成するのに用いている声帯や口蓋などの諸器官を、音源（励振源）と所定の伝達特性を持ったフィルタであるとして捉え、これをデジタルフィルタにより模擬する。このとき、音声波形から抽出されたスペクトルパラメータ、基本周波数、周期／非周期情報からなる音響パラメータの時間軸に沿った列を用いる。これらの音響パラメータの列を、楽譜から推定することができれば、楽譜からそれに対応した音声を合成することができる。そこで、実際の歌声のデータと楽譜とから、音響パラメータの列とそれに対応する楽譜との関係を、所定の音響モデルを用いて学習するのである。こうした音響モデルとしては、本実施形態では、隠れマルコフモデル（ＨＭＭ、Hidden Markov Model）を採用した場合を例示する。

図２は、ＨＭＭを用いた音響モデルとその学習の原理を示す説明図である。図２では、音素を最小単位とし、この最小単位内において、観測系列の経時的変動を例として３つの状態で表しており、最初に位置する状態に「１」を、中央に位置する状態に「２」を、最後に位置する状態に「３」をそれぞれ付した。

図２において、ａ_ijは、遷移確率を示している。ｉ＝ｊの場合には、音素の同じ部分に留まる確率を示し、ｊ＝ｉ＋１の場合には、次の部分に遷移する確率を示す。このとき、観測系列ｏは、出力確率密度関数ｂ_q（ｏ_ｔ）により得られる値となる。このように、本実施形態では、楽譜と歌声データとから、コンテキストを考慮したＨＭＭを学習するのであり、一旦、歌い手毎に学習されたＨＭＭが出来上がれば、このＨＭＭを用いて、楽譜から歌声を合成するのである。こうしたＨＭＭで学習される状態遷移確率ａ_ijと出力確率密度関数ｂ_q（ｏ_ｔ）は、最尤推定法の１つである期待値最大化（ＥＭ）アルゴリズムを用いて推定することができる。

次に、ＨＭＭの学習で用いられる音響パラメータについて説明する。基本的に音響パラメータとして、音声波形から抽出されたスペクトルパラメータ、基本周波数、周期／非周期情報が想定されることは既に説明した。ここで、スペクトルパラメータとしてはメルケプストラムや線スペクトル対（ＬＳＰ）などを用いる。本実施形態では、メルケプストラムを用いた。メルケプストラムとは、音声信号のフーリエ変換の対数を更に逆フーリエ変換したものに、人の聴覚特性に合わせて低周波数領域の情報を多く持つようにした情報である。基本周波数とは、一般に、対数を取った値を用いる。周期／非周期とは、母音のように周期的な音声か子音のように周期性のない音声かの区別である。この他、動的特徴と呼ばれるパラメータも用いられる。動的特徴とは、基本周波数やメルケプストラムなどのパラメータの時間方向の１次微分（デルタ）や二次微分（デルタデルタ）に対応するパラメータである。これらのパラメータは、ＨＭＭが時系列データの時間軸方向の相関関係をモデル化しにくいという点を補うために用いられる。動的特徴を扱うことで、音素列を合成する際のつなぎ目が滑らかになる。

ここまで、音響モデルは、スペクトルパラメータや基本周波数を用いたＨＭＭであるとして説明したが、実際に用いられるモデルはもっと複雑である。以下、実際に導入されているモデルについて簡略に説明する。
（Ａ）状態継続長モデル：歌声の中に含まれる各音素の長さは、歌唱スタイルなどによって変動することから、音声の時間的な構造（どれだけその音素が継続するか）をより精度良くモデル化するために、明示的な状態継続長分布を用いている。これは隠れセミマルコフモデルと呼ばれるモデルである。なお、本実施形態では、単に「ＨＭＭ」というとき、状態継続長モデル付きのＨＭＭを意味する。
（Ｂ）コンテキスト依存モデル：音声のスペクトルや基本周波数、継続長といった音響パラメータは、歌詞に含まれる言語的な情報や楽譜に基づく歌い方の影響を受けやすい。このため、歌詞の言語情報と、更に楽譜から得られる音高、テンポ、調性、拍子などのコンテキストを考慮してモデル化している。
（Ｃ）多空間確率分布ＨＭＭ：音声には無声部があって、そこでは基本周波数の時系列データそのものが存在しない。本実施形態では、こうした特殊な時系列を扱うために、多空間確率分布ＨＭＭ（ＭＳＤ−ＨＭＭ）を用いる。

（Ｄ）歌唱表現モデル：歌声には、楽譜から見た場合、様々なズレが存在する。これを広義の歌唱表現と呼ぶ。歌唱表現は、特定の歌唱スタイルによる歌唱を特徴付けるものとなっているため、これらも学習に使用される。以下、広義の歌唱表現に含まれるものを挙げる。歌唱表現には、これら全てが含まれる必要はない。
（１）タイミング：実際の歌声は、楽譜から計算される音符の時間軸上の位置から意図せずもしくは意図的にずれることがある。例えば、子音はその音符の開始タイミングより少し前で発声されることが多い。また「前ノリ」「後ノリ」「タメ」など、発声のタイミングを意図的にずらす歌唱表現が存在する。このため、楽譜から計算される絶対的な時間を基準とした実際の発声との時間的なズレを、音素単位でモデル化している。
（２）音高のビブラート：音高（ピッチ）のビブラートは、音高を周期的に揺らす歌唱表現である。歌声において音高のビブラートがかかるタイミングやその周期、振幅の変化は、歌唱スタイル毎に異なるため、歌唱スタイル毎の音響モデルの学習に用いられる。音高のビブラートは、更にその周期と振幅の２つのパラメータとして扱われ、音響モデルに組み込まれる。
（３）音の大きさのビブラート：音の大きさ（ボリューム）のビブラートは、音の大きさを周期的に揺らす歌唱表現である。音高のビブラートと同様に、歌声における音の大きさのビブラートがかかるタイミングやその周期、振幅の変化は歌唱スタイル毎に異なる。このため、音の大きさのビブラートも、歌唱スタイル毎の音響モデルの学習に用いられる。音の大きさのビブラートは、更にその周期と振幅の２つのパラメータとして扱われ、音響モデルに組み込まれる。
（４）その他の歌唱表現：上記のビブラート以外にも様々な歌唱表現が存在する。例えば、音高（ピッチ）に影響を与える歌唱表現として「しゃくり」「こぶし」などがある。ここで「しゃくり」には、しゃくり上げやしゃくり下げが含まれる。また、音の大きさ（ボリューム）に影響を与える歌唱表現として「アタック・リリース」などがある。こうした歌唱表現は、ピッチやボリュームの音符途中での変動量として扱うことができ、音響モデルに組み込まれる。
本明細書では、上述した各モデルを含めて、ＨＭＭと称する。なお、上述した音響モデルは、必ずしも全て使用される必要はなく、その一部を省略してもよい。

図１に戻って、サーバ３０内の構成について、更に説明する。上述したように、歌声合成のための音響モデルを学習するために、ハードディスク３１に記憶された歌声のデータから、歌声の基本周波数やその微分（デルタパラメータ）を抽出するＦ０抽出部４１、歌声に含まれるスペクトルパラメータやその微分（デルタパラメータ）を抽出するＳＰ抽出部４３、上述した広義の歌唱表現パラメータを抽出する歌唱Ｐ抽出部４４、これらの抽出した音響パラメータを用いて、ＨＭＭを学習するＨＭＭ学習部４５が含まれる。これらのパラメータは、図２を用いて説明したように、音素の配列である音素列データ（コンテキスト依存モデル）を基本として、学習される。

図３を用いて、歌声合成の準備のために実行される処理について説明する。図３に示した歌声合成準備ルーチンの前半（ステップＳ１１０〜Ｓ１２０）は、コンピュータＰＣ１により実行される。後半（ステップＳ１４０〜Ｓ１６０）は、サーバにより実行される。

Ａ−２．歌声合成準備ルーチン：
この歌声合成準備ルーチンが開始されると、まず歌声のデータの入力が行なわれる（ステップＳ１１０）。歌声のデータは、少なくとも数分分の歌唱を、マイクなどの音声入力部２０を介して入力し、デジタルデータとして記憶することにより入力される。続いて楽譜入力部１０により楽譜の入力が行なわれる（ステップＳ１２０）。歌声データに対して、入力された楽譜から抽出された音程と歌詞（発音）とが対応付けられる。

次にこの歌声データと楽譜とを受け取ったサーバ３０において、データの解析が行なわれる（ステップＳ１４０）。データの解析は、ハードディスク３１に記憶された歌声を順次取り出して行なわれる。データ解析には、楽譜解析部３３を用いた楽譜の解析と、学習部４０のＦ０抽出部４１による基本周波数およびその関連パラメータの解析、ＳＰ抽出部４３によるスペクトルパラメータ（ＳＰ）およびその関連パラメータの解析、更には、歌唱表現関連のパラメータの解析が含まれる。図４に、こうした解析により抽出される各種パラメータを例示した。

基本周波数は、一般に対数基本周波数ｐ_ｔとして扱われており、その関連パラメータとしては、有声／無声の区別、対数基本周波数の一次微分（Δｐ_ｔ）や二次微分（Δ^２ｐ_ｔ）が考えられる。これらは音源情報と呼ばれることがある。なお、無声部分は対数基本周波数ｐ_ｔの値を持たない。このため、無声部分に所定の定数を入れる等の方法によって有声／無声の区別を行う。また、スペクトルパラメータとしては、メルケプストラムｃ_ｔやその一次微分（Δｃ_ｔ）、二次微分（Δ^２ｃ_ｔ）などがある。一時微分と二次微分とは、時間的変動を考慮するために使用される。これらは、スペクトル情報と呼ばれることがある。更に、こうした音源情報、スペクトル情報の他に、本実施形態では、歌唱表現情報を扱う。

歌唱表現情報には、音高のビブラートの周期Ｖ１ｆ_ｔおよび振幅Ｖ１ａ_ｔと、音の大きさのビブラートの周期Ｖ２ｆ_ｔおよび振幅Ｖ２ａ_ｔと、しゃくりに関するパラメータセットＳ１〜Ｓ６と、アタック・リリースに関するパラメータセットＡＲ１〜ＡＲ６とが、音素単位でモデル化されて含まれている。音高のビブラートの周期、音高のビブラートの振幅、音の大きさのビブラートの周期、音の大きさのビブラートの振幅については、それぞれに対応する一時微分（Δ）と、二次微分（Δ^２）とを持つ。図示の便宜上、図４ではこれら周期および振幅についての一時微分、二次微分の図示を省略している。本実施形態では、しゃくりとアタック・リリースに関しては、「長さ」「高さ」「急峻度」の３つのパラメータを音符の先頭と末尾に、それぞれ持っている。従って、それぞれ６つのパラメータからなる。しゃくりのパラメータ等の学習の手法は、後で説明する。上記パラメータのうち、メルケプストラムｃ_ｔを初めとする各パラメータの一次微分や二次微分は、時間変動を考慮するために用いられる。動的特徴を考慮することにより、歌声の合成時における音と音のつながりが滑らかなものとなる。動的特徴を用いた音声合成の手法については、説明を省略する。

続いて、解析したデータを用いて、コンテキスト依存モデルを構築する（ステップＳ１５０）。コンテキスト依存モデルの構築は、抽出した各パラメータを用いて、隠れセミマルコフモデルを学習するものであり、概略以下の処理を行なう。上述したように、コンテキスト依存モデルの構築は、基の歌声データに含まれる音素毎に行なうが、音素を単独で扱うのではなく、音声合成において、音声変動を引き起こす多数の要因と共にＨＭＭ学習を行なう。合成しようとする音声に音声変動を引き起こする要因としては、例えばその音素の前後の音素の組み合わせ（前後の音素と当該音素の組合せである音素列トライフォンや、更にその前後の音素を考慮したクインフォンなど）や、楽譜情報や言語情報などがある。楽譜情報としては、前後の音素の音程や、休止符の長さなどがある。また言語情報としては、当該音素が属する語の品詞、活用形あるいはアクセントの位置、アクセント型など種々の情報がある。これらの要因をまとめて、コンテキストと呼ぶ。

滑らかな音声合成を行なう場合、考慮すべき要因は多数に上るが、学習の手法を概説するために、図５では、コンテキスト付きの音素の一例として上記のトライフォンを示した。図５は、「さっぱりわからない」という歌声を例に、トライフォンを取り出す場合を示す説明図である。「さっぱりわからない」という音声データの中には、音素ａは複数回出現するが、同じ音素であっても前後の音素等のコンテキストが異なると音声の音響的特徴が異なる。そのため、当該音素が同じａであっても、前後の音素を考慮したトライフォンとして別々にモデル化する。なお、特定の音素に着目したとき、これに先行あるいは後続する音素が存在しない場合もあることから、その場合は「ｓｉｌ」などの無音を表す音素があるものとする。ハードディスク３１に記憶された歌声から、音素を、コンテキストを考慮した状態で順次取り出す。コンテキストが考慮された音素を、以下、コンテキスト依存音素と呼ぶ。数分から数十分の歌声から取り出されるコンテキスト依存音素の数は数百から数万に上る。ハードディスク３１から取りだしたコンテキスト依存音素の全てに対して、図２に示した状態遷移確率ａ_ijと出力確率密度関数ｂ_q（ｏ_ｔ）を学習する。つまり、コンテキスト依存音素が属するフレーム毎に図４に示したパラメータを抽出し、各コンテキスト依存音素のＨＭＭを学習するのである。

続いて、コンテキスト依存モデルをクラスタリングして、各クラスタ毎に代表的なガウス分布を求める（ステップＳ１６０）。具体的には、コンテキスト依存モデルの構築（ステップＳ１５０）で構築されたコンテキスト依存モデルを二分木によって分類していく。はじめにコンテキスト依存モデルの構築（ステップＳ１５０）で構築された全てのコンテキスト依存モデルを１つのクラスタとする。そのクラスタに対して予め準備されたコンテキストに関する質問のリストから最適な質問を選択し、当該質問を、クラスタ内のコンテキスト依存モデル（実際は状態番号が同じもの）に対して適用することでクラスタを２分割する。そして、分類されたクラスタに対して同様に質問を選択して適用し、更にクラスタを分割する。これを繰り返すことで分類を行う。クラスタリングがなされた決定木の一例を、図６に示した。図６において、太い矢印は、各二分木の分岐条件に対する判断が「ＹＥＳ」である場合を、細い矢印は各二分木における判断が「ＮＯ」であることを示している。このように、各クラスタ毎に代表的なガウス分布が求められれば、クラスタリングされたコンテキスト毎に音声合成が可能なモデル（コンテキスト依存モデル）が得られたことになる。換言すれば、クラスタリングは、音声合成に用いるコンテキスト依存モデルを選択するための決定木を構築するために行なう。音声合成の際には、可能であれば、コンテキストが同一のコンテキスト依存モデルを用いることが望ましい。しかし、限られた音声データからは、上述したように、全てのコンテキストの組み合わせに対応するコンテキスト依存音素が得られる訳ではなく、全てのコンテキストの組み合わせに対応したコンテキスト依存モデルを学習できる訳ではない。そこで、クラスタリングにより、決定木を作り、音声合成時に、最も適したコンテキスト依存モデルを選択できるように準備するのである。

クラスタリングと代表的なガウス分布を求める処理は、統計的に学習された全ての特徴について行なう。この様子を、図７に模式的に示した。１つのコンテキスト依存音素に着目すると、各状態は、状態継続長モデルにより、各状態が継続する長さが与えられる。多数のコンテキスト依存音素からこの状態継続長を決定する二分木が学習されている。これを状態継続長の決定木と呼ぶ。また、コンテキストを考慮したタイミングモデルから、楽譜の時間情報と実際の歌唱タイミングとのずれを決定する二分木が学習されている。これをタイミングの決定木と呼ぶ。同様に、しゃくり上げやしゃくり下げを含むしゃくりモデルからしゃくりの決定木が、アタック・リリースモデルからはアタック・リリースの決定木が学習されている。さらに、解析されたパラメータ毎に、メルケプストラムの決定木、基本周波数の決定木、および、各歌唱表現（音高のビブラート、音の大きさのビブラート等）の決定木などが構成される。

歌唱表現に関するモデルとその決定木の作り方について、しゃくりを例にして以下簡略に説明する。まずしゃくりのパラメータを無視して音響モデルを作り、これを用いて歌声合成を行なう。合成されたものは、しゃくりを含まない歌声である。そして、しゃくりを含むものとして予め記憶した音声データの基本周波数の系列を、しゃくりを含まない音響モデルから生成した歌声の基本周波数の系列と比較する。両者の差分は、しゃくりの有無であることから、各音符の先頭部分と末尾部分のそれぞれについてしゃくりの「高さ」「長さ」「急峻度」を抽出し、音符単位でコンテキスト依存モデルを作成することができる。そして、抽出したコンテキストを考慮したしゃくりモデルを構築し、コンテキストクラスタリングによりしゃくりの決定木を作る。アタック・リリースについては、ボリュームに関して差分をとる同様の処理を行ない、これからアタック・リリースモデルを構築し、アタック・リリースの決定木をつくる。このようにして、特定の歌唱スタイルの歌声データを基にして、これらの決定木の集合が求められるということが、結局その歌唱スタイルの音響モデルが学習されたことに他ならない。

このようにして学習された音響モデルは、音響モデル記憶部５０に記憶される。以上で、歌声合成のための準備が完了する。本実施形態では、音響モデルの準備から説明したが、予め準備された音響モデルを用いて歌声合成をおこなってもよい。音響モデルの学習は上記の手法に限らず、他の手法によってもよい。予め準備された音響モデルを用いて本実施形態の歌声合成を行う場合、図１のＰＣ１、ハードディスク３１、楽譜解析部３３、ＦＯ抽出部４１、ＳＰ抽出部４３、歌唱Ｐ抽出部４４、ＨＭＭ学習部４５については省略してもよい。

上述した歌声合成準備ルーチン（図３）が実行されると、サーバ３０の音響モデル記憶部５０には音響モデルが記憶された状態となる。歌声合成は、この音響モデルを用い、サーバ３０とコンピュータＰＣ２とを用いて行なう。サーバ３０には、パラメータ取得部５５、パラメータ提示部５６、楽譜解析部５７、音声合成部６０が設けられている。パラメータ取得部５５とパラメータ提示部５６とは、使用者による音響パラメータの調整を可能とするために設けられている。詳細は後述する。楽譜解析部５７は、合成しようする歌声を表した楽譜を解析して、合成すべき音素列（有声音の音程と音素の組み合わせ）を出力する。音声合成部６０は、パラメータ取得部５５と楽譜解析部５７との出力を受けて音声の合成を行なう。

音声合成部６０は、パラメータ生成部６１、音源生成部６３、合成フィルタ６５等を備える。パラメータ生成部６１は、楽譜解析部５７の出力を受け取り、学習済みの音響モデルから、基本周波数やメルケプストラムパラメータ、歌唱表現パラメータなどの各種の音響パラメータを生成する。音源生成部６３は、基本周波数、音高のビブラート、しゃくり、こぶしなどの音高に関与するパラメータを受け取って、励振源パラメータを時間軸に沿って生成する。また、合成フィルタ６５は、主にメルケプストラムにより音声を合成するフィルタである。こうしたフィルタとしては、例えばＭＬＳＡフィルタなどが知られている。歌唱表現パラメータのうち、音源生成部６３での音源生成に関与しないパラメータは、メルケプストラムの一部として、合成フィルタ６５に入力される。

Ａ−３．歌声合成ルーチン：
図８は、歌声合成ルーチンの手順を示すフローチャートである。歌声合成ルーチンは、音響モデル記憶部５０に記憶されている音響モデルを用いて歌声を合成する処理である。歌声合成ルーチンは使用者の指示を契機として開始され、サーバ３０とコンピュータＰＣ２とが協働することにより実行される。

まず、サーバ３０は、入力された楽譜を解析する（ステップＳ２１０）。使用者は、歌声を合成しようとする歌の楽譜をコンピュータＰＣ２から入力する。具体的には、例えば、ピアノロール画面をコンピュータＰＣ２の表示部５３に表示させる。使用者は、ポインティングデバイス５２を用いてピアノロール画面の所定部分をなぞることによって、音符および音の長さ（即ちメロディライン）を入力する。また、使用者は、キーボード５１を用いてピアノロール画面に入力した音符に対して文字列を割り当てることで、各音符に対応した歌詞を入力する。なお、メロディラインの入力は、鍵盤タイプのキーボードを用いて行われてもよい。また、楽譜の入力は、所定形式の楽譜ファイルを読み込むことによって代替されてもよい。サーバ３０は、このようにして入力された楽譜を取得し、取得した楽譜を楽譜解析部５７により解析する。楽譜解析部５７での解析によって、入力された楽譜に対応したコンテキスト依存音素列のデータ（図２）が生成される。なお、生成された音素列のデータには、音の高さの情報が含まれている。

次に、サーバ３０は、構成パラメータ系列を生成する（ステップＳ２２０）。構成パラメータ系列の生成は、具体的には例えば、以下の手順ａ１〜ａ４によって実施できる。

（ａ１）パラメータ生成部６１は、音響モデル記憶部５０に記憶されている音響モデルの中から、ステップＳ２１０で得られた各音素列に対応した音響モデルをそれぞれ取得する。
（ａ２）パラメータ生成部６１は、手順ａ１で取得した音響モデルのうちの状態継続長モデルに従って、時間軸上における各音素の境界（すなわち各音素の区切り）を設定する。パラメータ生成部６１は、手順ａ１で取得した音響モデルのうちのタイミングモデルに従って、時間軸上において設定した各音素の境界を前後に修正する。
（ａ３）パラメータ生成部６１は、手順ａ１で取得した音響モデルに含まれる各種の音響パラメータ（図４）が格納されたフレームを、時間軸上に配置する。即ち「フレーム」とは、単位時間における各種の音響パラメータの集合を意味する。なお、パラメータ生成部６１は、時間軸上にフレームを配置する際、手順ａ２で設定した各音素の境界に従う。

（ａ４）パラメータ生成部６１は、構成パラメータ系列を生成する。具体的には、パラメータ生成部６１は、手順ａ３で配置されたフレームに含まれる音響パラメータの１つ（例えば、基本周波数）について、動的特徴量を考慮して音素間におけるパラメータ値の変化を滑らかにしたパラメータ系列を生成する。即ち「パラメータ系列」とは、時間軸上におけるパラメータ値の変化を表す情報である。音声パラメータ生成部６１は、手順ａ３で配置されたフレームに含まれる音響パラメータの全てに対して上述の処理を繰り返すことにより、音響パラメータの全てにそれぞれ対応するパラメータ系列をそれぞれ生成する。これにより、スペクトルパラメータ系列、基本周波数のパラメータ系列、歌唱表現パラメータのパラメータ系列などが生成される。歌唱表現パラメータのパラメータ系列には、例えば、音高のビブラートのパラメータ系列、音の大きさのビブラートのパラメータ系列、しゃくりのパラメータ系列、こぶしのパラメータ系列、アタック・リリースのパラメータ系列などが含まれる。以降、音響パラメータについてのパラメータ系列の集合を「構成パラメータ系列」とも呼ぶ。構成パラメータ系列は、「第１のパラメータ系列」として機能する。

次に、サーバ３０は、構成パラメータ系列から、音高のパラメータ系列と、音の大きさのパラメータ系列とを生成する（ステップＳ２３０）。具体的には、パラメータ生成部６１は、構成パラメータ系列のうち、音高に関係するパラメータ（例えば、基本周波数、音高のビブラート、しゃくり、こぶしなど）のパラメータ系列を加算することで、音高のパラメータ系列を生成する。また、パラメータ生成部６１は、構成パラメータ系列のうち、音の大きさに関係するパラメータ（例えば、スペクトルパラメータ、音の大きさのビブラート、アタック・リリースなど）のパラメータ系列を加算することで、音の大きさのパラメータ系列を生成する。即ち、音高のパラメータ系列と音の大きさのパラメータ系列とは、構成パラメータ系列の各要素を加算することにより得られるパラメータ系列である。このため、音高のパラメータ系列と音の大きさのパラメータ系列とを総称して「加算パラメータ系列」とも呼ぶ。加算パラメータ系列は、「第２のパラメータ系列」として機能する。なお、ステップＳ２３０の「加算」には、列挙した各パラメータを単純に加算することと、列挙した各パラメータを対数領域で加算することとの両方を含む。

図９は、編集画面の一例を示す図である。図９ではピアノロールの図示を省略している。歌声合成ルーチン（図８）においてサーバ３０のパラメータ提示部５６は、生成した各パラメータ系列を表した画面Ｗ１を生成し、コンピュータＰＣ２の表示部５３に表示させる（ステップＳ２４０）。

図９に示す本実施形態では、画面Ｗ１は、加算パラメータ系列の編集に適した画面として構成されている。画面Ｗ１には、ツールバーＴＢと、２つのメインタブＭＴ１、ＭＴ２と、メインウィンドウＭＷと、４つのサブタブＳＴ１〜ＳＴ４と、サブウィンドウＳＷと、が含まれている。

ツールバーＴＢには、各パラメータ系列を編集操作するために使用される種々のツールと、画面Ｗ１を操作するために使用される種々のツール（またはボタン）とが含まれている。例えば、図９の例では、ペンツールＴ１と、消しゴムツールＴ２と、選択ツールＴ３と、編集終了ボタンＴｎとが含まれている。ペンツールＴ１は、ポインティングデバイス５２のドラッグによって各パラメータ系列の形状を描画するためのツールである。消しゴムツールＴ２は、描画内容を取り消すためツールである。選択ツールＴ３は、パラメータ系列の中の任意の点（または範囲）を選択するためのツールである。編集終了ボタンＴｎは、編集作業を終了し、画面Ｗ１に表示されている各パラメータ系列を用いた歌声の合成をサーバ３０に指示するためのボタンである。なお、ツールバーＴＢには、例示以外の様々なツール（ボタン）が含まれ得る。

メインタブＭＴ１、ＭＴ２は、メインウィンドウＭＷに表示させる加算パラメータ系列を指定するために使用される。例えば、図９の例では、メインタブＭＴ１には音高（ピッチ）、メインタブＭＴ２には音の大きさ（ボリューム）が、それぞれ割り当てられている。

メインウィンドウＭＷは、メインタブＭＴ１、ＭＴ２によって選択されている加算パラメータ系列を表示するために使用される。図９の例では、メインタブＭＴ１（音高（ピッチ））が選択された場合、メインウィンドウＭＷには音高のパラメータ系列が表示される。また、メインタブＭＴ２（音の大きさ（ボリューム））が選択された場合、メインウィンドウＭＷには音の大きさのパラメータ系列が表示される。音高のパラメータ系列と、音の大きさのパラメータ系列とは、いずれも、ステップＳ２３０で生成されたものを使用できる。また、いずれの場合においても、メインウィンドウＭＷのパラメータ系列の背後には、楽譜のメロディラインと歌詞とを表すピアノロール画面が表示される。メロディラインと歌詞とは、ステップＳ２１０で取得したものを使用できる。

メインウィンドウＭＷに表示されているパラメータ系列におけるパラメータ値は、ツールバーＴＢにおいて選択されているツールでの編集方法（例えば、描画、削除など）に従って、キーボード５１やポインティングデバイス５２を使用して変更することができる。

サブタブＳＴ１〜ＳＴ４は、サブウィンドウＳＷに表示させる構成パラメータ系列を指定するために使用される。例えば、図９の例では、サブタブＳＴ１には音高の基本データ（図９：基本）、サブタブＳＴ２にはビブラートの周期（図９：Ｖｆ）、サブタブＳＴ３にはビブラートの振幅（図９：Ｖａ）、サブタブＳＴ４にはしゃくり（Ｓ）が、それぞれ割り当てられている。なお、各サブタブに表示される項目、および、全サブタブの個数は、メインタブＭＴ１、ＭＴ２において選択されている項目によって変動する。例えば、メインタブＭＴ２（音の大きさ（ボリューム））が選択された場合、サブタブＳＴ１には音の大きさの基本データ、サブタブＳＴ２には音の大きさのビブラートの周期、サブタブＳＴ３には音の大きさのビブラートの振幅、サブタブＳＴ４にはアタック・リリースが、それぞれ割り当てられる。

サブウィンドウＳＷは、サブタブＳＴ１〜ＳＴ４によって選択されている構成パラメータ系列を表示するために使用される。図９に示す本実施形態の例では、サブタブＳＴ１において基本データ（基本）が選択された場合、サブウィンドウＳＷには音高基本データのパラメータ系列が表示される。基本データとは、ビブラート等の歌唱表現を加えていない音高（ピッチ）を意味する。同様に、サブタブＳＴ２においてビブラートの周期（Ｖｆ）が選択された場合、サブウィンドウＳＷには音高のビブラートの周期のパラメータ系列が、サブタブＳＴ３においてビブラートの振幅（Ｖａ）が選択された場合、サブウィンドウＳＷには音高のビブラートの振幅のパラメータ系列が、サブタブＳＴ４においてしゃくり（Ｓ）が選択され場合、サブウィンドウＳＷにはしゃくりのパラメータが、それぞれ表示される。上述した各パラメータ系列は、いずれも、ステップＳ２２０で生成されたものを使用できる。なお、ボリュームのパラメータ系列は、スペクトルパラメータの一部としてモデル化されることが多く、スペクトルパラメータ系列（ステップＳ２２０）から取得することができる。

図９に示す本実施形態の例では、サブウィンドウＳＷに表示されているパラメータ系列は、表示のみに使用され、変更できない。

メインウィンドウＭＷとサブウィンドウＳＷは、それぞれ、横軸が時間軸上の前後方向を表しており、両者の時間単位は同一とされている。また、メインウィンドウＭＷおよびサブウィンドウＳＷの縦軸は、ウィンドウに表示されるパラメータ系列によって変化する。例えば、音高を表示するウィンドウである場合、縦軸は音の高さ（例えば対数Ｈｚ）となり、音の大きさを表示するウィンドウである場合、縦軸は音の大きさ（例えばｄｂ）となる。

図１０は、パラメータ系列の編集方法の第１の例を示す図である。図１０ではピアノロールの図示を省略している。上述の通り、使用者は、メインウィンドウＭＷに表示されているパラメータ系列（図１０の例では、音高のパラメータ系列Ｐ１）を、コンピュータＰＣ２の入力デバイスを用いて編集することができる。例えば、図１０において（１）を付した矢印で表すように、使用者は、ペンツールＴ１を選択後、ポインティングデバイス５２のドラッグ操作によって所望の軌跡を描くことで、音高のパラメータ系列Ｐ１中の各値を上昇、下降、時間を前後に移動することができる。

歌声合成ルーチン（図８）においてサーバ３０は、編集が終了したか否かを判定する（ステップＳ２５０）。具体的には、サーバ３０は、画面Ｗ１の編集終了ボタンＴｎの押下を取得した場合に、編集が終了したと判定する。編集が終了した場合（ステップＳ２５０：ＹＥＳ）、サーバ３０は処理をステップＳ２８０に遷移させる。詳細は後述する。

編集が終了していない場合（ステップＳ２５０：ＮＯ）、即ち編集終了ボタンＴｎの押下を検出していない場合、サーバ３０は処理をステップＳ２６０に遷移させる。サーバ３０のパラメータ取得部５５は、画面Ｗ１のメインウィンドウＭＷにおいて行われた編集内容を取得する（ステップＳ２６０）。編集内容は、例えば、元のパラメータ系列からの変化量により特定できる。

次に、サーバ３０のパラメータ生成部６１は、ステップＳ２６０により取得した編集内容（具体的には、元のパラメータ系列からの変化量）に従って、構成パラメータ系列を変更する（ステップＳ２７０）。その後、処理はステップＳ２３０に遷移される。この結果、変更後の構成パラメータ系列に基づいて、加算パラメータ系列が再生成され（ステップＳ２３０）、再生成された加算パラメータ系列が画面Ｗ１のメインウィンドウＭＷに表示されると共に、再生成された構成パラメータ系列が画面Ｗ１のサブウィンドウＳＷに表示される（ステップＳ２４０）。なお、ステップＳ２４０では、初回にステップＳ２４０を実施した際に表示した加算パラメータ系列および構成パラメータ系列の軌跡（即ちデフォルト値による各パラメータ系列の軌跡）を破線表記、色を変更した表記等により残しておくことが好ましい。

この処理を図１０の具体例に沿って説明する。使用者が音高のパラメータ系列Ｐ１に対する編集（図１０：（１）を付した矢印）を施した後、パラメータ取得部５５によって、音高のパラメータ系列Ｐ１に対する編集内容が取得される（ステップＳ２６０）。その後、パラメータ生成部６１によって、編集内容に従った構成パラメータ系列の変更が行われる（ステップＳ２７０）。この際、ステップＳ２７０では、少なくとも音高に関する全ての構成パラメータ系列（基本データ、音高のビブラートの周期、音高のビブラートの振幅、しゃくり、こぶし）の中から、編集内容に応じた少なくとも一部の構成パラメータ系列の各値が変更される。さらに、変更後の構成パラメータ系列に基づいて、音高のパラメータ系列Ｐ１が再生成される。最後に、再生成された音高のパラメータ系列Ｐ１が画面Ｗ１のメインウィンドウＭＷに表示されると共に、再生成された構成パラメータ系列のうち、サブタブにおいて選択されている基本データのパラメータ系列Ｐ１１が、画面Ｗ１のサブウィンドウＳＷに表示される（ステップＳ２４０）。このようにして、図１０において（２）を付した矢印で表すように、音高のパラメータ系列Ｐ１に対する編集内容が、基本データのパラメータ系列Ｐ１１に反映される。

以上のように、歌声合成ルーチン（図８）において、加算パラメータ系列の生成（ステップＳ２３０）と、表示（ステップＳ２４０）と、編集内容の取得（ステップＳ２６０）と、編集内容の反映（ステップＳ２７０）とを繰り返すことによって、コンピュータＰＣ２上の画面Ｗ１では、メインウィンドウＭＷに表示されているパラメータ系列（図９および図１０の例では、音高のパラメータ系列Ｐ１）に対する編集内容が、サブウィンドウＳＷに表示されているパラメータ系列（図９および図１０の例では、基本データのパラメータ系列Ｐ１１）に対して、リアルタイムに反映される。

歌声合成ルーチン（図８）において編集が終了した場合（ステップＳ２５０：ＹＥＳ）、サーバ３０は、歌声を合成し、出力する（ステップＳ２８０）。具体的には、まず、サーバ３０のパラメータ取得部５５は、画面Ｗ１における最新の構成パラメータ系列および加算パラメータ系列を取得する。次にパラメータ生成部６１は、取得された各パラメータ系列を用いて、音源生成部６３と合成フィルタ６５との設定を行う。その後、歌声処理装置１００は、音源生成部６３と合成フィルタ６５とに設定された各パラメータ系列を用いて合成された歌声を、スピーカ７０に出力する。この結果、スピーカ７０からは、画面Ｗ１に表示されている各パラメータ系列を用いて合成された歌声が再生される。図８の例では、この後処理を終了させるが、使用者は、スピーカ７０から再生された歌声が望んだものではない場合などに、処理をステップＳ２３０に遷移させて編集操作を継続してもよい。

図１１は、パラメータ系列の編集方法の第２の例を示す図である。図１１ではピアノロールの図示を省略している。図１１において（１）を付した矢印で示すように、使用者は、選択ツールＴ３を選択後、ポインティングデバイス５２のドラッグ操作によって加算パラメータ系列（図の例では、音高のパラメータ系列）中の任意の範囲を選択する。その後、使用者は、選択範囲内の任意の部分を左右にドラッグする。これにより使用者は、加算パラメータ系列の周期を変更することができる。また、この編集内容は、上述の処理により構成パラメータ系列にも反映され、構成パラメータ系列（図の例では、音高のビブラートの周期のパラメータ系列）も変更される。

図１２は、パラメータ系列の編集方法の第３の例を示す図である。図１２ではピアノロールの図示を省略している。図１２において（１）を付した矢印で示すように、使用者は、選択ツールＴ３を選択後、ポインティングデバイス５２のドラッグ操作によって加算パラメータ系列（図の例では、音高のパラメータ系列）中の任意の範囲を選択する。その後、使用者は、選択範囲内の任意の部分を上下にドラッグする。これにより使用者は、加算パラメータ系列の振幅を変更することができる。また、この編集内容は、上述の処理により構成パラメータ系列にも反映され、構成パラメータ系列（図の例では、音高のビブラートの振幅のパラメータ系列）も変更される。

図１３は、パラメータ系列の編集方法の第４の例を示す図である。図１３ではピアノロールの図示を省略している。図１３において（１）を付した矢印で示すように、使用者は、選択ツールＴ３を選択後、ポインティングデバイス５２のクリック操作によって加算パラメータ系列（図の例では、音高のパラメータ系列）中の任意の点を選択する。その後、使用者は、選択した点を左右にドラッグする。これにより使用者は、加算パラメータ系列の周期を変更することができる。また、この編集内容は、上述の処理により構成パラメータ系列にも反映され、構成パラメータ系列（図の例では、音高のビブラートの振幅のパラメータ系列）も変更される。

図１４は、パラメータ系列の編集方法の第５の例を示す図である。本実施形態の例では、音高のパラメータ系列を構成する「しゃくり」のパラメータ系列は、上述の通り音符単位でモデル化されている。このため、サブタブＳＴ４（しゃくり）が選択されている場合、サブウィンドウＳＷには、図示のように、各音符について、当該音符の先頭に対応した高さ、長さ、急峻度の各値と、当該音符の末尾に対応した高さ、長さ、急峻度の各値とが、それぞれ表示される。これらの点は、音の大きさのパラメータ系列を構成する「アタック・リリース」も同様である。

使用者は、選択ツールＴ３を選択後、ポインティングデバイス５２のクリック操作によって、加算パラメータ系列中の、編集を所望する音符に対応した任意の点を選択する。その後、使用者は、選択した点を上下方向（図１４：Ｄ１方向）にドラッグすることによって、当該音符に割り当てられている高さを変更することができる。同様に、使用者は、選択した点を左右方向（図１４：Ｄ２方向）にドラッグすることによって、当該音符に割り当てられている長さを変更することができ、選択した点を斜め方向（図１４：Ｄ３方向）にドラッグすることによって、当該音符に割り当てられている急峻度を変更することができる。また、この編集内容は、上述の処理により構成パラメータ系列にも反映され、構成パラメータ（図の例では、対応する音符のしゃくりのパラメータ）における各値も変更される。

なお、ツールバーＴＢを選択する操作に代えて、キーボード５１に予め割り当てられている所定のキーを押下する操作を採用してもよい。この場合、例えば、キーを押下しないで行うポインティングデバイス５２の操作を選択ツールＴ３による操作、Ｃｔｒｌキーを押下しつつ行うポインティングデバイス５２の操作をペンツールＴ１による操作、Ａｌｔキーを押下しつつ行うポインティングデバイス５２の操作を消しゴムツールＴ２による操作、等と使い分けることができ、操作性を向上させることができる。また、サブタブＳＴ１〜ＳＴ４を選択する操作を、キーボード５１に予め割り当てられている所定のキーを押下する操作で実現してもよい。この場合、例えば、Ｆ１キー押下によりサブタブＳＴ１を選択、Ｆ２キー押下によりサブタブＳＴ２を選択等としてもよい。

また、メインウィンドウＭＷでの編集内容をどの構成パラメータ系列に反映させるかの指定を、キーボード５１に予め割り当てられている所定のキーを押下する操作で実現してもよい。この場合、サブタブＳＴ１〜ＳＴ４を選択する操作は必要ない。例えば、利用者がＣｔｒｌキーを押下しつつメインウィンドウＭＷの音高のパラメータ系列を左右に動かした場合、当該操作は音高のビブラートの周期に対する編集として取得され、上下に動かした場合、当該操作は音高のビブラートの振幅に対する編集として取得される。また、例えば、利用者がキーを押下しないでメインウィンドウＭＷの音高のパラメータ系列上の曲線を操作した場合、当該操作は基本データのパラメータ系列に対する編集として取得される。なお、この場合、サブウィンドウＳＷに表示されるパラメータ系列（およびアクティブ状態となるサブタブＳＴ１〜ＳＴ４）も、利用者の操作に応じて自動的に切り替わってもよい。

さらに、利用者が、メインウィンドウＭＷに表示されている音高のパラメータ系列のうち、ビブラートがかかっている部分にポインティングデバイス５２を合わせた場合、例えば矢印やアイコン等の案内画像が表示され、当該案内画像に従って（例えば、矢印画像のドラッグを音高のビブラートの周期や振幅に対する編集とする）、構成パラメータ系列の編集を行うことができるように構成してもよい。

以上のように、上記実施形態の音声合成装置（歌声処理装置１００）によれば、使用者は、音高（ピッチ）に関するパラメータ系列中の各値と、音の大きさ（ボリューム）に関するパラメータ系列中の各値と、のうち、パラメータ提示部５６により編集可能な態様で提示（具体的には画面Ｗ１に表示）されている少なくとも一方を、例えば上述した各種の編集方法を用いて、直接、所望の値に編集することができる。このように使用者は、直感的な操作によってピッチやボリュームを変動させることができるため、上記実施形態の音声合成装置によれば、ピッチとボリュームとの少なくとも何れか一方を編集する際の操作性を向上させることができる。

また、上記実施形態の音声合成装置（歌声処理装置１００）によれば、使用者は、画面Ｗ１を用いて、第１，２のパラメータ系列の両方（即ち、構成パラメータ系列と、加算パラメータ系列の両方）を確認することができ、かつ、再生成後の第１のパラメータ系列（構成パラメータ系列）をリアルタイムに確認することもできるため、使用者における利便性を向上させることができる。

さらに、上記実施形態の音声合成装置（歌声処理装置１００）によれば、使用者は、画面Ｗ１を用いて、メインウィンドウＭＷにより第２のパラメータ系列（加算パラメータ系列）を、サブウィンドウＳＷにより第１のパラメータ系列（構成パラメータ系列）を、同時に確認することができるため、使用者における利便性をより向上させることができる。

さらに、上記実施形態の音声合成装置（歌声処理装置１００）によれば、第２のパラメータ系列（加算パラメータ系列）が表示されるメインウィンドウＭＷは、第１のパラメータ系列（構成パラメータ系列）が表示されるサブウィンドウＳＷと比較して、画面上に占める表示領域が大きい（換言すれば、視認性が高い）。このため、使用者は、同時に提示される第１，２のパラメータ系列（即ち、構成パラメータ系列と、加算パラメータ系列）の間において、第２のパラメータ系列（加算パラメータ系列）をより確認しやすくなる。このため、使用者は、第２のパラメータ系列（加算パラメータ系列）が編集対象であるという旨を直感的に理解することができる。

Ａ−４．編集画面の変形：
上記実施形態において説明した編集画面は、以下に例示するような種々の変形が可能である。変形ｂ１〜ｂ８は、単独で採用されてもよく、組み合わせて採用されてもよい。また変形ｂ１〜ｂ８の採用の有無を、使用者からの指定によって切り替えてもよい。

（ｂ１）変形１：メインウィンドウとサブウィンドウを用いた双方向編集
上述した画面Ｗ１では、各サブウィンドウＳＷに表示されているパラメータ系列は表示のみに使用され、パラメータ値の変更ができないとした。しかし、各サブウィンドウＳＷに表示されているパラメータ系列に対しても、メインウィンドウＭＷと同様に、キーボード５１やポインティングデバイス５２を使用したパラメータ値の変更を可能にしてもよい。この場合、編集対象のウィンドウ（メインウィンドウＭＷ／サブウィンドウＳＷ）の指定を、キー割り当てにより実現できる。例えば、キーを押下しないで行うポインティングデバイス５２の操作をメインウィンドウＭＷに対する操作とし、Ｓｈｉｆｔキーを押下しつつ行うポインティングデバイス５２の操作をサブウィンドウＳＷに対する操作とすることができる。また、サブタブＳＴ１〜ＳＴ４のうち、どの項目に対する編集であるかの指定は、上述の通りキーボード５１に予め割り当てられている所定のキーを押下する操作で実現できる。

なお、サブウィンドウＳＷに表示されているパラメータ系列に対する編集内容は、歌声合成ルーチン（図８）において加算パラメータ系列の生成（ステップＳ２３０）〜編集内容の反映（ステップＳ２７０）が繰り返されることによって、上記実施形態と同様に、メインウィンドウＭＷに表示されている加算パラメータ系列と、サブウィンドウＳＷに表示されている構成パラメータ系列とに対して、リアルタイムに反映される。変形１によれば、使用者は、メインウィンドウＭＷとサブウィンドウＳＷとを用いて、加算パラメータ系列と構成パラメータ系列とを双方向に編集し、その結果をリアルタイムに確認することができる。この結果、使用者における利便性をより向上させることができる。

（ｂ２）変形２：１つだけの加算パラメータ系列の編集
上述したメインタブＭＴ１、ＭＴ２のいずれか一方は、省略してもよい。例えばメインタブＭＴ２を省略する場合、歌声合成ルーチン（図８）における音の大きさのパラメータ系列に関する処理は、省略してもよい。例えばメインタブＭＴ１を省略する場合、音声合成ルーチンにおける音高のパラメータ系列に関する処理は、省略してもよい。変形２によれば、音声合成ルーチンにおける処理を簡略化することができる。

（ｂ３）変形３：３つ以上の加算パラメータ系列の編集
上述したメインタブＭＴ１、ＭＴ２はあくまで一例であり、種々の態様を採用できる。例えば、以下に示すような新たなメインタブを備えていてもよい。

・「ジェンダー」タブ：ジェンダータブが選択された場合、加算パラメータがジェンダーパラメータ系列となる。ジェンダーパラメータ系列は、子供っぽい声であるか、大人っぽい声であるかを表すパラメータ系列である。ジェンダーパラメータ系列の構成要素（構成パラメータ系列）は、例えば、ジェンダーパラメータの基本データのパラメータ系列と、音符単位でモデル化された音符の先頭と末尾とのそれぞれに対する高さ、長さ、急峻度のパラメータである。

・「有声・無声比率」タブ：有声・無声比率タブが選択された場合、加算パラメータが有声・無声比率パラメータ系列となる。有声・無声比率パラメータ系列は、声のかすれ具合を表すパラメータ系列である。有声・無声比率パラメータ系列を実現するために、サーバ３０の学習部４０には、さらに「有声・無声比率抽出部」を備える構成とする。有声・無声比率抽出部は、歌声合成準備ルーチン（図３）のステップＳ１４０において、歌声に含まれる有声・無声比率と、その微分とを抽出する。この結果、解析により抽出される各種パラメータ（図４）には、上述の各パラメータに加えてさらに、有声・無声比率情報として、有声・無声比率の静的特徴量と、その一次微分と、二次微分とが含まれる。また、統計的に学習された音響モデル（図７）には、上述の各二分木に加えてさらに、有声・無声比率の決定木が含まれる。有声・無声比率パラメータ系列の構成要素（構成パラメータ系列）は、有声・無声比率の基本データ系列と、音符単位でモデル化された音符の先頭と末尾とのそれぞれに対する高さ、長さ、急峻度のパラメータである。

変形３によれば、使用者は、上述した各メインタブを切り替えることによって、３つ以上の加算パラメータ系列を編集し、その結果をリアルタイムに確認することができる。この結果、使用者における利便性をより向上させることができる。

（ｂ４）変形４：サブウィンドウの省略
画面Ｗ１において、サブタブＳＴ１〜ＳＴ４およびサブウィンドウＳＷを省略してもよい。この場合、サブウィンドウＳＷに対応した構成パラメータ系列の表示・再表示も省略可能である。また、画面Ｗ１において、サブタブＳＴ１〜ＳＴ４およびサブウィンドウＳＷの表示／非表示を切り替え可能としてもよい。変形４によれば、編集画面をシンプルにすることができる。

（ｂ５）変形５：サブウィンドウの省略
画面Ｗ１において、サブウィンドウＳＷを省略し、サブウィンドウＳＷに対応した構成パラメータ系列の表示を、全てメインウィンドウＭＷ内に行ってもよい。この場合、メインウィンドウＭＷには、ピアノロールと、加算パラメータと、構成パラメータとの全ての項目が表示される。なお、この場合、メインウィンドウＭＷ内において、加算パラメータの視認性を、構成パラメータと比較して高くすることが好ましい。視認性に差異を出す方法としては、例えば、描画された波形の線の太さ、色を変化させる方法が採用できる。変形５によれば、使用者は、１つのウィンドウで全ての項目を同時に確認することができる。

（ｂ６）変形６：メインウィンドウとサブウィンドウとの異画面表示
メインウィンドウＭＷと、サブウィンドウＳＷとを別の画面として表示させてもよい。変形７によれば、使用者は、必要な画面のみを参照しつつ編集作業を行うことができる。

（ｂ７）変形７：サブウィンドウ内での同時表示
画面Ｗ１において、サブタブＳＴ１〜ＳＴ４を省略してもよい。この場合、例えばサブウィンドウＳＷ内に全ての構成パラメータが表示される。変形７によれば、使用者は、１つのサブウィンドウＳＷで全ての項目を同時に確認することができる。また、例えば、サブタブＳＴ１〜ＳＴ４を省略し、サブタブＳＴ１〜ＳＴ４にそれぞれ対応する４つのサブウィンドウＳＷを並べて同時に表示してもよい。

（ｂ８）変形８：メインウィンドウでの構成パラメータの表示
上述した画面Ｗ１では、メインウィンドウＭＷには、ピアノロールと、加算パラメータ系列とを表示させるとした。しかし、メインウィンドウＭＷにおいて、構成パラメータ系列の一部をさらに表示させてもよい。この場合、例えば、加算パラメータ系列に対する編集に追従して変動する構成パラメータ系列（例えば、音高のパラメータ系列の周期が編集された場合は、音高のビブラートの周期のパラメータ系列）を、メインウィンドウＭＷに表示させる。使用者における視認性向上のために、メインウィンドウＷＭ内における、加算パラメータ系列の表示態様と、構成パラメータ系列の表示態様とは、区別することが好ましい。例えば、加算パラメータ系列を実線（または太線、濃い色）とし、構成パラメータ系列を破線（または細線、薄い色）とすることが好ましい。変形８によれば、使用者は、メインウィンドウＭＷ内において、加算パラメータ系列の変更によって影響を受ける構成パラメータ系列を確認することができる。

Ｂ．変形例：
上記実施形態において、ハードウェアによって実現されるとした構成の一部をソフトウェアに置き換えるようにしてもよく、逆に、ソフトウェアによって実現されるとした構成の一部をハードウェアに置き換えるようにしてもよい。その他、以下のような変形も可能である。

・変形例１：
上記実施形態では、歌声処理装置の構成を例示した。しかし、上記実施形態における歌声処理装置の構成はあくまで一例であり、任意の態様を採用することができる。例えば、その構成要素の一部を省略したり、更なる構成要素を付加したり、構成要素の一部を変更したりする変形が可能である。例えば、上述した歌声処理装置の各機能は、複数の装置が協働することによって実現されてもよい。例えば、音響モデルは、複数の装置に分散して記憶されていてもよい。

上記実施形態において、ＨＭＭ方式を採用した音声合成について説明したが、本発明は、任意の方式での音声合成に適用できる。具体的には、例えば、ＨＭＭ方式に代えてＤＮＮ（Deep Neural Network）方式を採用してもよく、ＨＭＭ方式に代えて波形接続方式を採用してもよい。

・変形例２：
上記実施形態の歌声合成ルーチン（図８）において、構成パラメータ系列として例示した各パラメータ系列は、その一部を省略してもよく、他のパラメータ系列を追加してもよい。例えば、構成パラメータ系列の１つである「アタック」について、リリース（音符の最後に音量が小さくなる歌唱表現）を省略してもよい。また、アタックとリリースとのいずれか一方の歌唱表現を採用してもよい。同様に、加算パラメータ系列として例示した音高のパラメータ系列と、音の大きさのパラメータ系列とは、一方を省略してもよく、他のパラメータ系列を追加してもよい。例えば、音高／音の大きさのパラメータ系列に代えて、上述したジェンダーパラメータ系列や、有声・無声比率パラメータ系列を採用してもよい。

上記実施形態の歌声合成ルーチン（図８）では、音高のパラメータ系列と、音の大きさのパラメータ系列とを生成・編集の対象とした。ここで、「音高のパラメータ系列」には、音の高さそのものについてのパラメータ系列だけでなく、音高に関するパラメータ系列全般（例えば、音の高さの対数についてのパラメータ系列、音の高さに比例する変数についてのパラメータ系列など）を含み得る。同様に、「音の大きさのパラメータ」には、音の大きさそのものについてのパラメータ系列だけでなく、音の大きさに関するパラメータ系列全般を含み得る。

上記実施形態の歌声合成ルーチン（図８）では、キーボードやポインティングデバイスを利用した各パラメータ系列の編集方法の一例を示した。しかし、各パラメータ系列は、任意の方法で編集できる。例えば、入力デバイスとして、キーボードやポインティングデバイスに代えて、または、キーボードやポインティングデバイスと共に、タッチパッド、タブレット、マイク、無線通信等を採用できる。マイクを使用する場合、音声によるコマンドを用いて各パラメータ系列を編集できる。無線通信を使用する場合、受信コマンドを用いて各パラメータ系列を編集できる。また、上記実施形態において例示したポインティングデバイスの使用方法（ドラッグ、クリック）についても、任意の方法に変更できる。例えば、マウスホイールの押下、マウスに割り当てられたショートカット等を用いてもよい。

・変形例３：
以上本発明のいくつかの実施形態・変形例について説明したが、本発明はこうした実施形態に限定されるものではなく、本発明の要旨を変更しない範囲内において、種々なる態様で実施できることはもちろんである。例えば、歌声学習の機能がない歌声合成装置のみとして実施しても良い。また、歌声としては平均律に基づくものに限らず、民族音楽のように固有の音律に従うものを用いても良い。例えば日本における雅楽、謡曲、声明、お経や、ヨーロッパにおけるグレゴリオ聖歌などの平均律以前の音律に従う歌声などの合成に適用しても良い。

１０…楽譜入力部
２０…音声入力部
３０…サーバ
３１…ハードディスク
３３…楽譜解析部
４０…学習部
４１…Ｆ０抽出部
４３…ＳＰ抽出部
４４…歌唱Ｐ抽出部
４５…ＨＭＭ学習部
５０…音響モデル記憶部
５１…キーボード
５２…ポインティングデバイス
５３…表示部
５５…パラメータ取得部
５６…パラメータ提示部
５７…楽譜解析部
６０…音声合成部
６１…パラメータ生成部
６３…音源生成部
６５…合成フィルタ
１００…歌声処理装置

Claims

音声合成装置であって、
統計的手法により学習された音響パラメータを含む音響モデルを予め記憶する記憶部と、
パラメータ生成部であって、
入力された楽譜を解析して得られた情報と前記記憶されている音響モデルとを用いて生成された音響パラメータの系列であり、歌唱表現を加えていない基本データが少なくとも含まれる第１のパラメータ系列と、
関係する前記第１のパラメータ系列を加算することで生成される第２のパラメータ系列と、
をそれぞれ生成するパラメータ生成部と、
少なくとも前記第２のパラメータ系列を、編集可能な態様で使用者に提示するパラメータ提示部と、
前記第１のパラメータ系列に含まれる各音響パラメータ値と、前記第２のパラメータ系列に含まれる各音響パラメータ値と、の少なくとも一方を用いて歌声を合成する合成部と、
を備え、
前記パラメータ生成部は、
前記第２のパラメータ系列が編集された場合、編集後の前記第２のパラメータ系列を用いて、前記加算に使用された前記第１のパラメータ系列のうち、前記編集の内容に応じた少なくとも一部を再生成する、音声合成装置。
請求項１に記載の音声合成装置であって、
前記パラメータ提示部は、
前記第２のパラメータ系列に加えてさらに、前記第１のパラメータ系列を使用者に提示し、
前記第１のパラメータ系列の前記再生成が行なわれた場合は、再生成後の前記第１のパラメータ系列を使用者に提示する、音声合成装置。
請求項２に記載の音声合成装置であって、
前記パラメータ提示部は、
使用者が、前記第１のパラメータ系列と、前記第２のパラメータ系列とを同時に視認可能な態様で提示する、音声合成装置。
請求項３に記載の音声合成装置であって、
前記パラメータ提示部は、
前記第２のパラメータ系列の視認性を、前記第１のパラメータ系列と比較して高くした状態で、前記第１のパラメータ系列と前記第２のパラメータ系列とを提示する、音声合成装置。
請求項１から請求項４のいずれか一項に記載の音声合成装置であって、
前記パラメータ提示部は、前記第２のパラメータ系列に加えてさらに、前記第１のパラメータ系列を編集可能な態様で使用者に提示し、
前記パラメータ生成部は、さらに、前記第１のパラメータ系列が編集された場合、編集後の前記第１のパラメータ系列を用いて前記第２のパラメータ系列の前記生成を再度行ない、
前記パラメータ提示部は、さらに、前記第２のパラメータ系列の前記再度の生成が行なわれた場合は、再生成後の前記第２のパラメータ系列を使用者に提示する、音声合成装置。
請求項１から請求項４のいずれか一項に記載の音声合成装置であって、さらに、
前記編集の内容を取得するパラメータ取得部を備え、
前記パラメータ取得部は、
予め割り当てられた第１の操作方法による操作を、前記第１のパラメータ系列に含まれる、あるパラメータ系列に対する編集内容として取得し、
予め割り当てられた第２の操作方法であって、前記第１の操作方法とは異なる第２の操作方法による操作を、前記第１のパラメータ系列に含まれる、別のパラメータ系列に対する編集内容として取得する、音声合成装置。
請求項５に記載の音声合成装置であって、さらに、
前記編集の内容を取得するパラメータ取得部を備え、
前記パラメータ取得部は、
予め割り当てられた第３の操作方法による操作を、前記第１のパラメータ系列に対する編集内容として取得し、
予め割り当てられた第４の操作方法であって、前記第３の操作方法とは異なる第４の操作方法による操作を、前記第２のパラメータ系列に対する編集内容として取得する、音声合成装置。
請求項２から請求項７のいずれか一項に記載の音声合成装置であって、
前記第１のパラメータ系列には、少なくとも、
音高のパラメータ値の変化を表す音高のパラメータ系列と、
歌唱表現のパラメータ値の変化を表す歌唱表現パラメータ系列と、
が含まれ、
前記パラメータ提示部は、
前記第１のパラメータ系列に含まれる全てのパラメータ系列を使用者に提示する、音声合成装置。
請求項８に記載の音声合成装置であって、
前記歌唱表現には、少なくとも、ビブラート、しゃくり、こぶし、アタック、リリースのうちの１つが含まれる、音声合成装置。
請求項１から請求項９のいずれか一項に記載の音声合成装置であって、
前記音声合成装置には、ポインティングデバイスを備える画像表示装置が接続され、
前記パラメータ提示部は、
グラフィカルユーザインタフェースを用い、かつ、前記ポインティングデバイスによる操作が可能な態様で、前記第２のパラメータ系列を前記画像表示装置に対して表示させる、音声合成装置。
請求項１から請求項１０のいずれか一項に記載の音声合成装置であって、
第２のパラメータ系列には、少なくとも、音高に関するパラメータ系列と、音の大きさに関するパラメータ系列と、声の年齢に関するパラメータ系列と、音のかすれ具合に関するパラメータ系列と、のうちのいずれか１つを含む、音声合成装置。
音声合成方法であって、
入力された楽譜を解析して得られた情報と予め記憶されている音響モデルとを用いて生成された音響パラメータの系列であり、歌唱表現を加えていない基本データが少なくとも含まれる第１のパラメータ系列を生成する工程と、
関係する前記第１のパラメータ系列を加算することで第２のパラメータ系列を生成する工程と、
少なくとも前記第２のパラメータ系列を、編集可能な態様で使用者に提示する工程と、
前記第１のパラメータ系列に含まれる各音響パラメータ値と、前記第２のパラメータ系列に含まれる各音響パラメータ値と、の少なくとも一方を用いて歌声を合成する工程と、
を備え、
前記第１のパラメータ系列を生成する工程では、さらに、
前記第２のパラメータ系列が編集された場合、編集後の前記第２のパラメータ系列を用いて、前記加算に使用された前記第１のパラメータ系列のうち、前記編集の内容に応じた少なくとも一部を再生成する、音声合成方法。