JP5953743B2

JP5953743B2 - 音声合成装置及びプログラム

Info

Publication number: JP5953743B2
Application number: JP2011286728A
Authority: JP
Inventors: 治大島; 資司永田
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2011-12-27
Filing date: 2011-12-27
Publication date: 2016-07-20
Anticipated expiration: 2031-12-27
Also published as: JP2013134476A

Description

本発明は、音声合成装置及びプログラムに関する。

歌詞等の文字列、並びに複数の音符（以下「音符列」という）の音高および音長がデータとして入力されると、その文字列および音に応じて、歌唱音の音声を合成する音声合成装置が知られている（例えば特許文献１）。また、このような装置において、歌唱者の歌唱音声から音声の特徴を抽出し、抽出した特徴を用いて合成音声を編集する技術が提案されている（例えば特許文献２）。

特開２００６−２５９７６８号公報特開２００９−２１７１４１号公報

ところで、上述のような音声合成装置において、自分の意図どおりに合成音声の編集がなされたか確認するためには、ユーザは、歌唱音声を入力した後で、合成された音声を再生する必要があった。この場合、音声から抽出された特徴を用いて合成音声を生成するためには各種の複雑な処理を行う必要があるが、このような処理は処理負荷が大きく処理に時間を要する。そのため、ユーザは合成音声を再生されるまで待機する必要があり、合成音声の編集処理を円滑に行えない場合があった。
本発明は上述の背景に鑑みてなされたものであり、音声から抽出される特徴（属性）を用いて合成音声を生成する装置において、生成される合成音声の確認を容易に行うことのできる技術を提供することを目的とする。

上述した課題を解決するために、本発明は、音声データのピッチ及び音量を含む属性を示す属性データを受け取る受取部と、前記受取部が受け取った属性データに基づいて合成音声を生成する音声合成部と、前記音声合成部が合成音声を生成する前に、前記受取部が受け取った属性データの示すピッチ及び音量に基づいて周期性を有する音信号を生成する音信号生成部であって、前記音声合成部が合成音声を生成する処理よりも短時間の処理によって周期性を有する音信号を生成する音信号生成部とを具備することを特徴とする音声合成装置を提供する。

本発明の好ましい態様において、歌詞を示す歌詞データと、該歌詞との対応付けがなされた楽譜データとを受け取る第２の受取部と、前記受取部が受け取った属性データの示すピッチと前記第２の受取部が受け取った楽譜データとの対応付けを行い、該対応付け結果に基づいて前記歌詞データと前記ピッチを表すピッチデータとの対応付けを行う対応付け部とを具備し、前記音声合成部は、前記受取部が受け取った属性データ並びに前記対応付け部により対応付けがなされた歌詞データ及びピッチデータに基づいて、合成音声を生成してもよい。

また、本発明の更に好ましい態様において、前記音声データを、ピッチ及び音量を含む属性について解析し、解析結果を示す属性データを前記受取部に供給する音声解析部を具備してもよい。

また、本発明は、コンピュータに、音声データのピッチ及び音量を含む属性を示す属性データを受け取る受取機能と、前記受け取った属性データに基づいて合成音声を生成する音声合成機能と、前記音声合成機能が合成音声を生成する前に、前記受け取った属性データの示すピッチ及び音量に基づいて周期性を有する音信号を生成する音信号生成機能であって、前記音声合成機能が合成音声を生成する処理よりも短時間の処理によって周期性を有する音信号を生成する音信号生成機能とを実現させるためのプログラムを提供する。

本発明によれば、音声から抽出される特徴（属性）を用いて合成音声を生成する装置において、生成される合成音声の確認を容易に行うことができる。

音声合成装置のハードウェア構成の一例を表すブロック図歌唱スコアデータの内容の一例を示す図表示部に表示される画面の一例を示す図音声合成装置の機能的構成の一例を示すブロック図制御部が行う処理の流れを示すフロー図

＜実施形態＞
＜構成＞
図１は、本発明の実施形態に係る音声合成装置１００のハードウェア構成の一例を示すブロック図である。音声合成装置１００は、文字列及び音素列を含む楽譜データに基づいて音声を合成し、合成した音声を出力する装置である。音声合成装置１００は、制御部１０、記憶部２０、操作部３０、表示部４０、音声処理部６０、マイクロホン６１、及びスピーカ６２を有し、これら各部がバス７０を介して接続されている。制御部１０は、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、及びＲＯＭ（Read Only Memory）等を有している。制御部１０において、ＣＰＵが、ＲＯＭや記憶部２０に記憶されているコンピュータプログラムを読み出しＲＡＭにロードして実行することにより、音声合成装置１００の各部を制御する。操作部３０は、各種の操作子を備え、ユーザによる操作内容を表す操作信号を制御部１０に出力する。表示部４０は、例えば液晶パネルを備え、制御部１０による制御の下、各種の画像を表示する。

マイクロホン６１は、収音した音声を表すアナログの音声信号を音声処理部６０に出力する。音声処理部６０は、Ａ／Ｄ（Analog / Digital）コンバータを有し、マイクロホン６１が出力したアナログの音声信号をデジタルの音声データに変換して制御部１０に出力し、制御部１０はこれを取得する。また、音声処理部６０は、Ｄ／Ａ（Digital / Analog）コンバータを有し、制御部１０から受け取ったデジタルの音声データをアナログの音声信号に変換してスピーカ６２に出力する。スピーカ６２は、音声処理部６０から受け取ったアナログの音声信号に基づく音を放音する。なお、この実施形態では、マイクロホン６１とスピーカ６２とが音声合成装置１００に含まれている場合について説明するが、音声処理部６０に入力端子及び出力端子を設け、オーディオケーブルを介してその入力端子に外部マイクロホンを接続する構成としても良く、同様に、オーディオケーブルを介してその出力端子に外部スピーカを接続するとしても良い。また、この実施形態では、マイクロホン６１からスピーカ６２へ出力されるオーディオ信号がアナログオーディオ信号である場合について説明するが、デジタルオーディオデータを入出力するようにしても良い。このような場合には、音声処理部６０にてＡ／Ｄ変換やＤ／Ａ変換を行う必要はない。操作部３０や表示部４０についても同様であり、外部出力端子を設け、外部モニタを接続する構成としてもよい。

記憶部２０は、各種のデータを記憶するための記憶手段であり、例えばＨＤＤや不揮発性メモリである。記憶部２０は、図示のように、Ｔｉｍｂｒｅデータベース２１と、音韻テンプレートデータベース２２と、歌唱スコアデータ記憶領域２３と、歌唱音声データ記憶領域２４と、解析結果データ記憶領域２５とを有している。Ｔｉｍｂｒｅデータベース２１は、音韻名、ピッチを異にする各音声パラメータを集めたデータベースである。このデータベースは、制御部１０が歌唱スコアデータから音声合成を行う際に参照するデータベースである。音声パラメータは、例えば、励起波形スペクトルのエンベロープ、励起レゾナンス、フォルマント、差分スペクトルの４つに分類することが出来る。これらの４つの音声パラメータは、実際の人間の音声等（オリジナルの音声）を分析して得られる調和成分のスペクトル・エンベロープ（オリジナルのスペクトル）を分解することにより得られるものである。ある時刻における音声は音声パラメータ（励起スペクトル、励起レゾナンス、フォルマント、差分スペクトルのセット）で表現でき、同じ音声でもピッチが異なればこれを表現する音声パラメータも異なる。このＴｉｍｂｒｅデータベース２１は、インデックスとして音韻名、ピッチを持つ。従って、制御部１０は、歌唱スコアデータの音韻トラック及びピッチトラックに属するデータをキーとして、ある時刻ｔにおける音声パラメータを読み出すことができる。

音韻テンプレートデータベース２２は、音韻テンプレートデータを格納している。この音韻テンプレートデータは、上記歌唱スコアデータにおける音韻と音韻との遷移区間に適用するデータである。人間が２つの音韻を連続して発する場合には、突然変化するのではなくゆるやかに移行していく。例えば「あ」という母音の後に区切りを置かないで連続して「え」という母音を発音する場合には、最初に「あ」が発音され、「あ」と「え」の中間に位置する発音を経て「え」に変化する。したがって、音韻の結合部分が自然になるように歌唱合成を行うには、ある言語において組み合わせ可能な音韻の組み合わせについて、渇仰部分の音声情報を何らかの形で持つことが好ましい。これを考慮し、音韻が遷移する区間における、音声パラメータとピッチの変動量をテンプレートデータとして準備し、歌唱スコアデータにおける音韻の遷移区間にこのテンプレートデータを適用することによって、より実際の歌唱に近い音声の合成を実現する。

この音韻テンプレートデータは、時刻ｔの関数として表された音声パラメータＰとピッチの変動量Ｐｉｔｃｈとを一定時間Δｔ間隔でサンプリングしたデジタル値のシーケンスと、音声パラメータＰとピッチＰｉｔｃｈの区間長Ｔ（ｓｅｃ．）の組により構成されるものであり、以下の式（Ａ）により表すことができる。なお、以下の式（Ａ）において、ｔ＝０、Δｔ、２Δｔ、３Δｔ、…Ｔである。
［数１］
Ｔｅｍｐｌａｔｅ＝［Ｐ（ｔ），Ｐｉｔｃｈ（ｔ），Ｔ］ …（Ａ）

次に、歌唱スコアデータ記憶領域２３には、音素の列で構成されるメロディを表す歌唱スコアデータであって、各音素の特徴（各音素の発音タイミング、ピッチの時間的な変化、各音素の音韻等）を表す属性データ（音韻データ、発音タイミングデータ、ピッチデータ等）を含む歌唱スコアデータが記憶される。

図２は、歌唱スコアデータの内容の一例を示す概念図である。この歌唱スコアデータは、音韻トラックと、ピッチトラックとの複数のトラックによって構成されている。音韻トラックには、音韻を表す音韻データと、それぞれの音韻の発音開始タイミングと発音終了タイミングとを示す発音タイミングデータとが記録される。具体的には、例えば、図２に示す例では、「さ」の音韻の音素が時刻ｔ１から時刻ｔ２の間で発音され、「い」の音韻の音素が時刻ｔ２から時刻ｔ３の間で発音される旨が示されている。なお、以下では、説明の便宜上、「発音開始タイミング」と「発音終了タイミング」とを各々区別する必要がない場合には、これらを「発音タイミング」と称して説明する。ピッチトラックには、各時刻において発音すべき音声の基本周波数（ピッチ）の時間的な変化を示すピッチデータが記録される。

この歌唱スコアデータは、記憶部２０の歌唱スコアデータ記憶領域２３に予め記憶しておくようにしてもよく、また、ユーザの操作に応じて制御部１０が所定のアプリケーションプログラムを実行することによって生成するようにしてもよい。歌唱スコアデータは、歌詞を示す歌詞データ及び該歌詞との対応付けがなされた楽譜データの一例である。
図３は、制御部１０が歌唱スコアデータ生成処理を行う場合において、表示部４０に表示される画面の一例を示す図である。制御部１０は、図３に例示するような画面を表示して、ユーザに歌唱スコアデータの入力を促す。図において、歌唱スコアデータ編集画面６００は、ノートデータをピアノロール形式で表示するイベント表示領域６０１を備えている。イベント表示領域６０１の右側には、イベント表示領域６０１の表示画面を上下にスクロールするためのスクロールバー６０６が設けられている。イベント表示領域６０１の下側には、イベント表示領域６０１の表示画面を左右にスクロールするためのスクロールバー６０７が設けられている。

イベント表示領域６０１の左側にはピアノの鍵盤を模した鍵盤表示６０２（ピッチを示す座標軸）が表示され、イベント表示領域６０１の上側には楽曲の先頭からの小節位置を示す小節表示６０４が表示される。６０３はピアノロール表示領域であり、鍵盤表示６０２で示されるピッチの小節表示６０４で示される時間位置にノートデータを横長の矩形（バー）で表示している。バーの左端位置は発声開始タイミングを示し、バーの長さは発声継続時間を示し、バーの左端位置は発声終了タイミングを示している。

ユーザは、所望のピッチ及び時間位置に対応した表示画面上の位置にマウスポインタを移動してクリックし、発声開始位置を特定する。そして、ドラッグ操作により発声開始位置から発声終了位置に至るノートデータのバー（以下「ノートバー」という）をイベント表示領域６０１に形成し、その後、マウスをドロップする。例えば、ノートバー６１１を形成するためには、第５３小節目の第１拍目の先頭の位置にマウスポインタを位置決めしてマウスをクリックし、１拍後までドラッグすればよい。

ユーザは、上述のようにして、表示部４０に表示される画面を確認しつつ操作部３０を用いて歌唱スコアデータを入力する。制御部１０は、操作部３０から出力される信号に応じて歌唱スコアデータを生成し、生成した歌唱スコアデータを歌唱スコアデータ記憶領域２３に記憶する。

次に、記憶部２０の歌唱音声データ記憶領域２４には、例えばＷＡＶＥ形式やＭＰ３（MPEG Audio Layer-3）形式等の音声波形を表す音声データであって、ユーザが歌唱した歌唱音声を表す音声データ（以下「歌唱音声データ」という）が記憶される。解析結果データ記憶領域２５には、制御部１０が歌唱音声データを複数の属性について解析した解析結果を示す解析結果データ（属性データ）が記憶される。この実施形態では、制御部１０は、歌唱音声データを解析して音声のピッチ、パワー及びスペクトルを検出し、検出結果を示すデータを解析結果データとして、解析結果データ記憶領域２５に記憶する。

次に、図４に示すブロック図を参照しながら、音声合成装置１００の機能的構成の一例について説明する。図４において、音声合成部１１、解析部１２、歌唱スコアデータ修正部１３及び確認音生成部１４は、制御部１０のＣＰＵが、ＲＯＭや記憶部２０に記憶されているコンピュータプログラムを読み出しＲＡＭにロードして実行することにより実現される。制御部１０のＣＰＵは、音声合成部１１、解析部１２、歌唱スコアデータ修正部１３、確認音生成部１４の一例である。音声合成部１１は、歌唱スコアデータ記憶領域２３から歌唱スコアデータを読み出し、読み出した歌唱スコアデータから、その歌唱スコアデータに対応する音声波形を表す音声波形データを生成する。より具体的には、この実施形態では、音声合成部１１は、歌唱スコアデータに含まれるピッチデータ、発音タイミングデータ、音韻データ等を参照して、ピッチと音韻に対応する音声パラメータを、音韻テンプレートデータベース２２を参照してＴｉｍｂｒｅデータベース２１から読み出し、読み出した音声パラメータを用いてデジタル音声波形データを生成する。なお、音声合成部１１は、歌唱合成の開始・停止、テンポ指定等の各種の制御処理を行うが、これらの処理は従来の歌唱合成技術におけるそれと同様であり、ここではその詳細な説明を省略する。なお、以下では、説明の便宜上、歌唱スコアデータから生成される音声波形データを「合成音声データ」と称して説明する。

この音声合成部１１で生成された合成音声データの表す合成音声は、機械的で不自然な場合がある。また、不自然でない場合であっても、ユーザが所望する歌い方（抑揚等）に修正したい場合がある。そこで、本実施形態では、制御部１０は、ユーザによる歌唱音声を入力し、この歌唱音声を用いて合成音声データを修正する処理を行う。

解析部１２は、歌唱音声データを、ピッチを含む複数の属性について解析し、解析結果を示す解析結果データを出力する。この実施形態では、解析部１２は、音声データを解析し、音声データのピッチ、パワー及びスペクトルを検出する。スペクトルの検出には、例えばＦＦＴ（Fast Fourier Transform）が用いられる。解析部１２は、解析結果を示すデータを解析結果データ記憶領域２５に記憶する。

歌唱スコアデータ修正部１３は、解析結果データに基づいて歌唱スコアデータに含まれるピッチデータと発音タイミングデータとを修正する。歌唱スコアデータ修正部１３は、解析結果データを受け取る受取部１３１と、歌唱スコアデータ（歌詞データと楽譜データ）を受け取る第２の受取部１３２と、受取部１３１が受け取った解析結果データと第２の受取部１３２が受け取った歌唱スコアデータとの対応付けを行い、この対応付け結果に基づいて歌詞データとピッチデータとの対応付けを行う対応付け部１３３とを有する。より具体的には、まず、対応付け部１３３は、歌唱スコアデータと解析結果データとに基づいて、合成音声とユーザ歌唱音声との対応関係を求める。歌唱音声データの表す音声（以下「歌唱音声」）と合成音声データの表す音声（以下「合成音声」）とは時間的にずれている可能性がある。例えば、ユーザが歌い始めや歌い終わりを意図的にずらして歌唱した場合などは、歌唱音声と合成音声とは時間的に前後にずれている。このように歌唱音声と合成音声とが時間的に前後にずれている場合であっても、両者を対応付けられるようにするため、合成音声データの時間軸を伸縮させる時間正規化（ＤＴＷ：Dynamic Time Warping）を行い、両者の時間軸を合わせる。このＤＴＷを行うための手法としては、この実施形態ではＤＰ（Dynamic programming：動的計画法）を用いてもよい。

対応付け部１３３は、検出した差異を元に歌唱スコアデータの修正を行う。より具体的には、対応付け部１３３は、合成音声データと歌唱音声データとの差異をなくす方向に、歌唱スコアデータを構成するピッチデータと発音タイミングデータとを修正する。ピッチについては、対応付け部１３３は、歌唱音声データのピッチ、合成音声データのピッチ、歌唱音声と合成音声の対応箇所に基づいて、歌唱スコアデータに含まれるピッチデータの値を、歌唱音声データのピッチとそのピッチに対応する合成音声のピッチとの差分が小さくなるように修正する。なお、この処理における修正量は、例えば、合成音声のピッチが歌唱音声のピッチと一致するようにピッチデータの値を修正するようにしてもよく、また、例えば、両者の差分が検出された差分の略半分となるように修正するようにしてもよい。また、歌唱音声のピッチと合成音声のピッチとの差分が予め定められた閾値以下となるように修正するようにしてもよい。要は、対応付け部１３３が、合成音声のピッチと歌唱音声のピッチとの差分が小さくなるように、歌唱スコアデータに含まれるピッチデータの値を修正するようにすればよい。

また、対応付け部１３３は、歌唱スコアデータに含まれる発音タイミングデータの値を、歌唱音声データから検出された発音タイミングと合成音声データから検出された発音タイミングとの差分が小さくなるように修正する。なお、この修正量も、上述のピッチの修正と同様であり、合成音声の発音タイミングが歌唱音声の発音タイミングと一致するように発音タイミングデータの値を修正するようにしてもよい。対応付け部１３３は、各属性データを修正した歌唱スコアデータによって歌唱スコアデータ記憶領域２３の記憶内容を更新する。歌唱スコアデータ記憶領域２３に記憶された歌唱スコアデータは、音声合成部１１が音声合成処理を行う際に参照される。

ところで、ユーザが歌唱音声を入力してから、入力された歌唱音声によって修正された合成音声が再生されるまでには、上述した歌唱スコアデータ修正部１３及び音声合成部１１による処理が必要となる。このとき、歌唱スコアデータ修正部１３及び音声合成部１１が行う処理はある程度の処理時間を要するため、ユーザは処理が終わるまで待機する必要がある。ユーザが合成音声の修正を繰り返し行う場合には、修正後の音声を確認するためには修正を行う毎にその都度待機する必要があり、合成音声の編集処理がスムーズに行われない場合がある。そのため本実施形態では、ユーザによる操作に応じて解析結果データの示すピッチに基づいた音信号（以下「確認音信号」という）を確認音生成部１４によって生成して出力し、入力音声の解析結果の確認を容易にしている。

確認音生成部１４は、解析部１２によって生成された解析結果データを受け取り、受け取った解析結果データの示すピッチに基づいて、周期性を有する確認音信号を生成する。この実施形態では、確認音生成部１４は、解析結果データの示すピッチに対応する周波数の正弦波を生成する。確認音生成部１４は、生成した確認音信号を音声処理部６０に供給し、生成した確認音信号に応じた音（以下「確認音」という）をスピーカ６２から放音させる。

＜動作＞
図５は、音声合成装置１００が行う合成音声の修正処理の流れを示すフロー図である。操作部３０を介してユーザにより合成音声の編集指示がされると（ステップＳ１００；Ｙｅｓ）、制御部１０は、まず、歌唱音声が入力されるのを待機する（ステップＳ１０２；Ｎｏ）。ユーザによって歌唱音声が入力されると（ステップＳ１０２；Ｙｅｓ）、入力された歌唱音声を解析し、解析結果を示す解析結果データを生成する（ステップＳ１０４）。

次いで、制御部１０は、ユーザの操作に応じて、確認音を再生するか否かを判断する（ステップＳ１０６）。この処理は、制御部１０が、例えば、表示部４０に確認音を生成するためのボタンを表示し、このボタンがクリックされた場合に確認音を再生すると判断するようにしてもよい。確認音を再生しないと判断された場合は（ステップＳ１０６；ＮＯ）、制御部１０は、ステップＳ１０８の処理を行うことなくステップＳ１１０の処理へ進む。一方、確認音を再生すると判断された場合は（ステップＳ１０６；ＹＥＳ）、制御部１０は、解析結果データの示すピッチに基づいて周期性を有する確認音信号を生成し（ステップＳ１０８）、生成した確認音信号の表す音をスピーカ６２から放音させる。

音声の解析結果は、微妙なピッチの変化があるため、その微妙な変化が実際どのような音なのかは実際の音を聴いてみないと把握し難い場合がある。ステップＳ１０８において再生される確認音は、最終的に生成される合成音声ではないものの、生成される合成音声のピッチが表された音であるから、ユーザは、この再生される音を聴くことで、どのような音声が生成されるかを直感的に把握することができる。このとき、確認音を生成する処理（すなわち確認音生成部１４が行う処理）は、合成音声を生成する処理（すなわち上述した歌唱スコアデータ修正部１３及び音声合成部１１が行う処理）と比して計算量が少なく、短時間で処理が行われるため、ユーザは、音声の解析結果を確認するためにいちいち待機する必要がない。

図５の説明に戻る。ユーザは、合成音声を生成するか、それとも歌唱音声を入力し直すかを選択することができる。ユーザは、操作部３０を操作して合成音声を生成するかを選択し、制御部１０は、ユーザの操作に応じて、合成音声を生成するか否かを判断する（ステップＳ１１０）。合成音声を生成すると判断された場合は（ステップＳ１１０；Ｙｅｓ）、制御部１０は、上述の歌唱スコアデータ修正部１３及び音声合成部１１の処理を行って、合成音声データを生成する（ステップＳ１１２）。すなわち、制御部１０は、解析結果データに基づいて歌唱スコアデータを修正するとともに、修正された歌唱スコアデータから、Ｔｉｍｂｒｅデータベース２１及び音韻テンプレートデータベース２２を参照して、合成音声データを生成する。一方、歌唱音声を入力し直すと判断された場合は（ステップＳ１１２；Ｎｏ）、制御部１０は、ステップＳ１００の処理に戻り、修正指示の入力を待機する。

＜変形例＞
以上の実施形態は次のように変形可能である。尚、以下の変形例は適宜組み合わせて実施しても良い。

＜変形例１＞
上述の実施形態では、制御部１０は、確認音として、解析結果データの示すピッチに応じた周波数の正弦波を生成したが、制御部１０が生成する確認音信号はこれに限らず、例えば、解析結果データの示すピッチに対応する周波数及び解析結果データの示す音量（パワー）に対応する振幅の正弦波を生成するようにしてもよい。また、例えば、制御部１０が、解析結果データの示すピッチに対応する周波数の正弦波に対して予め定められた変調処理を施して波形を歪ませてもよい。また、例えば、制御部１０が、解析結果データの示すピッチに対応する周波数成分と、その周波数成分の２倍音、３倍音といった特定の倍音の成分とを合成した音信号を、確認音信号として用いてもよい。また、例えば、制御部１０が、以下の式（Ｂ）を用いて、解析結果の示すピッチに対応する周波数成分のｎ倍音までの倍音成分Ｆ０を合成して確認音信号を生成してもよい。なお、以下の式（Ｂ）において、ＰＯＷはパワー、ａは定数又は歌唱音声データの解析結果であるスペクトルのピーク情報からフォルマントを模した値を示す。ａが定数である場合には鼻歌のような確認音信号が生成され、ａとしてフォルマントを模した値を用いる場合には、ユーザの歌唱音声に似た確認音信号が生成される。
［数２］
Σｓｉｎ（ｎ・Ｆ０）＊（ａ・ＰＯＷ） …（Ｂ）

このように、確認音信号は、解析結果データの示すピッチに対応する周波数の正弦波であってもよく、また、例えば、解析結果データの示すピッチに対応する周波数成分とその倍音成分とを合成した音信号であってもよく、要は、制御部１０が、解析結果データの示すピッチに基づいて、周期性を有する音信号を生成すればよい。また、上述の実施形態では、確認音信号として正弦波を用いたが、確認音信号はこれに限らず、例えば、三角波や矩形波等の単純な波形の音信号であってもよい。また、周知の楽器音合成等の技術を用いて、楽器の音色を表す確認音信号を生成してもよい。確認音信号は、歌唱音声データの解析結果を示す解析結果データに基づいて生成される音信号であって処理負荷の軽い処理により生成されるものであればどのようなものであってもよい。

＜変形例２＞
上述の実施形態では、制御部１０が、歌唱スコアデータに含まれるピッチデータと発音タイミングデータとを修正するようにしたが、修正する属性データはこれに限らない。例えば、制御部１０が、音質・声質の差分を検出し、音質・声質を修正するようにしてもよい。この場合は、歌唱スコアデータに、音質や声質を示す音質データや声質データを含める構成とし、制御部１０が、歌唱音声データと合成音声データとからフォルマントを検出し、検出したフォルマントの差分が小さくなるように、音質データや声質データを修正するようにしてもよい。

このように、制御部１０が修正する音声の属性を表す属性データは、上述した実施形態で示したピッチの時間的な変化を示すピッチデータや発音タイミングデータであってもよく、また、音韻データや音質データ、声質データであってもよい。また、他の例として、例えば、音のベロシティ（強弱）を表すデータや、ビブラートの態様を表すデータであってもよい。このように、制御部１０が修正する属性データは、音声の属性を表すものであればどのようなものであってもよい。

また、上述の実施形態では、制御部１０が、歌唱音声データの解析結果を基に歌唱スコアデータを修正する態様について説明したが、これに限らず、歌唱音声データの解析結果そのものを歌唱スコアデータとして音声合成を行ってもよい。

また、上述の実施形態では、制御部１０は、歌唱音声データを、ピッチを含む複数の属性について解析し、解析結果を示す解析結果データを生成したが、制御部１０が解析する属性は複数に限らず、ピッチのみを解析し、解析したピッチを示す属性データを生成してもよい。

＜変形例３＞
上述の実施形態では、制御部１０は、歌唱スコアデータを歌唱スコアデータ記憶領域２３から読み出すようにしたが、音声合成部１１が歌唱スコアデータを取得する態様はこれに限らず、例えば、インターネット等の通信ネットワークを介して歌唱スコアデータを受信するようにしてもよく、また、例えば、ユーザが操作部３０を用いて歌唱スコアデータを入力するための操作を行い、制御部１０が操作部３０から出力される信号に応じて歌唱スコアデータを生成するようにしてもよく、制御部１０が歌唱スコアデータを取得するものであればどのようなものであってもよい。

また、上述の実施形態では、歌詞データ及び楽譜データとして歌唱スコアデータを用いたが、歌詞データ及び楽譜データの構造は、上述した実施形態で例示したものに限定されない。音符と歌詞との対応関係、および音符の属性を特定できるものであれば、どのような構造のデータが用いられてもよい。また、実施形態において歌詞（文字列）と楽譜データとが別のデータセットである例を説明したが、歌詞は楽譜データの一部であってもよい。

また、音声合成処理の詳細は、実施形態で説明したものに限定されない。音符と発音記号（文字）とが与えられたときに、その音符および発音記号に応じた音声を合成するものであれば、どのような処理が用いられてもよい。

また、上述の実施形態では、歌唱音声を入力し直すことによって合成音声を修正する構成とした（図５のステップＳ１１２〜ステップＳ１０２参照）が、合成音声の修正の態様はこれに限定されるものではなく、例えば、ユーザが操作部３０を用いて歌唱スコアデータを修正するための操作を行い、制御部１０が、操作部３０の操作内容に応じて歌唱スコアデータを修正するようにしてもよい。
また、上述の実施形態では、制御部１０は、歌唱者の歌唱音声を解析したが、歌唱者の歌唱音声に代えて、演奏者による楽器の演奏音を評価してもよい。本実施形態にいう「音声」には、人間が発生した音声や楽器の演奏音といった種々の音響が含まれる。

＜変形例４＞
上述の実施形態では、制御部１０が、歌唱音声データを解析し、解析結果を示す解析結果データを生成したが、制御部１０が解析結果データを生成するに限らず、他の装置（例えば、通信ネットワークで接続されたサーバ装置、等）から解析結果を取得する構成であってもよい。なお、この場合、制御部１０が取得する解析結果データは、ピッチを含む複数の属性を示すデータであってもよく、また、ピッチのみを示すデータであってもよい。

＜変形例５＞
音声合成装置１００のハードウェア構成は、図１で説明したものに限定されない。図４に示される機能を実装できるものであれば、音声合成装置１００はどのようなハードウェア構成を有していてもよい。例えば、音声合成装置１００は、図４に示される機能要素の各々に対応する専用のハードウェア（回路）を有していてもよい。

＜変形例６＞
上述の実施形態において、通信ネットワークで接続された２以上の装置が、上記実施形態の音声合成装置１００に係る機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態の音声合成装置１００を実現するようにしてもよい。例えば、マイクロホンやスピーカ、表示装置及び操作部等を備えるコンピュータ装置と、音声の解析処理を行うサーバ装置とが通信ネットワークで接続されたシステムとして構成されていてもよい。この場合は、例えば、コンピュータ装置が、マイクロホンで収音された音声をオーディオ信号に変換してサーバ装置に送信し、サーバ装置が、受信したオーディオ信号を解析し、解析結果をコンピュータ装置に送信してもよい。

＜変形例７＞
本発明は、音声合成装置以外にも、これらを実現するための方法や、コンピュータに音声合成機能を実現させるためのプログラムとしても把握される。かかるプログラムは、これを記憶させた光ディスク等の記録媒体の形態で提供されたり、インターネット等を介して、コンピュータにダウンロードさせ、これをインストールして利用させるなどの形態でも提供されたりする。

１０…制御部、２０…記憶部、２１…Ｔｉｍｂｒｅデータベース、２２…音韻テンプレートデータベース、２３…歌唱スコアデータ記憶領域、２４…歌唱音声データ記憶領域、２５…解析結果データ記憶領域、３０…操作部、４０…表示部、６０…音声処理部、６１…マイクロホン、６２…スピーカ、７０…バス、１００…音声合成装置

Claims

音声データのピッチ及び音量を含む属性を示す属性データを受け取る受取部と、
前記受取部が受け取った属性データに基づいて合成音声を生成する音声合成部と、
前記音声合成部が合成音声を生成する前に、前記受取部が受け取った属性データの示すピッチ及び音量に基づいて周期性を有する音信号を生成する音信号生成部であって、前記音声合成部が合成音声を生成する処理よりも短時間の処理によって周期性を有する音信号を生成する音信号生成部と
を具備することを特徴とする音声合成装置。
歌詞を示す歌詞データと、該歌詞との対応付けがなされた楽譜データとを受け取る第２の受取部と、
前記受取部が受け取った属性データの示すピッチと前記第２の受取部が受け取った楽譜データとの対応付けを行い、該対応付け結果に基づいて前記歌詞データと前記ピッチを表すピッチデータとの対応付けを行う対応付け部と
を具備し、
前記音声合成部は、前記受取部が受け取った属性データ並びに前記対応付け部により対応付けがなされた歌詞データ及びピッチデータに基づいて、合成音声を生成する
ことを特徴とする請求項１に記載の音声合成装置。
前記音声データを、ピッチ及び音量を含む属性について解析し、解析結果を示す属性データを前記受取部に供給する音声解析部
を具備することを特徴とする請求項１又は２に記載の音声合成装置。
コンピュータに、
音声データのピッチ及び音量を含む属性を示す属性データを受け取る受取機能と、
前記受け取った属性データに基づいて合成音声を生成する音声合成機能と、
前記音声合成機能が合成音声を生成する前に、前記受け取った属性データの示すピッチ及び音量に基づいて周期性を有する音信号を生成する音信号生成機能であって、前記音声合成機能が合成音声を生成する処理よりも短時間の処理によって周期性を有する音信号を生成する音信号生成機能と
を実現させるためのプログラム。