JP2009217141A

JP2009217141A - 音声合成装置

Info

Publication number: JP2009217141A
Application number: JP2008062706A
Authority: JP
Inventors: Takuro Sone; 卓朗曽根
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2008-03-12
Filing date: 2008-03-12
Publication date: 2009-09-24
Anticipated expiration: 2028-03-12
Also published as: JP5136128B2

Abstract

【課題】歌唱合成音をユーザが所望する態様に容易に修正することのできる技術を提供する。
【解決手段】音声合成装置１のＣＰＵ１１は、メロディと歌詞を表す歌唱スコアデータから、データベースを参照して音声波形を表す合成音声データを生成する。ＣＰＵ１１は、生成した合成音声データと予め記憶された模範音声データとを比較し、両者の差分に応じて、歌唱スコアデータのピッチデータや発音タイミングデータを修正する。ＣＰＵ１１は、修正した歌唱スコアデータから、データベースを参照して合成音声データを生成し、生成した合成音声データの表す音声を放音する。
【選択図】図１

Description

本発明は、音声合成装置に関する。

メロディと歌詞を入力することで人の声を元にした歌声を合成する技術が提案されている。例えば、特許文献１には、スペクトルモデリング合成（ＳＭＳ：Spectral Modeling Synthesis）と呼ばれる技術を用いて、音素又は２つ以上の音素連鎖についてＳＭＳ分析を行ってデータベースを生成し、必要な音素又は音素連鎖のＳＭＳデータを接続することで歌唱音声を合成する技術が提案されている。また、特許文献２乃至５には、より自然な歌唱合成を行うための技術が提案されている。
特開２００２−２０２７９０号公報特開２００２−２０２７８８号公報特開２００３−３２３１８８号公報特開２００４−２６４６７６号公報特開２００４−４４４０号公報

ところで、歌唱合成によって生成された歌唱合成音は、機械的で不自然なものとなってしまう場合がある。また、ユーザの嗜好に合わせて、歌唱合成音の抑揚や声質をユーザ自身で調整したい場合がある。そこで、歌唱合成音をユーザの所望する音声とするために、ユーザがパラメータ値を調整することで、ピッチベントやベロシティの調整、各種のエフェクト付与等を行うことが出来るものもある。

しかしながら、このようなパラメータ値の調整は経験則に依存することが多く、ユーザは、所望する歌唱合成音を得るために試行錯誤を重ねる必要がある。特に、不慣れなユーザは、所望する歌唱合成音に調整することが困難である場合が多い。
本発明は上述した背景の下になされたものであり、歌唱合成音をユーザが所望する態様に容易に修正することのできる技術を提供することを目的とする。

上記課題を解決するため、本発明は、音素の列で構成されるメロディを表す歌唱スコアデータであって、各音素の特徴を表す特徴データを含む歌唱スコアデータを取得する歌唱スコアデータ取得手段と、音声波形を表す第１の音声波形データを取得する第１の音声波形データ取得手段と、前記歌唱スコアデータ取得手段により取得された歌唱スコアデータから、該歌唱スコアデータに対応する音声波形を表す第２の音声波形データを生成する第２の音声波形データ生成手段と、前記第１の音声波形データと前記第２の音声波形データとを、時間軸方向に対応付ける対応付手段と、前記第１の音声波形データを解析し、解析結果に応じて前記特徴を検出する第１の特徴検出手段と、前記第２の音声波形データを解析し、解析結果に応じて前記特徴を検出する第２の特徴検出手段と、前記対応付手段の対応付結果に応じて、前記歌唱スコアデータ取得手段により取得された歌唱スコアデータに含まれる特徴データを、前記第１の特徴検出手段によって検出された前記第１の音声波形データの特徴と前記第２の特徴検出手段によって検出された前記第２の音声波形データの特徴との対応箇所における差分が小さくなるように修正する特徴データ修正手段と、前記特徴データ修正手段により修正された歌唱スコアデータから、該歌唱スコアデータに対応する音声波形を表す第３の音声波形データを生成する第３の音声波形データ生成手段と、前記第３の音声波形データ生成手段により生成された第３の音声波形データを出力する出力手段とを具備することを特徴とする音声合成装置を提供する。

本発明の好ましい態様において、前記特徴は、前記メロディを構成する各音素の発音タイミング、ピッチの時間的な変化、前記メロディを構成する各音素の音韻及び音声スペクトルの少なくともいずれか一つを含んでもよい。

また、本発明の更に好ましい態様において、前記特徴データ修正手段により修正された歌唱スコアデータが予め定められた条件を満たす場合に、該歌唱スコアデータを前記歌唱スコアデータ取得手段に供給する歌唱スコアデータ取得制御手段を具備してもよい。

また、本発明の更に好ましい態様において、前記歌唱スコアデータは、複数の時間区間に区分されるとともに、複数の時間区間の対応関係を示す区間対応データを含み、前記特徴データ修正手段は、前記複数の時間区間のうちの少なくともいずれかひとつの時間区間について、前記対応付手段の対応付結果に応じて、前記歌唱スコアデータ取得手段により取得された歌唱スコアデータに含まれる特徴データを、前記第１の特徴検出手段によって検出された前記第１の音声波形データの特徴と前記第２の特徴検出手段によって検出された前記第２の音声波形データの特徴との対応箇所における差分が小さくなるように修正するとともに、前記区間対応データに基づいて、該時間区間に対応する他の時間区間について、前記歌唱スコアデータに含まれる特徴データを、該時間区間における修正態様で修正してもよい。

また、本発明の更に好ましい態様において、前記第１の音声波形データ取得手段は、収音手段によって収音された音声を表す音声データを、前記第１の音声データとして取得してもよい。

また、本発明は、音声波形を表す第１の音声波形データを取得する第１の音声波形データ取得手段と、前記第１の音声波形データから音声の特徴を検出し、検出した特徴を示す特徴データを生成する特徴データ生成手段と、音素の列で構成されるメロディを表す歌唱スコアデータであって前記特徴データ生成手段により生成された特徴データを含む歌唱スコアデータを生成する歌唱スコアデータ生成手段と、前記歌唱スコアデータ生成手段により生成された歌唱スコアデータから、該歌唱スコアデータに対応する音声波形を表す第２の音声波形データを生成する第２の音声波形データ生成手段と、前記第２の音声波形データを出力する出力手段を具備することを特徴とする音声合成装置を提供する。

本発明の好ましい態様において、前記特徴は、前記メロディを構成する各音素の発音タイミング、ピッチの時間的な変化、前記メロディを構成する各音素の音韻及び音声スペクトルのうちの少なくともいずれか一つを含んでもよい。

本発明によれば、歌唱合成音をユーザが所望する態様に容易に修正することができる。

＜Ａ：構成＞
図１は、この発明の一実施形態である音声合成装置１のハードウェア構成を例示したブロック図である。この音声合成装置１は、メロディと歌詞を表すデータ（以下「歌唱スコアデータ」）から、予め作成されたデータベースを用いて歌唱合成（音声合成）を行う装置である。図において、ＣＰＵ（Central Processing Unit）１１は、ＲＯＭ（Read Only Memory）１２又は記憶部１４に記憶されているコンピュータプログラムを読み出してＲＡＭ（Random Access Memory）１３にロードし、これを実行することにより、音声合成装置１の各部を制御する。記憶部１４は、ＣＰＵ１１によって実行されるコンピュータプログラムや各種のデータを記憶する記憶手段であり、例えばハードディスク装置である。なお、記憶部１４は、ＣＤ−ＲＯＭ装置、光磁気ディスク（ＭＯ）装置、デジタル多目的ディスク（ＤＶＤ）装置等であってもよい。表示部１５は、液晶ディスプレイ等を備え、ＣＰＵ１１の制御の下で、音声合成装置１を操作するためのメニュー画面等の各種の画面を表示する。操作部１６は、マウスやキーボードを備え、ユーザによって操作された内容に応じた信号を出力する。マイクロホン１７は、収音し、収音した音声を表す音声信号（アナログ信号）を出力する。音声処理部１８は、ＤＡＣやＡＤＣを備え、マイクロホン１７が出力する音声信号（アナログ信号）をＡ／Ｄ変換によりデジタルデータに変換してＣＰＵ１１に出力する。また、音声処理部１８は、ＣＰＵ１１から供給されるデジタルデータをＤ／Ａ変換によりアナログ信号に変換してスピーカ１９に供給する。スピーカ１９は、音声処理部１８から出力されるアナログ信号に応じた強度で放音する。

なお、この実施形態では、マイクロホン１７とスピーカ１９とが音声合成装置１に含まれている場合について説明するが、音声処理部１８に入力端子及び出力端子を設け、オーディオケーブルを介してその入力端子に外部マイクロホンを接続する構成としても良い。同様に、オーディオケーブルを介してその出力端子に外部スピーカを接続するとしても良い。また、この実施形態では、マイクロホン１７から音声処理部１８へ入力されるオーディオ信号及び音声処理部１８からスピーカ１９へ出力されるオーディオ信号がアナログオーディオ信号である場合について説明するが、デジタルオーディオデータを入出力するようにしても良い。このような場合には、音声処理部１８にてＡ／Ｄ変換やＤ／Ａ変換を行う必要はない。表示部１５についても同様であり、外部出力端子を設け、外部モニタを接続する構成としても良い。

記憶部１４は、図示のように、Ｔｉｍｂｒｅデータベース１４１と、音韻テンプレートデータベース１４２と、歌唱スコアデータ記憶領域１４３と、修正後歌唱スコアデータ記憶領域１４４と、模範音声データ記憶領域１４５とを有している。Ｔｉｍｂｒｅデータベース１４１は、音韻名、ピッチを異にする各音声パラメータを集めたデータベースである。このデータベースは、ＣＰＵ１１が歌唱スコアデータから音声合成を行う際に参照するデータベースである。音声パラメータは、例えば、励起波形スペクトルのエンベロープ、励起レゾナンス、フォルマント、差分スペクトルの４つに分類することが出来る。これらの４つの音声パラメータは、実際の人間の音声等（オリジナルの音声）を分析して得られる調和成分のスペクトル・エンベロープ（オリジナルのスペクトル）を分解することにより得られるものである。ある時刻における音声は音声パラメータ（励起スペクトル、励起レゾナンス、フォルマント、差分スペクトルのセット）で表現でき、同じ音声でもピッチが異なればこれを表現する音声パラメータも異なる。このＴｉｍｂｒｅデータベース１４１は、インデックスとして音韻名、ピッチを持つ。従って、ＣＰＵ１１は、上記歌唱スコアデータの音韻トラック及びピッチトラックに属するデータをキーとして、ある時刻ｔにおける音声パラメータを読み出すことができる。

音韻テンプレートデータベース１４２は、音韻テンプレートデータを格納している。この音韻テンプレートデータは、上記歌唱スコアデータにおける音韻と音韻との遷移区間に適用するデータである。人間が２つの音韻を連続して発する場合には、突然変化するのではなくゆるやかに移行していく。例えば「あ」という母音の後に区切りを置かないで連続して「え」という母音を発音する場合には、最初に「あ」が発音され、「あ」と「え」の中間に位置する発音を経て「え」に変化する。したがって、音韻の結合部分が自然になるように歌唱合成を行うには、ある言語において組み合わせ可能な音韻の組み合わせについて、渇仰部分の音声情報を何らかの形で持つことが好ましい。これを考慮し、音韻が遷移する区間における、音声パラメータとピッチの変動量をテンプレートデータとして準備し、歌唱スコアデータにおける音韻の遷移区間にこのテンプレートデータを適用することによって、より実際の歌唱に近い音声の合成を実現する。

この音韻テンプレートデータは、時刻ｔの関数として表された音声パラメータＰとピッチの変動量Ｐｉｔｃｈとを一定時間Δｔ間隔でサンプリングしたデジタル値のシーケンスと、音声パラメータＰとピッチＰｉｔｃｈの区間長Ｔ（ｓｅｃ．）の組により構成されるものであり、以下の式（Ａ）により表すことができる。なお、以下の式（Ａ）において、ｔ＝０、Δｔ、２Δｔ、３Δｔ、…Ｔである。
［数１］
Ｔｅｍｐｌａｔｅ＝［Ｐ（ｔ），Ｐｉｔｃｈ（ｔ），Ｔ］ …（Ａ）

次に、歌唱スコアデータ記憶領域１４３には、音素の列で構成されるメロディを表す歌唱スコアデータであって、各音素の特徴（各音素の発音タイミング、ピッチの時間的な変化、各音素の音韻等）を表す特徴データ（音韻データ、発音タイミングデータ、ピッチデータ等）を含む歌唱スコアデータが記憶される。

図２（ａ）は、歌唱スコアデータの内容の一例を示す概念図である。この歌唱スコアデータは、音韻トラックと、ピッチトラックとの複数のトラックによって構成されている。音韻トラックには、音韻を表す音韻データと、それぞれの音韻の発音開始タイミングと発音終了タイミングとを示す発音タイミングデータとが記録される。具体的には、例えば、図２（ａ）に示す例では、「さ」の音韻の音素が時刻ｔ１から時刻ｔ２の間で発音され、「い」の音韻の音素が時刻ｔ２から時刻ｔ３の間で発音される旨が示されている。なお、以下では、説明の便宜上、「発音開始タイミング」と「発音終了タイミング」とを各々区別する必要がない場合には、これらを「発音タイミング」と称して説明する。ピッチトラックには、各時刻において発音すべき音声の基本周波数（ピッチ）の時間的な変化を示すピッチデータが記録される。

この歌唱スコアデータは、記憶部１４の歌唱スコアデータ記憶領域１４３に予め記憶しておくようにしてもよく、また、ユーザの操作に応じてＣＰＵ１１が所定のアプリケーションプログラムを実行することによって生成するようにしてもよい。
図２（ｂ）は、ＣＰＵ１１が歌唱スコアデータ生成処理を行う場合において、表示部１５に表示される画面の一例を示す図である。ＣＰＵ１１は、図２（ｂ）に例示するような画面を表示して、ユーザに歌唱スコアデータの入力を促す。図において、歌唱スコアデータ編集画面６００は、ノートデータをピアノロール形式で表示するイベント表示領域６０１を備えている。イベント表示領域６０１の右側には、イベント表示領域６０１の表示画面を上下にスクロールするためのスクロールバー６０６が設けられている。イベント表示領域６０１の下側には、イベント表示領域６０１の表示画面を左右にスクロールするためのスクロールバー６０７が設けられている。

イベント表示領域６０１の左側にはピアノの鍵盤を模した鍵盤表示６０２（ピッチを示す座標軸）が表示され、イベント表示領域６０１の上側には楽曲の先頭からの小節位置を示す小節表示６０４が表示される。６０３はピアノロール表示領域であり、鍵盤表示６０２で示されるピッチの小節表示６０４で示される時間位置にノートデータを横長の矩形（バー）で表示している。バーの左端位置は発声開始タイミングを示し、バーの長さは発声継続時間を示し、バーの左端位置は発声終了タイミングを示している。

ユーザは、所望のピッチ及び時間位置に対応した表示画面上の位置にマウスポインタを移動してクリックし、発声開始位置を特定する。そして、ドラッグ操作により発声開始位置から発声終了位置に至るノートデータのバー（以下「ノートバー」という）をイベント表示領域６０１に形成し、その後、マウスをドロップする。例えば、ノートバー６１１を形成するためには、第５３小節目の第１拍め先頭の位置にマウスポインタを位置決めしてマウスをクリックし、１泊後までドラッグすればよい。

ユーザは、上述のようにして、表示部１５に表示される画面を確認しつつ操作部１６を用いて歌唱スコアデータを入力する。ＣＰＵ１１は、操作部１６から出力される信号に応じて歌唱スコアデータを生成し、生成した歌唱スコアデータを歌唱スコアデータ記憶領域１４３に記憶する。

次に、記憶部１４の修正後歌唱スコアデータ記憶領域１４４には、ＣＰＵ１１が歌唱スコアデータに対して後述する歌唱スコアデータ修正処理を施すことによって生成される修正後歌唱スコアデータが記憶される。なお、ＣＰＵ１１が実行する歌唱スコアデータ修正処理については後述するため、ここではその詳細な説明を省略する。

次に、記憶部１４の模範音声データ記憶領域１４５には、例えばＷＡＶＥ形式やＭＰ３（MPEG Audio Layer-3）形式等の音声波形を表す音声データであって、ユーザ等が歌唱した歌唱音声を表す音声データ（第１の音声波形データ）が記憶されている。なお、以下の説明では、説明の便宜上、模範音声データ記憶領域１４５に記憶された音声データを「模範音声データ」という。なお、この模範音声データは、ユーザの嗜好（好みの歌い方、好みの抑揚の付け方、等）に合った歌唱音声を表すデータであることが好ましい。

次に、図３に示すブロック図を参照しながら、音声合成装置１の機能的構成の一例について説明する。ＲＯＭ１２又は記憶部１４に記憶された歌唱合成プログラムを実行することによって、ＣＰＵ１１は、歌唱合成部１１１、音声再生部１１２、歌唱比較部１１３、及び歌唱スコアデータ修正部１１４としての役割を担う。

歌唱合成部１１１は、歌唱スコアデータ記憶領域１４３から歌唱スコアデータを読み出し、読み出した歌唱スコアデータから、その歌唱スコアデータに対応する音声波形を表す音声波形データ（第２の音声波形データ）を生成する。より具体的には、この実施形態では、歌唱合成部１１１は、歌唱スコアデータに含まれるピッチデータ、発音タイミングデータ、音韻データ等を参照して、ピッチと音韻に対応する音声パラメータを、音韻テンプレートデータベース１４２を参照してＴｉｍｂｒｅデータベース１４１から読み出し、読み出した音声パラメータを用いてデジタル音声波形データを生成する。なお、歌唱合成部１１１は、歌唱合成の開始・停止、テンポ指定等の各種の制御処理を行うが、これらの処理は従来の歌唱合成技術におけるそれと同様であり、ここではその詳細な説明を省略する。なお、以下では、説明の便宜上、歌唱スコアデータから生成される音声波形データを「合成音声データ」と称して説明する。

この歌唱合成部１１１で生成された合成音声データの表す合成音声は、機械的で不自然な場合がある。また、不自然でない場合であっても、ユーザが所望する歌い方（抑揚等）に修正したい場合がある。そこで、本実施形態では、以下の歌唱スコアデータ修正部１１４で示す処理を行うことによって、この合成音声データを修正する。

音声再生部１１２は、模範音声データ記憶領域１４５に記憶された模範音声データを読み出し、読み出した模範音声データを再生する。歌唱比較部１１３は、模範音声データと歌唱音声データとを比較し、両者の歌唱タイミングのずれや音程及び音程変化（カーブ）のずれを検出し、検出した差分を表すデータを、歌唱スコアデータ修正部１１４に出力する。なお、図３に示す例において、実際には歌唱合成部１１１と音声再生部１１２とを同期して制御する機構や操作系が必要となるが、図が煩雑になるのを防ぐため図示を省略している。

ここで、歌唱比較部１１３が行う処理の詳細について、図面を参照しつつ以下に説明する。まず、歌唱比較部１１３は、模範音声データと合成音声データから、それぞれ所定時間長のフレーム単位で、各音声データのピッチ、パワー及びスペクトルを検出する。スペクトルの検出には、例えばＦＦＴ（Fast Fourier Transform）が用いられる。

また、歌唱比較部１１３は、検出したスペクトルに基づいて、両者の対応関係を求める。模範音声データの表す音声（以下「模範音声」）と合成音声データの表す音声（以下「合成音声」）とは時間的にずれている可能性がある。例えば、模範となる歌唱者が歌い始めや歌い終わりを意図的にずらして歌唱した場合などは、模範音声と合成音声とは時間的に前後にずれている。このように模範音声と合成音声とが時間的に前後にずれている場合であっても、両者を対応付けられるようにするため、合成音声データの時間軸を伸縮させる時間正規化（ＤＴＷ：Dynamic Time Warping）を行い、両者の時間軸を合わせる。このＤＴＷを行うための手法としては、この実施形態ではＤＰ（Dynamic programming：動的計画法）を用いる。具体的には以下のような処理となる。

歌唱比較部１１３は、図４に示すような座標平面（以下、ＤＰプレーンという）をＲＡＭ１３に形成する。このＤＰプレーンの縦軸は、模範音声データの各フレームのスペクトルの絶対値の対数に逆フーリエ変換をかけて得られるパラメータに対応しており、横軸は、合成音声データの各フレームから得たスペクトルの絶対値の対数に逆フーリエ変換をかけて得られるパラメータ（ケプストラム）に対応している。図４において、ａ１、ａ２、ａ３・・・ａｎは、模範音声データの各フレームを時間軸に従って並べたものであり、ｂ１、ｂ２、ｂ３・・・ｂｎは、合成音声データの各フレームを時間軸に従って並べたものである。縦軸のａ１、ａ２、ａ３・・・ａｎの間隔と横軸のｂ１、ｂ２、ｂ３・・・ｂｎの間隔は、いずれもフレームの時間長と対応している。このＤＰプレーンにおける各格子点の各々には、ａ１、ａ２、ａ３・・・の各パラメータと、ｂ１、ｂ２、ｂ３・・・の各パラメータのユークリッド距離を夫々示す値であるＤＰマッチングスコアが対応付けられている。例えば、ａ１とｂ１とにより位置決めされる格子点には、模範音声データの一連のフレームのうち最初のフレームから得たパラメータと合成音声データの一連のフレームのうち最初のフレームから得たパラメータのユークリッド距離を示す値が対応付けられることになる。歌唱比較部１１３は、このような構造を成すＤＰプレーンを形成した後、ａ１とｂ１とにより位置決めされる格子点（始端）からａｎとｂｎとにより位置決めされる格子点（終端）に至る全経路を探索し、探索した各経路毎に、その始端から終端までの間に辿る各格子点のＤＰマッチングスコアを累算して行き、最小の累算値を求める。このＤＰマッチングスコアの累算値が最も小さくなる経路は、合成音声データの各フレームの時間軸を模範音声データの時間軸に合わせて伸縮する際における伸縮の尺度として参酌される。

そして、歌唱比較部１１３は、ＤＰマッチングスコアの累算値が最小となる経路をＤＰプレーン上から特定し、特定した経路の内容に応じて合成音声データの時間軸を伸縮する処理であるアライメント処理を行う。具体的には、ＤＰプレーン上から特定された経路上の各格子点のＤＰマッチングスコアが時間軸上の位置を同じくするフレームから得たパラメータのユークリッド距離を表わすものとなるように、合成音声データの各フレームのタイムスタンプの内容を書き換えた上で、時間軸上の位置を同じくする各フレームを組として順次対応付けていく。例えば、図４に示すＤＰプレーン上に記された経路においては、ａ１とｂ１により位置決めされる始点からその右上のａ２とｂ２により位置決めされる格子点に進んでいることが分かる。この場合、ａ２とｂ２のフレームの時間軸上の位置は当初から同じであるので、ｂ２のフレームのタイムスタンプの内容を書き換える必要はない。更に、この経路においては、ａ２とｂ２により位置決めされる格子点からその右のａ２とｂ３により位置決めされる格子点に進んでいることが分かる。この場合、ｂ２のフレームだけでなくｂ３のフレームもａ２のフレームと時間軸上の位置を同じくする必要があるので、ｂ３のフレームと対を成していたタイムスタンプをフレーム一つ分だけ早いものと置き換える。この結果、ａ２のフレームとｂ２及びｂ３のフレームが時間軸上の位置を同じくするフレームの組として対応付けられることになる。このようなタイムスタンプの置き換えとフレームの対応付けがｂ１からｂｎに至る全フレーム区間について行われる。これにより、歌唱合成の発音タイミングと模範音声の発音タイミングとがずれていたとしても、合わせられた時間軸上の位置を同じくするフレーム（音素）どうしを対応付けることができる。以上がＤＰマッチングの仕組みである。

図５は、模範音声と合成音声との対応付けの一例を示す図である。図５（ａ）は合成音声のピッチの時間的変化を示すグラフの一例を示すものであり、同図（ｂ）は模範音声のピッチの時間的変化を示すグラフの一例を示すものである。図においては、合成音声の発音タイミングｔ１１と模範音声の発音タイミングｔ２１とが対応付けられ、合成音声の発音タイミングｔ１２と模範音声の発音タイミングｔ２２とが対応付けられた様子を示している。

図３の説明に戻る。歌唱スコアデータ修正部１１４は、歌唱比較部１１３で検出した差異を元に歌唱スコアデータの修正を行う。より具体的には、歌唱スコアデータ修正部１１４は、合成音声データと模範音声データとの差異をなくす方向に、歌唱スコアデータを構成するピッチデータと発音タイミングデータとを修正する。ピッチについては、歌唱スコアデータ修正部１１４は、模範音声データのピッチ、合成音声データのピッチ、模範音声と合成音声の対応箇所に基づいて、歌唱スコアデータに含まれるピッチデータの値を、模範音声データのピッチとそのピッチに対応する合成音声のピッチとの差分が小さくなるように修正する。なお、この処理における修正量は、例えば、合成音声のピッチが模範音声のピッチと一致するようにピッチデータの値を修正するようにしてもよく、また、例えば、両者の差分が検出された差分の略半分となるように修正するようにしてもよい。また、模範音声のピッチと合成音声のピッチとの差分が予め定められた閾値以下となるように修正するようにしてもよい。要は、歌唱スコアデータ修正部１１４が、合成音声のピッチと模範音声のピッチとの差分が小さくなるように、歌唱スコアデータに含まれるピッチデータの値を修正するようにすればよい。

また、歌唱スコアデータ修正部１１４は、歌唱スコアデータに含まれる発音タイミングデータの値を、模範音声データから検出された発音タイミングと合成音声データから検出された発音タイミングとの差分が小さくなるように修正する。なお、この修正量も、上述のピッチの修正と同様であり、合成音声の発音タイミングが模範音声の発音タイミングと一致するように発音タイミングデータの値を修正するようにしてもよい。
図６は、修正された歌唱スコアデータの内容の一例を示す図である。図示のように、ピッチや各音韻の発音開始タイミング、発音終了タイミングが、模範音声に応じて修正される。
歌唱スコアデータ修正部１１４は、各特徴データを修正した歌唱スコアデータを、修正後歌唱スコアデータとして、修正後歌唱スコアデータ記憶領域１４４に記憶する。

＜Ｂ：動作＞
次に、この実施形態の動作について説明する。ユーザが操作部１６を用いて歌唱スコアデータの修正を行う旨の操作を行うと、ＣＰＵ１１は、まず、操作部１６から出力される信号に応じて、上述の歌唱合成部１１１の処理を行う。すなわち、ＣＰＵ１１は、歌唱スコアデータ記憶領域１４３に記憶された歌唱スコアデータから、Ｔｉｍｂｒｅデータベース１４１及び音韻テンプレートデータベース１４２を参照して、合成音声データを生成する。

次いで、ＣＰＵ１１は、上述した音声再生部１１２、歌唱比較部１１３の処理を行う。すなわち、ＣＰＵ１１は、模範音声データ記憶領域１４５から模範音声データを読み出して再生し、再生される模範音声データと合成音声データとを時間軸方向に対応付け、それぞれの音声の特徴（ピッチ、音素毎の発音タイミング、等）を検出し、比較する。

次いで、ＣＰＵ１１は、上述した歌唱スコアデータ修正部１１４の処理を行う。すなわち、ＣＰＵ１１は、比較結果に基づいて、歌唱スコアデータに含まれる特徴データを、模範音声と合成音声との差分が小さくなるように修正する。ＣＰＵ１１は、特徴データを修正した歌唱スコアデータを、修正後歌唱スコアデータとして、修正後歌唱スコアデータ記憶領域１４４に記憶する。

ＣＰＵ１１が歌唱スコアデータ修正処理を終えると、ユーザは、操作部１６を用いて歌唱合成を行う旨の操作を行う。ＣＰＵ１１は、操作部１６から出力される信号に応じて、修正後歌唱スコアデータ記憶領域１４４に記憶された歌唱スコアデータから、その歌唱スコアデータに対応する音声波形を表す合成音声データ（第３の音声波形データ）を生成する。なお、この処理は、上述した歌唱合成部１１１が行う処理と同様であり、ここではその詳細な説明を省略する。
ＣＰＵ１１は、生成した合成音声データを音声処理部１８に供給してスピーカ１９から音として放音させる。これにより、スピーカ１９からは、模範音声に基づいて修正された歌唱スコアデータの表す音声が放音される。

以上説明したように本実施形態によれば、模範音声と合成音声の差を自動的に分析し、合成音声データを自動修正することにより、所望の品質の歌唱合成音声をより簡単に生成することができる。すなわち、本実施形態によれば、ＣＰＵ１１が、歌唱スコアデータから合成音声データを生成し、生成した合成音声データと実際の歌唱音声を表す模範音声データとを比較し、比較結果に応じて両者の差分が小さくなるように歌唱スコアデータを修正する。このとき、比較対象として用いられる模範音声データは、実際の歌唱音声を表すデータであるから、修正された歌唱スコアデータの表す歌唱合成音は、より実際の歌唱音声に近いものとなり、より自然なものとなる。

また、この実施形態では、模範音声データとしてユーザの嗜好に合った歌い方（抑揚、歌唱技法、等）で歌唱された音声データを用いることにより、生成される修正後歌唱スコアデータの表す歌唱合成音は、よりユーザの嗜好に近い歌唱音声となる。このように、本実施形態によれば、ユーザは、自身の嗜好に合った模範音声データを用意するだけで、各種パラメータの修正等の煩雑な作業を行うことなく、歌唱合成音を、自身の嗜好に合ったものにすることができる。

＜Ｃ：変形例＞
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。なお、以下の各態様を適宜に組み合わせてもよい。
（１）上述の実施形態では、ＣＰＵ１１は、歌唱スコアデータを修正し、修正した歌唱スコアデータを修正後歌唱スコアデータとして、修正後歌唱スコアデータ記憶領域１４４に記憶するようにしたが、これに限らず、図７に例示するように、ＣＰＵ１１が、歌唱スコアデータ記憶領域１４３に上書きするようにしてもよい。この場合、ＣＰＵ１１が、修正した歌唱スコアデータを用いて再度修正を行うようにしてもよい。
図７に示す例において、ＣＰＵ１１は、修正した歌唱スコアデータを歌唱スコアデータ記憶領域１４３に記憶する。そして、ＣＰＵ１１は、修正された歌唱スコアデータを歌唱スコアデータ記憶領域１４３から読み出し（すなわち、修正された歌唱スコアデータを取得し）、修正された歌唱スコアデータを用いて合成音声データを生成し、生成した合成音声データを用いて再度模範音声データとの比較を行い、比較結果を用いて歌唱スコアデータの修正を再度実行する。
このように、歌唱合成パラメータの修正を繰り返し行うようにすれば、歌唱スコアデータをより模範音声に近づけることができ、歌唱品質を高めることができる。
例えば、模範音声としてユーザの歌唱音声を記憶させておけば、繰り返し修正することにより、ユーザの歌唱音声に歌唱合成音を近づけることができる。

（２）上述の実施形態において、図８に例示するように、ユーザインタフェース１１５を設け、修正の態様をユーザが選択するようにしてもよい。この場合は、例えば、ＣＰＵ１１が、修正程度の異なる（例えば、合成音声のピッチを模範音声のピッチに一致させる、合成音声のピッチと模範音声のピッチとの差分を半分にする、等）複数の特徴データを生成し、生成した特徴データのリストを表示部１５に表示するようにしてもよい。ユーザは、表示されたリストの中から所望する修正態様を選択し、ＣＰＵ１１は、選択された内容に応じて歌唱スコアデータを修正するようにすればよい。

（３）上述の実施形態では、予め録音しておいた歌唱音声を表す模範音声データを模範音声データ記憶領域１４５に予め記憶させておく構成とし、ＣＰＵ１１が、模範音声データ記憶領域１４５に記憶された模範音声データを読み出すようにしたが、これに限らず、図９に例示するように、ユーザが歌唱した音声をリアルタイムで音声合成装置１に入力するようにしてもよい。図９に示す例において、ユーザの歌唱音声はマイクロホン１７で収音されて音声信号（音声データ）に変換され、歌唱比較部１１３に出力される。歌唱比較部１１３は、マイクロホン１７で収音された音声を表す音声データと歌唱合成部１１１で生成される合成音声データとを比較する。

（４）また、図９に示す例において、更に、伴奏データを再生するようにしてもよい。図１０は、伴奏データを再生する場合の音声合成装置１の機能的構成の一例を示す図である。この例においては、記憶部１４に伴奏データを記憶する伴奏データ記憶領域１４６（図１に鎖線で図示）を設け、この伴奏データ記憶領域１４６に伴奏データを予め記憶しておく。
１４６から読み出して再生し、音声混合部１１９は、伴奏再生部１１８から供給される伴奏音を表す信号とマイクロホン１７から供給される音声信号とを混合してスピーカ１９に出力する。これにより、スピーカ１９からは、伴奏音と収音されたユーザの歌唱音声とが放音される。なお、伴奏再生と歌唱合成はタイミングを合わせて行う必要があり、そのための制御機構が必要であるが、図面が煩雑になるのを防ぐためそれらの図示を省略している。
このように、歌唱音声を収音する際に、伴奏音を再生することで、ユーザが、歌唱スコアデータの表す歌唱合成音にタイミングを合わせて歌唱することができる。

（５）また、図１０に示す例において、更に、マイクロホンによる入力音声を録音するようにしてもよい。図１１にこの場合の音声合成装置１の機能的構成の一例を示す。図１１に示す例において、音声録音・再生部１１７は、マイクロホン１７から出力される音声データを、模範音声データ記憶領域１４５に記憶する。この場合、音声合成装置１は、録音した模範音声を用いて、歌唱スコアデータの修正を繰り返し行うことができる。

（６）上述の実施形態では、ＣＰＵ１１が、歌唱スコアデータに含まれるピッチデータと発音タイミングデータとを修正するようにしたが、修正する特徴データはこれに限らない。例えば、ＣＰＵ１１が歌詞間違いを検出するようにしてもよい。この場合は、ＣＰＵ１１が、模範音声データと合成音声データとの音韻の差分を検出し、その差分が小さくなるように、歌唱スコアデータの音韻データを修正するようにすればよい。この場合、音韻の差分の検出方法としては、例えば、模範音声データと合成音声データについて、フォルマントやケプストラムの差を検出するようにしてもよく、また、模範音声データに対して音声認識処理を施して音韻を検出するようにしてもよい。

（７）また、ＣＰＵ１１が、音質・声質の差分を検出し、音質・声質を修正するようにしてもよい。この場合は、歌唱スコアデータに、音質や声質を示す音質データや声質データを含める構成とし、ＣＰＵ１１が、模範音声データと合成音声データとからフォルマントを検出し、検出したフォルマントの差分が小さくなるように、音質データや声質データを修正するようにしてもよい。

このように、ＣＰＵ１１が修正する特徴データは、上述した実施形態で示したピッチの時間的な変化を示すピッチデータや発音タイミングデータであってもよく、また、音韻データや音質データ、声質データであってもよい。また、他の例として、例えば、音のベロシティ（強弱）を表すデータであってもよい。このように、ＣＰＵ１１が修正する特徴データは、メロディの特徴やそのメロディを構成する各音素の特徴を示すものであればどのようなものであってもよい。

（８）また、上述の実施形態において、歌唱スコアデータに楽曲の構成を示すデータを含めるようにし、ＣＰＵ１１が、歌唱スコアデータを修正する際に、曲中の対応する箇所を同時に修正しても良い。例えば、１番のある箇所のパラメータを修正したら、２番、３番の対応する箇所を同様に修正するようにしてもよい。この場合、歌唱スコアデータには、複数の時間区間に区分されるとともに、複数の時間区間の対応関係を示す区間対応データを含める構成とする。そして、ＣＰＵ１１は、複数の時間区間のうちの少なくともいずれかひとつの時間区間について、歌唱スコアデータに含まれる特徴データの値を上述の実施形態と同様の態様で修正する。その後、ＣＰＵ１１は、歌唱スコアデータの区間対応データに基づいて、修正した時間区間に対応する他の時間区間について、歌唱スコアデータに含まれる特徴データの値を、該時間区間と同様の態様で修正する。
このようにすることで、例えば、楽曲の１番を修正し終えた段階で、２番、３番の歌唱スコアデータの修正を終わらせることができるので、修正に係る処理時間を短くすることができる。

（９）上述の実施形態では、歌唱合成部１１１は、歌唱スコアデータを歌唱スコアデータ記憶領域１４３から読み出すようにしたが、歌唱合成部１１１が歌唱スコアデータを取得する態様はこれに限らず、例えば、インターネット等の通信ネットワークを介して歌唱スコアデータを受信するようにしてもよく、また、例えば、ユーザが操作部１６を用いて歌唱スコアデータを入力するための操作を行い、ＣＰＵ１１が操作部１６から出力される信号に応じて歌唱スコアデータを生成するようにしてもよく、ＣＰＵ１１が歌唱スコアデータを取得するものであればどのようなものであってもよい。

（１０）上述した実施形態では、音声合成装置１は、予め生成された歌唱スコアデータを、模範音声データを用いて修正するようにしたが、これに変えて、模範音声データから歌唱スコアデータを生成するようにしてもよい。図１２は、この場合の音声合成装置１の機能的構成の一例を示す図である。図において、歌唱合成部１１１，歌唱比較部１１３、歌唱スコアデータ修正部１１４は、上述した実施形態において図３に示したそれと同様であるため、ここではその説明を省略する。図において、歌唱分析部１１６は、マイクロホン１７から出力される音声データを解析し、所定時間長のフレーム単位でピッチを検出する。また、歌唱分析部１１６は、マイクロホン１７から出力される音声データを解析し、音素毎の発音タイミングを検出する。そして、歌唱分析部１１６は、検出したピッチを示すピッチデータを生成するとともに、検出した発音タイミングを示す発音タイミングデータを生成し、生成したピッチデータと発音タイミングデータとを含む歌唱スコアデータを生成し、生成した歌唱スコアデータを歌唱スコアデータ記憶領域１４３に記憶する。
このようにすることで、予め歌唱スコアデータを用意する必要がなく、マイクロホン１７から入力された音声を分析して、歌唱スコアデータを自動生成することができる。

また、この態様において、マイクロホン１７に入力された音声を音声認識して歌詞（音韻の列）を抽出し、抽出結果から音韻データを生成するようにしてもよい。
また、この態様において、マイクロホン１７に入力された音声を音声認識してフォルマントを検出し、音質データや声質データを生成するようにしてもよい。

（１１）上述した実施形態における音声合成装置１のＣＰＵ１１によって実行されるプログラムは、磁気記録媒体（磁気テープ、磁気ディスクなど）、光記録媒体（光ディスクなど）、光磁気記録媒体、半導体メモリなどのコンピュータが読取可能な記録媒体に記録した状態で提供し得る。また、インターネットのようなネットワーク経由で音声合成装置１にダウンロードさせることも可能である。

音声合成装置のハードウェア構成の一例を示すブロック図である。歌唱スコアデータの内容の一例を示す図である。表示部に表示される画面の一例を示す図である。音声合成装置の機能的構成の一例を示すブロック図である。ＤＰマッチングを示す図である。模範音声と合成音声の対応関係の一例を示す図である。修正後歌唱スコアデータの内容の一例を示す図である。音声合成装置の機能的構成の一例を示すブロック図である。音声合成装置の機能的構成の一例を示すブロック図である。音声合成装置の機能的構成の一例を示すブロック図である。音声合成装置の機能的構成の一例を示すブロック図である。音声合成装置の機能的構成の一例を示すブロック図である。音声合成装置の機能的構成の一例を示すブロック図である。

符号の説明

１…音声合成装置、１１…ＣＰＵ、１２…ＲＯＭ、１３…ＲＡＭ、１４…記憶部、１５…表示部、１６…操作部、１７…マイクロホン、１８…音声処理部、１９…スピーカ、１１１…歌唱合成部、１１２…音声再生部、１１３…歌唱比較部、１１４…歌唱スコアデータ修正部、１１５…ユーザインタフェース、１１６…歌唱分析部、１１７…音声録音・再生部、１１８…伴奏再生部、１１９…音声混合部、１４１…Ｔｉｍｂｒｅデータベース、１４２…音韻テンプレートデータベース、１４３…歌唱スコアデータ記憶領域、１４４…修正後歌唱スコアデータ記憶領域、１４５…模範音声データ記憶領域、１４６…伴奏データ記憶領域。

Claims

音素の列で構成されるメロディを表す歌唱スコアデータであって、各音素の特徴を表す特徴データを含む歌唱スコアデータを取得する歌唱スコアデータ取得手段と、
音声波形を表す第１の音声波形データを取得する第１の音声波形データ取得手段と、
前記歌唱スコアデータ取得手段により取得された歌唱スコアデータから、該歌唱スコアデータに対応する音声波形を表す第２の音声波形データを生成する第２の音声波形データ生成手段と、
前記第１の音声波形データと前記第２の音声波形データとを、時間軸方向に対応付ける対応付手段と、
前記第１の音声波形データを解析し、解析結果に応じて前記特徴を検出する第１の特徴検出手段と、
前記第２の音声波形データを解析し、解析結果に応じて前記特徴を検出する第２の特徴検出手段と、
前記対応付手段の対応付結果に応じて、前記歌唱スコアデータ取得手段により取得された歌唱スコアデータに含まれる特徴データを、前記第１の特徴検出手段によって検出された前記第１の音声波形データの特徴と前記第２の特徴検出手段によって検出された前記第２の音声波形データの特徴との対応箇所における差分が小さくなるように修正する特徴データ修正手段と、
前記特徴データ修正手段により修正された歌唱スコアデータから、該歌唱スコアデータに対応する音声波形を表す第３の音声波形データを生成する第３の音声波形データ生成手段と、
前記第３の音声波形データ生成手段により生成された第３の音声波形データを出力する出力手段と
を具備することを特徴とする音声合成装置。
前記特徴は、前記メロディを構成する各音素の発音タイミング、ピッチの時間的な変化、前記メロディを構成する各音素の音韻及び音声スペクトルの少なくともいずれか一つを含む
ことを特徴とする請求項１に記載の音声合成装置。
前記特徴データ修正手段により修正された歌唱スコアデータが予め定められた条件を満たす場合に、該歌唱スコアデータを前記歌唱スコアデータ取得手段に供給する歌唱スコアデータ取得制御手段
を具備することを特徴とする請求項１又は２に記載の音声合成装置。
前記歌唱スコアデータは、複数の時間区間に区分されるとともに、複数の時間区間の対応関係を示す区間対応データを含み、
前記特徴データ修正手段は、前記複数の時間区間のうちの少なくともいずれかひとつの時間区間について、前記対応付手段の対応付結果に応じて、前記歌唱スコアデータ取得手段により取得された歌唱スコアデータに含まれる特徴データを、前記第１の特徴検出手段によって検出された前記第１の音声波形データの特徴と前記第２の特徴検出手段によって検出された前記第２の音声波形データの特徴との対応箇所における差分が小さくなるように修正するとともに、
前記区間対応データに基づいて、該時間区間に対応する他の時間区間について、前記歌唱スコアデータに含まれる特徴データを、該時間区間における修正態様で修正する
ことを特徴とする請求項１乃至３のいずれか１項に記載の音声合成装置。
前記第１の音声波形データ取得手段は、収音手段によって収音された音声を表す音声データを、前記第１の音声データとして取得する
ことを特徴とする請求項１乃至４のいずれか１項に記載の音声合成装置。
音声波形を表す第１の音声波形データを取得する第１の音声波形データ取得手段と、
前記第１の音声波形データから音声の特徴を検出し、検出した特徴を示す特徴データを生成する特徴データ生成手段と、
音素の列で構成されるメロディを表す歌唱スコアデータであって前記特徴データ生成手段により生成された特徴データを含む歌唱スコアデータを生成する歌唱スコアデータ生成手段と、
前記歌唱スコアデータ生成手段により生成された歌唱スコアデータから、該歌唱スコアデータに対応する音声波形を表す第２の音声波形データを生成する第２の音声波形データ生成手段と、
前記第２の音声波形データを出力する出力手段と
を具備することを特徴とする音声合成装置。
前記特徴は、前記メロディを構成する各音素の発音タイミング、ピッチの時間的な変化、前記メロディを構成する各音素の音韻及び音声スペクトルのうちの少なくともいずれか一つを含む
ことを特徴とする請求項６に記載の音声合成装置。