JP5598516B2

JP5598516B2 - カラオケ用音声合成システム，及びパラメータ抽出装置

Info

Publication number: JP5598516B2
Application number: JP2012191440A
Authority: JP
Inventors: 晃弘上村; 久美幡田; 典昭阿瀬見; 琢磨久野
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2012-08-31
Filing date: 2012-08-31
Publication date: 2014-10-01
Anticipated expiration: 2032-08-31
Also published as: JP2014048472A

Description

本発明は、カラオケで音声合成を実行する音声合成システム、及び音声合成に必要な音声パラメータを音声から抽出するパラメータ抽出装置に関する。

従来、ユーザが歌唱することで入力された歌声音声の音高ピッチを補正して出力するカラオケ装置が知られている（特許文献１参照）。
この特許文献１に記載されたカラオケ装置では、ユーザが歌唱することで入力された歌声音声の音高ピッチを、楽曲中の楽音に用いられている音高の中で最も近い音高に合致させるように補正している。

特開２００３−１６７５８７号公報

この特許文献１に記載されたカラオケ装置では、音高が補正された歌声音声は、ユーザが発声して当該カラオケ装置に音声を入力している期間中に出力されるものの、音声を入力していない期間には出力されない。

一般的に、ユーザ自身が歌唱している最中は、補正前の発声音もユーザ自身の耳にて聴取される。このため、演奏音に沿って２種類の歌唱音声を同時に聞き分けて歌唱練習することは困難であり、一般的な歌唱練習は、一旦歌唱した後で、自分の発声音声を該当曲の演奏音とともに聴いて行われる。

ところが、特許文献１に記載されたカラオケ装置では、ユーザ自身の歌声音声を当該楽曲の適切な音高で聴取するのは、ユーザ自身が楽曲を歌唱している最中であるため、該当曲の歌唱後や、ましてや、別の曲に対しては、再び歌唱しなければ歌唱練習することが困難であるという問題があった。

そこで、本発明は、ユーザ自身が楽曲を歌唱している期間以外にも、ユーザ自身の歌声音声を当該楽曲の適切な音高で聴取可能とすることを目的とする。

上記目的を達成するためになされた本発明は、パラメータ抽出装置と、合成音出力装置とを備えた音声合成システムに関する。
本発明の音声合成システムを構成するパラメータ抽出装置は、発声情報取得手段と、波形取得手段と、パラメータ導出手段と、パラメータ登録手段と、模範記憶手段とを備えている。

このうち、発声情報取得手段は、楽曲を識別する楽曲ＩＤ，当該楽曲ＩＤによって識別される楽曲を構成する楽音を表す演奏情報，当該楽曲ＩＤによって識別される楽曲の歌詞を表す歌詞情報，当該歌詞情報によって表される歌詞の発声開始タイミングを示す発声タイミング情報を含む楽曲データから、楽曲ＩＤ，演奏情報，歌詞情報，発声タイミング情報を取得して楽曲データに基づく楽曲を再生する。

そして、波形取得手段が、楽曲データに基づく楽曲の再生中に、歌詞の発声開始タイミングで、入力された音声波形を取得し、パラメータ導出手段が、音声波形から、歌詞を形成する各音節に対する音声波形である音節波形を抽出すると共に、その抽出した各音節波形から、予め規定された少なくとも一つの特徴量である音声パラメータを導出する。

パラメータ登録手段は、パラメータ導出手段で導出された音節ごとの音声パラメータを、当該楽曲を歌唱したユーザを識別するユーザＩＤと対応付けて、第一記憶装置に記憶する。さらに、模範記憶手段が、各楽曲についての理想的な歌唱音声に基づく、少なくとも１つの音声パラメータを含む模範音声データを、前記楽曲ＩＤと対応付けて第二記憶装置に記憶する。

一方、音声合成システムを構成する合成音出力装置は、識別情報取得手段と、パラメータ取得手段と、模範取得手段と、音声合成手段と、出力手段とを備えている。
この合成音出力装置では、識別情報取得手段が、指定された楽曲ＩＤ、及びユーザＩＤを取得する。その取得した楽曲ＩＤと対応付けられた模範歌声データを、模範取得手段が第二記憶装置から取得する。
さらに、パラメータ取得手段は、第一記憶装置に記憶されている音声パラメータの中から、識別情報取得手段で取得した前記ユーザＩＤと対応付けられた音声パラメータであって、模範取得手段で取得した模範音声データに含まれる楽曲ＩＤと対応付けられた音声パラメータに最も類似する音声パラメータを取得する。

音声合成手段は、パラメータ取得手段で取得した音声パラメータを、楽曲ＩＤと対応付けられた音声パラメータに一致するように調整し、その調整された音声パラメータに基づいて音声合成する。すると、その生成された合成音を、出力手段が出力する。
さらに、発声情報取得手段は、楽曲の一つである対象楽曲の楽譜を表し、音源モジュールから出力される個々の出力音について、少なくとも音高及び演奏開始タイミングが規定された楽譜データを前記演奏情報として取得する。楽譜データには、対象楽曲の曲中において転調していれば、時間軸に沿って前記対象楽曲が転調した時刻を表す転調フラグが含まれている。
そして、本発明のパラメータ登録手段は、区間特定手段と、主音特定手段と、音名頻度導出手段と、調推定手段とを備えている。
このうち、区間特定手段は、取得した楽譜データに基づいて、対象楽曲において同一の調が継続される各区間である調同一区間を特定する。主音特定手段は、区間特定手段にて特定した各調同一区間に含まれ、それぞれの調同一区間における時間軸に沿った最後の出力音を主音として特定する。そして、音名頻度導出手段は、区間特定手段にて特定した調同一区間に含まれる同一音名の出力音の頻度を表す登場音名頻度を、主音特定手段で特定した主音の音名を起点として前記調同一区間ごとに導出する。さらに、調推定手段は、各調にて利用可能な音名の分布を表すテンプレートとして調ごとに予め用意した調テンプレートに、音名頻度導出手段で導出した各登場音名頻度を照合した結果、最も相関が高い調それぞれを、メタデータとして推定する。
なお、本発明のパラメータ登録手段は、調推定手段にて推定したメタデータを、音声パラメータと対応付けて第一記憶装置に記憶する。

このような音声合成システムによれば、一つの楽曲をユーザが歌唱後に、模範歌唱状態のユーザ音声を聴くことができる。
つまり、ユーザの歌声から導出した音声パラメータを用いて、楽曲における発声開始タイミングかつ発声音高にて音声が出力されるように、ユーザ自身の声による音声合成を実施できる。

しかも、本発明の音声合成システムにおいては、一つの楽曲についての音声パラメータ及び模範歌声データを生成した後は、他の楽曲について、再び音声パラメータ及び模範歌声データを生成する必要がない。

以上のことから、本発明の音声合成システムによれば、ユーザ自身が楽曲を歌唱している期間以外にも、ユーザ自身の歌声音声を当該楽曲も含め、様々な楽曲を適切な音高で聴取可能とすることができる。
本発明の音声合成システムでは、特定内容情報及び発声タイミング情報に基づいて、メタデータを自動的に推定できる。このため、本発明の音声合成システムによれば、発声内容情報によって表される文字列の内容を発声するときに、メタデータとしての当該音声の性質を、ユーザらに入力させる必要を無くすことができる。

なお、本発明における音声パラメータとしての特徴量は、フォルマント合成による音声合成を実行する際に必要となる特徴量である。この特徴量には、例えば、基本周波数や、メル周波数ケプストラム（ＭＦＣＣ）、パワー、及びそれらの各時間差分などを含む。

本発明の音声合成システムにおける発声情報取得手段は、楽曲の一つである対象楽曲の楽譜を表し、音源モジュールから出力される個々の出力音について、少なくとも音高及び演奏開始タイミングが規定された楽譜データを演奏情報として取得しても良い。また、発声情報取得手段は、対象楽曲の歌詞を構成する歌詞構成文字の文字列を、歌詞情報として取得しても良い。さらに、発声情報取得手段は、歌詞構成文字の少なくとも１つに対する出力タイミングが、当該歌詞構成文字に対応する出力音の演奏開始タイミングと対応付けられた歌詞出力タイミングを、発声タイミング情報として取得しても良い。

これらの場合、本発明の音声合成システムにおける波形取得手段が、楽譜データに基づく対象楽曲の演奏中に入力された音声が時間軸に沿って推移した波形を、音声波形として取得し、パラメータ導出手段が、音声波形において、個々の出力音に対応する区間での音声波形を、音節波形として抽出しても良い。

このような音声合成システムによれば、楽譜データに基づいて対象楽曲を演奏している期間に入力された音声波形を収集できる。

また、本発明における音声の性質とは、当該音声が発声されたときの発声者の感情を少なくとも含むものであり、例えば、情緒や、雰囲気などを含む概念である。さらに、音声の性質には、感情を推定するために必要な情報を含んでも良い。

また、本発明におけるパラメータ登録手段では、単語分割手段が、発声情報取得手段で取得した歌詞情報によって表される文字列を、単語を構成する文字列である単語文字ごとに分割し、メタデータ抽出手段が、各単語の性質を表す性質情報を、当該単語の識別情報と対応付けた単語性質テーブルを予め用意し、単語分割手段で分割された各単語文字によって表される単語に対応する性質情報をメタデータとして、単語性質テーブルから抽出しても良い。

これと共に、パラメータ登録手段は、メタデータ抽出手段にて抽出したメタデータを、音声パラメータと対応付けて第一記憶装置に記憶すれば良い。
このような音声合成システムによれば、各単語の性質をメタデータとすることができる。ここで言う単語の性質には、当該単語の意味や、当該単語によって表される感情を含む。

なお、本発明は、パラメータ抽出装置としてなされていても良い。この場合、本発明のパラメータ抽出装置は、上述した、発声情報取得手段と、波形取得手段と、パラメータ導出手段と、パラメータ登録手段と、模範記憶手段とを備えることが好ましい。
さらに、本発明がパラメータ抽出装置としてなされている場合には、パラメータ登録手段は、区間特定手段と、主音特定手段と、音名頻度導出手段と、調推定手段と、を備え、調推定手段にて推定したメタデータを、音声パラメータと対応付けて第一記憶装置に記憶しても良い。
また、本発明がパラメータ抽出装置としてなされている場合には、パラメータ登録手段は、単語分割手段と、メタデータ抽出手段とを備え、そのメタデータ抽出手段にて抽出したメタデータを、音声パラメータを対応付けて第一記憶装置に記憶しても良い。

このようなパラメータ抽出装置によれば、一つの楽曲をユーザが最初に歌唱した際に、音声パラメータを導出すると共に、模範歌声データを生成することができる。
そして、本発明のパラメータ抽出装置によれば、第一記憶装置に記憶された音声パラメータ、及び第二記憶装置に記憶された模範歌声データに基づいて、楽曲における発声開始タイミングかつ発声音高にて音声が出力されるように、音声合成装置に音声合成を実施させることができる。

本発明が適用された音声合成システムの全体構成を示すブロック図である。パラメータ登録処理の処理手順を示すフローチャートである。パラメータデータ登録処理の処理手順を示すフローチャートである。第一実施形態におけるメタデータ推定処理の処理手順を示すフローチャートである。メタデータ推定処理の処理内容を示す図である。メタデータ推定処理の処理内容を示す図である。メタデータ推定処理の処理内容を示す図である。第一実施形態におけるパラメータデータ登録処理の概要を示す図である。パラメータデータ及び模範歌声データの概要を示す図である。模範歌声データ登録処理の処理手順を示すフローチャートである。音声合成処理の処理手順を示すフローチャートである。第二実施形態におけるメタデータ推定処理の処理手順を示すフローチャートである。第二実施形態におけるパラメータデータ登録処理の概要を示す図である。

以下に本発明の実施形態を図面と共に説明する。
［第一実施形態］
〈音声合成システム〉
図１に示すように、音声合成システム１は、ユーザ（歌唱者）が指定した楽曲（以下、指定楽曲と称す）における理想的な歌唱音声を、当該ユーザ自身の音声にて出力するように、音声合成を実施するシステムである。

これを実現するために、音声合成システム１は、音声入力装置１０と、情報格納サーバ２５と、情報処理装置３０と、データ格納サーバ５０と、音声出力端末６０とを備えている。

音声入力装置１０は、カラオケの用途に用いられる音楽データＭＤに基づいて楽曲を演奏すると共に、その楽曲の演奏中に音声の入力を受け付ける。情報格納サーバ２５は、楽曲ごとに用意された音楽データＭＤそれぞれを格納すると共に、音声入力装置１０を介して入力された音声それぞれのデータである音声波形データＳＶを格納する。

さらに、情報処理装置３０は、情報格納サーバ２５に格納されている音声波形データＳＶ及び音楽データＭＤに基づいて、パラメータデータＰＭ及び模範歌声データＥＤを生成する。

なお、ここで言うパラメータデータＰＭとは、詳しくは後述するが、いわゆるフォルマント合成に用いる、少なくとも一つの音声パラメータを含むデータである。また、模範歌声データＥＤとは、各楽曲についての理想的な歌唱音声に基づく、少なくとも一つの音声パラメータを含むデータである。この少なくとも一つの音声パラメータには、例えば、発声音声における各音節での基本周波数、メル周波数ケプストラム（ＭＦＣＣ）、パワー、及びそれらの時間差分を含む。

データ格納サーバ５０は、情報処理装置３０にて生成されたパラメータデータＰＭ及び模範歌声データＥＤを格納する。また、音声出力端末６０は、データ格納サーバ５０に格納されているパラメータデータＰＭ及び模範歌声データＥＤに基づいて、指定楽曲を歌唱した場合の理想的な歌唱音声となるように、ユーザ自身の音声により音声合成した合成音を出力する。なお、本実施形態における音声合成システム１は、音声出力端末６０を複数台備えていても良い。
〈情報格納サーバ〉
情報格納サーバ２５は、記憶内容を読み書き可能に構成された記憶装置を中心に構成された装置であり、通信網を介して、音声入力装置１０に接続されている。

この情報格納サーバ２５に格納される音楽データＭＤは、楽曲ＭＩＤＩデータＤＭと、歌詞データ群ＤＬと、ガイドボーカルデータＧＤとを有し、それぞれ対応する楽曲ごとに対応付けられている。さらに、楽曲がデュエット曲の場合、音楽データＭＤには、歌詞の男女パートを区別する情報が含まれていても良い。

楽曲ＭＩＤＩデータＤＭは、周知のＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）規格によって、一つの楽曲の楽譜を表すデータである。この楽曲ＭＩＤＩデータＤＭの各々は、楽曲を区別するデータである識別データと、当該楽曲にて用いられる楽器ごとの楽譜を表す楽譜トラックと、当該楽曲において調が変化する時刻を表す変調フラグとを少なくとも有している。

そして、楽譜トラックには、ＭＩＤＩ音源から出力される個々の出力音について、少なくとも、音高（いわゆるノートナンバー）と、音源モジュールが出力音を出力する期間（以下、音符長）とが規定されている。ただし、楽譜トラックの音符長は、当該出力音の出力を開始するまでの当該楽曲の演奏開始からの時間を表す演奏開始タイミング（いわゆるノートオンタイミング）と、当該出力音の出力を終了するまでの当該楽曲の演奏開始からの時間を表す演奏終了タイミング（いわゆるノートオフタイミング）とによって規定されている。

なお、楽譜トラックは、楽器種類ごとに用意されている。
一方、歌詞データ群ＤＬは、周知のカラオケ装置を構成する表示装置に表示される歌詞に関するデータであり、楽曲の歌詞を構成する文字（以下、歌詞構成文字とする）を表す歌詞テロップデータＤＴと、歌詞構成文字の出力タイミングである歌詞出力タイミングを、楽曲ＭＩＤＩデータＤＭの演奏と対応付けるタイミング対応関係が規定された歌詞出力データＤＯとを備えている。

具体的に、本実施形態におけるタイミング対応関係は、楽曲ＭＩＤＩデータＤＭの演奏を開始するタイミングに、歌詞テロップデータＤＴの出力を開始するタイミングが対応付けられた上で、特定楽曲の時間軸に沿った各歌詞構成文字の歌詞出力タイミングが、楽曲ＭＩＤＩデータＤＭの演奏開始からの経過時間によって規定されている。なお、ここで言う経過時間とは、例えば、表示された歌詞構成文字の色替えを実行するタイミングを表す時間であり、色替えの速度によって規定されている。また、ここで言う歌詞構成文字は、歌詞を構成する文字の各々であっても良いし、その文字の各々を時間軸に沿った特定の規則に従って一群とした文節やフレーズであっても良い。

ガイドボーカルデータＧＤは、当該楽曲についての理想的な歌唱音声として予め用意された音声データである。ここで言う理想的な歌唱音声とは、当該楽曲を構成する楽音の通りに歌唱したと考えられる音声であり、カラオケ装置に周知の採点機能にて採点した場合に満点近くとなる音声である。

一般的なカラオケ装置においては、ガイドボーカルデータＧＤに基づく理想的な歌唱音声は、楽曲ＭＩＤＩデータＤＭに基づく楽器演奏とともに再生される。
〈音声入力装置〉
次に、音声入力装置１０について説明する。

音声入力装置１０は、通信部１１と、入力受付部１２と、表示部１３と、音声入力部１４と、音声出力部１５と、音源モジュール１６と、記憶部１７と、制御部２０とを備えている。すなわち、本実施形態における音声入力装置１０は、いわゆる周知のカラオケ装置として構成されている。

このうち、通信部１１は、通信網を介して、音声入力装置１０が外部との間で通信を行う。本実施形態における通信網とは、例えば、公衆無線通信網やネットワーク回線である。

入力受付部１２は、外部からの操作に従って情報や指令の入力を受け付ける入力機器である。本実施形態における入力機器とは、例えば、キーやスイッチ、リモコンの受付部などである。

表示部１３は、少なくとも、文字コードで示される情報を含む画像を表示する表示装置である。本実施形態における表示装置とは、例えば、液晶ディスプレイやＣＲＴなどである。また、音声入力部１４は、音を電気信号に変換して制御部２０に入力する装置（いわゆるマイクロホン）である。音声出力部１５は、制御部２０からの電気信号を音に変換して出力する装置（いわゆるスピーカ）である。

さらに、音源モジュール１６は、楽曲ＭＩＤＩデータＤＭに基づいて、音源からの音を模擬した音（即ち、出力音）を出力する装置、例えば、ＭＩＤＩ音源である。
記憶部１７は、記憶内容を読み書き可能に構成された不揮発性の記憶装置である。本実施形態における記憶装置とは、例えば、ハードディスク装置や、フラッシュメモリなどである。

また、制御部２０は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納するＲＯＭ２１と、処理プログラムやデータを一時的に格納するＲＡＭ２２と、ＲＯＭ２１やＲＡＭ２２に記憶された処理プログラムに従って各処理（各種演算）を実行するＣＰＵ２３とを少なくとも有した周知のコンピュータを中心に構成されている。

そして、ＲＯＭ２１には、ユーザによって指定された楽曲（以下、対象楽曲と称す）を演奏するカラオケ演奏処理を制御部２０が実行する処理プログラムが格納されている。本実施形態におけるカラオケ演奏処理では、対象楽曲が演奏されている期間中に、音声入力部１４を介して入力された音声を音声波形データＳＶとして、当該対象楽曲を識別する楽曲ＩＤ及び対象楽曲を歌唱したユーザ音声を識別するユーザＩＤと対応付けて、情報格納サーバ２５に格納する。

つまり、音声入力装置１０では、カラオケ演奏処理に従って、対象楽曲に対応する楽曲ＭＩＤＩデータＤＭに基づいて、楽曲を演奏すると共に、対象楽曲に対応する歌詞データ群ＤＬに基づいて歌詞を表示部１３に表示する。そして、カラオケ演奏処理の実行中に、音声入力部１４を介して入力された音声を音声波形データＳＶとして、楽曲ＩＤ及びユーザＩＤと対応付けて、情報格納サーバ２５に格納する。

なお、情報格納サーバ２５に格納される音声波形データＳＶには、発声者の特徴を表す発声者特徴情報も対応付けられる。この発声者特徴情報には、例えば、少なくとも、ユーザの性別を含む。

データ格納サーバ５０は、記憶内容を読み書き可能に構成された記憶装置を中心に構成された装置であり、通信網を介して情報処理装置３０に接続されている。
〈情報処理装置〉
情報処理装置３０は、通信部３１と、入力受付部３２と、表示部３３と、記憶部３４と、制御部４０とを備えている。

このうち、通信部３１は、通信網を介して外部との間で通信を行う。入力受付部３２は、外部からの操作に従って情報や指令の入力を受け付ける入力機器である。表示部３３は、画像を表示する表示装置である。

記憶部３４は、記憶内容を読み書き可能に構成された不揮発性の記憶装置である。制御部４０は、ＲＯＭ４１、ＲＡＭ４２、ＣＰＵ４３を少なくとも有した周知のコンピュータを中心に構成されている。

さらに、情報処理装置３０のＲＯＭ４１には、情報格納サーバ２５に格納された音声波形データＳＶの中で、指定された楽曲ＩＤ及びユーザＩＤが対応付けられた音声波形データＳＶを取得して、パラメータデータＰＭ、及び模範歌声データＥＤを生成してデータ格納サーバ５０に格納するパラメータ登録処理を制御部４０が実行する処理プログラムが格納されている。

このパラメータ登録処理にてデータ格納サーバ５０に格納されるパラメータデータＰＭ及び模範歌声データＥＤには、メタデータが含まれる。本実施形態におけるメタデータとは、当該音声が発声されたときの感情を含む音声の性質を表すものである。また、ここで言う感情には、例えば、情緒や、雰囲気などを含む。さらに、音声の性質には、感情を推定するために必要な情報を含んでも良い。
〈パラメータ登録処理〉
情報処理装置３０が実行するパラメータ登録処理は、起動されると、図２に示すように、まず、入力受付部３２を介して、ユーザＩＤを取得する（Ｓ１１０）。すなわち、Ｓ１１０では、ユーザが情報処理装置３０へのログインを行う。

続いて、入力受付部３２を介して楽曲ＩＤを取得する（Ｓ１２０）。すなわち、Ｓ１２０では、ユーザが楽曲を指定する。
続いて、Ｓ１１０にて取得したユーザＩＤ，及びＳ１２０にて取得した楽曲ＩＤに対応する音声波形データＳＶに基づいて、パラメータデータＰＭを生成して登録するパラメータデータ登録処理を実行する（Ｓ１３０）。さらに、Ｓ１２０にて取得した楽曲ＩＤに対応する楽曲の模範歌声データＥＤを生成して登録する模範歌声データ登録処理を実行する（Ｓ１４０）。なお、パラメータデータ登録処理及び模範歌声データ登録処理の詳細については、後述する。

その後、本パラメータ登録処理を終了する。
〈パラメータデータ登録処理〉
パラメータデータ登録処理は、図３に示すように、起動されると、先のＳ１２０にて取得した楽曲ＩＤに対応する楽曲ＭＩＤＩデータＤＭを取得する（Ｓ２１０）。続いて、先のＳ１２０にて取得した楽曲ＩＤに対応する歌詞データ群ＤＬを取得し（Ｓ２２０）、当該楽曲ＩＤに対応し、かつ先のＳ１１０にて指定されたユーザＩＤに対応する一つの音声波形データＳＶを取得する（Ｓ２３０）。

さらに、Ｓ２３０で取得した音声波形データＳＶにおいて、当該音声波形データＳＶの発声内容に含まれる音節それぞれに対応する区間での音声波形（以下、音節波形と称す）を特定する（Ｓ２４０）。

具体的に、本実施形態のＳ２４０では、Ｓ２１０で取得した楽曲ＭＩＤＩデータＤＭのうち、歌唱旋律を表す楽譜トラック（以下、メロディトラックと称す）に規定された各出力音の演奏開始タイミング及び演奏終了タイミングを抽出すると共に、各出力音に対応付けられた歌詞構成文字の音節を特定する。そして、音声波形データＳＶにおいて、各出力音の演奏開始タイミングから演奏終了タイミングまでの区間それぞれに対応する区間での音声波形を音節波形として特定する。なお、本実施形態のＳ２４０にて特定される音節波形それぞれは、当該音節波形にて発声した音節の内容と対応付けられたものである。

さらに、音節波形それぞれから音声パラメータを導出する（Ｓ２５０）。本実施形態のＳ２５０にて導出する音声パラメータには、少なくとも、基本周波数、メル周波数ケプストラム（ＭＦＣＣ）、パワー、それらの時間差分を含む。これらの基本周波数、ＭＦＣＣ、パワーの導出方法は、周知であるため、ここでの詳しい説明は省略するが、例えば、基本周波数であれば、音節波形の時間軸に沿った自己相関、音節波形の周波数スペクトルの自己相関、またはケプストラム法などの手法を用いて導出すれば良い。また、ＭＦＣＣであれば、音節波形に対して時間分析窓を適用して、時間分析窓ごとに周波数解析（例えば、ＦＦＴ）をした結果について、周波数ごとの大きさを対数化した結果を、さらに、周波数解析することで導出すれば良い。パワーについては、音節波形に対して時間分析窓を適用して振幅の二乗した結果を時間方向に積分することで導出すれば良い。

続いて、Ｓ２４０にて特定した各音節波形に対するメタデータを推定するメタデータ推定処理を実行する（Ｓ２６０）。
〈メタデータ推定処理〉
本実施形態におけるメタデータ推定処理は、図４に示すように、起動されると、まず、先のＳ２１０にて取得した楽曲ＭＩＤＩデータに基づいて、当該楽曲において同一の調が継続される各区間である調同一区間を特定する（Ｓ３１０）。具体的に、本実施形態のＳ３１０では、図５に示すように、楽曲ＭＩＤＩデータに含まれる転調フラグに基づき、時間軸に沿って互いに隣接する転調フラグの間の区間を、調同一区間として特定する。

続いて、Ｓ３１０にて特定した調同一区間における主音を特定する（Ｓ３２０）。具体的に、本実施形態のＳ３２０では、図６に示すように、調同一区間において、時間軸に沿って最後の出力音を、当該調同一区間における主音として特定する。本実施形態では、Ｓ３１０にて特定した調同一区間のそれぞれについて、主音を特定する。

そして、Ｓ３２０にて特定した主音の音名を起点とし、当該主音が特定された調同一区間に含まれる出力音それぞれの音名を階級とし、各音名の登場回数を度数としたヒストグラム（以下、登場音名頻度と称す）を導出する（Ｓ３３０）。具体的に、本実施形態のＳ３３０にて導出する登場音名頻度は、図７（Ａ）に示すように、調同一区間に含まれる同一音名の出力音の登場回数（登場頻度）を集計したものである。そして、本実施形態においては、オクターブが異なる出力音であっても、音名が同一であれば、同一音名の出力音として集計する。なお、本実施形態では、各調同一区間について、登場音名頻度を導出する。

続いて、Ｓ３３０にて導出した登場音名頻度を、各調にて利用可能な音名の分布を表すテンプレートとして調ごとに予め用意した調テンプレートに照合した結果に基づいて、当該調同一区間における調を特定する（Ｓ３４０）。具体的に、本実施形態のＳ３４０では、長調の楽曲にて利用可能な音名の分布を表す長調テンプレート（図７（Ｂ）参照）と、短調の楽曲にて利用可能な音名の分布を表す短調テンプレート（図７（Ｃ）参照）とを予め用意し、それぞれの調テンプレートにＳ３３０にて導出した登場音名頻度を照合する。その結果、最も高い相関を示す調テンプレートに対応する調を、当該調同一区間における調として特定する。なお、本実施形態のＳ３４０では、調同一区間のそれぞれについての調を特定する。

さらに、Ｓ３４０で特定した調同一区間における楽曲の調に対応する音声の性質を、メタデータとして特定する（Ｓ３５０）。具体的に、本実施形態のＳ３５０では、調同一区間における調が長調であれば、当該調同一区間での歌詞（即ち、発声内容）が「明るい」という感情を表す音声の性質をメタデータとして特定する。また、調同一区間における調が短調であれば、当該調同一区間での歌詞が「暗い」という感情を表す音声の性質をメタデータとして特定する。なお、本実施形態においては、調同一区間に含まれる全ての音節について、当該調同一区間に対応するメタデータを割り当てている。

その後、パラメータデータ登録処理のＳ２７０へと戻り、Ｓ２５０にて導出した音声パラメータと、Ｓ２６０にて推定したメタデータとを対応する音節ごとに対応付けることで、パラメータデータＰＭを生成しデータ格納サーバ５０に格納するパラメータデータ登録を実行する（Ｓ２７０）。なお、本実施形態のＳ２７０にてデータ格納サーバ５０に格納されるパラメータデータＰＭには、音声パラメータ及びメタデータに加えて、発声した音節の内容（種類）や、ユーザＩＤ、発声者特徴情報を含む。

その後、本パラメータデータ登録処理を終了する。
以上説明したように、図８に示すように、本実施形態のパラメータデータ登録処理では、楽曲の演奏期間中に入力された音声波形を処理対象とする。そして、その音声波形に基づく音声波形データＳＶを、当該楽曲のメロディラインを構成する各出力音の演奏期間に対応する区間（即ち、発声内容に含まれる各音節）ごとに分割して音節波形を生成すると共に、各音節波形から音声パラメータを導出する。

これと共に、パラメータデータ登録処理では、当該楽曲において同一の調が継続する期間（即ち、調同一区間）それぞれを特定し、各調同一区間における調（調性）を特定する。そして、その特定した調からイメージされる感情として予め規定された音声の性質をメタデータとして特定する。

その上で、パラメータデータ登録処理では、対応する音節ごとに、音声パラメータとメタデータとを対応付けてパラメータデータＰＭを生成し、データ格納サーバ５０に格納する。すなわち、データ格納サーバ５０に格納されるパラメータデータＰＭは、図９（Ａ）に示すように、当該楽曲における歌詞構成文字の時間軸に沿った音節の登場順に、メタデータと対応付けられた音声パラメータを含むものである。

なお、本実施形態におけるパラメータデータ登録処理は、ユーザごと、かつ楽曲ごとに実施される。したがって、パラメータデータＰＭは、同一のユーザ，かつ同一の楽曲であっても、当該楽曲を歌唱するごとに、異なるパラメータデータＰＭとして、データ格納サーバに格納される。
〈模範歌声データ登録処理〉
模範歌声データ登録処理は、図１０に示すように、起動されると、先のＳ１２０にて取得された楽曲ＩＤに対応する楽曲ＭＩＤＩデータＤＭを取得する（Ｓ８１０）。続いて、先のＳ１２０にて取得した楽曲ＩＤに対応する歌詞データ群ＤＬを取得する（Ｓ８２０）。さらに、当該楽曲ＩＤに対応するガイドボーカルデータＧＤを取得する（Ｓ８３０）。

その取得したガイドボーカルデータＧＤにおいて、当該ガイドボーカルデータＧＤの発声内容に含まれる音節それぞれに対応する区間での音声波形を特定する（Ｓ８４０）。本実施形態におけるＳ８４０は、パラメータデータ登録処理におけるＳ２４０と同様に実施すれば良い。

さらに、Ｓ８４０にて特定した音声波形のそれぞれから音声パラメータを導出する（Ｓ８５０）。続いて、上述したメタデータ推定処理を実行する（Ｓ８６０）。
その後、Ｓ８５０にて導出した音声パラメータを、Ｓ８６０にて推定したメタデータと対応付けたデータを模範歌声データＥＤとして生成し、データ格納サーバ５０に格納する模範歌声データ登録を実行する（Ｓ８７０）。なお、本実施形態のＳ８７０にて生成される模範歌声データＥＤは、音声パラメータ及びメタデータに加えて、発声した音節の内容（種類）や、楽曲ＩＤを含む。

その後、本模範歌声データ登録処理を終了する。
すなわち、データ格納サーバ５０に格納される模範歌声データＥＤは、図９（Ｂ）に示すように、当該楽曲における歌詞構成文字の時間軸に沿った音節の登場順に、メタデータと対応付けられた音声パラメータを含むものである。

通常、模範歌声データＥＤのメタデータ（図９（Ｂ））と、歌唱者のメタデータ（図９（Ａ））とは、同じ曲で、曲調が一致していれば、メタデータの種類（明るい、暗い）は一致していることが多い。

歌唱者がメジャー調な曲を歌唱すれば、メタデータは「明るい」、マイナー調の曲を歌唱すれば、メタデータは「暗い」となる可能性が高い。
しかし、ユーザが歌唱した曲の曲調と、模範音声として聴きたい曲の曲調と、が異なる場合もある。

このため、更に、適切な音高で聴くためには、ガイドボーカルをメジャー調（明るい）、マイナー調（暗い）の２種類を用意して、２種類のメタデータと音声パラメータとを作成すればよい。

ＣＰＵ２３は、楽曲ＩＤに対応付けられたガイドボーカル種類を特定し、パラメータ登録処理を、ガイドボーカルの種類毎に行うことで、ガイドボーカルの種類数に応じたパラメータデータ登録が行える。

本実施形態における模範歌声データ登録処理は、楽曲ごとに実施される。したがって、模範歌声データＥＤは、一つの楽曲に対して一つ生成され、データ格納サーバ５０に格納される。

本実施例において、ガイドボーカルデータＧＤのメタデータ、音声パラメータは、カラオケ装置側で音楽データＭＤを少なくとも１回（ガイドボーカルがメジャー調、マイナー調の２種類なら、２回）演奏することによって作成している。

予め、音楽データＭＤに歌詞の発生音高（ガイドボーカル）とともに、ガイドボーカルの模範音声データをも、演奏の進行に同期した歌詞の出力タイミングに対応付けて組み込んでおくならば、ガイドボーカルの模範音声データ登録処理は、行わなくてもよい。
〈音声出力端末〉
この音声出力端末６０は、図１に示すように、情報受付部６１と、表示部６２と、音出力部６３と、通信部６４と、記憶部６５と、制御部６７とを備えている。本実施形態における音声出力端末６０として、例えば、携帯電話や携帯情報端末などの周知の携帯端末や、いわゆるパーソナルコンピュータといった周知の情報処理装置を想定しても良い。

このうち、情報受付部６１は、入力装置（図示せず）を介して入力された情報を受け付ける。表示部６２は、制御部６７からの指令に基づいて画像を表示する。音出力部６３は、音を出力する周知の装置であり、例えば、ＰＣＭ音源と、スピーカとを備えている。

通信部６４は、通信網を介して音声出力端末６０が外部との間で情報通信を行うものである。記憶部６５は、記憶内容を読み書き可能に構成された不揮発性の記憶装置である。記憶部６５には、各種処理プログラムや各種データが記憶される。

また、制御部６７は、ＲＯＭ、ＲＡＭ、ＣＰＵを少なくとも有した周知のコンピュータを中心に構成されている。
制御部６７のＲＯＭには、パラメータデータＰＭ及び模範歌声データＥＤに基づいて、楽曲についての理想的な歌唱音声をユーザ自身の音声により実現するように音声合成した合成音を出力する音声合成処理を、制御部６７が実行するための処理プログラムが格納されている。
〈音声合成処理について〉
音声合成処理は、音声出力端末６０の情報受付部６１を介して起動指令が入力されると起動される。

そして、音声合成処理では、図１１に示すように、情報受付部６１を介してユーザＩＤを取得する（Ｓ５１０）。続いて、情報受付部６１を介して楽曲ＩＤを取得する（Ｓ５２０）。

そして、Ｓ５２０にて取得した楽曲ＩＤに対応する模範歌声データＥＤを取得する（Ｓ５３０）。さらに、Ｓ５１０にて取得したユーザＩＤと対応付けられたパラメータデータＰＭの中で、Ｓ５３０にて取得した模範歌声データＥＤに含まれる音声パラメータに最も類似するパラメータデータＰＭを取得する（Ｓ５４０）。なお、Ｓ５４０において、「最も類似」しているものと判定する条件は、例えば、音声パラメータとしての特徴量ごとに導出した相関値の演算結果を、パラメータデータＰＭごとに導出し、その導出した演算結果の中で最も大きい演算結果に対応する音声パラメータを含むパラメータデータＰＭを「最も類似」とすれば良い。

また、メタデータが複数種類（明るい、暗い）存在する、つまり、楽曲ＩＤに対応する模範歌声データＥＤが複数あるならば、メタデータが一致している模範歌声データＥＤを選択すればよい。一致するメタデータ側の音声パラメータを採用することで、更に最適な音声合成が行われる。

続いて、Ｓ５４０にて取得したパラメータデータＰＭに含まれる音声パラメータを、Ｓ５３０にて取得した模範歌声データＥＤに含まれる音声パラメータに一致するように調整する（Ｓ５５０）。その調整された音声パラメータに基づいて、音声合成する（Ｓ５６０）。このＳ５６０における音声合成は、フォルマント合成による周知の音声合成の手法を用いれば良い。なお、楽曲がデュエット曲である場合には、発声者特徴情報からユーザの性別を特定し、デュエット曲の男女パートに一致する歌詞部分を音声合成しても良い。

さらに、Ｓ５６０にて音声合成することによって生成された合成音を音出力部６３から出力する（Ｓ５７０）。
本実施形態においては、Ｓ５３０からＳ５７０の各ステップを、楽曲での時間軸に沿って順次実行する。具体的には、当該楽曲の楽曲ＭＩＤＩデータＤＭに基づいて、各楽音の出力タイミングにて、各音節に対する合成音が出力されるように音声合成を実行する。

なお、Ｓ５２０にて取得した楽曲ＩＤに対応する楽曲の演奏が終了するまで（Ｓ５８０：ＮＯ）、Ｓ５３０からＳ５７０を繰り返す。そして、当該楽曲の演奏が終了すると（Ｓ５８０：ＹＥＳ）、本音声合成処理を終了する。
［第一実施形態の効果］
以上説明したように、音声合成システム１によれば、一つの楽曲をユーザが歌唱後に、模範歌唱状態のユーザ音声を聴くことができる。つまり、音声合成システム１によれば、ユーザの歌声から導出した音声パラメータを用いて、楽曲における発声開始タイミングかつ発声音高にて音声が出力されるように、ユーザ自身の声による音声合成を実施できる。

しかも、音声合成システム１においては、一つの楽曲について模範歌声データＥＤを生成した後は、他の楽曲については、該当する楽曲データＭＤを演奏するだけで、ユーザ側は毎回歌唱して模範歌声データＥＤを生成する必要がない。

以上のことから、音声合成システム１によれば、ユーザ自身が楽曲を歌唱している期間以外にも、ユーザ自身の歌声音声を当該楽曲も含め、様々な楽曲をユーザ自身の声で、かつ適切な音高で聴取可能とすることができる。

なお、本実施形態のメタデータ推定処理では、対象楽曲における各調同一区間の調によって表される可能性が高い歌唱者の感情をメタデータとしている。すなわち、本実施形態のメタデータ推定処理によれば、各調同一区間に対応する歌詞を発声したときの発声者の感情をメタデータとすることができ、しかも、各調同一区間における調を確実に特定することができる。
［第二実施形態］
第二実施形態の音声合成システムは、第一実施形態の音声合成システム１とは、主として、メタデータ推定処理の処理内容が異なる。このため、本実施形態においては、第一実施形態と同様の構成及び処理には、同一の符号を付して説明を省略し、第一実施形態とは異なるメタデータ推定処理を中心に説明する。
〈メタデータ推定処理〉
本実施形態のメタデータ推定処理は、図１２に示すように、パラメータデータ登録処理のＳ２６０にて起動されると、先のＳ２１０にて取得した歌詞データ群ＤＬに含まれている歌詞テロップデータＤＴによって表される歌詞を形態素解析する（Ｓ７１０）。すなわち、本実施形態のＳ７１０では、形態素解析を実行することで、歌詞を構成する文字列を、当該歌詞中の単語を構成する文字列である単語文字ごとに分割する。なお、Ｓ７１０にて実行する形態素解析は、周知の処理であるため、ここでの詳しい説明は省略する。

続いて、予め用意された単語性質テーブルが格納された単語メタデータデータベース（図中ＤＢ）１００から、Ｓ７１０の形態素解析した結果である単語ごとに単語性質情報を取得する（Ｓ７２０）。ただし、ここで言う単語性質テーブルとは、各単語の性質を表す単語性質情報を当該単語の識別情報と対応付けたテーブルである。また、ここで言う単語の性質とは、当該単語の意味や、当該単語によって表される感情を含む。

そして、Ｓ７２０にて取得した単語性質情報をメタデータとして、当該単語を発声した区間に割り当てる（Ｓ７３０）。
その後、本メタデータ推定処理を終了して、パラメータデータ登録処理へと戻る。

以上説明したように、本実施形態のメタデータ推定処理では、図１３に示すように、対象楽曲の歌詞に対して形態素解析を実行し、対象楽曲の歌詞を、単語を構成する文字列である単語文字ごとに分割する。その上で、予め用意された単語メタデータデータベース１００に格納されている単語性質テーブルに含まれる単語性質情報の中から、各単語に対応する単語性質情報を取得し、当該単語性質情報のそれぞれを、対応する音節の音声パラメータに対するメタデータとしている。
［第二実施形態の効果］
以上説明したように、本実施形態のメタデータ推定処理によれば、発声者が発声した単語の意味や、当該単語によって表される感情などを、メタデータとすることができる。
［その他の実施形態］
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。

例えば、音声合成システム１においては、情報格納サーバ２５が設けられていたが、本発明の音声合成システムにおいては、情報格納サーバ２５は設けられていなくとも良い。この場合、音楽データＭＤや音声波形データＳＶは、音声入力装置１０の記憶部１７に格納されても良いし、データ格納サーバ５０に格納されても良いし、さらには、情報処理装置３０の記憶部３４に格納されても良い。

同様に、音声合成システム１においては、データ格納サーバ５０が設けられていたが、音声合成システム１においては、データ格納サーバ５０は設けられていなくとも良い。この場合、パラメータデータＰＭや模範歌声データＥＤは、情報処理装置３０の記憶部３４に格納されても良いし、音声入力装置１０の記憶部１７に格納されても良いし、さらには、情報格納サーバ２５に格納されても良い。

なお、上記実施形態における模範歌声データＥＤは、模範歌声データ登録処理を実行することで生成されていたが、模範歌声データＥＤは、予め音楽データＭＤに組み込まれていても良い。この場合、楽曲ＩＤに対応した理想的な音声波形データＳＶｒ，及びその音声波形データＳＶｒに基づく音声パラメータを含むデータが模範歌声データＥＤとして、組み込まれていても良い。音楽データＭＤに組み込む場合には、当然のことながら、模範歌声データＥＤを含む、１つの音楽データＭＤを記憶すればよい。

また、音声合成システム１は、音声入力装置１０と、情報処理装置３０と、音声出力端末６０とを別個に備えていたが、これらの音声入力装置１０と、情報処理装置３０と、音声出力端末６０とは共通した装置であっても良い。すなわち、音声入力装置１０（即ち、カラオケ装置）は、情報処理装置３０、及び音声出力端末６０の少なくとも一方を兼ねても良い。
［実施形態と特許請求の範囲との対応関係］
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。

上記実施形態におけるカラオケ演奏処理が、本発明における発声情報取得手段に相当し、パラメータデータ登録処理におけるＳ２３０が、本発明における波形取得手段に相当し、Ｓ２５０が、本発明におけるパラメータ導出手段に相当し、Ｓ２７０が、本発明におけるパラメータ登録手段に相当し、パラメータ登録処理におけるＳ１４０が、本発明における模範記憶手段に相当する。

さらに、上記実施形態における音声合成処理におけるＳ５１０，Ｓ５２０が、本発明における識別情報取得手段に相当し、Ｓ５４０が、本発明におけるパラメータ取得手段に相当し、Ｓ５３０が、本発明における模範取得手段に相当する。そして、音声合成処理におけるＳ５５０，Ｓ５６０が、本発明における音声合成手段に相当し、Ｓ５７０が、本発明における出力手段に相当する。

また、上記第一実施形態のメタデータ推定処理におけるＳ３１０が、特許請求の範囲の記載における区間特定手段に相当し、Ｓ３２０が、特許請求の範囲の記載における主音特定手段に相当し、Ｓ３３０が、特許請求の範囲の記載における音名頻度導出手段に相当し、Ｓ３４０，Ｓ３５０が、調推定手段に相当する。さらに、上記第二実施形態のメタデータ推定処理におけるＳ７１０が、特許請求の範囲の記載における単語分割手段に相当し、Ｓ７２０，Ｓ７２０が、メタデータ抽出手段に相当する。

１…音声合成システム１０…音声入力装置１１…通信部１２…入力受付部１３…表示部１４…音声入力部１５…音声出力部１６…音源モジュール１７…記憶部２０…制御部２１，４１…ＲＯＭ２２，４２…ＲＡＭ２３，４３…ＣＰＵ２５…ＭＩＤＩ格納サーバ３０…情報処理装置３１…通信部３２…入力受付部３３…表示部３４…記憶部４０…制御部５０…データ格納サーバ６０…音声出力端末６１…情報受付部６２…表示部６３…音出力部６４…通信部６５…記憶部６７…制御部１００…単語メタデータデータベース

Claims

楽曲を識別する楽曲ＩＤ，当該楽曲ＩＤによって識別される楽曲を構成する楽音を表す演奏情報，当該楽曲ＩＤによって識別される楽曲の歌詞を表す歌詞情報，当該歌詞情報によって表される歌詞の発声開始タイミングを示す発声タイミング情報を含む楽曲データから、前記楽曲ＩＤ，前記演奏情報，前記歌詞情報，前記発声タイミング情報を取得して前記楽曲データに基づく楽曲を再生する発声情報取得手段と、
前記楽曲データに基づく楽曲の再生中に、前記歌詞の発声開始タイミングで、入力された音声波形を取得する波形取得手段と、
前記音声波形から、前記歌詞を形成する各音節に対する音声波形である音節波形を抽出すると共に、その抽出した各音節波形から、予め規定された少なくとも一つの特徴量である音声パラメータを導出するパラメータ導出手段と、
前記パラメータ導出手段で導出された前記音節ごとの音声パラメータを、当該楽曲を歌唱したユーザを識別するユーザＩＤと対応付けて、第一記憶装置に記憶するパラメータ登録手段と、
各楽曲についての理想的な歌唱音声に基づく、少なくとも１つの音声パラメータを含む模範音声データを、前記楽曲ＩＤと対応付けて第二記憶装置に記憶する模範記憶手段と、
を有したパラメータ抽出装置と、
指定された楽曲ＩＤ、及びユーザＩＤを取得する識別情報取得手段と、
前記識別情報取得手段で取得した前記楽曲ＩＤと対応付けられた模範歌声データを前記第二記憶装置から取得する模範取得手段と、
前記第一記憶装置に記憶されている音声パラメータの中から、前記識別情報取得手段で取得した前記ユーザＩＤと対応付けられた音声パラメータであって、前記模範取得手段で取得した模範音声データに含まれる楽曲ＩＤと対応付けられた音声パラメータに最も類似する音声パラメータを取得するパラメータ取得手段と、
前記パラメータ取得手段で取得した音声パラメータを、前記楽曲ＩＤと対応付けられた音声パラメータに一致するように調整し、その調整された音声パラメータに基づいて音声合成する音声合成手段と、
前記音声合成手段にて音声合成することで生成された合成音を出力する出力手段と、
を有した合成音出力装置と
を備え、
前記発声情報取得手段は、
楽曲の一つである対象楽曲の楽譜を表し、音源モジュールから出力される個々の出力音について、少なくとも音高及び演奏開始タイミングが規定された楽譜データを前記演奏情報として取得し、
前記楽譜データは、
前記対象楽曲の曲中において転調していれば、時間軸に沿って前記対象楽曲が転調した時刻を表す転調フラグを含み、
前記パラメータ登録手段は、
取得した楽譜データに基づいて、前記対象楽曲において同一の調が継続される各区間である調同一区間を特定する区間特定手段と、
前記区間特定手段にて特定した各調同一区間に含まれ、それぞれの調同一区間における時間軸に沿った最後の出力音を主音として特定する主音特定手段と、
前記区間特定手段にて特定した調同一区間に含まれる同一音名の出力音の頻度を表す登場音名頻度を、前記主音特定手段で特定した主音の音名を起点として前記調同一区間ごとに導出する音名頻度導出手段と、
各調にて利用可能な音名の分布を表すテンプレートとして調ごとに予め用意した調テンプレートに、前記音名頻度導出手段で導出した各登場音名頻度を照合した結果、最も相関が高い調それぞれを、メタデータとして推定する調推定手段と、
を備え、
前記調推定手段にて推定したメタデータを、前記音声パラメータと対応付けて前記第一記憶装置に記憶することを特徴とする音声合成システム。
前記発声情報取得手段は、
前記対象楽曲の歌詞を構成する歌詞構成文字の文字列を、前記歌詞情報として取得し、
前記歌詞構成文字の少なくとも１つに対する出力タイミングが、当該歌詞構成文字に対応する前記出力音の演奏開始タイミングと対応付けられた歌詞出力タイミングを、前記発声タイミング情報として取得し、
前記波形取得手段は、
前記楽譜データに基づく前記対象楽曲の演奏中に入力された音声が時間軸に沿って推移した波形を、前記音声波形として取得し、
前記パラメータ導出手段は、
前記音声波形において、個々の出力音に対応する区間での音声波形を、前記音節波形として抽出する
ことを特徴とする請求項１に記載の音声合成システム。
楽曲を識別する楽曲ＩＤ，当該楽曲ＩＤによって識別される楽曲を構成する楽音を表す演奏情報，当該楽曲ＩＤによって識別される楽曲の歌詞を表す歌詞情報，当該歌詞情報によって表される歌詞の発声開始タイミングを示す発声タイミング情報を含む楽曲データから、前記楽曲ＩＤ，前記演奏情報，前記歌詞情報，前記発声タイミング情報を取得して前記楽曲データに基づく楽曲を再生する発声情報取得手段と、
前記楽曲データに基づく楽曲の再生中に、前記歌詞の発声開始タイミングで、入力された音声波形を取得する波形取得手段と、
前記音声波形から、前記歌詞を形成する各音節に対する音声波形である音節波形を抽出すると共に、その抽出した各音節波形から、予め規定された少なくとも一つの特徴量である音声パラメータを導出するパラメータ導出手段と、
前記パラメータ導出手段で導出された前記音節ごとの音声パラメータを、当該楽曲を歌唱したユーザを識別するユーザＩＤと対応付けて、第一記憶装置に記憶するパラメータ登録手段と、
各楽曲についての理想的な歌唱音声に基づく、少なくとも１つの音声パラメータを含む模範音声データを、前記楽曲ＩＤと対応付けて第二記憶装置に記憶する模範記憶手段と、
を有したパラメータ抽出装置と、
指定された楽曲ＩＤ、及びユーザＩＤを取得する識別情報取得手段と、
前記識別情報取得手段で取得した前記楽曲ＩＤと対応付けられた模範歌声データを前記第二記憶装置から取得する模範取得手段と、
前記第一記憶装置に記憶されている音声パラメータの中から、前記識別情報取得手段で取得した前記ユーザＩＤと対応付けられた音声パラメータであって、前記模範取得手段で取得した模範音声データに含まれる楽曲ＩＤと対応付けられた音声パラメータに最も類似する音声パラメータを取得するパラメータ取得手段と、
前記パラメータ取得手段で取得した音声パラメータを、前記楽曲ＩＤと対応付けられた音声パラメータに一致するように調整し、その調整された音声パラメータに基づいて音声合成する音声合成手段と、
前記音声合成手段にて音声合成することで生成された合成音を出力する出力手段と、
を有した合成音出力装置と
を備え、
前記パラメータ登録手段は、
前記発声情報取得手段で取得した歌詞情報によって表される文字列を、単語を構成する文字列である単語文字ごとに分割する単語分割手段と、
各単語の性質を表す性質情報を、当該単語の識別情報と対応付けた単語性質テーブルを予め用意し、前記単語分割手段で分割された各単語文字によって表される単語に対応する前記性質情報をメタデータとして、前記単語性質テーブルから抽出するメタデータ抽出手段と
を備え、
前記メタデータ抽出手段にて抽出したメタデータを、前記音声パラメータを対応付けて前記第一記憶装置に記憶することを特徴とする音声合成システム。
楽曲を識別する楽曲ＩＤ，当該楽曲ＩＤによって識別される楽曲を構成する楽音を表す演奏情報，当該楽曲ＩＤによって識別される楽曲の歌詞を表す歌詞情報，当該歌詞情報によって表される歌詞の発声開始タイミングを示す発声タイミング情報を含む楽曲データから、前記楽曲ＩＤ，前記演奏情報，前記歌詞情報，前記発声タイミング情報を取得して前記楽曲データに基づく楽曲を再生する発声情報取得手段と、
前記楽曲データに基づく楽曲の再生中に、前記歌詞の発声開始タイミングで、入力された音声波形を取得する波形取得手段と、
前記音声波形から、前記歌詞を形成する各音節に対する音声波形である音節波形を抽出すると共に、その抽出した各音節波形から、予め規定された少なくとも一つの特徴量である音声パラメータを導出するパラメータ導出手段と、
前記パラメータ導出手段で導出された前記音節ごとの音声パラメータを、当該楽曲を歌唱したユーザを識別するユーザＩＤと対応付けて、第一記憶装置に記憶するパラメータ登録手段と、
各楽曲についての理想的な歌唱音声に基づく、少なくとも１つの音声パラメータを含む模範音声データを、前記楽曲ＩＤと対応付けて第二記憶装置に記憶する模範記憶手段と、
を備え、
前記発声情報取得手段は、
楽曲の一つである対象楽曲の楽譜を表し、音源モジュールから出力される個々の出力音について、少なくとも音高及び演奏開始タイミングが規定された楽譜データを前記演奏情報として取得し、
前記楽譜データは、
前記対象楽曲の曲中において転調していれば、時間軸に沿って前記対象楽曲が転調した時刻を表す転調フラグを含み、
前記パラメータ登録手段は、
取得した楽譜データに基づいて、前記対象楽曲において同一の調が継続される各区間である調同一区間を特定する区間特定手段と、
前記区間特定手段にて特定した各調同一区間に含まれ、それぞれの調同一区間における時間軸に沿った最後の出力音を主音として特定する主音特定手段と、
前記区間特定手段にて特定した調同一区間に含まれる同一音名の出力音の頻度を表す登場音名頻度を、前記主音特定手段で特定した主音の音名を起点として前記調同一区間ごとに導出する音名頻度導出手段と、
各調にて利用可能な音名の分布を表すテンプレートとして調ごとに予め用意した調テンプレートに、前記音名頻度導出手段で導出した各登場音名頻度を照合した結果、最も相関が高い調それぞれを、メタデータとして推定する調推定手段と、
を備え、
前記調推定手段にて推定したメタデータを、前記音声パラメータと対応付けて前記第一記憶装置に記憶することを特徴とするパラメータ抽出装置。
楽曲を識別する楽曲ＩＤ，当該楽曲ＩＤによって識別される楽曲を構成する楽音を表す演奏情報，当該楽曲ＩＤによって識別される楽曲の歌詞を表す歌詞情報，当該歌詞情報によって表される歌詞の発声開始タイミングを示す発声タイミング情報を含む楽曲データから、前記楽曲ＩＤ，前記演奏情報，前記歌詞情報，前記発声タイミング情報を取得して前記楽曲データに基づく楽曲を再生する発声情報取得手段と、
前記楽曲データに基づく楽曲の再生中に、前記歌詞の発声開始タイミングで、入力された音声波形を取得する波形取得手段と、
前記音声波形から、前記歌詞を形成する各音節に対する音声波形である音節波形を抽出すると共に、その抽出した各音節波形から、予め規定された少なくとも一つの特徴量である音声パラメータを導出するパラメータ導出手段と、
前記パラメータ導出手段で導出された前記音節ごとの音声パラメータを、当該楽曲を歌唱したユーザを識別するユーザＩＤと対応付けて、第一記憶装置に記憶するパラメータ登録手段と、
各楽曲についての理想的な歌唱音声に基づく、少なくとも１つの音声パラメータを含む模範音声データを、前記楽曲ＩＤと対応付けて第二記憶装置に記憶する模範記憶手段と、
を備え、
前記パラメータ登録手段は、
前記発声情報取得手段で取得した歌詞情報によって表される文字列を、単語を構成する文字列である単語文字ごとに分割する単語分割手段と、
各単語の性質を表す性質情報を、当該単語の識別情報と対応付けた単語性質テーブルを予め用意し、前記単語分割手段で分割された各単語文字によって表される単語に対応する前記性質情報をメタデータとして、前記単語性質テーブルから抽出するメタデータ抽出手段と
を備え、
前記メタデータ抽出手段にて抽出したメタデータを、前記音声パラメータを対応付けて前記第一記憶装置に記憶することを特徴とするパラメータ抽出装置。