JP2016183998A

JP2016183998A - 音声合成装置、及びプログラム

Info

Publication number: JP2016183998A
Application number: JP2015062816A
Authority: JP
Inventors: 典昭阿瀬見; Noriaki Asemi
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2015-03-25
Filing date: 2015-03-25
Publication date: 2016-10-20
Anticipated expiration: 2035-03-25
Also published as: JP6260565B2

Abstract

【課題】模範ボーカルと歌唱音声との乖離を可能な限り抑制しつつ、利用者に違和感を与えることを低減すること。【解決手段】カラオケ装置は、音声データを取得して（Ｓ１３０）分析し、音声特徴量を導出する（Ｓ１４０〜Ｓ１９０）。その導出した音声特徴量を発声スタイルデータに照合した結果、類似度が最も高い発声スタイルデータに対応する発声スタイルを、音声データにおける発声スタイルとして特定する（Ｓ２００）。発声スタイルデータとは、発声の態様を表す発声スタイルごとに、当該発声スタイルの特徴を表す音声パラメータを規定したデータである。そして、模範ボーカルの音声合成に必要なパラメータとして予め規定された基準パラメータを、特定された発声スタイルにおける音声パラメータに近づけるように修正する（Ｓ２２０）。その修正された音声パラメータを用いて音声合成した合成音を出力する（Ｓ２３０）。【選択図】図３

Description

本発明は、合成音を生成する音声合成装置、及びプログラムに関する。

従来、楽曲を演奏すると共に、その演奏に併せてマイクを介して入力されたユーザの歌唱音声をスピーカから出力する機能を備えたカラオケ装置が知られている。さらに、カラオケ装置の機能を備えた音声合成装置では、楽曲のメロディと歌詞とから音声合成した合成音声音データ（後述する模範ボーカルとして機能）を生成して放音している（特許文献１参照）。

特開２００９−２１７１４１号公報

ところで、カラオケ装置においては、ユーザの歌唱力向上のために、楽曲の演奏に沿って、歌唱の模範となる歌声である模範ボーカル（ガイドボーカルとも称す）を音声合成によって出力している。

この模範ボーカルと歌唱音声との間の乖離が大きいと、その利用者の歌唱が上手くないように聞こえてしまうという課題がある。
この課題を解決するために、特許文献１に記載された技術では、利用者の歌唱音声に近似するように、模範ボーカルを音声合成している。

しかしながら、模範ボーカルを歌唱音声に近似させ過ぎると、歌唱力の向上を促すという模範ボーカルの本来の機能を発揮できない。
つまり、従来技術では、ユーザ自身の歌唱スタイルに合った模範ボーカルを音声合成して出力できず、利用者に違和感を与えるという課題が生じる。

換言すれば、従来の技術では、模範ボーカルと歌唱音声との乖離を可能な限り抑制しつつ、利用者に違和感を与えることを低減することが困難であるという課題があった。
そこで、本発明は、模範ボーカルと歌唱音声との乖離を可能な限り抑制しつつ、利用者に違和感を与えることを低減することを目的とする。

上記目的を達成するためになされた本発明の一態様は、取得手段と、分析手段と、スタイル特定手段と、修正手段と、合成手段とを備える音声合成装置である。
取得手段は、対象楽曲の演奏中に入力された音声の波形を表す音声データを取得する。ここで言う対象楽曲は、複数の音符のうちの少なくとも一部に歌詞が割り当てられた楽曲であり、かつ、指定された楽曲である。

分析手段は、取得手段で取得した音声データを分析し、予め規定された少なくとも１つの音声パラメータを含む音声特徴量を導出する。スタイル特定手段は、分析手段で導出した音声特徴量を発声スタイルデータに照合した結果、類似度が最も高い発声スタイルデータに対応する発声スタイルを、音声データにおける発声スタイルとして特定する。ここで言う発声スタイルデータとは、発声の態様を表す発声スタイルごとに、当該発声スタイルの特徴を表す少なくとも１つの音声パラメータを規定したデータである。

さらに、修正手段は、スタイル特定手段で特定された発声スタイルにおける音声パラメータに近づけるように、基準パラメータを修正する。ここで言う基準パラメータとは、予め規定された音声パラメータであり、対象楽曲における歌詞を歌唱した模範ボーカルの音声合成に必要な音声パラメータである。

そして、合成手段は、修正手段で修正された音声パラメータを用いて音声合成した合成音を出力する。
このような音声合成装置によれば、利用者の発声スタイルに近い発声スタイルの合成音による模範ボーカルを出力できる。この結果、音声合成装置によれば、模範ボーカルと歌唱音声との間の乖離を小さくでき、その歌唱が上手くないように聞こえることを低減できる。

つまり、音声合成装置によれば、ユーザ自身の歌唱スタイルに合った模範ボーカルを音声合成して出力できる。これにより、音声合成装置によれば、利用者が違和感を覚えることを低減できる。

換言すれば、音声合成装置によれば、模範ボーカルと歌唱音声との乖離を可能な限り抑制しつつ、利用者に違和感を与えることを低減できる。
分析手段は、音声データの周波数に関するパラメータである周波数パラメータを音声パラメータとして導出してもよい。この場合、発声スタイルデータには、発声スタイルの特徴を表す少なくとも１つの音声パラメータとして、周波数パラメータが含まれてもよい。

このような音声合成装置によれば、周波数パラメータを音声パラメータとして導出して、発声スタイルデータに照合できる。これにより、音声合成装置によれば、利用者の発声スタイルに近い発声スタイルの合成音（模範ボーカル）となるように周波数パラメータを修正できる。

さらに、対象楽曲には、時間軸に沿って隣接する２つの音符であって、互いに音高が異なる２つの音符が含まれてもよい。この場合、分析手段は、２つの音符における音高の移行区間において、音高の変化が開始される開始タイミング、及び音高の変化が終了される終了タイミングでの、音声データにおける音高推移の傾きを、周波数パラメータとして導出してもよい。

このような音声合成装置によれば、音声データにおける音高推移の傾きを周波数パラメータとして導出できる。このような周波数パラメータを用いて発声スタイルを特定することで、「しゃくり」などの歌唱技巧を発声スタイルの一例として特定できる。

さらに、音声合成装置の分析手段によれば、歌詞が割り当てられた音符に対応する区間における周波数、周波数の深さ、及び周波数スペクトルの包絡のうちの少なくとも１つを周波数パラメータとして導出できる。

ところで、分析手段は、音声データにおける発声のタイミングに関するタイミングパラメータを音声パラメータとして導出してもよい。この場合、発声スタイルデータには、発声スタイルの特徴を表す少なくとも１つの音声パラメータとして、タイミングパラメータが含まれていてもよい。

このような音声合成装置によれば、タイミングパラメータを音声パラメータとして導出できる。これにより、音声合成装置によれば、利用者の発声スタイルに近い発声スタイルの合成音（模範ボーカル）となるようにタイミングパラメータを修正できる。

さらに、音声合成装置における分析手段は、歌詞が割り当てられた音符である特定音符において発声を開始すべき発声開始タイミングと、音声データにおいて特定音符それぞれの発声開始時刻との差分の代表値であるタメ時間を、タイミングパラメータとして導出してもよい。

このような音声合成装置によれば、発声開始タイミングと発声開始時刻との差分の代表値であるタメ時間をタイミングパラメータとして導出できる。このようなタイミングパラメータを用いて発声スタイルを特定することで、「ため」などの歌唱技巧を発声スタイルの一例として特定できる。

なお、本発明の他の態様は、取得手順と、分析手順と、スタイル特定手順と、修正手順と、合成手順とをコンピュータに実行させるプログラムであってもよい。
取得手順では、対象楽曲の演奏中に入力された音声の波形を表す音声データを取得する。分析手順では、音声データを分析し、音声特徴量を導出する。

スタイル特定手順では、発声スタイルデータに音声特徴量を照合した結果、類似度が最も高い発声スタイルデータに対応する発声スタイルを、音声データにおける発声スタイルとして特定する。修正手順では、模範ボーカルの音声合成に必要なパラメータとして予め規定された基準パラメータを、特定された発声スタイルにおける音声パラメータに近づけるように修正する。さらに、合成手順では、修正された音声パラメータを用いて音声合成した合成音を出力する。

このように、本発明がプログラムとしてなされていれば、記録媒体から必要に応じてコンピュータにロードさせて起動することや、必要に応じて通信回線を介してコンピュータに取得させて起動することにより用いることができる。そして、コンピュータに各手順を実行させることで、そのコンピュータを音声合成装置として機能させることができる。

なお、ここで言う記録媒体には、例えば、ＤＶＤ−ＲＯＭ、ＣＤ−ＲＯＭ、ハードディスク等のコンピュータ読み取り可能な電子媒体を含む。

音声合成システムの概略構成を示すブロック図である。発声スタイルデータを例示する説明図である。再生処理の処理手順を示すフローチャートである。ピッチ遷移分析の処理概要を例示する説明図である。設定変更の概要を示す説明図である。

以下、本発明の実施形態を図面と共に説明する。
＜音声合成システム＞
図１に示す音声合成システム１は、利用者が指定した楽曲（以下、対象楽曲と称す）の模範ボーカルを音声合成にて生成して出力するシステムである。ここで言う模範ボーカルとは、対象楽曲における歌詞を当該歌詞が割り当てられた音符の音高及び音符長で歌唱した音声である。

音声合成システム１は、情報処理サーバ１０と、カラオケ装置３０とを備えている。
情報処理サーバ１０には、少なくとも、ＭＩＤＩ楽曲ＭＤが格納されている。
カラオケ装置３０は、情報処理サーバ１０に記憶され、かつ対象楽曲に対応するＭＩＤＩ楽曲ＭＤを演奏する。さらに、カラオケ装置３０は、その楽曲を歌唱した合成音声を音源データＰＤに従って生成し、模範ボーカルとして出力する。なお、音声合成システム１は、複数のカラオケ装置３０を備えている。
＜ＭＩＤＩ楽曲＞
ＭＩＤＩ楽曲ＭＤは、楽曲ごとに予め用意されたデータであり、楽曲データと、歌詞データと、楽曲情報とを有している。

このうち、楽曲データは、周知のＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）規格によって、一つの楽曲の楽譜を表したデータである。この楽曲データは、楽譜を表す楽譜トラックを少なくとも有している。その楽譜トラックには、少なくとも、楽曲の主旋律を表す主旋律楽譜トラックと、主旋律以外の旋律である副旋律を表す副旋律楽譜トラックとを含む。

これらの楽譜トラックには、ＭＩＤＩ音源から出力される個々の演奏音について、少なくとも、音高（いわゆるノートナンバー）と、ＭＩＤＩ音源が演奏音を出力する期間（以下、音符長と称す）とが規定されている。楽譜トラックにおける音符長は、当該演奏音のノートオンタイミングと、当該演奏音のノートオフタイミングとによって規定されている。

一方、歌詞データは、楽曲の歌詞に関するデータであり、歌詞テキストデータと、歌詞出力データとを備えている。歌詞テキストデータは、楽曲の歌詞を構成する文字（以下、歌詞構成文字とする）を表す。歌詞出力データは、歌詞構成文字の出力タイミングである歌詞出力タイミングを、楽曲データの演奏と対応付けるタイミング対応関係が規定されたデータである。このタイミング対応関係においては、楽曲の主旋律を構成する演奏音（即ち、音符）のうちの少なくとも一部の音符に歌詞構成文字を割り当てることが規定されている。ここで言う「少なくとも一部の音符」とは、前奏や間奏を除くという意味を含むものである。したがって、歌詞構成文字は、例えば、Ａメロや、Ｂメロ、サビなどのフレーズごとに、当該フレーズを構成する演奏音に割り当てられている。

楽曲情報は、楽曲に関する情報（例えば、楽曲名、アーティスト名など）であり、楽曲を識別する識別情報（即ち、楽曲ＩＤ）を含む。
＜情報処理サーバ＞
情報処理サーバ１０は、通信部１２と、記憶部１４と、制御部１６とを備えている。

このうち、通信部１２は、通信網を介して、情報処理サーバ１０が外部との間で通信を行う。すなわち、情報処理サーバ１０は、通信網を介してカラオケ装置３０と接続されている。なお、ここで言う通信網は、有線による通信網であっても良いし、無線による通信網であっても良い。

記憶部１４は、記憶内容を読み書き可能に構成された周知の記憶装置である。この記憶部１４には、複数のＭＩＤＩ楽曲ＭＤが記憶される。なお、図１に示す符号「ｎ」は、情報処理サーバ１０の記憶部１４に記憶されているＭＩＤＩ楽曲ＭＤを識別する識別子であり、楽曲ごとに割り当てられている。この符号「ｎ」は、１以上の自然数である。

制御部１６は、ＲＯＭ１８，ＲＡＭ２０，ＣＰＵ２２を備えた周知のマイクロコンピュータを中心に構成された周知の制御装置である。ＲＯＭ１８は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを記憶する。ＲＡＭ２０は、処理プログラムやデータを一時的に記憶する。ＣＰＵ２２は、ＲＯＭ１８やＲＡＭ２０に記憶された処理プログラムに従って各処理を実行する。
＜カラオケ装置＞
カラオケ装置３０は、通信部３２と、入力受付部３４と、楽曲再生部３６と、記憶部３８と、音声制御部４０と、映像制御部４６と、制御部５０とを備えている。

通信部３２は、通信網を介して、カラオケ装置３０が外部との間で通信を行う。入力受付部３４は、外部からの操作に従って情報や指令の入力を受け付ける入力機器である。ここでの入力機器とは、例えば、キーやスイッチ、リモコンの受付部などである。

楽曲再生部３６は、情報処理サーバ１０からダウンロードしたＭＩＤＩ楽曲ＭＤに基づく楽曲の演奏を実行する。この楽曲再生部３６は、例えば、ＭＩＤＩ音源である。音声制御部４０は、音声の入出力を制御するデバイスであり、出力部４２と、マイク入力部４４とを備えている。

マイク入力部４４には、マイク６２が接続される。これにより、マイク入力部４４は、マイク６２を介して入力された音声を取得する。出力部４２は、楽曲再生部３６によって再生される楽曲の音源信号、マイク入力部４４からの歌唱音の音源信号をスピーカ６０に出力する。スピーカ６０は、出力部４２から出力される音源信号を音に換えて出力する。

映像制御部４６は、制御部５０から送られてくる映像データに基づく映像または画像の出力を行う。映像制御部４６には、映像または画像を表示する表示部６４が接続されている。

記憶部３８は、記憶内容を読み書き可能に構成された周知の記憶装置である。この記憶部３８には、音源データＰＤが格納される。この音源データＰＤは、合成音声の生成（即ち、音声合成）に必要となるデータである。本実施形態における音源データＰＤは、フォルマント合成に用いる各種パラメータである。

さらに、記憶部３８には、再生処理にて用いる発声スタイルデータＳＤが格納されている。この発声スタイルデータＳＤは、図２に示すように、発声スタイルのそれぞれでの歌唱における代表的な音声パラメータを予め規定したものである。ここで言う発声スタイルとは、例えば「演歌」，「ロック」，「ポップス」などの音楽のジャンル（歌唱スタイル）であっても良いし、楽曲におけるその他の特徴であってもよい。

さらに、ここで言う音声パラメータとは、音声の特徴を表す特徴量である。この特徴量として、詳しくは後述する「タメ時間」、「音高変化微分（開始）」、「音高変化微分（終了）」、「音高一致度」、「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時刻」、「音量平均」、「音量微分平均」、「スペクトル変動指数」を含む。

制御部５０は、ＲＯＭ５２，ＲＡＭ５４，ＣＰＵ５６を少なくとも有した周知のコンピュータを中心に構成されている。ＲＯＭ５２は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを記憶する。ＲＡＭ５４は、処理プログラムやデータを一時的に記憶する。ＣＰＵ５６は、ＲＯＭ５２やＲＡＭ５４に記憶された処理プログラムに従って各処理を実行する。

本実施形態のＲＯＭ５２には、再生処理を制御部５０が実行するための処理プログラムが記憶されている。
＜再生処理＞
この再生処理は、対象楽曲の再生順序となると起動される。

そして、再生処理が起動されると、図３に示すように、制御部５０は、まず、対象楽曲の識別番号（楽曲ＩＤ）を取得する（Ｓ１１０）。続いて、制御部５０は、Ｓ１１０で取得した楽曲ＩＤを含むＭＩＤＩ楽曲ＭＤを情報処理サーバ１０から取得する（Ｓ１２０）。さらに、Ｓ１２０では、制御部５０は、取得したＭＩＤＩ楽曲ＭＤに含まれる楽曲データに基づいて、対象楽曲の再生を実行する。

続いて、再生処理では、制御部５０は、対象フレーズの演奏中にマイク６２を介して入力された音声を音声データとして取得する（Ｓ１３０）。ここで言う対象フレーズとは、ＭＩＤＩ楽曲ＭＤにおける再生中のフレーズである。このフレーズとは、例えば、Ａメロ，Ｂメロ，サビなどである。

そして、制御部５０は、Ｓ１３０で取得した音声データを音響分析する（Ｓ１４０）。このＳ１４０における音響分析では、制御部５０は、周波数スペクトル推移、基本周波数推移、及び音圧推移を導出する。周波数スペクトル推移の導出では、制御部５０は、まず、予め規定された単位時間の分析窓を、互いに隣接かつ少なくとも一部が重複するように音声データに対して設定する。そして、音響分析では、制御部５０は、音声データの分析窓それぞれについて、周波数解析（例えば、ＤＦＴ）を実施する。この周波数解析を分析窓ごとに実行した結果を時間軸に沿って配置することで、周波数スペクトル推移を導出する。

また、基本周波数推移の導出方法の一例としては、設定された分析窓それぞれの音声データについて周波数解析（例えば、ＤＦＴ）を実行し、自己相関の結果、最も強い周波数成分を基本周波数として導出することが考えられる。そして、このように導出した基本周波数を時間軸に沿って配置することで、基本周波数推移を導出することが考えられる。

さらに、音圧推移の導出方法の一例としては、分析窓ごとに、音声データの振幅を二乗した結果を、音圧として導出することが考えられる。そして、このように導出した音圧を時間軸に沿って配置することで、音圧推移を導出することが考えられる。

再生処理では、制御部５０は、続いて、Ｓ１２０で取得したＭＩＤＩ楽曲に基づいて、タメ分析を実行する（Ｓ１５０）。このＳ１５０では、具体的には、音声データにおける発声開始タイミングと、ＭＩＤＩ楽曲ＭＤにおけるノートオンタイミングとの時間差分を対応する音符ごとに算出し、その算出した時間差分を、対象とする区間（例えば、対象フレーズ）での平均を算出する。そして、対象とする区間毎の時間差分の平均を集計し、その集計の結果、最頻値となる時間差分の平均値よりも大きな時間差分を、歌唱技巧としての「タメ」を用いた際の発声の遅れ時間として特定する。さらに、それらの特定された発声の遅れ時間の平均値を「タメ時間」として特定する。

なお、音声データにおける発声開始タイミングの特定方法としては、周知の手法を用いればよい。具体的には音声データの音圧の推移において、その音圧が閾値以上となるタイミングを発声開始タイミングとして特定すればよい。

次に、再生処理では、制御部５０は、「音高変化微分（開始）」、「音高変化微分（終了）」を導出するピッチ遷移分析を実行する（Ｓ１６０）。ここで言う「音高変化微分（開始）」、「音高変化微分（終了）」とは、それぞれ、音高遷移音符群における音高の移行区間において、音高の変化が開始される変化開始タイミング、及び音高の変化が終了される変化終了タイミングでの、音声データの基本周波数の時間推移における傾きである。なお、音高遷移音符群とは、連続する音符であり、かつ互いの音高が異なる音符の組である。

具体的に、本実施形態のＳ１６０では、制御部５０は、図４に示すように、基本周波数の時間推移の中から、一つの時間窓における基本周波数（以下、第１探索音高と称す）を抽出する。そして、第１探索音高に対応する時間窓よりも時間軸に沿って前のＮ個分の時間窓における基本周波数の平均値に対する、第１探索音高の変化率が、規定された第１比率以上となる時間窓を変化開始タイミングとする。なお、ここで言う第１比率とは、音高遷移音符群を構成する音符間の音高差に対して規定されたものであり、例えば、αパーセントであってもよい。

また、基本周波数の時間推移の中から、一つの時間窓における基本周波数（以下、第２探索音高と称す）を抽出する。そして、第２探索音高に対応する時間窓よりも時間軸に沿って後のＮ個分の時間窓における基本周波数の平均値に対する、第２探索音高の変化率が、規定された第２比率未満となる時間窓を変化終了タイミングとする。なお、ここで言う第２比率とは、音高遷移音符群を構成する音符間の音高差に対して規定されたものであり、例えば、βパーセントであってもよい。

さらに、本実施形態のＳ１６０では、変化開始タイミングにおける第１探索音高の変化率、変化終了タイミングにおける第２探索音高の変化率のそれぞれを、「音高変化微分（開始）」、「音高変化微分（終了）」として導出する。

さらに、再生処理では、制御部５０は、「音高一致度」、「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時刻」を導出する音符音高変化分析を実行する（Ｓ１７０）。

このＳ１７０における音符音高変化分析では、制御部５０は、各音符の音高に対する基本周波数推移の一致度の平均値を「音高一致度」として導出する。ここで言う一致度は、半音単位で算出してもよい。

また、Ｓ１７０における「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時間」の特定方法としては、周知の方法を用いればよい。「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時間」の特定方法の一例として、特開２０１０−０８５６５５号公報に記載された方法を用いてもよい。

なお、ここで言う「ビブラート周波数」は、ビブラートを用いて歌唱された音声データの区間における基本周波数の振動周期の逆数である。「ビブラート深さ」は、ビブラートを用いて歌唱された音声データの区間における基本周波数の周波数軸に沿った振れ幅を表す。「ビブラート開始時間」は、音声データにおいて、ビブラートを用いて歌唱されたタイミングである。

さらに、再生処理では、制御部５０は、「音量平均」、「音量微分平均」を導出する音符内音量変化分析を実行する（Ｓ１８０）。このＳ１８０の音符内音量変化分析では、Ｓ１４０で導出した音圧推移において、音符内での音圧の平均値を「音量平均」として導出する。さらに、Ｓ１８０の音符内音量変化分析では、Ｓ１４０で導出した音圧推移において、音符内での微分値の平均値を「音量微分平均」として導出する。

続いて、再生処理では、制御部５０は、「スペクトル変動指数」を導出する音符内スペクトル変化分析を実行する（Ｓ１９０）。このＳ１９０における音符内スペクトル変化分析では、制御部５０は、音符内のスペクトル包絡に関して、隣接する分析窓間全てに対して相関関数を算出する。そして、制御部５０は、その相関関数の絶対値の平均値を、歌唱済みの区間で平均した値を「スペクトル変動指標」として算出する。

そして、再生処理では、制御部５０は、Ｓ１５０〜Ｓ１９０で導出した音声パラメータに基づいて、Ｓ１３０で取得した音声データの発声スタイルを特定する（Ｓ２００）。本実施形態のＳ２００では、制御部５０は、まず、「タメ時間」、「音高変化微分（開始）」、「音高変化微分（終了）」、「音高一致度」、「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時刻」、「音量平均」、「音量微分平均」、「スペクトル変動指数」によって表される歌唱特徴量ベクトルを算出する。そして、記憶部３８に格納されている発声スタイルデータＳＤのそれぞれに、歌唱特徴量ベクトルを照合する。

さらに、Ｓ２００では、制御部５０は、発声スタイルデータＳＤに含まれる音声パラメータの基準特徴量ベクトルと、歌唱特徴量ベクトルとのコサイン距離を算出する。そして、図５に示すように、制御部５０は、コサイン距離が最短となる発声スタイルデータＳＤを、利用者にとって最適な歌唱スタイルを表す発声スタイルデータＳＤとして特定する。以下、Ｓ２００にて特定された発声スタイルデータＳＤを、最適発声スタイルデータと称す。

さらに、再生処理では、制御部５０は、Ｓ１２０で取得したＭＩＤＩ楽曲を修正する（Ｓ２１０）。このＳ１２０における修正の対象は、ノートオンタイミング、及びノートオフタイミングである。例えば、Ｓ２１０では、最適発声スタイルデータに含まれる「タメ時間」に近似するように、Ｓ１２０で取得したＭＩＤＩ楽曲に含まれる音符のノートオンタイミング及びノートオフタイミングを変更する。さらに、Ｓ２１０では、例えば、「音量平均」、「音量微分平均」が、最適発声スタイルデータに含まれる値に近似するように設定する。

続いて、制御部５０は、最適発声スタイルデータに含まれる音声パラメータで、模範ボーカルデータが生成されるように、音声合成に用いる合成パラメータを設定する（Ｓ２３０）。ここで言う模範ボーカルとは、ＭＩＤＩ楽曲ＭＤに含まれる歌詞データを主旋律に沿って正確に歌唱した波形データである。この模範ボーカルの生成に必要が合成パラメータとして、基準パラメータが予め規定されている。

そしてＳ２２０では、制御部５０は、例えば、模範ボーカルデータにおける「音高変化微分（開始）」、「音高変化微分（終了）」、「スペクトル変動指数」のそれぞれが、最適発声スタイルデータに含まれる「音高変化微分（開始）」、「音高変化微分（終了）」、「スペクトル変動指数」に近似するように合成パラメータを設定する（即ち、基準パラメータを修正する）。さらに、Ｓ２３０では、制御部５０は、模範ボーカルデータにおけるにおける「音高一致度」、「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時刻」のそれぞれが、最適発声スタイルデータに含まれる「音高一致度」、「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時刻」に近似するように合成パラメータを設定する（即ち、基準パラメータを修正する）。

再生処理では、制御部５０は、Ｓ２２０で設定された合成パラメータで音声合成を実行し合成音を生成して出力する（Ｓ２３０）。このＳ２３０で出力された合成音は、スピーカ６０を介して放音される。すなわち、Ｓ２３０で生成された合成音が、模範ボーカルデータとなる。

その後、制御部５０は、本再生処理を終了し、次の楽曲の演奏が開始されるまで待機する。
本実施形態においては、再生処理を実行することで、カラオケ装置３０が、特許請求の範囲に記載された音声合成装置として機能する。
［実施形態の効果］
以上説明したように、カラオケ装置３０によれば、利用者の発声スタイルに近い発声スタイルの合成音による模範ボーカルを出力できる。この結果、カラオケ装置３０によれば、模範ボーカルと歌唱音声との間の乖離を小さくでき、その歌唱が上手くないように聞こえることを低減できる。

つまり、カラオケ装置３０によれば、ユーザ自身の歌唱スタイルに合った模範ボーカルを音声合成して出力できる。これにより、カラオケ装置３０によれば、利用者が違和感を覚えることを低減できる。

換言すれば、カラオケ装置３０によれば、模範ボーカルと歌唱音声との乖離を可能な限り抑制しつつ、利用者に違和感を与えることを低減できる。
特に、再生処理においては、「音高変化微分（開始）」、「音高変化微分（終了）」、「音高一致度」、「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時刻」などを音声パラメータとして導出して、発声スタイルデータＳＤに照合している。これにより、再生処理によれば、利用者の発声スタイルに近い発声スタイルの合成音（模範ボーカル）となるように、音声における周波数に関する特徴量を修正できる。

また、再生処理においては、「音高変化微分（開始）」、「音高変化微分（終了）」を音声パラメータとして導出できる。このような音声パラメータを用いて発声スタイルを特定することで、「しゃくり」などの歌唱技巧を発声スタイルの一例として特定できる。

さらに、再生処理では、「タメ時間」を音声パラメータとして導出している。これによい、再生処理によれば、歌唱技巧としての「ため」を発声スタイルの一例として特定できる。さらに言えば、カラオケ装置３０によれば、利用者の発声スタイルに近い発声スタイルの合成音（模範ボーカル）となるように「タメ時間」を修正でき、歌唱技巧としての「ため」を最適発声スタイルデータによって表される「ため」に近づけることができる。
［その他の実施形態］
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。

例えば、上記実施形態の再生処理のＳ２１０では、最適発声スタイルデータに近似する合成音が生成されるようにＭＩＤＩ楽曲を修正していたが、このＳ２１０は、省略されていてもよい。

また、上記実施形態における音源データＰＤは、フォルマント合成に用いる各種パラメータであったが、本発明における音源データＰＤは、いわゆる素片接続に用いる音声素片であってもよい。すなわち、素片接続によって、音声合成を実現してもよい。

なお、上記実施形態の構成の一部を省略した態様も本発明の実施形態である。また、上記実施形態と変形例とを適宜組み合わせて構成される態様も本発明の実施形態である。また、特許請求の範囲に記載した文言によって特定される発明の本質を逸脱しない限度において考え得るあらゆる態様も本発明の実施形態である。

また、本発明は、前述した音声合成装置の他、音声合成を実行するためにコンピュータが実行するプログラム、音声合成を実行する音声合成の方法等、種々の形態で実現することができる。
［実施形態と特許請求の範囲との対応関係］
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。

上記実施形態の再生処理におけるＳ１３０を実行することで得られる機能が、特許請求の範囲に記載された取得手段の一例であり、Ｓ１４０〜Ｓ１９０を実行することで得られる機能が、特許請求の範囲に記載された分析手段の一例である。そして、再生処理におけるＳ２００を実行することで得られる機能が、特許請求の範囲に記載されたスタイル特定手段の一例であり、Ｓ２２０を実行することで得られる機能が、特許請求の範囲に記載された修正手段の一例である。

さらに、再生処理におけるＳ２３０を実行することで得られる機能が、特許請求の範囲に記載された合成手段の一例である。

１…音声合成システム１０…情報処理サーバ１２…通信部１４…記憶部１６，５０…制御部１８，５２…ＲＯＭ２０，５４…ＲＡＭ２２，５６…ＣＰＵ３０…カラオケ装置３２…通信部３４…入力受付部３６…楽曲再生部３８…記憶部４０…音声制御部４２…出力部４４…マイク入力部４６…映像制御部６０…スピーカ６２…マイク６４…表示部

Claims

複数の音符のうちの少なくとも一部に歌詞が割り当てられた楽曲であり、かつ、指定された楽曲である対象楽曲の演奏中に入力された音声の波形を表す音声データを取得する取得手段と、
前記取得手段で取得した音声データを分析し、予め規定された少なくとも１つの音声パラメータを含む音声特徴量を導出する分析手段と、
発声の態様を表す発声スタイルごとに、当該発声スタイルの特徴を表す少なくとも１つの音声パラメータを規定した発声スタイルデータに、前記分析手段で導出した音声特徴量を照合した結果、類似度が最も高い発声スタイルデータに対応する発声スタイルを、前記音声データにおける発声スタイルとして特定するスタイル特定手段と、
前記対象楽曲における歌詞を歌唱した模範ボーカルの音声合成に必要なパラメータとして予め規定された基準パラメータを、前記スタイル特定手段で特定された発声スタイルにおける音声パラメータに近づけるように修正する修正手段と、
前記修正手段で修正された音声パラメータを用いて音声合成した合成音を出力する合成手段と
を備えることを特徴とする音声合成装置。
前記分析手段は、
前記音声データの周波数に関するパラメータである周波数パラメータを前記音声パラメータとして導出し、
前記発声スタイルデータには、前記発声スタイルの特徴を表す少なくとも１つの音声パラメータとして、前記周波数パラメータが含まれる
ことを特徴とする請求項１に記載の音声合成装置。
前記対象楽曲には、時間軸に沿って隣接する２つの音符であって、互いに音高が異なる２つの音符が含まれ、
前記分析手段は、
前記２つの音符における音高の移行区間において、音高の変化が開始される開始タイミング、及び音高の変化が終了される終了タイミングでの、前記音声データにおける音高推移の傾きを、前記周波数パラメータとして導出する
ことを特徴とする請求項２に記載の音声合成装置。
前記分析手段は、
前記歌詞が割り当てられた音符に対応する前記音声データの区間における周波数、その周波数の深さ、及び周波数スペクトルの包絡のうちの少なくとも１つを、前記周波数パラメータとして導出する
ことを特徴とする請求項２又は請求項３に記載の音声合成装置。
前記分析手段は、
前記音声データにおける発声のタイミングに関するタイミングパラメータを前記音声パラメータとして導出し、
前記発声スタイルデータには、前記発声スタイルの特徴を表す少なくとも１つの音声パラメータとして、前記タイミングパラメータが含まれる
ことを特徴とする請求項１から請求項４までのいずれか一項に記載の音声合成装置。
前記分析手段は、
前記歌詞が割り当てられた音符である特定音符において発声を開始すべき発声開始タイミングと、前記音声データにおいて前記特定音符それぞれの発声開始時刻との差分の代表値であるタメ時間を、前記タイミングパラメータとして導出する
ことを特徴とする請求項５に記載の音声合成装置。
複数の音符のうちの少なくとも一部に歌詞が割り当てられた楽曲であり、かつ、指定された楽曲である対象楽曲の演奏中に入力された音声の波形を表す音声データを取得する取得手順と、
前記取得手順で取得した音声データを分析し、予め規定された少なくとも１つの音声パラメータを含む音声特徴量を導出する分析手順と、
発声の態様を表す発声スタイルごとに、当該発声スタイルの特徴を表す少なくとも１つの音声パラメータを規定した発声スタイルデータに、前記分析手順で導出した音声特徴量を照合した結果、類似度が最も高い発声スタイルデータに対応する発声スタイルを、前記音声データにおける発声スタイルとして特定するスタイル特定手順と、
前記対象楽曲における歌詞を歌唱した模範ボーカルの音声合成に必要なパラメータとして予め規定された基準パラメータを、前記スタイル特定手順で特定された発声スタイルにおける音声パラメータに近づけるように修正する修正手順と、
前記修正手順で修正された音声パラメータを用いて音声合成した合成音を出力する合成手順とを
コンピュータに実行させることを特徴とするプログラム。