以下、本発明の一実施形態に係るカラオケシステムについて、図面を参照しながら詳細に説明する。以下に示す実施形態は本発明の実施形態の一例であって、本発明はこれらの実施形態に限定されるものではない。また、本明細書と各図において、既出の図に関して前述したものと同様の要素には、同一の符号を付し、当該要素の詳細な説明を適宜省略することがある。
[第1実施形態]
<全体構成>
図1は、本実施形態に係るカラオケシステム100aの構成を示す。カラオケシステム100aは、カラオケ装置102、制御用端末装置104、カラオケ用サーバ106、歌唱合成用サーバ108が含まれている。図1で示す例では、カラオケ装置102、制御用端末装置104、カラオケ用サーバ106及び歌唱合成用サーバ108は、インターネットなどの電気通信回線110を介して接続されている。なお、電気通信回線とは、有線、無線その他の電磁的方式により、符号、音響又は映像を送り、伝え又は受ける機能を発現する設備及び概念を指す。
合成歌唱音を生成する合成歌唱音生成装置112は、カラオケシステム100aで使用可能とされている。利用者は合成歌唱音生成装置112を用い、カラオケ装置102による楽曲の伴奏音に合わせて、合成歌唱音を発音させて演奏を楽しむことができる。
制御用端末装置104は、カラオケ装置102を操作するリモコンとしての機能を有する。制御用端末装置104は、カラオケ装置102に付属するリモコンセットの他、スマートフォン、タブレット型端末、ノート型パーソナルコンピュータ等の携帯端末装置、デスクトップ型パーソナルコンピュータ等の端末装置によって同様の機能が実現されてもよい。スマートフォンなどのコンピュータである場合には、制御プログラムをインストールして実行することによって、以下に説明する制御用端末装置104の機能が実現されてもよい。本実施形態では、制御用端末装置104は、カラオケ装置102及び合成歌唱音生成装置112に対して、電気通信回線を介さずに短距離無線通信によって接続され得る。短距離無線通信とは、例えば、Bluetooth(登録商標)、赤外線通信、LAN(Local Area Network)などを用いた通信手段である。また、制御用端末装置104は、カラオケ装置102及び合成歌唱音生成装置112に対して、電気通信回線を介した通信によって接続されてもよい。
カラオケ用サーバ106は、カラオケ装置102においてカラオケを提供するために必要な楽曲データを、楽曲IDに対応付けて記憶している記憶装置を備える。楽曲データは、カラオケの歌唱曲に関連するデータ、例えば、ガイドメロディデータ、伴奏データ、歌詞データなどが含まれている。ガイドメロディデータは、歌唱曲のメロディを示すデータである。伴奏データは、歌唱曲の伴奏を示すデータである。ガイドメロディデータ及び伴奏データは、MIDI形式で表現されたデータであってもよい。歌詞データは、歌唱すべき歌詞(文字)を規定するデータである。また、歌唱データに基づいて表示される歌詞テロップを色替えするタイミングを示すタイミングデータが含まれていてもよい。このタイミングデータによれば、歌唱曲の進行位置と、その進行位置において歌唱すべき歌詞の対応付けができる。
歌唱合成用サーバ108は、歌唱曲に合わせた設定情報を合成歌唱音生成装置112に対して提供する。歌唱合成用サーバ108は、合成歌唱音生成装置112に提供する設定情報を楽曲IDに対応付けて記憶している記憶装置を備える。設定情報には、楽曲IDに対応する歌唱曲の合成歌唱音生成用の歌詞データ(以下、「合成歌唱音生成歌詞データ」ともいう。)が含まれている。設定情報は、合成歌唱音生成歌詞データの他に、合成歌唱音生成装置112から出力される合成歌唱音の音色を調整する発音制御パラメータに対する各種データ(以下、「発音制御データ」ともいう。)が含まれている。なお、発音制御パラメータの詳細は後述する。すなわち、本明細書において「設定情報」とは、合成歌唱音生成用の歌詞データ及び/又は、合成歌唱音生成装置112から出力される合成歌唱音の音色を調整する発音制御パラメータに対する各種データを含むものとする。
なお、歌唱合成用サーバ108に記憶されている合成歌唱音生成歌詞データと、カラオケ用サーバ106に記憶されている歌詞データとは、同じであってもよいし、異なっていてもよい。すなわち、歌唱合成用サーバ108に記憶されている合成歌唱音生成歌詞データは、歌唱すべき歌詞(文字)を規定するデータである点においてはカラオケ用サーバ106に記憶されている歌詞データと同じであるが、合成歌唱音生成装置112において利用しやすい形式に調整されている。この形式としては、例えば、1音で2文字分の歌唱をする場合を識別する情報、フレーズの区切りを識別する情報などを含む場合がある。また、歌詞データにおいて例えば「わたしは」と表記される場合に、合成歌唱音生成歌詞データでは「わたしわ」と発音文字に変換されている。
次に、カラオケ装置102、制御用端末装置104及び合成歌唱音生成装置112について、ハードウエア構成を説明する。
<カラオケ装置のハードウエア構成>
図2は、本実施形態に係るカラオケ装置102の構成をブロック図で示す。カラオケ装置102は、制御部114、記憶部116、操作部118、表示部120、通信部122、及び信号処理部124を含む。これらの各部は、バスを介して接続されている。また、信号処理部124には、オーディオ信号の入力を受け付ける入力端子126及びスピーカ128が接続されている。入力端子126に入力されるオーディオ信号は、歌唱に用いるマイクロフォンが接続されたり、合成歌唱音生成装置112のオーディオ出力端子と接続されたりする。
制御部114は、CPUなどの演算処理回路を含む。制御部114は、記憶部116に記憶された制御プログラムをCPUにより実行して、各種機能をカラオケ装置102において実現する。実現される機能の一部(カラオケ機能)については別途説明される。記憶部116は、不揮発性メモリ、ハードディスク等の記憶媒体によって実現される。記憶部116は、上記の制御プログラムを記憶する。制御プログラムはネットワーク経由でダウンロードされてもよいが、磁気記録媒体、光記録媒体、光磁気記録媒体、半導体メモリなどのコンピュータ読み取り可能な記録媒体に記憶した状態で提供されてもよい。以下に説明する制御端末装置及び合成歌唱音生成装置112で用いられる制御プログラムについても同様に提供されてもよい。また、記憶部116は、カラオケ用サーバ106からダウンロードした楽曲データを一時的に記憶するバッファとしても使用される。
操作部118は、操作パネルなどの装置であり、入力された操作に応じた信号を制御部114に出力する。表示部120は、液晶ディスプレイ、有機ELディスプレイ等の表示装置であり、制御部114による制御に基づいた画面が表示される。なお、操作部118と表示部120とは一体としてタッチパネルを構成してもよい。通信部122は、制御部114の制御に基づいて、電気通信回線110を介して外部装置に接続したり、短距離無線通信によって制御用端末装置104と接続したりする。また、通信部122は、合成歌唱音生成装置112と近距離無線通信によって接続し、情報を送信する機能を有していてもよい。
信号処理部124は、MIDI形式の信号からオーディオ信号を生成する音源、A/Dコンバータ、D/Aコンバータ等を含む。入力端子126から入力されたオーディオ信号は信号処理部124に出力され、信号処理部124においてA/D変換されて制御部114に出力される。入力されたオーディオ信号は、記憶部116にバッファされて、歌唱の評価等に用いられてもよい。また、伴奏データは、制御部114によって読み出され、信号処理部124においてオーディオ信号に変換され、スピーカ128から歌唱曲の伴奏音として出力される。このとき、入力端子126に入力されたオーディオ信号も、伴奏音に合成されて出力される。
<制御端末装置のハードウエア構成>
制御用端末装置104は、カラオケ装置102に対する制御(例えば、歌唱曲の指定、音量、トランスポーズ等)を実行し、合成歌唱音生成装置112に対する制御(例えば、歌詞の設定、音色等の設定等)を実行する。
図3は、本実施形態に係る制御用端末装置104の構成をブロック図で示す。制御用端末装置104は、制御部140、記憶部142、操作部144、表示部146、選択情報送信部148、受信部150、設定情報送信部152を含む。これらの各構成は、バスを介して接続されている。
制御部140は、CPUなどの演算処理回路を含む。制御部140は、記憶部142に記憶された制御プログラムをCPUにより実行し、各種機能を制御用端末装置104において実現させる。実現される機能の一部(設定制御機能)については別途説明される。記憶部142は、不揮発性メモリ、ハードディスク等の記憶媒体によって実現される。記憶部142は、上記の制御プログラムを記憶する。
操作部144は、操作パネルなどの装置であり、入力された操作に応じた信号を制御部140に出力する。表示部146は、液晶ディスプレイ、有機ELディスプレイ等の表示装置であり、制御部140による制御に基づいた画面が表示される。なお、操作部144と表示部146とは一体としてタッチパネルを構成してもよい。
選択情報送信部148は、短距離無線通信によってカラオケ装置102及び合成歌唱音生成装置112と接続する。また、選択情報送信部148は、電気通信回線110を介して歌唱合成用サーバ108と接続する。選択情報送信部148は、操作部144で入力された情報、特に楽曲を選択するための選択情報(楽曲ID)を、カラオケ装置102及び合成歌唱音生成装置112に送信する。また、選択情報送信部148は、歌唱合成用サーバ108に選択情報(楽曲ID)等を送信する。受信部150は、歌唱合成用サーバ108から合成歌唱音生成装置112の設定情報を受信する。設定情報送信部152は、設定情報を合成歌唱音生成装置112に送信する。
<合成歌唱音生成装置のハードウエア構成>
合成歌唱音生成装置112は、演奏操作子の操作に応じて、設定内容に従って合成歌唱音を生成する。
図4は、本実施形態に係る合成歌唱音生成装置112の構成をブロック図で示す。合成歌唱音生成装置112は、制御部168、記憶部170、操作部172、表示部174、通信部178、インターフェイス部180、演奏操作子182を含む。また、合成歌唱音生成装置112は、それ自体から発音が可能なように、増幅部184及び増幅部184で増幅された合成歌唱音を拡声するスピーカ186を備えていてもよい。または、合成歌唱音生成装置112は、生成された合成歌唱音をインターフェイス部180を介してカラオケ装置102の入力端子126に接続され、スピーカ128から出力されてもよい。
制御部168は、CPUなどの演算処理回路を含む。制御部168は、記憶部170に記憶された制御プログラムをCPUにより実行して、各種機能を合成歌唱音生成装置112において実現させる。実現される機能の一部については別途説明される。記憶部170は、揮発性メモリ、不揮発性メモリ等の記憶媒体によって実現される。記憶部170は、上記の制御プログラムを記憶する。また、記憶部170は、合成歌唱音を示すオーディオ信号を生成する際に用いる設定情報(合成歌唱音生成歌詞データ、発音制御データ等)、合成歌唱音を生成するための音声素片データ等を記憶する。なお、この音声素片データは、合成歌唱音の種類を示す。以下の説明では合成歌唱音の種類は、男性音声、女性音声等の種別、年齢(子供声、大人声)に対する種別、言語による種別(日本語、英語等)、またはこれらの組み合わせ等、様々な音声の種類が含まれる。
操作部172は、スイッチ、ボリュームつまみなどの装置であり、入力された操作に応じた信号を制御部168に出力する。表示部174は、液晶ディスプレイ、有機ELディスプレイ等の表示装置であり、制御部168による制御に基づいた画面が表示される。なお、操作部172と表示部174とは一体としてタッチパネルを構成してもよい。通信部178は、制御部168の制御に基づいて制御用端末装置104と接続する。
インターフェイス部180は、生成されたオーディオ信号を出力する端子を含む。演奏操作子182は、は鍵盤(キーボード)などによって構成される。また、演奏操作子182は、弦楽器のように張弦された構成を有していてもよい。演奏者は演奏操作子182を操作することにより発音を制御し演奏をする。演奏操作子182を操作すると、その操作に応じた演奏信号が制御部168に出力される。例えば、演奏操作子182が鍵盤である場合、演奏信号は操作された鍵の位置を示す情報(キーナンバ)、押鍵したことを示す情報(キーオン)、離鍵したことを示す情報(キーオフ)、及び押鍵速度(ベロシティ)等を含む。具体的には、押鍵されると、キーオン、ベロシティ及びキーナンバが対応付けられて出力され、離鍵するとキーオフが出力される。制御部168は、この演奏信号を用いて、合成歌唱音を生成する。合成歌唱音はオーディオ出力として、インターフェイス部180から他の機器(例えば、カラオケ装置102)に出力される。また、合成歌唱音は増幅部184で増幅され、スピーカ186から出力されてもよい。
合成歌唱音生成装置112は、音色(生成する合成歌唱音の種類)が変更可能な場合と、変更できない場合とがある。この違いは、制御プログラムによって実現される機能によって異なる。この違いについては、合成歌唱音生成装置112の機能の説明において詳細を述べる。
次に、カラオケ装置102、制御用端末装置104及び合成歌唱音生成装置112のそれぞれにおいて、制御プログラムを実行することによって実現される機能について説明する。なお、以下に説明する各機能を実現する構成の一部または全部は、ハードウエアによって実現されてもよい。これらの機能によって、利用者は、対象となる楽曲を指定し、合成歌唱音生成装置112にその楽曲に応じた設定情報を得ることができる。
<カラオケ装置の機能>
図5は、本発明の一実施形態に係るカラオケ装置で実現される機能ブロック図を示す。カラオケ機能130は、選曲部132、伴奏音再生部134、歌詞表示部136、及び採点部138を含む。選曲部132の機能は、制御用端末装置104によって指定された歌唱曲の楽曲IDを取得して、カラオケ用サーバ106から楽曲IDに対応した楽曲データを取得する。選曲部132によって取得された楽曲データのうち、伴奏データは伴奏音再生部134に提供され、歌詞データは歌詞表示部136に提供される。伴奏音再生部134の機能は、伴奏データに基づいて、伴奏音を生成してスピーカ128から発音させる。歌詞表示部136の機能は、歌詞データに基づいて表示部120に歌詞を表示する。この際、歌詞とともに、楽曲の進行に合わせて歌唱すべき位置を示す情報(ワイプ等)についても表示される。
採点部138の機能は、入力されたオーディオ信号の評価を実施して,評価に応じた評価点を算出する。算出された評価点は、表示部120に表示される。この評価は、例えば以下の通り実施される。まず、オーディオ信号から合成歌唱音(合成歌唱音生成装置112から取得した場合)または歌唱音声(マイクロフォンから取得した場合)の音高の時間変化を算出し、ガイドメロディの音高と比較する。そして、これらの音高の一致の程度に基づいて評価点が算出される。この音高は、例えば、オーディオ信号の波形のゼロクロスを用いた方法、FFT(Fast Fourier Transform)を用いた方法などの公知の方法で算出されればよい。
<制御端末装置の機能>
図6は、本実施形態に係る制御用端末装置104で実現される機能ブロック図を示す。設定制御機能154は、曲指定部156、歌詞データ取得部158、設定情報取得部160、歌詞データ提供部162及び設定情報提供部164を含む。また、設定制御機能154は、識別情報取得部166を含んでいてもよい。すなわち、制御用端末装置104は、設定制御機能154を備えた制御装置ということもできる。設定制御機能154を実現する各部の機能は以下のとおりである。
曲指定部156の機能は、カラオケとして楽しむ歌唱曲の指定を利用者から受け付け、その歌唱曲を特定する楽曲IDをカラオケ装置102に対して通知する。識別情報取得部166の機能は、合成歌唱音生成装置112の型式番号、設定されている音声源(音声素片データ)等の識別情報を取得する。制御用端末装置104は、識別情報に基づいて合成歌唱音生成装置112に適した設定情報を歌唱合成用サーバ108から取得する機能を有する。
歌詞データ取得部158の機能は、歌唱曲の楽曲IDに対応する歌詞データを取得する。歌詞データ取得部158の機能は、合成歌唱音生成用歌詞データを歌唱合成用サーバ108から取得する。なお、カラオケ装置102において用いる歌詞データを合成歌唱音生成装置112において用いることが可能である場合もある。この場合には、歌詞データ取得部158は、カラオケ用サーバ106から歌詞データを取得するようにしてもよいし、カラオケ装置102から取得するようにしてもよい。
設定情報取得部160の機能は、歌唱合成用サーバ108から曲指定部156で指定された楽曲に対し、合成歌唱音生成装置112で演奏するのに適した設定情報を取得する。設定情報には、合成歌唱音生成装置112から出力される合成歌唱音の音響効果を設定する発音制御パラメータ等の情報が含まれる。
歌詞データ提供部162の機能は、歌詞データ取得部158において取得した合成歌唱音生成用歌詞データを合成歌唱音生成装置112に提供する。また、設定情報提供部164の機能は、設定情報取得部160において取得した設定情報を合成歌唱音生成装置112に提供する。制御用端末装置104は、設定制御機能154を有することにより、合成歌唱音生成装置112に合成歌唱音生成用歌詞データ及び演奏効果を高める設定情報を提供することができる。
<合成歌唱音生成装置の機能>
合成歌唱音生成装置112の機能について説明する。上述したように、合成歌唱音生成装置112は、音色の設定変更ができない装置(第1の例)、音色の設定変更が可能な装置(第2の例)について説明する。
<第1の例(設定変更不可)>
図7は、本実施形態に係る合成歌唱音生成装置112の第1の例で実現される機能ブロック図を示す。合成歌唱音生成機能188aは、設定情報受信部190、歌詞データ受信部191、発音制御パラメータ設定部192、歌詞設定部196、合成歌唱音生成部198、音声源記憶部200、識別情報出力部202、合成音声出力部204、発音制御情報記憶部206を含む。すなわち、合成歌唱音生成装置112は、合成歌唱音生成機能188aを備えた合成歌唱音生成装置を含んでいることになる。
歌詞データ受信部191の機能は、歌詞データ提供部162から合成歌唱音生成用歌詞データを受信し、歌詞設定部196に出力する。歌詞設定部196は、合成歌唱音生成用歌詞データを合成歌唱音生成部198に設定する。
設定情報受信部190の機能は、制御用端末装置104から設定情報を取得する。設定情報は選択された楽曲を合成歌唱音生成装置112で演奏するときに音響効果を与える各種設定情報が含まれている。設定情報には、発音制御パラメータを設定するデータが含まれている。発音制御パラメータ設定部192は、合成歌唱音生成部198において使用される発音制御パラメータを合成歌唱音生成部198に設定する。
発音制御パラメータは、合成歌唱音生成装置112から出力される合成歌唱音にリバーブ、ビブラート等を与え、表情を付けるデータを含む。発音制御パラメータとしては、例えば、ベロシティ、ダイナミクス、ブレシネス(息量)、ブライトネス、クリアネス、オープニング(口の開き具合)、ジェンダーファクター、ポルタメントポジション、ピッチベンド、ピッチベンドセンシビティなどが含まれる。
音響効果を演出する上記発音制御パラメータは、それぞれ異なる機能及び合成歌唱音への効果を有している。ベロシティは子音の発音の長さ及び強さを調整し声の立ち上がりを早くすることができ、リズミカルな曲に合わせて設定する。ダイナミクスは音量を設定すると同時に、 中高音域を増強し聴感上の発声強度を指定する。ブレシネスはノイズ成分の割合を増加させて声の擦れた感じを演出するのに用いられる。ブライトネスは母音部の中高音域成分を制御して明るい感じを演出するのに用いられる。クリアネスは高音域の成分を制御し、透き通った感じを演出するのに用いられる。オープニングは中音域の成分を制御し、口の開き方を変えたような効果を演出する。ジェンダーファクターは声道の長さを変化させ、 年齢、性別による声の違いを作り出すことができる。ポルタメントポジションは音程変化のタイミングを前後させて演出したいときに用いられる。ピッチベンドとピッチベンドセンシビティは、対になったパラメータで、任意のカーブで音程を変化させ、ビブラートのような効果、音程変化のような効果を演出するのに用いることができる。発音が行われている際にこれらのパラメータを変化させることにより、合成歌唱音に変化を与えることができる。本発明においては、合成歌唱音生成用歌詞データに含まれる歌詞の文字と対応付けて、どのパラメータをどの程度変化させるかを規定したものを発音制御データとし、当該文字の発音中に発音制御データを参照することによって発音状態を制御できる。
音声源記憶部200には、音声素片データが記憶されている。音声素片データは、例えば人間の歌唱音声又は音声をサンプリングした音声素片である。音声素片データは、取得基である人間の声により個性を有し、発音できる音域や音色が異なっている。音声素片データは、例えば、男性及び女性の性別、年齢、音域(バス、バリトン、テノール、メゾソプラノ、アルト、ソプラノ)によって個性付けられている。また、音声素片データは、音素連鎖データと定常部分データが記憶されている。音素連鎖データは、無音から子音、子音から母音、母音から(次の文字の)子音または母音など、発音が変化する際の音素片のデータである。また、定常部分データは、母音の発音が継続する際の音素片のデータである。
識別情報出力部202の機能は、音声源記憶部200に記憶されている音声素片データを識別する情報を出力する。識別情報は音声素片データを識別するデータを含み、例えば、製品番号のような識別コード、バージョン情報などにより構成されていてもよい。識別情報は、音声素片データを用いて合成される合成歌唱音の音色(性別、年齢、声質)、発音可能な音域(バス、バリトン、テノール、メゾソプラノ、アルト、ソプラノ)等を種別する。
合成歌唱音生成部198の機能は、歌詞設定部196によって設定された合成歌唱音生成用歌詞データを演奏操作情報出力部208からの出力に同期して読み出す。また、合成歌唱音生成用歌詞データの文字に対応する音声を、音声源記憶部200に記憶されている音声素片データから必要な音声素片を適宜読み出し、当該音声素片を連結して合成音声する。このとき、合成音声の音高は、演奏操作情報出力部208から出力されるキーの高さに設定される。合成歌唱音生成部198は、さらに発音制御パラメータ設定部192によって設定された発音制御パラメータに基づき合成音声に変化を与える。演奏操作情報出力部208から出力が連続することで、連続的な合成歌唱音が生成される。
発音制御情報記憶部206の機能は、合成歌唱音生成部198に設定された発音制御パラメータを含む設定情報を記憶する。発音制御情報記憶部206において、発音制御パラメータを含む設定情報は楽曲IDと関連付けて記憶されていてもよい。合成歌唱音生成部198は、また、発音制御情報記憶部206に記憶されている発音制御パラメータを含む設定情報を読み出して、設定データとして用いることができる。
合成歌唱音生成部198における合成歌唱音の生成処理について、概要を簡単に説明する。なお、合成歌唱音生成装置を用いて合成歌唱音を生成する技術については、例えば、上記の特許文献1(特開2008−170592号公報)、特許文献2(特開2014−62969号公報)に開示されている。
<合成歌唱音の生成処理>
図8は、本実施形態に係る合成歌唱音生成部における処理を説明するフローチャートである。合成歌唱音生成部198に歌詞データが設定されると、図8に示す処理が開始される。まず、合成歌唱音生成部198は、設定された合成歌唱音生成用歌詞データが示す歌詞の最初の文字を指定する(S201)。指定されている文字とその前後の文字とがそれぞれ区別されて表示部174に表示されていてもよい。演奏操作子182から出力される演奏信号により、演奏操作(押鍵)が行われるのを待つ(S203において「N」の場合)。
演奏操作が行われた場合(S203において「Y」の場合)、制御部168は、演奏操作子182の指定音高情報を取得し(S205)、記憶部170に記憶された合成歌唱音生成用歌詞データから指定文字を読み出し(S207)、音声源記憶部200から必要な音声素片データを読み出す(S209)。そして、読み出した文字を発声させるための合成歌唱音を示すオーディオ信号を生成する(S211)。例えば、読み出した文字が「か(ka)」であり、演奏操作された鍵が「C4」である場合には、C4の音高で「か(ka)」を発声させる合成歌唱音が生成される。さらに、設定された発音と音高に発音制御パラメータに基づいて発音効果を与える(S213)。
指定されている文字(読み出した文字)が歌詞の最後の文字ではない場合(S215において「N」の場合)、次の文字を指定して(S217)、次の演奏操作を待つ(S203)。歌詞データに従って、順次、次の文字が指定されていき、最後の文字になった場合(S215で「Y」の場合)、合成歌唱音の生成処理は終了する。このようにすることによって、演奏操作に応じた音高に調整された歌詞が順次発声される合成歌唱音が生成される。そして、合成歌唱音を示すオーディオ信号がカラオケ装置102に対して出力され、または合成歌唱音生成装置112から発音される。なお、操作部172等に対する所定の操作を受け付けると、強制的に次の文字が指定されるようにしてもよい。また、歌詞をフレーズ単位で区分する情報を取得している場合には、所定の操作を受け付けると、いずれかのフレーズ(直前または直後など)の最初の文字が強制的に指定されるようにしてもよい。
<第2の例(設定変更可能)>
図9は、本発明の一実施形態に係る合成歌唱音生成装置の第2の例で実現される機能ブロック図を示す。合成歌唱音生成機能188bは、設定情報受信部190、歌詞データ受信部191、発音制御パラメータ設定部192、歌詞設定部196、合成歌唱音生成部198、音声源記憶部200b、識別情報出力部202、合成音声出力部204、発音制御情報記憶部206、音色選択部194を含む。ここで、音声源記憶部200b、音色選択部194以外の機能については第1の例で説明したものと同様の機能を有するため、説明を省略する。
音声源記憶部200bには、合成歌唱音の音色が異なる複数種の音声源が記憶されている。それぞれの音声源において、音声素片データは、サンプリングデータ基である人間の歌唱音声又は音声が異なっている。本例における合成歌唱音生成装置112は、音声源を選択することで、例えば、男性の音声又は女性の音声で合成歌唱音を生成することができる。
音色選択部194の機能は、設定情報受信部190で取得した設定情報に基づいて、合成歌唱音生成部198に音声源の種別を設定する。なお、本例において、設定情報には、選択された楽曲に適した音声源に関する情報が含まれる。音声源を直接的に特定する識別情報でもよいし、男声/女声などの声の種類や音域を表す情報から間接的に音声源を選択するものでもよい。合成歌唱音生成部198は、設定された音声源の種別に基づいて音声源記憶部200から該当する音声素片データを読み出す。合成歌唱音を生成する処理は第1の例と同様である。
このように、音声源記憶部200に複数の音声源を記憶させ、設定情報に応じて適宜読み出すようにすることで、合成歌唱音生成装置112を演奏してカラオケを楽しむことのできる楽曲のレパートリーを広げることができる。
<動作の説明>
図10は、本実施形態に係る制御用端末装置104、合成歌唱音生成装置112、カラオケ装置102、歌唱合成用サーバ108の動作フローを示す。
制御用端末装置104は利用者によって操作され、カラオケ装置102で演奏する楽曲を選択する操作をする(S302)。制御用端末装置104は楽曲が選択されて、楽曲IDが入力されると、その選曲情報(楽曲ID)がカラオケ装置102に送信される。また、同じ選曲情報(楽曲ID)が歌唱合成用サーバ108に送信される。
カラオケ装置102は、選曲情報(楽曲ID)を受信する(S306)。カラオケ装置102は選曲情報(楽曲ID)に基づいて、演奏する楽曲の伴奏音を本体に備えられている記録媒体の中から読み出す。または、カラオケ装置102は当該選択された楽曲の伴奏音を再生できるように、カラオケ用サーバ106からダウンロードして再生できるように動作する(S308)。
歌唱合成用サーバ108は、選曲情報(楽曲ID)を受信する(S310)。歌唱合成用サーバ108は選択情報(楽曲ID)に基づいて、合成歌唱音生成装置112に対する設定情報を選択する(S312)。設定情報には、合成歌唱音生成装置112で使用する合成歌唱音生成用歌詞データ、発音制御パラメータに基づく発音制御データが含まれている。歌唱合成用サーバ108は、選曲情報(楽曲ID)に対応する設定情報を制御用端末装置104に送信する(S314)。
制御用端末装置104は、歌唱合成用サーバ108から設定情報を受信する(S316)。制御用端末装置104にとってこの動作は、歌唱合成用サーバ108から設定情報をダウンロードしたことになる。そして、制御用端末装置104は、受信した設定情報を合成歌唱音生成装置112に送信する(S318)。
合成歌唱音生成装置112は制御用端末装置104から設定情報を受信し(S320)、カラオケ装置102で伴奏音を再生させるべく選択した楽曲に対する設定情報を設定する(S322)。設定されるデータの種類、内容は上述の通りである。
カラオケ装置102で楽曲の伴奏が再生されると(S324)、利用者は合成歌唱音生成装置112を操作して、演奏することができる(S326)。本例では、制御用端末装置104によって演奏する楽曲が選択されると、合成歌唱音生成装置112にはその楽曲の合成歌唱音を演奏するのに適した設定情報が設定される。これにより利用者は、カラオケ装置102で再生される伴奏音に合わせて、合成歌唱音生成装置112を用いて表情豊かな合成歌唱音を演奏することができる。
本実施形態によれば、利用者は通常の場合と同じように、カラオケ装置102に再生させる楽曲を選択し、送信する処理をするだけで、合成歌唱音生成装置112にも当該楽曲の伴奏に合わせて演奏する合成歌唱音の設定情報を得ることができる。利用者は、楽曲に合わせてその都度、設定情報を合成歌唱音生成装置112に入力する必要がないので、高い利便性を得ることができる。それにより、合成歌唱音生成装置112を用いて、気軽に合成歌唱音による演奏を楽しむことができる。
[第2実施形態]
本実施形態は、合成歌唱音生成装置112にインストールされている音声源の特性に応じた設定情報を、歌唱合成用サーバから取得する態様を例示する。
<動作の説明>
図11は、本実施形態に係る制御用端末装置104、合成歌唱音生成装置112、カラオケ装置102、歌唱合成用サーバ108の動作フローを示す。図11で示す動作フローは、制御用端末装置104が合成歌唱音生成装置112に設定されている音声源を特定し、その音声源に適した設定情報を歌唱合成用サーバ108から取得する態様を示す。
制御用端末装置104は合成歌唱音生成装置112から、使用される装置や音声源を特定するための識別情報を取得するための処理を実行する。識別情報は、装置の型番、利用可能な音声源の区別を表すパラメータ等で構成される。例えば、制御用端末装置104は合成歌唱音生成装置112と通信し、識別情報を問い合わせる(S300)。合成歌唱音生成装置112は問い合わせがあると、設定されている音声源の情報を制御用端末装置104に送信する(S301)。
制御用端末装置104は、選曲操作をし(S302)、選曲情報(楽曲ID)をカラオケ装置102に送信する(S304)。また、制御用端末装置104は歌唱合成用サーバ108に、選曲情報(楽曲ID)と識別情報を送信する(S305)。
歌唱合成用サーバ108は、選曲情報(楽曲ID)と識別情報を受信する(S310)。歌唱合成用サーバ108は選択情報(楽曲ID)及び識別情報に基づいて、合成歌唱音生成装置112に対する設定情報を選択する(S312)。設定情報には、合成歌唱音生成装置112で使用する合成歌唱音生成用歌詞データ、合成歌唱音生成装置112に設定されている音声源に適した発音制御データが含まれている。例えば、同じ楽曲に対して合成歌唱音を生成して演奏する場合であっても音声源の種類によって、最適なビブラート等のかけ方が異なるので、発音制御データも音声源毎に用意されている。歌唱合成用サーバ108は、選曲情報(楽曲ID)と識別情報に対応する設定情報を制御用端末装置104に送信する(S314)。
制御用端末装置104は、歌唱合成用サーバ108から設定情報を受信する(S316)。以降の処理フローは、図10で示す場合と同様である。この例によれば、合成歌唱音生成装置112は、設定されている音声源の特性に合わせて発音制御データを取得できる。それにより利用者は、その合成歌唱音生成装置112を用いて、より表情豊かで自然な合成歌唱音を演奏することができる。
[第3実施形態]
本発明の一実施形態において、合成歌唱音生成装置112は電気通信回線に接続し通信を行う機能を有していてもよい。合成歌唱音生成装置112が通信機能を有することにより、歌唱合成用サーバと通信して演奏する楽曲に合わせて設定情報を取得することも可能となる。
<全体構成>
図12は、本実施形態に係るカラオケシステム100bの構成を示す。カラオケ装置102、制御用端末装置104、カラオケ用サーバ106、歌唱合成用サーバ108は第1実施形態において図1で示すものと同様である。合成歌唱音生成装置112はこのようなカラオケシステム100bにおいて、歌唱合成用サーバ108と電気通信回線110を介して通信を行うことが可能となっている。合成歌唱音生成装置112は、歌唱合成用サーバ108から設定情報をダウンロードすることで、発音制御パラメータを設定する機能を有する。
<動作の説明>
図13は、本実施形態に係る制御用端末装置104、合成歌唱音生成装置112、カラオケ装置102、歌唱合成用サーバ108の動作フローを示す。
制御用端末装置104は選曲操作がされ(S302)、選曲情報(楽曲ID)がカラオケ装置102と合成歌唱音生成装置112に送信される(S304)。カラオケ装置102は、選曲情報(楽曲ID)を受信し(S306)、選曲情報(楽曲ID)に対応する楽曲を選択し、記録媒体から取得する処理を適宜実行する(S308)。
合成歌唱音生成装置112は選曲情報(楽曲ID)を受信し(S307)、歌唱合成用サーバ108に送信する(S309)。歌唱合成用サーバ108は、選曲情報(楽曲ID)を受信し(S310)、設定情報を選択し(S312)、設定情報を合成歌唱音生成装置112に送信する(S314)。合成歌唱音生成装置112は、歌唱合成用サーバ108から設定情報を受信し(S320)、選択した楽曲に対する設定情報を設定する(S322)。カラオケ装置102で楽曲の伴奏が再生されると(S324)、利用者は合成歌唱音生成装置112を操作して、演奏することができる(S326)。
本実施形態では、合成歌唱音生成装置112が歌唱合成用サーバ108と通信をして、選曲情報(楽曲ID)に対応した設定情報を取得することにより、利用者は通常の場合と同じように、カラオケ装置102に再生させる楽曲を選択し、送信する処理をするだけで、合成歌唱音生成装置112にも当該楽曲の伴奏に合わせて演奏する合成歌唱音の設定情報を得ることができる。本実施形態によれば、合成歌唱音生成装置112に歌唱合成用サーバ108と通信する機能を備えることで、既存のカラオケ装置102及び当該カラオケ装置102に付加される制御用端末装置104をそのまま利用することも可能となる。
なお、本実施形態は、第2実施形態と組み合わせて実施することもできる。すなわち、合成歌唱音生成装置に設定されている音声源の特性に応じた設定情報を、合成歌唱音生成装置が歌謡合成用サーバから取得するようにすることもできる。
[第4実施形態]
本発明の一実施形態において、カラオケ装置102は電気通信回線110に接続し通信を行う機能を有していてもよい。カラオケ装置が通信機能を有することにより、歌唱合成用サーバ108と通信して演奏する楽曲に合わせて設定情報を取得することも可能となる。
<全体構成>
図14は、本実施形態に係るカラオケシステム100cの構成を示す。制御用端末装置104、合成歌唱音生成装置112、カラオケ用サーバ106、歌唱合成用サーバ108は第1実施形態において図1で示すものと同様である。カラオケ装置102はこのようなカラオケシステム100cにおいて、歌唱合成用サーバ108と電気通信回線110を介して通信を行うことが可能となっている。カラオケ装置102は、歌唱合成用サーバ108から設定情報をダウンロードすることで、発音制御パラメータを合成歌唱音生成装置112に設定することができる。
<動作の説明>
図15は、本実施形態に係る制御用端末装置104、合成歌唱音生成装置112、カラオケ装置102、歌唱合成用サーバ108の動作フローを示す。
制御用端末装置104は選曲操作がされ(S302)、選曲情報(楽曲ID)がカラオケ装置102に送信される(S304)。カラオケ装置102は、選曲情報(楽曲ID)を受信し(S306)、選曲情報(楽曲ID)を歌唱合成用サーバ108に送信する(S309)。また、カラオケ装置102は、選曲情報(楽曲ID)に対応する楽曲を選択し、記録媒体から取得する処理を適宜実行する(S308)。
歌唱合成用サーバ108は、選曲情報(楽曲ID)を受信し(S310)、設定情報を選択し(S312)、設定情報をカラオケ装置102に送信する(S314)。カラオケ装置102は、歌唱合成用サーバ108から選択情報(楽曲ID)に対応した設定情報を受信し(S316)、当該選択情報を合成歌唱音生成装置112に送信する(S318)。合成歌唱音生成装置112は、選択情報(楽曲ID)に対応した設定情報を受信し(S320)、当該設定情報を設定する(S322)。カラオケ装置102で楽曲の伴奏が再生されると(S324)、利用者は合成歌唱音生成装置112を操作して、演奏することができる(S326)。
本実施形態では、カラオケ装置102が歌唱合成用サーバ108と通信をして、曲情報(楽曲ID)に対応した合成歌唱音生成装置112の設定情報を取得することにより、利用者は通常の場合と同じように、カラオケ装置102に再生させる楽曲を選択し、送信する処理をするだけで、合成歌唱音生成装置112にも当該楽曲の伴奏に合わせて演奏する合成歌唱音の設定情報を得ることができる。本実施形態によれば、カラオケ装置102が歌唱合成用サーバ108と通信する機能を備えることで、利用者の利便性を向上させることができる。
なお、本実施形態は、第2実施形態と組み合わせて実施することもできる。すなわち、合成歌唱音生成装置に設定されている音声源の特性に応じた設定情報を、合成歌唱音生成装置が歌謡合成用サーバから取得するようにすることもできる。
[第5実施形態]
第1実施形態乃至第4実施形態において、合成歌唱音生成装置112に、選択情報(楽曲ID)に対応する設定情報として、自己又は他の利用者が演奏した過去の設定情報が歌唱合成用サーバ108から読み出され、設定されるようにしてもよい。歌唱合成用サーバ108に、他の利用者の設定情報がライブラリとして保存され、提供可能な状態に置かれていることで、利用者は、他の利用者の演奏をコピーして、カラオケを楽しむことができる。設定情報は、演奏中に行った操作を表す情報でもよい。この場合、声色やリバーブ等の効果を即興で加えた情報であってもよい。
また、第1実施形態乃至第4実施形態において、合成歌唱音生成装置112に設定した設定情報を、歌唱合成用サーバ108にアップロードして保存可能とされていてもよい。利用者は、自己が合成歌唱音生成装置112に設定した設定情報を、歌唱合成用サーバ108に保存しておくことで、例えば、別の機会に同じ楽曲を演奏するときに、過去の設定情報をダウンロードして使用することができる。また、他の利用者に公開して、自己の設定情報を利用してもらうことができる。
本実施形態のように、合成歌唱音生成装置の設定情報を、歌唱合成用サーバに保存して、相互利用を図ることで、同じ楽曲であっても印象の異なる演奏を楽しむことができる。