JP2016014781A

JP2016014781A - 歌唱合成装置および歌唱合成プログラム

Info

Publication number: JP2016014781A
Application number: JP2014136813A
Authority: JP
Inventors: 川▲原▼　毅彦; Takehiko Kawahara; 毅彦川▲原▼; 土屋　豪; Takeshi Tsuchiya; 豪土屋
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2014-07-02
Filing date: 2014-07-02
Publication date: 2016-01-28

Abstract

【課題】その場限りでなく、新たな面白みを伴う歌唱合成を提供する。【解決手段】シーケンスデータ作成部１３６は、リファレンスデータＲｆで規定される模範歌唱に、学習データで規定される歌唱者による歌唱表現を付加して、歌詞を歌唱合成するためのシーケンスデータＳｄを作成する。歌唱合成部１３８は、作成されたシーケンスデータＳｄにしたがって歌詞を歌唱合成する。【選択図】図２

Description

本発明は、歌詞を歌唱合成する歌唱合成装置および歌唱合成プログラムに関する。

近年、カラオケ装置において、歌唱者が歌唱したときに、当該歌唱を他人の歌唱に変換して出力する機能が人気となっている。この機能は、予め特定の人物（例えばオリジナルの歌手）が歌唱したときのフォルマントデータを記憶しておく一方で、歌唱者が歌唱したときに、当該歌唱のピッチ（音高）や音量などのデータを抽出するとともに、フォルマントデータで規定されるフォルマントを、抽出したデータによって整形して、歌唱音声を合成することで実現される（例えば特許文献１参照）。

特開平１０−２６８８９５号公報

しかしながら、上記技術では、歌唱者が実際に歌唱したときの特徴（ここでは、ピッチや音量）がオリジナルの歌手のフォルマントに反映されるのみである。したがって、合成された歌唱音声は、その場限りで面白みに欠ける、という問題があった。
本発明は、上述した事情に鑑みてなされたもので、その目的の一つは、その場限りでなく、新たな面白みを伴う歌唱合成装置および歌唱合成プログラムを提供することにある。

上記目的を達成するために本発明の一態様に係る歌唱合成装置は、リファレンスデータで規定される模範歌唱に、学習データで規定される歌唱者による歌唱表現を付加して、歌詞を歌唱合成するためのシーケンスデータを作成するシーケンスデータ作成部と、前記シーケンスデータ作成部で作成されたシーケンスデータにしたがって歌唱合成する歌唱合成部と、を具備する。

この一態様に係る歌唱合成装置によれば、模範歌唱に、歌唱者による歌唱表現が付加されたシーケンスデータにしたがって歌詞が歌唱合成される。また、当該歌唱者による歌い方を反映した歌唱音声を、いつでも合成することができる。このため、その場限りでなく、新たな面白みを提供することができる。
なお、学習データは、例えば、歌唱合成装置内の別途の記憶部に記憶させても良いし、ネットワークを介したサーバに記憶させても良い。また、学習データは、例えば曲毎に歌唱者による歌唱表現を規定したものでも良いし、曲の構成（Ａメロ、Ｂメロ、サビなど）毎に分けた歌唱表現を規定したものでも良い。

上記一態様に係る歌唱合成装置において、歌唱者による歌唱信号からピッチを抽出するとともに、当該抽出したピッチと、前記リファレンスデータで規定されるピッチとを比較して、当該歌唱者による歌唱表現を分析する歌唱分析部と、前記歌唱分析部より分析された歌唱表現に基づき前記学習データを更新する歌唱学習部と、を備える構成としても良いし、ピッチに替えて音量を抽出・比較する構成としても良い。この構成によれば、歌唱者が歌唱したときに、その歌唱表現を反映して学習データが更新される。このため、歌唱者が歌唱する際の歌唱表現を学習データに、的確に表すことができる。
なお、ピッチ、音量のほか、発音（歌唱）タイミングを抽出・比較しても良いし、これらを適宜組み合わせて抽出・比較しても良い。

上記一態様に係る歌唱合成装置において、歌唱者が歌唱した歌唱音声と、前記歌唱合成部より歌唱合成された歌唱音声と、を混合して出力する混合部を備える構成としても良い。この構成によれば、歌唱者自身が歌唱した歌唱音声と、歌唱者による歌唱表現が付加されて合成された歌唱音声との合唱（デュエット）が実現される。なお、合成される歌唱音声に付加される歌唱表現した歌唱者、つまりデュエットの相手方は、歌唱者自身であっても良いし、当該歌唱者とは別人であっても良い。

また、上記構成において、伴奏音を再生する伴奏再生部を備え、前記混合部は、前記歌唱者が歌唱した歌唱音声と、前記歌唱合成部より歌唱合成された歌唱音声とに加えて、前記伴奏再生部により再生された伴奏音を混合して出力し、前記歌唱合成部は、前記伴奏再生部により再生された伴奏音の進行に合わせて歌詞を歌唱合成する構成としても良い。これにより、伴奏音に合わせて、デュエットの相手方が歌唱合成される。
なお、本発明の態様については、歌唱合成装置のみならず、コンピュータを当該歌唱合成装置として機能させるプログラムとして概念することが可能である。

実施形態に係る歌唱合成装置を適用したカラオケ装置の構成を示す図である。カラオケ装置で構築される機能を示すブロック図である。カラオケ装置における各種データを示す図である。カラオケ装置の動作を示すフローチャートである。歌唱を指導する画面の一例を示す図である。歌唱合成装置の応用例（その１）を適用したカラオケ装置の構成を示す図である。応用例（その２）を適用したカラオケ装置の動作を示すフローチャートである。応用例（その３）を適用したカラオケ装置の構成を示す図である。応用例（その４）を適用したカラオケ装置の動作を示すフローチャートである。

以下、本発明の実施形態について図面を参照して説明する。

図１は、実施形態に係る歌唱合成装置を適用したカラオケ装置１０の構成を示す図である。このカラオケ装置１０は、歌唱者によって指定された曲の伴奏音を再生するととともに、当該歌唱者の歌唱表現を学習した学習データに基づいて歌唱合成して、当該歌唱者による実際の歌唱とデュエットさせる、というものである。

この図において、カラオケ装置１０は、ＣＰＵ（Central Processing Unit）１１０と、歌唱入力部１１２と、スピーカ１１４と、Ａ／Ｄ変換器１１６と、記憶部１１８と、操作入力部１２０、グラフィックコントローラ１２２と、モニタ１２４と、Ｄ／Ａ変換器１２６とを含んだコンピュータである。このうち、ＣＰＵ１１０、Ａ／Ｄ変換器１１６、記憶部１１８、操作入力部１２０、グラフィックコントローラ１２２およびＤ／Ａ変換器１２６が、バスＢを介して互いに接続されている。

歌唱入力部１１２は、歌唱者による歌唱をアナログの歌唱信号に変換して、Ａ／Ｄ変換器１１６に供給し、Ａ／Ｄ変換器１１６は、当該歌唱信号をデジタルに変換する。一方、Ｄ／Ａ変換器１２６は、ＣＰＵ１１０等によって処理されたデジタルの信号をアナログに変換し、スピーカ１１４は、当該アナログの信号を音響変換して出力する。
記憶部１１８は、オペレーティングシステムやカラオケの機能を提供するアプリケーションなどのプログラムＰを記憶する。また、記憶部１１８では、ＣＰＵ１１０によって各種のデータベースＤＢが管理される。
操作入力部１２０は、リモコンやタッチキーなどであり、歌唱者（利用者）の操作による各種の指示を入力する。

ＣＰＵ１１０は、記憶部１１８に記憶されたプログラムＰを実行して、次のような処理を実行する。すなわち、ＣＰＵ１１０は、歌唱者による歌唱を解析して、後述する学習データを更新する更新処理、歌唱合成の基礎となるシーケンスデータを作成する作成処理、当該シーケンスデータに基づいて歌唱（音声）を合成する歌唱合成処理、および、伴奏データに基づいて伴奏音を再生（生成）する伴奏音再生処理を実行する。
グラフィックコントローラ１２２は、ＣＰＵ１１０に指示される描画データを内蔵のフレームバッファに書き込む一方、モニタ１２４の走査（水平走査および垂直走査）の順に読み出し、モニタ１２４に供給して画面を表示させる。

図２は、カラオケ装置１０で構築される機能ブロックを示す図である。
この図において、ＣＰＵ１１０がカラオケ演奏するためにプログラムＰを実行することよって構築される機能ブロックを二点鎖線で示される領域Ｆで示している。歌唱入力部１１２、スピーカ１１４、Ａ／Ｄ変換器１１６およびＤ／Ａ変換器１２６については、ハードウェアであり、ＣＰＵ１１０によって構築される機能ブロックではないが、信号の流れを説明するために、図２において便宜的に示している。
また、カラオケ装置１０の機能からすれば、モニタ１２４の画面に歌詞を表示させるとともに、伴奏の進行に合わせて当該歌詞をワイプ（色替え）する処理なども含まれるが、本発明とは直接関係しないので、このような歌詞表示処理およびワイプ処理については説明を省略する。

さて、図２に示されるように、カラオケ装置１０では、歌唱分析部１３２、歌唱学習部１３４、シーケンスデータ作成部１３６、歌唱合成部１３８、伴奏再生部１４８および混合部１５２が構築される。
このうち、混合部１５２は、図において上から順に第１入力端、第２入力端および第３入力端を有し、各入力端に供給された信号を混合（ミキシング）して、Ｄ／Ａ変換器１２６に供給する。
データベースＤＢ１、ＤＢ２、ＤＢ３は、図１における記憶部１１８のデータベースＤＢを、管理するデータ毎に分けたものである。このうち、データベースＤＢ１は曲データを管理し、データベースＤＢ２は学習データを管理し、データベースＤＢ３はキャラクタデータを管理する。

図３は、データベースＤＢ１〜ＤＢ３で管理されるデータを示す図である。
１曲分の曲データは、ヘッダ、伴奏データ（１）〜（ｎ）、リファレンスデータＲｆおよび歌詞データＳｇから構成される。これらのうち、ヘッダには、当該曲の属性に関するデータが、例えば、曲名や、曲を識別するための曲ＩＤ、ジャンルなどのデータが、記述される。伴奏データ（１）は、当該曲の伴奏音の１番目のトラック（１）を規定し、同様に伴奏データ（２）〜（ｎ）は、当該曲の伴奏音の２〜ｎ番目のトラックを規定する。なお、ｎは、ここではトラックを区別するために複数としているが、単数の１であっても良い。また、伴奏データ（１）〜（ｎ）については、以降、各トラックを区別しないので、伴奏データＢｇと総称することにする。

リファレンスデータＲｆは、当該曲の歌い方の模範を示すデータであり、ピッチ（音程）や、その変化を示すピッチベンド、ベロシティ（音量）、発声タイミングなどを示すデータである。このリファレンスデータＲｆは、歌唱を採点（説明省略）するときだけでなく、本発明の特徴の一部である歌唱合成するときにも用いられる。歌詞データＳｇは、曲の歌詞を示すデータである。
なお、伴奏データＢｇ、リファレンスデータＲｆおよび歌詞データＳｇは、イベントの内容を示すイベント情報と、イベント同士の時間的な間隔を示すデュレーションとの組み合わせで規定した形式、例えばＳＭＦ（Standard MIDI Format）で記述される。
このような曲データは、データベースＤＢ１において複数曲分用意される。

学習データは、本実施形態にあっては、曲ＩＤおよび歌唱者ＩＤの組毎に対応して設けられ、当該歌唱者が曲ＩＤで識別される曲を歌唱したときに、曲の進行に合わせて時系列で、その歌唱の表現を数値化したデータである。
この歌唱表現について、いくつか例を挙げて説明する。
例えば、リファレンスデータＲｆで規定される模範の歌唱において、音を延ばすべき状態が規定されている場合に、歌唱信号においてピッチ、音量の揺れがあれば、その揺れの高低差、時間的な長さの程度などに基づいて歌唱表現の一つである「ビブラート」とすべきか否か判断する。ビブラートであると判断した場合、その揺れの高低差や時間的長さなどを、ビブラートを規定する数値とする。
また例えば、模範の歌唱における発音タイミングよりも、歌唱信号における発声が遅延している場合に、その遅延量に基づいて歌唱表現の「ため」とすべきか否かを判断する。「ため」であると判断した場合、その遅延量を「ため」を規定する数値とする。
模範の歌唱のピッチよりも、歌唱信号から抽出されるピッチが（所定の範囲内で）低くシフトした状態から、すぐに正しいピッチになれば、そのピッチの変化具合（歌い方）を数値化して、その数値に基づいて「しゃくり」であるか否かを判断する。「しゃくり」であると判断した場合、その変化具合（歌い方）の数値を「しゃくり」を規定する数値とする。
このように学習データは、曲の進行に対して、どの部分で、どのような表現で、どの程度で歌唱したかを規定するデータとなっている。
なお、歌唱者ＩＤは、歌唱者を一意に特定するための識別情報であり、例えば、カラオケの選曲するときに、曲とともに入力される。

歌唱データＳｓは、歌唱者が曲を歌唱したときに、学習データと同様に、曲の進行に対して、どの部分で、どのような表現で、どの程度で表現したのかについて、曲ＩＤおよび歌唱者ＩＤの組に対応付けて規定するデータとなっている。
なお、本実施形態では、学習データは、曲ＩＤおよび歌唱者ＩＤの組毎に対応して設けられ、歌唱者ＩＤで識別される歌唱者が曲ＩＤで識別される曲を歌唱したときの歌唱データＳｓを処理することによって求められる。学習データは、歌唱が終了したときに、当該歌唱の表現を規定する歌唱データＳｓによって更新される。このため、学習データは、歌唱者ＩＤで識別される歌唱者が曲ＩＤで識別される曲の歌い方の特徴や癖を表したもの、という一面を有している。

キャラクタデータは、特定の性格を有する仮想的な人物（キャラクタ）を規定するデータであり、学習データへのフィルタとして機能する。例えば、ある歌唱者の、ある曲に対応する学習データに、「負けず嫌い」（または、おおげさ）の性格のキャラクタが適用されると、当該キャラクタのキャラクタデータは、当該学習データで規定される当該歌唱者による当該曲の歌唱表現を、強調するフィルタとなる。
また例えば、ある歌唱者の、ある曲の学習データに、「へそまがり」（または、気まぐれ）の性格を有するキャラクタが適用されると、当該キャラクタのキャラクタデータは、当該歌唱者による当該曲の歌唱表現を、所定の確率（例えば５０％）で無視させるフィルタとなる。
なお、キャラクタを選択しない選択肢、すなわち学習データに対してノーフィルタとする選択肢もある。

説明を図２に戻すと、Ａ／Ｄ変換器１１６によりデジタルに変換された歌唱信号は、歌唱分析部１３２と、混合部１５２における第１入力端とにそれぞれ供給される。
歌唱分析部１３２は、ある歌唱者がある曲を歌唱したときに、当該歌唱信号からピッチ、音量等を抽出するとともに、当該曲に対応したリファレンスデータＲｆで示されるピッチ、音量等と比較し、それらの差分に基づいて、当該歌唱者による当該曲の歌唱表現を数値化し、歌唱データＳｓとして出力する。

歌唱学習部１３４は、歌唱者および当該歌唱者が歌唱する曲に対応する学習データをデータベースＤＢ２から読み出すとともに、当該学習データを、歌唱分析部１３２から出力される歌唱データＳｓで更新する。
なお、学習データを歌唱データＳｓで更新するとは、当該学習データおよび当該歌唱データで規定される歌唱表現のうち、同種（「ビブラート」同士、「ため」同士、「しゃくり」同士）の表現を規定する数値の平均値を求めて、新たな学習データの数値として置き換える処理である。
また、本実施形態では、学習データとして、歌唱の表現を規定する数値の平均値を求めているが、これ以外の演算や統計処理、さらには確率処理（今回の歌唱データＳｓを統計の基礎として採用する、しないなどの処理）を単独で、または、適宜組み合わせて用いても良い。

一方、伴奏再生部１４８は、曲データの伴奏データＢｇから、カラオケの伴奏音を再生して、当該伴奏音を示す信号を混合部１５２における第３入力端に供給する。詳細には、伴奏再生部１４８は、伴奏データＢｇを解釈して、イベント情報を、デュレーションで示される時間が経過する毎に、時系列の順で処理して、カラオケの伴奏音を再生する。なお、ここでいう伴奏音の再生とは、当該伴奏音を示すデータを生成する、という意味である。
また、伴奏再生部１４８は、伴奏データＢｇを解釈する際に、演奏開始からのデュレーションの積算値を求め、時刻情報として歌唱合成部１３８に供給する。これによって、歌唱合成部１３８は、当該時刻情報によって、演奏の進行状態、すなわち曲のどの部分が演奏されているかを特定することができる。

シーケンスデータ作成部１３６は、歌唱者が歌唱する曲の曲データのうち、歌詞データＳｇおよびリファレンスデータＲｆと、当該歌唱者および当該曲に対応する学習データと、キャラクタが選択されていれば、当該キャラクタに対応するキャラクタデータとから、シーケンスデータＳｄを作成し、歌唱合成部１３８に供給する。このシーケンスデータＳｄは、歌詞データＳｇで規定される歌詞を、どのようなタイミングで、どのようなピッチや音量等で歌唱合成するのかを規定するデータであり、伴奏データＢｇ等と同様に、例えばＳＭＦで記述される。
なお、シーケンスデータＳｄで規定される歌詞は、歌詞データＳｇで規定されるが、歌唱合成（発声）するタイミング、ピッチ、音量等については、リファレンスデータＲｆで規定される模範的な歌唱ではなく、その模範的な歌唱に、学習データで規定される歌唱表現を付加したものとなる。さらに、キャラクタが選択されていれば、当該キャラクタデータによってフィルタリングした学習データが用いられる。

歌唱合成部１３８は、伴奏再生部１４８からの時刻情報にしたがって、すなわち伴奏音の再生に同期して、シーケンスデータＳｄの内容に応じて歌唱合成し、当該歌唱を示す信号を混合部１５２における第２入力端に供給する。
なお、歌唱合成部１３８は、例えば次のようにして歌唱合成する。すなわち、歌唱合成部１３８は、シーケンスデータＳｄ（歌詞データＳｇ）で規定される歌詞（文字）を音声素片の列に変換するとともに、各音声素片の列に対応する音声素片データを、ライブラリ（図示省略）から選択するとともに、選択した音声素片データの繋ぎ部分が連続するように修正し、当該修正した音声素片データに対する各々のピッチや音量を、当該シーケンスデータＳｄで規定されるピッチや音量に合わせて変換して、歌詞を歌唱合成する。
ここでいうライブラリとは、単一の音素や音素から音素への遷移部分など、歌唱音声の素材となる各種の音声素片の波形を定義した音声素片データを予めデータベース化したものである。

図４は、カラオケ装置１０の動作を示すフローチャートである。
この動作は、歌唱者を特定する歌唱者ＩＤおよび演奏すべき曲を特定する曲ＩＤが操作入力部１２０を介して入力されると、開始する。

まず、当該曲をカラオケ演奏するための設定処理が実行されて（ステップＳ１）、各種データが次のように供給される。
第１に、曲ＩＤに対応して設けられた曲データのうち、リファレンスデータＲｆと歌詞データＳｇとがデータベースＤＢ１から読み出され、また、曲ＩＤおよび歌唱者ＩＤに対応して設けられた学習データがデータベースＤＢ２から読み出されて、それぞれシーケンスデータ作成部１３６に供給される。歌唱者がキャラクタを操作入力部１２０で選択していれば、当該キャラクタに対応するキャラクタデータがデータベースＤＢ３から読み出されて、シーケンスデータ作成部１３６に供給される。
第２に、曲ＩＤに対応して設けられた曲データのリファレンスデータＲｆは、歌唱分析部１３２にも供給される。
第３に、曲ＩＤに対応して設けられた曲データのうち、伴奏データＢｇがデータベースＤＢ１から読み出されて、伴奏再生部１４８に供給される。

こうして、各種データが供給されると、図４に示されるように、（ａ）、（ｂ）、（ｃ）の処理が、それぞれ並行して実行される。
なお、（ａ）の処理は、シーケンスデータを作成するための作成処理、および、当該シーケンスデータに基づいて歌詞を歌唱合成する歌唱合成処理であり、（ｂ）の処理は、伴奏データＢｇに基づいて伴奏音を再生する伴奏音再生処理であり、（ｃ）の処理は、歌唱を解析して、学習データを更新する更新処理である。

シーケンスデータ作成部１３６は、リファレンスデータＲｆと歌詞データＳｇと学習データとから、さらに、選択されていればキャラクタデータを加えて、シーケンスデータＳｄを作成し、歌唱合成部１３８に供給する（ステップＳ１１）。すなわち、本実施形態では、シーケンスデータＳｄは、伴奏音の再生前（カラオケ演奏前）に作成される。ただし、シーケンスデータＳｄの作成については、伴奏音の再生前に限られず、伴奏音の再生に同期するようにリアルタイムに作成しても良い。

一方、伴奏再生部１４８は、他の曲を演奏していないことを条件に、供給された曲の伴奏データＢｇにしたがって伴奏音再生処理を実行する（ステップＳ２２）。
伴奏再生部１４８は、伴奏データＢｇにおけるイベントのうち、時系列の順で最後のイベントを処理したか否か、すなわち伴奏終了したか否かを判別する（ステップＳ２３）。伴奏再生部１４８は、伴奏終了していないと判別すれば（ステップＳ２３の判別結果が「Ｎｏ」であれば）、処理手順をステップＳ２２に戻す。このため、伴奏再生部１４８は、伴奏終了するまで、当該曲の伴奏音再生処理を実行することになる。伴奏再生部１４８は、当該曲について伴奏終了すると（ステップＳ２３の判別結果が「Ｙｅｓ」になると）、その旨（伴奏終了）を歌唱学習部１３４に通知して（ステップＳ２４）、当該曲についての伴奏音再生処理を終了させる。

また、伴奏再生部１４８による伴奏音再生処理と並行して、歌唱合成部１３８は、作成されたシーケンスデータＳｄにしたがって歌詞を歌唱合成する歌唱合成処理を、伴奏再生部１４８による伴奏に合わせて実行する（ステップＳ１２）。
これにより、キャラクタが選択されていなければ、模範的な歌唱に、学習データで規定される歌唱表現を付加して、すなわち歌唱者の特徴を示す歌い方で、歌唱合成がされる。また、キャラクタが選択されていれば、歌唱者による歌唱表現である学習データに対し、当該キャラクタの性格を反映して歌唱合成がされることになる。
このようにして、歌唱者とは別人（歌唱合成の音声素片を採取した人物）の声質であるが、当該歌唱者にそっくりの歌唱表現で歌唱合成がされることになる。なお、歌唱合成は、伴奏音の再生に合わせて実行されるので、伴奏が終了すると、必然的に歌唱合成も終了することになる。

歌唱合成された歌唱にあわせて、歌唱者が歌唱すれば、デュエットになる。歌唱分析部１３２は、歌唱者による歌唱信号からピッチや、音量、発声タイミングを抽出するとともに、供給されたリファレンスデータＲｆとの比較により、当該歌唱者による当該曲の歌唱表現を数値化して、歌唱データＳｓとして出力する（ステップＳ３２）。

歌唱学習部１３４は、伴奏再生部１４８から伴奏終了の通知を受けたときに、曲ＩＤおよび歌唱者ＩＤに対応する学習データを、歌唱データＳｓを用いて更新して、データベースＤＢ２に書き戻す（ステップＳ３４）。
したがって、同じ歌唱者が次回同じ曲を選択した場合、歌唱合成される歌唱は、今回の歌唱表現が反映されることになる。なお、ステップＳ３４の後、更新処理が終了する。

また、伴奏再生部１４８により再生された伴奏音と、歌唱合成部１３８により合成された歌唱と、歌唱入力部１１２により入力された歌唱者の歌唱とは、混合部１５２によりミキシングされた後、スピーカ１１４から出力される。

本実施形態に係るカラオケ装置１０によれば、シーケンスデータＳｄに基づいて、すなわち、歌唱者による歌唱表現で歌詞が歌唱合成されるので、個性的な歌唱となり、機械的な印象を与えない。さらに、ある歌唱者がある曲を歌唱すると、当該歌唱者および当該曲に対応付けられた学習データが更新されるので、歌唱者に歌唱合成された歌唱音声を提供する、という一方向的なサービスだけでなく、歌唱者がカラオケ装置１０に対して自己の歌唱表現を学習させて、次回以降の歌唱合成に反映させる、という双方向（インタラクティブ）の新たな娯楽を提供することができる。
そして、歌唱者が、歌唱合成される歌唱音声とデュエットすることを繰り返していくと、対応する学習データが更新されて、自己の歌唱表現が、歌唱合成される歌唱音声に反映されるので、次第に息の合っていくような感覚を当該歌唱者に与えることができる。

＜応用・変形例＞
本発明は、上述した実施形態に限定されるものではなく、例えば次に述べるような各種の応用・変形が可能である。なお、次に述べる応用・変形の態様は、任意に選択された一または複数を適宜に組み合わせることもできる。

＜歌唱入力＞
実施形態では、歌唱入力部１１２によって入力された歌唱信号、すなわち歌唱者が歌唱した歌唱音声については、一旦、Ａ／Ｄ変換器１１６でデジタルに変換し、ミキシングした後に、Ｄ／Ａ変換器１２６でアナログ信号に変換してスピーカ１１４から出力する構成とした。ここで、歌唱者による歌唱音声をデジタルに変換する第１の理由は、当該歌唱音声からピッチ等を抽出して、リファレンスデータＲｆで示されるピッチ等と比較しやすくするためである。したがって、歌唱音声をスピーカ１１４から出力するという観点からいえば、Ａ／Ｄ変換器１１６によるデジタル変換およびＤ／Ａ変換器１２６によるアナログ変換は不要である、と言うことができる。
そこで、図６に示されるように、Ｄ／Ａ変換器１２６の後段に混合部１２８を設けて、当該混合部１２８が、Ｄ／Ａ変換器１２６によってアナログに変換された信号（歌唱合成された歌唱信号と伴奏音を示す信号とのミキシング信号）と、歌唱入力部１１２によって入力された歌唱信号とをミキシングして、スピーカ１１４に出力する構成としても良い。
なお、図６は、歌唱合成装置の応用例（その１）を適用したカラオケ装置の構成を示す図である。

＜キャラクタ＞
キャラクタを選択する際に、当該キャラクタの性格を示すアバターをモニタ１２４に表示させて、複数のキャラクタのなかから、適用したいキャラクタを直感的に選択できるようにしても良い。

＜歌唱指導＞
実施形態において、ある歌唱者による、ある曲の歌唱表現、言い換えれば歌い方の癖は、当該歌唱者に対応した学習データで規定される。逆にいえば、歌唱者および曲に対応した学習データから、当該歌唱者が当該曲を歌唱する際の歌い方の癖が特定される。この際に、カラオケの演奏（伴奏音再生）が、模範となる歌唱に対して、その歌い方の癖の不足気味な箇所に到達するのであれば、その不足する表現を強調するように指導したり、逆に、過剰気味な箇所に到達するのであれば、その過剰な表現を抑えるように指導したりしても良い。

図５は、指導の一例を示す図である。この図の例は、学習データによってビブラートがつけて歌唱すべき部分に、カラオケの演奏が進行した場合に、当該学習データで示されるビブラートの程度が浅いために、ビブラートを深くするように指導するときのモニタ１２４の画面の一例である。なお、この画面に表示させるアバターについては、図の例のほか、歌唱者（利用者）の好みに応じて適宜選択できるようにしても良い。

＜歌唱データ、学習データ＞
実施形態では、歌唱データＳｓを、リファレンスデータＲｆで示される模範的な歌唱との比較により求めたが、歌唱者による歌唱表現や癖を特徴付けるデータであれば良いので、例えば、歌唱における音量やピッチ、タイミングなどを直接規定するデータであっても良い。また、このような学習データＳｓによって、学習データを更新しても良い。

また、歌唱データＳｓおよび学習データは、曲毎に対応付けなくなくても良い。例えば曲の構成（Ａメロ、Ｂメロ、サビなど）毎に分けて、各構成部分での歌唱表現を規定するようにしても良い。実施形態のように、歌唱データＳｓおよび学習データを曲毎に対応付けた場合、曲毎に、歌唱者の歌唱表現で歌唱合成することができる。一方で、歌唱データＳｓおよび学習データを曲の構成部分毎に対応付けた場合、歌唱者が歌唱したことのない曲であっても、当該曲の構成部分での歌い方、例えばＡメロでは、「しゃくり」をきかせた表現で、例えばＢメロでは、「ため」をきかせる表現で、などのようにして歌唱合成することができる。

＜ネットワークによるデータ共有＞
実施形態では、データベースＤＢをカラオケ装置１０内の記憶部１１８で管理する構成としたが、カラオケ装置１０以外の、例えばネットワークを介して接続されるサーバで管理する構成としても良い。このように、データベースＤＢをサーバで管理する構成にすると、例えばＡさんが、Ｂさんの学習データを用いて、当該Ｂさんの歌唱表現で歌唱合成された歌唱とデュエットする、ということもできる。
キャラクタデータを利用者が編集可能として、自分好みのキャラクタや、先導して欲しいポイントに特化した指導キャラクタを作成しても良い。指導キャラクタとしては、例えば、Ａメロで「しゃくり」をきかせるキャラクタや、Ｂメロで「ため」をきかせるキャラクタなどが考えられる。これらのキャラクタについては、データベースＤＢをサーバで管理するのであれば、他の利用者が選択できるように共有する構成としても良い。
さらに、データベースＤＢをサーバで管理するのであれば、ある利用者の学習データについても、例えば当該利用者の許諾を条件として、他の利用者が用いることができるように公開する構成としても良い。
また、データベースＤＢに限られず、カラオケ装置１０の機能の一部を、ネットワークを介したサーバに移管しても良く、カラオケ装置１０をクラインアントとしたシステムにおいて、当該カラオケ装置の機能の全体が構築されれば良い。

＜学習データの更新タイミング＞
学習データを更新するタイミングについては、伴奏音再生処理の終了に伴う通知受領後ではなく、伴奏音再生途中であっても良い。例えばカラオケの演奏が、予め定められた１乃至複数のポイント（所定ポイント）に到達する毎に、学習データを更新する、という内容でも良い。なお、この所定ポイントの例としては、歌詞の１番、２番、…、の終了時や、フレーズ、小節、所定時間（例えば１０秒毎）等の経過時などが、挙げられる。

図７は、歌唱合成装置の応用例（その２）を適用したカラオケ装置の動作を示すフローチャートである。このカラオケ装置は、伴奏が所定ポイントに到達する毎に、学習データを更新する、というものである。
この図に示されるフローチャートでは、図４に示したフローチャートのステップＳ２２とＳ２３との間に、ステップＳ２０１、Ｓ２０２が追加された点と、ステップＳ３４が、２つのステップＳ３４ａ、Ｓ３４ｂに分けられるとともに、ステップＳ３４ａの後に、ステップＳ３５が追加されている。

そこで、図７においては、これらの追加点を中心に説明すると、伴奏再生部１４８は、ステップＳ２２の伴奏音再生処理を実行しているときに、再生している伴奏が所定上記ポイントに到達したか否かを判別する（ステップＳ２０１）。
なお、この判別については、例えば次のようにすれば良い。すなわち、伴奏データＢｇに、当該ポイントの到達を示すイベント情報を予め埋め込んでおく一方で、伴奏音再生処理において、当該イベント情報を処理すべきタイミングになったときに、伴奏が上記ポイントに到達した、と判別すれば良い。

伴奏再生部１４８は、伴奏が所定ポイントに到達していないと判別すれば（ステップＳ２０１の判別結果が「Ｎｏ」であれば）、処理手順をステップＳ２２に戻す。このため、伴奏再生部１４８は、当該伴奏音再生処理を継続する。
伴奏再生部１４８は、所定ポイントに到達したと判別すれば（ステップＳ２０１の判別結果が「Ｙｅｓ」になれば）、学習データの更新を歌唱学習部１３４に通知する（ステップＳ２０２）。この後、伴奏再生部１４８は、伴奏が終了したか否かを判別し（ステップＳ２３）、伴奏が終了していないと判別すれば（ステップＳ２３の判別結果が「Ｎｏ」であれば）、処理手順をステップＳ２２に戻す。このため、伴奏再生部１４８は、伴奏が所定ポイントに到達しても、当該伴奏音再生処理を継続して実行することになる。

一方、歌唱分析部１３２は、歌唱合成された歌唱にあわせて、歌唱者が歌唱したときに、歌唱データＳｓを出力する（ステップＳ３２）点で、図４と共通であるが、歌唱学習部１３４は、伴奏終了だけではなく、伴奏が所定ポイントに到達する旨の通知を受けたときに、曲ＩＤおよび歌唱者ＩＤに対応する学習データのうち、前回の伴奏の到達ポイントから今回の伴奏の到達ポイントまでの区間について、歌唱データＳｓを用いて更新して、データベースＤＢ２に書き戻す（ステップＳ３４ａ）。このようにして、伴奏が所定ポイントに到達する毎に、当該所定ポイントまでの学習データが逐次更新されることになる。

また、この例において歌唱学習部１３４は、伴奏再生部１４８から伴奏終了の通知を受けたか否かを判別する（ステップＳ３５）。当該通知を受け取っていなければ（ステップＳ３５の判別結果が「Ｎｏ」であれば）、処理手順をステップＳ３２に戻して、歌唱学習部１３４は、伴奏が次のポイントに到達するときに備える。
一方、伴奏終了の通知を受けたとき（ステップＳ３５の判別結果が「Ｙｅｓ」であれば）、歌唱学習部１３４は、学習データのうち、前回の伴奏の到達ポイントから伴奏終了までの区間について、歌唱データＳｓを用いて更新して、データベースＤＢ２に書き戻す（ステップＳ３４ｂ）。この後、更新処理は終了する。

この例では、学習データが逐次更新されるので、カラオケが何らか理由により途中で中止された場合であっても、それまでの歌唱に基づいて学習データを更新することができる。

なお、この例では、伴奏が所定ポイントに到達する毎に、学習データを更新する場合を例にとって説明したが、歌唱者の歌唱表現が際立った場合、具体的には、歌唱の表現を示す数値が閾値以上であるような場合、その都度、学習データを更新しても良い。いずれにしても、学習データを更新するタイミングは、実施形態のように伴奏終了後に限られず、伴奏の途中であっても良いし、リアルタイムでも良い。

また、学習データについては、予め定められたルールを充足したときに更新する構成としても良い。このルールとしては、例えば、伴奏終了してから所定時間経過後としても良いし、１曲毎ではなく、例えば複数曲の終了後としても良い。
さらに、例えば、曲の第１番の歌唱が終了したとき、当該第１番の歌唱表現を示す歌唱データＳｓで第２番以降の学習データを更新させて、第２番以降の歌唱合成に直ちに反映させても良い。なお、このように第１番の終了後に、第２番以降の歌唱合成に直ちに反映させる場合、学習データとして、第１番、第２番、…で共通としても良い。

＜シーケンスデータの作成タイミング＞
シーケンスデータＳｄについては、実施形態のように、伴奏音の再生前（カラオケ演奏前）に作成するのではなく、伴奏音の再生に同期して作成しても良い。

図８は、歌唱合成装置の応用例（その３）を適用したカラオケ装置の構成を示す図である。このカラオケ装置は、シーケンスデータＳｄを伴奏音の再生に同期して作成する、というものである。
この図に示される構成は、図２に示した構成において、伴奏再生部１４８が時刻情報を、歌唱合成部１３８ではなく、シーケンスデータ作成部１３６に供給する構成となっている。詳細には、図８におけるシーケンスデータ作成部１３６は、伴奏再生部１４８による時刻情報でシーケンスデータＳｄを作成して歌唱合成部１３８に供給し、当該歌唱合成部１３８が、供給されたシーケンスデータＳｄをリアルタイムで歌唱合成して出力する構成となっている。

図９は、歌唱合成装置の応用例（その４）を適用したカラオケ装置の動作を示すフローチャートである。このカラオケ装置は、シーケンスデータＳｄを伴奏音の再生に同期するように作成する、というものである。
この図に示されるフローチャートでは、図４に示したフローチャートのステップＳ１１とＳ１２とが１つのステップＳ４１にまとめられた内容となっている。これは、ステップＳ４１では、シーケンスデータ作成部１３６によるシーケンスデータＳｄの作成と、歌唱合成部１３８による歌唱合成とがほぼ並列して実行されるためである。

１０…カラオケ装置、１１２…歌唱入力部、１３２…歌唱分析部、１３４…歌唱学習部、１３６…シーケンスデータ作成部、１３８…歌唱合成部、１４８…伴奏再生部。

Claims

リファレンスデータで規定される模範歌唱に、学習データで規定される歌唱者による歌唱表現を付加して、歌詞を歌唱合成するためのシーケンスデータを作成するシーケンスデータ作成部と、
前記シーケンスデータ作成部で作成されたシーケンスデータにしたがって歌唱合成する歌唱合成部と、
を具備することを特徴とする歌唱合成装置。
歌唱者による歌唱信号からピッチを抽出するとともに、当該抽出したピッチと、前記リファレンスデータで規定されるピッチとを比較して、当該歌唱者による歌唱表現を分析する歌唱分析部と、
前記歌唱分析部より分析された歌唱表現に基づき前記学習データを更新する歌唱学習部と、
を備えることを特徴とする請求項１に記載の歌唱合成装置。
歌唱者による歌唱信号から音量を抽出するとともに、当該抽出した音量と、前記リファレンスデータで規定される音量とを比較して、当該歌唱者による歌唱表現を分析する歌唱分析部と、
前記歌唱分析部より分析された歌唱表現に基づき前記学習データを更新する歌唱学習部と、
を備えることを特徴とする請求項１に記載の歌唱合成装置。
歌唱者が歌唱した歌唱音声と、前記歌唱合成部より歌唱合成された歌唱音声と、を混合して出力する混合部を備える、
ことを特徴とする請求項１から３、いずれか１項に記載の歌唱合成装置。
伴奏音を再生する伴奏再生部を備え、
前記混合部は、
前記歌唱者が歌唱した歌唱音声と、前記歌唱合成部より歌唱合成された歌唱音声とに加えて、前記伴奏再生部により再生された伴奏音を混合して出力し、
前記歌唱合成部は、
前記伴奏再生部により再生された伴奏音の進行に合わせて歌詞を歌唱合成する、
ことを特徴とする請求項４に記載の歌唱合成装置。
コンピュータを、
リファレンスデータで規定される模範歌唱に、学習データで規定される歌唱者による歌唱表現を付加して、歌詞を歌唱合成するためのシーケンスデータを作成するシーケンスデータ作成部、および、
前記シーケンスデータ作成部で作成されたシーケンスデータにしたがって歌唱合成する歌唱合成部、
として機能させることを特徴とするプログラム。