JP2016014781A - 歌唱合成装置および歌唱合成プログラム - Google Patents
歌唱合成装置および歌唱合成プログラム Download PDFInfo
- Publication number
- JP2016014781A JP2016014781A JP2014136813A JP2014136813A JP2016014781A JP 2016014781 A JP2016014781 A JP 2016014781A JP 2014136813 A JP2014136813 A JP 2014136813A JP 2014136813 A JP2014136813 A JP 2014136813A JP 2016014781 A JP2016014781 A JP 2016014781A
- Authority
- JP
- Japan
- Prior art keywords
- singing
- data
- unit
- song
- singer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
【課題】その場限りでなく、新たな面白みを伴う歌唱合成を提供する。【解決手段】シーケンスデータ作成部136は、リファレンスデータRfで規定される模範歌唱に、学習データで規定される歌唱者による歌唱表現を付加して、歌詞を歌唱合成するためのシーケンスデータSdを作成する。歌唱合成部138は、作成されたシーケンスデータSdにしたがって歌詞を歌唱合成する。【選択図】図2
Description
本発明は、歌詞を歌唱合成する歌唱合成装置および歌唱合成プログラムに関する。
近年、カラオケ装置において、歌唱者が歌唱したときに、当該歌唱を他人の歌唱に変換して出力する機能が人気となっている。この機能は、予め特定の人物(例えばオリジナルの歌手)が歌唱したときのフォルマントデータを記憶しておく一方で、歌唱者が歌唱したときに、当該歌唱のピッチ(音高)や音量などのデータを抽出するとともに、フォルマントデータで規定されるフォルマントを、抽出したデータによって整形して、歌唱音声を合成することで実現される(例えば特許文献1参照)。
しかしながら、上記技術では、歌唱者が実際に歌唱したときの特徴(ここでは、ピッチや音量)がオリジナルの歌手のフォルマントに反映されるのみである。したがって、合成された歌唱音声は、その場限りで面白みに欠ける、という問題があった。
本発明は、上述した事情に鑑みてなされたもので、その目的の一つは、その場限りでなく、新たな面白みを伴う歌唱合成装置および歌唱合成プログラムを提供することにある。
本発明は、上述した事情に鑑みてなされたもので、その目的の一つは、その場限りでなく、新たな面白みを伴う歌唱合成装置および歌唱合成プログラムを提供することにある。
上記目的を達成するために本発明の一態様に係る歌唱合成装置は、リファレンスデータで規定される模範歌唱に、学習データで規定される歌唱者による歌唱表現を付加して、歌詞を歌唱合成するためのシーケンスデータを作成するシーケンスデータ作成部と、前記シーケンスデータ作成部で作成されたシーケンスデータにしたがって歌唱合成する歌唱合成部と、を具備する。
この一態様に係る歌唱合成装置によれば、模範歌唱に、歌唱者による歌唱表現が付加されたシーケンスデータにしたがって歌詞が歌唱合成される。また、当該歌唱者による歌い方を反映した歌唱音声を、いつでも合成することができる。このため、その場限りでなく、新たな面白みを提供することができる。
なお、学習データは、例えば、歌唱合成装置内の別途の記憶部に記憶させても良いし、ネットワークを介したサーバに記憶させても良い。また、学習データは、例えば曲毎に歌唱者による歌唱表現を規定したものでも良いし、曲の構成(Aメロ、Bメロ、サビなど)毎に分けた歌唱表現を規定したものでも良い。
なお、学習データは、例えば、歌唱合成装置内の別途の記憶部に記憶させても良いし、ネットワークを介したサーバに記憶させても良い。また、学習データは、例えば曲毎に歌唱者による歌唱表現を規定したものでも良いし、曲の構成(Aメロ、Bメロ、サビなど)毎に分けた歌唱表現を規定したものでも良い。
上記一態様に係る歌唱合成装置において、歌唱者による歌唱信号からピッチを抽出するとともに、当該抽出したピッチと、前記リファレンスデータで規定されるピッチとを比較して、当該歌唱者による歌唱表現を分析する歌唱分析部と、前記歌唱分析部より分析された歌唱表現に基づき前記学習データを更新する歌唱学習部と、を備える構成としても良いし、ピッチに替えて音量を抽出・比較する構成としても良い。この構成によれば、歌唱者が歌唱したときに、その歌唱表現を反映して学習データが更新される。このため、歌唱者が歌唱する際の歌唱表現を学習データに、的確に表すことができる。
なお、ピッチ、音量のほか、発音(歌唱)タイミングを抽出・比較しても良いし、これらを適宜組み合わせて抽出・比較しても良い。
なお、ピッチ、音量のほか、発音(歌唱)タイミングを抽出・比較しても良いし、これらを適宜組み合わせて抽出・比較しても良い。
上記一態様に係る歌唱合成装置において、歌唱者が歌唱した歌唱音声と、前記歌唱合成部より歌唱合成された歌唱音声と、を混合して出力する混合部を備える構成としても良い。この構成によれば、歌唱者自身が歌唱した歌唱音声と、歌唱者による歌唱表現が付加されて合成された歌唱音声との合唱(デュエット)が実現される。なお、合成される歌唱音声に付加される歌唱表現した歌唱者、つまりデュエットの相手方は、歌唱者自身であっても良いし、当該歌唱者とは別人であっても良い。
また、上記構成において、伴奏音を再生する伴奏再生部を備え、前記混合部は、前記歌唱者が歌唱した歌唱音声と、前記歌唱合成部より歌唱合成された歌唱音声とに加えて、前記伴奏再生部により再生された伴奏音を混合して出力し、前記歌唱合成部は、前記伴奏再生部により再生された伴奏音の進行に合わせて歌詞を歌唱合成する構成としても良い。これにより、伴奏音に合わせて、デュエットの相手方が歌唱合成される。
なお、本発明の態様については、歌唱合成装置のみならず、コンピュータを当該歌唱合成装置として機能させるプログラムとして概念することが可能である。
なお、本発明の態様については、歌唱合成装置のみならず、コンピュータを当該歌唱合成装置として機能させるプログラムとして概念することが可能である。
以下、本発明の実施形態について図面を参照して説明する。
図1は、実施形態に係る歌唱合成装置を適用したカラオケ装置10の構成を示す図である。このカラオケ装置10は、歌唱者によって指定された曲の伴奏音を再生するととともに、当該歌唱者の歌唱表現を学習した学習データに基づいて歌唱合成して、当該歌唱者による実際の歌唱とデュエットさせる、というものである。
この図において、カラオケ装置10は、CPU(Central Processing Unit)110と、歌唱入力部112と、スピーカ114と、A/D変換器116と、記憶部118と、操作入力部120、グラフィックコントローラ122と、モニタ124と、D/A変換器126とを含んだコンピュータである。このうち、CPU110、A/D変換器116、記憶部118、操作入力部120、グラフィックコントローラ122およびD/A変換器126が、バスBを介して互いに接続されている。
歌唱入力部112は、歌唱者による歌唱をアナログの歌唱信号に変換して、A/D変換器116に供給し、A/D変換器116は、当該歌唱信号をデジタルに変換する。一方、D/A変換器126は、CPU110等によって処理されたデジタルの信号をアナログに変換し、スピーカ114は、当該アナログの信号を音響変換して出力する。
記憶部118は、オペレーティングシステムやカラオケの機能を提供するアプリケーションなどのプログラムPを記憶する。また、記憶部118では、CPU110によって各種のデータベースDBが管理される。
操作入力部120は、リモコンやタッチキーなどであり、歌唱者(利用者)の操作による各種の指示を入力する。
記憶部118は、オペレーティングシステムやカラオケの機能を提供するアプリケーションなどのプログラムPを記憶する。また、記憶部118では、CPU110によって各種のデータベースDBが管理される。
操作入力部120は、リモコンやタッチキーなどであり、歌唱者(利用者)の操作による各種の指示を入力する。
CPU110は、記憶部118に記憶されたプログラムPを実行して、次のような処理を実行する。すなわち、CPU110は、歌唱者による歌唱を解析して、後述する学習データを更新する更新処理、歌唱合成の基礎となるシーケンスデータを作成する作成処理、当該シーケンスデータに基づいて歌唱(音声)を合成する歌唱合成処理、および、伴奏データに基づいて伴奏音を再生(生成)する伴奏音再生処理を実行する。
グラフィックコントローラ122は、CPU110に指示される描画データを内蔵のフレームバッファに書き込む一方、モニタ124の走査(水平走査および垂直走査)の順に読み出し、モニタ124に供給して画面を表示させる。
グラフィックコントローラ122は、CPU110に指示される描画データを内蔵のフレームバッファに書き込む一方、モニタ124の走査(水平走査および垂直走査)の順に読み出し、モニタ124に供給して画面を表示させる。
図2は、カラオケ装置10で構築される機能ブロックを示す図である。
この図において、CPU110がカラオケ演奏するためにプログラムPを実行することよって構築される機能ブロックを二点鎖線で示される領域Fで示している。歌唱入力部112、スピーカ114、A/D変換器116およびD/A変換器126については、ハードウェアであり、CPU110によって構築される機能ブロックではないが、信号の流れを説明するために、図2において便宜的に示している。
また、カラオケ装置10の機能からすれば、モニタ124の画面に歌詞を表示させるとともに、伴奏の進行に合わせて当該歌詞をワイプ(色替え)する処理なども含まれるが、本発明とは直接関係しないので、このような歌詞表示処理およびワイプ処理については説明を省略する。
この図において、CPU110がカラオケ演奏するためにプログラムPを実行することよって構築される機能ブロックを二点鎖線で示される領域Fで示している。歌唱入力部112、スピーカ114、A/D変換器116およびD/A変換器126については、ハードウェアであり、CPU110によって構築される機能ブロックではないが、信号の流れを説明するために、図2において便宜的に示している。
また、カラオケ装置10の機能からすれば、モニタ124の画面に歌詞を表示させるとともに、伴奏の進行に合わせて当該歌詞をワイプ(色替え)する処理なども含まれるが、本発明とは直接関係しないので、このような歌詞表示処理およびワイプ処理については説明を省略する。
さて、図2に示されるように、カラオケ装置10では、歌唱分析部132、歌唱学習部134、シーケンスデータ作成部136、歌唱合成部138、伴奏再生部148および混合部152が構築される。
このうち、混合部152は、図において上から順に第1入力端、第2入力端および第3入力端を有し、各入力端に供給された信号を混合(ミキシング)して、D/A変換器126に供給する。
データベースDB1、DB2、DB3は、図1における記憶部118のデータベースDBを、管理するデータ毎に分けたものである。このうち、データベースDB1は曲データを管理し、データベースDB2は学習データを管理し、データベースDB3はキャラクタデータを管理する。
このうち、混合部152は、図において上から順に第1入力端、第2入力端および第3入力端を有し、各入力端に供給された信号を混合(ミキシング)して、D/A変換器126に供給する。
データベースDB1、DB2、DB3は、図1における記憶部118のデータベースDBを、管理するデータ毎に分けたものである。このうち、データベースDB1は曲データを管理し、データベースDB2は学習データを管理し、データベースDB3はキャラクタデータを管理する。
図3は、データベースDB1〜DB3で管理されるデータを示す図である。
1曲分の曲データは、ヘッダ、伴奏データ(1)〜(n)、リファレンスデータRfおよび歌詞データSgから構成される。これらのうち、ヘッダには、当該曲の属性に関するデータが、例えば、曲名や、曲を識別するための曲ID、ジャンルなどのデータが、記述される。伴奏データ(1)は、当該曲の伴奏音の1番目のトラック(1)を規定し、同様に伴奏データ(2)〜(n)は、当該曲の伴奏音の2〜n番目のトラックを規定する。なお、nは、ここではトラックを区別するために複数としているが、単数の1であっても良い。また、伴奏データ(1)〜(n)については、以降、各トラックを区別しないので、伴奏データBgと総称することにする。
1曲分の曲データは、ヘッダ、伴奏データ(1)〜(n)、リファレンスデータRfおよび歌詞データSgから構成される。これらのうち、ヘッダには、当該曲の属性に関するデータが、例えば、曲名や、曲を識別するための曲ID、ジャンルなどのデータが、記述される。伴奏データ(1)は、当該曲の伴奏音の1番目のトラック(1)を規定し、同様に伴奏データ(2)〜(n)は、当該曲の伴奏音の2〜n番目のトラックを規定する。なお、nは、ここではトラックを区別するために複数としているが、単数の1であっても良い。また、伴奏データ(1)〜(n)については、以降、各トラックを区別しないので、伴奏データBgと総称することにする。
リファレンスデータRfは、当該曲の歌い方の模範を示すデータであり、ピッチ(音程)や、その変化を示すピッチベンド、ベロシティ(音量)、発声タイミングなどを示すデータである。このリファレンスデータRfは、歌唱を採点(説明省略)するときだけでなく、本発明の特徴の一部である歌唱合成するときにも用いられる。歌詞データSgは、曲の歌詞を示すデータである。
なお、伴奏データBg、リファレンスデータRfおよび歌詞データSgは、イベントの内容を示すイベント情報と、イベント同士の時間的な間隔を示すデュレーションとの組み合わせで規定した形式、例えばSMF(Standard MIDI Format)で記述される。
このような曲データは、データベースDB1において複数曲分用意される。
なお、伴奏データBg、リファレンスデータRfおよび歌詞データSgは、イベントの内容を示すイベント情報と、イベント同士の時間的な間隔を示すデュレーションとの組み合わせで規定した形式、例えばSMF(Standard MIDI Format)で記述される。
このような曲データは、データベースDB1において複数曲分用意される。
学習データは、本実施形態にあっては、曲IDおよび歌唱者IDの組毎に対応して設けられ、当該歌唱者が曲IDで識別される曲を歌唱したときに、曲の進行に合わせて時系列で、その歌唱の表現を数値化したデータである。
この歌唱表現について、いくつか例を挙げて説明する。
例えば、リファレンスデータRfで規定される模範の歌唱において、音を延ばすべき状態が規定されている場合に、歌唱信号においてピッチ、音量の揺れがあれば、その揺れの高低差、時間的な長さの程度などに基づいて歌唱表現の一つである「ビブラート」とすべきか否か判断する。ビブラートであると判断した場合、その揺れの高低差や時間的長さなどを、ビブラートを規定する数値とする。
また例えば、模範の歌唱における発音タイミングよりも、歌唱信号における発声が遅延している場合に、その遅延量に基づいて歌唱表現の「ため」とすべきか否かを判断する。「ため」であると判断した場合、その遅延量を「ため」を規定する数値とする。
模範の歌唱のピッチよりも、歌唱信号から抽出されるピッチが(所定の範囲内で)低くシフトした状態から、すぐに正しいピッチになれば、そのピッチの変化具合(歌い方)を数値化して、その数値に基づいて「しゃくり」であるか否かを判断する。「しゃくり」であると判断した場合、その変化具合(歌い方)の数値を「しゃくり」を規定する数値とする。
このように学習データは、曲の進行に対して、どの部分で、どのような表現で、どの程度で歌唱したかを規定するデータとなっている。
なお、歌唱者IDは、歌唱者を一意に特定するための識別情報であり、例えば、カラオケの選曲するときに、曲とともに入力される。
この歌唱表現について、いくつか例を挙げて説明する。
例えば、リファレンスデータRfで規定される模範の歌唱において、音を延ばすべき状態が規定されている場合に、歌唱信号においてピッチ、音量の揺れがあれば、その揺れの高低差、時間的な長さの程度などに基づいて歌唱表現の一つである「ビブラート」とすべきか否か判断する。ビブラートであると判断した場合、その揺れの高低差や時間的長さなどを、ビブラートを規定する数値とする。
また例えば、模範の歌唱における発音タイミングよりも、歌唱信号における発声が遅延している場合に、その遅延量に基づいて歌唱表現の「ため」とすべきか否かを判断する。「ため」であると判断した場合、その遅延量を「ため」を規定する数値とする。
模範の歌唱のピッチよりも、歌唱信号から抽出されるピッチが(所定の範囲内で)低くシフトした状態から、すぐに正しいピッチになれば、そのピッチの変化具合(歌い方)を数値化して、その数値に基づいて「しゃくり」であるか否かを判断する。「しゃくり」であると判断した場合、その変化具合(歌い方)の数値を「しゃくり」を規定する数値とする。
このように学習データは、曲の進行に対して、どの部分で、どのような表現で、どの程度で歌唱したかを規定するデータとなっている。
なお、歌唱者IDは、歌唱者を一意に特定するための識別情報であり、例えば、カラオケの選曲するときに、曲とともに入力される。
歌唱データSsは、歌唱者が曲を歌唱したときに、学習データと同様に、曲の進行に対して、どの部分で、どのような表現で、どの程度で表現したのかについて、曲IDおよび歌唱者IDの組に対応付けて規定するデータとなっている。
なお、本実施形態では、学習データは、曲IDおよび歌唱者IDの組毎に対応して設けられ、歌唱者IDで識別される歌唱者が曲IDで識別される曲を歌唱したときの歌唱データSsを処理することによって求められる。学習データは、歌唱が終了したときに、当該歌唱の表現を規定する歌唱データSsによって更新される。このため、学習データは、歌唱者IDで識別される歌唱者が曲IDで識別される曲の歌い方の特徴や癖を表したもの、という一面を有している。
なお、本実施形態では、学習データは、曲IDおよび歌唱者IDの組毎に対応して設けられ、歌唱者IDで識別される歌唱者が曲IDで識別される曲を歌唱したときの歌唱データSsを処理することによって求められる。学習データは、歌唱が終了したときに、当該歌唱の表現を規定する歌唱データSsによって更新される。このため、学習データは、歌唱者IDで識別される歌唱者が曲IDで識別される曲の歌い方の特徴や癖を表したもの、という一面を有している。
キャラクタデータは、特定の性格を有する仮想的な人物(キャラクタ)を規定するデータであり、学習データへのフィルタとして機能する。例えば、ある歌唱者の、ある曲に対応する学習データに、「負けず嫌い」(または、おおげさ)の性格のキャラクタが適用されると、当該キャラクタのキャラクタデータは、当該学習データで規定される当該歌唱者による当該曲の歌唱表現を、強調するフィルタとなる。
また例えば、ある歌唱者の、ある曲の学習データに、「へそまがり」(または、気まぐれ)の性格を有するキャラクタが適用されると、当該キャラクタのキャラクタデータは、当該歌唱者による当該曲の歌唱表現を、所定の確率(例えば50%)で無視させるフィルタとなる。
なお、キャラクタを選択しない選択肢、すなわち学習データに対してノーフィルタとする選択肢もある。
また例えば、ある歌唱者の、ある曲の学習データに、「へそまがり」(または、気まぐれ)の性格を有するキャラクタが適用されると、当該キャラクタのキャラクタデータは、当該歌唱者による当該曲の歌唱表現を、所定の確率(例えば50%)で無視させるフィルタとなる。
なお、キャラクタを選択しない選択肢、すなわち学習データに対してノーフィルタとする選択肢もある。
説明を図2に戻すと、A/D変換器116によりデジタルに変換された歌唱信号は、歌唱分析部132と、混合部152における第1入力端とにそれぞれ供給される。
歌唱分析部132は、ある歌唱者がある曲を歌唱したときに、当該歌唱信号からピッチ、音量等を抽出するとともに、当該曲に対応したリファレンスデータRfで示されるピッチ、音量等と比較し、それらの差分に基づいて、当該歌唱者による当該曲の歌唱表現を数値化し、歌唱データSsとして出力する。
歌唱分析部132は、ある歌唱者がある曲を歌唱したときに、当該歌唱信号からピッチ、音量等を抽出するとともに、当該曲に対応したリファレンスデータRfで示されるピッチ、音量等と比較し、それらの差分に基づいて、当該歌唱者による当該曲の歌唱表現を数値化し、歌唱データSsとして出力する。
歌唱学習部134は、歌唱者および当該歌唱者が歌唱する曲に対応する学習データをデータベースDB2から読み出すとともに、当該学習データを、歌唱分析部132から出力される歌唱データSsで更新する。
なお、学習データを歌唱データSsで更新するとは、当該学習データおよび当該歌唱データで規定される歌唱表現のうち、同種(「ビブラート」同士、「ため」同士、「しゃくり」同士)の表現を規定する数値の平均値を求めて、新たな学習データの数値として置き換える処理である。
また、本実施形態では、学習データとして、歌唱の表現を規定する数値の平均値を求めているが、これ以外の演算や統計処理、さらには確率処理(今回の歌唱データSsを統計の基礎として採用する、しないなどの処理)を単独で、または、適宜組み合わせて用いても良い。
なお、学習データを歌唱データSsで更新するとは、当該学習データおよび当該歌唱データで規定される歌唱表現のうち、同種(「ビブラート」同士、「ため」同士、「しゃくり」同士)の表現を規定する数値の平均値を求めて、新たな学習データの数値として置き換える処理である。
また、本実施形態では、学習データとして、歌唱の表現を規定する数値の平均値を求めているが、これ以外の演算や統計処理、さらには確率処理(今回の歌唱データSsを統計の基礎として採用する、しないなどの処理)を単独で、または、適宜組み合わせて用いても良い。
一方、伴奏再生部148は、曲データの伴奏データBgから、カラオケの伴奏音を再生して、当該伴奏音を示す信号を混合部152における第3入力端に供給する。詳細には、伴奏再生部148は、伴奏データBgを解釈して、イベント情報を、デュレーションで示される時間が経過する毎に、時系列の順で処理して、カラオケの伴奏音を再生する。なお、ここでいう伴奏音の再生とは、当該伴奏音を示すデータを生成する、という意味である。
また、伴奏再生部148は、伴奏データBgを解釈する際に、演奏開始からのデュレーションの積算値を求め、時刻情報として歌唱合成部138に供給する。これによって、歌唱合成部138は、当該時刻情報によって、演奏の進行状態、すなわち曲のどの部分が演奏されているかを特定することができる。
また、伴奏再生部148は、伴奏データBgを解釈する際に、演奏開始からのデュレーションの積算値を求め、時刻情報として歌唱合成部138に供給する。これによって、歌唱合成部138は、当該時刻情報によって、演奏の進行状態、すなわち曲のどの部分が演奏されているかを特定することができる。
シーケンスデータ作成部136は、歌唱者が歌唱する曲の曲データのうち、歌詞データSgおよびリファレンスデータRfと、当該歌唱者および当該曲に対応する学習データと、キャラクタが選択されていれば、当該キャラクタに対応するキャラクタデータとから、シーケンスデータSdを作成し、歌唱合成部138に供給する。このシーケンスデータSdは、歌詞データSgで規定される歌詞を、どのようなタイミングで、どのようなピッチや音量等で歌唱合成するのかを規定するデータであり、伴奏データBg等と同様に、例えばSMFで記述される。
なお、シーケンスデータSdで規定される歌詞は、歌詞データSgで規定されるが、歌唱合成(発声)するタイミング、ピッチ、音量等については、リファレンスデータRfで規定される模範的な歌唱ではなく、その模範的な歌唱に、学習データで規定される歌唱表現を付加したものとなる。さらに、キャラクタが選択されていれば、当該キャラクタデータによってフィルタリングした学習データが用いられる。
なお、シーケンスデータSdで規定される歌詞は、歌詞データSgで規定されるが、歌唱合成(発声)するタイミング、ピッチ、音量等については、リファレンスデータRfで規定される模範的な歌唱ではなく、その模範的な歌唱に、学習データで規定される歌唱表現を付加したものとなる。さらに、キャラクタが選択されていれば、当該キャラクタデータによってフィルタリングした学習データが用いられる。
歌唱合成部138は、伴奏再生部148からの時刻情報にしたがって、すなわち伴奏音の再生に同期して、シーケンスデータSdの内容に応じて歌唱合成し、当該歌唱を示す信号を混合部152における第2入力端に供給する。
なお、歌唱合成部138は、例えば次のようにして歌唱合成する。すなわち、歌唱合成部138は、シーケンスデータSd(歌詞データSg)で規定される歌詞(文字)を音声素片の列に変換するとともに、各音声素片の列に対応する音声素片データを、ライブラリ(図示省略)から選択するとともに、選択した音声素片データの繋ぎ部分が連続するように修正し、当該修正した音声素片データに対する各々のピッチや音量を、当該シーケンスデータSdで規定されるピッチや音量に合わせて変換して、歌詞を歌唱合成する。
ここでいうライブラリとは、単一の音素や音素から音素への遷移部分など、歌唱音声の素材となる各種の音声素片の波形を定義した音声素片データを予めデータベース化したものである。
なお、歌唱合成部138は、例えば次のようにして歌唱合成する。すなわち、歌唱合成部138は、シーケンスデータSd(歌詞データSg)で規定される歌詞(文字)を音声素片の列に変換するとともに、各音声素片の列に対応する音声素片データを、ライブラリ(図示省略)から選択するとともに、選択した音声素片データの繋ぎ部分が連続するように修正し、当該修正した音声素片データに対する各々のピッチや音量を、当該シーケンスデータSdで規定されるピッチや音量に合わせて変換して、歌詞を歌唱合成する。
ここでいうライブラリとは、単一の音素や音素から音素への遷移部分など、歌唱音声の素材となる各種の音声素片の波形を定義した音声素片データを予めデータベース化したものである。
図4は、カラオケ装置10の動作を示すフローチャートである。
この動作は、歌唱者を特定する歌唱者IDおよび演奏すべき曲を特定する曲IDが操作入力部120を介して入力されると、開始する。
この動作は、歌唱者を特定する歌唱者IDおよび演奏すべき曲を特定する曲IDが操作入力部120を介して入力されると、開始する。
まず、当該曲をカラオケ演奏するための設定処理が実行されて(ステップS1)、各種データが次のように供給される。
第1に、曲IDに対応して設けられた曲データのうち、リファレンスデータRfと歌詞データSgとがデータベースDB1から読み出され、また、曲IDおよび歌唱者IDに対応して設けられた学習データがデータベースDB2から読み出されて、それぞれシーケンスデータ作成部136に供給される。歌唱者がキャラクタを操作入力部120で選択していれば、当該キャラクタに対応するキャラクタデータがデータベースDB3から読み出されて、シーケンスデータ作成部136に供給される。
第2に、曲IDに対応して設けられた曲データのリファレンスデータRfは、歌唱分析部132にも供給される。
第3に、曲IDに対応して設けられた曲データのうち、伴奏データBgがデータベースDB1から読み出されて、伴奏再生部148に供給される。
第1に、曲IDに対応して設けられた曲データのうち、リファレンスデータRfと歌詞データSgとがデータベースDB1から読み出され、また、曲IDおよび歌唱者IDに対応して設けられた学習データがデータベースDB2から読み出されて、それぞれシーケンスデータ作成部136に供給される。歌唱者がキャラクタを操作入力部120で選択していれば、当該キャラクタに対応するキャラクタデータがデータベースDB3から読み出されて、シーケンスデータ作成部136に供給される。
第2に、曲IDに対応して設けられた曲データのリファレンスデータRfは、歌唱分析部132にも供給される。
第3に、曲IDに対応して設けられた曲データのうち、伴奏データBgがデータベースDB1から読み出されて、伴奏再生部148に供給される。
こうして、各種データが供給されると、図4に示されるように、(a)、(b)、(c)の処理が、それぞれ並行して実行される。
なお、(a)の処理は、シーケンスデータを作成するための作成処理、および、当該シーケンスデータに基づいて歌詞を歌唱合成する歌唱合成処理であり、(b)の処理は、伴奏データBgに基づいて伴奏音を再生する伴奏音再生処理であり、(c)の処理は、歌唱を解析して、学習データを更新する更新処理である。
なお、(a)の処理は、シーケンスデータを作成するための作成処理、および、当該シーケンスデータに基づいて歌詞を歌唱合成する歌唱合成処理であり、(b)の処理は、伴奏データBgに基づいて伴奏音を再生する伴奏音再生処理であり、(c)の処理は、歌唱を解析して、学習データを更新する更新処理である。
シーケンスデータ作成部136は、リファレンスデータRfと歌詞データSgと学習データとから、さらに、選択されていればキャラクタデータを加えて、シーケンスデータSdを作成し、歌唱合成部138に供給する(ステップS11)。すなわち、本実施形態では、シーケンスデータSdは、伴奏音の再生前(カラオケ演奏前)に作成される。ただし、シーケンスデータSdの作成については、伴奏音の再生前に限られず、伴奏音の再生に同期するようにリアルタイムに作成しても良い。
一方、伴奏再生部148は、他の曲を演奏していないことを条件に、供給された曲の伴奏データBgにしたがって伴奏音再生処理を実行する(ステップS22)。
伴奏再生部148は、伴奏データBgにおけるイベントのうち、時系列の順で最後のイベントを処理したか否か、すなわち伴奏終了したか否かを判別する(ステップS23)。伴奏再生部148は、伴奏終了していないと判別すれば(ステップS23の判別結果が「No」であれば)、処理手順をステップS22に戻す。このため、伴奏再生部148は、伴奏終了するまで、当該曲の伴奏音再生処理を実行することになる。伴奏再生部148は、当該曲について伴奏終了すると(ステップS23の判別結果が「Yes」になると)、その旨(伴奏終了)を歌唱学習部134に通知して(ステップS24)、当該曲についての伴奏音再生処理を終了させる。
伴奏再生部148は、伴奏データBgにおけるイベントのうち、時系列の順で最後のイベントを処理したか否か、すなわち伴奏終了したか否かを判別する(ステップS23)。伴奏再生部148は、伴奏終了していないと判別すれば(ステップS23の判別結果が「No」であれば)、処理手順をステップS22に戻す。このため、伴奏再生部148は、伴奏終了するまで、当該曲の伴奏音再生処理を実行することになる。伴奏再生部148は、当該曲について伴奏終了すると(ステップS23の判別結果が「Yes」になると)、その旨(伴奏終了)を歌唱学習部134に通知して(ステップS24)、当該曲についての伴奏音再生処理を終了させる。
また、伴奏再生部148による伴奏音再生処理と並行して、歌唱合成部138は、作成されたシーケンスデータSdにしたがって歌詞を歌唱合成する歌唱合成処理を、伴奏再生部148による伴奏に合わせて実行する(ステップS12)。
これにより、キャラクタが選択されていなければ、模範的な歌唱に、学習データで規定される歌唱表現を付加して、すなわち歌唱者の特徴を示す歌い方で、歌唱合成がされる。また、キャラクタが選択されていれば、歌唱者による歌唱表現である学習データに対し、当該キャラクタの性格を反映して歌唱合成がされることになる。
このようにして、歌唱者とは別人(歌唱合成の音声素片を採取した人物)の声質であるが、当該歌唱者にそっくりの歌唱表現で歌唱合成がされることになる。なお、歌唱合成は、伴奏音の再生に合わせて実行されるので、伴奏が終了すると、必然的に歌唱合成も終了することになる。
これにより、キャラクタが選択されていなければ、模範的な歌唱に、学習データで規定される歌唱表現を付加して、すなわち歌唱者の特徴を示す歌い方で、歌唱合成がされる。また、キャラクタが選択されていれば、歌唱者による歌唱表現である学習データに対し、当該キャラクタの性格を反映して歌唱合成がされることになる。
このようにして、歌唱者とは別人(歌唱合成の音声素片を採取した人物)の声質であるが、当該歌唱者にそっくりの歌唱表現で歌唱合成がされることになる。なお、歌唱合成は、伴奏音の再生に合わせて実行されるので、伴奏が終了すると、必然的に歌唱合成も終了することになる。
歌唱合成された歌唱にあわせて、歌唱者が歌唱すれば、デュエットになる。歌唱分析部132は、歌唱者による歌唱信号からピッチや、音量、発声タイミングを抽出するとともに、供給されたリファレンスデータRfとの比較により、当該歌唱者による当該曲の歌唱表現を数値化して、歌唱データSsとして出力する(ステップS32)。
歌唱学習部134は、伴奏再生部148から伴奏終了の通知を受けたときに、曲IDおよび歌唱者IDに対応する学習データを、歌唱データSsを用いて更新して、データベースDB2に書き戻す(ステップS34)。
したがって、同じ歌唱者が次回同じ曲を選択した場合、歌唱合成される歌唱は、今回の歌唱表現が反映されることになる。なお、ステップS34の後、更新処理が終了する。
したがって、同じ歌唱者が次回同じ曲を選択した場合、歌唱合成される歌唱は、今回の歌唱表現が反映されることになる。なお、ステップS34の後、更新処理が終了する。
また、伴奏再生部148により再生された伴奏音と、歌唱合成部138により合成された歌唱と、歌唱入力部112により入力された歌唱者の歌唱とは、混合部152によりミキシングされた後、スピーカ114から出力される。
本実施形態に係るカラオケ装置10によれば、シーケンスデータSdに基づいて、すなわち、歌唱者による歌唱表現で歌詞が歌唱合成されるので、個性的な歌唱となり、機械的な印象を与えない。さらに、ある歌唱者がある曲を歌唱すると、当該歌唱者および当該曲に対応付けられた学習データが更新されるので、歌唱者に歌唱合成された歌唱音声を提供する、という一方向的なサービスだけでなく、歌唱者がカラオケ装置10に対して自己の歌唱表現を学習させて、次回以降の歌唱合成に反映させる、という双方向(インタラクティブ)の新たな娯楽を提供することができる。
そして、歌唱者が、歌唱合成される歌唱音声とデュエットすることを繰り返していくと、対応する学習データが更新されて、自己の歌唱表現が、歌唱合成される歌唱音声に反映されるので、次第に息の合っていくような感覚を当該歌唱者に与えることができる。
そして、歌唱者が、歌唱合成される歌唱音声とデュエットすることを繰り返していくと、対応する学習データが更新されて、自己の歌唱表現が、歌唱合成される歌唱音声に反映されるので、次第に息の合っていくような感覚を当該歌唱者に与えることができる。
<応用・変形例>
本発明は、上述した実施形態に限定されるものではなく、例えば次に述べるような各種の応用・変形が可能である。なお、次に述べる応用・変形の態様は、任意に選択された一または複数を適宜に組み合わせることもできる。
本発明は、上述した実施形態に限定されるものではなく、例えば次に述べるような各種の応用・変形が可能である。なお、次に述べる応用・変形の態様は、任意に選択された一または複数を適宜に組み合わせることもできる。
<歌唱入力>
実施形態では、歌唱入力部112によって入力された歌唱信号、すなわち歌唱者が歌唱した歌唱音声については、一旦、A/D変換器116でデジタルに変換し、ミキシングした後に、D/A変換器126でアナログ信号に変換してスピーカ114から出力する構成とした。ここで、歌唱者による歌唱音声をデジタルに変換する第1の理由は、当該歌唱音声からピッチ等を抽出して、リファレンスデータRfで示されるピッチ等と比較しやすくするためである。したがって、歌唱音声をスピーカ114から出力するという観点からいえば、A/D変換器116によるデジタル変換およびD/A変換器126によるアナログ変換は不要である、と言うことができる。
そこで、図6に示されるように、D/A変換器126の後段に混合部128を設けて、当該混合部128が、D/A変換器126によってアナログに変換された信号(歌唱合成された歌唱信号と伴奏音を示す信号とのミキシング信号)と、歌唱入力部112によって入力された歌唱信号とをミキシングして、スピーカ114に出力する構成としても良い。
なお、図6は、歌唱合成装置の応用例(その1)を適用したカラオケ装置の構成を示す図である。
実施形態では、歌唱入力部112によって入力された歌唱信号、すなわち歌唱者が歌唱した歌唱音声については、一旦、A/D変換器116でデジタルに変換し、ミキシングした後に、D/A変換器126でアナログ信号に変換してスピーカ114から出力する構成とした。ここで、歌唱者による歌唱音声をデジタルに変換する第1の理由は、当該歌唱音声からピッチ等を抽出して、リファレンスデータRfで示されるピッチ等と比較しやすくするためである。したがって、歌唱音声をスピーカ114から出力するという観点からいえば、A/D変換器116によるデジタル変換およびD/A変換器126によるアナログ変換は不要である、と言うことができる。
そこで、図6に示されるように、D/A変換器126の後段に混合部128を設けて、当該混合部128が、D/A変換器126によってアナログに変換された信号(歌唱合成された歌唱信号と伴奏音を示す信号とのミキシング信号)と、歌唱入力部112によって入力された歌唱信号とをミキシングして、スピーカ114に出力する構成としても良い。
なお、図6は、歌唱合成装置の応用例(その1)を適用したカラオケ装置の構成を示す図である。
<キャラクタ>
キャラクタを選択する際に、当該キャラクタの性格を示すアバターをモニタ124に表示させて、複数のキャラクタのなかから、適用したいキャラクタを直感的に選択できるようにしても良い。
キャラクタを選択する際に、当該キャラクタの性格を示すアバターをモニタ124に表示させて、複数のキャラクタのなかから、適用したいキャラクタを直感的に選択できるようにしても良い。
<歌唱指導>
実施形態において、ある歌唱者による、ある曲の歌唱表現、言い換えれば歌い方の癖は、当該歌唱者に対応した学習データで規定される。逆にいえば、歌唱者および曲に対応した学習データから、当該歌唱者が当該曲を歌唱する際の歌い方の癖が特定される。この際に、カラオケの演奏(伴奏音再生)が、模範となる歌唱に対して、その歌い方の癖の不足気味な箇所に到達するのであれば、その不足する表現を強調するように指導したり、逆に、過剰気味な箇所に到達するのであれば、その過剰な表現を抑えるように指導したりしても良い。
実施形態において、ある歌唱者による、ある曲の歌唱表現、言い換えれば歌い方の癖は、当該歌唱者に対応した学習データで規定される。逆にいえば、歌唱者および曲に対応した学習データから、当該歌唱者が当該曲を歌唱する際の歌い方の癖が特定される。この際に、カラオケの演奏(伴奏音再生)が、模範となる歌唱に対して、その歌い方の癖の不足気味な箇所に到達するのであれば、その不足する表現を強調するように指導したり、逆に、過剰気味な箇所に到達するのであれば、その過剰な表現を抑えるように指導したりしても良い。
図5は、指導の一例を示す図である。この図の例は、学習データによってビブラートがつけて歌唱すべき部分に、カラオケの演奏が進行した場合に、当該学習データで示されるビブラートの程度が浅いために、ビブラートを深くするように指導するときのモニタ124の画面の一例である。なお、この画面に表示させるアバターについては、図の例のほか、歌唱者(利用者)の好みに応じて適宜選択できるようにしても良い。
<歌唱データ、学習データ>
実施形態では、歌唱データSsを、リファレンスデータRfで示される模範的な歌唱との比較により求めたが、歌唱者による歌唱表現や癖を特徴付けるデータであれば良いので、例えば、歌唱における音量やピッチ、タイミングなどを直接規定するデータであっても良い。また、このような学習データSsによって、学習データを更新しても良い。
実施形態では、歌唱データSsを、リファレンスデータRfで示される模範的な歌唱との比較により求めたが、歌唱者による歌唱表現や癖を特徴付けるデータであれば良いので、例えば、歌唱における音量やピッチ、タイミングなどを直接規定するデータであっても良い。また、このような学習データSsによって、学習データを更新しても良い。
また、歌唱データSsおよび学習データは、曲毎に対応付けなくなくても良い。例えば曲の構成(Aメロ、Bメロ、サビなど)毎に分けて、各構成部分での歌唱表現を規定するようにしても良い。実施形態のように、歌唱データSsおよび学習データを曲毎に対応付けた場合、曲毎に、歌唱者の歌唱表現で歌唱合成することができる。一方で、歌唱データSsおよび学習データを曲の構成部分毎に対応付けた場合、歌唱者が歌唱したことのない曲であっても、当該曲の構成部分での歌い方、例えばAメロでは、「しゃくり」をきかせた表現で、例えばBメロでは、「ため」をきかせる表現で、などのようにして歌唱合成することができる。
<ネットワークによるデータ共有>
実施形態では、データベースDBをカラオケ装置10内の記憶部118で管理する構成としたが、カラオケ装置10以外の、例えばネットワークを介して接続されるサーバで管理する構成としても良い。このように、データベースDBをサーバで管理する構成にすると、例えばAさんが、Bさんの学習データを用いて、当該Bさんの歌唱表現で歌唱合成された歌唱とデュエットする、ということもできる。
キャラクタデータを利用者が編集可能として、自分好みのキャラクタや、先導して欲しいポイントに特化した指導キャラクタを作成しても良い。指導キャラクタとしては、例えば、Aメロで「しゃくり」をきかせるキャラクタや、Bメロで「ため」をきかせるキャラクタなどが考えられる。これらのキャラクタについては、データベースDBをサーバで管理するのであれば、他の利用者が選択できるように共有する構成としても良い。
さらに、データベースDBをサーバで管理するのであれば、ある利用者の学習データについても、例えば当該利用者の許諾を条件として、他の利用者が用いることができるように公開する構成としても良い。
また、データベースDBに限られず、カラオケ装置10の機能の一部を、ネットワークを介したサーバに移管しても良く、カラオケ装置10をクラインアントとしたシステムにおいて、当該カラオケ装置の機能の全体が構築されれば良い。
実施形態では、データベースDBをカラオケ装置10内の記憶部118で管理する構成としたが、カラオケ装置10以外の、例えばネットワークを介して接続されるサーバで管理する構成としても良い。このように、データベースDBをサーバで管理する構成にすると、例えばAさんが、Bさんの学習データを用いて、当該Bさんの歌唱表現で歌唱合成された歌唱とデュエットする、ということもできる。
キャラクタデータを利用者が編集可能として、自分好みのキャラクタや、先導して欲しいポイントに特化した指導キャラクタを作成しても良い。指導キャラクタとしては、例えば、Aメロで「しゃくり」をきかせるキャラクタや、Bメロで「ため」をきかせるキャラクタなどが考えられる。これらのキャラクタについては、データベースDBをサーバで管理するのであれば、他の利用者が選択できるように共有する構成としても良い。
さらに、データベースDBをサーバで管理するのであれば、ある利用者の学習データについても、例えば当該利用者の許諾を条件として、他の利用者が用いることができるように公開する構成としても良い。
また、データベースDBに限られず、カラオケ装置10の機能の一部を、ネットワークを介したサーバに移管しても良く、カラオケ装置10をクラインアントとしたシステムにおいて、当該カラオケ装置の機能の全体が構築されれば良い。
<学習データの更新タイミング>
学習データを更新するタイミングについては、伴奏音再生処理の終了に伴う通知受領後ではなく、伴奏音再生途中であっても良い。例えばカラオケの演奏が、予め定められた1乃至複数のポイント(所定ポイント)に到達する毎に、学習データを更新する、という内容でも良い。なお、この所定ポイントの例としては、歌詞の1番、2番、…、の終了時や、フレーズ、小節、所定時間(例えば10秒毎)等の経過時などが、挙げられる。
学習データを更新するタイミングについては、伴奏音再生処理の終了に伴う通知受領後ではなく、伴奏音再生途中であっても良い。例えばカラオケの演奏が、予め定められた1乃至複数のポイント(所定ポイント)に到達する毎に、学習データを更新する、という内容でも良い。なお、この所定ポイントの例としては、歌詞の1番、2番、…、の終了時や、フレーズ、小節、所定時間(例えば10秒毎)等の経過時などが、挙げられる。
図7は、歌唱合成装置の応用例(その2)を適用したカラオケ装置の動作を示すフローチャートである。このカラオケ装置は、伴奏が所定ポイントに到達する毎に、学習データを更新する、というものである。
この図に示されるフローチャートでは、図4に示したフローチャートのステップS22とS23との間に、ステップS201、S202が追加された点と、ステップS34が、2つのステップS34a、S34bに分けられるとともに、ステップS34aの後に、ステップS35が追加されている。
この図に示されるフローチャートでは、図4に示したフローチャートのステップS22とS23との間に、ステップS201、S202が追加された点と、ステップS34が、2つのステップS34a、S34bに分けられるとともに、ステップS34aの後に、ステップS35が追加されている。
そこで、図7においては、これらの追加点を中心に説明すると、伴奏再生部148は、ステップS22の伴奏音再生処理を実行しているときに、再生している伴奏が所定上記ポイントに到達したか否かを判別する(ステップS201)。
なお、この判別については、例えば次のようにすれば良い。すなわち、伴奏データBgに、当該ポイントの到達を示すイベント情報を予め埋め込んでおく一方で、伴奏音再生処理において、当該イベント情報を処理すべきタイミングになったときに、伴奏が上記ポイントに到達した、と判別すれば良い。
なお、この判別については、例えば次のようにすれば良い。すなわち、伴奏データBgに、当該ポイントの到達を示すイベント情報を予め埋め込んでおく一方で、伴奏音再生処理において、当該イベント情報を処理すべきタイミングになったときに、伴奏が上記ポイントに到達した、と判別すれば良い。
伴奏再生部148は、伴奏が所定ポイントに到達していないと判別すれば(ステップS201の判別結果が「No」であれば)、処理手順をステップS22に戻す。このため、伴奏再生部148は、当該伴奏音再生処理を継続する。
伴奏再生部148は、所定ポイントに到達したと判別すれば(ステップS201の判別結果が「Yes」になれば)、学習データの更新を歌唱学習部134に通知する(ステップS202)。この後、伴奏再生部148は、伴奏が終了したか否かを判別し(ステップS23)、伴奏が終了していないと判別すれば(ステップS23の判別結果が「No」であれば)、処理手順をステップS22に戻す。このため、伴奏再生部148は、伴奏が所定ポイントに到達しても、当該伴奏音再生処理を継続して実行することになる。
伴奏再生部148は、所定ポイントに到達したと判別すれば(ステップS201の判別結果が「Yes」になれば)、学習データの更新を歌唱学習部134に通知する(ステップS202)。この後、伴奏再生部148は、伴奏が終了したか否かを判別し(ステップS23)、伴奏が終了していないと判別すれば(ステップS23の判別結果が「No」であれば)、処理手順をステップS22に戻す。このため、伴奏再生部148は、伴奏が所定ポイントに到達しても、当該伴奏音再生処理を継続して実行することになる。
一方、歌唱分析部132は、歌唱合成された歌唱にあわせて、歌唱者が歌唱したときに、歌唱データSsを出力する(ステップS32)点で、図4と共通であるが、歌唱学習部134は、伴奏終了だけではなく、伴奏が所定ポイントに到達する旨の通知を受けたときに、曲IDおよび歌唱者IDに対応する学習データのうち、前回の伴奏の到達ポイントから今回の伴奏の到達ポイントまでの区間について、歌唱データSsを用いて更新して、データベースDB2に書き戻す(ステップS34a)。このようにして、伴奏が所定ポイントに到達する毎に、当該所定ポイントまでの学習データが逐次更新されることになる。
また、この例において歌唱学習部134は、伴奏再生部148から伴奏終了の通知を受けたか否かを判別する(ステップS35)。当該通知を受け取っていなければ(ステップS35の判別結果が「No」であれば)、処理手順をステップS32に戻して、歌唱学習部134は、伴奏が次のポイントに到達するときに備える。
一方、伴奏終了の通知を受けたとき(ステップS35の判別結果が「Yes」であれば)、歌唱学習部134は、学習データのうち、前回の伴奏の到達ポイントから伴奏終了までの区間について、歌唱データSsを用いて更新して、データベースDB2に書き戻す(ステップS34b)。この後、更新処理は終了する。
一方、伴奏終了の通知を受けたとき(ステップS35の判別結果が「Yes」であれば)、歌唱学習部134は、学習データのうち、前回の伴奏の到達ポイントから伴奏終了までの区間について、歌唱データSsを用いて更新して、データベースDB2に書き戻す(ステップS34b)。この後、更新処理は終了する。
この例では、学習データが逐次更新されるので、カラオケが何らか理由により途中で中止された場合であっても、それまでの歌唱に基づいて学習データを更新することができる。
なお、この例では、伴奏が所定ポイントに到達する毎に、学習データを更新する場合を例にとって説明したが、歌唱者の歌唱表現が際立った場合、具体的には、歌唱の表現を示す数値が閾値以上であるような場合、その都度、学習データを更新しても良い。いずれにしても、学習データを更新するタイミングは、実施形態のように伴奏終了後に限られず、伴奏の途中であっても良いし、リアルタイムでも良い。
また、学習データについては、予め定められたルールを充足したときに更新する構成としても良い。このルールとしては、例えば、伴奏終了してから所定時間経過後としても良いし、1曲毎ではなく、例えば複数曲の終了後としても良い。
さらに、例えば、曲の第1番の歌唱が終了したとき、当該第1番の歌唱表現を示す歌唱データSsで第2番以降の学習データを更新させて、第2番以降の歌唱合成に直ちに反映させても良い。なお、このように第1番の終了後に、第2番以降の歌唱合成に直ちに反映させる場合、学習データとして、第1番、第2番、…で共通としても良い。
さらに、例えば、曲の第1番の歌唱が終了したとき、当該第1番の歌唱表現を示す歌唱データSsで第2番以降の学習データを更新させて、第2番以降の歌唱合成に直ちに反映させても良い。なお、このように第1番の終了後に、第2番以降の歌唱合成に直ちに反映させる場合、学習データとして、第1番、第2番、…で共通としても良い。
<シーケンスデータの作成タイミング>
シーケンスデータSdについては、実施形態のように、伴奏音の再生前(カラオケ演奏前)に作成するのではなく、伴奏音の再生に同期して作成しても良い。
シーケンスデータSdについては、実施形態のように、伴奏音の再生前(カラオケ演奏前)に作成するのではなく、伴奏音の再生に同期して作成しても良い。
図8は、歌唱合成装置の応用例(その3)を適用したカラオケ装置の構成を示す図である。このカラオケ装置は、シーケンスデータSdを伴奏音の再生に同期して作成する、というものである。
この図に示される構成は、図2に示した構成において、伴奏再生部148が時刻情報を、歌唱合成部138ではなく、シーケンスデータ作成部136に供給する構成となっている。詳細には、図8におけるシーケンスデータ作成部136は、伴奏再生部148による時刻情報でシーケンスデータSdを作成して歌唱合成部138に供給し、当該歌唱合成部138が、供給されたシーケンスデータSdをリアルタイムで歌唱合成して出力する構成となっている。
この図に示される構成は、図2に示した構成において、伴奏再生部148が時刻情報を、歌唱合成部138ではなく、シーケンスデータ作成部136に供給する構成となっている。詳細には、図8におけるシーケンスデータ作成部136は、伴奏再生部148による時刻情報でシーケンスデータSdを作成して歌唱合成部138に供給し、当該歌唱合成部138が、供給されたシーケンスデータSdをリアルタイムで歌唱合成して出力する構成となっている。
図9は、歌唱合成装置の応用例(その4)を適用したカラオケ装置の動作を示すフローチャートである。このカラオケ装置は、シーケンスデータSdを伴奏音の再生に同期するように作成する、というものである。
この図に示されるフローチャートでは、図4に示したフローチャートのステップS11とS12とが1つのステップS41にまとめられた内容となっている。これは、ステップS41では、シーケンスデータ作成部136によるシーケンスデータSdの作成と、歌唱合成部138による歌唱合成とがほぼ並列して実行されるためである。
この図に示されるフローチャートでは、図4に示したフローチャートのステップS11とS12とが1つのステップS41にまとめられた内容となっている。これは、ステップS41では、シーケンスデータ作成部136によるシーケンスデータSdの作成と、歌唱合成部138による歌唱合成とがほぼ並列して実行されるためである。
10…カラオケ装置、112…歌唱入力部、132…歌唱分析部、134…歌唱学習部、136…シーケンスデータ作成部、138…歌唱合成部、148…伴奏再生部。
Claims (6)
- リファレンスデータで規定される模範歌唱に、学習データで規定される歌唱者による歌唱表現を付加して、歌詞を歌唱合成するためのシーケンスデータを作成するシーケンスデータ作成部と、
前記シーケンスデータ作成部で作成されたシーケンスデータにしたがって歌唱合成する歌唱合成部と、
を具備することを特徴とする歌唱合成装置。 - 歌唱者による歌唱信号からピッチを抽出するとともに、当該抽出したピッチと、前記リファレンスデータで規定されるピッチとを比較して、当該歌唱者による歌唱表現を分析する歌唱分析部と、
前記歌唱分析部より分析された歌唱表現に基づき前記学習データを更新する歌唱学習部と、
を備えることを特徴とする請求項1に記載の歌唱合成装置。 - 歌唱者による歌唱信号から音量を抽出するとともに、当該抽出した音量と、前記リファレンスデータで規定される音量とを比較して、当該歌唱者による歌唱表現を分析する歌唱分析部と、
前記歌唱分析部より分析された歌唱表現に基づき前記学習データを更新する歌唱学習部と、
を備えることを特徴とする請求項1に記載の歌唱合成装置。 - 歌唱者が歌唱した歌唱音声と、前記歌唱合成部より歌唱合成された歌唱音声と、を混合して出力する混合部を備える、
ことを特徴とする請求項1から3、いずれか1項に記載の歌唱合成装置。 - 伴奏音を再生する伴奏再生部を備え、
前記混合部は、
前記歌唱者が歌唱した歌唱音声と、前記歌唱合成部より歌唱合成された歌唱音声とに加えて、前記伴奏再生部により再生された伴奏音を混合して出力し、
前記歌唱合成部は、
前記伴奏再生部により再生された伴奏音の進行に合わせて歌詞を歌唱合成する、
ことを特徴とする請求項4に記載の歌唱合成装置。 - コンピュータを、
リファレンスデータで規定される模範歌唱に、学習データで規定される歌唱者による歌唱表現を付加して、歌詞を歌唱合成するためのシーケンスデータを作成するシーケンスデータ作成部、および、
前記シーケンスデータ作成部で作成されたシーケンスデータにしたがって歌唱合成する歌唱合成部、
として機能させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014136813A JP2016014781A (ja) | 2014-07-02 | 2014-07-02 | 歌唱合成装置および歌唱合成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014136813A JP2016014781A (ja) | 2014-07-02 | 2014-07-02 | 歌唱合成装置および歌唱合成プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016014781A true JP2016014781A (ja) | 2016-01-28 |
Family
ID=55230999
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014136813A Pending JP2016014781A (ja) | 2014-07-02 | 2014-07-02 | 歌唱合成装置および歌唱合成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2016014781A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016183998A (ja) * | 2015-03-25 | 2016-10-20 | ブラザー工業株式会社 | 音声合成装置、及びプログラム |
-
2014
- 2014-07-02 JP JP2014136813A patent/JP2016014781A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016183998A (ja) * | 2015-03-25 | 2016-10-20 | ブラザー工業株式会社 | 音声合成装置、及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104170006B (zh) | 演奏评价装置、卡拉ok装置及服务器装置 | |
JP2004264676A (ja) | 歌唱合成装置、歌唱合成プログラム | |
JP2017040867A (ja) | 情報処理装置 | |
JP2016070999A (ja) | カラオケ効果音設定システム | |
JP2007140165A (ja) | カラオケ装置およびカラオケ装置用プログラム | |
JP2007140548A (ja) | 似顔絵出力装置およびカラオケ装置 | |
JP2006251697A (ja) | カラオケ装置 | |
JP2016014781A (ja) | 歌唱合成装置および歌唱合成プログラム | |
JP2023013684A (ja) | 歌唱声質変換プログラム及び歌唱声質変換装置 | |
JP4218066B2 (ja) | カラオケ装置およびカラオケ装置用プログラム | |
JP6219750B2 (ja) | 歌唱対戦カラオケシステム | |
JP6920135B2 (ja) | カラオケ装置 | |
JP5708730B2 (ja) | 楽音演奏装置及び楽音演奏処理プログラム | |
JP2022065554A (ja) | 音声合成方法およびプログラム | |
JP2022065566A (ja) | 音声合成方法およびプログラム | |
JP4145901B2 (ja) | カラオケの制御方法およびカラオケ装置 | |
JP5439994B2 (ja) | データ集配システム,通信カラオケシステム | |
JP6236807B2 (ja) | 歌唱音声評価装置および歌唱音声評価システム | |
CN108922505A (zh) | 信息处理方法及装置 | |
JP6340303B2 (ja) | ハモリ歌唱の採点を行うカラオケ採点装置 | |
JP6144593B2 (ja) | 歌唱採点システム | |
JP5184234B2 (ja) | データ生成装置及びデータ生成プログラム、並びに、再生装置 | |
KR20140131351A (ko) | 가창 지원 장치 | |
JP6944364B2 (ja) | カラオケ装置 | |
JP2011154290A (ja) | 部分的に一人二重唱になる楽曲の歌唱を支援するカラオケ装置 |