<実施形態>
図1~図10を参照して、実施形態に係るカラオケ装置1について説明する。
==カラオケ装置==
カラオケ装置1は、カラオケ演奏及び歌唱者がカラオケ歌唱を行うための装置である。カラオケ装置1は、歌唱者が選曲したカラオケ楽曲を予約待ち行列に登録し、順番にカラオケ演奏を行う。図1に示すように、カラオケ装置1は、カラオケ本体10、スピーカ20、表示装置30、マイク40、及びリモコン装置50を備える。
スピーカ20はカラオケ本体10からの放音信号に基づいて放音するための構成である。表示装置30はカラオケ本体10からの信号に基づいて映像や画像を画面に表示するための構成である。マイク40は歌唱者の歌唱音声(マイク40への入力音声)をアナログの歌唱音声信号に変換してカラオケ本体10に入力するための構成である。リモコン装置50は、カラオケ本体10に対する各種操作をおこなうための装置である。歌唱者はリモコン装置50を用いて歌唱を希望するカラオケ楽曲の選曲(予約)等を行うことができる。リモコン装置50の表示画面には各種操作の指示入力を行うためのアイコン等が表示される。
カラオケ本体10は、選曲されたカラオケ楽曲の演奏制御、歌詞や背景映像等の表示制御、マイク40を通じて入力された歌唱音声信号の処理といった、カラオケ歌唱に関する各種の制御を行う。図1に示すように、カラオケ本体10は、制御部11、通信部12、記憶部13、音響処理部14、表示処理部15及び操作部16を備える。各構成はインターフェース(図示なし)を介してバスBに接続されている。
制御部11は、CPU11aおよびメモリ11bを備える。CPU11aは、メモリ11bに記憶された動作プログラムを実行することにより各種の制御機能を実現する。メモリ11bは、CPU11aに実行されるプログラムを記憶したり、プログラムの実行時に各種情報を一時的に記憶したりする記憶装置である。
通信部12は、ルーター(図示なし)を介してカラオケ本体10を通信回線に接続するためのインターフェースを提供する。
記憶部13は、各種のデータを記憶する大容量の記憶装置であり、たとえばハードディスクドライブなどである。記憶部13は、カラオケ装置1によりカラオケ演奏を行うための複数の楽曲データを記憶する。
楽曲データは、個々のカラオケ楽曲を特定するための楽曲IDが付与されている。楽曲データは、伴奏データ、リファレンスデータ等を含む。伴奏データは、カラオケ演奏音の元となるデータである。伴奏データはカラオケ演奏をする際のテンポを示す情報を含む。テンポは、楽曲毎に所定の値が設定されている。リファレンスデータは、歌唱者によるカラオケ歌唱を採点する際の基準として用いられるデータである。リファレンスデータは、複数のノート(音符)から構成され、ノート毎に所定のピッチ(基準ピッチ)が設定されている。
また、記憶部13は、各カラオケ楽曲に対応する歌詞を表示装置30等に表示させるための歌詞テロップデータ、カラオケ演奏時に表示装置30等に表示される背景画像等の背景画像データ、楽曲毎のカラオケ演奏時間を示す演奏時間データ及び楽曲の属性情報(歌手名、作詞・作曲者名、ジャンル等の当該楽曲に関する情報)を記憶する。
音響処理部14は、制御部11の制御に基づき、カラオケ楽曲に対する演奏の制御およびマイク40を通じて入力された歌唱音声信号の処理を行う。表示処理部15は、制御部11の制御に基づき、表示装置30やリモコン装置50における各種表示に関する処理を行う。たとえば、表示処理部15は、カラオケ楽曲の演奏時における背景映像に歌詞テロップや各種アイコンが重ねられた映像を表示装置30に表示させる制御を行う。或いは、表示処理部15は、リモコン装置50の表示画面に操作入力用の各種アイコンを表示させる。操作部16は、パネルスイッチおよびリモコン受信回路などからなり、歌唱者によるカラオケ装置1のパネルスイッチあるいはリモコン装置50の操作に応じて選曲信号、演奏中止信号などの操作信号を制御部11に対して出力する。制御部11は、操作部16からの操作信号を検出し、対応する処理を実行する。
(ソフトウェア構成)
図2はカラオケ本体10のソフトウェア構成例を示す図である。カラオケ本体10は、歌唱ピッチ検出部100、L字アクセント歌唱判定部200、提示部300、及び採点処理部400を備える。歌唱ピッチ検出部100、L字アクセント歌唱判定部200、提示部300、及び採点処理部400は、CPU11aがメモリ11bに記憶されるプログラムを実行することにより実現される。
[歌唱ピッチ検出部]
歌唱ピッチ検出部100は、カラオケ楽曲の歌唱により得られた歌唱音声信号から、所定区間毎に歌唱ピッチを検出する。
具体的に、歌唱ピッチ検出部100は、歌唱音声信号を解析し、歌唱ピッチを検出する。歌唱ピッチは、所定時間長(たとえば10~20msec)のフレーム単位で1サンプルずつ時系列に検出する。たとえば、所定時間長が20msecの場合、20msecのフレームが、歌唱ピッチ検出における所定区間に相当する。歌唱ピッチ検出部100は、検出した歌唱ピッチを、L字アクセント歌唱判定部200に順次出力する。なお、歌唱ピッチの検出は、カラオケ楽曲の歌唱に伴って順次行ってもよいし、一のカラオケ楽曲の歌唱が全て終了した後にまとめて行ってもよい。
[L字アクセント歌唱判定部]
L字アクセント歌唱判定部200は、検出した複数の歌唱ピッチを含む区間の中に、下降区間及び水平区間が存在する場合、あるノートに対するL字アクセント歌唱が行われていると判定する。
下降区間は、あるノートの基準ピッチよりも高い歌唱ピッチから所定の条件で歌唱ピッチが下降する区間である。所定の条件は、下降区間を特定するための条件である。所定の条件は、特定するL字アクセント歌唱の程度に応じて、予め任意の条件が設定されている(詳細は後述)。
水平区間は、下降区間の終了時の歌唱ピッチから連続する2つの歌唱ピッチのピッチ差が所定範囲内であり、且つ所定数以上連続する区間である。所定範囲は、水平区間を特定するにあたり、許容可能な連続する2つの歌唱ピッチのずれの幅である。所定数は、水平区間を特定するにあたり、最低限必要な、所定範囲内に含まれるピッチ差の歌唱ピッチが連続する数である。所定範囲及び所定数は、特定するL字アクセント歌唱の程度に応じて、予め任意の値が設定されている。たとえば、所定範囲は±1cent~±12centであり、所定数は3~5である。
ここで、図3~図10を参照して、L字アクセント歌唱の判定処理について詳細に説明を行う。以下の例では、歌唱ピッチの推移が「L字」状になる2つの例(例1、例2)について説明する。図3及び図7は、L字アクセント歌唱の判定処理を示すフローチャートである。図4及び図8は、カラオケ楽曲Xのリファレンスデータに設定されているノートNの基準ピッチBPと、カラオケ楽曲Xの歌唱により得られた歌唱音声信号を解析して検出された所定区間毎の歌唱ピッチとのピッチ差を示した図である。この図において、歌唱ピッチP(1)は、ノートNの発音開始タイミング以降で最初に検出された歌唱ピッチであるとする。ノートの発音開始タイミングは、カラオケ楽曲の演奏開始時点を0とした場合の、当該ノートまでの経過時間に相当する。図5及び図9は、カラオケ楽曲Xの歌唱により得られた歌唱音声信号を解析して検出された所定区間毎の歌唱ピッチと、連続する2つの歌唱ピッチのピッチ差を示した図である。図6及び図10は、L字アクセント歌唱の歌唱ピッチの推移を示した図である。
図4、図5、図8、及び図9の例において、ピッチ差はcent値で示す。なお、cent値は相対値であるが、以下の説明においては歌唱ピッチを絶対値として表現するために、音階C4(周波数261.626Hz)を6000centと定義する。また基準ピッチが0の部分は、非歌唱区間(カラオケ歌唱用の歌詞が付与されていない区間)であり、歌唱ピッチが0の部分は歌唱ピッチが検出できなかったものとする。
また、図6及び図10において、ノートNのピッチ(基準ピッチ)をピッチBPで示す。また、開始時刻TsはノートNの発音開始タイミングであり、終了時刻TeはノートNの発音終了タイミングである。図6及び図10における縦軸は歌唱ピッチを示し、横軸は時刻を示すが、横軸は連続する時間長(たとえば20msec)の所定区間と解してもよく所定区間毎に歌唱ピッチが検出される。
[例1]
図3~図6を用いて1つ目の例について説明する。
まず、L字アクセント歌唱判定部200は、あるノートの発音開始タイミング近傍において検出した歌唱ピッチのうち、当該あるノートの基準ピッチとのピッチ差が第1の所定値以上である歌唱ピッチを第1の歌唱ピッチとする(第1の歌唱ピッチを特定。ステップ10)。
具体的に、L字アクセント歌唱判定部200は、ノートNの発音開始タイミング近傍において検出された歌唱ピッチと、ノートNの基準ピッチBPとのピッチ差を求め、当該ピッチ差が第1の所定値以上であるかどうかを判断する。歌唱ピッチP(n)とノートNの基準ピッチBPとのピッチ差BPd(n)は、「P(n)-BP」で算出される。第1の所定値は、判定するL字アクセント歌唱の程度に応じて、予め任意の値が設定されている。たとえば、第1の所定値は、130cent~160centである。本実施形態における第1の所定値は「150cent」とする。第1の所定値は「所定の条件」の一部である。
図4の例によると、歌唱ピッチP(1)とノートNの基準ピッチBPとのピッチ差BPd(1)は、「+184cent」である。この場合、L字アクセント歌唱判定部200は、ピッチ差BPd(1)が第1の所定値(150cent)以上であると判断する。一方、歌唱ピッチP(5)とノートNの基準ピッチBPとのピッチ差BPd(5)は、「+135cent」である。この場合、L字アクセント歌唱判定部200は、ピッチ差BPd(5)は第1の所定値(150cent)未満であると判断する。図4の例によると、L字アクセント歌唱判定部200は、歌唱ピッチP(1)~歌唱ピッチP(4)を第1の歌唱ピッチとして特定する。
次に、L字アクセント歌唱判定部200は、第1の歌唱ピッチよりも第1の所定数だけ後に検出した第2の歌唱ピッチまで歌唱ピッチが連続して減少しているかどうかを判定する(第1の歌唱ピッチから第2の歌唱ピッチまで、歌唱ピッチが連続して減少しているかを判定。ステップ11)。
第1の所定数は、判定するL字アクセント歌唱の程度に応じて、予め任意の値が設定されている。たとえば、第1の所定数は、3サンプル~5サンプルである。本実施形態における第1の所定数は「3サンプル」とする。第1の所定数は「所定の条件」の一部である。
L字アクセント歌唱判定部200は、特定された第1の歌唱ピッチについて、3サンプルだけ後に検出した第2の歌唱ピッチまで、歌唱ピッチが連続して減少しているかどうかを判断する。図4の例によると、歌唱ピッチP(1)は、次に検出した歌唱ピッチP(2)の方が高い値(+3cent)となっているため、歌唱ピッチが連続して減少していると判定せず、第1の歌唱ピッチの特定を解除する。一方、歌唱ピッチP(2)については、3サンプルだけ後に検出した歌唱ピッチP(5)まで歌唱ピッチが連続して減少している。よって、L字アクセント歌唱判定部200は、歌唱ピッチP(2)から歌唱ピッチP(5)まで、歌唱ピッチが連続して減少していると判定する。この場合、歌唱ピッチP(5)は第2の歌唱ピッチに相当する。
同様に、第1の歌唱ピッチとして特定された歌唱ピッチP(3)についても、3サンプルだけ後に検出した歌唱ピッチP(6)まで歌唱ピッチが連続して減少している。よって、L字アクセント歌唱判定部200は、歌唱ピッチP(3)から歌唱ピッチP(6)まで歌唱ピッチが連続して減少していると判定する。この場合、歌唱ピッチP(6)が第2の歌唱ピッチに相当する。また、第1の歌唱ピッチとして特定された歌唱ピッチP(4)についても、3サンプルだけ後に検出した歌唱ピッチP(7)まで歌唱ピッチが連続して減少している。よって、L字アクセント歌唱判定部200は、歌唱ピッチP(4)から歌唱ピッチP(7)まで歌唱ピッチが連続して減少していると判定する。この場合、歌唱ピッチP(7)が第2の歌唱ピッチに相当する。
次に、L字アクセント歌唱判定部200は、第1の歌唱ピッチから、第1の歌唱ピッチよりも第2の所定数だけ後に検出した第3の歌唱ピッチまでの間に第2の所定値以上、歌唱ピッチが減少しているかどうかを判定する(第1の歌唱ピッチから第3の歌唱ピッチまでの間に歌唱ピッチが所定値以上、減少しているかを判定。ステップ12)。
第2の所定数及び第2の所定値は、判定するL字アクセント歌唱の程度に応じて、予め任意の値が設定されている。第2の所定数は、第1の所定数よりも大きい値である。第2の所定数は、たとえば10~25サンプルである。第2の所定値はたとえば130~160centである。本実施形態における第2の所定数は「10サンプル」であり、第2の所定値は、少なくともノートNの基準ピッチまで歌唱ピッチを減少させるために、歌唱ピッチとノートNの基準ピッチBPとのピッチ差である第1の所定値と同数とすることが望ましいため、第1の所定値と同じ「150cent」とする。第2の所定数及び第2の所定値は「所定の条件」の一部である。
図4の例によると、歌唱ピッチP(2)から10サンプルだけ後に検出した歌唱ピッチP(12)までの間に歌唱ピッチは150cent減少している。L字アクセント歌唱判定部200は、歌唱ピッチP(2)から歌唱ピッチP(12)までの間に歌唱ピッチが150cent以上減少していると判定する。この場合、歌唱ピッチP(12)は第3の歌唱ピッチに相当する。
同様に、図4の例によると歌唱ピッチP(3)から10サンプルだけ後に検出した歌唱ピッチP(13)までの間に歌唱ピッチが155cent減少している。L字アクセント歌唱判定部200は、歌唱ピッチP(3)から歌唱ピッチP(13)までの間に歌唱ピッチが150cent以上減少していると判定する。この場合、歌唱ピッチP(13)は第3の歌唱ピッチに相当する。また、歌唱ピッチP(4)から10サンプルだけ後に検出した歌唱ピッチP(14)までの間に歌唱ピッチが150cent減少している。L字アクセント歌唱判定部200は、歌唱ピッチP(4)から歌唱ピッチP(14)までの間に歌唱ピッチが150cent以上減少していると判定する。この場合、歌唱ピッチP(14)は第3の歌唱ピッチに相当する。
次に、L字アクセント歌唱判定部200は、第1の歌唱ピッチを開始時の歌唱ピッチとし、第3の歌唱ピッチを終了時の歌唱ピッチとする下降区間候補を特定する(下降区間候補の特定。ステップ13)。
上記例によれば、L字アクセント歌唱判定部200は、歌唱ピッチP(2)を開始時の歌唱ピッチとし、歌唱ピッチP(12)を終了時の歌唱ピッチとする第1の下降区間候補DC1を特定し、歌唱ピッチP(3)を開始時の歌唱ピッチとし、歌唱ピッチP(13)を終了時の歌唱ピッチとする第2の下降区間候補DC2を特定し、歌唱ピッチP(4)を開始時の歌唱ピッチとし、歌唱ピッチP(14)を終了時の歌唱ピッチとする第3の下降区間候補DC3を特定する。
次に、L字アクセント歌唱判定部200は、第3の歌唱ピッチから連続する2つの歌唱ピッチのピッチ差が、所定範囲内であり、且つ所定数以上連続する区間を水平区間として特定する(水平区間の特定。ステップ14)。
具体的に、L字アクセント歌唱判定部200は、第3の歌唱ピッチから連続する2つの歌唱ピッチのピッチ差を求め、当該ピッチ差が所定範囲内にあるかどうかを判断する。連続する2つの歌唱ピッチP(n-1)、P(n)のピッチ差Pd(n)は、「P(n)-P(n-1)」で算出される。本実施形態における所定範囲は「±11cent」とする。
図5の例によると、第1の下降区間候補DC1における終了時の歌唱ピッチP(12)と次の歌唱ピッチP(13)とのピッチ差Pd(12)は、「-17cent」である。この場合、L字アクセント歌唱判定部200は、ピッチ差Pd(12)は所定範囲内にないと判断する。一方、第2の下降区間候補DC2における終了時の歌唱ピッチP(13)と次の歌唱ピッチP(14)とのピッチ差Pd(13)は、「-10cent」である。この場合、L字アクセント歌唱判定部200は、ピッチ差Pd(13)は所定範囲内にあると判断する。
更に、L字アクセント歌唱判定部200は、検出された連続する2つの歌唱ピッチについて、順次、ピッチ差を求め、所定範囲内にあるかどうかを判断する。この際、L字アクセント歌唱判定部200は、所定範囲内にあるピッチ差が所定数以上連続するかどうかを判断する。所定数以上連続する場合、L字アクセント歌唱判定部200は、ピッチ差を求める際に用いた最初の歌唱ピッチを水平区間の開始時の歌唱ピッチとする。本実施形態における所定数は「3」とする。
図5の例によると、所定範囲(±11cent)内にあるピッチ差は、最初に所定範囲内にあると判断されたピッチ差Pd(13)から、少なくともピッチ差Pd(15)まで3つ連続している。この場合、L字アクセント歌唱判定部200は、ピッチ差Pd(13)を求める際に用いた歌唱ピッチP(13)を水平区間の開始時の歌唱ピッチとし、ピッチ差Pd(15)を求める際に用いた歌唱ピッチP(15)を水平区間の終了時の歌唱ピッチとする水平区間HZ1を特定する。同様に、L字アクセント歌唱判定部200は、ピッチ差Pd(14)を求める際に用いた歌唱ピッチP(14)を水平区間の開始時の歌唱ピッチとし、ピッチ差Pd(16)を求める際に用いた歌唱ピッチP(16)を水平区間の終了時の歌唱ピッチとする水平区間HZ2を特定する。
最後に、L字アクセント歌唱判定部200は、第3の歌唱ピッチが水平区間の開始時の歌唱ピッチとなっている下降区間候補を下降区間として特定する(下降区間の特定。ステップ15)。
図5の例によると、第1の下降区間候補DC1における第3の歌唱ピッチP(12)、第2の下降区間候補DC2における第3の歌唱ピッチP(13)、及び第3の下降区間候補DC3における第3の歌唱ピッチP(14)のうち、特定された第1の水平区間HZ1及び第2の水平区間HZ2の開始時の歌唱ピッチとなっているものは、歌唱ピッチP(13)及び歌唱ピッチP(14)である。この場合、L字アクセント歌唱判定部200は、第2の下降区間候補DC2を下降区間DZ2として特定し、第3の下降区間候補DC3を下降区間DZ3として特定する。
水平区間及び下降区間が存在する場合、L字アクセント歌唱判定部200は、L字アクセント歌唱が行われていると判定する(L字アクセント歌唱の判定。ステップ16)。図4及び図5の例によると、特定された水平区間HZ1及び下降区間DZ2、または水平区間HZ2及び下降区間DZ3が、L字アクセント歌唱による歌唱区間となる。なお、このように複数のL字アクセント歌唱の歌唱区間があると判定された場合、L字アクセント歌唱判定部200は、いずれか一方をL字アクセント歌唱の歌唱区間として選択する。一の歌唱区間の選択は、任意の条件により行うことができる。本実施形態では、先に特定された水平区間HZ1及び下降区間DZ2をL字アクセント歌唱による歌唱区間として選択する。図6は、水平区間HZ1及び下降区間DZ2からなるアクセント歌唱を示している。
なお、下降区間や水平区間を特定できない場合、L字アクセント歌唱判定部200は、ノートNについてはL字アクセント歌唱が行われていないと判定する。
[例2]
次に図7~図10を用いて2つ目の例について説明する。この例では、聴感上、「緊張した感じ」や「切羽詰まった印象」をより強く受けるL字アクセント歌唱の判定について説明する。例1と同様の処理については詳細な説明を省略する場合がある。
まず、L字アクセント歌唱判定部200は、あるノートの発音開始タイミング近傍において検出した歌唱ピッチのうち、当該あるノートの基準ピッチとのピッチ差が第1の所定値以上である歌唱ピッチを第1の歌唱ピッチとする(第1の歌唱ピッチを特定。ステップ20)。本実施形態における第1の所定値は「130cent」とする。
図8の例によると、歌唱ピッチP(1)とノートNの基準ピッチBPとのピッチ差BPd(1)は、「+164cent」である。この場合、L字アクセント歌唱判定部200は、ピッチ差BPd(1)が第1の所定値(130cent)以上であると判断する。一方、歌唱ピッチP(5)とノートNの基準ピッチBPとのピッチ差BPd(5)は、「+127cent」である。この場合、L字アクセント歌唱判定部200は、ピッチ差BPd(5)は第1の所定値(130cent)未満であると判断する。図8の例によると、L字アクセント歌唱判定部200は、歌唱ピッチP(1)~歌唱ピッチP(4)を第1の歌唱ピッチとして特定する。
次に、L字アクセント歌唱判定部200は、第1の歌唱ピッチよりも第1の所定数だけ後に検出した第2の歌唱ピッチまで歌唱ピッチが連続して減少しているかどうかを判定する(第1の歌唱ピッチから第2の歌唱ピッチまで、歌唱ピッチが連続して減少しているかを判定。ステップ21)。本実施形態における第1の所定数は「3サンプル」とする。
L字アクセント歌唱判定部200は、特定された第1の歌唱ピッチについて、3サンプルだけ後に検出した第2の歌唱ピッチまで、歌唱ピッチが連続して減少しているかどうかを判断する。図8の例によると、歌唱ピッチP(1)は、次に検出した歌唱ピッチP(2)の方が高い値(+3cent)となっているため、歌唱ピッチが連続して減少していると判定せず、第1の歌唱ピッチの特定を解除する。一方、歌唱ピッチP(2)については、3サンプルだけ後に検出した歌唱ピッチP(5)まで歌唱ピッチが連続して減少している。よって、L字アクセント歌唱判定部200は、歌唱ピッチP(2)から歌唱ピッチP(5)まで、歌唱ピッチが連続して減少していると判定する。この場合、歌唱ピッチP(5)は第2の歌唱ピッチに相当する。
同様に、第1の歌唱ピッチとして特定された歌唱ピッチP(3)についても、3サンプルだけ後に検出した歌唱ピッチP(6)まで歌唱ピッチが連続して減少している。よって、L字アクセント歌唱判定部200は、歌唱ピッチP(3)から歌唱ピッチP(6)まで歌唱ピッチが連続して減少していると判定する。この場合、歌唱ピッチP(6)が第2の歌唱ピッチに相当する。また、第1の歌唱ピッチとして特定された歌唱ピッチP(4)についても、3サンプルだけ後に検出した歌唱ピッチP(7)まで歌唱ピッチが連続して減少している。よって、L字アクセント歌唱判定部200は、歌唱ピッチP(4)から歌唱ピッチP(7)まで歌唱ピッチが連続して減少していると判定する。この場合、歌唱ピッチP(7)が第2の歌唱ピッチに相当する。
次に、L字アクセント歌唱判定部200は、第1の歌唱ピッチから、第1の歌唱ピッチよりも第2の所定数だけ後に検出した第3の歌唱ピッチまでの間に第2の所定値以上、歌唱ピッチが減少した後、第3の所定値以上、歌唱ピッチが上昇しているかどうかを判定する(第1の歌唱ピッチから第3の歌唱ピッチまでの間に歌唱ピッチが所定値以上、減少した後、所定値以上、上昇しているかを判定。ステップ22)。
第2の所定数、第2の所定値、及び第3の所定値は、判定するL字アクセント歌唱の程度に応じて、予め任意の値が設定されている。第3の所定値は、たとえば15~30centである。本実施形態における第2の所定数は「24サンプル」であり、第2の所定値は「150cent」であり、第3の所定値は「20cent」であるとする。第2の所定数、第2の所定値、及び第3の所定値は「所定の条件」の一部である。
図8の例によると、歌唱ピッチP(2)から24サンプルだけ後に検出した歌唱ピッチP(26)までの間に歌唱ピッチは最大200cent減少(歌唱ピッチP(2)から歌唱ピッチP(17)まで)している。また、歌唱ピッチP(17)から歌唱ピッチP(26)までの間に歌唱ピッチは21cent上昇している。よって、L字アクセント歌唱判定部200は、歌唱ピッチP(2)から歌唱ピッチP(26)までの間に歌唱ピッチが150cent以上減少した後、20cent以上、歌唱ピッチが上昇していると判定する。この場合、歌唱ピッチP(26)は第3の歌唱ピッチに相当する。
同様に、図8の例によると、歌唱ピッチP(3)から24サンプルだけ後に検出した歌唱ピッチP(27)までの間に歌唱ピッチが最大188cent減少(歌唱ピッチP(3)から歌唱ピッチP(17)まで)しており、歌唱ピッチP(17)から歌唱ピッチP(26)までの間に歌唱ピッチは25cent上昇している。よって、L字アクセント歌唱判定部200は、歌唱ピッチP(3)から歌唱ピッチP(27)までの間に歌唱ピッチが150cent以上減少した後、20cent以上、歌唱ピッチが上昇していると判定する。この場合、歌唱ピッチP(27)は第3の歌唱ピッチに相当する。また、歌唱ピッチP(4)から24サンプルだけ後に検出した歌唱ピッチP(28)までの間に歌唱ピッチが最大172cent減少(歌唱ピッチP(4)から歌唱ピッチP(17)まで)しており、歌唱ピッチP(17)から歌唱ピッチP(28)までの間に歌唱ピッチは24cent上昇している。よって、L字アクセント歌唱判定部200は、歌唱ピッチP(4)から歌唱ピッチP(28)までの間に歌唱ピッチが150cent以上減少した後、20cent以上、歌唱ピッチが上昇していると判定する。この場合、歌唱ピッチP(28)は第3の歌唱ピッチに相当する。
次に、L字アクセント歌唱判定部200は、第1の歌唱ピッチを開始時の歌唱ピッチとし、第3の歌唱ピッチを終了時の歌唱ピッチとする下降区間候補を特定する(下降区間候補の特定。ステップ23)。
上記例によれば、L字アクセント歌唱判定部200は、歌唱ピッチP(2)を開始時の歌唱ピッチとし、歌唱ピッチP(26)を終了時の歌唱ピッチとする第1の下降区間候補DC1を特定し、歌唱ピッチP(3)を開始時の歌唱ピッチとし、歌唱ピッチP(27)を終了時の歌唱ピッチとする第2の下降区間候補DC2を特定し、歌唱ピッチP(4)を開始時の歌唱ピッチとし、歌唱ピッチP(28)を終了時の歌唱ピッチとする第3の下降区間候補DC3を特定する。
次に、L字アクセント歌唱判定部200は、第3の歌唱ピッチから連続する2つの歌唱ピッチのピッチ差が、所定範囲内であり、且つ所定数以上連続する区間を水平区間として特定する(水平区間の特定。ステップ24)。本実施形態における所定範囲は「±12cent」とする。
図9の例によると、たとえば、第1の下降区間候補DC1における終了時の歌唱ピッチP(26)と次の歌唱ピッチP(27)とのピッチ差Pd(26)は、「+4cent」である。この場合、L字アクセント歌唱判定部200は、ピッチ差Pd(12)は所定範囲内にあると判断する。
更に、L字アクセント歌唱判定部200は、検出された連続する2つの歌唱ピッチについて、順次、ピッチ差を求め、所定範囲内にあるかどうかを判断する。この際、L字アクセント歌唱判定部200は、所定範囲内にあるピッチ差が所定数以上連続するかどうかを判断する。所定数以上連続する場合、L字アクセント歌唱判定部200は、ピッチ差を求める際に用いた最初の歌唱ピッチを水平区間の開始時の歌唱ピッチとする。本実施形態における所定数は「3」とする。
図9の例によると、所定範囲(±12cent)内にあるピッチ差は、最初に所定範囲内にあると判断されたピッチ差Pd(26)から、少なくともピッチ差Pd(28)まで3つ連続している。この場合、L字アクセント歌唱判定部200は、ピッチ差Pd(26)を求める際に用いた歌唱ピッチP(26)を水平区間の開始時の歌唱ピッチとし、ピッチ差Pd(28)を求める際に用いた歌唱ピッチP(28)を水平区間の終了時の歌唱ピッチとする水平区間HZ1を特定する。同様に、L字アクセント歌唱判定部200は、ピッチ差Pd(27)を求める際に用いた歌唱ピッチP(27)を水平区間の開始時の歌唱ピッチとし、ピッチ差Pd(29)を求める際に用いた歌唱ピッチP(29)を水平区間の終了時の歌唱ピッチとする水平区間HZ2を特定し、ピッチ差Pd(28)を求める際に用いた歌唱ピッチP(28)を水平区間の開始時の歌唱ピッチとし、ピッチ差Pd(30)を求める際に用いた歌唱ピッチP(30)を水平区間の終了時の歌唱ピッチとする水平区間HZ3を特定する。
最後に、L字アクセント歌唱判定部200は、第3の歌唱ピッチが水平区間の開始時の歌唱ピッチとなっている下降区間候補を下降区間として特定する(下降区間の特定。ステップ25)。
図9の例によると、第1の下降区間候補DC1における第3の歌唱ピッチP(26)、第2の下降区間候補DC2における第3の歌唱ピッチP(27)、及び第3の下降区間候補DC3における第3の歌唱ピッチP(28)のうち、特定された第1の水平区間HZ1~第3の水平区間HZ3の開始時の歌唱ピッチとなっているものは、歌唱ピッチP(26)~歌唱ピッチP(28)である。この場合、L字アクセント歌唱判定部200は、第1の下降区間候補DC1~第3の下降区間候補DC3を下降区間DZ1~加工区間DZ3として特定する。
水平区間及び下降区間が存在する場合、L字アクセント歌唱判定部200は、L字アクセント歌唱が行われていると判定する(L字アクセント歌唱の判定。ステップ26)。図8及び図9の例によると、特定された水平区間HZ1及び下降区間DZ1、水平区間HZ2及び下降区間DZ2、または水平区間HZ3及び下降区間DZ3が、L字アクセント歌唱による歌唱区間となる。なお、このように複数のL字アクセント歌唱の歌唱区間があると判定された場合、L字アクセント歌唱判定部200は、いずれかをL字アクセント歌唱の歌唱区間として選択する。一の歌唱区間の選択は、任意の条件により行うことができる。本実施形態では、先に特定された水平区間HZ1及び下降区間DZ1をL字アクセント歌唱による歌唱区間として選択する。図10は、水平区間HZ1及び下降区間DZ1からなるアクセント歌唱を示している。
[提示部]
提示部300は、L字アクセント歌唱判定部200による判定結果を歌唱者に提示する。たとえば、ノートNに対するL字アクセント歌唱が行われたとの判定結果が入力された場合、提示部300は、表示装置30に表示されるノートNに対応するガイドメロディ画像近傍にL字アクセント歌唱が行われた旨のアイコンを表示させることができる。ガイドメロディ画像は、歌唱者のカラオケ歌唱を支援するために、カラオケ楽曲のメロディを画像として表示させたものである。ガイドメロディ画像の表示については公知の手法を用いることが可能である(たとえば特開2004-205817号公報参照)。
なお、提示部300は、ガイドメロディ画像と関係なく、L字アクセント歌唱が行われた旨のアイコンのみを表示させることもできる。或いは、提示部300は、L字アクセント歌唱が行われた旨のアイコンを表示させる代わりにスピーカ20を介して音声(拍手、歓声等)でL字アクセント歌唱が行われた旨を報知することでもよい。
[採点処理部]
採点処理部400は、カラオケ楽曲の歌唱により得られる歌唱音声信号を当該カラオケ楽曲のリファレンスデータと比較し、採点値を算出する。採点値を算出する処理は公知の手法を用いることができる。たとえば、採点処理部400は、マイク40から入力された歌唱音声信号に基づく歌唱ピッチと、リファレンスデータに基づく基準ピッチにより、歌唱音程の正確さについての採点処理を行う。
ここで、本実施形態に係る採点処理部400は、あるノートの採点結果が不合格と判定された場合、且つ当該あるノートに対するL字アクセント歌唱が行われていた場合、当該あるノートの採点結果を合格と判定する。図6や図10に示すように、L字アクセント歌唱は、ノートの基準ピッチとのずれが大きくなるため、一般的な採点処理によれば、不合格となる可能性が高い。そこで、採点処理部400は、あるノートの採点結果が不合格となった場合であっても、L字アクセント歌唱判定部200により、当該あるノートに対してL字アクセント歌唱が行われたと判定された場合には、当該あるノートを合格として判定する。
以上から明らかなように、本実施形態に係るカラオケ装置1は、カラオケ楽曲の歌唱により得られた歌唱音声信号から、所定区間毎に歌唱ピッチを検出する歌唱ピッチ検出部100と、検出した複数の歌唱ピッチを含む区間の中に、あるノートの基準ピッチよりも高い歌唱ピッチから所定の条件で歌唱ピッチが下降する下降区間と、当該下降区間の終了時の歌唱ピッチから連続する2つの歌唱ピッチのピッチ差が所定範囲内である区間が所定数以上連続する水平区間と、が存在する場合、あるノートに対するL字アクセント歌唱が行われていると判定するL字アクセント歌唱判定部200と、を有する。このようなカラオケ装置1によれば、カラオケ歌唱にL字アクセント歌唱が含まれるかどうかを判定することができる。
より、具体的に、L字アクセント歌唱判定部200は、あるノートの発音開始タイミング近傍において検出した歌唱ピッチのうち、当該あるノートの基準ピッチとのピッチ差が第1の所定値以上である歌唱ピッチを第1の歌唱ピッチとし、当該第1の歌唱ピッチよりも第1の所定数だけ後に検出した第2の歌唱ピッチまで歌唱ピッチが連続して減少しており、且つ当該第1の歌唱ピッチから、当該第1の歌唱ピッチよりも第2の所定数だけ後に検出した第3の歌唱ピッチまでの間に第2の所定値以上、歌唱ピッチが減少している場合、当該第1の歌唱ピッチを開始時の歌唱ピッチとし、当該第3の歌唱ピッチを終了時の歌唱ピッチとする下降区間候補を特定し、第3の歌唱ピッチから連続する2つの歌唱ピッチのピッチ差が、所定範囲内であり、且つ所定数以上連続する区間を前記水平区間として特定し、第3の歌唱ピッチが水平区間の開始時の歌唱ピッチとなっている下降区間候補を下降区間として特定する。L字アクセント歌唱判定部200がこのような処理を実行することにより、カラオケ歌唱にL字アクセント歌唱が含まれるかどうかを判定することができる。
或いは、L字アクセント歌唱判定部200は、あるノートの発音開始タイミング近傍において検出した歌唱ピッチのうち、当該あるノートの基準ピッチとのピッチ差が第1の所定値以上である歌唱ピッチを第1の歌唱ピッチとし、当該第1の歌唱ピッチよりも第1の所定数だけ後に検出した第2の歌唱ピッチまで歌唱ピッチが連続して減少しており、且つ当該第1の歌唱ピッチから、当該第1の歌唱ピッチよりも第2の所定数だけ後に検出した第3の歌唱ピッチまでの間に第2の所定値以上、歌唱ピッチが減少した後、第3の所定値以上、歌唱ピッチが上昇している場合、当該第1の歌唱ピッチを開始時の歌唱ピッチとし、当該第3の歌唱ピッチを終了時の歌唱ピッチとする下降区間候補を特定し、第3の歌唱ピッチから連続する2つの歌唱ピッチのピッチ差が、所定範囲内であり、且つ所定数以上連続する区間を前記水平区間として特定し、第3の歌唱ピッチが水平区間の開始時の歌唱ピッチとなっている下降区間候補を下降区間として特定する。L字アクセント歌唱判定部200がこのような処理を実行することにより、聴感上「緊張した感じ」や「切羽詰まった印象」をより強く受けるL字アクセント歌唱が含まれるかどうかを判定することができる。
更に、本実施形態に係るカラオケ装置1は、あるノートの採点結果が不合格と判定された場合、且つ当該あるノートに対するL字アクセント歌唱が行われていた場合、当該あるノートの採点結果を合格と判定する採点処理部400を有する。このようなカラオケ装置によれば、L字アクセント歌唱という歌唱技法が用いられたにも関わらず、それが反映されない採点結果となることを回避できる。
<その他>
なお、上記実施形態では、ノートNの発音開始タイミング以降に検出された歌唱ピッチに基づいてL字アクセント歌唱の判定を行っているが、これに限られない。たとえば、ノートNに対してL字アクセント歌唱を行う際、ノートNの発音開始タイミングよりも少し前のタイミングからL字アクセント歌唱が開始される場合がある。この場合、L字アクセント歌唱判定部200は、ノートNの発音開始タイミングよりも前(例えば10サンプル前)に検出された歌唱ピッチを利用して、ノートNに対するLアクセント歌唱の有無を判定してもよい。この際、ノートNの発音開始タイミングよりも前に検出された歌唱ピッチについて、基準ピッチとのピッチ差を求める場合には、ノートNの基準ピッチを用いる。
また、上記実施形態で説明したL字アクセント歌唱の判定処理等をプログラムとして提供することも可能である。たとえば、当該プログラムは、コンピューター(たとえば、カラオケ装置)に、カラオケ楽曲の歌唱により得られた歌唱音声信号から、所定区間毎に歌唱ピッチを検出させ、検出した複数の歌唱ピッチを含む区間の中に、あるノートの基準ピッチよりも高い歌唱ピッチから所定の条件で歌唱ピッチが下降する下降区間と、当該下降区間の終了時の歌唱ピッチから連続する2つの歌唱ピッチのピッチ差が所定範囲内である区間が所定数以上連続する水平区間と、が存在する場合、あるノートに対するL字アクセント歌唱が行われていると判定させる。
また、上記プログラムが記憶された非一時的なコンピューター可読媒体(non-transitory computer readable medium with an executable program thereon)を用いて、コンピューターにプログラムを供給することも可能である。なお、非一時的なコンピューターの可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、CD-ROM(Read Only Memory)等がある。
上記実施形態は、例として提示したものであり、発明の範囲を限定するものではない。上記の構成は、適宜組み合わせて実施することが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上記実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。