JP3760833B2

JP3760833B2 - カラオケ装置

Info

Publication number: JP3760833B2
Application number: JP2001322297A
Authority: JP
Inventors: 孝浩田中
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2001-10-19
Filing date: 2001-10-19
Publication date: 2006-03-29
Anticipated expiration: 2016-09-03
Also published as: JP2002162978A

Description

【０００１】
【発明の属する技術分野】
この発明は、カラオケ歌唱者の歌唱音声信号から音高（ピッチ）データや音量データを抽出し、これらのデータを基準となるデータと比較することによって該歌唱を採点するカラオケ装置に関する。
【０００２】
【従来の技術】
再生または自動演奏される伴奏音に合わせて歌唱者が歌唱するカラオケ装置において、カラオケ演奏が終了したとき、歌唱者の歌唱の巧拙を点数で表示する採点機能を備えたものが実用化されている。
【０００３】
【発明が解決しようとする課題】
しかし、上記従来のカラオケ装置の採点機能は、再生または自動演奏される伴奏音の音量レベルとマイクから入力される歌唱者の音量レベルとを比較し、その一致の程度に基づいて得点を割り出すのみの機能であり、実際の歌唱の巧拙とかけ離れた得点がでてしまうことがあり、全く信頼できるものではなかった。
【０００４】
この発明は、歌唱者の歌唱音声信号から抽出された音高データや音量データなどに基づいて歌唱を採点するようにし、これをリアルタイムに表示することにより、歌唱者が自分の歌唱の状態を的確に知ることのできるカラオケ装置を提供することを目的とする。
【０００５】
【課題を解決するための手段】
この発明は、入力手段と、曲データ記憶手段と、読出手段と、演奏手段と、データ抽出手段と、比較手段と、表示手段とを備えるカラオケ装置であって、入力手段は、カラオケ歌唱の音声信号を入力し、曲データ記憶手段は、曲データと、それに同期した比較用データを記憶し、比較用データは、少なくとも基準音高データと基準音量データを含み、読出手段は、指定された曲データと、その比較用データを同期して読み出し、演奏手段は、読み出された曲データに基づいて楽音を発生し、データ抽出手段は、音声信号から音高データと音量データを抽出し、比較手段は、検出した音量データと音高データ、及び、読み出した比較用データに基づいて、検出処理と、比較処理とを行い、検出処理は、音量データが閾値以上であるか否かに基づき、発音中であるか否かを検出するとともに、読み出された比較用データに基づき発音区間であるか否かを検出し、比較処理は、音量データが発音中且つ比較用データが発音区間である場合のみ、音量データと基準音量データ、および、音高データと基準音高データの比較を行い、比較結果を表示手段に表示させることを特徴とする。
【０００６】
この発明では、カラオケ歌唱の音声信号にから音高，音量，リズムなどの音楽要素を抽出し、これを比較用データと比較することによって歌唱を採点する。そして、採点結果をリアルタイムに表示することにより、歌唱者が歌いながらこれを見て現在の自分の歌唱の状態を的確に知ることができる。
【０００７】
【発明の実施の形態】
図１はこの発明の実施形態であるカラオケ装置の概略構成図である。このカラオケ装置は、カラオケ歌唱の音声信号をディジタル化して取り込み、歌唱旋律であるガイドメロディと比較することによってその歌唱の正確さを判定する。この判定を音高，音量，リズムの３要素毎に行うことによって、カラオケ歌唱者の歌唱の特徴を割り出して的確なアドバイスを与えることができるようにしている。また、通常の歌唱部分，サビ，クライマックスなど曲の特定の区間毎に上記判定を行うことにより、その曲に合った歌唱をしているか否かを判断することもできるようにしている。
【０００８】
歌唱者がカラオケ歌唱の音声を入力するマイク１はアンプ９に接続されるとともにＡ／Ｄコンバータ２に接続されている。また、カラオケ演奏用データ、比較用データであるガイドメロディデータ、および、区間分割データを含む楽曲データは、約１万曲分がハードディスク装置５に記憶されている。区間分割データは当該カラオケ曲の前奏部，通常歌唱部，サビ部，クライッマックス部，後奏部など各区間の開始部分を指示するマークデータである。上記１万曲分の楽曲データのうち、カラオケ歌唱者に選択された１曲分が実行メモリ６に読み出される。実行メモリ６に読み出された楽曲データは、シーケンサ７により順次読み出される。シーケンサ７によって読み出された演奏用データは楽音発生部８に入力される。また、シーケンサ７によって読み出されたガイドメロディデータ，効果付与データおよび区間分割データは比較部４に入力される。なお、この効果付与データは上記演奏用データに含まれるビブラートデータやエスクプレッションデータなどでよい。比較部４はこの効果付与データを歌唱技巧データとして用いる。歌唱技巧データとは、このカラオケ曲を上手く歌唱するための音量の抑揚（エクスプレッション）やビブラートなどの特徴を示すデータである。楽音発生部８は入力されたカラオケ演奏用データに基づいて該カラオケ曲の演奏音を発生し、アンプ９に入力する。アンプ９はカラオケ演奏音およびマイク１から入力された歌唱音声信号を増幅してスピーカ１０に出力する。これがカラオケ装置の基本機能である。
【０００９】
一方、Ａ／Ｄコンバータ２に入力された歌唱音声信号はディジタル信号に変換されたのち、データ抽出部３に入力される。データ抽出部３は５０ｍｓ毎にこのディジタル化された歌唱音声信号から音高および音量を割り出し、音高データ，音量データとして比較部４に入力する。比較部４では、データ抽出部３から入力されるカラオケ歌唱者の歌唱音声信号の音高データ，音量データとシーケンサ７から入力されるガイドメロディの音高データ，音量データとをリアルタイムに比較する。前記歌唱音声信号の音高データ，音量データがこの発明の抽出されたデータに対応し、前記ガイドメロディの音高データ，音量データがこの発明の比較用データに対応する。なお、５０ｍｓは１２０のメトロノームテンポで３２分音符に相当し、歌唱の特徴を抽出するために十分の分解能である。
【００１０】
図２は前記比較部４の構成を示す図である。データ抽出部３から入力される歌唱音声信号の音高データおよび音量データ（以下、歌唱音声という）およびシーケンサ７から入力されるガイドメロディの音高データ，音量データ（以下、リファレンスという）は差分算出部２１に入力される。また、ビブラート，エクスプレッションなどの効果付与データ（以下、歌唱技巧データという）は採点部２３に入力される。差分算出部２１は、歌唱音声が入力されるタイミングに合わせて５０ｍｓ毎に歌唱音声とリファレンスとの差を算出する。これはリアルタイムの差分データ（音高差分データ，音量差分データ）として出力される。また、差分算出部２１は、歌唱音声の音量の立ち上がりタイミングとリファレンスの音量の立ち上がりタイミングのずれを検出し、これをリズム差分データとして出力する。
【００１１】
検出された音高差分データ，音量差分データ，リズム差分データは、採点部２３に入力される。採点部２３は、これら差分データをカラオケ曲の区間（通常歌唱区間，サビ区間，クライマックス区間など）毎に集計記憶するとともに、これらの差分データをシーケンサ７から入力される歌唱技巧データと比較する。歌唱技巧データはカラオケ演奏をするとき、機械的に正確な楽音発生装置（音源装置）８の動作に微妙な変化を与えて単調さをなくすとともに音楽的な表現を付与するためのデータであるため、機械的に正確なガイドメロディと歌唱音声とのずれを示すデータである差分データがこの歌唱技巧データに近似していれば、この曲に合った歌唱をしているとして、この類似度を加算ポイントとして定量化する。この加算ポイントは、音高，音量，リズムの各音楽要素毎に求められ、上記区間毎に集計記憶される。そして曲が終了したとき、各区間毎に、差分データの集計値に基づいて減点分を算出し、さらに、上記加算ポイントの集計値に基づいて加点分を算出し、これらに基づいて総合得点を求める。これら各区間，各要素毎の得点および総合得点は評価部２４に入力される。評価部２４では、各音楽要素の得点に基づいて、良くできた点・注意すべき点などをアドバイスする文言を生成し、得点とともに表示部２５に出力する。表示部２５ではこの内容を図３に示すような形態で表示する。
【００１２】
ここで、図４および図５を参照して、歌唱音声，リファレンス，差分データについて説明する。図４（Ａ），（Ｂ）はリファレンスであるガイドメロディの例を示す図である。同図（Ａ）はガイドメロディを五線譜表示したものであり、同図（Ｂ）はこの五線譜の内容を約８０パーセントのゲートタイムで音高データ，音量データ化したものであり、音量はｍｐ→クレッシェンド→ｍｐの指示に従って上下している。このように、一般的なガイドメロディのデータは機械的に非常に正確なものである。これに対して、同図（Ｃ）はカラオケ歌唱者の歌唱音声の例を示している。音高，音量ともリファレンスが示す値から上下に変動しており、各音の音量データの立ち上がりタイミングもリファレンスの音量データの立ち上がりタイミングからずれている。
【００１３】
図５は、図４（Ｂ）のリファレンスと同図（Ｃ）歌唱音声との差をとることによって求めた差分データを示す図である。音高差分データ，音量差分データはリファレンスが指示する値を基準として歌唱音声が基準からどれだけ上下にずれているかで示される。また、リズム差分データは、音符（スラーで連続しているものを除く）毎にリファレンスと歌唱音声との立ち上がりタイミングのずれとして求められる。なお、この図では音高差分データ，音量差分データをともに連続値として示しているが、複数段階の階層に量子化するようにしてもよい。
【００１４】
また、リファレンスでは発声すべき時間（ノートオンステータス）であるのに歌唱音声が入力されない（発声されていない）場合やリファレンスでは発声しない時間（ノートオフステータス）であるのに歌唱音声が入力されている場合があるが、この時間は、比較する一方のデータが欠けている時間帯であるのでデータとしては採用せず、両方のデータが揃っている時間帯のみを有効データ区間として採用するようにしている。
【００１５】
図６は、採点部２３に入力される歌唱技巧データである効果付与データの例を示す図である。ここでは、ビブラートデータおよびエクスプレッションデータの例を示す。この例では、付点４分音符や２分音符などの長いめの音符の後半にビブラートが掛かっている。また、付点４分音符の後半にエクスプレッションが掛かり、２分音符は音をゆっくり立ち上げているため前半部にマイナスのエクスプレッションが掛かっている。このような抑揚を付けることで、カラオケ演奏は表情付けされ、ガイドメロディのような単調さが解消されている。
【００１６】
このような歌唱技巧データに基づいて歌唱音声を採点する場合、音量データに関しては、このエクスプレッションデータと同じ態様の変化音量ずれをしているときにポイントを与え、音高データに関しては、ビブラートのような周波数の周期的な変動波形を追従してポイントを与えてもよく、単に、ビブラートの区間では周波数ずれがあったときポイントを与えるようにしてもよい。
【００１７】
図７はカラオケ曲の区間と各区間における音高（Ｐ），音量（Ｌ），リズム（Ｔ）の３要素の重み付けの例を示す図である。同図（Ａ）はカラオケ曲の区間分けを示す図である。この曲は第１コーラス，第２コーラスからなっており、これら第１コーラス，第２コーラスを挟むように前奏，間奏，後奏がある。そして、第１コーラス，第２コーラスは、それぞれの後半部分にサビ区間およびクライマックス区間を有している。同図（Ｂ）は重み付けテーブルの例を示す図である。この重み付けテーブルには、第１コーラスの歌唱全般，サビ区間，クライマックス区間および第２コーラスの歌唱全般，サビ区間，クライマックス区間毎に音高（Ｐ），音量（Ｌ），リズム（Ｔ）の重み付け係数が記憶されており、さらに、この重み付け係数群がＪポップ１，Ｊポップ２，Ｊダンス，演歌１，演歌２など複数のジャンル別に記憶されている。この重み付けの特徴は、「ポップスならノリを重点評価するため、リズムの重み付けを大きくする。特にサビ区間ではリズムが重要であるため、この区間のリズムの重み付けを大きくする。」また、「演歌であれば、音程の安定度を重要視するため音高Ｐの重み付けを全般的に大きくする。」などである。
【００１８】
図８は同カラオケ装置のハード構成を示すブロック図である。このカラオケ装置は、上記図１，図２に示した機能部を主としてＣＰＵおよびソフトウェアで実現している。装置全体の動作を制御するＣＰＵ３０には、バスを介してＲＯＭ３１，ＲＡＭ３２，ハードディスク記憶装置（ＨＤＤ）３７，通信制御部３６，リモコン受信部３３，表示パネル３４，パネルスイッチ３５，音源装置３８，音声データ処理部３９，効果用ＤＳＰ４０，文字表示部４３，ＬＤチェンジャ４４，表示制御部４５および音声処理用ＤＳＰ５０が接続されている。
【００１９】
ＲＯＭ３１この装置を起動するために必要な起動プログラムなどが記憶されている。この装置の動作を制御するシステムプログラム，アプリケーションプログラムなどはＨＤＤ３７に記憶されており、装置の電源がオンされると上記起動プログラムによってＲＡＭ３２に読み込まれる。ＲＡＭ３２には、このプログラム記憶エリアのほか図９（Ａ）に示すように種々の記憶エリアが設定されている。図９（Ａ）において、ＲＡＭ３２にはプログラムを記憶するプログラム記憶エリア３２５，カラオケ演奏する楽曲データを記憶する実行データ記憶エリア３２４，読み出されたガイドメロディを一時記憶するＭＩＤＩバッファ３２０，このガイドメロディから抽出されたリファレンスデータを記憶するリファレンスデータレジスタ３２１，リファレンスと歌唱音声との差分データを記憶する差分データ記憶エリア３２２，この差分データを歌唱技巧データと比較することによって求められたポイントを記憶するポイント記憶エリア３２３が設けられている。リファレンスデータレジスタ３２１は音高データレジスタ３２１ａおよび音量データレジスタ３２１ｂからなっている。また、差分データ記憶エリア３２２は、音高差分データ記憶エリア３２２ａ，音量差分データ記憶エリア３２２ｂおよびリズム差分データ記憶エリア３２２ｃからなっており、ポイント記憶エリア３２３は、音高ポイント記憶エリア３２３ａ，音量ポイント記憶エリア３２３ｂおよびリズムポイント記憶エリア３２３ｃからなっている。さらに、これら記憶エリア３２２ａ〜３２２ｃ，３２３ａ〜３２３ｃはサビ区間，クライマックス区間およびその他の区間の３区間に対応して３分割されている。
【００２０】
また、ＨＤＤ３７には図９（Ｂ）に示すように、上記プログラム記憶エリア３７３のほか約１万曲分の楽曲データを記憶する楽曲データファイル３７０，歌唱から抽出された音高データ，音量データや差分データを記憶する歌唱データ記憶エリア３７１および歌唱の巧拙を評価したのち表示するアドバイスメッセージを複数記憶したアドバイスメッセージ記憶エリア３７２が設けられている。通信制御部３６は、ＩＳＤＮ回線を介してホストステーションから楽曲データなどをダウンロードし、内蔵しているＤＭＡ回路を用いてこの楽曲データをＣＰＵ３０を介さずに直接ＨＤＤ３７に書き込む。
【００２１】
リモコン受信部３３はリモコン５１から送られてくる赤外線信号を受信してデータを復元する。リモコン５１は選曲スイッチなどのコマンドスイッチやテンキースイッチなどを備えており、利用者がこれらのスイッチを操作するとその操作に応じたコードで変調された赤外線信号を送信する。表示パネル３４はこのカラオケ装置の前面に設けられており、現在演奏中の曲コードや予約曲数などを表示するものである。パネルスイッチ３５はカラオケ装置の前面操作部に設けられており、曲コード入力スイッチやキーチェンジスイッチなどを含んでいる。また、上記リモコン５１を用いて採点機能をオン／オフできるようにしてもよい。
【００２２】
音源装置３８は、楽曲データの楽音トラックのデータに基づいて楽音信号を形成する。楽曲データはカラオケ演奏時にＣＰＵ３０によって読み出され、この楽音トラックとともに比較用データであるガイドメロディトラックも並行して読み出される。楽音トラックは図１１に示すように複数トラックで構成されており、音源装置３８はこのデータに基づいて複数パートの楽音信号を同時に形成する。音声データ処理部３９は、楽曲データに含まれる音声データに基づき、指定された長さ，指定された音高の音声信号を形成する。音声データは、バックコーラスや模範歌唱音などの音源装置３８で電子的に発生しにくい信号波形をそのままＡＤＰＣＭデータ化して記憶したものである。音源装置３８が形成した楽音信号および音声データ処理部３９が形成した音声信号がカラオケ演奏音であり、これらは効果用ＤＳＰ４０に入力される。効果用ＤＳＰ４０は、このカラオケ演奏音に対してリバーブやエコーなどの効果を付与する。効果を付与されたカラオケ演奏音はＤ／Ａコンバータ４１によってアナログ信号に変換されたのち外付け装置であるアンプスピーカ４２に出力される。アンプスピーカ４２は入力されたカラオケ演奏音および後述の歌唱音声信号を増幅し、且つ、歌唱音声信号にエコーなどの効果を付与したのちスピーカから放音する。
【００２３】
一方、歌唱用のマイク４７から入力された歌唱音声信号はプリアンプ２８で増幅されたのち、前記アンプスピーカ４２およびＡ／Ｄコンバータ４９に入力される。アンプスピーカ４２に出力された信号はカラオケ歌唱音として増幅出力される。Ａ／Ｄコンバータ４９は、入力された歌唱音声信号をディジタル化し、これを音声処理用ＤＳＰ５０に入力する。音声処理用ＤＳＰ５０は、入力された歌唱音声信号を５０ｍｓずつのフレームに区切り、各フレーム毎に周波数をカウントするとともに平均音量を算出する。この各フレーム毎の周波数カウント値および平均音量値はＣＰＵ３０によって５０ｍｓ毎に読み取られる。ＣＰＵ３０はこの周波数カウント値および平均音量値に基づいて上述の音高データおよび音量データを割り出す。
【００２４】
文字表示部４３は入力される文字データに基づいて、曲名や歌詞などの文字パターンを生成する。また、外付け装置であるＬＤチェンジャ４４は入力された映像選択データ（チャプタナンバ）に基づき、対応するＬＤの背景映像を再生する。映像選択データは当該カラオケ曲のジャンルデータなどに基づいて決定される。ジャンルデータは楽曲データのヘッダに書き込まれており、カラオケ演奏スタート時にＣＰＵ３０によって読み出される。ＣＰＵ３０はジャンルデータに基づいてどの背景映像を再生するかを決定し、その背景映像を指定する映像選択データをＬＤチェンジャ４４に対して出力する。ＬＤチェンジャ４４には、５枚（１２０シーン）程度のレーザディスクが内蔵されており約１２０シーンの背景映像を再生することができる。映像選択データによってこのなかから１つの背景映像が選択され、映像データとして出力される。文字パターン，映像データは表示制御部４５に入力される。表示制御部４５ではこれらのデータをスーパーインポーズで合成してモニタ４６に表示する。
【００２５】
次に、図１０〜図１２を参照して同カラオケ装置においてカラオケ演奏に用いられる楽曲データの構成について説明する。図１０は楽曲データの構成を示す図である。また、図１１，図１２は楽曲データの詳細な構成を示す図である。
【００２６】
図９において、楽曲データは、ヘッダ，楽音トラック，ガイドメロディトラック，制御データトラック，歌詞トラック，音声トラック，効果トラックおよび音声データ部からなっている。ヘッダは、この楽曲データに関する種々のデータが書き込まれる部分であり、曲名，ジャンル，発売日，曲の演奏時間（長さ）などのデータが書き込まれている。
【００２７】
楽音トラック〜効果トラックの各トラックは図１１，図１２に示すように複数のイベントデータと各イベントデータ間の時間間隔を示すデュレーションデータΔｔからなるシーケンスデータで構成されている。ＣＰＵ３０は、カラオケ演奏時にシーケンスプログラムに基づき全トラックのデータを並行して読み出す。シーケンスプログラムは、所定のテンポクロックでΔｔをカウントし、Δｔをカウントアップしたときこれに続くイベントデータを読み出し、所定の処理部へ出力するプログラムである。
【００２８】
楽音トラックには、メロディトラック，リズムトラックを初めとして種々のパートのトラックが形成されている。ガイドメロディトラックには、このカラオケ曲の旋律すなわち歌唱者が歌うべき旋律のシーケンスデータが書き込まれている。ＣＰＵ３０はこのデータに基づいてリファレンスの音高データ，音量データを生成し、歌唱音声と比較する。
【００２９】
歌詞トラックは、モニタ４６上に歌詞を表示するためのシーケンスデータを記憶したトラックである。このシーケンスデータは楽音データではないが、インプリメンテーションの統一をとり、作業工程を容易にするためこのトラックもＭＩＤＩデータ形式で記述されている。データ種類は、システム・エクスクルーシブ・メッセージである。歌詞トラックのデータ記述において、通常は１行の歌詞を１つの歌詞表示データとして扱っている。歌詞表示データは１行の歌詞の文字データ（文字コードおよびその文字の表示座標）、この歌詞の表示時間（通常は３０秒前後）、および、ワイプシーケンスデータからなっている。ワイプシーケンスデータとは、曲の進行に合わせて歌詞の表示色を変更してゆくためのシーケンスデータであり、表示色を変更するタイミング（この歌詞が表示されてからの時間）と変更位置（座標）が１行分の長さにわたって順次記録されているデータである。
【００３０】
制御データトラックは、このカラオケ曲の歌唱区間やサビ区間，クライマックス区間などの区間の開始点を示す区間分割データを記憶しており、これ以外にも拍マークデータや小説線マークデータなどを記憶している。
【００３１】
音声トラックは、音声データ部に記憶されている音声データｎ（ｎ＝１，２，３，‥‥）の発生タイミングなどを指定するシーケンストラックである。音声データ部には、音源装置３８で合成しにくいバックコーラスやハーモニー歌唱などの人声が記憶されている。音声トラックには、音声指定データと、音声指定データの読み出し間隔、すなわち、音声データを音声データ処理部３９に出力して音声信号形成するタイミングを指定するデュレーションデータΔｔが書き込まれている。音声指定データは、音声データ番号，音程データおよび音量データからなっている。音声データ番号は、音声データ部に記録されている各音声データの識別番号ｎである。音程データ，音量データは、形成すべき音声データの音程や音量を指示するデータである。すなわち、言葉を伴わない「アー」や「ワワワワッ」などのバックコーラスは、音程や音量を変化させれば何度も利用できるため、基本的な音程，音量で１つ記憶しておき、このデータに基づいて音程や音量をシフトして繰り返し使用する。音声データ処理部３９は音量データに基づいて出力レベルを設定し、音程データに基づいて音声データの読出間隔を変えることによって音声信号の音程を設定する。
【００３２】
効果トラックには、効果用ＤＳＰ４０を制御するためのＤＳＰコントロールデータが書き込まれている。効果用ＤＳＰ４０は音源装置３８，音声データ処理部３９から入力される信号に対してリバーブなどの残響系の効果を付与する。ＤＳＰコントロールデータは、このような効果の種類を指定するデータおよびその変化量データなどからなっている。
【００３３】
上記歌唱技巧データは、効果用ＤＳＰ４０を制御するＤＳＰコントロールデータを用いてもよく、音源装置３８の楽音信号形成動作を制御するデータを用いてもよい。音源装置３８を制御するデータはイベントデータとして楽音トラックに書き込まれているものであり、たとえば、アフタータッチデータやピッチモジュレーションのためのパラメータなどがあり、これらをエクスプレッションデータやビブラートデータとして用いることができる。また、ノートオンイベントデータの発生タイミング（デュレーションデータの値）をリズムの歌唱技巧データとして用いることもできる。
【００３４】
図１３〜図１６は同カラオケ装置の動作を示すフローチャートである。これらの動作はカラオケ演奏を実行するシーケンスプログラムと並行して実行され、シーケンスプログラムとのデータの交換も行われる。◇
図１３はデータの取込動作を示すフローチャートである。同図（Ａ）はＡ／Ｄコンバータ４９および音声処理用ＤＳＰ５０の動作を示している。マイク４７から歌唱音声信号が入力されると（ｓ１）、Ａ／Ｄコンバータ４９はこの音声信号をディジタルデータに変換する（ｓ２）。このディジタルデータは音声処理用ＤＳＰ５０に入力される。音声処理用ＤＳＰ５０は、５０ｍｓのフレーム単位でこのディジタルデータの周波数のカウント（ｓ３）および平均音量の算出（ｓ４）を行う。この周波数カウント値および平均音量値は５０ｍｓ毎にＣＰＵ３０によって読み取られる（図１４のデータ変換処理参照）。
【００３５】
同図（Ｂ）は楽曲データ入力処理を示すフローチャートである。この動作はカラオケ演奏を実行するシーケンスプログラムからガイドメロディトラックのイベントデータおよび制御トラックのイベントデータが受け渡されたとき実行される。まず、シーケンスプログラムから渡されたＭＩＤＩデータをＭＩＤＩバッファ３２０に取り込み（ｓ５）、このデータが区間分割データであるか否かを判断する（ｓ６）。区間分割データであれば、この内容を区間レジスタに記憶して（ｓ７）、リターンする。取り込んだデータがリファレンスのデータであれば、このデータを音量データおよび音高データに変換する（ｓ８）。これは、ＭＩＤＩフォーマットのノートオンデータのノートナンバやピッチベンドデータを音高データに変換し、ノートオンデータのベロシティデータやアフタタッチ（キープレッシャ）データを音量データに変換する処理である。このようにして変換された音高データ，音量データでＲＡＭ３２のリファレンスデータレジスタ３２１を更新する（ｓ９）。したがって、リファレンスデータレジスタ３２１は新たなガイドメロディデータが入力される毎に更新される。
【００３６】
なお、リファレンスデータがＭＩＤＩデータではなく音高データ，音量データとして記憶されている場合には、この変換処理を行わずそのままリファレンスデータレジスタ３２１に記憶すればよい。また、音高データ，音量データの記述フォーマットをＭＩＤＩフォーマットにすることもできる。この場合、これらをシステムエクスクルーシブメッセージで記述してもよく、汎用のチャンネルメッセージ（たとえば、ノートオンデータ，ピッチベンドデータ，チャンネルキープレッシャデータなど）で代用してもよい。
【００３７】
図１４はデータ変換処理動作を示すフローチャートである。この動作は、音声処理用ＤＳＰ５０から歌唱音声信号の周波数カウント値および平均音量値を取り込んで歌唱音声の音高データ，周波数データに変換する処理であり、歌唱音声信号の１フレーム時間である５０ｍｓ毎に実行される。まず、音声処理用ＤＳＰ５０から平均音量値を読み取り（ｓ１１）、その値が閾値以上であるかを判断する（ｓ１２）。閾値以上であればこの平均音量値に基づいて音量データを生成する（ｓ１３）。次に音声処理用ＤＳＰ５０から周波数カウント値を読み取り（ｓ１４）、この周波数カウント値に基づいて音高データを生成する（ｓ１５）。こののち比較動作に進む。一方、ｓ１２で平均音量値が閾値未満であると判断された場合には、歌唱者が歌唱（発声）していないとして音量０データを生成して（ｓ１６）、音高データを生成せずに比較動作に進む。
【００３８】
図１５は比較動作を示すフローチャートである。この動作は図１４のデータ変換動作で生成された歌唱音声の音高データ，音量データと、図１３（Ｂ）のリファレンス入力動作で求められたリファレンスの音高データ，音量データとを比較して差分データを求める動作であり、上記データ変換処理動作に同期して５０ｍｓ毎に実行される。まず、リファレンスの音量データおよび歌唱音声の音量データの両方が閾値以上（発音中）であるかを判断する（ｓ２０）。両方が発音中でなければ比較しても無意味であるためｓ３５以下の動作に進む。両方が発音中の場合には、発音フラグがセットしているか否かを判断する（ｓ２１）。発音フラグは両方が立ち上がったとき（発音中になったとき）ｓ２２でセットされるフラグである。したがって、立ち上がり時にはまだリセットされたままであるためｓ２１からｓ２２に進む。ｓ２２では発音フラグをセットする。まず、リファレンスおよび歌唱音声の立ち上がりタイミングの差を算出し（ｓ２３）、これをリズム差分データとしてリズム差分データ記憶エリア３２２ｃ中の現在の区間に対応する記憶エリアに記憶する（ｓ２４）。現在の区間はｓ７でセットされる区間レジスタによって判断することができる。次に、このリズム差分データを歌唱技巧データと比較し（ｓ２５）、この一致度を加算ポイントとしてリズムポイント記憶エリア３２３ｃ中の現在の区間に対応する記憶エリアに蓄積記憶する（ｓ２６）。ここで、このタイミングのズレを表す歌唱技巧データとしては、楽音トラックのノートオンイベントデータを用いればよい。すなわち、ノートオンイベントデータの正確なビートタイミングのズレがこの曲を上手く演奏するための技巧を表していると考えられるからである。以上の処理ののちｓ２７に進む。また、既に発音中で発音フラグがセットされている場合もｓ２１の判断で直接ｓ２７に進む。
【００３９】
ｓ２７以下では次のような処理を実行する。まず、歌唱音声およびリファレンスの音量データを比較してその差を算出し（ｓ２６）、この差を音量差分データとして音量差分データ記憶エリア３２２ｂ中の現在の区間に対応する記憶エリアに記憶する（ｓ２８）。そして、この音量差分データを歌唱技巧データ（たとえばエクスプレッションデータ）と比較し、その一致度すなわち歌唱がこの技巧を有しているか否かを判断する（ｓ２９）。この一致度を加算ポイントとしてＲＡＭ３２の音量ポイント記憶エリア３２３ｂ中の現在の区間に対応する記憶エリアに蓄積記憶する（ｓ３０）。
【００４０】
次に、歌唱音声およびリファレンスの音高データを比較してその差を算出し（ｓ３１）、この差を音高差分データとして音高差分データ記憶エリア３２２ａ中の現在の区間に対応する記憶エリアに記憶する（ｓ３２）。そして、この音高差分データを歌唱技巧データ（たとえばビブラートデータやピッチベンドデータ）と比較してその一致度を判断する（ｓ３３）。この一致度を音高ポイントとしてＲＡＭ３２の音高ポイント記憶エリア３２３ｃに蓄積記憶する（ｓ３４）。
【００４１】
一方、両方が発音中と判断されなかった場合にはｓ２０からｓ３５に進み、リファレンス，歌唱音声の両方が消音しているか否かを判断する。ｓ３５で両方が消音していると判断された場合には消音期間であるとして発音フラグをリセットして（ｓ３６）リターンする。両方が消音中でない場合には、歌唱タイミングのずれであるとしてそのままリターンする。以上の動作により、３つの区間別に３要素毎の差分データおよびポイントを求めることができる。
【００４２】
図１６は採点動作を示すフローチャートである。この動作はカラオケ曲が終了したのち実行される。同図（Ａ）において、まず全般，サビ区間，クライマックス区間の３区間についてリズム，音量，音高に関する得点を算出する（ｓ４０〜ｓ４４）。すなわち９種類の得点を算出する。ここで、全般とはサビ区間，クライマックス区間，その他区間を含む歌唱区間全般の区間を指す。
【００４３】
集計動作を同図（Ｂ）に示す。この集計動作は、上述のように全般，サビ区間，クライマックス区間の３区間におけるリズム，音量，音高について９回実行される。まず、蓄積記憶された差分データに基づいて減点分を算出する（ｓ５１）。つぎに、蓄積記憶されたポイントに基づいて加算分を算出する（ｓ５２）。そしてこれらを合算することによって当該区間の当該要素の得点を算出する（ｓ５３）。
【００４４】
以上のような各区間・各要素の得点を図７（Ｂ）に示す重み付け係数によって重み付け平均して総合得点を算出する（ｓ４５）。そして、この総合得点と各区間・音楽要素の得点に基づいて適当なアドバイスメッセージを決定し（ｓ４６）、ＨＤＤ３７のアドバイスメッセージ記憶エリア３７２からこれを読み出して、総合得点とともに文字表示部４３に出力する（ｓ４７）。文字表示部４３はこれを文字パターンに展開して曲が終了したあとのモニタ４６に表示する。
【００４５】
この実施形態において、リズム差分データは、歌唱音声のリファレンスに対するタイミングのずれを示すデータであるが、突っ込んだ（先にずれた）のか遅れた（後にずれた）のかを正負の記号で記録するようにしてもよく、単にずれた時間の絶対値を記録するようにしてもよい。
【００４６】
ここで、上記実施形態では、楽曲データの楽音トラックや効果トラックに含まれるカラオケ演奏用のデータを歌唱技巧データとして用いているが、歌唱技巧をルールとして抽出したものを適用して歌唱を採点するようにしてもよい。すなわち、特定のカラオケ曲の歌い方または該カラオケ曲を歌っているオリジナル歌手の歌唱の特徴をルールとして抽出しておく。たとえば、
「４分音符を超える長い音符は後半ビブラートを深く掛けてゆく。」
「フレーズの最後の伸ばし（後に休符がくる４分音符を超える音符）は、小さい音量からスタートして徐々に音量を上げてゆく。」
「５度を超える音程のジャンプはポルタメントをかける。」
などのルールを抽出し、このルールを楽曲データ中にまたは楽曲データと別に記憶しておき、歌唱音声と比較データとの差分データがこのルールに一致しているか否かでポイントを付与するようにすればよい。上記ルールを楽曲データと別に記憶する場合には、各ルールに対応する曲のジャンルやオリジナル歌手などのヘッダを設けておき、演奏される曲に応じてルールを適用するようにすればよい。また、この場合、複数のルールをグループ化して○○対応ルール（例えば、演歌対応ルール）として記憶してもよく。ルールを１つずつ個別に記憶しておき、曲に応じてそれらを組み合わせて適用するようにしてもよい。
【００４７】
また、上記実施形態では、比較用データとしててガイドメロディデータを用い、このガイドメロディデータ（リファレンス）と歌唱音声との差として求められた差分データに対して歌唱技巧データを適用してポイントを算出しているが、比較用データとして技巧を含んだデータを用いることもできる。すなわち、オリジナル歌手の歌唱などの音高・音量の変化に技巧を含んだものから音高データ，音量データなどを抽出して比較用データとして記憶しておき、カラオケ歌唱が行われたとき、カラオケ歌唱から抽出された音高データ，音量データ（歌唱音声）をこのオリジナル歌手の歌唱から抽出されたリファレンスと比較する。このようにすることにより、この比較結果が端的にカラオケ歌唱が技巧を満たしたものであるかを示すポイントとなる。◇
ただし、ガイドメロディデータと差分データを求め、この差分データを歌唱技巧データと比較するようにすれば、正確さと歌唱技巧とを両方判断することができる。
【００４８】
上記のような採点・評価動作を実行する場合、曲終了から採点・評価を終了するまである程度の時間が掛かるが、この間は『現在採点中』の表示とともに何らかの映像・音声を上映するようにしてもよい。
【００４９】
また、図１５の動作により、音量差分データと音高差分データがリアルタイムに求められているため、これをモニタ４６上にリアルタイムに表示するようにしてもよい。表示方式としては図１７に示すようなメータアイコン方式や数値表示方式などがある。メータアイコン方式で表示する場合には、ＣＰＵ３０のパフォーマンスを考慮し、針の表示分解能を３〜５段階程度にし、表示切換間隔を１秒程度にする。
【００５０】
なお、上記採点機能はカラオケ演奏時に常時機能するようにしてもよく、利用者（カラオケ歌唱者）の選択によって機能するようにしてもよい。
【００５１】
【発明の効果】
以上のようにこの発明によれば、カラオケ歌唱を音高，音量などの音楽要素別に採点し、これをリアルタイムに表示するようにしたことにより、歌唱者が歌唱しながら自分の歌唱の特徴（長所・短所）を正確に判断することができ、的確なアドバイスが可能になる。
【図面の簡単な説明】
【図１】この発明の実施形態であるカラオケ装置の概略構成図
【図２】同カラオケ装置の比較部の構成を示す図
【図３】同カラオケ装置の表示部の表示例を示す図
【図４】同カラオケ装置のガイドメロディに基づくリファレンス音高データ，音量データと歌唱音声の音高データ，音量データの例を示す図
【図５】上記リファレンスおよび歌唱音声によって求められた差分データの例を示す図
【図６】歌手の歌唱から抽出された音高データおよび音量データの例を示す図
【図７】カラオケ曲の区間分割と重み付けを説明する図
【図８】同カラオケ装置のハード構成を示すブロック図
【図９】同カラオケ装置のメモリおよびＨＤＤの構成図
【図１０】同カラオケ装置で用いられる楽曲データの構成を示す図
【図１１】同楽曲データのトラック構成図
【図１２】同楽曲データのトラック構成図
【図１３】同カラオケ装置のデータ取込動作を示すフローチャート
【図１４】同カラオケ装置のデータ取込動作を示すフローチャート
【図１５】同カラオケ装置の比較動作を示すフローチャート
【図１６】同カラオケ装置の採点動作を示すフローチャート
【図１７】同カラオケ装置のモニタ表示例を示す図
【符号の説明】
１…（カラオケ歌唱用の）マイク、２…Ａ／Ｄコンバータ、
３…データ抽出部、４…比較部、５…ハードディスク、６…実行メモリ、
７…シーケンサ、８…楽音発生部、９…アンプ、１０…スピーカ、
２１…差分算出部、２２…記憶部、２３…採点部、２４…評価部、
２５…表示部、
３０…ＣＰＵ、３２…ＲＡＭ、３７…ハードディスクドライブ、
３８…音源装置、３９…音声データ処理部、４７…マイク、
５０…音声処理用ＤＳＰ

Claims

入力手段と、曲データ記憶手段と、読出手段と、演奏手段と、データ抽出手段と、比較手段と、表示手段とを備えるカラオケ装置であって、
入力手段は、カラオケ歌唱の音声信号を入力し、
曲データ記憶手段は、曲データと、それに同期した比較用データを記憶し、
比較用データは、少なくとも基準音高データと基準音量データを含み、
読出手段は、指定された曲データと、その比較用データを同期して読み出し、
演奏手段は、読み出された曲データに基づいて楽音を発生し、
データ抽出手段は、音声信号から音高データと音量データを抽出し、
比較手段は、検出した音量データと音高データ、及び、読み出した比較用データに基づいて、検出処理と、比較処理とを行い、
検出処理は、音量データが閾値以上であるか否かに基づき、発音中であるか否かを検出するとともに、読み出された比較用データに基づき発音区間であるか否かを検出し、
比較処理は、音量データが発音中且つ比較用データが発音区間である場合のみ、音量データと基準音量データ、および、音高データと基準音高データの比較を行い、比較結果を表示手段に表示させるカラオケ装置。