JP3562223B2 - Karaoke equipment - Google Patents

Karaoke equipment Download PDF

Info

Publication number
JP3562223B2
JP3562223B2 JP15255997A JP15255997A JP3562223B2 JP 3562223 B2 JP3562223 B2 JP 3562223B2 JP 15255997 A JP15255997 A JP 15255997A JP 15255997 A JP15255997 A JP 15255997A JP 3562223 B2 JP3562223 B2 JP 3562223B2
Authority
JP
Japan
Prior art keywords
singing
data
scoring
output
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP15255997A
Other languages
Japanese (ja)
Other versions
JPH113087A (en
Inventor
兼久 鶴見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP15255997A priority Critical patent/JP3562223B2/en
Publication of JPH113087A publication Critical patent/JPH113087A/en
Application granted granted Critical
Publication of JP3562223B2 publication Critical patent/JP3562223B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、利用者の歌唱力を採点する機能を有するカラオケ装置に関する。
【0002】
【従来の技術】
従来より、歌い手の歌唱力を採点する機能を備えたカラオケ装置が各種開発されている。一般に、この種のカラオケ装置においては、歌い手の歌唱音声とカラオケの楽曲情報に含められたボーカルパートのリファレンスとの間で音量や音程(ピッチ)等を比較し、その一致の程度に応じて歌唱力を採点するようになっている。
【0003】
【発明が解決しようとする課題】
ところで、従来のカラオケ装置において、デュエット曲のように複数のボーカルパートからなる曲が歌唱される場合、その歌唱力の採点は、複数のマイクロホン(以下、マイクという)から入力される歌唱音声を混合した信号を、ボーカルパートのリファレンス(通常、メインボーカルの基準値)と比較して行われる。したがって、各パートの歌唱音声について正当な評価をすることができず、正確な採点結果を得ることができなかった。
【0004】
このような場合に歌唱力の採点を、各歌唱音声を各パートのガイドメロディと比較し、両者の採点結果の合計で行うことも考えられるが、二人の協調の程度を加味した総合的な採点を行う場合には、以下の問題がある。
まず、一方の歌い手が正しく歌唱して、他方の歌い手が歌唱しなかった場合、単純に両者の採点結果を加算して総合的な採点としたのでは、歌唱しなっかた他方の歌い手の影響を受けて、正しく歌唱した歌い手者の歌唱力が採点結果に正当反映されない。
また、デュエット曲には、男性と女性が同時に歌唱する混成歌唱区間の他、男性のみが歌唱する男性歌唱区間や女性のみが歌唱する女性歌唱区間があるが、一方の歌い手のみが歌唱する区間において、両者の採点結果の合計を取ると、本来歌唱すべきでない他方の歌唱音声も採点対象となり、正確な採点結果を得ることができない。
【0005】
さらに、上記したデュエット曲に対応するカラオケ装置においては、各パートを同時に採点する必要があるため、採点機を2系統用意することが前提となる。一方、カラオケ装置で歌唱される曲は、デュエット曲ばかりでなく、むしろ単独のボーカルパートからなる通常の曲の方が多い。この場合に、一方の採点機を用いれば歌唱力の採点を行うことができるが、他方の採点機を利用して採点の精度を高めることができれば便利である。
【0006】
この発明は、このような背景の下になされたもので、デュエット曲のように複数のボーカルパートが歌唱される場合に、各パートの歌唱音声について正当な評価をし正確な採点結果を得ることができるカラオケ装置を提供することを目的とする。また、他の目的は歌唱力の採点精度を向上させることにある。
【0007】
【課題を解決するための手段】
上述した課題を解決するために、請求項1記載の発明は、選択手段と、第1比較手段と、第2比較手段と、供給手段と、演算手段と、評価手段を備え、曲データを演奏するカラオケ装置であって、曲データは、第1基準値、第2基準値を含むと共に、混成歌唱区間、第1単独歌唱区間、第2単独歌唱区間が識別可能にされ、選択手段は、演奏が混声歌唱区間にある場合は、第1マイクロホンから入力される歌唱音声信号を第1出力端子から出力し、第2マイクロホンから入力される歌唱音声信号を第2出力端子から出力し、演奏が第1単独歌唱区間にある場合は、第1マイクロホンから入力される歌唱音声信号を第1および第2出力端子から出力し、演奏が第2単独歌唱区間にある場合は、第2マイクロホンから入力される歌唱音声信号を第1および第2出力端子から出力し、第1比較手段は、第1出力端子から出力される歌唱音声信号の特徴量を供給される第1または第2基準値と比較し、第2比較手段は、第2出力端子から出力される歌唱音声信号の特徴量を供給される第1または第2基準値と比較し、供給手段は、演奏が混声歌唱区間にある場合は、第1基準値を第1比較手段に、第2基準値を第2比較手段に供給し、演奏が第1単独歌唱区間にある場合は、第1基準値を第1比較手段および第2比較手段に供給し、演奏が第2単独歌唱区間にある場合は、第2基準値を第1比較手段および第2比較手段に供給し、演算手段は、第1比較手段と第2比較手段の比較結果の平均値を算出出力し、評価手段は、演算手段の出力に基づいて歌唱力を評価することを特徴とする。
【0010】
また、請求項に記載の発明は、請求項1に記載のカラオケ装置において、第1、第2比較手段のそれぞれは、歌唱音声信号が入力されない場合を非歌唱期間として検出し、演算手段は、非歌唱期間が検出された場合、平均値に代えて非歌唱期間でない第1若しくは第2比較手段の比較結果をそのまま出力することを特徴とする。
【0011】
【発明の実施の形態】
以下、図面を参照して、この発明の実施形態について説明する。
A:実施形態の全体構成
図1は、この発明の一実施形態によるカラオケ装置の全体構成を示すブロック図である。同図において、30は装置各部を制御するCPUである。このCPU30には、バスBUSを介してROM31、RAM32、ハードディスク装置(HDD)37、通信制御部36、リモコン受信部33、表示パネル34、パネルスイッチ35、音源装置38、音声データ処理部39、効果用DSP40、文字表示部43、LDチェンジャ44、表示制御部45および音声処理用DSP49が接続されている。
【0012】
ROM31には、当該カラオケ装置を起動するために必要なイニシャルプログラムが記憶されている。装置の電源がオンされると、このイニシャルプログラムによってHDD37に記憶されたシステムプログラムおよびアプリケーションプログラムがRAM32にロードされる。HDD37には、上記システムプログラムおよびアプリケーションプログラムのほか、カラオケ演奏時に再生される約1万曲分の楽曲データを記憶する楽曲データファイル370が記憶されている。
【0013】
ここで、図2〜図4を参照し、楽曲データの内容について説明する。図2は、1曲分の楽曲データのフォーマットを示す図である。また、図3、図4は楽曲データの各トラックの内容を示す図である。
図2において、楽曲データは、ヘッダ、楽音トラック、ガイドメロディトラック、歌詞トラック、音声トラック、効果トラックおよび音声データ部からなっている。ヘッダには、その楽曲データに関する種々の情報が書き込まれており、例えば曲番号、曲名、ジャンル、発売日、曲の演奏時間(長さ)等のデータが書き込まれている。
【0014】
楽音トラックないし効果トラックの各トラックは、図3および図4に示すように、複数のイベントデータと各イベント間の時間間隔を示すデュレーションデータΔtからなるシーケンスデータで構成されている。CPU30は、カラオケ演奏時にシーケンスプログラム(カラオケ演奏のためのアプリケーションプログラム)によって各トラックのデータを並行して読み出すようになっている。各トラックのシーケンスデータを読み出す場合、所定のテンポクロックによりΔtをカウントし、カウントを終了したしたときこれに続くイベントデータを読み出し、所定の処理部へ出力する。楽音トラックには、図3に示すように、メロディトラック、リズムトラックをはじめとして種々のパートのトラックが形成されている。
【0015】
また、図4に示すように、ガイドメロディトラックには、このカラオケ曲のボーカルパートのメロディすなわち歌唱者が歌うべきメロディのシーケンスデータが書き込まれている。CPU30は、このデータに基づきリファレンスの音高データ、音量データを生成し、歌唱音声と比較する。デュエット曲のように複数のボーカルパート(例えば、メインメロディとコーラスメロディ)がある場合には、各パートに対応してガイドメロディトラックが存在する。
【0016】
また、歌詞トラックは、モニタ46上に歌詞を表示するためのシーケンスデータからなっている。このシーケンスデータは、楽音データではないが、インプリメンテーションの統一を図り作業工程を容易にするため、このトラックもMIDIデータ形式で記述される。データの種類は、システムエクスクルーシブメッセージである。歌詞トラックは、通常はモニタに表示される1行分の歌詞に相当する文字コード、そのモニタ画面上の表示座標、表示時間、およびワイプシーケンスデータからなっている。ワイプシーケンスデータとは、曲の進行に合わせて歌詞の表示色を変更していくためのシーケンスデータであり、表示色を変更するタイミング(この歌詞が表示されてからの時間)と変更位置(座標)が1行分の長さにわたって順次記録されているデータである。
【0017】
音声トラックは、音声データ部に記憶されている音声データn(n=1,2,3,……)の発生タイミング等を指定するシーケンストラックである。音声データ部には、音源装置38では合成し難いバックコーラス等の人声が記憶されている。音声トラックには、音声指定データと、音声指定データの読み出し間隔、すなわち、音声データを音声データ処理部39に出力して音声信号を形成するタイミングを指定するデュレーションデータΔtが書き込まれている。音声指定データは、音声データ番号、音程データおよび音量データからなっている。音声データ番号は、音声データ部に記録されている各音声データの識別番号nである。音程データ、音量データは、形成すべき音声データの音程や音量を指定するデータである。すなわち、言葉を伴わない「アー」や「ワワワワッ」等のバックコーラスは、音程や音量を変化させれば何度も利用できるため、基本的な音程、音量で1つ記憶しておき、このデータに基づいて音程や音量をシフトして繰り返し使用する。音声データ処理部39は、音量データに基づいて出力レベルを設定し、音程データに基づいて音声データの読み出し間隔を変えることによって音声信号の音程を設定する。
【0018】
効果トラックには、効果用DSP40を制御するためのDSPコントロールデータが書き込まれている。効果用DSP40は、音源装置38、音声データ処理部39から入力される信号に対してリバーブなどの残響系の効果を付与する。DSPコントロールデータは、このような効果の種類を指定するデータおよびディレータイム、エコーレベル等の効果付与の程度を指定するデータからなっている。
【0019】
このような楽曲データは、カラオケの演奏開始時にHDD37から読み出され、RAM32にロードされる。
【0020】
次に、図5を参照し、RAM32のメモリマップの内容を説明する。同図に示すように、RAM32には、ロードしたシステムプログラムやアプリケーションプログラムを記憶するプログラム記憶エリア324のほか、カラオケ演奏のための楽曲データを記憶する実行データ記憶エリア323、ガイドメロディを一時記憶するMIDIバッファ320、このガイドメロディから抽出されたリファレンスデータを記憶するリファレンスデータレジスタ321、およびリファレンスと歌唱音声を比較することによって求められた差分データを蓄積記憶する差分データ記憶エリア322が設定されている。リファレンスデータレジスタ321は、音高データレジスタ321aおよび音量データレジスタ321bからなっている。また、差分データ記憶エリア322は、音高差分データ記憶エリア322a、音量差分データ記憶エリア322bからなっている。
【0021】
さて、再び図1を参照し、当該カラオケ装置の構成の説明を進める。同図において、通信制御部36は、ISDN回線を介して図示しないホストコンピュータから楽曲データ等をダウンロードし、内部のDMAコントローラによって受信した楽曲データをCPU30を介さずに直接HDD37へ転送する。
リモコン受信部33は、リモコン51から送られてくる赤外線信号を受信して入力データを復元する。リモコン51は、選曲スイッチなどのコマンドスイッチやテンキースイッチ等を備えており、利用者がこれらのスイッチを操作するとその操作に応じたコードで変調された赤外線信号を送信する。
表示パネル34は、このカラオケ装置の前面に設けられており、現在演奏中の曲コードや予約曲数などを表示するものである。パネルスイッチ35は、カラオケ装置の前面に設けられており、曲コード入力スイッチやキーチェンジスイッチ等を含んでいる。また、リモコン51またはパネルスイッチ35によって採点機能のオン/オフが指定できるようになっている。
【0022】
音源装置38は、楽曲データの楽音トラックのデータに基づいて楽音信号を形成する。楽曲データは、カラオケ演奏時にCPU30によって読み出され、楽音トラックとともに比較用データであるガイドメロディトラックも並行して読み出される。音源装置38は、楽音トラックの各トラックのデータを並行して読み出し、複数パートの楽音信号を同時に形成する。
【0023】
音声データ処理部39は、楽曲データに含まれる音声データに基づき、指定された長さ、指定された音高の音声信号を形成する。音声データは、バックコーラス等の音源装置38で電子的に発生し難い信号波形をそのままADPCMデータ化して記憶したものである。音源装置38が形成した楽音信号および音声データ処理部39が形成した音声信号がカラオケ演奏音であり、これらは、効果用DSP40に入力される。効果用DSP40は、このカラオケ演奏音に対してリバーブやエコー等の効果を付与する。効果を付与されたカラオケ演奏音は、D/Aコンバータ41によってアナログ信号に変換された後、アンプスピーカ42へ出力される。
【0024】
また、47a,47bは各々歌唱用のマイクであり、各マイク47a,47bから入力される歌唱音声信号V1,V2は、図示せぬプリアンプで増幅された後、アンプスピーカ42およびセレクタ48に各々入力される。
【0025】
セレクタ48は、CPU30の制御の下、各歌唱音声信号V1,V2を選択して音声処理用DSP49を出力する。この場合、セレクタ48の切換には、入力端子X1に供給される歌唱音声信号V1を出力端子Y1から、入力端子X2に供給される歌唱音声信号V2を出力端子Y2から各々出力するストレートモードと、入力端子X1,X2に供給される歌唱音声信号V1,V2を混合した後、出力端子Y1,Y2に出力するミックスモードがある。
ここで、モードの選択は楽曲データおよびリモコン51の操作の組み合わせによって決定される。例えば、楽曲によっては、ハモリパートのデータを有するものがあるが、ハモリ機能を用いるか否かは、利用者の判断に委ねられている。具体的には、利用者がハモリ機能を利用して歌唱したい場合には、リモコン51を操作してその旨を入力すると、ハモリパートとメインボーカルパートの演奏が行われ、一方、特に操作の行わない場合には、メインボーカルパートのみによる演奏が行われる。この場合に、ハモリ機能を利用する場合にはストレートモードとされ、それを利用しない場合にはミックスモードとされる。換言すれば、各種の効果を含め、利用者によって設定された楽曲データによってモードの選択が行われる。
【0026】
音声処理用DSP49に入力された各歌唱音声信号V1,V2は、各々ディジタル信号に変換された後、採点処理のための信号処理が施される。この音声処理用DSP49とCPU30を含む構成によって採点処理部50の機能が実現される。これについては後述する。
アンプスピーカ42は、入力されたカラオケ演奏音および各歌唱音声信号を増幅し、かつ、各歌唱音声信号にエコー等の効果を付与した後、スピーカから放音する。
【0027】
文字表示部43は、文字コードが入力されるとこれに対応する曲名や歌詞等のフォントデータを内部のROM(図示略)から読み出し、該データを出力する。また、LDチェンジャ44は、入力された映像選択データ(チャプタナンバ)に基づき、対応するLDの背景映像を再生する。映像選択データは、当該カラオケ曲のジャンルデータに基づいて決定される。このジャンルデータは、楽曲データのヘッダに書かれており、カラオケ演奏スタート時にCPU30によって読み出される。CPU30は、ジャンルデータに基づいてどの背景映像を再生するかを決定し、その背景映像を指定する映像選択データをLDチェンジャ44に対して出力する。LDチェンジャ44には、5枚程度のレーザディスクが内蔵されており、約120シーンの背景映像を再生することが可能である。映像選択データによってこの中から1つの背景映像が選択され、映像データとして出力される。この映像データと文字表示部43から出力される歌詞等のフォントデータは、表示制御部45にてスーパーインポーズされ、その合成画像がモニタ46に表示される。また、採点処理部50によって採点結果が算出されると、これに応じたキャラクタが文字表示部43から出力され、モニタ46に表示されるようになっている。
【0028】
B:採点処理部50について
次に、本実施形態の採点処理部50について説明する。この採点処理部50は、上述した音声処理用DSP49、CPU30等のハードウェアと採点用のソフトウェアによって構成される。図6は、採点処理部50の構成を示すブロック図である。同図において、採点処理部50は、第1の採点部50A、第2の採点部50B、合成部50Cおよび評価部50Dからなる。
第1,第2の採点部50A,50Bは、一対のA/Dコンバータ501a,501b、データ抽出部502a,502b、比較部503a,503b、およびフィルタ504a,504bによって構成される。
【0029】
A/Dコンバータ501a,501bは、セレクタ48から出力される歌唱音声信号を各々ディジタル信号に変換する。データ抽出部502a,502bは、ディジタル化された各歌唱音声信号から100ms毎に音高データと音量データを抽出する。比較部503a,503bは、各歌唱音声信号から抽出された音高データおよび音量データとリファレンスメロディデータ#A,#Bの音高データおよび音量データとを各々比較し、それらの差分を算出して、差分データDiffa,Diffbとして出力する。
【0030】
ここで、差分データDiffa,Diffbは、以下のデータから構成される。
Ti:計測時刻データ(演奏クロックの相対時間で計測)
ΔT:持続時間データ(前回の計測時刻からの時間)
Mi:リファレンスメロディ状態データ
(歌唱が必要な区間か否か、歌唱区間で「1」、非歌唱区間で「0」)
Si:歌唱状態データ(歌唱の有無、歌唱中で「1」、非歌唱中で「0」)
Fi:音高差データ(音高の差分をログスケール(cent単位)で指示)
Li:音量差データ(音量の差分をログスケール(dB単位)で指示)
ただし、「i」は、i番目のサンプルであることを示している。
【0031】
この場合、音高差データFiと音量差データLiはログスケールで表されているので、後段にある合成部50Cの演算を簡略化することができる。
また、リファレンスメロディ状態データMiは、ガイドメロディトラックに記録されている各パートに対応した楽曲データに基づいて、CPU30が生成する。具体的には、当該楽曲データ中のノートオンステータス、ノートオフステータスから生成される。
また、歌唱状態データSiは、データ抽出部502a,502bから供給される各音量データを予め定められた閾値と比較することによって、各比較部503a,503bが生成する。この場合、閾値は、利用者が歌唱しているか否かを判別可能なレベルに設定される。
【0032】
ここで、図7を参照し、歌唱音声データ、リファレンスデータ、差分データDiffについて説明する。図7(A),(B)はリファレンスであるガイドメロディの例を示す図である。同図(A)はガイドメロディを五線譜によって示したもので、同図(B)はこの五線譜の内容を約80パーセントのゲートタイムで音高データ、音量データ化したものを示している。音量はmp→クレッシェンド→mpの指示に従って上下している。これに対し、同図(C)は歌唱音声の例を示している。音高、音量ともリファレンスが示す値から若干変動している。この場合の歌唱状態データSiは、図に示すように音量データが、閾値を上回った場合に「1」となり、それ以下の場合に「0」となる。後述する評価部50Dは、歌唱状態データSiが「0」となっているサンプルについては、有効なサンプルとして扱わないようにしている。このように音量の小さな部分を無視するのは、この区間では、音高差データFiあるいは音量差データLiに占めるノイズ成分の割合が大きくなるため、採点精度が劣化してしまうからである。
【0033】
ところで、音高差データFiと音量差データLiは、ある範囲内で変動するのが通常であり、これらの値が突発的に変動する場合は、ノイズによる誤動作等によって誤った演算が行われたと考えることができる。ノイズの影響を受けた音高差データFiと音量差データLiとに基づいて歌唱力の採点を行ったのでは、歌い手の歌唱力を正当に評価することはできない。フィルタ504a,504bは、このような場合の音高差データFiと音量差データLiとを無効にするために設けられたものである。
【0034】
フィルタ504a,504bは、その内部にバッファ、減算器およびコンパレータを有している。バッファには、1つ前のサンプルで算出された音高差データFi-1,音量差データLi-1が格納される。そして、現在のサンプルに対応した音高差データFi,音量差データLiが入力されると、減算器において、ΔLi=|Li−Li-1|、ΔFi=|Fi−Fi-1|が算出される。コンパレータは、ΔLi、ΔFiを予め定められた閾値Lr、Frと各々比較して、各閾値を上回る場合に「1」となり、下回る場合に「0」となる制御信号を出力する。ここで、各閾値は、各種の実測データから無効なサンプルと判定できるように定める。そして、フィルタ504a,504bは、制御信号が「1」の場合に、現在の音高差データFiと音量差データLiと無効とする。
これにより、前回のサンプルと比較して変化の大きいサンプルを無効にして、歌い手の歌唱力を正当に評価することが可能となる。
【0035】
次に、合成部50Cは、計測時刻データTiを参照することにより、同時刻の差分データDiffa,Diffbを合成し、合成差分データDiffcを生成する。合成差分データDiffcは、計測時刻データTi、持続時間データΔTの他、合成リファレンスメロディ状態データMi’、合成歌唱状態データSi’、合成音高差データFi’および合成音量差データLi’から構成される。
【0036】
ここで、差分データDiffaを構成する各データに添字「1」、差分データDiffbに係わる各データに添字「2」を付して表すこととすると、合成リファレンスメロディ状態データMi’はMi1とMi2の論理和として、合成歌唱状態データSi’はSi1とSi2の論理和として算出される。また、合成音高差データFi’と合成音量差データLi’は、Mi1とMi2、Si1とSi2に応じて以下に示す式に従って算出される。
【0037】
1)Mi1*Mi2*Si1*Si2=1の場合
この場合は、いずれの採点部で行われる採点にあっても、有効な歌唱区間であって、かつ歌い手が歌唱している期間である。このため、差分データの平均値を算出する。
Fi’=(Fi1+Fi2)/2
Li’=(Li1+Li2)/2
【0038】
2)Mi1*Si1=1、Mi2*Si2=0
この場合、第2の採点部50Bで行われる採点は、非歌唱区間かあるいは歌唱中でない。一方、第1の採点部50Aで行われる採点は、有効歌唱区間において歌い手が歌唱中である期間である。このため、差分データDiffbは無視される。Fi’=Fi1
Li’=Li1
【0039】
3)Mi1*Si1=0、Mi2*Si2=1
この場合、第1の採点部50Aで行われる採点は、非歌唱区間かあるいは歌唱中でない。一方、第2の採点部50Bで行われる採点は、有効歌唱区間において歌い手が歌唱中である期間である。このため、差分データDiffaは無視される。
Fi’=Fi2
Li’=Li2
【0040】
このよう合成50Cを構成することによって、例えば、デュエット曲の混成歌唱区間で、男子の歌い手が正しく歌唱して、女性の歌い手が歌唱しなかった場合、女性の歌い手が歌唱しなかった部分については採点の対象外とされ、正しく歌唱した男性の歌い手の歌唱力をもって両者の歌唱力とすることが可能となる。
また、デュエット曲の単独歌唱区間において、本来歌唱すべきでない歌唱音声は採点対象とならず、本来予定されている歌唱音声のみに基づいて、正確な採点結果を得ることができる。
【0041】
次に、評価部50Dは、記憶部等(図示せず)から構成されており、差分データDiffa,Diffbまたは合成差分データDiffcに基づいて 、採点結果を算出する。差分データDiffa,Diffbまたは合成差分データDiffcが入力されると、記憶部(すなわち、RAM32の差分データ記憶エリア322)に蓄積記憶される。この場合、Diffa,DiffbまたはDiffcのうちどのデータを記憶部に蓄積するかは、CPU30によって制御される。この蓄積は曲の演奏中随時行われる。
【0042】
曲の演奏が終了すると、評価部50Dは、記憶部に蓄積された差分データを順次読み出してこれらを音高、音量の各音楽要素毎に累算し、各累算値に基づいて各々採点のための減算値を求める。そして、各減算値を満点(100点)から減算して各音楽要素毎の得点を求め、これらの平均値を採点結果として出力する。
【0043】
C:実施形態の採点動作
次に、本実施形態による採点動作(すなわち、採点処理部50の動作)について説明する。なお、この例においては、特に断らない限り、歌い手は歌唱すべき区間で歌唱中であり、歌唱状態データSi=1であったものとする。
C−1:バトル曲を歌唱する場合の採点動作
まず、二人の歌い手が、バトル曲を歌唱する場合について説明する。この場合には、セレクタ48はストレートモードに設定され、第1の採点部50Aと第2の採点部50Bには、同一のリファレンスメロディデータ#Aが供給される。これにより、第1,第2の採点部50A,50Bに各歌唱音声信号V1,V2が入力されると、第1の採点部50Aと第2の採点部50Bは、差分データDiffa,Diffbを生成する。この場合の採点は各歌い手毎に行う必要があるので、評価部50Dは、差分データDiffaに基づく採点結果と差分データDiffbに基づく採点結果を各々生成する。
【0044】
C−2:通常の曲を歌唱する場合の採点動作
次に、一人の歌い手が通常の曲を歌唱する場合について説明する。この場合には、いずれか一方の採点部によって、差分データを生成してもよいが、本実施形態では、ノイズの低減を図るために、第1,第2の採点部50A,50Bで同時に処理を行い、その平均値に基づいて採点を行うようにしている。
このため、セレクタ48はミックスモードに設定され、第1の採点部50Aと第2の採点部50Bには、同一のリファレンスメロディデータ#Aが供給される。そして、合成部50Cは差分データDiffaと差分データDiffbの平均値を算出し、合成差分データDiffcとして出力する。
【0045】
一般に、ノイズ成分はランダムノイズであるから、平均をとることによってその成分は3dB減少する。これに対して、信号成分は平均をとっても変化しない。したがって、合成差分データDiffc中の合成音高差データFi’および合成音量差データLi’のSN比は、差分データDiffa,差分データDiffbのそれと比較して、3dB改善される。
これにより、A/Dコンバータ501a,501bにおいて、量子化する際に発生する誤差や、音高を検出する際の誤差等によって生じるノイズ成分を低減して、歌唱力を精度の良く採点することが可能となる。
【0046】
C−3:デュエット曲を歌唱する場合の採点動作
次に、男女の歌い手がデュエット曲を歌唱する場合について説明する。デュエット曲中には、一般に、男性のみが歌唱する男性歌唱区間、女性のみが歌唱する女性歌唱区間、男性と女性が同時に歌唱する混成歌唱区間、および両者がともに歌唱しない前奏・間奏区間がある。混成区間にあっては、両者が同時に歌唱するため、歌唱力の採点は、第1,第2の採点部50A,50Bの各々で行う必要がある。これに対して、男性歌唱区間あるいは女性歌唱区間では、いずれか一方で差分データを生成すれば、採点を行うことができるが、本実施形態にあっては、採点精度を向上させる目的で、この場合にも両方の採点部を用いて差分データを生成し、これを合成部50Cで平均して合成差分データを得ている。
【0047】
この点について、図8を参照しつつ具体的に説明する。なお、この例では、男性がマイク47aで歌唱し、女性がマイク47bで歌唱するものとする。図8(A)は、デュエット曲の進行の一例を示したものである。この例のデュエット曲は、前奏区間T1→男性歌唱区間T2→女性歌唱区間T3→混成歌唱区間T4→間奏区間T5の順に進行する。また、図8(B)はセレクタ48のモードを示したものであり、図8(C)は第1の採点部50Aに供給されるリファレンスメロディデータを、図8(D)は第2の採点部50Bに供給されるリファレンスメロディデータを示したものである。なお、#Mは男性パート、#Wは女性パートに各々対応したリファレンスメロディデータを示している。
【0048】
まず、前奏区間T1と間奏区間T5は、本来の歌唱区間でないから、図8(B),(C)に示すようにガイドメロディは存在しておらず、採点の対象外とされる。このため、セレクタ48の切換モードは、スレートモード、ミックスモードのどちらであってもよい。
【0049】
次に、男性歌唱区間T2にあっては、セレクタ48はミックスモードに設定される。この場合、CPUは、セレクタ48の入力端子X1と出力端子Y1,Y2を接続状態にし、セレクタ48の入力端子X2を開放状態にするように制御する。このため、マイク47aから出力される男性の歌唱音声信号V1は、第1の採点部50Aと第2の採点部50Bに供給される。この区間にあっては、第1,第2の採点部50A,50Bに、リファレンスメロディデータ#Mが供給されているので、男性の歌唱音声信号V1と男性パートのリファレンスメロディデータ#Mが二つの採点部50A,50Bによって比較され、その平均値が合成部50Cにおいて生成される。評価部50Dは合成部50Cからの合成差分データDiffcに基づいて当該区間の採点を行う。この場合の合成差分データDiffcは、差分データDiffat,Diffbと比較してSN比が改善されたものとなる。
【0050】
次に、女性歌唱区間T3にあっては、男性歌唱区間T2と同様にセレクタ48はミックスモードに設定される。ただし、セレクタ48の内部の接続状態は男性歌唱区間T2と相違する。この場合、CPUは、セレクタ48の入力端子X2と出力端子Y1,Y2を接続状態にし、セレクタ48の入力端子X1を開放状態にするように制御する。このため、男性の歌唱音声信号V1は、セレクタ48から出力されない。二人の歌い手のうち一方のみが歌唱すべき区間において、両方の歌唱音声信号を混合して出力端子Y1,Y2に出力せず、他方のマイクからの入力を開放としたのは、例えば、女性歌唱区間T3において、男性が手拍子を行うと、それがノイズとして混入され、女性の歌唱力を正当に評価することができないからである。
【0051】
こうして、女性の歌唱音声信号V2が第1,第2の採点部50A,50Bに供給されると、第1,第2の採点部50A,50Bは、リファレンスメロディデータ#Wに基づいて比較を行なう。この比較結果が合成部50Cによって平均化され、合成差分データDiffcとして出力されると、評価部50Dは合成差分データDiffcに基づいて当該区間の採点を行う。この場合も、男性歌唱区間Tと同様に、合成差分データDiffcは、差分データDiffat,Diffbと比較してSN比が改善されたものとなる。
【0052】
次に、混成歌唱区間にあっては、セレクタ48はストレートモードに設定される。この場合、CPU30は、セレクタ48の入力端子X1と出力端子Y1を接続状態にし、その入力端子X2を出力端子Y1を接続状態にするように制御する。このため、男性の歌唱音声信号V1が第1の採点部50Aに、女性の歌唱音声信号V2が第2の採点部50Bに供給される。この区間にあっては、第1,第2の採点部50A,50Bに、リファレンスメロディデータ#M,#Wが各々供給されているので、第1,第2の採点部50A,50Bからは、異なる差分データDiffa,Diffbが出力される。合成部50Cは、両者の平均値を算出して合成差分データDiffcを生成する。
【0053】
ここで、当該区間の一部(T4’)において、女性が歌唱しなっかたとすると、第2の採点部50Bに係る歌唱状態データSi2は、図8(E)に示すものとなる。このため、当該期間T4’にあっては、合成部50Cは、平均値を算出するのではなく、第1の採点部50Aによって生成された音高差データFi1、音量差データLi1を合成差分データDiffcとして出力するから、男性の歌唱力によって総合的な採点を行うことができる。
【0054】
このように、本実施形態によれば、楽曲データとリモコン51の操作の組み合わせに基づいて、CPU30は、セレクタ48の切換と第1,第2の採点部50A,50Bに供給するリファレンスガイドメロディデータを制御するので、第1,第2の採点部50A,50Bを有効に活用して、精度の良くかつ妥当な採点結果を算出することが可能となる。
すなわち、一人の歌い手が歌唱する場合には、SN比を改善した合成差分データDiffcに基づいて採点結果を得ることができ、デュエット曲においては、歌唱区間の性質に応じて、合成部50Cの動作を切り替えることによって精度の良くかつ妥当な採点結果を算出することができる。
【0055】
D:変形例
なお、本発明は、上述した実施形態には限定されず、以下のような各種の変形が可能である。
(1)例えば、実施形態では、デュエット曲をカラオケ演奏する場合を例としたが、これに限らず、3つ以上のボーカルパートからなるコーラスの歌唱に対応すべく拡張することも可能である。この場合、採点処理部50をパートの数に対応した系統に拡張し、ガイドメロディもパートの数に対応したトラック数だけ用意すればよい。
(2)また、実施形態のように、採点結果として各音楽要素の平均値を求めるのではなく、音高、音量あるいはリズムの得点を各音楽要素毎の採点結果として出力してもよい。
(3)また、採点処理は、曲が終了した後にまとめて採点を行っているが、フレーズ単位、音符単位で基本評価を行い、曲終了後にそれを集計するようにしてもよい。さらに、フレーズ単位毎に採点結果をモニタ46に表示し、曲終了後に最終的な採点結果を表示してもよい。
(4)また、実施形態では、デュエット曲においてボーカルのパート毎に得られる得点の平均値を出力したが、個別に出力するようにしてもよいし、あるいは、両方を出力するようにしてもよい。個別に出力する場合は、差分データDiffa,Diffb各々に基づいて採点結果を評価部50Dで算出すればよい。
(5)その他、複数の歌唱音声のうち採点結果の最も高い者の点数を強調表示するなど、種々の表示態様を採用することによって利用者の楽しみをさらに増すことができる。
【0056】
【発明の効果】
以上説明したように、この発明によれば、例えばデュエット曲のように複数のボーカルパートが歌唱される場合に、総合的な歌唱力を採点することができ、しかも、単独歌唱期間の採点について、その採点精度を向上させることができる。
【図面の簡単な説明】
【図1】この発明の一実施形態によるカラオケ装置の構成を示すブロックである。
【図2】同実施形態における楽曲データのデータフォーマットを示す図である。
【図3】同楽曲データの楽音トラックの構成を示す図である。
【図4】同楽曲データの楽音トラック以外のトラックの構成を示す図である。
【図5】同カラオケ装置におけるRAMのメモリマップの内容を示す図である。
【図6】同カラオケ装置における採点処理部の構成を示すブロック図である。
【図7】(A)は同実施形態におけるガイドメロディの例を五線譜で示す図、(B)は同ガイドメロディに基づくリファレンスの音高データおよび音量データを示す図、(C)は歌唱音声の音高データ、音量データおよび歌唱状態データを示す図である。
【図8】同カラオケ装置においてデュエット曲を歌唱する場合のタイミングチャートである。
【符号の説明】
30…CPU(制御手段、採点手段)、31…ROM、32…RAM、37…ハードディスク装置、38…音源装置、47a,47b…マイク(第1,第2のマイクロホン)、49…音声処理用DSP、50…採点処理部、501a,501b…A/Dコンバータ、502a,502b…データ抽出部(第1,第2の抽出手段)、503a,503b…比較部(第1,第2の比較手段)。
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a karaoke apparatus having a function of scoring a singing ability of a user.
[0002]
[Prior art]
Conventionally, various karaoke apparatuses having a function of scoring the singing ability of a singer have been developed. Generally, in this type of karaoke apparatus, the volume and pitch (pitch) of the singer's singing voice are compared with the vocal part reference included in the karaoke music information, and the singing is performed according to the degree of agreement. It is designed to score power.
[0003]
[Problems to be solved by the invention]
Meanwhile, in a conventional karaoke apparatus, when a song composed of a plurality of vocal parts such as a duet song is sung, the singing ability is scored by mixing singing voices input from a plurality of microphones (hereinafter, referred to as microphones). The obtained signal is compared with a vocal part reference (usually, a reference value of the main vocal). Therefore, the singing voice of each part could not be properly evaluated, and an accurate scoring result could not be obtained.
[0004]
In such a case, it is conceivable that the singing ability is scored by comparing each singing voice with the guide melody of each part and summing up the grading results of both parts. There are the following problems when scoring.
First, if one singer sings correctly and the other singer does not sing, simply adding the results of the two scores to give a comprehensive score would result in the inability of the other singer to sing. As a result, the singing ability of a singer who sings correctly is not properly reflected in the scoring results.
In addition, duet songs have a male singing section in which men and women sing at the same time, a male singing section in which only men sing, and a female singing section in which only women sing, but in sections where only one singer sings. If the total of the score results of the two is taken, the other singing voice that should not be sung is also targeted for scoring, and an accurate scoring result cannot be obtained.
[0005]
Further, in the karaoke apparatus corresponding to the above-mentioned duet music, it is necessary to score each part at the same time, so it is premised that two systems of the scorers are prepared. On the other hand, the songs sung by the karaoke apparatus are usually not only duet songs but also ordinary songs composed of a single vocal part. In this case, the singing ability can be graded by using one scoring machine, but it is convenient if the scoring accuracy can be improved by using the other scoring machine.
[0006]
The present invention has been made under such a background, and when a plurality of vocal parts are sung like a duet song, it is necessary to properly evaluate the singing voice of each part and obtain an accurate scoring result. It is an object of the present invention to provide a karaoke apparatus that can perform music. Another object is to improve the singing ability scoring accuracy.
[0007]
[Means for Solving the Problems]
In order to solve the above-mentioned problem, the invention according to claim 1 is: A karaoke apparatus for playing music data, comprising a selection means, a first comparison means, a second comparison means, a supply means, a calculation means, and an evaluation means, wherein the music data has a first reference value, In addition to the two reference values, the mixed singing section, the first single singing section, and the second single singing section are identifiable. When the performance is in the mixed singing section, the singing input from the first microphone is performed. A voice signal is output from the first output terminal, a singing voice signal input from the second microphone is output from the second output terminal, and when the performance is in the first single singing section, the singing input from the first microphone is performed. A voice signal is output from the first and second output terminals, and when the performance is in the second single singing section, a singing voice signal input from the second microphone is output from the first and second output terminals, and the first singing voice signal is output from the first and second output terminals. The comparing means includes: The feature of the singing voice signal output from the input terminal is compared with the supplied first or second reference value, and the second comparing means is supplied with the feature of the singing voice signal output from the second output terminal. The supply means supplies the first reference value to the first comparison means and the second reference value to the second comparison means when the performance is in a mixed singing section, When the performance is in the first single singing section, the first reference value is supplied to the first comparing means and the second comparing means. When the performance is in the second single singing section, the second reference value is compared with the first comparing value. To the second comparing means, the calculating means calculates and outputs an average value of the comparison results of the first comparing means and the second comparing means, and the evaluating means evaluates the singing ability based on the output of the calculating means. It is characterized by the following.
[0010]
Claims 2 The invention described in 2. The karaoke apparatus according to claim 1, wherein each of the first and second comparison means detects a case where a singing voice signal is not input as a non-singing period, and calculates an average when the non-singing period is detected. Instead of the value, the comparison result of the first or second comparison means that is not in the non-singing period is output as it is. It is characterized by the following.
[0011]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
A: Overall configuration of the embodiment
FIG. 1 is a block diagram showing the overall configuration of a karaoke apparatus according to one embodiment of the present invention. In FIG. 1, reference numeral 30 denotes a CPU that controls each unit of the apparatus. The CPU 30 includes, via a bus BUS, a ROM 31, a RAM 32, a hard disk drive (HDD) 37, a communication control unit 36, a remote control receiving unit 33, a display panel 34, a panel switch 35, a sound source device 38, an audio data processing unit 39, A DSP 40, a character display unit 43, an LD changer 44, a display control unit 45, and an audio processing DSP 49 are connected.
[0012]
The ROM 31 stores an initial program necessary for starting the karaoke apparatus. When the power of the apparatus is turned on, the system program and the application program stored in the HDD 37 are loaded into the RAM 32 by the initial program. The HDD 37 stores, in addition to the system program and the application program, a music data file 370 for storing music data of about 10,000 music played during karaoke performance.
[0013]
Here, the contents of the music data will be described with reference to FIGS. FIG. 2 is a diagram showing a format of music data for one music. FIGS. 3 and 4 are diagrams showing the contents of each track of the music data.
In FIG. 2, the music data includes a header, a musical sound track, a guide melody track, a lyrics track, an audio track, an effect track, and an audio data section. Various information regarding the music data is written in the header, and data such as a music number, a music title, a genre, a release date, and a music playing time (length) are written in the header.
[0014]
As shown in FIGS. 3 and 4, each track of the tone track or the effect track is composed of sequence data including a plurality of event data and duration data Δt indicating a time interval between each event. The CPU 30 reads the data of each track in parallel by a sequence program (application program for karaoke performance) at the time of karaoke performance. When reading the sequence data of each track, Δt is counted by a predetermined tempo clock, and when the counting is completed, the subsequent event data is read and output to a predetermined processing unit. As shown in FIG. 3, tracks of various parts including a melody track and a rhythm track are formed on the musical tone track.
[0015]
As shown in FIG. 4, the melody of the vocal part of the karaoke tune, that is, the melody sequence data to be sung by the singer is written in the guide melody track. The CPU 30 generates reference pitch data and volume data based on the data and compares the generated data with the singing voice. When there are a plurality of vocal parts (for example, a main melody and a chorus melody) as in a duet song, there is a guide melody track corresponding to each part.
[0016]
The lyrics track is composed of sequence data for displaying lyrics on the monitor 46. Although this sequence data is not tone data, this track is also described in the MIDI data format in order to unify the implementation and facilitate the work process. The type of data is a system exclusive message. The lyrics track usually includes a character code corresponding to one line of lyrics displayed on the monitor, its display coordinates on the monitor screen, display time, and wipe sequence data. The wipe sequence data is sequence data for changing the display color of the lyrics in accordance with the progress of the song. The timing of changing the display color (time from when the lyrics are displayed) and the change position (coordinates) ) Is data sequentially recorded over the length of one line.
[0017]
The audio track is a sequence track that specifies the generation timing of the audio data n (n = 1, 2, 3,...) Stored in the audio data section. The voice data section stores a human voice such as a back chorus which is difficult to synthesize by the sound source device 38. In the audio track, the audio designation data and the reading interval of the audio designation data, that is, the duration data Δt that designates the timing of outputting the audio data to the audio data processing unit 39 and forming the audio signal, are written. The voice designation data includes a voice data number, pitch data, and volume data. The audio data number is an identification number n of each audio data recorded in the audio data section. The pitch data and the volume data are data for specifying the pitch and volume of the audio data to be formed. That is, a back chorus such as "Ah" or "Wawa Wawa" without words can be used many times by changing the pitch and volume. The pitch and volume are shifted based on and used repeatedly. The audio data processing unit 39 sets the output level based on the volume data, and sets the pitch of the audio signal by changing the reading interval of the audio data based on the pitch data.
[0018]
In the effect track, DSP control data for controlling the effect DSP 40 is written. The effect DSP 40 applies reverberation or other reverberation-based effects to signals input from the sound source device 38 and the audio data processing unit 39. The DSP control data is composed of data for specifying the kind of the effect and data for specifying the degree of effect application such as the delay time and the echo level.
[0019]
Such music data is read from the HDD 37 at the start of the karaoke performance and loaded into the RAM 32.
[0020]
Next, the contents of the memory map of the RAM 32 will be described with reference to FIG. As shown in the figure, the RAM 32 temporarily stores a program storage area 324 for storing loaded system programs and application programs, an execution data storage area 323 for storing music data for karaoke performance, and a guide melody. A MIDI buffer 320, a reference data register 321 for storing reference data extracted from the guide melody, and a difference data storage area 322 for storing difference data obtained by comparing the reference with the singing voice are set. . The reference data register 321 includes a pitch data register 321a and a volume data register 321b. The difference data storage area 322 includes a pitch difference data storage area 322a and a volume difference data storage area 322b.
[0021]
Now, the configuration of the karaoke apparatus will be described again with reference to FIG. In the figure, a communication control unit 36 downloads music data and the like from a host computer (not shown) via an ISDN line, and transfers music data received by an internal DMA controller directly to the HDD 37 without passing through the CPU 30.
The remote control receiver 33 receives the infrared signal sent from the remote controller 51 and restores the input data. The remote controller 51 includes a command switch such as a music selection switch, a numeric key switch, and the like. When the user operates these switches, an infrared signal modulated with a code corresponding to the operation is transmitted.
The display panel 34 is provided on the front of the karaoke apparatus, and displays the currently playing music code and the number of reserved music. The panel switch 35 is provided on the front of the karaoke apparatus, and includes a music code input switch, a key change switch, and the like. Further, the on / off of the scoring function can be designated by the remote controller 51 or the panel switch 35.
[0022]
The sound source device 38 forms a tone signal based on the data of the tone track of the music data. The music data is read by the CPU 30 during a karaoke performance, and the guide melody track, which is comparison data, is read in parallel with the musical sound track. The tone generator 38 reads out the data of each of the musical tone tracks in parallel, and simultaneously generates musical tone signals of a plurality of parts.
[0023]
The audio data processing unit 39 forms an audio signal having a specified length and a specified pitch based on the audio data included in the music data. The audio data is a signal waveform that is hardly generated electronically by the sound source device 38 such as a back chorus and is directly converted into ADPCM data and stored. The tone signal formed by the sound source device 38 and the sound signal formed by the sound data processing section 39 are karaoke performance sounds, which are input to the effect DSP 40. The effect DSP 40 adds effects such as reverb and echo to the karaoke performance sound. The karaoke performance sound to which the effect has been added is converted into an analog signal by the D / A converter 41 and then output to the amplifier speaker 42.
[0024]
47a and 47b are singing microphones. Singing voice signals V1 and V2 input from the microphones 47a and 47b are amplified by a preamplifier (not shown) and then input to the amplifier speaker 42 and the selector 48, respectively. Is done.
[0025]
The selector 48 selects each of the singing voice signals V1 and V2 under the control of the CPU 30, and outputs a voice processing DSP 49. In this case, switching of the selector 48 includes a straight mode in which the singing voice signal V1 supplied to the input terminal X1 is output from the output terminal Y1 and the singing voice signal V2 supplied to the input terminal X2 is output from the output terminal Y2. There is a mix mode in which the singing voice signals V1 and V2 supplied to the input terminals X1 and X2 are mixed and then output to the output terminals Y1 and Y2.
Here, the selection of the mode is determined by a combination of the music data and the operation of the remote controller 51. For example, some songs have data of a hamori part, but whether or not to use the hamori function is left to the discretion of the user. Specifically, when the user wants to sing using the hamori function, the user operates the remote controller 51 and inputs that fact, and the hamori part and the main vocal part are performed. If there is no performance, only the main vocal part is performed. In this case, the straight mode is used when the hamori function is used, and the mixed mode is used when not used. In other words, the mode is selected based on the music data set by the user, including various effects.
[0026]
Each of the singing voice signals V1 and V2 input to the voice processing DSP 49 is converted into a digital signal, and then subjected to signal processing for scoring processing. The configuration of the voice processing DSP 49 and the CPU 30 realizes the function of the scoring processing unit 50. This will be described later.
The amplifier speaker 42 amplifies the input karaoke performance sound and each singing voice signal, gives an effect such as an echo to each singing voice signal, and emits the sound from the speaker.
[0027]
When a character code is input, the character display unit 43 reads font data such as a song title and lyrics corresponding to the character code from an internal ROM (not shown) and outputs the data. The LD changer 44 reproduces the background video of the corresponding LD based on the input video selection data (chapter number). The video selection data is determined based on the genre data of the karaoke song. This genre data is written in the header of the music data, and is read by the CPU 30 at the start of the karaoke performance. The CPU 30 determines which background video is to be reproduced based on the genre data, and outputs video selection data specifying the background video to the LD changer 44. The LD changer 44 contains about five laser disks, and can reproduce about 120 scenes of background video. One background video is selected from among them according to the video selection data, and is output as video data. The video data and font data such as lyrics output from the character display unit 43 are superimposed by the display control unit 45, and the composite image is displayed on the monitor 46. When the scoring result is calculated by the scoring processing unit 50, a character corresponding to the scoring result is output from the character display unit 43 and displayed on the monitor 46.
[0028]
B: About the scoring unit 50
Next, the scoring processing unit 50 of the present embodiment will be described. The scoring processing unit 50 is configured by hardware such as the above-described voice processing DSP 49 and CPU 30 and scoring software. FIG. 6 is a block diagram illustrating a configuration of the scoring processing unit 50. In the figure, the scoring processing unit 50 includes a first scoring unit 50A, a second scoring unit 50B, a combining unit 50C, and an evaluation unit 50D.
The first and second scoring units 50A and 50B are composed of a pair of A / D converters 501a and 501b, data extraction units 502a and 502b, comparison units 503a and 503b, and filters 504a and 504b.
[0029]
The A / D converters 501a and 501b each convert the singing voice signal output from the selector 48 into a digital signal. The data extraction units 502a and 502b extract pitch data and volume data from each digitized singing voice signal every 100 ms. The comparing units 503a and 503b compare the pitch data and the volume data extracted from each singing voice signal with the pitch data and the volume data of the reference melody data #A and #B, respectively, and calculate the difference therebetween. , And differential data Diffa and Diffb.
[0030]
Here, the difference data Diffa and Diffb are composed of the following data.
Ti: Measurement time data (measured by relative time of performance clock)
ΔT: Duration data (time since last measurement time)
Mi: Reference melody status data
(Whether the section requires singing, "1" for singing section, "0" for non-singing section)
Si: Singing state data (singing presence / absence, “1” during singing, “0” during non-singing)
Fi: Pitch difference data (pitch difference is indicated by log scale (cent unit))
Li: Volume difference data (indicating the volume difference on a log scale (dB unit))
Here, “i” indicates that it is the i-th sample.
[0031]
In this case, since the pitch difference data Fi and the volume difference data Li are expressed on a log scale, the calculation of the synthesis unit 50C at the subsequent stage can be simplified.
The reference melody state data Mi is generated by the CPU 30 based on music data corresponding to each part recorded on the guide melody track. Specifically, it is generated from the note-on status and the note-off status in the music data.
The singing state data Si is generated by each of the comparison units 503a and 503b by comparing each volume data supplied from the data extraction units 502a and 502b with a predetermined threshold. In this case, the threshold is set to a level at which it is possible to determine whether the user is singing.
[0032]
Here, the singing voice data, the reference data, and the difference data Diff will be described with reference to FIG. FIGS. 7A and 7B are diagrams showing examples of a guide melody as a reference. FIG. 7A shows the guide melody in a staff notation, and FIG. 7B shows the contents of the staff converted into pitch data and volume data with a gate time of about 80%. The volume rises and falls according to the instruction of mp → crescendo → mp. On the other hand, FIG. 3C shows an example of a singing voice. Both the pitch and volume slightly fluctuate from the values indicated by the reference. The singing state data Si in this case becomes “1” when the volume data exceeds the threshold as shown in the figure, and becomes “0” when the volume data is lower than the threshold. The evaluation unit 50D, which will be described later, does not treat a sample whose singing state data Si is “0” as a valid sample. The reason for ignoring the low-volume part is that, in this section, the proportion of the noise component in the pitch difference data Fi or the volume difference data Li is large, and the scoring accuracy is degraded.
[0033]
By the way, the pitch difference data Fi and the volume difference data Li usually fluctuate within a certain range, and when these values fluctuate suddenly, it is assumed that erroneous calculation was performed due to malfunction due to noise or the like. You can think. If the singing ability is scored based on the pitch difference data Fi and the volume difference data Li affected by the noise, the singing ability of the singer cannot be properly evaluated. The filters 504a and 504b are provided to invalidate the pitch difference data Fi and the volume difference data Li in such a case.
[0034]
Each of the filters 504a and 504b has a buffer, a subtractor, and a comparator therein. The buffer stores pitch difference data Fi-1 and volume difference data Li-1 calculated for the immediately preceding sample. Then, when the pitch difference data Fi and the volume difference data Li corresponding to the current sample are input, the subtractor calculates ΔLi = | Li−Li−1 | and ΔFi = | Fi−Fi−1 | You. The comparator compares ΔLi and ΔFi with predetermined thresholds Lr and Fr, respectively. Together A control signal that becomes “0” is output. Here, each threshold value is determined so that an invalid sample can be determined from various types of actually measured data. Then, when the control signal is "1", the filters 504a and 504b invalidate the current pitch difference data Fi and the volume difference data Li.
As a result, it is possible to invalidate a sample whose change is larger than that of the previous sample and to properly evaluate the singing ability of the singer.
[0035]
Next, the combining unit 50C combines the difference data Diffa and Diffb at the same time by referring to the measurement time data Ti to generate combined difference data Diffc. The synthetic difference data Difffc is composed of synthetic reference melody state data Mi ′, synthetic singing state data Si ′, synthetic pitch difference data Fi ′, and synthetic volume difference data Li ′, in addition to the measurement time data Ti and the duration data ΔT. You.
[0036]
Here, assuming that each data constituting the difference data Diffa is represented by a suffix “1” and each data relating to the difference data Diffb is represented by a suffix “2”, the combined reference melody state data Mi ′ is represented by Mi1 and Mi2. As a logical sum, the synthesized singing state data Si 'is calculated as a logical sum of Si1 and Si2. The synthesized pitch difference data Fi ′ and the synthesized volume difference data Li ′ are calculated according to the following equations according to Mi1 and Mi2 and Si1 and Si2.
[0037]
1) When Mi1 * Mi2 * Si1 * Si2 = 1
In this case, regardless of the scoring performed by any scoring unit, it is a valid singing section and a period during which the singer sings. Therefore, an average value of the difference data is calculated.
Fi ′ = (Fi1 + Fi2) / 2
Li ′ = (Li1 + Li2) / 2
[0038]
2) Mi1 * Si1 = 1, Mi2 * Si2 = 0
In this case, the scoring performed by the second scoring unit 50B is not in the non-singing section or during singing. On the other hand, the scoring performed by the first scoring unit 50A is a period during which the singer is singing in the effective singing section. Therefore, the difference data Diffb is ignored. Fi '= Fi1
Li '= Li1
[0039]
3) Mi1 * Si1 = 0, Mi2 * Si2 = 1
In this case, the scoring performed by the first scoring unit 50A is not in a non-singing section or during singing. On the other hand, the scoring performed by the second scoring unit 50B is a period during which the singer is singing in the effective singing section. Therefore, the difference data Diffa is ignored.
Fi '= Fi2
Li '= Li2
[0040]
Combined like this Department By configuring 50C, for example, in a mixed singing section of a duet song, if a male singer sings correctly and a female singer does not sing, a female singer will not sing. won The part is excluded from the scoring, and the singing ability of the male singer who sings correctly can be used as both singing ability.
In addition, in a single singing section of a duet song, singing voices that should not be sung originally are not to be scored, and accurate scoring results can be obtained based only on originally planned singing voices.
[0041]
Next, the evaluation unit 50D includes a storage unit and the like (not shown), and calculates a scoring result based on the difference data Diffa, Diffb or the combined difference data Diffc. When the difference data Diffa, Diffb or the combined difference data Diffc is input, the difference data Diffa, Diffb, or the combined difference data Diffc is stored in the storage unit (that is, the difference data storage area 322 of the RAM 32). In this case, the CPU 30 controls which data among Diffa, Diffb, and Diffc is stored in the storage unit. This accumulation is performed at any time during the performance of the music.
[0042]
When the performance of the music is completed, the evaluation unit 50D sequentially reads out the difference data stored in the storage unit, accumulates the difference data for each musical element of pitch and volume, and gives a score based on each accumulated value. Find the subtraction value for Then, each subtraction value is subtracted from the full score (100 points) to obtain a score for each music element, and the average value of these is output as a scoring result.
[0043]
C: Scoring operation of the embodiment
Next, the scoring operation (that is, the operation of the scoring processing unit 50) according to the present embodiment will be described. In this example, unless otherwise specified, it is assumed that the singer is singing in the section to be sung and the singing state data Si = 1.
C-1: Scoring operation when singing a battle song
First, a case where two singers sing a battle song will be described. In this case, the selector 48 is set to the straight mode, and the same reference melody data #A is supplied to the first scoring unit 50A and the second scoring unit 50B. As a result, when the singing voice signals V1 and V2 are input to the first and second scoring units 50A and 50B, the first scoring unit 50A and the second scoring unit 50B generate difference data Diffa and Diffb. I do. In this case, since it is necessary to perform the scoring for each singer, the evaluation unit 50D generates a scoring result based on the difference data Diffa and a scoring result based on the difference data Diffb.
[0044]
C-2: Scoring operation when singing a normal song
Next, a case where one singer sings a normal song will be described. In this case, the difference data may be generated by one of the scoring units, but in the present embodiment, the first and second scoring units 50A and 50B simultaneously process the difference data in order to reduce noise. And scoring is performed based on the average value.
Therefore, the selector 48 is set to the mix mode, and the same reference melody data #A is supplied to the first scoring unit 50A and the second scoring unit 50B. Then, the combining unit 50C calculates an average value of the difference data Diffa and the difference data Diffb, and outputs the result as combined difference data Diffc.
[0045]
In general, since the noise component is random noise, averaging reduces the component by 3 dB. On the other hand, the signal component does not change even if the average is taken. Therefore, the SN ratio of the synthetic pitch difference data Fi ′ and the synthetic volume difference data Li ′ in the synthetic difference data Diffc is improved by 3 dB as compared with those of the difference data Diffa and the difference data Diffb.
As a result, in the A / D converters 501a and 501b, it is possible to reduce a noise component generated due to an error generated at the time of quantization and an error at the time of detecting a pitch, and to score the singing ability with high accuracy. It becomes possible.
[0046]
C-3: Scoring operation when singing duet music
Next, a case where male and female singers sing a duet song will be described. In a duet song, there are generally a male singing section in which only men sing, a female singing section in which only women sing, a mixed singing section in which men and women sing simultaneously, and a prelude / interlude section in which both do not sing. In the hybrid section, since both sing at the same time, it is necessary to score the singing power in each of the first and second scoring units 50A and 50B. On the other hand, in the male singing section or the female singing section, scoring can be performed by generating difference data in one of the sections, but in the present embodiment, in order to improve the scoring accuracy, this is performed. Also in this case, difference data is generated using both the scoring units, and the difference data is averaged by the combining unit 50C to obtain combined difference data.
[0047]
This point will be specifically described with reference to FIG. In this example, it is assumed that a man sings with the microphone 47a and a woman sings with the microphone 47b. FIG. 8A shows an example of the progress of a duet song. The duet music in this example is a prelude section T1 → a male singer section T2 → a female singer section T3 → a mixed singer section T4 → an interlude section. T5 Proceed in the order of 8B shows the mode of the selector 48. FIG. 8C shows the reference melody data supplied to the first scoring unit 50A, and FIG. 8D shows the second scoring. It shows reference melody data supplied to the unit 50B. Note that #M indicates reference melody data corresponding to the male part and #W indicates reference melody data corresponding to the female part.
[0048]
First, since the prelude section T1 and the interlude section T5 are not the original singing sections, no guide melody exists as shown in FIGS. 8B and 8C, and are excluded from scoring. Therefore, the switching mode of the selector 48 may be either the slate mode or the mix mode.
[0049]
Next, in the male singing section T2, the selector 48 is set to the mix mode. In this case, the CPU controls the input terminal X1 of the selector 48 to connect to the output terminals Y1 and Y2, and controls the input terminal X2 of the selector 48 to open. Therefore, the male singing voice signal V1 output from the microphone 47a is supplied to the first scoring unit 50A and the second scoring unit 50B. In this section, since the reference melody data #M is supplied to the first and second scoring units 50A and 50B, the male singing voice signal V1 and the male part reference melody data #M are scored in two parts. The comparison is performed by the units 50A and 50B, and the average value is generated in the combining unit 50C. The evaluation unit 50D scores the section based on the combined difference data Diffc from the combining unit 50C. In this case, the combined difference data Diffc has an improved SN ratio as compared with the difference data Diffat and Diffb.
[0050]
Next, in the female singing section T3, the selector 48 is set to the mix mode as in the male singing section T2. However, the connection state inside the selector 48 is different from the male singing section T2. In this case, the CPU performs control so that the input terminal X2 of the selector 48 is connected to the output terminals Y1 and Y2, and the input terminal X1 of the selector 48 is opened. Therefore, the male singing voice signal V1 is not output from the selector 48. In the section where only one of the two singers is to sing, both singing voice signals are not mixed and output to the output terminals Y1 and Y2, and the input from the other microphone is opened, for example, This is because, when the male clapping in the singing section T3, the clapping is performed as noise, and the singing ability of the female cannot be properly evaluated.
[0051]
Thus, when the female singing voice signal V2 is supplied to the first and second scoring units 50A and 50B, the first and second scoring units 50A and 50B perform comparison based on the reference melody data #W. . When the comparison result is averaged by the combining unit 50C and output as combined difference data Diffc, the evaluation unit 50D scores the section based on the combined difference data Diffc. Also in this case, similarly to the male singing section T, the combined difference data Diffc has an improved SN ratio compared to the difference data Diffat and Diffb.
[0052]
Next, in the mixed singing section, the selector 48 is set to the straight mode. In this case, the CPU 30 controls the input terminal X1 and the output terminal Y1 of the selector 48 to be connected, and controls the input terminal X2 to be connected to the output terminal Y1. Therefore, the male singing voice signal V1 is supplied to the first scoring unit 50A, and the female singing voice signal V2 is supplied to the second scoring unit 50B. In this section, since the reference melody data #M and #W are supplied to the first and second scoring units 50A and 50B, respectively, they are different from the first and second scoring units 50A and 50B. Difference data Diffa and Diffb are output. The combining unit 50C calculates an average value of the two, and generates combined difference data Diffc.
[0053]
Here, if a woman does not sing in a part (T4 ′) of the section, the singing state data Si2 related to the second scoring unit 50B is as shown in FIG. 8E. Therefore, during the period T4 ′, the combining unit 50C does not calculate the average value, but combines the pitch difference data Fi1 and the volume difference data Li1 generated by the first scoring unit 50A with the combined difference data Li1. Since it is output as Diffc, comprehensive scoring can be performed based on male singing ability.
[0054]
As described above, according to the present embodiment, based on the combination of the music data and the operation of the remote controller 51, the CPU 30 switches the selector 48 and supplies the reference guide melody data to be supplied to the first and second scoring units 50A and 50B. Is controlled, the first and second scoring units 50A and 50B can be effectively utilized, and a highly accurate and appropriate scoring result can be calculated.
That is, when one singer sings, a scoring result can be obtained based on the synthetic difference data Diffc with an improved SN ratio. In a duet song, the operation of the synthesizing unit 50C depends on the nature of the singing section. By switching, accurate and appropriate scoring results can be calculated.
[0055]
D: Modified example
Note that the present invention is not limited to the above-described embodiment, and various modifications as described below are possible.
(1) For example, in the embodiment, the case of performing a karaoke performance of a duet song has been described as an example. In this case, the scoring processing unit 50 may be extended to a system corresponding to the number of parts, and guide melody may be prepared by the number of tracks corresponding to the number of parts.
(2) Further, instead of obtaining the average value of each music element as the scoring result as in the embodiment, the score of the pitch, volume or rhythm may be output as the scoring result for each music element.
(3) In the grading process, the grading is performed collectively after the song is completed. However, the basic evaluation may be performed in units of phrases and musical notes, and the results may be totaled after the tune is completed. Further, the scoring result may be displayed on the monitor 46 for each phrase unit, and the final scoring result may be displayed after the end of the music.
(4) In the embodiment, the average value of the scores obtained for each vocal part in the duet music is output. However, the average value may be output individually, or both may be output. . In the case of outputting individually, the scoring result may be calculated by the evaluation unit 50D based on each of the difference data Diffa and Diffb.
(5) In addition, the user's enjoyment can be further increased by adopting various display modes such as highlighting the score of the highest scoring result among the plurality of singing voices.
[0056]
【The invention's effect】
As described above, according to the present invention, when a plurality of vocal parts are sung, for example, duet songs, comprehensive singing ability can be scored. The scoring accuracy can be improved.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a karaoke apparatus according to an embodiment of the present invention.
FIG. 2 is a diagram showing a data format of music data in the embodiment.
FIG. 3 is a diagram showing a configuration of a music track of the music data.
FIG. 4 is a diagram showing a configuration of a track other than a musical tone track of the music data.
FIG. 5 is a diagram showing contents of a memory map of a RAM in the karaoke apparatus.
FIG. 6 is a block diagram showing a configuration of a scoring processing unit in the karaoke apparatus.
FIG. 7A is a diagram showing an example of a guide melody in the embodiment in a staff notation, FIG. 7B is a diagram showing pitch data and volume data of a reference based on the guide melody, and FIG. It is a figure which shows pitch data, volume data, and singing state data.
FIG. 8 is a timing chart in the case of singing a duet song in the karaoke apparatus.
[Explanation of symbols]
30 CPU (control means, scoring means), 31 ROM, 32 RAM, 37 hard disk device, 38 sound source device, 47a, 47b microphones (first and second microphones), 49 DSP for voice processing .. 50 scoring processing units, 501a, 501b A / D converters, 502a, 502b... Data extraction units (first and second extraction means), 503a, 503b... Comparison units (first and second comparison means) .

Claims (2)

選択手段と、第1比較手段と、第2比較手段と、供給手段と、演算手段と、評価手段を備え、曲データを演奏するカラオケ装置であって、A karaoke apparatus that includes a selection unit, a first comparison unit, a second comparison unit, a supply unit, a calculation unit, and an evaluation unit, and plays music data.
曲データは、第1基準値、第2基準値を含むと共に、混成歌唱区間、第1単独歌唱区間、第2単独歌唱区間が識別可能にされ、The music data includes a first reference value and a second reference value, and a hybrid singing section, a first single singing section, and a second single singing section can be identified,
選択手段は、The selection means
演奏が混声歌唱区間にある場合は、第1マイクロホンから入力される歌唱音声信号を第1出力端子から出力し、第2マイクロホンから入力される歌唱音声信号を第2出力端子から出力し、When the performance is in the mixed singing section, the singing voice signal input from the first microphone is output from the first output terminal, and the singing voice signal input from the second microphone is output from the second output terminal;
演奏が第1単独歌唱区間にある場合は、第1マイクロホンから入力される歌唱音声信号を第1および第2出力端子から出力し、When the performance is in the first single singing section, a singing voice signal input from the first microphone is output from the first and second output terminals,
演奏が第2単独歌唱区間にある場合は、第2マイクロホンから入力される歌唱音声信号を第1および第2出力端子から出力し、When the performance is in the second single singing section, a singing voice signal input from the second microphone is output from the first and second output terminals,
第1比較手段は、第1出力端子から出力される歌唱音声信号の特徴量を供給される第1または第2基準値と比較し、The first comparing means compares the characteristic amount of the singing voice signal output from the first output terminal with the supplied first or second reference value,
第2比較手段は、第2出力端子から出力される歌唱音声信号の特徴量を供給される第1または第2基準値と比較し、The second comparing means compares the characteristic amount of the singing voice signal output from the second output terminal with the supplied first or second reference value,
供給手段は、The supply means is
演奏が混声歌唱区間にある場合は、第1基準値を第1比較手段に、第2基準値を第2比較手段に供給し、When the performance is in a mixed singing section, the first reference value is supplied to the first comparing means, and the second reference value is supplied to the second comparing means.
演奏が第1単独歌唱区間にある場合は、第1基準値を第1比較手段および第2比較手段に供給し、When the performance is in the first singing section, the first reference value is supplied to the first comparing means and the second comparing means,
演奏が第2単独歌唱区間にある場合は、第2基準値を第1比較手段および第2比較手段に供給し、When the performance is in the second single singing section, the second reference value is supplied to the first comparing means and the second comparing means,
演算手段は、第1比較手段と第2比較手段の比較結果の平均値を算出出力し、The calculating means calculates and outputs an average value of the comparison results of the first comparing means and the second comparing means,
評価手段は、演算手段の出力に基づいて歌唱力を評価するThe evaluator evaluates the singing ability based on an output of the calculator.
カラオケ装置。Karaoke equipment.
第1、第2比較手段のそれぞれは、歌唱音声信号が入力されない場合を非歌唱期間として検出し、Each of the first and second comparing means detects a case where no singing voice signal is input as a non-singing period,
演算手段は、非歌唱期間が検出された場合、平均値に代えて非歌唱期間でない第1若しくは第2比較手段の比較結果をそのまま出力するWhen the non-singing period is detected, the calculating means outputs the comparison result of the first or second comparing means which is not the non-singing period as it is, instead of the average value.
請求項1に記載のカラオケ装置。The karaoke apparatus according to claim 1.
JP15255997A 1997-06-10 1997-06-10 Karaoke equipment Expired - Fee Related JP3562223B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP15255997A JP3562223B2 (en) 1997-06-10 1997-06-10 Karaoke equipment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP15255997A JP3562223B2 (en) 1997-06-10 1997-06-10 Karaoke equipment

Publications (2)

Publication Number Publication Date
JPH113087A JPH113087A (en) 1999-01-06
JP3562223B2 true JP3562223B2 (en) 2004-09-08

Family

ID=15543133

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15255997A Expired - Fee Related JP3562223B2 (en) 1997-06-10 1997-06-10 Karaoke equipment

Country Status (1)

Country Link
JP (1) JP3562223B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4024440B2 (en) * 1999-11-30 2007-12-19 アルパイン株式会社 Data input device for song search system
JP6701864B2 (en) * 2016-03-25 2020-05-27 ヤマハ株式会社 Sound evaluation device and sound evaluation method

Also Published As

Publication number Publication date
JPH113087A (en) 1999-01-06

Similar Documents

Publication Publication Date Title
JP3293745B2 (en) Karaoke equipment
JP3718919B2 (en) Karaoke equipment
JP4163584B2 (en) Karaoke equipment
JP2005107333A (en) Karaoke machine
JP4204941B2 (en) Karaoke equipment
JP4175337B2 (en) Karaoke equipment
JP3975526B2 (en) Karaoke equipment
JP4222915B2 (en) Singing voice evaluation device, karaoke scoring device and programs thereof
JP3562223B2 (en) Karaoke equipment
JP3562239B2 (en) Karaoke equipment
JP4123583B2 (en) Karaoke equipment
JP3430811B2 (en) Karaoke equipment
JP2002162978A (en) Karaoke device
JP3982514B2 (en) Karaoke equipment
JP3261990B2 (en) Karaoke equipment
JP3430814B2 (en) Karaoke equipment
JP3659138B2 (en) Karaoke equipment
JP2005215493A (en) Karaoke machine and program
JP2000330580A (en) Karaoke apparatus
JP4110951B2 (en) Karaoke equipment
JP4135461B2 (en) Karaoke device, program and recording medium
JPH08227296A (en) Sound signal processor
JP2006259401A (en) Karaoke machine
JP3166621B2 (en) Karaoke processor and musical instrument practice processor
JP3834963B2 (en) Voice input device and method, and storage medium

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040511

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040524

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080611

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090611

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100611

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100611

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110611

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120611

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120611

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130611

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees