本発明を具体的に説明する前に、概要を述べる。本発明の実施例は、伴奏音楽を出力しつつ、伴奏音楽に対応した歌詞を表示装置に表示するカラオケ装置に関する。歌詞は、複数のブロックに分割されており、カラオケ装置は、曲の進行に合わせて、それぞれのブロックを順次切り替えながら、ブロックに含まれた複数の文字を表示する。さらに、表示した複数の文字の中の歌唱者が現タイミングにて発声すべき文字(以下、「歌唱文字」という)に対して、表示の形式をそれ以外とは別の形式に、例えば、文字を大きくするように変更する。以下、変更前の表示形式を「第1形式」といい、変更後の表示形式を「第2形式」という。その際、カラオケ装置は、表示の形式を徐々に変更する。例えば、歌唱文字を徐々に大きくする。また、歌唱者によって発声された歌唱文字の音程が、本来発声すべき音程に合っていれば、当該歌唱文字は直ちに消去されるが、本来発声すべき音程に合っていなければ、当該歌唱文字はブロックが切りかわるまで表示される。その際、当該歌唱文字は再び第1形式に戻される。その結果、カラオケ装置は、所定のブロックを切りかえる際に、本来発声すべき音程に合っていなかった文字を表示させている。
図1は、本発明の実施例に係るカラオケ装置100の構成を示す。カラオケ装置100は、ネットワーク10、マイク12、スピーカ14、モニタ16に接続される。カラオケ装置100は、モデム20、記憶部22、再生部24、歌詞表示部26、モニタ制御部28、操作部30を含む。また、歌詞表示部26は、表示制御部32、変更制御部34、消去制御部36を含み、表示制御部32は、取得部38、表示指示部40を含み、変更制御部34は、決定部42、変更指示部44を含み、消去制御部36は、第2入力部46、第1入力部48、導出部50、消去指示部52を含む。さらに、消去指示部52は、計数部54、画像処理部56を含む。
マイク12は、歌唱者によって発声された音声を取り込む。スピーカ14は、伴奏音楽を再生すると共に、マイク12に入力された歌唱者による発声を再生する。モニタ16は、歌唱曲の歌詞を表示する。また、モニタ16は、歌詞を表示する際に、所定の演出が施された画像を表示する。ネットワーク10は、カラオケ装置100と接続されており、カラオケ装置100は、ネットワーク10を介して図示しないサーバから、所定のデータを入力する。所定のデータの詳細については、後述する。その際、カラオケ装置100の内部において、モデム20が通信処理を実行する。記憶部22は、モデム20による通信によってサーバから取得したデータを記憶する。また、予め入力したデータも記憶する。
取得部38は、歌詞を分割した複数のブロックのそれぞれに対して、ブロックに含まれた複数の文字を表示すべき表示時間と、表示された複数の文字を消去すべき消去時間と、表示された複数の文字のそれぞれを歌唱者が発声すべき複数の開始時間と、歌唱者が発声を終了すべき複数の終了時間とを入力する。なお、ブロックは曲の進行に合わせて順次切りかえられるが、このようなデータはブロックが切りかわる前に入力される。ここで、「ブロック」とは、歌詞の中のひとつのフレーズ、モニタ16に表示される際の一行などような歌詞の中でのひとつのくくりに相当する。そのため、「ブロック」は、一般的に、複数の文字を含む。
「表示時間」は、モニタ16に、ブロックに含まれた複数の文字を表示すべき時間を示す。カラオケ装置100の内部には、図示しないクロック発生装置が備えられており、例えば、伴奏音楽が開始される際に、クロック発生装置のクロックがリセットされ、伴奏音楽の進行と共に、クロックがカウントアップされる。「表示時間」は、当該クロックによって規定されているものとし、以下、その他の「消去時間」等についても同様である。すなわち、「時間」は、クロックにもとづいて規定されている。「消去時間」は、モニタ16に表示された複数の文字であって、ブロックに含まれた複数の文字を消去すべき時間を示す。「開始時間」とは、表示された複数の文字のそれぞれが、歌唱者によって歌唱されるべき時間を示す。ここで、ブロックは複数の文字を含んでいるので、ひとつのブロックに対して、複数の開始時間が含まれている。また、「終了時間」とは、表示された複数の文字のそれぞれの歌唱が、終了されるべき時間を示し、「開始時間」にそれぞれ対応するように規定されている。ここで、「開始時間」が到来した文字が、前述の歌唱文字に相当する。
図2は、取得部38に入力されるデータの構造を示す。図2のごとく、入力されるデータは、ブロック番号欄70、文字列欄72、表示時間欄74、消去時間欄76、開始時間および終了時間欄78を含み、これらのデータが、シリアル形式や、所定ビットのパラレル形式を有しながら入力される。「ブロック番号欄70」は、歌詞を分割することによって生成された複数のブロックを識別するための番号であり、歌詞の先頭に相当するブロックが「1」になるような番号によって示されている。「文字列欄72」は、ブロック番号欄70に対応するように、歌詞を分割した複数の文字に相当する。すなわち、取得部38は、ブロックに含まれた複数の文字も入力する。
「表示時間欄74」、「消去時間欄76」、「開始時間および終了時間欄78」は、前述の「表示時間」、「消去時間」、「開始時間」、「終了時間」にそれぞれ相当する。ここで示された数字は、前述のクロックによって規定されている。文字列欄72のそれぞれに複数の文字が存在しているので、開始時間および終了時間欄78の開始時間と終了時間は、複数の文字のそれぞれに対応して規定される。また、複数の音を有する漢字が含まれている場合、「開始時間」と「終了時間」は、それぞれの音に対応して規定される。例えば、「桜」の文字において、「さ」、「く」、「ら」のそれぞれに対応するように複数の開始時間と終了時間がそれぞれ規定されている。図2にもどる。取得部38は、これらに加えて、伴奏音楽のデータも入力する。伴奏音楽のデータは、ATRAC(Advanced TRansform Acoustic Coding)やMP3(MPEG Audio Layer−3)等の形式を有する。
表示指示部40は、ブロックを曲の進行にしたがって順次切り替えつつ、表示時間になれば、予め定められた第1形式によって、ブロックに含まれた複数の文字をモニタ16に表示させる。例えば、図2のブロック番号欄70が「1」の場合、「ちょうちょう ちょうちょう」の文字列を表示させる。ここで、第1形式の詳細は後述するが、文字の大きさ、色、形等によって規定されている。表示指示部40は、表示の指示をモニタ制御部28に出力する。モニタ制御部28は、表示指示部40からの指示にしたがって、複数の文字をモニタ16に表示する。その際、モニタ制御部28は、ひとつのブロックの最初の文字がモニタ16の所定の位置に表示されるように、座標を規定する。例えば、ブロックの文字列が「ちょうちょう ちょうちょう」である場合、最初の「ち」の文字の左上の部分が、モニタ16の所定の座標になるように、ブロックに含まれた複数の文字の座標がそれぞれ規定される。ここで、座標は、モニタ16の所定の位置を原点として規定される。なお、座標は、取得部38を介して外部から取得してもよい。また、基準となる文字の座標は、ブロックに含まれる文字数に応じて調節されてもよい。
決定部42は、表示指示部40によって表示させた複数の文字のそれぞれに対応するように、複数の文字のそれぞれに対応した開始時間と終了時間にもとづいて、表示させた文字の表示形式を変更すべき複数の変更時間を決定する。すなわち、複数の文字のそれぞれに対応するように開始時間と終了時間が規定されているので、表示指示部40は、それらから変更時間を決定する。その結果、変更時間も、複数の文字の数に応じて規定される。例えば、図2のブロック番号欄70が「1」であり、最初の「ち」に対して、開始時間の「301」と終了時間の「313」から、ひとつの変更時間が決定される。ここでは、開始時間と終了時間との間を12等分に分割したそれぞれのポイントに対して、先頭から4ポイント目を変更時間とする。以下、このように開始時間と終了時間との間を12等分に分割したそれぞれの時間を「ポイント」という。
変更指示部44は、モニタ16に表示した複数の文字のうち、現タイミングにて歌唱者が発声すべき文字、すなわち歌唱文字の表示の形式を第1形式から第2形式へ変更させる。変更指示部44は、歌唱文字が変更時間になると、第2形式で表示させるように制御する。ここで、「第1形式」と「第2形式」は、文字の大きさ、色、形等によって規定されているが、ここでは、表示される際の文字の大きさが異なるように規定されているものとする。また、「第2形式」での文字の大きさは、「第1形式」での文字の大きさよりも大きいものとする。このような処理によって、モニタ16では、所定の大きさで表示されている複数の文字のうち、歌唱文字が大きな文字によって表示される。その結果、大きくなった文字によって、カラオケ装置100は、歌唱者に対して歌唱文字を知らしめる。
変更指示部44は、歌唱文字に対応した開始時間から変更時間の間にわたって、第1形式から第2形式に、歌唱文字の表示形式を徐々に変更させる。ここでは、変更指示部44は、歌唱文字に対応した開始時間から変更時間の間にわたって、歌唱文字の大きさを徐々に変更させる。前述のごとく、開始時間と変更時間との間は、4ポイントの時間間隔によって規定されているので、第1形式によって規定された大きさの歌唱文字が、「1ポイント」、「2ポイント」、「3ポイント」と経過するにしたがって、徐々に大きくなっていく。最終的に、「4ポイント」のタイミングにおいて、歌唱文字の大きさが第2形式によって規定された大きさになる。なお、モニタ16におけるリフレッシュレートに対応した時間間隔が、ポイントに対応した時間間隔よりも短ければ、さらに細かい間隔によって、歌唱文字の大きさを段階的に大きくしてもよい。変更指示部44による以上のような指示も、表示指示部40と同様に、モニタ制御部28を介して、モニタ16に出力される。モニタ制御部28は、前述のごとく、モニタ16に表示された複数の文字のそれぞれに対する座標を把握している。そこで、表示指示部40の指示にしたがって、第1形式から第2形式に表示形式を変更する際に、モニタ制御部28は変更される文字の座標を徐々に変更していく。
再生部24は、取得部38から、伴奏音楽のデータを入力し、これを復号する。再生部24は、復号した伴奏音楽をスピーカ14から出力する。さらに、再生部24は、マイク12から、歌唱者によって発声された歌唱も入力し、伴奏音楽と合成して、スピーカ14から出力する。
第1入力部48は、モニタ16に表示させた複数の文字に対応すべき音声のデータであって、かつ歌唱者によって歌唱された音声のデータをマイク12から入力する。ここでは、歌唱文字に対応しながら、音声のデータがひとつの文字を単位にして順次入力される。このように、音声のデータは、複数の文字のそれぞれに対応するが、さらに、ひとつの文字に対して複数のポイントにおいてサンプリングされている。なお、音声のデータは、一般的に、音程・音色・音量によって構成されるが、ここでは、音程を対象にする。
第2入力部46は、モニタ16に表示させた複数の文字に対応すべき音程のデータであって、入力した音声のデータの音程と対比されるべき音程のデータを入力する。ここでは、音声のデータと同様に、歌唱文字に対応しながら、音程のデータがひとつの文字を単位にして順次入力される。なお、音程のデータは、MIDI(Musical Instrument Digital Interface)の形式を有しているものとする。
導出部50は、歌唱文字を単位にして、音声のデータと音程のデータとの間の音程の誤差を導出する。ここでは、音声のデータをFFT(Fast Fourier Transform)して、基本周波数を抽出し、これを音程のデータと比較して、音程の誤差を導出する。前述のごとく、音声のデータは、ひとつの歌唱文字を複数のポイントによってサンプリングしている。そのため、ひとつの歌唱文字に対して、複数のFFTウインドウが規定され、複数のFFTウインドウのそれぞれに対応するように、基本周波数が導出される場合がある。その際は、それぞれの基本周波数に対して音程の誤差を導出し、さらにそれらの音程の誤差を積算して、ひとつの歌唱文字に対する音程の誤差を導出する。
消去指示部52は、導出した音程の誤差の程度に応じて定められたタイミングにてモニタ16から文字を消去させる。すなわち、消去指示部52において、音程の誤差がしきい値より大きい文字は、ブロック単位で表示が切り替えられるタイミング、すなわち消去時間を基準に、画面からの消去を行う。その際、終了時間から消去時間にわたって、消去指示部52は、文字の表示形式を再び第1形式に戻して、当該文字を表示する。ここで文字の表示形式を第1形式に戻すための処理は、変更指示部44での処理に対応する。一方、音程の誤差がしきい値以下になる文字は、当該文字を発声すべきタイミング、すなわち終了時間を基準に、画面からの消去を行う。このような処理によって、ひとつのブロックの歌唱が終了した際、正しい音程によって歌唱されなかった文字が表示されている。
画像処理部56は、消去指示部52による文字の消去の指示にしたがって、表示された文字を消去する際に、消去すべき文字に対して所定の画像処理を施す。ここで、画像処理部56における所定の画像処理が、導出部50において導出した音程の誤差がしきい値より大きい場合と、音程の誤差がしきい値以下になる場合とによって異なるように規定されている。具体例は後述するが、音程の誤差がしきい値より大きい場合と、音程の誤差がしきい値以下になる場合とによって、文字を消去するタイミングを変更するだけでなく、消去する際の演出も変更する。そのため、歌唱者に対して、音程の誤差の判定結果を明確に通知できる。さらに、画像処理部56は、導出部50において導出した音程の誤差がしきい値以下になる場合に、所定の画像を生成し、生成した画像を消去すべき文字に合成する。これについての具体例も後述する。
計数部54は、導出部50において導出した音程の誤差が、連続してしきい値以下になる場合に、連続する文字の数を計数する。なお、音程の誤差がしきい値以上になった場合に、計数部54は、計数した文字数をリセットする。計数部54において計数した文字の数が所定の数よりも大きくなれば、画像処理部56は、表示された文字を消去する際に、音程の誤差がしきい値以下になる場合になされる画像処理とは別の画像処理を施す。すなわち、連続して音程が合っている場合に、さらに別の演出を施す。消去指示部52による以上のような指示も、表示指示部40等と同様に、モニタ制御部28を介して、モニタ16に出力される。モニタ制御部28は、画像処理部56の指示にしたがって画像処理を実行する際に、予め把握した文字に対する座標を使用する。例えば、該当する文字に対応した座標上のデータに対して、所定の処理を施す。また、モニタ制御部28は、画像処理部56の指示にしたがって生成した画像を文字に合成する場合も、予め把握した文字に対する座標を使用する。
操作部30は、歌唱者による所定の指示を受けつける。ここで、歌唱者には、歌唱を行っていないユーザも含むものとする。所定の指示は、歌唱曲の選択や音程の変更等を含む。また、操作部30は、リモコンやキーボード等によって構成される。
以上の構成は、ハードウエア的には、任意のコンピュータのCPU、メモリ、その他のLSIで実現でき、ソフトウエア的にはメモリのロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。
図3は、カラオケ装置100による文字の大きさの制御概要を示す。ここでは、表示制御部32、変更制御部34、消去制御部36による制御にもとづく、モニタ16に表示された文字の大きさの変化を示す。図の横軸が時間を示しており、縦軸が文字の大きさを示している。横軸のメモリは、ポイントに対応し、前述のごとく、12ポイントがひとつの文字に対応する。ここでは、文字として、ふたつの歌唱文字を示しており、これらが「1番目歌唱文字」と「2番目歌唱文字」である。「1番目歌唱文字」の先頭のポイントが「開始時間」に相当し、「1番目歌唱文字」の最後のポイントが「終了時間」に相当する。また、「1番目歌唱文字」の先頭から4ポイント目が「変更時間」に相当する。「2番目歌唱文字」についても同様である。なお、図3において、直線が「1番目歌唱文字」に相当し、1点鎖線が「2番目歌唱文字」に相当する。
図3の「P1」が「1番目歌唱文字」の「開始時間」に相当し、「P2」が「1番目歌唱文字」の「変更時間」に相当し、「P3」が「1番目歌唱文字」の「終了時間」に相当する。また、「P4」が「2番目歌唱文字」の「開始時間」に相当し、「P6」が「2番目歌唱文字」の「変更時間」に相当し、「P7」が「2番目歌唱文字」の「終了時間」に相当する。ここで、「P3」と「P4」が同一のタイミングに相当する。「1番目歌唱文字」における「開始時間」の前に、図示しない「表示時間」が規定されており、「表示時間」において、「1番目歌唱文字」と「2番目歌唱文字」が「小」の「文字の大きさ」によって表示される。
「P1」から「P2」にかけて、「1番目歌唱文字」の大きさが、「小」から「大」に変化する。「P2」から「P3」にかけて、「1番目歌唱文字」の大きさは、「大」を維持する。「1番目歌唱文字」に対する音程の誤差がしきい値よりも大きかったため、「1番目歌唱文字」は、「P3」から「P5」にかけて、「大」から「小」に変化し、「P5」以降、「小」の大きさを維持する。なお、「1番目歌唱文字」は、図示しない「消去時間」まで、この状態を維持する。この場合、文字の大きさは「大」から「小」に徐々に変更される。ここで、文字の大きさが「大」から「小」に徐々に変更する期間は、文字の大きさが「小」から「大」に徐々に変更する期間と異なっている。なお、これらは同一であってもよい。
一方、「2番目歌唱文字」は、「P1」から「P4」まで、「小」の大きさを維持する。「P4」から「P6」にかけて、「2番目歌唱文字」の大きさが、「小」から「大」に変化する。そのため、「P4」から「P5」の間は、「1番目歌唱文字」と「2番目歌唱文字」が、ともに、「小」の大きさよりも大きくなっている。「P6」から「P7」にかけて、「2番目歌唱文字」の大きさは、「大」を維持する。「2番目歌唱文字」に対する音程の誤差がしきい値以下であったため、「2番目歌唱文字」は、「P7」において消去される。なお、図3において、「1番目歌唱文字」に含まれるポイントの間隔と、「2番目歌唱文字」に含まれるポイントの間隔は、同一の値であるように示されている。しかしながら、曲のリズムに応じて、これらの間隔が異なってもよい。その際、図示しないクロック発生装置から出力されるクロックのタイミングが曲のリズムに応じて変更される。
図4(a)−(c)は、モニタ16に表示される文字の一例を示す。図4(a)は、「表示時間」において、ひとつのブロックに含まれた複数の文字が表示された状態を示す。ここでは、図2のブロック番号が「1」の場合を例示する。図示のごとく、「ちょうちょう ちょうちょう」の文字が表示されている。ここで最初の「ち」の文字の左上の座標が、予め規定された座標になるように対応づけられる。複数の文字のそれぞれに対する図のような表示形式が、第1形式に相当する。図4(b)は、モニタ16に表示された複数の文字のうち、最初の「ち」が変更時間になった場合を示す。すなわち、「ち」が歌唱文字に相当し、そのため、「ち」が第2形式によって表示されている。その際、予め把握された「ち」の文字の座標にもとづいて、画像処理が施される。
図示のごとく、第2形式によって表示された「ち」の文字の大きさは、それ以外の文字の大きさよりも大きくなっている。なお、図4(a)から図4(b)にわたって、「ち」の文字の大きさは、徐々に大きくされている。図4(c)は、歌唱文字「ち」に対する終了時間が到来し、かつ歌唱文字「ち」に対する音程の誤差がしきい値以下であった場合を示す。図示のごとく、「ち」には、終了時間において、消去されるような画像処理が施される。さらに、複数の星によって構成される画像も生成され、生成された複数の星が合成されつつ、表示される。このような画像は、「ち」の文字の座標にもとづいて合成される。また、図4(c)において、先頭の「ち」に続く「ょ」が変更時間になっており、図示のごとく、歌唱文字「ょ」が、第2形式によって表示されている。
図5(a)−(c)は、図4(a)−(c)に続いて、モニタ16に表示される文字の一例を示す。図5(a)は、歌唱文字「ょ」に対する終了時間が到来し、かつ歌唱文字「ょ」に対する音程の誤差がしきい値より大きかった場合を示す。図示のごとく、「ょ」には、終了時間において、第1形式に戻されるような画像処理が施される。また、図5(a)において、「ょ」に続く「う」が変更時間になっており、図示のごとく、歌唱文字「う」が、第2形式によって表示されている。図5(b)は、図4(c)と同様の表示を示しており、「う」には、終了時間において、消去されるような画像処理が施される。一方、「う」に続く歌唱文字「ち」は、第2形式によって表示されている。さらに、図5(c)は、図5(a)と同様の表示を示しており、「ち」には、終了時間において、第1形式に戻されるような画像処理が施される。一方、「ち」に続く歌唱文字「ょ」は、第2形式によって表示されている。
図6(a)−(b)は、図5(a)−(c)に続いて、モニタ16に表示される文字の一例を示す。図6(a)は、図4(a)−(c)および図5(a)−(c)のような処理が、ひとつのブロックに含まれる複数の文字に対して実行された場合を示す。図示のごとく、前から順に「ょ」、「ち」、「ち」、「う」の文字が、第1形式によって表示されている。これらの文字は、音程の誤差がしきい値より大きかった場合の文字に相当する。図6(b)は、「消去時間」が到来した場合を示す。図示のごとく、表示された文字が崩れるような画像処理が施される。このような画像処理も「よ」、「ち」、「ち」、「う」の文字のそれぞれに対する座標にもとづいてなされる。すなわち、音程の誤差がしきい値以下である場合と、しきい値より大きい場合において、文字が消去されるタイミングが異なっているうえに、文字を消去する際の画像処理も異なっている。
図7(a)−(c)は、モニタ16に表示される文字の別の一例を示す。これまでは、モニタ16に表示された複数の文字のうち、歌唱文字を大きくして表示していたが、ここでは、歌唱文字に対する表示方法が異なる。図7(a)は、図4(b)に相当し、先頭の「ち」が、歌唱文字になっている場合を示す。モニタ16のうちの一部に、対象領域60が表示されており、対象領域60での明度が、それ以外の領域の明度よりも明るくなるように規定されている。すなわち、対象領域60の内部に表示された文字等が、歌唱者に対して、認識されやすくなっており、ここでは、対象領域60の中心に歌唱文字「ち」が表示されている。一方、対象領域60以外の領域は、暗くなっている。なお、対象領域60が前述の第2形式に相当し、対象領域60以外の部分が前述の第1形式に相当する。また、対象領域60は、変更制御部34によって生成される。なお、「対象領域60の中心」とは、完全な中心でなくてもよく、歌唱者による視認の精度において中心であればよい。
図7(b)は、図4(b)と図4(c)との間のタイミングでの表示を示す。すなわち、歌唱文字が、「ち」から「ょ」に切りかわっているが、「ょ」に対する変更時間になっていない場合である。図示のごとく、第1形式によって表示されていた歌唱文字「ょ」にも、対象領域60が徐々に重ねられている。ここでは、対象領域60の中心に、歌唱文字「ょ」が表示されていない。図7(c)は、図4(c)に相当し、歌唱文字「ょ」が第2形式によって表示されている場合を示す。図示のごとく、対象領域60の中心に歌唱文字「ょ」が表示されている。このような対象領域60の移動の制御は、複数の文字のそれぞれの座標にもとづいてなされる。
図8(a)−(b)は、モニタ16に表示される文字のさらに別の一例を示す。図8(a)−(b)は、図4(c)と同一のタイミングにおけるモニタ16の表示に対応する。特に、歌唱文字「ち」に対する終了時間が到来し、かつ歌唱文字「ち」に対する音程の誤差がしきい値以下であった場合を示す。図8(a)−(b)おいて、「ち」を消去する際の画像処理、あるいは合成される画像が、図4(c)の場合と異なる。なお、このような処理は、画像処理部56においてなされる。図8(a)では、図4(c)と同様に「ち」を消去する画像処理が施されている。さらに、放射線状に複数の光が放たれるような画像が生成されており、生成された画像が「ち」の位置に合成されている。図8(b)では、「ち」は消去されず、「ち」の内部が輝くような画像処理が施されている。このあと、「ち」の文字は、消去されてもよい。
図9は、モニタ16に表示される文字のさらに別の一例を示す。図9では、計数部54において計数した文字の数が所定の数よりも大きくなった場合に、表示された文字を消去する際に、画像処理部56が、音程の誤差がしきい値以下になる場合になされる画像処理とは別の画像処理を施している。ここでは、所定の数を「2」とし、計数した文字の数が「3」になっている。なお、以下では所定の数もしきい値という。すなわち、図4(a)に示された複数の文字のうち、「ち」「ょ」「う」の3文字が消去されている。さらに、計数した文字の数がしきい値よりも大きくなった3番目の文字の「う」に対して、図示のごとく、音符が付加されるような画像処理が施されている。
以上の構成によるカラオケ装置100の動作を説明する。図10は、カラオケ装置100における歌詞の制御手順を示すフローチャートである。取得部38は、ブロック単位のデータを取得する(S10)。表示指示部40は、ブロックに含まれた複数の文字に対して、表示処理を実行する(S12)。変更指示部44は、ブロックに含まれた複数の文字のうち、歌唱文字に対して表示の変更処理を実行する(S14)。導出部50において、導出した音程の誤差がしきい値以下であれば(S16のY)、消去制御部36は、歌唱文字に対して消去処理を実行する(S18)。
一方、導出部50において、導出した音程の誤差がしきい値以下でなければ(S16のN)、歌唱文字を消去しない。以上の処理がブロック内の複数の文字に対して終了していなければ(S20のN)、歌唱文字を次の文字に変更して、ステップ14からの処理を繰り返す。一方、ブロック内の複数の文字に対して、処理が終了すれば(S20のY)、消去指示部52は、残って表示されている文字に対して、消去処理を実行する(S22)。歌唱曲が終了していなければ(S24のN)、後続のブロックに対して、ステップ10からの処理を繰り返す。歌唱曲が終了していれば(S24のY)、処理を終了する。
図11は、カラオケ装置100における文字の表示および変更手順を示すフローチャートである。所定のブロックに対する表示時間が到来すれば(S30のY)、表示指示部40は、モニタ16にブロック内の文字を表示させる(S32)。変更指示部44は、ブロックに含まれた複数の文字のうち、開始時間になった文字を選択する(S34)。変更指示部44は、ポイントiを「1」に設定する(S36)。iが、変更時間に対応したポイントよりも小さければ(S38のY)、変更指示部44は、文字の大きさを変更しながら、モニタ16に文字を表示させる(S40)。一方、iが、変更時間に対応したポイントよりも小さくなければ(S38のN)、変更指示部44は文字の大きさを変更しない。
さらに、変更指示部44は、ポイントiに1を加算し(S42)、iが、終了時間に対応したポイントにならなければ(S44のN)、ステップ38からの処理を繰り返す。一方、iが、終了時間に対応したポイントになり(S44のY)、ブロック内に文字が残っていれば(S46のY)、変更指示部44は、ステップ34からの処理を繰り返す。ブロック内に文字が残っていなければ(S46のN)、処理を終了する。なお、表示時間が到来していなければ(S30のN)、以上の処理は、実行されない。
図12は、カラオケ装置100における文字に対する音程の判定手順および判定された結果にもとづく文字の消去手順を示すフローチャートである。ここで、導出部50は、ひとつの文字に相当した音声のデータに対して、複数回数のFFTを実行して、時間軸上に並んだ複数の基本周波数を導出するものとする。導出部50は、基本周波数の抽出ポイントjを「1」に設定する(S50)。導出部50は、抽出ポイントjにおいて、音声のデータを周波数変換した信号と音程のデータとの間の音程の誤差を導出する(S52)。さらに、jに1を加算し(S54)、jが、終了時間に対応したポイントにならなければ(S56のN)、ステップ52からの処理を繰り返す。
一方、jが、終了時間に対応したポイントになれば(S56のY)、導出部50は、各抽出ポイントにおける音程の誤差を積算する(S58)。音程の誤差がしきい値より大きい場合(S60のY)、消去時間が到来しなければ(S62のN)、文字を表示し続け、消去時間が到来すれば(S62のY)、消去制御部36は、音程の誤差がしきい値より大きい場合に対応した消去処理を実行する(S64)。一方、音程の誤差がしきい値より大きくない場合(S60のN)、次の文字に対する開始時間が到来しなければ(S66のN)、文字を表示し続け、次の文字に対する開始時間が到来すれば(S66のY)、消去制御部36は、音程の誤差がしきい値以下である場合に対応した消去処理を実行する(S68)。さらに、画像処理部56は、合成処理を実行する(S70)。
図13は、カラオケ装置100における文字に対する音程の判定手順および判定された結果にもとづく文字の消去手順を示す別のフローチャートである。図13は、図9に示したように、音程の誤差が連続してしきい値以下である場合における処理にも対応したフローチャートに相当する。音程の誤差がしきい値より小さければ(S80のN)、計数部54は、カウント値kに1を加算する(S82)。kがしきい値「2」よりも大きければ(S84のY)、画像処理部56は、音程の誤差が連続してしきい値以下になる場合に対応した消去処理を実行する(S86)。一方、kがしきい値「2」よりも大きくなければ(S84のN)、画像処理部56は、音程の誤差がしきい値以下になる場合に対応した消去処理を実行する(S88)。この消去処理は、図12のステップ68における消去処理に対応する。音程の誤差がしきい値より小さくなければ(S80のY)、計数部54は、カウント値kを1にリセットする(S90)。さらに、音程の誤差がしきい値より大きくなる場合に対応した消去処理を実行する(S92)。この消去処理は、図12のステップ64における消去処理に対応する。
本発明の実施例によれば、現タイミングにて発声すべき文字において、第1の形式から第2の形式への変更を徐々に行うので、第1の形式から第2の形式へ急に変更される場合と比較して、歌唱者にとって、表示形式の変更の認識が容易になり、発声すべき文字を把握しやすくなる。また、発声すべき文字を把握しやすくなるので、歌唱すべき箇所を間違える可能性を低減できる。また、変更が徐々になされるので、歌唱者に与える心理的なプレッシャーを低減できる。また、歌唱者に与える心理的なプレッシャーを小さくするので、歌唱者は歌唱に集中できる。
また、発声すべき文字を大きく表示するので、発声すべき文字が明らかになる。また、発声すべき文字を大きく表示するので、画面の背景の色によらず、発声すべき文字を明確に提示できる。また、文字の大きさを変化する際に、所定のリズムを持たせることによって、歌詞の表示に対して、所定の演出を施せる。また、発声すべき文字の色だけを変えるだけでなく、文字を含んだ領域の明度を変えることによって、発声すべき文字をスポット的に強調できる。また、明度のちがいに所定の変化を持たせることによって、所定の演出を施せる。また、表示形式の変化が、曲のリズムに対応したタイミングにもとづいてなされるので、歌詞の表示と曲のリズムを対応づけられる。
また、音程の誤差の程度に応じて、文字を画面から消去するタイミングを変更するので、歌唱者に対して、音程の正確さの判定結果を文字単位で明確に提示できる。また、判定結果に対して、付加的なメッセージを表示しないので、歌唱者は、歌唱に集中しつつ、判定結果を確認できる。また、文字単位で判定結果を表示するので、歌唱者は、判定結果をその後の歌唱に反映できる。また、音程が正確でなかった文字だけが画面に残るので、歌唱者に対して、多くの文字を消したいという願望を喚起できる。また、多くの文字を消したいという願望を喚起できるので、歌唱者に対して、繰り返しの利用を促せる。また、音程が正確でなかった文字だけが画面に残るので、遊戯性が向上する。
また、音程が正確であれば、画面上に残る文字が少なくなるので、歌唱者に対して、達成感を与えられる。また、この達成感を得るために、歌唱者に対して、繰り返しの利用を促せる。また、場合に応じて、異なった画像処理を施すので、歌詞の表示に変化を与えられる。また、場合に応じて、異なった画像処理を施すので、歌詞の表示に遊戯性を持たせられる。また、音程が正確であれば、所定の画像を合成するので、音程が合っていることを強調できる。また、複数の文字に対して、連続して音程が正確であれば、さらに別の画像処理を実行するので、さらに付加的な達成感を歌唱者に与えられる。また、これによって、歌詞の表示がより複雑になり、歌唱者に継続した利用を促せる。また、画面上の座標に対応づけた文字に対して表示の制御を行うので、所定の画像の合成等を容易にできる。
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
本実施例において、変更指示部44は、歌唱文字に対して、文字の大きさを変えていた。すなわち、第1形式と第2形式では、規定される文字の大きさが異なっていた。しかしながらこれに限らず例えば、変更指示部44における第2形式では、表示指示部40における第1形式に対して、文字を異なった種類によって規定していてもよい。この場合に、変更指示部44では、歌唱文字において、文字の種類の変更を徐々に行う。例えば、第2形式における文字の太さを第1形式における文字の太さよりも太くする。本変形例によれば、歌唱文字を明確に表示できる。また、文字の太さの変更を徐々に行うことによって、歌唱文字を見失う可能性を低減しつつ、歌唱文字を明確に表示できる。さらに、このような文字の種類の変更が、実施例における文字の大きさの変更や文字を含む領域の明度の変更と任意に組み合わされてもよい。さらに、実施例における文字の大きさの変更や文字を含む領域の明度の変更とを組み合わせてもよい。本変形例によれば、文字の大きさの変更による背景色に依存しない明確性、文字を含む領域の明度の変更によるスポットライト的な文字の指示性、文字の太さの変更による視線の移動の低減等のそれぞれの特徴をあわせて持つことができ、さらに、文字を見失う可能性を低減できる。つまり、歌唱者にとって、歌唱文字が分かりやすければよい。
以上に加えて、カラオケ装置100では、第1形式と第2形式において、文字の色が異なるように規定してもよい。その場合、歌唱文字が第1形式から第2形式に変更される過渡的状態において、文字の一部分が、第1形式において規定された色によって表示され、文字の残りの部分が、第2形式において規定された色によって表示される。さらに、カラオケ装置100では、第1形式と第2形式において、文字の明度が異なるように規定してもよい。その場合、歌唱文字が第1形式から第2形式に変更される過渡的状態において、文字の一部分が、第1形式において規定された明度によって表示され、文字の残りの部分が、第2形式において規定された明度によって表示される。これらの本変形例によっても、色の違いにもとづく、歌唱者による視認性を高められる。このような変形例に対して、実施例および前述した変形例を組み合わせることによって、実施例および前述した変形例によって得られる効果よりも、さらに視認性を向上できる。
本実施例において、変更指示部44は、歌唱文字が開始時間に該当してから、表示形式を第1形式から第2形式に変更している。しかしながら、これに限らず例えば、開始時間よりも前のタイミングから、歌唱文字の表示形式の第1形式から第2形式への変更を開始してもよい。その場合、歌唱文字は、開始時間において第2形式になってもよいし、実施例と同様に、開始時間の後ろにある変更時間において第2形式になってもよい。本変形例によれば、モニタ16における表示のバリエーションを増やすことができる。
本実施例において、カラオケ装置100は、モニタ16に、2次元によって表現された文字を表示している。しかしながら、カラオケ装置100は、文字に対して、ポリゴン処理等を施して、3次元によって表現された文字を表示してもよい。本変形例によれば、文字に施す画像処理の種類を多様にできる。つまり、音程の誤差の程度に応じて、文字に様々な画像処理が施されればよい。
本実施例において、消去制御部36は、音程の誤差がしきい値より大きいか否かによって、歌唱文字を消去すべきタイミングを切り替えていた。すなわち、2種類のタイミングのいずれかを選択していた。しかしながらこれに限らず例えば、歌唱文字を消去すべきタイミングを複数段階設け、これらのうちのいずれかを音程の誤差の程度に応じて選択してもよい。例えば、音程の誤差が小さいほど、歌唱文字を消去すべきタイミングが早くなり、音程の誤差が大きいほど、歌唱文字を消去すべきタイミングが遅くなるように制御する。本変形例によれば、歌唱者に対して、音程の誤差の程度も知らせることができる。つまり、歌唱における音程の一致の程度が、歌唱者に伝わればよい。
本実施例において、画像処理部56は、音程の誤差がしきい値より大きいか否かによって、歌唱文字に施すべき画像処理を切り替えていた。すなわち、2種類の画像処理のいずれかを選択していた。しかしながらこれに限らず例えば、歌唱文字に施すべき画像処理を複数設け、これらのうちのいずれかを音程の誤差の程度に応じて選択してもよい。例えば、音程の誤差が小さくなるにつれて、モニタ16における表示が派手になるような画像処理を施す。本変形例によれば、歌唱者に対して、音程の誤差の程度も知らせることができる。つまり、歌唱における音程の一致の程度が、歌唱者に伝わればよい。
本実施例において、画像処理部56は、計数部54における計数の結果がしきい値より大きいか否かによって、歌唱文字に施すべき画像処理を切り替えていた。すなわち、音程の誤差がしきい値以下である場合に対して、2種類の画像処理のいずれかを選択していた。しかしながらこれに限らず例えば、歌唱文字に施すべき画像処理を複数設け、これらのうちのいずれかを音程の誤差の程度に応じて選択してもよい。例えば、計数した結果が大きくなるにつれて、モニタ16における表示が派手になるような画像処理を施す。本変形例によれば、歌唱者に対して、音程の誤差が合っている期間も知らせることができる。つまり、歌唱における音程の一致の程度が、歌唱者に伝わればよい。
本実施例において、取得部38において入力されるデータは、ひとつの文字に対応した開始時間と終了時間との間を12等分に分割するような複数のポイントによって規定されている。しかしながらこれに限らず例えば、開始時間と終了時間との間を分割する間隔が、10等分であるように他の値であってもよい。また、開始時間と終了時間との間を分割する間隔が、切りかわってもよい。決定部42では、入力されたデータでの開始時間と終了時間との間を分割する間隔を検出し、検出した間隔にもとづいて、変更時間を決定すればよい。その際、操作部30を介して間隔が設定され、決定部42は、設定された間隔に応じて、間隔を検出してもよい。あるいは、入力されたデータの中に、間隔に関する情報が付加されており、決定部42は、付加された情報にもとづいて、間隔を検出してもよい。すなわち、前者では、手動によって間隔が検出され、後者では、自動に間隔が検出される。本変形例によれば、入力されるデータの形式が、複数種類の形式であっても対応可能である。
本実施例において、導出部50は、音声のデータと音程のデータとの間の音程の誤差を導出し、消去指示部52は、導出した音程の誤差の程度に応じて定められたタイミングにてモニタ16から文字を消去させる。すなわち、音程の誤差にもとづいて、タイミングを変更している。しかしながらこれに限らず例えば、導出部50は、歌唱者の歌い出しのタイミングを検出し、予め備えていた歌い出しのタイミングと比較することによって、タイミングの誤差を検出し、消去指示部52は、導出したタイミングの誤差の程度に応じて定められたタイミングにてモニタ16から文字を消去させてもよい。また、導出部50は、歌唱者の声量を導出し、消去指示部52は、導出した声量の程度に応じて定められたタイミングにてモニタ16から文字を消去させてもよい。さらに、これらを組み合わせてもよい。本変形例によれば、様々な評価指標に応じて、文字を消去するタイミングを変更できる。
実施例に記載された発明の特徴は、次の項目によって規定されてもよい。
(項目1)
歌詞を分割した複数のブロックのそれぞれに対して、ブロックに含まれた複数の文字を表示すべき表示時間と、表示された複数の文字のそれぞれを歌唱者が歌唱すべき複数の開始時間と、複数の開始時間のそれぞれに対応した文字の歌唱を終了すべき複数の終了時間とを入力する入力部と、
表示時間になれば、予め定められた第1の形式によって、ブロックに含まれた複数の文字を表示させる表示指示部と、
表示させた複数の文字のそれぞれに対応するように、複数の文字のそれぞれに対応した開始時間と終了時間にもとづいて、表示させた文字の表示形式を変更すべき複数の変更時間を決定する決定部と、
複数の変更時間のうちのいずれかになれば、複数の変更時間のうちのいずれかに対応した文字に対して、第1の形式とは別の第2の形式に、表示させた文字の表示形式を変更させる変更指示部とを備え、
変更指示部は、ひとつの文字に対応した開始時間から変更時間の間にわたって、第1の形式から第2の形式に、表示させた文字の表示形式を段階的に変更させることを特徴とする歌詞表示装置。
(項目2)
表示指示部における第1の形式と、変更指示部における第2の形式とは、表示される際の文字の大きさが異なるように規定されており、
変更指示部は、ひとつの文字に対応した開始時間から変更時間の間にわたって、表示させた文字の大きさを段階的に変更させることを特徴とする項目1に記載の歌詞表示装置。
(項目3)
表示指示部における第1の形式は、予め定められた第1の輝度によって、当該文字を表示するように規定されており、変更指示部における第2の形式は、第1の輝度と異なった第2の輝度によって、当該文字を中心にした領域を表示するように規定されており、
変更指示部は、ひとつの文字に対応した開始時間から変更時間の間にわたって、第1の形式によって表示させた文字に、第2の輝度によって表示させる領域を段階的に重ねていき、第2の形式によって表示させた文字になるように、表示させた文字の表示形式を段階的に変更させることを特徴とする項目1に記載の歌詞表示装置。
(項目4)
表示指示部における第1の形式と、変更指示部における第2の形式とは、表示される際の文字の種類が異なるように規定されており、
変更指示部は、ひとつの文字に対応した開始時間から変更時間の間にわたって、表示された文字の種類を段階的に変更させることを特徴とする項目1に記載の歌詞表示装置。
10 ネットワーク、 12 マイク、 14 スピーカ、 16 モニタ、 20 モデム、 22 記憶部、 24 再生部、 26 歌詞表示部、 28 モニタ制御部、 30 操作部、 32 表示制御部、 34 変更制御部、 36 消去制御部、 38 取得部、 40 表示指示部、 42 決定部、 44 変更指示部、 46 第2入力部、 48 第1入力部、 50 導出部、 52 消去指示部、 54 計数部、 56 画像処理部、 100 カラオケ装置。