JP6070652B2

JP6070652B2 - リファレンス表示装置およびプログラム

Info

Publication number: JP6070652B2
Application number: JP2014152479A
Authority: JP
Inventors: 紀行畑
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2014-07-28
Filing date: 2014-07-28
Publication date: 2017-02-01
Anticipated expiration: 2034-07-28
Also published as: JP2016031394A; TW201610981A; US10332496B2; TWI595476B; US20170352340A1; WO2016017622A1

Description

本発明は、表示装置に関し、特にお手本（リファレンス）の表示を行う装置に関する。

従来、カラオケ装置は、歌詞やお手本の音程を表示部に表示することが行われている（例えば特許文献１を参照）。音程は、いわゆるピアノロールとして表示される。ピアノロールとは、縦軸が音階（ピアノの鍵盤が縦になった状態）、横軸が時間に対応した画面上に、各音の発音開始タイミングと発音の長さに応じた線状の画像を表示するものである。これにより、歌唱者は、歌唱するタイミングと音程を視覚的に把握することができる。

特開２００４−２０５８１７号公報

歌唱、会話、または吹奏楽器の演奏等では、各音を離散的に発音するのではなく、各音を滑らかにつなげたり、息継ぎを行ったりする。従来のピアノロールでは、各音の発音開始タイミングと停止タイミングとを把握することができても、各音のつながりおよび息継ぎのタイミングを直感的に把握することが困難であった。

そこで、本発明は、各音のつながりおよび息継ぎのタイミングを直感的に把握することができるリファレンス表示装置およびプログラムを提供することを目的とする。

本発明のリファレンス表示装置は、表示部と、リファレンスデータに基づいて、発音タイミング、音程、および発音長を示す線状画像を生成し、前記表示部に表示する画像生成手段と、を備えている。

そして、前記画像生成手段は、前記線状画像の各音を連結させて表示することを特徴とする。

これにより、ユーザ（歌唱者、話者、または演奏者等）は、各音のつなげ方を視覚的に把握することができる。

また、リファレンスデータには、息継ぎタイミングを示す情報が含まれ、前記画像生成手段は、さらに前記息継ぎタイミングを示す情報に基づいて、該息継ぎタイミングの前後の音を離散させて表示する。

従来のピアノロールでは、各音の発音開始タイミングと停止タイミングとを把握することができても、各音のつながりおよび息継ぎのタイミングを直感的に把握することが困難であった。そこで、息継ぎタイミングで線状画像を途切れさせることで、ユーザは、各音のつながりおよび息継ぎのタイミングを直感的に把握することができる。また、本発明のリファレンス表示装置は、リファレンスデータに息継ぎタイミングを示す情報が含まれているため、単なる無音区間と息継ぎの区間とを明確に区別して表示させることができ、ユーザに対して正確な息継ぎの位置を把握させることができる。

また、前記画像生成手段は、促音に係る音素に係る線状画像と、該促音に係る音素の後の線状画像と、を離散させて表示することも可能である。

促音は、日本語のかな表記では「っ」「ッ」で表されるものであり、後に続く音との間が無音となるものである。したがって、促音に係る音素の後の線状画像を離散させることで、ユーザは、音をつなげて発音するのか、一旦止めて発音するのか、直感的に把握することができる。

また、前記画像生成手段は、前記促音に係る音素の線状画像とともに、促音に係る音素が存在する旨を示す画像を表示することが望ましい。この場合、ユーザは、より容易に音をつなげて発音するのか、一旦止めて発音するのか、把握することができる。

また、前記画像生成手段は、前記息継ぎタイミングを示す情報に基づいて、息継ぎを促す画像を、前記線状画像とともに表示させることが望ましい。これにより、ユーザは、より容易に音をつなげて発音するのか、息継ぎを行うのか、把握することができる。

また、前記画像生成手段は、各音の発音タイミングを示す画像を、前記線状画像に重畳して表示することが好ましい。例えば同じ音程で異なる歌詞を続けて発音する場合、線状画像が連結されていると、ユーザは、どのタイミングで次の歌詞を発音するのか把握し難い。しかし、各音の発音タイミングにおいて例えば線状画像の上に円画像を重畳して表示すれば、ユーザは、当該円画像のタイミングで発音を行う旨を把握し易くなる。

また、前記リファレンスデータには、歌唱技法のタイミングを示す情報が含まれ、前記画像生成手段は、前記歌唱技法のタイミングを示す情報に基づいて、歌唱技法を促す画像を表示することが好ましい。これにより、ユーザは、歌唱技法を行うタイミングを容易に把握することができる。

また、ビブラートの区間は、線状画像を異なる画像（例えば波線）に変更して表示することで、より直感的にビブラート区間を把握し易くすることができる。

また、リファレンスデータには、各音の音量を示す情報が含まれ、前記画像生成手段は、前記各音の音量を示す情報に基づいて、前記線状画像を前記音量に応じた画像に変更して表示することが好ましい。例えば、音量の大きい区間は太い線、音量の小さい区間は細い線に変更する。あるいは、音量の大きい区間は濃い色の線、音量の小さい区間は薄い色の線に変更する。

なお、画像生成手段は、現在の発音タイミングに応じた位置にユーザに対応する画像（ユーザを撮影した写真、キャラクタ画像等）を表示し、該ユーザに対応する画像が前記線状画像に沿って移動するように、前記線状画像をスクロールさせる態様としてもよい。この場合、ユーザは、自身の発音に応じてキャラクタを移動させているように感じることができ、歌唱、語学学習、または演奏等を楽しんで行うことができる。

また、キャラクタ画像は、客観視点（２次元表示）であってもよいが、主観視点（３次元表示）であってもよい。また、主観視点で表示する場合には、例えばデュエット歌唱を行う場合に、自身に相当するキャラクタと他の歌唱者に相当するキャラクタとを並行して表示することも可能であり、ユーザは、他の歌唱者と一緒に歌唱を行っている雰囲気をより感じ取ることができる。

本発明のリファレンス表示装置は、各音のつながりおよび息継ぎのタイミングを直感的に把握することができる。

カラオケシステムの構成を示したブロック図である。カラオケ装置の構成を示したブロック図である。リファレンスデータを含む各種データの構造を示す図である。リファレンスの表示例を示す図である。リファレンスの表示例を示す図である。リファレンスの表示例を示す図である。カラオケ装置の動作を示すフローチャートである。応用例に係るリファレンスの表示態様である。応用例に係るリファレンスの表示態様である。リファレンス表示装置の最小構成を示したブロック図である。

図１は、本発明のリファレンス表示装置を備えたカラオケシステムの構成を示す図である。カラオケシステムは、インターネット等のネットワーク２を介して接続されるセンタ（サーバ）１と、複数のカラオケ店舗３と、からなる。

各カラオケ店舗３には、ネットワーク２に接続されるルータ等の中継機５と、中継機５を介してネットワーク２に接続される複数のカラオケ装置７が設けられている。中継機５は、カラオケ店舗の管理室内等に設置されている。複数台のカラオケ装置７は、それぞれ個室（カラオケボックス）に１台ずつ設置されている。また、各カラオケ装置７には、それぞれリモコン９が設置されている。

カラオケ装置７は、中継機５およびネットワーク２を介して他のカラオケ装置７と通信可能になっている。カラオケシステムは、異なる場所に設置されているカラオケ装置７同士で通信を行い、複数の歌唱者間でデュエットを行うことができる。

図２は、カラオケ装置の構成を示すブロック図である。カラオケ装置７は、本発明のリファレンス表示装置に相当する。カラオケ装置７は、ＣＰＵ１１、ＲＡＭ１２、ＨＤＤ１３、ネットワークインタフェース（Ｉ／Ｆ）１４、ＬＣＤ（タッチパネル）１５、マイク１６、Ａ／Ｄコンバータ１７、音源１８、ミキサ（エフェクタ）１９、サウンドシステム（ＳＳ）２０、スピーカ２１、ＭＰＥＧ等のデコーダ２２、表示処理部２３、モニタ２４、操作部２５、および送受信部２６を備えている。

装置全体の動作を制御するＣＰＵ１１には、ＲＡＭ１２、ＨＤＤ１３、ネットワークインタフェース（Ｉ／Ｆ）１４、ＬＣＤ（タッチパネル）１５、Ａ／Ｄコンバータ１７、音源１８、ミキサ（エフェクタ）１９、ＭＰＥＧ等のデコーダ２２、表示処理部２３、操作部２５、および送受信部２６が接続されている。

ＨＤＤ１３は、ＣＰＵ１１の動作用プログラムが記憶されている。ワークメモリであるＲＡＭ１２には、ＣＰＵ１１の動作用プログラムを実行するために読み出すエリア、カラオケ曲を演奏するために楽曲データを読み出すエリア、ガイドメロディ等のリファレンスデータを読み出すエリア、予約リストや採点結果等のデータを一時記憶するエリア、等が設定される。

また、ＨＤＤ１３は、カラオケ曲を演奏するための楽曲データを記憶している。さらに、ＨＤＤ１３は、モニタ２４に背景映像を表示するための映像データも記憶している。映像データは動画、静止画の両方を記憶している。楽曲データや映像データは、定期的にセンタ１から配信され、更新される。

ＣＰＵ１１は、カラオケ装置を統括的に制御する制御部であり、機能的にシーケンサを内蔵し、カラオケ演奏を行う。また、ＣＰＵ１１は、音声信号生成処理、映像信号生成処理、採点処理、およびピアノロール表示処理を行う。これにより、ＣＰＵ１１は、本発明における画像生成手段として機能する。

タッチパネル１５および操作部２５は、カラオケ装置の前面に設けられている。ＣＰＵ１１は、タッチパネル１５から入力される操作情報に基づいて、操作情報に応じた画像をタッチパネル１５上に表示し、ＧＵＩを実現する。また、リモコン９も同様のＧＵＩを実現するものである。ＣＰＵ１１は、タッチパネル１５、操作部２５、または送受信部２６を介してリモコン９から入力される操作情報に基づいて、各種の動作を行う。

次に、カラオケ演奏を行うための構成について説明する。上述したように、ＣＰＵ１１は、機能的にシーケンサを内蔵している。ＣＰＵ１１は、ＲＡＭ１２の予約リストに登録された予約曲の曲番号に対応する楽曲データをＨＤＤ１３から読み出し、シーケンサでカラオケ演奏を行う。

楽曲データは、例えば図３に示すように、曲番号等が書き込まれているヘッダ、演奏用ＭＩＤＩデータが書き込まれている楽音トラック、ガイドメロディ用ＭＩＤＩデータが書き込まれているガイドメロディトラック、歌詞用ＭＩＤＩデータが書き込まれている歌詞トラック、バックコーラス再生タイミングおよび再生すべき音声データが書き込まれているコーラストラック、息継ぎのタイミングを示すブレス位置トラック、歌唱技法のタイミングを示す技法位置トラック、等からなっている。ガイドメロディトラック、ブレス位置トラック、および技法位置トラックは、本発明のリファレンスデータに対応する。リファレンスデータとは、歌唱者が歌唱の参考にするためのお手本データであり、各音を発する発音タイミング、音程、および発音長を示す情報が含まれている。なお、楽曲データの形式としては、この例に限るものではない。また、リファレンスデータの形式も、上述のようなＭＩＤＩ形式に限るものではない。例えばブレス位置を示すリファレンスデータとしては、ブレス位置のタイミング（楽曲先頭からの時間経過）を示したテキストデータ等であってもよい。また、リファレンスデータが音声データ（例えば歌唱音を録音したもの）である場合には、当該音声データからピッチを抽出して音程を抽出するとともに、該音程が抽出されるタイミングおよび長さから、発音タイミングおよび発音長を抽出することも可能である。また、音量（パワー）を検出することで無音区間を検出し、各音の間に無音区間が存在する場合には、当該無音区間が抽出されたタイミングをブレス位置のタイミングとして抽出することも可能である。また、所定期間内においてピッチが規則的に変動している場合には、当該機関について「ビブラート」が行われていると判定することで、歌唱技法が行われたタイミング（技法位置）を抽出することも可能である。

楽音トラックは、楽音を発生させる楽器の種類、タイミング、音程（キー）、強さ、長さ、定位（パン）、音響効果（エフェクト）等を示す情報が記録されている。ガイドメロディトラックは、お手本の歌唱に対応する各音の発音開始タイミング、発音の長さ等の情報が記録されている。

シーケンサは、楽音トラックのデータに基づいて音源１８を制御し、カラオケ曲の楽音を発生する。

また、シーケンサは、コーラストラックの指定するタイミングでバックコーラスの音声データ（楽曲データに付随しているＭＰ３等の圧縮音声データ）を再生する。また、シーケンサは、歌詞トラックに基づいて曲の進行に同期して歌詞の文字パターンを合成し、この文字パターンを映像信号に変換して表示処理部２３に入力する。

音源１８は、シーケンサの処理によってＣＰＵ１１から入力されたデータ（ノートイベントデータ）に応じて楽音信号（デジタル音声信号）を形成する。形成した楽音信号はミキサ１９に入力される。

ミキサ１９は、音源１８が発生した楽音信号、コーラス音、およびマイク（歌唱音声入力手段）１６からＡ／Ｄコンバータ１７を介して入力された歌唱者の歌唱音声信号に対してエコー等の音響効果を付与するとともに、これらの信号をミキシングする。

また、異なる場所に設置されているカラオケ装置７同士で通信を行い、デュエットを行う場合には、他のカラオケ装置から歌唱音声信号が送信される。ミキサ１９には、当該他のカラオケ装置から受信した歌唱音声信号も入力され、自装置のマイク１６から入力された歌唱音声信号とミキシングされる。

ミキシングされた各デジタル音声信号はサウンドシステム２０に入力される。サウンドシステム２０は、Ｄ／Ａコンバータおよびパワーアンプを内蔵しており、入力されたデジタル信号をアナログ信号に変換して増幅し、スピーカ（楽音発生手段）２１から放音する。ミキサ１９が各音声信号に付与する効果およびミキシングのバランスは、ＣＰＵ１１によって制御される。

ＣＰＵ１１は、上記シーケンサによる楽音の発生、歌詞テロップの生成と同期して、ＨＤＤ１３に記憶されている映像データを読み出して背景映像等を再生する。動画の映像データは、ＭＰＥＧ形式にエンコードされている。

また、ＣＰＵ１１は、歌唱者を表す写真、またはキャラクタ等の映像データをセンタ１からダウンロードして表示処理部２３に入力することもできる。歌唱者を表す写真は、その場でカラオケ装置またはリモコン９に設けられたカメラ（不図示）で撮影したり、ユーザが所有する携帯端末等に設けられたカメラで撮影したりすることも可能である。

ＣＰＵ１１は、読み出した背景映像の映像データをデコーダ２２に入力する。デコーダ２２は、入力されたＭＰＥＧ等のデータを映像信号に変換して表示処理部２３に入力する。表示処理部２３には、背景映像の映像信号以外に上記歌詞テロップの文字パターンとともに、ガイドメロディトラックに基づくピアノロールの映像信号も入力される。

図４は、ピアノロールの一例を示す図である。ピアノロールは、図４（Ａ）に示すように、縦軸が音階（ピアノの鍵盤が縦になった状態）、横軸が時間に対応した画面上に、各音の発音開始タイミングと発音の長さに応じた線状の画像を表示するものである。これにより、歌唱者は、各音を歌唱するタイミングと音程を視覚的に把握することができる。ここで、本実施形態のピアノロールでは、各音の線状画像が連結されて表示されるとともに、息継ぎタイミングで線状画像が離散して表示される。

ＣＰＵ１１は、まずガイドメロディトラックに含まれている各音の発音開始タイミングおよび発音の長さの情報に基づいて、線状画像を生成する。そして、ＣＰＵ１１は、各音の線状画像を滑らかに連結する。各音の連結部分の傾きは、例えば１６分音符に対応する時間長で連結させる等、一律に同じ傾きの画像として表示させる態様とする。ただし、実際には各曲に個別の歌い方が存在し、音程の変化の態様は一律ではない。したがって、各音の連結部分毎に異なる傾きで表示されることが好ましい。この場合、リファレンスデータとして、各音の連結部分の音程の変化に応じた傾きを指定する情報が含まれていてもよい。

その後、ＣＰＵ１１は、ブレス位置トラックが示す息継ぎタイミングで線状画像を離散させる。例えば、図４（Ａ）の例では、「あかい」の発音の後と、「はなが」の冒頭の発音タイミングとの間に息継ぎタイミングが存在するため、「あかい」の線状画像と、「はなが」の線状画像とを離散させる。

これにより、歌唱者は、各音のつなげ方および息継ぎのタイミングを視覚的に把握することができる。例えば図４（Ａ）の例では、歌唱者は、「あかい」の各音の音程を１音ずつ滑らかに変化させながら歌唱を行い、息継ぎを行った後に「はなが」の各音の音程を１音ずつ滑らかに変化させながら歌唱を行う旨を、視覚的に容易に把握することができる。また、ＣＰＵ１１は、ブレス位置トラックが示す息継ぎタイミングで線状画像を離散させるため（リファレンスデータに息継ぎタイミングを示す情報が含まれているため）、単なる無音区間と息継ぎの区間と明確に区別して表示することができ、ユーザに対して正確な息継ぎの位置を把握させることができる。

なお、図３では、１つの楽曲データにブレス位置トラックおよび技法位置トラックが含まれている例を示したが、既存の楽曲データはそのままで、ブレス位置トラックおよび技法位置トラックは、別のデータとして用意してもよい。この場合、ブレス位置トラックおよび技法位置トラックが含まれた新たな楽曲データを用意する必要はない。ただし、ブレス位置トラックおよび技法位置トラックのデータには、それぞれ曲番号等の曲識別情報を記載しておく。ＣＰＵ１１は、楽曲データを読み出すときに、対応するブレス位置トラックおよび技法位置トラックを読み出し、シーケンス動作を行う。

なお、同じ音程で続けて異なる歌詞を発音する場合、線状画像が連結されていると、ユーザは、どのタイミングで次の歌詞を発音するのか把握し難い可能性がある。そこで、ＣＰＵ１１は、図４（Ｂ）に示すように、ガイドメロディトラックにおける各音の発音タイミングにおいて、例えば線状画像の上に円画像を重畳して表示する。これにより、ユーザは、当該円画像が表示されているタイミングで発音を行う旨を把握することができる。

次に、図４（Ｃ）は、促音の音素に係る線状画像と、該促音の音素の後の線状画像と、を離散させて表示する態様である。促音は、日本語のかな表記では「っ」「ッ」で表されるものであり、後に続く音との間が無音となるものである。ＣＰＵ１１は、歌詞トラックの中から促音を抽出し、抽出した促音を発するタイミングにおいて、線状画像を離散させる。図４（Ｃ）の例では、「つかったら」の「か」の後に促音が存在するため、「か」の線状画像と、その後の「た」の線状画像とを離散させて表示する。また、図４（Ｃ）の例では、促音に係る音素が存在する旨を示す画像（この例では「っ」と記載された四角画像）を表示する態様としている。

これにより、歌唱者は、音をつなげて発音するのか、促音が存在して音が途切れるのか、等を容易に把握することができる。

次に、図５（Ａ）は、線状画像で音量を表す場合の例である。この場合、ガイドメロディトラックには、各音の音量を示す情報が含まれている。ＣＰＵ１１は、ガイドメロディトラックに含まれている各音の音量を示す情報に基づいて、線状画像の線の太さを変更する。例えば、図５（Ａ）の例では、「あかい」のうち、「あ」の音が最も音量が大きいため、「あ」を表す区間は太い線に変更する。「か」の音は音量が小さいため、「か」を表す区間は細い線に変更する。この例では、ガイドメロディトラックに含まれている音量を示す情報が、「大」、「標準」、および「小」の３段階であり、線の太さを３段階に変更する態様としているが、さらに多段階に線の太さを変更する態様としてもよい。

なお、図５（Ａ）の例では、連結部分の中間位置において線の太さを変更する態様としているが、各音の冒頭または各音の末尾の位置において線の太さを変更する態様としてもよい。また、音量を各音の末尾から次の音の冒頭まで徐々に線の太さが変化する態様としてもよい。

次に、図５（Ｂ）は、さらに線の色で音量を表す態様である。ＣＰＵ１１は、ガイドメロディトラックに含まれている各音の音量を示す情報に基づいて、線状画像の線の色を変更する。例えば、図５（Ｂ）の例では、「か」の音は音量が小さいため、「か」を表す区間は薄い色の線に変更する。この例では、ガイドメロディトラックに含まれている音量を示す情報が「小」の場合に、当該「小」の音の区間を薄い色に変更する態様としているが、音量「大」の音の区間を濃い色に変更してもよいし、線の太さを変更せずに色だけを変更する態様としてもよい。

次に、図６は、歌唱技法をピアノロール上に表示する例を示したものである。図６（Ａ）の例では、ビブラートの区間の線状画像を波線に変更して表示するものである。この場合、ＣＰＵ１１は、技法位置トラックに含まれているビブラートのタイミングを示す情報を読み出し、当該タイミングに対応する音の線状画像のうち、当該タイミングから末尾までの区間を波線に変更する。これにより、歌唱者は、より直感的にビブラートを行うタイミングおよびビブラートの長さを把握し易くなる。

また、図６（Ｂ）に示すように、技法位置トラックに「タメ」の情報が含まれている場合には、当該「タメ」の情報に対応する音（この例では「か」の音）の先頭の位置を遅らせる。これにより、歌唱者は、当該特定の音（この例では「か」の音）の歌いだしを故意に遅らせる「タメ」を直感的に把握し易くなる。

また、技法位置トラックに「しゃくり」の情報が含まれている場合には、リファレンスの音程よりも低い音程から元の音程に上昇させる線状画像とする。図６（Ｂ）の例では、冒頭の「あ」の音および「は」の音が「しゃくり」であり、リファレンスの音程よりも低い音程から持ち上げつつ歌唱を行う箇所である。したがって「あ」の区間の冒頭は、リファレンスの音程よりも低い音程から元の音程に上昇させる線状画像とする。これにより、歌唱者は、線状画像から「しゃくり」の歌唱技法を直感的に把握できるようになっている。

また、技法位置トラックに「コブシ」の情報が含まれている場合には、図６（Ｂ）の「な」の音に示すように、「コブシ」のタイミングに対応する位置で線状画像を一時的に上昇させる。これにより、特定の音の声色を発音の途中でうなるように変化させる歌唱技法である「コブシ」に対応する線状画像とすることも可能である。また、技法位置トラックに「フォール」の情報が含まれている場合には、図６（Ｂ）の「が」の音に示すように、「フォール」のタイミングに対応する位置から線状画像を低い音程に変化させる態様とすることで、「フォール」の歌唱技法に対応する線状画像とすることも可能である。

図６（Ｃ）は、歌唱技法を促す画像を表示する例である。ＣＰＵ１１は、技法位置トラックに含まれている各種歌唱技法のタイミングを示す情報を読み出し、当該タイミングに対応する位置に歌唱技法を促す画像を表示する。例えば、冒頭の「あ」についてはしゃくりであり、リファレンスの音程よりも低い音程から持ち上げつつ歌唱を行う箇所である。したがって「あ」の区間の冒頭に「ノ」のような音程が上がることを連想させる画像を表示する。また、ビブラートの区間については波線状の線状画像に加えて、別途「ｍ」のような波線状の画像を表示する。これにより、歌唱者は、どのタイミングでどのような歌唱技法を行うか、容易に把握することができる。

さらに、ＣＰＵ１１は、ブレス位置トラックが示す息継ぎタイミングを示す情報に基づいて、息継ぎを促す画像を、線状画像とともに表示する。例えば、図６（Ｃ）の例では、「あかい」の区間と「はなが」の区間の間に「Ｖ」のような画像を表示する。これにより、歌唱者は、音をつなげて発音するのか、息継ぎを行うのか、より容易に把握することができる。

以上の様にして、カラオケ演奏が行われ、演奏の進行にしたがってピアノロールが表示される。このように各音が滑らかに連結された線状画像を表示することで、従来のピアノロールに比べて、歌唱者は、線状画像を見ながら各音を滑らかにつなげて歌唱したり息継ぎを行ったりすることが容易になる。

次に、採点処理について説明する。採点処理は、歌唱者の歌唱音声をガイドメロディトラックと比較することによって行われる。採点は、ガイドメロディトラックのノート毎に、歌唱音声とガイドメロディの音程（ピッチ）を比較することによって行われる。すなわち、歌唱音声の音程が、所定時間以上、ガイドメロディトラックの音程に合っていた（許容範囲に入っていた）場合には、高い得点を付与する。また、音程変化のタイミングも得点に考慮される。さらに、音程変化のタイミング、ビブラート、抑揚、しゃくり（低い音程からなだらかに移行すること）等の歌唱技法の有無に基づいて加点も行われる。

さらに、本実施形態の採点処理では、ブレス位置トラックに含まれる息継ぎタイミングにおいて歌唱者が息継ぎを行ったか否かも加点対象とする。息継ぎを行ったか否かは、当該息継ぎタイミングを含む所定時間内においてマイク１６から音声が入力されていない（入力レベルが所定閾値未満である）またはマイク１６から息継ぎ音が入力された場合に、息継ぎを行ったと判定し、マイク１６から音声が入力された（入力レベルが所定閾値以上である）場合に、息継ぎが行われていないと判定する。なお、息継ぎ音が収音されたか否かは、例えばパターンマッチング等で息継ぎ音の波形と対比することで判断する。

また、本実施形態の採点処理では、技法位置トラックに含まれる各技法のタイミングにおいて、同じ技法を検出した場合に、より高い得点を付与することが好ましい。

なお、採点処理は、各カラオケ装置において行ってもよいが、センタ１（または他のサーバ）で行ってもよい。また、ネットワークを介して他のカラオケ装置とデュエットを行っている場合には、代表的に処理を行うカラオケ装置１台で採点処理を行ってもよい。

次に、カラオケシステムの動作についてフローチャートを参照して説明する。図７は、カラオケシステムの動作を示すフローチャートである。

まず、歌唱者は、楽曲のリクエストを行う（ｓ１１）。このとき、デュエット曲が選択された場合に、ＣＰＵ１１は、モニタ２４において、ネットワークを介して接続された他のカラオケ装置の歌唱者とデュエットを行うか否かを促す画像を表示し、ネットワーク経由のデュエット歌唱を受け付ける。例えば、歌唱者がタッチパネル１５、操作部２５、またはリモコン９を用いて特定のユーザの氏名を入力すると、センタ１で当該氏名に係るユーザが検索され、デュエット相手として設定される。

次に、カラオケ装置のＣＰＵ１１は、リクエストされた楽曲データを読み出し（ｓ１２）、ピアノロールを作成する（ｓ１３）。すなわち、ＣＰＵ１１は、ガイドメロディトラックに含まれている各音の発音開始タイミングおよび発音の長さの情報に基づいて、線状画像を生成する。

その後、ＣＰＵ１１は、歌詞トラックを読み出して（ｓ１４）、各線状画像に歌詞の画像を対応付ける（ｓ１５）。また、ＣＰＵ１１は、ブレス位置トラックから息継ぎタイミングの情報を読み出すとともに、促音の音素に係る発音タイミングを読み出す（ｓ１６）。そして、ＣＰＵ１１は、各音の線状画像を滑らかに連結する（ｓ１７）。このとき、ＣＰＵ１１は、ブレス位置トラックが示す息継ぎタイミング、および促音の音素に係る発音タイミングにおいて、線状画像を離散させて表示する。

また、ＣＰＵ１１は、技法位置トラックを読み出して（ｓ１８）、歌唱技法をピアノロール上に表示する（ｓ１９）。また、ＣＰＵ１１は、歌唱技法に応じて線状画像を変更する。例えば、ビブラートの区間は、線状画像を波線に変更して表示する。

また、ＣＰＵ１１は、ガイドメロディトラックに含まれている各音の音量を示す情報を読み出し（ｓ２０）、各音の音量に応じた線状画像に変更する（ｓ２１）。例えば、図５（Ａ）に示したように、音量に応じて線の太さを変更したり、図５（Ｂ）に示したように、音量に応じて線の色を変更したりする。

なお、本実施形態では、カラオケ装置７を用いてカラオケ演奏およびピアノロールの表示を行う態様を示したが、例えばユーザの所有するＰＣやスマートフォン、ゲーム機等の情報処理装置（マイク、スピーカ、および表示部の構成を備えたもの）を用いることでも、本発明の表示装置を実現することが可能である。なお、楽曲データおよびリファレンスデータは、表示装置に記憶されている必要はなく、サーバから都度ダウンロードして利用するようにしてもよい。

なお、ＣＰＵ１１は、図８に示すように、現在の歌唱位置にキャラクタを表示する態様としてもよい。この例では、線状画像が地面の画像に対応し、息継ぎタイミングにおいて地面の画像が途切れるようになっている。そして、キャラクタ画像１０１が線状画像（地面の画像）に沿って移動するように、線状画像および背景をスクロールさせる。息継ぎタイミングにおいては、地面が途切れるため、息継ぎ（マイク１６から音声が入力されていない状態）を検出しなかった場合に、キャラクタ画像１０１が地面から落ちるようになっている。また、この例では、歌唱採点の結果が画面上に表示される。したがって、歌唱者は、ゲームのように楽しんでカラオケを行うことができる。

また、線状画像は、図８のような客観視点（２次元表示）で表示される態様であってもよいが、例えば図９に示すような主観視点（３次元表示）で表示される態様であってもよい。主観視点とは、ユーザ自身の視野を模した表示態様である。ここでは、奥行き方向を時間軸に対応させ、平面方向を音程に対応させた表示態様を示す。例えば、図９に示すように、奥行き方向が時間に対応し、上下方向が音階に対応した表示態様である。なお、図９の例では、ユーザ自身に相当する画像（キャラクタ画像等）を表示し、当該キャラクタ画像等を背後から映すように表示する態様であり、当該表示態様も主観視点に相当する。なお、音階は左右方向に対応していてもよい。この場合、キャラクタ画像１０１Ａが線状画像に沿って奥行き方向に移動するように、線状画像および背景をスクロールさせる。この例でも、歌唱採点の結果が画面上に表示される。したがって、歌唱者は、ゲームのように楽しんでカラオケを行うことができる。

また、図９に示すように、主観視点で表示する場合には、デュエット歌唱を行う場合に、自身に相当するキャラクタ画像１０１Ａと他の歌唱者に相当するキャラクタ１０１Ｂ（およびキャラクタ画像１０１Ｃ）とを並行して表示することも可能である。これにより、ユーザは、他の歌唱者と一緒に歌唱を行っている雰囲気をより感じ取ることができる。

また、本実施形態では、カラオケにおけるガイドメロディを線状画像として表示する例を示したが、例えば吹奏楽器演奏のお手本の音程変化を線状画像として表示し、息継ぎタイミングで線状画像が途切れる態様としても同様の効果が得られる。また、例えば語学学習において、お手本の発音タイミングおよび発音長を示す線状画像を表示し、息継ぎタイミングおよび促音で線状画像が途切れる態様としても、同様の効果が得られる。

なお、図１０に示すように、本発明のリファレンス表示装置は、表示部であるモニタ２４と、線状画像表示処理を行う画像生成手段として機能するＣＰＵ１１と、を備え、当該ＣＰＵ１１が、ＨＤＤ１３に記憶されている楽曲データ（本発明のリファレンスデータの一例である。）に基づいて線状画像を生成して、線状画像の各音を連結させる態様とすればよい。他のハードウェア構成は、本発明において必須の要素ではない。

また、上述したように、リファレンスデータは、ＨＤＤ１３に記憶されている必要はなく、外部（例えばサーバ）から都度ダウンロードして利用するようにしてもよい。また、デコーダ２２、表示処理部２３、およびＲＡＭ１２も、ＣＰＵ１１の機能の一部として当該ＣＰＵ１１が内蔵していてもよい。

なお、線状画像は、ピアノロール（縦軸がピアノの鍵盤に対応し、横軸方向に沿って実線が表示されたもの）として表示することは必須ではない。例えば、図８および図９に示したように、発音タイミング、音程、および発音長を示す線状画像を生成して各音を連結させる態様であれば、どの様な表示態様であってもよい。なお、本発明で言う線状画像とは、図４乃至図６で示した細長い線に限るものではなく、図９の例に示したように、左右または上下方向にある程度の幅を有した画像が一方向（図９の例では奥行き方向）に延びるものも含む。

１…センタ
２…ネットワーク
３…カラオケ店舗
５…中継機
７…カラオケ装置
９…リモコン
１１…ＣＰＵ
１２…ＲＡＭ
１３…ＨＤＤ
１５…タッチパネル
１６…マイク
１７…Ａ／Ｄコンバータ
１８…音源
１９…ミキサ
２０…サウンドシステム
２２…デコーダ
２３…表示処理部
２４…モニタ
２５…操作部
２６…送受信部

Claims

表示部と、
リファレンスデータに基づいて、発音タイミング、音程、および発音長を示す線状画像を生成し、前記表示部に表示する画像生成手段と、
を備えたリファレンス表示装置であって、
前記リファレンスデータには、息継ぎタイミングを示す情報が含まれ、
前記画像生成手段は、前記線状画像の各音を連結させるとともに、前記息継ぎタイミングを示す情報に基づいて、該息継ぎタイミングの前後の音を離散させて表示することを特徴とするリファレンス表示装置。
前記画像生成手段は、促音に係る音素に係る線状画像と、該促音に係る音素の後の線状画像と、を離散させて表示する請求項１に記載のリファレンス表示装置。
前記画像生成手段は、前記息継ぎタイミングを示す情報に基づいて、息継ぎを促す画像を、前記線状画像とともに表示させる請求項１または請求項２に記載のリファレンス表示装置。
前記画像生成手段は、各音の発音タイミングを示す画像を、前記線状画像に重畳して表示する請求項１乃至請求項３のいずれかに記載のリファレンス表示装置。
前記リファレンスデータには、各音の音量を示す情報が含まれ、
前記画像生成手段は、前記各音の音量を示す情報に基づいて、前記線状画像を前記音量に応じた画像に変更して表示する請求項１乃至請求項４のいずれかに記載のリファレンス表示装置。
前記線状画像は、主観視点で表示される請求項１乃至請求項５のいずれかに記載のリファレンス表示装置。
表示部を備えた情報処理装置に、
リファレンスデータに基づいて、発音タイミング、音程、および発音長を示す線状画像を生成し、前記表示部に表示する画像生成ステップを実行させるプログラムであって、
前記リファレンスデータには、息継ぎタイミングを示す情報が含まれ、
前記画像生成ステップは、前記線状画像の各音を連結させるとともに、前記息継ぎタイミングを示す情報に基づいて、該息継ぎタイミングの前後の音を離散させて表示することを特徴とするプログラム。