<実施形態>
図1〜図6Bを参照して、本実施形態に係るカラオケ装置1について説明する。
==カラオケ装置==
カラオケ装置1は、利用者が選曲した楽曲のカラオケ演奏、及び利用者がカラオケ歌唱を行うための装置である。図1に示すように、カラオケ装置1は、カラオケ本体10、スピーカ20、表示装置30、マイク40、及びリモコン装置50を備える。
スピーカ20はカラオケ本体10からの放音信号に基づいて放音するための構成である。表示装置30はカラオケ本体10からの信号に基づいて映像や画像を画面に表示するための構成である。マイク40は利用者の歌唱音声(マイク40への入力音声)をアナログの歌唱音声信号に変換してカラオケ本体10に入力するための構成である。
(カラオケ本体のハードウェア)
図1に示すように、カラオケ本体10は、制御部11、通信部12、記憶部13、音響処理部14、表示処理部15及び操作部16を備える。各構成はインターフェース(図示なし)を介してバスBに接続されている。
カラオケ本体10は、選曲された楽曲のカラオケ演奏制御、歌詞や背景画像等の表示制御、マイク40を通じて入力された歌唱音声信号の処理といった、カラオケ歌唱に関する各種の制御を行う。
制御部11は、CPUおよびメモリ(いずれも図示無し)を備える。CPUは、メモリに記憶された動作プログラムを実行することにより各種の制御機能を実現する。メモリは、CPUに実行されるプログラムを記憶したり、プログラムの実行時に各種情報を一時的に記憶したりする記憶装置である。
通信部12は、ルーター(図示なし)を介してカラオケ本体10を通信回線に接続するためのインターフェースを提供する。
記憶部13は、各種のデータを記憶する大容量の記憶装置であり、たとえばハードディスクドライブなどである。記憶部13は、カラオケ装置1によりカラオケ演奏を行うための複数の楽曲データを記憶する。
楽曲データは、個々の楽曲を特定するための識別情報(楽曲ID)が付与されている。楽曲データは、伴奏データ、リファレンスデータ、背景画像データ、歌詞データ、及び属性情報を含む。伴奏データは、カラオケ演奏音の元となるMIDI形式のデータである。リファレンスデータは、利用者によるカラオケ歌唱を採点する際の基準として用いられるデータである。リファレンスデータは、ピッチ(音高)データ、音長データ、タイミングデータ等を含む。背景画像データは、カラオケ演奏時に合わせて表示装置30等に表示される背景画像に対応するデータである。歌詞データは、表示装置30等に表示させる歌詞(歌詞テロップ)に関するデータである。属性情報は、曲名、歌手名、作詞・作曲者名、及びジャンル等の当該楽曲に関する情報である。また、本実施形態に係る属性情報には、歌詞の言語を示す言語情報が含まれる。たとえば、日本語の歌詞の楽曲データであれば、属性情報として「日本語」という言語情報を含む。
ここで、楽曲の中には歌詞が外国語の楽曲が存在する。外国語は、母国語以外の言語である。たとえば、日本語を母国語とする利用者にとって、英語や中国語でカラオケ歌唱する必要がある楽曲(歌詞が英語や中国語の楽曲)は外国語の楽曲に相当する。また、英語を母国語とする利用者にとって、日本語でカラオケ歌唱する必要がある楽曲(歌詞が日本語の楽曲)は外国語の楽曲に相当する。
本実施形態における外国語の楽曲の楽曲データは、伴奏データ等の他に、発音リファレンスデータ及びルビデータを含む。なお、外国語の楽曲の歌詞データは、外国語による歌詞テロップを表示するためのデータである。たとえば、英語の楽曲の歌詞データは、複数の英単語により構成されている。
発音リファレンスデータは、外国語の楽曲をカラオケ歌唱した際の発音を評価するためのデータである。発音リファレンスデータは、「基準情報」の一例である。
具体的に、発音リファレンスデータは、楽曲の歌詞に含まれる単語毎の正確な発音を示すデータであり、たとえば、外国語を母国語とする者(以下、「ネイティブ」という場合がある)が発音した音声を変換したデータである。
上述のリファレンスデータは、カラオケ歌唱における音程やリズム等を含めた総合的な歌唱評価の基準として用いられる。一方、発音リファレンスデータは、カラオケ歌唱において発声されたある単語の発音が、ネイティブの発音にどれだけ近似しているかを評価するための基準として用いられる。
ルビデータは、歌詞テロップに対して母国語のルビを付すための文字データである。たとえば、ルビデータは、英語(外国語)の歌詞テロップに対して日本語(母国語)のルビを付すために使用される。
音響処理部14は、制御部11の制御に基づき、楽曲に対する演奏の制御およびマイク40を通じて入力された歌唱音声信号の処理を行う。音響処理部14は、たとえばMIDI音源、ミキサ、アンプ(いずれも図示なし)を含む。制御部11は、予約された楽曲の伴奏データを、テンポクロック信号に基づいて順次読み出し、MIDI音源に入力する。MIDI音源は、当該伴奏データに基づいて楽音信号を生成する。ミキサは、当該楽音信号およびマイク40から出力される歌唱音声信号を適当な比率でミキシングしてアンプに出力する。アンプは、ミキサからのミキシング信号を増幅し、放音信号としてスピーカ20へ出力する。これにより、スピーカ20からは放音信号に基づくカラオケ演奏音およびマイク40からの歌唱音声が放音される。
表示処理部15は、制御部11の制御に基づき、表示装置30における各種表示に関する処理を行う。たとえば、表示処理部15は、カラオケ演奏時における背景画像に歌詞や各種アイコンが重ねられた映像を表示装置30に表示させる制御を行う。
操作部16は、パネルスイッチおよびリモコン受信回路などからなり、利用者によるカラオケ装置1のパネルスイッチあるいはリモコン装置50の操作に応じて選曲信号、演奏中止信号などの操作信号を制御部11に対して出力する。制御部11は、操作部16からの操作信号を検出し、対応する処理を実行する。
リモコン装置50は、カラオケ本体10に対する各種操作をおこなうための装置である。利用者はリモコン装置50を用いて歌唱を希望するカラオケ楽曲の選曲(予約)等を行うことができる。
(カラオケ本体のソフトウェア)
図1に示すように、カラオケ本体10は、評価取得部100、統計算出部200、及び表示制御部300を備える。評価取得部100、統計算出部200、及び表示制御部300は、CPUがメモリに記憶されるプログラムを実行することにより実現される。
[評価取得部]
評価取得部100は、外国語の楽曲をカラオケ歌唱した際の発音を評価するための基準情報に基づいて、利用者の歌唱音声信号を評価し、楽曲の歌詞に含まれる単語毎の発音の評価結果を示す発音評価データを取得する。
評価結果は、利用者がある単語を発音した際に、どれくらいネイティブと近似した発音ができたかを評価することにより得られる。評価結果は、たとえば、1〜5の5段階(数字が大きいほどネイティブの発音に近似しているとする)の発音レベルとして設定できる。
具体例として、日本語を母国語とする利用者Aが英語(外国語)の楽曲Xのカラオケ歌唱を行ったとする。この場合、評価取得部100は、記憶部13から楽曲Xの発音リファレンスデータを読み出し、利用者Aのカラオケ歌唱により得られた歌唱音声信号と比較して単語毎に発音の評価を行う。たとえば、歌唱音声信号を解析して得られたある単語の特徴パターンが、当該ある単語の発音リファレンスデータに近い場合、評価取得部100は、当該単語の発音がネイティブと近似した発音であると評価する。この場合、評価取得部100は、当該単語について発音レベルが高い(上記例であれば数値「5」)という評価結果を設定する。評価取得部100は、楽曲Xに含まれる全ての単語について発音レベルを設定することで、利用者Aに対する発音評価データを取得する。評価取得部100は、取得した発音評価データを記憶部13に記憶させる。同様に、他の利用者が外国語のカラオケ歌唱を行った場合にも、評価取得部100は、利用者毎に取得した発音評価データを記憶部13に記憶させる。図2は、記憶部13に記憶された利用者A〜利用者C(いずれも日本語を母国語とする利用者)それぞれの発音評価データの一例である。ここでは、単語毎に、評価結果として「1」〜「5」の発音レベルが設定されている。
なお、評価取得部100は、ある利用者の発音評価データを取得するにあたり、当該ある利用者の母国語を特定する必要がある。この際、評価取得部100は、利用者毎に予め登録された利用者情報を参照して母国語を特定することができる。また、表示制御部300は、楽曲を予約する際にリモコン装置50に母国語を選択する画面を表示させる。ある利用者は、当該画面で自分の母国語を選択する。評価取得部100は、当該入力に基づいてある利用者の母国語を特定する。或いは、評価取得部100は、リモコン装置50の画面で表示されている使用言語に基づいて、利用者の母国語を特定することでもよい。
利用者の母国語を特定した後、評価取得部100は、予約された楽曲の言語と特定された母国語とが一致しているかどうかにより発音評価データの取得要否を判断する。
また、発音評価データは、外国語毎に取得される。たとえば、利用者Aが英語の楽曲と中国語の楽曲をカラオケ歌唱した場合、記憶部13には利用者Aの英語に対する発音評価データと中国語に対する発音評価データが別々に記憶される。また、取得された発音評価データは、歌唱履歴と合わせてサーバ(図示なし)に記憶されることでもよい。
[統計算出部]
統計算出部200は、母国語を同じくする複数の利用者の発音評価データに基づいて、単語毎の発音の統計的な評価結果を示す発音評価統計データを算出する。
具体的に、統計算出部200は、母国語を同じくする利用者の発音評価データを記憶部13から読み出す。そして、統計算出部200は、発音評価データに含まれる単語毎に評価結果の統計を求める。統計は、平均値や偏差値、分散値、標準偏差等、一般的な統計値として求めることができる。
たとえば、利用者A〜利用者Eがそれぞれ英語の楽曲Xのカラオケ歌唱を行ったとする。利用者A〜利用者Cの母国語は日本語であり、利用者D及び利用者Eの母国語は中国語であるとする。記憶部13には、楽曲Xのカラオケ歌唱に基づいて取得された各利用者の発音評価データが記憶されているとする。
この場合、統計算出部200は、利用者A〜利用者Cの英語に対する発音評価データを記憶部13から読み出し、単語毎に評価を行う。たとえば、図2に示した英単語「love」の評価結果は、利用者Aが「4」、利用者Bが「3」、利用者Cが「5」である。統計算出部200は、各評価結果の平均値である「4」を英単語「love」に対する統計的な評価結果として算出する。
統計算出部200は、楽曲Xに含まれる全ての単語について同様の処理を行うことで、利用者A〜利用者Cの発音評価統計データ(母国語を同じくする利用者のデータ)を算出する。統計算出部200は、算出した発音評価統計データを記憶部13に記憶させる。図3は、利用者A〜利用者Cの発音評価データに基づく発音評価統計データを示した図である。
発音評価統計データには、母国語を特定する情報が関連付けられている。また、発音評価統計データに含まれる各単語には、母数(統計に使用された数)が関連付けられている。図3に示した発音評価統計データであれば、母国語として「日本語」が関連付けられており、各単語(「love」、「midnight」、「of」、「promises」、「weak」)にはそれぞれ母数「3」が関連付けられている。
なお、ある時期にヒットした洋楽曲等、良くカラオケ歌唱される楽曲に含まれる単語については、母数が急激に増加することがある。母数が多くなるにつれて、発音評価統計データの変化は乏しくなる。従って、統計算出部200は、所定数の発音評価データに基づいて、発音評価統計データを算出することが好ましい。更に、母数の増加に伴い、利用者全体でみた場合の発音スキルが向上することが考えられる。そこで、統計算出部200は、取得時期が比較的新しい発音評価データ(たとえば、直近100回の発音評価データ)に基づいて、発音評価統計データを算出することが好ましい。
また、上記例では、楽曲Xの歌詞に含まれる単語毎の発音の評価結果を示す発音評価データを用いて発音評価統計データを算出したが、これに限られない。たとえば、利用者Aが英語の楽曲Xのカラオケ歌唱を行い、利用者Bが英語の楽曲Yのカラオケ歌唱を行い、利用者Cが英語の楽曲Zのカラオケ歌唱を行ったとする。また、いずれの楽曲の歌詞にも英単語「love」が含まれていたとする。この場合、統計算出部200は、それぞれの楽曲に含まれる英単語「love」の発音レベルに基づいて、統計的な評価結果を算出することも可能である。更に、楽曲が異なる場合、いずれか一の楽曲にしか含まれていない単語がある可能性が高い。このような場合、統計算出部200は、当該単語の発音レベルを、母国語を同じくする利用者の評価結果として発音評価統計データを求めることでもよい。一方、いずれか一の楽曲にしか含まれていない単語がある場合、統計算出部200は、当該単語の評価結果を除いて、発音評価統計データを求めることでもよい。
ここで、統計算出部200は、母国語を同じくする利用者が外国語のカラオケ歌唱を行う都度(発音評価データが取得される都度)、記憶部13に既に記憶されている発音評価統計データを算出し直すことが好ましい。また、その都度、発音評価統計データに新たな単語に対する発音の評価結果を追加することも可能である。
具体的に、統計算出部200は、発音評価統計データに含まれている単語が再度カラオケ歌唱された場合には、当該単語に対する発音の評価結果を含めた統計的な評価結果を改めて算出することで発音評価統計データを変更し、発音評価統計データに含まれていない新たな単語がカラオケ歌唱された場合には、当該新たな単語に対する発音の評価結果を発音評価統計データに追加する。
たとえば、図3に示した発音評価統計データが記憶部13に記憶されたとする。その後、日本語を母国語とする利用者Fが英語の楽曲Xのカラオケ歌唱を行った場合、評価取得部100は、利用者Fの歌唱音声信号を評価し、発音評価データを取得する。
統計算出部200は、記憶部13から図3に示した発音評価統計データを読み出し、利用者Fの発音評価データを含めた統計的な評価結果を改めて算出する。たとえば、英単語「love」について、利用者Fの評価結果が「3」であったとする。この場合、統計算出部200は、記憶部13に記憶された利用者A〜利用者Cの英単語「love」の評価結果の平均値「4」(母数3)と、利用者Fの評価結果「3」に基づいて、統計的な評価結果を改めて求める。この例において、統計算出部200は、(統計的な評価結果「4」×母数「3」)+利用者Fの評価結果「3」/母数「4」=「3.75」を新たな統計的な評価結果として算出する。また、英単語「love」には新たに母数「4」を関連付ける。
統計算出部200は、楽曲Xに含まれる全ての単語について、統計的な評価結果を改めて算出し母数を更新することで、発音評価統計データの変更を行う。
一方、利用者Fが英語の楽曲Yのカラオケ歌唱を行ったとする。ここで、楽曲Yの中に楽曲Xに含まれていない英単語「death」が含まれていた場合、評価取得部100は、利用者Fのカラオケ歌唱により得られた歌唱音声信号、及び楽曲Yの発音リファレンスデータに基づいて、新たな単語「death」の発音を評価し、その評価結果を発音レベルの値として取得する。この場合、統計算出部200は、取得された評価結果を、母国語を日本語とする利用者の発音評価統計データに追加する。
[表示制御部]
表示制御部300は、表示処理部15を制御し、カラオケ装置1おける各種表示制御を行う。
本実施形態において、表示制御部300は、利用者が外国語の楽曲をカラオケ歌唱する際、歌詞テロップデータに基づいて外国語の歌詞テロップを表示させ、且つ当該歌詞テロップに含まれる単語毎に、当該利用者の母国語に対応する発音評価統計データに応じた表示態様でルビデータに基づく母国語のルビを表示する。
たとえば、日本語を母国語とする利用者Aが英語の楽曲Zをカラオケ歌唱するとする。また、日本語を母国語とする利用者の発音評価統計データとして図3に示すデータが記憶部13に記憶されているとする。
表示制御部300は、記憶部13から楽曲Zの歌詞テロップデータを読み出し、楽曲Zのカラオケ演奏に合わせて、表示装置30に英語の歌詞テロップを表示させる。また、表示制御部300は、記憶部13から楽曲Zのルビデータを読み出し、歌詞テロップの表示と合わせてルビを表示させる。
この際、表示制御部300は、歌詞テロップに含まれる単語が、図3に示す発音評価統計データに含まれているかどうかを確認する。歌詞テロップに含まれる単語が発音評価統計データに含まれている場合、表示制御部300は、当該単語の評価結果に応じた表示態様でルビを表示させる。
評価結果とルビの表示態様の関係は予め設定されている。図4は、評価結果としての発音レベルの値とルビの表示態様の関係を規定したテーブルデータである。図4においては、発音レベルの値が高くなればなるほど(ネイティブに近似した発音をすればするほど)、ルビの表示サイズが小さくなる(発音レベルが最大値の場合、ルビを表示させない)よう設定されている。このようなテーブルデータは、たとえば記憶部13に記憶されている。なお、テーブルデータを用いる代わりに、所定の変換式に基づいて関数的にルビの表示サイズを決定してもよい。
ここで、楽曲Zの歌詞テロップに単語「promises」が含まれているとする。この場合、表示制御部300は、図3に示す発音評価統計データから単語「promises」の発音レベルの値「1.7」を特定し、図4に示すテーブルデータを参照して発音レベルの値「1.7」に対応する表示態様を決定する。そして、表示制御部300は、単語「primises」のルビ「プロミスィズ」を通常サイズの1.5倍のサイズで表示させる(図5参照)。なお、図5の例では、単語「Do」は発音レベルの値が「5」であるため表示されず、単語「believe」及び「false」は発音レベルの値が「3」であるため通常サイズ(1.0倍)で表示され、単語「not」は発音レベルの値が「4」であるため、通常サイズよりも少し小さいサイズ(0.8倍)で表示されている。
一方、表示制御部200は、発音評価統計データに含まれていない新たな単語を歌詞テロップとして表示する場合、所定の表示態様でルビデータに基づくルビを表示する。
所定の表示態様は、予めルビデータにおいて設定されている。たとえば、ルビの表示サイズを変更する場合、所定の表示態様として通常サイズ(1.0倍)が設定される。
なお、表示態様の変更は、ルビの表示サイズの変更に限られない。たとえば、ルビの表示色や輝度を変更することでもよいし、ルビの表示時間や表示タイミングを変更する(発音レベルの値が低い単語は早めに表示する等)ことでもよい。或いは、ルビの字体を変更したり、ルビに下線を付したりすることでもよい。評価結果(発音レベル)とルビの表示態様(表示色、輝度、表示時間、表示タイミング、字体、下線の有無など)との関係は、前述したようにテーブルデータとして予め設定され、記憶部13に記憶されてもよいし、所定の変換式に基づいて関数的に表示態様を決定してもよい。また、これらを組み合わせることで表示態様の変更を行ってもよい。
==カラオケ装置1の動作について==
次に、図6A及び図6Bを参照して本実施形態におけるカラオケ装置1の動作の具体例について述べる。
[発音評価統計データの取得]
図6Aは、発音評価統計データを取得する際のカラオケ装置1の動作例を示すフローチャートである。
日本語を母国語とする利用者が英語の楽曲Xのカラオケ歌唱を行った場合、カラオケ装置1は、日本語を母国語とする利用者が英語の楽曲を歌唱した場合の発音評価統計データを、記憶部13から読み出し(発音評価統計データの読み出し。ステップ10)、マイク40を介して得られた音声に基づいて歌唱音声信号を取得する(歌唱音声信号の取得。ステップ11)。
評価取得部100は、記憶部13から楽曲Xの発音リファレンスデータを読み出し、ステップ11で得られた歌唱音声信号と比較することで、楽曲Xの歌詞に含まれる単語毎に発音の評価を行い、発音評価データを取得する(発音評価データの取得。ステップ12)。
ステップ10で読み出された発音評価統計データに含まれている単語が再度カラオケ歌唱された場合(ステップ13でYの場合)、統計算出部200は、当該単語に対する発音の評価結果を含めた統計的な評価結果を改めて算出することで発音評価統計データを変更する(発音評価統計データの変更。ステップ14)。統計算出部200は、ステップ14で算出した発音評価統計データを記憶部13に記憶させる(発音評価統計データの記憶。ステップ15)。一方、発音評価統計データに含まれていない新たな単語がカラオケ歌唱された場合(ステップ13でNの場合)、統計算出部200は、当該新たな単語に対する発音の評価結果を発音評価統計データに追加して記憶する(評価結果を発音評価統計データに追加して記憶。ステップ16)。統計算出部200は、楽曲Xに含まれる全ての単語について統計的な評価結果を算出するまで(ステップ17でYの場合まで)、ステップ11〜ステップ16の処理を繰り返し行う。
[ルビの表示]
図6Bは、ルビを表示させる際のカラオケ装置1の動作例を示すフローチャートである。この例では、図6Aに示した処理により、日本語を母国語とする利用者の英語に対する発音評価統計データが既に取得され、記憶部13に記憶されているとする。
ここで、日本語を母国語とする利用者が英語の楽曲Yのカラオケ歌唱を行う場合、表示制御部300は、記憶部13から楽曲Yの歌詞テロップデータを読み出し、カラオケ演奏に合わせて表示装置30に歌詞テロップを表示させる(歌詞テロップの表示。ステップ20)。なお、利用者の母国語は、たとえば、利用者がカラオケ装置1にログインした際、利用者について予め登録された利用者情報に基づいて特定される。
この際、表示制御部300は、表示される歌詞テロップに含まれる単語が記憶部13に記憶されている発音評価統計データに含まれているかどうかを確認する。表示される歌詞テロップに含まれる単語が発音評価統計データに含まれている場合(ステップ21でYの場合)、表示制御部300は、歌詞テロップの表示に合わせて、発音評価統計データに応じた表示態様でルビを表示させる(発音評価統計データに応じた表示態様でルビを表示。ステップ22)。
一方、表示される歌詞テロップに含まれる単語が発音評価統計データに含まれていない場合(ステップ21でNの場合)、表示制御部300は、歌詞テロップの表示に合わせて、予め設定された所定の表示態様でルビを表示させる(所定の表示態様でルビを表示。ステップ23)。
表示制御部300は、楽曲Yの歌詞テロップ及びルビを全て表示するまで(ステップ24でYの場合)、ステップ20〜ステップ23の処理を繰り返し行う。
以上から明らかなように、本実施形態に係るカラオケ装置1は、外国語の楽曲をカラオケ歌唱した際の発音を評価するための発音リファレンスデータに基づいて、利用者の歌唱音声信号を評価し、楽曲の歌詞に含まれる単語毎の発音の評価結果を示す発音評価データを取得する評価取得部100と、母国語を同じくする複数の利用者の発音評価データに基づいて、単語毎の発音の統計的な評価結果を示す発音評価統計データを算出する統計算出部200と、利用者が外国語の楽曲をカラオケ歌唱する際、歌詞テロップデータに基づいて外国語の歌詞テロップを表示させ、且つ当該歌詞テロップに含まれる単語毎に、当該利用者の母国語に対応する発音評価統計データに応じた表示態様でルビデータに基づく母国語のルビを表示する表示制御部300と、を有するカラオケ装置である。
このようなカラオケ装置1によれば、外国語の楽曲をカラオケ歌唱する際、利用者の母国語に応じて単語毎にルビの表示態様の切り替えが可能となる。具体的に、カラオケ装置1は、母国語を同じくする利用者の発音評価データに基づく統計的な評価結果(たとえば、発音レベルの平均値)に応じて、歌詞テロップに含まれる単語毎にルビの表示態様を切り替えることができる。従って、たとえば、発音が容易な単語についてはルビを表示させないことにより、ルビの表示によりカラオケ歌唱が妨げられるといった状況が生じない。また、発音が困難な単語についてはルビを大きく表示させる等により、ルビが見やすくなり、また母国語を同じくする利用者が共通して発音が困難な単語であることを、現在カラオケ歌唱を行っている利用者自身が容易に認識できるため、注意してカラオケ歌唱を行うことができる。更に、予め算出された発音評価統計データに応じてルビの表示態様を変えるため、発音が困難な単語にも関わらずルビが表示されないといった状況を回避することができる。
また、統計算出部200は、発音評価統計データに含まれている単語が再度カラオケ歌唱された場合には、当該単語に対する発音の評価結果を含めた統計的な評価結果を改めて算出することで発音評価統計データを変更し、発音評価統計データに含まれていない新たな単語がカラオケ歌唱された場合には、当該新たな単語に対する発音の評価結果を発音評価統計データに追加する。このように、既に評価済みの単語の統計的な評価結果を更新することにより、母国語を同じくする利用者の外国語の習熟度を反映してルビの表示態様を変えることができる。また、新たな単語に対する発音の評価結果を発音評価統計データの一部として追加することにより、表示態様の切り替えが可能なルビを増やすことができる。
また、表示制御部300は、発音評価統計データに含まれていない新たな単語を歌詞テロップとして表示する場合、所定の表示態様でルビデータに基づくルビを表示する。このような構成によれば、発音評価データに含まれていない新たな単語がある楽曲をカラオケ歌唱する場合であっても、利用者が参照しやすい適当な表示態様でルビを表示することができる。
<その他>
なお、上記実施形態では、歌唱音声信号と発音リファレンスデータとを比較することにより、歌唱評価データを取得する例について述べたが、これに限られない。母国語及び外国語の発音の特徴を分類したパターンデータを含むデータベースを利用することにより、歌唱評価データを取得することができる。この場合、楽曲データは発音リファレンスデータを含む必要が無い。このようなデータベースは、「基本情報」の一例である。
具体的に、カラオケ装置1(記憶部13)は、日本人が発音した英語の発音の特徴パターンデータ、及びネイティブの発音の特徴パターンデータからなるデータベースを記憶しておく。ここで、利用者Aが外国語の楽曲Xのカラオケ歌唱を行った場合、評価取得部100は、歌唱音声信号を解析し、単語毎の特徴パターンを抽出する。評価取得部100は、抽出された特徴パターンをデータベースと比較し、日本語の発音との近似度及びネイティブの発音との近似度に応じて発音レベルの値を設定する。評価取得部100は、楽曲Xに含まれる全ての単語について発音レベルの値を設定することで、利用者Aの発音評価データを取得する(抽出された特徴パターンとデータベースとの比較処理について、詳細は特開2001−282096号公報を参照)。
また、同じ母国語を使用する利用者であっても、年齢、性別、外国語のスキル等、様々な違いによって同じ単語であっても発音の得意・不得意がある。そこで、統計算出部200は、それらの違いを考慮して、発音評価統計データを算出することでもよい。
具体的に、統計算出部200は、母国語を同じくする複数の利用者であって、且つ少なくとも年齢及び/または性別を含む識別情報を同じくする利用者毎に発音評価統計データを算出する。
識別情報は、母国語を同じくする利用者を区別するための情報であり、少なくとも年齢及び/または性別を含む。その他の識別情報としては、留学歴、海外在住歴、外国語に関する試験結果や資格(たとえば、TOEIC(登録商標)の得点、実用英語技能検定の級数)、利用者の住所または歌唱地、或いは外国語の楽曲の歌唱履歴等を用いることができる。これらの識別情報は、たとえば、各利用者の利用者情報に含まれていてもよいし、各利用者の発音評価データと関連付けて記憶部13に記憶されていてもよい。
また、表示制御部300は、利用者の母国語及び識別情報に対応する発音評価統計データに応じた表示態様でルビデータに基づく母国語のルビを表示する。
たとえば、日本語を母国語とする20代・男性が英語の楽曲Xのカラオケ歌唱を行うとする。この場合、統計算出部200は、日本語を母国語とする複数の利用者の発音評価データを記憶部13から読み出す。そして、統計算出部200は、読み出した発音評価データに関連付けられた識別情報に基づいて、20代且つ男性の発音評価データのみを抽出する。統計算出部200は、抽出した発音評価データに基づいて、発音評価統計データを算出する。表示制御部300は、算出した当該発音評価統計データに応じた表示態様でルビデータに基づく日本語のルビを表示させる。
なお、カラオケ歌唱を行う利用者の年齢、性別は、予め登録された利用者情報に基づいて特定してもよいし、カラオケ歌唱を行う前に予め所定の識別情報を入力することでもよい。或いは、公知の顔認証技術を利用して、カラオケ歌唱を行う利用者の年齢、性別を特定することでもよい。
このように、母国語を同じくする複数の利用者の中から識別情報を同じくする利用者毎に発音評価統計データを算出することにより、カラオケ歌唱を行う利用者により適した表示態様でルビの表示が可能となる。
上記実施形態は、例として提示したものであり、発明の範囲を限定するものではない。上記の構成は、適宜組み合わせて実施することが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上記実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。