JP2019132978A

JP2019132978A - カラオケ装置

Info

Publication number: JP2019132978A
Application number: JP2018014549A
Authority: JP
Inventors: 勇太岡田; Yuta Okada
Original assignee: Daiichikosho Co Ltd
Current assignee: Daiichikosho Co Ltd
Priority date: 2018-01-31
Filing date: 2018-01-31
Publication date: 2019-08-08
Anticipated expiration: 2038-01-31
Also published as: JP6944390B2

Abstract

【課題】カラオケ装置を提供する。【解決手段】楽曲の歌詞に含まれる単語毎の発音の評価結果を示す発音評価データを取得する評価取得部と、母国語を同じくする複数の利用者の発音評価データに基づいて、発音評価統計データを算出する統計算出部と、利用者が外国語の楽曲をカラオケ歌唱する際、歌詞テロップデータに基づいて外国語の歌詞テロップを表示させ、且つ当該歌詞テロップに含まれる単語毎に、当該利用者の母国語に対応する発音評価統計データに応じた表示態様でルビデータに基づく母国語のルビを表示する表示制御部と、を有するカラオケ装置。【選択図】図１

Description

本発明はカラオケ装置に関する。

カラオケ装置では、様々な楽曲のカラオケ歌唱を楽しむことができる。楽曲の中には、英語や中国語等、外国語でカラオケ歌唱を行う洋楽曲が含まれている。このため、洋楽曲の歌詞テロップは外国語で表示される。また、洋楽曲の場合、外国語の歌詞テロップと合わせて母国語（たとえば仮名）のルビが表示されるため、外国語の発音に慣れていない利用者であっても洋楽曲のカラオケ歌唱を楽しむことが可能となっている。一方、当該外国語を母国語とする利用者の中には、ルビが表示されることでカラオケ歌唱を行い辛いと感じる者もいる。

そこで、カラオケ装置は、リモコン装置等を介してルビを表示／非表示とすることができる。また、特許文献１には、利用者の発音の一致度合いによって、歌詞テロップのルビを表示したり消去したりする技術が開示されている。

特開平９−２４４６６７号公報

ところで、ある外国語の発音を行う場合、母国語を同じくする利用者同士では、発音が容易な単語及び困難な単語が共通する傾向にある。一方、歌詞テロップには複数の単語が含まれているため、これらの単語が混在している可能性が高い。

このような場合に、カラオケ歌唱を行いながら、リモコン装置を介して単語毎にルビの表示をＯＮ／ＯＦＦすることは煩雑である。また、特許文献１に開示された技術は、ある歌唱区間における発音一致度合の判定結果に応じて、次の歌唱区間におけるルビの表示を切り替えるものである。従って、ある歌唱区間に含まれる単語の発音が容易であった場合には、次の歌唱区間におけるルビが表示されない。しかし、次の歌唱区間に発音が困難な単語が含まれる場合、利用者はルビを参照できないため、カラオケ歌唱を行うことが困難となる。

本発明の目的は、外国語の楽曲をカラオケ歌唱する際、利用者の母国語に応じて単語毎にルビの表示態様を切り替えることが可能なカラオケ装置を提供することにある。

上記目的を達成するための主たる発明は、外国語の楽曲をカラオケ歌唱した際の発音を評価するための基準情報に基づいて、利用者の歌唱音声信号を評価し、楽曲の歌詞に含まれる単語毎の発音の評価結果を示す発音評価データを取得する評価取得部と、母国語を同じくする複数の利用者の前記発音評価データに基づいて、前記単語毎の発音の統計的な評価結果を示す発音評価統計データを算出する統計算出部と、前記利用者が外国語の楽曲をカラオケ歌唱する際、歌詞テロップデータに基づいて外国語の歌詞テロップを表示させ、且つ当該歌詞テロップに含まれる単語毎に、当該利用者の母国語に対応する前記発音評価統計データに応じた表示態様でルビデータに基づく母国語のルビを表示する表示制御部と、を有するカラオケ装置である。
本発明の他の特徴については、後述する明細書及び図面の記載により明らかにする。

本発明によれば、外国語の楽曲をカラオケ歌唱する際、利用者の母国語に応じて単語毎にルビの表示態様を切り替えることができる。

実施形態に係るカラオケ装置の構成を示す図である。実施形態に係る発音評価データの例を示す図である。実施形態に係る発音評価統計データの例を示す図である。実施形態に係る評価結果とルビの表示態様の関係を示す図である。実施形態に係る歌詞テロップ及びルビの表示例を示す図である。実施形態に係るカラオケ装置の処理を示すフローチャートである。実施形態に係るカラオケ装置の処理を示すフローチャートである。

＜実施形態＞
図１〜図６Ｂを参照して、本実施形態に係るカラオケ装置１について説明する。

＝＝カラオケ装置＝＝
カラオケ装置１は、利用者が選曲した楽曲のカラオケ演奏、及び利用者がカラオケ歌唱を行うための装置である。図１に示すように、カラオケ装置１は、カラオケ本体１０、スピーカ２０、表示装置３０、マイク４０、及びリモコン装置５０を備える。

スピーカ２０はカラオケ本体１０からの放音信号に基づいて放音するための構成である。表示装置３０はカラオケ本体１０からの信号に基づいて映像や画像を画面に表示するための構成である。マイク４０は利用者の歌唱音声（マイク４０への入力音声）をアナログの歌唱音声信号に変換してカラオケ本体１０に入力するための構成である。

（カラオケ本体のハードウェア）
図１に示すように、カラオケ本体１０は、制御部１１、通信部１２、記憶部１３、音響処理部１４、表示処理部１５及び操作部１６を備える。各構成はインターフェース（図示なし）を介してバスＢに接続されている。

カラオケ本体１０は、選曲された楽曲のカラオケ演奏制御、歌詞や背景画像等の表示制御、マイク４０を通じて入力された歌唱音声信号の処理といった、カラオケ歌唱に関する各種の制御を行う。

制御部１１は、ＣＰＵおよびメモリ（いずれも図示無し）を備える。ＣＰＵは、メモリに記憶された動作プログラムを実行することにより各種の制御機能を実現する。メモリは、ＣＰＵに実行されるプログラムを記憶したり、プログラムの実行時に各種情報を一時的に記憶したりする記憶装置である。

通信部１２は、ルーター（図示なし）を介してカラオケ本体１０を通信回線に接続するためのインターフェースを提供する。

記憶部１３は、各種のデータを記憶する大容量の記憶装置であり、たとえばハードディスクドライブなどである。記憶部１３は、カラオケ装置１によりカラオケ演奏を行うための複数の楽曲データを記憶する。

楽曲データは、個々の楽曲を特定するための識別情報（楽曲ＩＤ）が付与されている。楽曲データは、伴奏データ、リファレンスデータ、背景画像データ、歌詞データ、及び属性情報を含む。伴奏データは、カラオケ演奏音の元となるＭＩＤＩ形式のデータである。リファレンスデータは、利用者によるカラオケ歌唱を採点する際の基準として用いられるデータである。リファレンスデータは、ピッチ（音高）データ、音長データ、タイミングデータ等を含む。背景画像データは、カラオケ演奏時に合わせて表示装置３０等に表示される背景画像に対応するデータである。歌詞データは、表示装置３０等に表示させる歌詞（歌詞テロップ）に関するデータである。属性情報は、曲名、歌手名、作詞・作曲者名、及びジャンル等の当該楽曲に関する情報である。また、本実施形態に係る属性情報には、歌詞の言語を示す言語情報が含まれる。たとえば、日本語の歌詞の楽曲データであれば、属性情報として「日本語」という言語情報を含む。

ここで、楽曲の中には歌詞が外国語の楽曲が存在する。外国語は、母国語以外の言語である。たとえば、日本語を母国語とする利用者にとって、英語や中国語でカラオケ歌唱する必要がある楽曲（歌詞が英語や中国語の楽曲）は外国語の楽曲に相当する。また、英語を母国語とする利用者にとって、日本語でカラオケ歌唱する必要がある楽曲（歌詞が日本語の楽曲）は外国語の楽曲に相当する。

本実施形態における外国語の楽曲の楽曲データは、伴奏データ等の他に、発音リファレンスデータ及びルビデータを含む。なお、外国語の楽曲の歌詞データは、外国語による歌詞テロップを表示するためのデータである。たとえば、英語の楽曲の歌詞データは、複数の英単語により構成されている。

発音リファレンスデータは、外国語の楽曲をカラオケ歌唱した際の発音を評価するためのデータである。発音リファレンスデータは、「基準情報」の一例である。

具体的に、発音リファレンスデータは、楽曲の歌詞に含まれる単語毎の正確な発音を示すデータであり、たとえば、外国語を母国語とする者（以下、「ネイティブ」という場合がある）が発音した音声を変換したデータである。

上述のリファレンスデータは、カラオケ歌唱における音程やリズム等を含めた総合的な歌唱評価の基準として用いられる。一方、発音リファレンスデータは、カラオケ歌唱において発声されたある単語の発音が、ネイティブの発音にどれだけ近似しているかを評価するための基準として用いられる。

ルビデータは、歌詞テロップに対して母国語のルビを付すための文字データである。たとえば、ルビデータは、英語（外国語）の歌詞テロップに対して日本語（母国語）のルビを付すために使用される。

音響処理部１４は、制御部１１の制御に基づき、楽曲に対する演奏の制御およびマイク４０を通じて入力された歌唱音声信号の処理を行う。音響処理部１４は、たとえばＭＩＤＩ音源、ミキサ、アンプ（いずれも図示なし）を含む。制御部１１は、予約された楽曲の伴奏データを、テンポクロック信号に基づいて順次読み出し、ＭＩＤＩ音源に入力する。ＭＩＤＩ音源は、当該伴奏データに基づいて楽音信号を生成する。ミキサは、当該楽音信号およびマイク４０から出力される歌唱音声信号を適当な比率でミキシングしてアンプに出力する。アンプは、ミキサからのミキシング信号を増幅し、放音信号としてスピーカ２０へ出力する。これにより、スピーカ２０からは放音信号に基づくカラオケ演奏音およびマイク４０からの歌唱音声が放音される。

表示処理部１５は、制御部１１の制御に基づき、表示装置３０における各種表示に関する処理を行う。たとえば、表示処理部１５は、カラオケ演奏時における背景画像に歌詞や各種アイコンが重ねられた映像を表示装置３０に表示させる制御を行う。

操作部１６は、パネルスイッチおよびリモコン受信回路などからなり、利用者によるカラオケ装置１のパネルスイッチあるいはリモコン装置５０の操作に応じて選曲信号、演奏中止信号などの操作信号を制御部１１に対して出力する。制御部１１は、操作部１６からの操作信号を検出し、対応する処理を実行する。

リモコン装置５０は、カラオケ本体１０に対する各種操作をおこなうための装置である。利用者はリモコン装置５０を用いて歌唱を希望するカラオケ楽曲の選曲（予約）等を行うことができる。

（カラオケ本体のソフトウェア）
図１に示すように、カラオケ本体１０は、評価取得部１００、統計算出部２００、及び表示制御部３００を備える。評価取得部１００、統計算出部２００、及び表示制御部３００は、ＣＰＵがメモリに記憶されるプログラムを実行することにより実現される。

［評価取得部］
評価取得部１００は、外国語の楽曲をカラオケ歌唱した際の発音を評価するための基準情報に基づいて、利用者の歌唱音声信号を評価し、楽曲の歌詞に含まれる単語毎の発音の評価結果を示す発音評価データを取得する。

評価結果は、利用者がある単語を発音した際に、どれくらいネイティブと近似した発音ができたかを評価することにより得られる。評価結果は、たとえば、１〜５の５段階（数字が大きいほどネイティブの発音に近似しているとする）の発音レベルとして設定できる。

具体例として、日本語を母国語とする利用者Ａが英語（外国語）の楽曲Ｘのカラオケ歌唱を行ったとする。この場合、評価取得部１００は、記憶部１３から楽曲Ｘの発音リファレンスデータを読み出し、利用者Ａのカラオケ歌唱により得られた歌唱音声信号と比較して単語毎に発音の評価を行う。たとえば、歌唱音声信号を解析して得られたある単語の特徴パターンが、当該ある単語の発音リファレンスデータに近い場合、評価取得部１００は、当該単語の発音がネイティブと近似した発音であると評価する。この場合、評価取得部１００は、当該単語について発音レベルが高い（上記例であれば数値「５」）という評価結果を設定する。評価取得部１００は、楽曲Ｘに含まれる全ての単語について発音レベルを設定することで、利用者Ａに対する発音評価データを取得する。評価取得部１００は、取得した発音評価データを記憶部１３に記憶させる。同様に、他の利用者が外国語のカラオケ歌唱を行った場合にも、評価取得部１００は、利用者毎に取得した発音評価データを記憶部１３に記憶させる。図２は、記憶部１３に記憶された利用者Ａ〜利用者Ｃ（いずれも日本語を母国語とする利用者）それぞれの発音評価データの一例である。ここでは、単語毎に、評価結果として「１」〜「５」の発音レベルが設定されている。

なお、評価取得部１００は、ある利用者の発音評価データを取得するにあたり、当該ある利用者の母国語を特定する必要がある。この際、評価取得部１００は、利用者毎に予め登録された利用者情報を参照して母国語を特定することができる。また、表示制御部３００は、楽曲を予約する際にリモコン装置５０に母国語を選択する画面を表示させる。ある利用者は、当該画面で自分の母国語を選択する。評価取得部１００は、当該入力に基づいてある利用者の母国語を特定する。或いは、評価取得部１００は、リモコン装置５０の画面で表示されている使用言語に基づいて、利用者の母国語を特定することでもよい。

利用者の母国語を特定した後、評価取得部１００は、予約された楽曲の言語と特定された母国語とが一致しているかどうかにより発音評価データの取得要否を判断する。

また、発音評価データは、外国語毎に取得される。たとえば、利用者Ａが英語の楽曲と中国語の楽曲をカラオケ歌唱した場合、記憶部１３には利用者Ａの英語に対する発音評価データと中国語に対する発音評価データが別々に記憶される。また、取得された発音評価データは、歌唱履歴と合わせてサーバ（図示なし）に記憶されることでもよい。

［統計算出部］
統計算出部２００は、母国語を同じくする複数の利用者の発音評価データに基づいて、単語毎の発音の統計的な評価結果を示す発音評価統計データを算出する。

具体的に、統計算出部２００は、母国語を同じくする利用者の発音評価データを記憶部１３から読み出す。そして、統計算出部２００は、発音評価データに含まれる単語毎に評価結果の統計を求める。統計は、平均値や偏差値、分散値、標準偏差等、一般的な統計値として求めることができる。

たとえば、利用者Ａ〜利用者Ｅがそれぞれ英語の楽曲Ｘのカラオケ歌唱を行ったとする。利用者Ａ〜利用者Ｃの母国語は日本語であり、利用者Ｄ及び利用者Ｅの母国語は中国語であるとする。記憶部１３には、楽曲Ｘのカラオケ歌唱に基づいて取得された各利用者の発音評価データが記憶されているとする。

この場合、統計算出部２００は、利用者Ａ〜利用者Ｃの英語に対する発音評価データを記憶部１３から読み出し、単語毎に評価を行う。たとえば、図２に示した英単語「ｌｏｖｅ」の評価結果は、利用者Ａが「４」、利用者Ｂが「３」、利用者Ｃが「５」である。統計算出部２００は、各評価結果の平均値である「４」を英単語「ｌｏｖｅ」に対する統計的な評価結果として算出する。

統計算出部２００は、楽曲Ｘに含まれる全ての単語について同様の処理を行うことで、利用者Ａ〜利用者Ｃの発音評価統計データ（母国語を同じくする利用者のデータ）を算出する。統計算出部２００は、算出した発音評価統計データを記憶部１３に記憶させる。図３は、利用者Ａ〜利用者Ｃの発音評価データに基づく発音評価統計データを示した図である。

発音評価統計データには、母国語を特定する情報が関連付けられている。また、発音評価統計データに含まれる各単語には、母数（統計に使用された数）が関連付けられている。図３に示した発音評価統計データであれば、母国語として「日本語」が関連付けられており、各単語（「ｌｏｖｅ」、「ｍｉｄｎｉｇｈｔ」、「ｏｆ」、「ｐｒｏｍｉｓｅｓ」、「ｗｅａｋ」）にはそれぞれ母数「３」が関連付けられている。

なお、ある時期にヒットした洋楽曲等、良くカラオケ歌唱される楽曲に含まれる単語については、母数が急激に増加することがある。母数が多くなるにつれて、発音評価統計データの変化は乏しくなる。従って、統計算出部２００は、所定数の発音評価データに基づいて、発音評価統計データを算出することが好ましい。更に、母数の増加に伴い、利用者全体でみた場合の発音スキルが向上することが考えられる。そこで、統計算出部２００は、取得時期が比較的新しい発音評価データ（たとえば、直近１００回の発音評価データ）に基づいて、発音評価統計データを算出することが好ましい。

また、上記例では、楽曲Ｘの歌詞に含まれる単語毎の発音の評価結果を示す発音評価データを用いて発音評価統計データを算出したが、これに限られない。たとえば、利用者Ａが英語の楽曲Ｘのカラオケ歌唱を行い、利用者Ｂが英語の楽曲Ｙのカラオケ歌唱を行い、利用者Ｃが英語の楽曲Ｚのカラオケ歌唱を行ったとする。また、いずれの楽曲の歌詞にも英単語「ｌｏｖｅ」が含まれていたとする。この場合、統計算出部２００は、それぞれの楽曲に含まれる英単語「ｌｏｖｅ」の発音レベルに基づいて、統計的な評価結果を算出することも可能である。更に、楽曲が異なる場合、いずれか一の楽曲にしか含まれていない単語がある可能性が高い。このような場合、統計算出部２００は、当該単語の発音レベルを、母国語を同じくする利用者の評価結果として発音評価統計データを求めることでもよい。一方、いずれか一の楽曲にしか含まれていない単語がある場合、統計算出部２００は、当該単語の評価結果を除いて、発音評価統計データを求めることでもよい。

ここで、統計算出部２００は、母国語を同じくする利用者が外国語のカラオケ歌唱を行う都度（発音評価データが取得される都度）、記憶部１３に既に記憶されている発音評価統計データを算出し直すことが好ましい。また、その都度、発音評価統計データに新たな単語に対する発音の評価結果を追加することも可能である。

具体的に、統計算出部２００は、発音評価統計データに含まれている単語が再度カラオケ歌唱された場合には、当該単語に対する発音の評価結果を含めた統計的な評価結果を改めて算出することで発音評価統計データを変更し、発音評価統計データに含まれていない新たな単語がカラオケ歌唱された場合には、当該新たな単語に対する発音の評価結果を発音評価統計データに追加する。

たとえば、図３に示した発音評価統計データが記憶部１３に記憶されたとする。その後、日本語を母国語とする利用者Ｆが英語の楽曲Ｘのカラオケ歌唱を行った場合、評価取得部１００は、利用者Ｆの歌唱音声信号を評価し、発音評価データを取得する。

統計算出部２００は、記憶部１３から図３に示した発音評価統計データを読み出し、利用者Ｆの発音評価データを含めた統計的な評価結果を改めて算出する。たとえば、英単語「ｌｏｖｅ」について、利用者Ｆの評価結果が「３」であったとする。この場合、統計算出部２００は、記憶部１３に記憶された利用者Ａ〜利用者Ｃの英単語「ｌｏｖｅ」の評価結果の平均値「４」（母数３）と、利用者Ｆの評価結果「３」に基づいて、統計的な評価結果を改めて求める。この例において、統計算出部２００は、（統計的な評価結果「４」×母数「３」）＋利用者Ｆの評価結果「３」／母数「４」＝「３．７５」を新たな統計的な評価結果として算出する。また、英単語「ｌｏｖｅ」には新たに母数「４」を関連付ける。

統計算出部２００は、楽曲Ｘに含まれる全ての単語について、統計的な評価結果を改めて算出し母数を更新することで、発音評価統計データの変更を行う。

一方、利用者Ｆが英語の楽曲Ｙのカラオケ歌唱を行ったとする。ここで、楽曲Ｙの中に楽曲Ｘに含まれていない英単語「ｄｅａｔｈ」が含まれていた場合、評価取得部１００は、利用者Ｆのカラオケ歌唱により得られた歌唱音声信号、及び楽曲Ｙの発音リファレンスデータに基づいて、新たな単語「ｄｅａｔｈ」の発音を評価し、その評価結果を発音レベルの値として取得する。この場合、統計算出部２００は、取得された評価結果を、母国語を日本語とする利用者の発音評価統計データに追加する。

［表示制御部］
表示制御部３００は、表示処理部１５を制御し、カラオケ装置１おける各種表示制御を行う。

本実施形態において、表示制御部３００は、利用者が外国語の楽曲をカラオケ歌唱する際、歌詞テロップデータに基づいて外国語の歌詞テロップを表示させ、且つ当該歌詞テロップに含まれる単語毎に、当該利用者の母国語に対応する発音評価統計データに応じた表示態様でルビデータに基づく母国語のルビを表示する。

たとえば、日本語を母国語とする利用者Ａが英語の楽曲Ｚをカラオケ歌唱するとする。また、日本語を母国語とする利用者の発音評価統計データとして図３に示すデータが記憶部１３に記憶されているとする。

表示制御部３００は、記憶部１３から楽曲Ｚの歌詞テロップデータを読み出し、楽曲Ｚのカラオケ演奏に合わせて、表示装置３０に英語の歌詞テロップを表示させる。また、表示制御部３００は、記憶部１３から楽曲Ｚのルビデータを読み出し、歌詞テロップの表示と合わせてルビを表示させる。

この際、表示制御部３００は、歌詞テロップに含まれる単語が、図３に示す発音評価統計データに含まれているかどうかを確認する。歌詞テロップに含まれる単語が発音評価統計データに含まれている場合、表示制御部３００は、当該単語の評価結果に応じた表示態様でルビを表示させる。

評価結果とルビの表示態様の関係は予め設定されている。図４は、評価結果としての発音レベルの値とルビの表示態様の関係を規定したテーブルデータである。図４においては、発音レベルの値が高くなればなるほど（ネイティブに近似した発音をすればするほど）、ルビの表示サイズが小さくなる（発音レベルが最大値の場合、ルビを表示させない）よう設定されている。このようなテーブルデータは、たとえば記憶部１３に記憶されている。なお、テーブルデータを用いる代わりに、所定の変換式に基づいて関数的にルビの表示サイズを決定してもよい。

ここで、楽曲Ｚの歌詞テロップに単語「ｐｒｏｍｉｓｅｓ」が含まれているとする。この場合、表示制御部３００は、図３に示す発音評価統計データから単語「ｐｒｏｍｉｓｅｓ」の発音レベルの値「１．７」を特定し、図４に示すテーブルデータを参照して発音レベルの値「１．７」に対応する表示態様を決定する。そして、表示制御部３００は、単語「ｐｒｉｍｉｓｅｓ」のルビ「プロミスィズ」を通常サイズの１．５倍のサイズで表示させる（図５参照）。なお、図５の例では、単語「Ｄｏ」は発音レベルの値が「５」であるため表示されず、単語「ｂｅｌｉｅｖｅ」及び「ｆａｌｓｅ」は発音レベルの値が「３」であるため通常サイズ（１．０倍）で表示され、単語「ｎｏｔ」は発音レベルの値が「４」であるため、通常サイズよりも少し小さいサイズ（０．８倍）で表示されている。

一方、表示制御部２００は、発音評価統計データに含まれていない新たな単語を歌詞テロップとして表示する場合、所定の表示態様でルビデータに基づくルビを表示する。

所定の表示態様は、予めルビデータにおいて設定されている。たとえば、ルビの表示サイズを変更する場合、所定の表示態様として通常サイズ（１．０倍）が設定される。

なお、表示態様の変更は、ルビの表示サイズの変更に限られない。たとえば、ルビの表示色や輝度を変更することでもよいし、ルビの表示時間や表示タイミングを変更する（発音レベルの値が低い単語は早めに表示する等）ことでもよい。或いは、ルビの字体を変更したり、ルビに下線を付したりすることでもよい。評価結果（発音レベル）とルビの表示態様（表示色、輝度、表示時間、表示タイミング、字体、下線の有無など）との関係は、前述したようにテーブルデータとして予め設定され、記憶部１３に記憶されてもよいし、所定の変換式に基づいて関数的に表示態様を決定してもよい。また、これらを組み合わせることで表示態様の変更を行ってもよい。

＝＝カラオケ装置１の動作について＝＝
次に、図６Ａ及び図６Ｂを参照して本実施形態におけるカラオケ装置１の動作の具体例について述べる。

［発音評価統計データの取得］
図６Ａは、発音評価統計データを取得する際のカラオケ装置１の動作例を示すフローチャートである。

日本語を母国語とする利用者が英語の楽曲Ｘのカラオケ歌唱を行った場合、カラオケ装置１は、日本語を母国語とする利用者が英語の楽曲を歌唱した場合の発音評価統計データを、記憶部１３から読み出し（発音評価統計データの読み出し。ステップ１０）、マイク４０を介して得られた音声に基づいて歌唱音声信号を取得する（歌唱音声信号の取得。ステップ１１）。

評価取得部１００は、記憶部１３から楽曲Ｘの発音リファレンスデータを読み出し、ステップ１１で得られた歌唱音声信号と比較することで、楽曲Ｘの歌詞に含まれる単語毎に発音の評価を行い、発音評価データを取得する（発音評価データの取得。ステップ１２）。

ステップ１０で読み出された発音評価統計データに含まれている単語が再度カラオケ歌唱された場合（ステップ１３でＹの場合）、統計算出部２００は、当該単語に対する発音の評価結果を含めた統計的な評価結果を改めて算出することで発音評価統計データを変更する（発音評価統計データの変更。ステップ１４）。統計算出部２００は、ステップ１４で算出した発音評価統計データを記憶部１３に記憶させる（発音評価統計データの記憶。ステップ１５）。一方、発音評価統計データに含まれていない新たな単語がカラオケ歌唱された場合（ステップ１３でＮの場合）、統計算出部２００は、当該新たな単語に対する発音の評価結果を発音評価統計データに追加して記憶する（評価結果を発音評価統計データに追加して記憶。ステップ１６）。統計算出部２００は、楽曲Ｘに含まれる全ての単語について統計的な評価結果を算出するまで（ステップ１７でＹの場合まで）、ステップ１１〜ステップ１６の処理を繰り返し行う。

［ルビの表示］
図６Ｂは、ルビを表示させる際のカラオケ装置１の動作例を示すフローチャートである。この例では、図６Ａに示した処理により、日本語を母国語とする利用者の英語に対する発音評価統計データが既に取得され、記憶部１３に記憶されているとする。

ここで、日本語を母国語とする利用者が英語の楽曲Ｙのカラオケ歌唱を行う場合、表示制御部３００は、記憶部１３から楽曲Ｙの歌詞テロップデータを読み出し、カラオケ演奏に合わせて表示装置３０に歌詞テロップを表示させる（歌詞テロップの表示。ステップ２０）。なお、利用者の母国語は、たとえば、利用者がカラオケ装置１にログインした際、利用者について予め登録された利用者情報に基づいて特定される。

この際、表示制御部３００は、表示される歌詞テロップに含まれる単語が記憶部１３に記憶されている発音評価統計データに含まれているかどうかを確認する。表示される歌詞テロップに含まれる単語が発音評価統計データに含まれている場合（ステップ２１でＹの場合）、表示制御部３００は、歌詞テロップの表示に合わせて、発音評価統計データに応じた表示態様でルビを表示させる（発音評価統計データに応じた表示態様でルビを表示。ステップ２２）。

一方、表示される歌詞テロップに含まれる単語が発音評価統計データに含まれていない場合（ステップ２１でＮの場合）、表示制御部３００は、歌詞テロップの表示に合わせて、予め設定された所定の表示態様でルビを表示させる（所定の表示態様でルビを表示。ステップ２３）。

表示制御部３００は、楽曲Ｙの歌詞テロップ及びルビを全て表示するまで（ステップ２４でＹの場合）、ステップ２０〜ステップ２３の処理を繰り返し行う。

以上から明らかなように、本実施形態に係るカラオケ装置１は、外国語の楽曲をカラオケ歌唱した際の発音を評価するための発音リファレンスデータに基づいて、利用者の歌唱音声信号を評価し、楽曲の歌詞に含まれる単語毎の発音の評価結果を示す発音評価データを取得する評価取得部１００と、母国語を同じくする複数の利用者の発音評価データに基づいて、単語毎の発音の統計的な評価結果を示す発音評価統計データを算出する統計算出部２００と、利用者が外国語の楽曲をカラオケ歌唱する際、歌詞テロップデータに基づいて外国語の歌詞テロップを表示させ、且つ当該歌詞テロップに含まれる単語毎に、当該利用者の母国語に対応する発音評価統計データに応じた表示態様でルビデータに基づく母国語のルビを表示する表示制御部３００と、を有するカラオケ装置である。

このようなカラオケ装置１によれば、外国語の楽曲をカラオケ歌唱する際、利用者の母国語に応じて単語毎にルビの表示態様の切り替えが可能となる。具体的に、カラオケ装置１は、母国語を同じくする利用者の発音評価データに基づく統計的な評価結果（たとえば、発音レベルの平均値）に応じて、歌詞テロップに含まれる単語毎にルビの表示態様を切り替えることができる。従って、たとえば、発音が容易な単語についてはルビを表示させないことにより、ルビの表示によりカラオケ歌唱が妨げられるといった状況が生じない。また、発音が困難な単語についてはルビを大きく表示させる等により、ルビが見やすくなり、また母国語を同じくする利用者が共通して発音が困難な単語であることを、現在カラオケ歌唱を行っている利用者自身が容易に認識できるため、注意してカラオケ歌唱を行うことができる。更に、予め算出された発音評価統計データに応じてルビの表示態様を変えるため、発音が困難な単語にも関わらずルビが表示されないといった状況を回避することができる。

また、統計算出部２００は、発音評価統計データに含まれている単語が再度カラオケ歌唱された場合には、当該単語に対する発音の評価結果を含めた統計的な評価結果を改めて算出することで発音評価統計データを変更し、発音評価統計データに含まれていない新たな単語がカラオケ歌唱された場合には、当該新たな単語に対する発音の評価結果を発音評価統計データに追加する。このように、既に評価済みの単語の統計的な評価結果を更新することにより、母国語を同じくする利用者の外国語の習熟度を反映してルビの表示態様を変えることができる。また、新たな単語に対する発音の評価結果を発音評価統計データの一部として追加することにより、表示態様の切り替えが可能なルビを増やすことができる。

また、表示制御部３００は、発音評価統計データに含まれていない新たな単語を歌詞テロップとして表示する場合、所定の表示態様でルビデータに基づくルビを表示する。このような構成によれば、発音評価データに含まれていない新たな単語がある楽曲をカラオケ歌唱する場合であっても、利用者が参照しやすい適当な表示態様でルビを表示することができる。

＜その他＞
なお、上記実施形態では、歌唱音声信号と発音リファレンスデータとを比較することにより、歌唱評価データを取得する例について述べたが、これに限られない。母国語及び外国語の発音の特徴を分類したパターンデータを含むデータベースを利用することにより、歌唱評価データを取得することができる。この場合、楽曲データは発音リファレンスデータを含む必要が無い。このようなデータベースは、「基本情報」の一例である。

具体的に、カラオケ装置１（記憶部１３）は、日本人が発音した英語の発音の特徴パターンデータ、及びネイティブの発音の特徴パターンデータからなるデータベースを記憶しておく。ここで、利用者Ａが外国語の楽曲Ｘのカラオケ歌唱を行った場合、評価取得部１００は、歌唱音声信号を解析し、単語毎の特徴パターンを抽出する。評価取得部１００は、抽出された特徴パターンをデータベースと比較し、日本語の発音との近似度及びネイティブの発音との近似度に応じて発音レベルの値を設定する。評価取得部１００は、楽曲Ｘに含まれる全ての単語について発音レベルの値を設定することで、利用者Ａの発音評価データを取得する（抽出された特徴パターンとデータベースとの比較処理について、詳細は特開２００１−２８２０９６号公報を参照）。

また、同じ母国語を使用する利用者であっても、年齢、性別、外国語のスキル等、様々な違いによって同じ単語であっても発音の得意・不得意がある。そこで、統計算出部２００は、それらの違いを考慮して、発音評価統計データを算出することでもよい。

具体的に、統計算出部２００は、母国語を同じくする複数の利用者であって、且つ少なくとも年齢及び／または性別を含む識別情報を同じくする利用者毎に発音評価統計データを算出する。

識別情報は、母国語を同じくする利用者を区別するための情報であり、少なくとも年齢及び／または性別を含む。その他の識別情報としては、留学歴、海外在住歴、外国語に関する試験結果や資格（たとえば、ＴＯＥＩＣ（登録商標）の得点、実用英語技能検定の級数）、利用者の住所または歌唱地、或いは外国語の楽曲の歌唱履歴等を用いることができる。これらの識別情報は、たとえば、各利用者の利用者情報に含まれていてもよいし、各利用者の発音評価データと関連付けて記憶部１３に記憶されていてもよい。

また、表示制御部３００は、利用者の母国語及び識別情報に対応する発音評価統計データに応じた表示態様でルビデータに基づく母国語のルビを表示する。

たとえば、日本語を母国語とする２０代・男性が英語の楽曲Ｘのカラオケ歌唱を行うとする。この場合、統計算出部２００は、日本語を母国語とする複数の利用者の発音評価データを記憶部１３から読み出す。そして、統計算出部２００は、読み出した発音評価データに関連付けられた識別情報に基づいて、２０代且つ男性の発音評価データのみを抽出する。統計算出部２００は、抽出した発音評価データに基づいて、発音評価統計データを算出する。表示制御部３００は、算出した当該発音評価統計データに応じた表示態様でルビデータに基づく日本語のルビを表示させる。

なお、カラオケ歌唱を行う利用者の年齢、性別は、予め登録された利用者情報に基づいて特定してもよいし、カラオケ歌唱を行う前に予め所定の識別情報を入力することでもよい。或いは、公知の顔認証技術を利用して、カラオケ歌唱を行う利用者の年齢、性別を特定することでもよい。

このように、母国語を同じくする複数の利用者の中から識別情報を同じくする利用者毎に発音評価統計データを算出することにより、カラオケ歌唱を行う利用者により適した表示態様でルビの表示が可能となる。

上記実施形態は、例として提示したものであり、発明の範囲を限定するものではない。上記の構成は、適宜組み合わせて実施することが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上記実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１カラオケ装置
１００評価取得部
２００統計算出部
３００表示制御部

Claims

外国語の楽曲をカラオケ歌唱した際の発音を評価するための基準情報に基づいて、利用者の歌唱音声信号を評価し、楽曲の歌詞に含まれる単語毎の発音の評価結果を示す発音評価データを取得する評価取得部と、
母国語を同じくする複数の利用者の前記発音評価データに基づいて、前記単語毎の発音の統計的な評価結果を示す発音評価統計データを算出する統計算出部と、
前記利用者が外国語の楽曲をカラオケ歌唱する際、歌詞テロップデータに基づいて外国語の歌詞テロップを表示させ、且つ当該歌詞テロップに含まれる単語毎に、当該利用者の母国語に対応する前記発音評価統計データに応じた表示態様でルビデータに基づく母国語のルビを表示する表示制御部と、
を有するカラオケ装置。
前記統計算出部は、前記発音評価統計データに含まれている単語が再度カラオケ歌唱された場合には、当該単語に対する発音の評価結果を含めた統計的な評価結果を改めて算出することで前記発音評価統計データを変更し、前記発音評価統計データに含まれていない新たな単語がカラオケ歌唱された場合には、当該新たな単語に対する発音の評価結果を前記発音評価統計データに追加することを特徴とする請求項１記載のカラオケ装置。
前記表示制御部は、前記発音評価統計データに含まれていない新たな単語を歌詞テロップとして表示する場合、所定の表示態様で前記ルビデータに基づくルビを表示することを特徴とする請求項１または２記載のカラオケ装置。
前記表示制御部は、前記発音評価統計データに応じた大きさで前記ルビデータに基づく母国語のルビを表示することを特徴とする請求項１から３のいずれか一つに記載のカラオケ装置。
前記統計算出部は、前記母国語を同じくする複数の利用者であって、且つ少なくとも年齢及び／または性別を含む識別情報を同じくする利用者毎に前記発音評価統計データを算出し、
前記表示制御部は、前記利用者の母国語及び識別情報に対応する前記発音評価統計データに応じた表示態様でルビデータに基づく母国語のルビを表示することを特徴とする請求項１〜４のいずれか一つに記載のカラオケ装置。