JP5034642B2

JP5034642B2 - カラオケ装置

Info

Publication number: JP5034642B2
Application number: JP2007108407A
Authority: JP
Inventors: 辰弥寺島; 伸悟神谷; 拓弥 ▲高▼橋
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2007-04-17
Filing date: 2007-04-17
Publication date: 2012-09-26
Anticipated expiration: 2027-04-17
Also published as: JP2008268358A

Description

本発明は、歌唱を採点するカラオケ装置において、特殊な歌唱技法を評価する技術に関する。

カラオケ装置において、歌唱者の歌唱の巧拙を点数で表示する採点機能を備えたものがある。このような採点機能のうち、できるだけ実際の歌唱の巧拙と採点の結果が対応するように、歌唱者の歌唱音声信号から抽出された音程データや音量データなどのデータと、カラオケ曲の歌唱旋律（ガイドメロディ）と対応するデータとの比較機能を持たせたものがある。（例えば、特許文献１）
特開平１０−６９２１６号公報

このような採点機能を備えたカラオケ装置によって、１音を単位としてノートごとの音程変化などを比較して採点することが可能になったが、この採点機能は、ＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）形式でデータ化されたガイドメロディを基準にして、歌唱者の歌唱と比較していたため、楽譜上の音符を基準にした採点に止まっていた。そのため、このような採点を行った場合、実際の巧拙の印象とは異なった採点結果となることがあった。例えば、楽曲全体において歌唱を強くしたり弱くしたりして、抑揚のある歌唱を行った場合、巧く聞こえることがあるにもかかわらず、ピッチに対しては何ら影響を与えるものではなかったから、採点結果が良くなることがなかった。

本発明は、上述の事情に鑑みてなされたものであり、抑揚のある歌唱を評価することができるカラオケ装置を提供することを目的とする。

上述の課題を解決するため、本発明は、楽曲を示す楽曲データを再生する再生手段と、前記再生手段が楽曲データを再生する間に入力された歌唱者の歌唱音声に基づいて歌唱者音声データを生成する音声入力手段と、前記楽曲のうちの歌唱区間において、前記歌唱者音声データが示す歌唱音声の所定時間長毎の音量レベルを抽出する音量レベル抽出手段と、前記音量レベル抽出手段により抽出された前記所定時間長毎の音量レベルを用いて、前記歌唱区間における前記歌唱音声の評価の基準となる音量レベルを算出する算出手段と、前記算出手段により算出された前記基準となる音量レベルと、前記音量レベル抽出手段により抽出された前記所定時間長毎の音量レベルとの差分により、前記歌唱区間における前記歌唱音声の抑揚の評価を行う評価手段とを具備し、前記音量レベル抽出手段は、前記音声入力手段により生成された歌唱者音声データが示す歌唱音声の倍音成分を含む特定の周波数帯域の音量レベルを増幅した後の歌唱者音声データを用いて、前記所定時間長毎の音量レベルを抽出することを特徴とするカラオケ装置を提供する。

また、本発明は、楽曲を示す楽曲データを再生する再生手段と、前記再生手段が楽曲データを再生する間に入力された歌唱者の歌唱音声に基づいて歌唱者音声データを生成する音声入力手段と、前記楽曲のうちの歌唱区間において、前記歌唱者音声データが示す歌唱音声の所定時間長毎の音量レベルを抽出する音量レベル抽出手段と、前記音量レベル抽出手段により抽出された前記所定時間長毎の音量レベルを用いて、前記歌唱区間における前記歌唱音声の評価の基準となる音量レベルを算出する算出手段と、前記算出手段により算出された前記基準となる音量レベルと、前記音量レベル抽出手段により抽出された前記所定時間長毎の音量レベルとの差分により、前記歌唱区間における前記歌唱音声の抑揚の評価を行う評価手段とを具備し、前記音量レベル抽出手段は、前記音声入力手段により生成された歌唱者音声データが示す歌唱音声の倍音成分を含む一部の周波数帯域における音量レベルを抽出することを特徴とするカラオケ装置を提供する。

また、別の好ましい態様において、前記算出手段は、前記歌唱者音声データが示す音量レベルの平均レベルを前記基準となる音量レベルとして算出してもよい。

また、別の好ましい態様において、前記音量レベル抽出手段により前記所定時間長毎に抽出された各時刻の音量レベルを、当該時刻を含む前記所定時間長よりも長い時間幅において最大値の音量レベルにするデータ処理を行うデータ処理部を備え、前記算出手段は、前記データ処理部により前記データ処理が行われた音量レベルを用いて、前記基準となる音量レベルを算出し、前記評価手段は、前記データ処理部により前記データ処理が行われた後の前記抽出された前記所定時間長毎の音量レベルを用いて、前記評価を行ってもよい。

また、別の好ましい態様において、前記評価手段は、前記音量レベル抽出手段により抽出された音量レベルが所定の音量レベル以下となる前記所定時間の区間を評価対象から除外してもよい。

本発明によれば、抑揚のある歌唱を評価することができるカラオケ装置を提供することができる。

以下、本発明の一実施形態について説明する。

＜実施形態＞
本実施形態においては、抑揚のある歌唱の評価を行うことができるカラオケ装置１について説明する。まず、カラオケ装置１のハードウエアの構成について図１を用いて説明する。図１は、本発明の実施形態に係るカラオケ装置１のハードウエアの構成を示すブロック図である。

ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２に記憶されているプログラムを読み出して、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３にロードして実行することにより、カラオケ装置１の各部について、バス１０を介して制御する。また、ＲＡＭ１３は、ＣＰＵ１１がデータ処理などを行う際のワークエリアとして機能する。

記憶部１４は、例えば、ハードディスクなどの大容量記憶手段であって、楽曲データ記憶領域１４ａおよび歌唱者音声データ記憶領域１４ｂを有する。楽曲データ記憶領域１４ａには、カラオケ曲の楽曲データが複数記憶され、各楽曲データは、ガイドメロディトラック、伴奏データトラック、歌詞データトラックを有している。

ガイドメロディトラックは、楽曲のボーカルパートのメロディを示すデータであり、発音の指令を示すノートオン、消音の指令を示すノートオフ、コントロールチェンジなどのイベントデータと、次のイベントデータを読み込んで実行するまでの時間を示すデルタタイムデータとを有している。このデルタタイムにより、実行すべきイベントデータの時刻と楽曲の進行が開始されてからの時間経過とを対応付けることができる。また、ノートオン、ノートオフは、それぞれ発音、消音の対象となる音の音程を示すノートナンバを有している。これにより、楽曲のボーカルパートのメロディを構成する各音は、ノートオン、ノートオフ、デルタタイムによって規定することができる。伴奏データトラックは、各伴奏楽器の複数のトラックから構成されており、各楽器のトラックは上述したガイドメロディトラックと同様のデータ構造を有している。なお、本実施形態の場合、ＭＩＤＩ形式のデータが記憶されている。

歌詞データトラックは、楽曲の歌詞を示すテキストデータと、楽曲の進行に応じて後述する表示部１５に歌詞テロップを表示するタイミングを示す表示タイミングデータと、表示される歌詞テロップを色替え（以下、ワイプという）するためのタイミングを示すワイプタイミングデータとを有する。そして、ＣＰＵ１１は、楽曲データ記憶領域１４ａに記憶される楽曲データを再生し、当該楽曲データの伴奏データトラックに基づいて生成した音声データを後述する音声処理部１８に出力するとともに、歌詞データトラックに基づいて表示部１５に歌詞テロップを表示させる。

歌唱者音声データ記憶領域１４ｂには、後述するマイクロフォン１７から音声処理部１８を経てＡ／Ｄ変換された音声データ（以下、歌唱者音声データという）が、例えばＷＡＶＥ形式やＭＰ３形式などで時系列に記憶される。このように時系列に記憶されることにより、歌唱者音声データの所定時間長の各フレームに対して、楽曲の進行が開始されてから経過した時間を対応付けることができる。

表示部１５は、液晶ディスプレイなどの表示デバイスであって、ＣＰＵ１１に制御されて、記憶部１４の楽曲データ記憶領域１４ａに記憶された歌詞データトラックに基づいて、楽曲の進行に応じて背景画像などとともに歌詞テロップを表示する。また、カラオケ装置１を操作するためのメニュー画面、歌唱の評価結果画面などの各種画面を表示する。操作部１６は、例えばキーボード、マウス、リモコンなどであり、カラオケ装置１の利用者が操作部１６を操作すると、その操作内容を表すデータがＣＰＵ１１へ出力される。

マイクロフォン１７は、歌唱者の歌唱音声を収音する。音声処理部１８は、マイクロフォン１７によって収音された音声をＡ／Ｄ変換して歌唱者音声データを生成する。歌唱者音声データは、上述したように記憶部１４の歌唱者音声データ記憶領域１４ｂに記憶される。また、音声処理部１８は、ＣＰＵ１１によって入力された音声データをＤ／Ａ変換し、スピーカ１９から放音する。

次に、ＣＰＵ１１が、ＲＯＭ１２に記憶されたプログラムを実行することによって実現する機能のうち、歌唱者の歌唱の評価を行う機能について説明する。図２は、ＣＰＵ１１が実現する機能を示したソフトウエアの構成を示すブロック図である。

ピッチ抽出部１０１は、歌唱者音声データ記憶領域１４ｂに記憶される歌唱者音声データを読み出し、所定時間長のフレーム単位で当該歌唱者音声データに係る歌唱音声のピッチを抽出する。そして、フレーム単位で抽出した歌唱音声のピッチを示す歌唱ピッチデータを通常評価部１０３に出力する。なお、ピッチの抽出にはＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）により生成されたスペクトルから抽出してもよいし、その他公知の方法により抽出してもよい。

ピッチ算出部１０２は、楽曲データ記憶領域１４ａから評価対象となる楽曲のガイドメロディトラックを読み出し、読み出したガイドメロディトラックから楽曲のメロディを認識する。また、認識したメロディを構成する各音について、所定時間長のフレーム単位でピッチを算出する。そして、フレーム単位で算出したガイドメロディのピッチを示すメロディピッチデータを通常評価部１０３に出力する。なお、メロディを構成する各音の音程は、ノートナンバによって規定されているから、ノートナンバに対応してピッチが決定することになる。例えば、ノートナンバが６９（Ａ４）である場合には、ピッチは４４０Ｈｚとなる。この際、ノートナンバとピッチを対応させるテーブルを記憶部１４に記憶しておけば、ピッチ算出部１０２は当該テーブルを参照してピッチを算出してもよい。

通常評価部１０３は、ピッチ抽出部１０１から出力された歌唱ピッチデータとピッチ算出部１０２から出力されたメロディピッチデータとをフレーム単位で比較し、ピッチの一致の程度を示す通常評価データを生成し、採点部１０４へ出力する。ここで、一致の程度は、各フレームにおけるメロディを構成する音のピッチと歌唱音声のピッチとの差分から算出してもよいし、メロディを構成する音のピッチと歌唱音声のピッチとが実質的に一致、すなわちメロディを構成する音のピッチに対して所定のピッチの範囲に入った時間的な割合から算出してもよい。なお、通常評価部１０３においては、歌唱音声のピッチを評価するだけでなく、音量、その他の特徴量を用いて評価してもよい。この場合には、歌唱音声からそれぞれ必要な特徴量を抽出する抽出手段を設けるとともに、記憶部１４に評価の基準となる特徴量を記憶させておけばよい。

音量抽出部１０５は、歌唱者音声データ記憶領域１４ｂに記憶される歌唱者音声データを読み出し、所定時間長のフレーム単位で当該歌唱者音声データに係る歌唱音声の音量レベルを抽出する。そして、フレーム単位で抽出した歌唱音声の音量レベルを示す音量レベルデータをデータ加工部１０６に出力する。

データ加工部１０６は、音量抽出部１０５から出力された音量レベルデータについて、所定のデータ処理を行うことにより生成した音量レベル加工データを抑揚評価部１０７に出力する。ここで、所定のデータ処理について図３を用いて説明する。

まず、音量抽出部１０５から出力された音量レベルデータは、図３（ａ）に示すように、音量レベルが時刻の進行にともなって変化するデータであるものとして説明する。まず、音量レベルデータの音量レベルＶ_b（ｔ）の急峻な変動を除去するための処理について、図３（ｂ）を用いて説明する。このｔは楽曲の開始時点から経過した時刻を示している。ここで、音量レベルは所定時間長のフレーム単位で抽出されているから、各フレームに対して音量レベルが対応しているが、各フレームは所定時間長であるから楽曲の開始時点から経過した時刻に換算することができる。そのため、以下の説明においては時刻に換算して説明する。図３（ｂ）は、音量レベル加工データに係る音量レベルＶ（ｔ）を実線で示し、図３（ａ）に示した音量レベルデータに係る音量レベルＶ_b（ｔ）を破線で示した図である。ここで、図３（ｂ）に示すように、ある時刻ｋにおけるＶ（ｋ）は、時刻ｋを中心とする時間幅ｔｗにおけるＶ_b（ｔ）の最大値になるようにデータ処理が行われる。すなわち、Ｖ_b（ｋ−（ｔｗ／２））からＶ_b（ｋ＋（ｔｗ／２））のうち最大の音量レベルがＶ（ｋ）となる。このようにして各時刻についてデータ処理を行うことにより、音量レベル加工データがデータ加工部１０６によって生成される。

次に、データ加工部１０６は、生成した音量レベル加工データの変動をさらに低減するために、高周波成分を除去するＬＰＦ（ＬｏｗＰａｓｓＦｉｌｔｅｒ）に通す。以上のようにして、データ加工部１０６は、音量抽出部１０５から出力された音量レベルデータについて、所定のデータ処理を行うことにより音量レベル加工データを生成し、抑揚評価部１０７に出力する。

抑揚評価部１０７は、データ加工部１０６から出力された音量レベル加工データに基づいて、抑揚の程度、すなわち音量レベルの変動の程度を示す抑揚評価データを生成する。この生成について、図４を用いて説明する。まず、抑揚評価部１０７は、音量レベル加工データに係る音量レベルＶ（ｔ）について、楽曲の全体のうち歌唱区間における平均値Ｖａを算出する。歌唱区間は、ガイドメロディトラックに基づいて決定する。例えば楽曲のメロディを示すデータがある区間として決定すればよく、本実施形態においては、時刻ｔ＝０からｔ＝ｎ（フレーム数としてはｎ＋１）までが歌唱区間であるとする。すなわち、平均値Ｖａは以下の数１で表される。

次に、抑揚評価部１０７は、図４に示すように、各時刻ｔにおけるＶ（ｔ）と平均値Ｖａとの差分ΔＶ（ｔ）＝Ｖ（ｔ）−Ｖａ（単位をｄＢとした場合）を算出し、当該差分の絶対値をｔ＝０からｔ＝ｎまで加算する。ここで、図４においては時刻ｍにおけるΔＶ（ｍ）を示している。そして、その合計を歌唱区間の時間長に対応するフレーム数の合計ｎ＋１で除算することにより、抑揚評価データが示す値Ｄｅを算出する。すなわち、Ｄｅは以下の数２で表される。

ここで、Ｄｅが大きいほど、Ｖ（ｔ）とＶ（ｔ）から算出した平均値Ｖａとの差分が大きいことになる。これは、Ｖ（ｔ）の変動が大きいことになるから、音量レベルの変動が大きく抑揚のある歌唱を行っていることになる。また、データ加工部１０６におけるデータ処理により、急峻な変動などの影響を受けないようにしているから、Ｄｅは、局所的な音量レベルの変動の影響を受けず、楽曲全体の進行における大きな時間単位での変動の程度を示す値となる。

そして、抑揚評価部１０７は、上述のようにして算出した抑揚評価データを採点部１０４へ出力する。

採点部１０４は、通常評価部１０３から出力された通常評価データと、抑揚評価部１０７から出力された抑揚評価データとに基づいて歌唱者の歌唱の評価点を算出する。これにより、Ｄｅの値が大きければ、歌唱の抑揚があると判断して歌唱の評価点を高くすることができる。そして、算出した評価点はＣＰＵ１１によって表示部１５に表示される。

次に、カラオケ装置１の動作について説明する。まず、歌唱者は操作部１６を操作して、歌唱する楽曲を選択する。ＣＰＵ１１は、歌唱者が選択した楽曲に対応する楽曲データを楽曲データ記憶領域１４ａから読み出し、楽曲の進行に応じて、読み出した楽曲データの伴奏データトラックに基づいて楽曲の伴奏などをスピーカ１９から放音させるとともに、読み出した楽曲データの歌詞データトラックに基づいて表示部１５に歌詞をワイプ表示させる。歌唱者は、楽曲の進行にあわせて歌唱すると、当該歌唱の音声がマイクロフォン１７に収音され、歌唱者音声データとして歌唱者音声データ記憶領域１４ｂに記憶される。

楽曲が最後まで進むことにより終了すると、ＣＰＵ１１によって歌唱者の歌唱の評価が開始される。ピッチ抽出部１０１は、歌唱者音声データ記憶領域１４ｂに記憶された歌唱者音声データを読み出し、歌唱ピッチデータを通常評価部１０３に出力する。ピッチ算出部１０２は、楽曲データ記憶領域１４ａから評価基準となる楽曲のガイドメロディトラックを読み出し、メロディピッチデータを通常評価部１０３に出力する。

通常評価部１０３は、ピッチ抽出部１０１から出力された歌唱ピッチデータとピッチ算出部１０２から出力されたメロディピッチデータとをフレーム単位で比較し、ピッチの一致の程度を示す通常評価データを生成し、採点部１０４へ出力する。

音量抽出部１０５は、歌唱者音声データ記憶領域１４ｂに記憶された歌唱者音声データを読み出し、音量レベルデータをデータ加工部１０６へ出力する。データ加工部１０６は、音量抽出部１０５から出力された音量レベルデータに対して、所定のデータ処理を行って音量レベル加工データを生成し、抑揚評価部１０７へ出力する。抑揚評価部１０７は、データ加工部１０６から出力された音量レベル加工データに基づいて抑揚評価データを算出し、採点部１０４へ出力する。

そして、採点部１０４は、通常評価部１０３から出力された通常評価データと、抑揚評価部１０７から出力された抑揚評価データとに基づいて、所定のアルゴリズムによって歌唱者の歌唱の評価点を算出する。そして、その算出結果が表示部１５に表示されることになる。

以上のように、本実施形態におけるカラオケ装置１は、歌唱者の歌唱音声についての音量レベルの変動の程度を示す値として、当該音量レベルと、当該音量レベルから算出した平均値との差分に基づいて算出した抑揚評価データを生成することができる。そして抑揚評価データが示す値Ｄｅの大きさから、歌唱の抑揚の程度を評価することができるから、歌唱者の歌唱による採点結果に歌唱の抑揚の評価を加えることができる。

以上、本発明の実施形態について説明したが、本発明は以下のように、さまざまな態様で実施可能である。

＜変形例１＞
実施形態においては、音量抽出部１０５は、歌唱者音声データに係る歌唱者の歌唱音声の音量レベルを抽出して音量レベルデータを生成していた。ここで、強く歌唱する際には、倍音成分、すなわち高周波数帯域の成分が大きくなりやすいため、これを強調するような処理を行なってもよい。例えば、音量抽出部１０５は、歌唱者音声データに係る歌唱者の歌唱音声において、特定の周波数帯域の音量レベルを増幅するイコライザを用いて増幅することにより修正音声データを生成する。そして、生成した修正音声データに基づいて、特定の周波数帯域の音量レベルを増幅された歌唱音声について、当該歌唱音声の全周波数帯域に係る音量レベルを抽出するようにすればよい。このようにすると、抑揚のある歌唱の評価をより精度よく行うことができる。

＜変形例２＞
実施形態においては、音量抽出部１０５は、歌唱者音声データに係る歌唱者の歌唱音声の音量レベルを抽出して音量レベルデータを生成していた。ここで、強く歌唱する際には、特定の倍音成分（例えば、３ｋＨｚ程度の音）が大きくなりやすいため、この倍音成分のみを使って処理を行なってもよい。例えば、音量抽出部１０５は、歌唱者音声データを特定の周波数帯域（例えば、３ｋＨｚ）が中心周波数であるＢＰＦ（ＢａｎｄＰａｓｓＦｉｌｔｅｒ）を通した後に、音量レベルを抽出するようにすればよい。なお、周波数帯域幅については、どのような帯域幅に設定してもよい。このようにすると、抑揚のある歌唱の評価をより精度よく行うことができる。

＜変形例３＞
実施形態においては、歌唱の抑揚についての評価は、楽曲が終了し歌唱者の歌唱が終了した後に行っていたが、歌唱途中で順次処理が行なわれるようにしてもよい。この場合には、音量抽出部１０５は、楽曲の進行に応じて、すでに歌唱された部分のデータである歌唱者音声データから歌唱音声の音量レベルを順次抽出し、音量レベルデータをデータ加工部１０６へ出力していくようにすればよい。そして、データ加工部１０６は、音量抽出部１０５から順次出力される音量レベルデータにあわせて、所定のデータ処理を行って、音量レベル加工データを順次出力していくようにすればよい。すなわち、出力されたところまでの音量レベルデータが示す音量レベルが、楽曲全体の音量レベルであるとみなして、実施形態におけるデータ処理を行い、順次生成されたデータ処理結果を音量レベル加工データとして、抑揚評価部１０７に順次出力していけばよい。

そして、抑揚評価部１０７は、データ加工部１０６から順次出力された音量レベル加工データが示す音量レベルが、楽曲全体の音量レベルであるとみなして、音量レベル加工データが出力された時点までの平均値を算出し、当該平均値と当該音量レベルとの差分に基づいて、抑揚評価データを順次生成すればよい。このようにすると、順次生成された抑揚評価データに基づいて、ＣＰＵ１１は、表示部１５に抑揚評価データが生成された時点までの歌唱の抑揚の評価を示す表示を行うこともでき、歌唱者は歌唱しながら歌唱の抑揚の評価を確認することができる。また、楽曲が終了した後わずかな時間で歌唱の抑揚評価が終了するため、早く評価結果を表示部１５に表示させることができる。

＜変形例４＞
実施形態においては、データ加工部１０６は音量レベルの急峻な変動の影響を無くすためのデータ処理を行っていたが、データ処理の態様は実施形態における態様に限られない。例えば、ある時刻を中心とする時間幅ｔｗにおけるＶ_L（ｔ）の最大値になるようにデータ処理が行われていたが、最大値でなく中央値、平均値などであってもよい。また、ある時刻を中心とする時間幅ｔｗとせず、ある時刻の直前の時間ｔｗとしてもよい。このようにデータ処理は様々な態様が可能であり、これらは例えば操作部１６を操作して設定しておけばよい。

＜変形例５＞
実施形態においては、抑揚評価部１０７は、音量レベル加工データに係る音量レベルＶ（ｔ）について、楽曲の全体のうち歌唱区間における平均値Ｖａを算出し、抑揚評価データ算出のために、差分ΔＶ（ｔ）の絶対値を歌唱区間において積算することによって行なっていた。すなわち、楽曲データに基づいて決定された歌唱区間における歌唱者の歌唱が、抑揚の評価対象となっていた。ここで、評価対象となる歌唱の区間は、歌唱区間でなくてもよい。例えば、評価対象を楽曲全体の歌唱とする場合には、歌唱者音声データ全体を評価対象とすればよい。

また、評価対象となる歌唱は、設定された指定区間における歌唱としてもよい。この場合には、楽曲データが当該指定区間を示す指定区間データを有するようにし、抑揚評価部１０７は、楽曲データが有する指定区間データを読み出すことにより、指定区間を設定すればよい。そして、例えば、指定区間を楽曲の中で強く歌唱する区間、弱く歌唱する区間としておけば、抑揚をつける区間に限定して評価することができるから、抑揚をつける必要の無い区間において抑揚をつけても評価対象としないことができる。

さらに、評価対象となる歌唱の区間は、歌唱者音声データに係る音量レベルに基づいて決定されるようにしてもよい。例えば、楽曲における歌唱していない間、すなわち歌唱音声データに係る音声の音量レベルが非常に小さい状態が長く続く場合には、平均値Ｖａが小さく算出されることがあったり、差分ΔＶ（ｔ）が非常に大きい値となることがあったりするため、当該音量レベルが所定の音量レベル以下となるフレームについては、評価対象から除外してもよい。

＜変形例６＞
実施形態においては、差分ΔＶ（ｔ）の絶対値をｔ＝０からｔ＝ｎまで加算、すなわちフレームごとに算出した差分ΔＶ（ｔ）をｔ＝０からｔ＝ｎに相当するフレームにおいて積算するようにしていたが、数フレーム単位で差分ΔＶ（ｔ）を算出するようにしてもよい。この場合には、当該数フレームに対応する音量レベルの平均値、最大値などを歌唱者音声データに係る音量レベルとしてもよいし、差分ΔＶ（ｔ）の算出に対応するフレームに対応する音量レベルをそのまま用いてもよい。このようにした場合、音量レベルの急峻な変化が少なくなるから、データ加工部１０６におけるＬＰＦを用いなくすることもできる。

＜変形例７＞
実施形態においては、抑揚評価部１０７において、音量レベル加工データに係る音量データＶ（ｔ）から算出される平均値ＶａとＶ（ｔ）との差分によってΔＶ（ｔ）が算出されていたが、平均値Ｖａ以外の値とＶ（ｔ）の差分によってΔＶ（ｔ）を算出するようにしてもよい。例えば、歌唱区間におけるＶ（ｔ）の最大値、最小値などを用いてもよい。すなわち、音量レベルデータに基づいて決定された値とＶ（ｔ）との差分によってΔＶ（ｔ）を算出すれば、どのような値であってもよい。このようにしても、実施形態における効果を得ることができる。

＜変形例８＞
実施形態においては、抑揚評価部１０７において生成された抑揚評価データの値Ｄｅが大きいほど歌唱の抑揚があるから、採点部１０４においては、歌唱の評価点を高くしていた。ここで、歌唱の評価点への加点、減点、割合など抑揚の評価の態様を変更できるようにしても良い。例えば、楽曲に応じて抑揚の評価の態様を変更してもよい。この場合には、楽曲データが抑揚の評価の態様を示す評価基準データを有するようにし、採点部１０４は、楽曲データが有する評価基準データを読み出して、当該評価基準データに基づいて、抑揚の評価の態様を決定すればよい。ここで、抑揚の評価の態様は、加点評価だけでなく、楽曲によっては抑揚を付けない方が良い場合もあるから、減点評価としてもよい。なお、楽曲単位でなく、楽曲のジャンルに応じて抑揚の評価の態様を変更しても良い。この場合は、楽曲データに楽曲のジャンルを示す楽曲ジャンルデータを有するようにするとともに、楽曲のジャンルと抑揚の評価の態様を対応付けたテーブルを示す対応データを記憶部１４に記憶させればよい。そして、採点部１０４は、楽曲データが有する楽曲ジャンルデータと対応データとを読み出して、当該楽曲ジャンルデータが示す楽曲のジャンルに対応させて、抑揚の評価の態様を決定すればよい。

また、歌唱者の歌唱の巧さ（歌唱レベル）に応じて抑揚の評価の態様を変更しても良い。この場合には、歌唱者が操作部１６を操作することにより、歌唱レベルを入力するようにして、採点部１０４は、当該歌唱レベルに応じて抑揚の評価の態様を決定するようにすればよい。さらに、楽曲データに基づいて抑揚の評価の態様を変更してもよい。この場合には、採点部１０４は、ガイドメロディトラック、伴奏データトラックにおける音量レベルを示すデータ（例えば、ベロシティ）を参照して、これにより当該音量レベルが楽曲中で大きく変動する場合には、歌唱の評価点における抑揚の評価点の割合を大きくする態様とすればよい。このようにすれば、楽曲データから自動的に抑揚の評価の態様を決定することができる。

実施形態に係るカラオケ装置のハードウエアの構成を示すブロック図である。実施形態に係るカラオケ装置のソフトウエアの構成を示すブロック図である。実施形態に係るデータ加工部におけるデータ処理の説明図である。実施形態に係る抑揚評価部におけるデータ処理の説明図である。

符号の説明

１…カラオケ装置、１０…バス、１１…ＣＰＵ、１２…ＲＯＭ、１３…ＲＡＭ、１４…記憶部、１４ａ…楽曲データ記憶領域、１４ｂ…歌唱者音声データ記憶領域、１５…表示部、１６…操作部、１７…マイクロフォン、１８…音声処理部、１９…スピーカ、１０１…ピッチ抽出部、１０２…ピッチ算出部、１０３…通常評価部、１０４…採点部、１０５…音量抽出部、１０６…データ加工部、１０７…抑揚評価部

Claims

楽曲を示す楽曲データを再生する再生手段と、
前記再生手段が楽曲データを再生する間に入力された歌唱者の歌唱音声に基づいて歌唱者音声データを生成する音声入力手段と、
前記楽曲のうちの歌唱区間において、前記歌唱者音声データが示す歌唱音声の所定時間長毎の音量レベルを抽出する音量レベル抽出手段と、
前記音量レベル抽出手段により抽出された前記所定時間長毎の音量レベルを用いて、前記歌唱区間における前記歌唱音声の評価の基準となる音量レベルを算出する算出手段と、
前記算出手段により算出された前記基準となる音量レベルと、前記音量レベル抽出手段により抽出された前記所定時間長毎の音量レベルとの差分により、前記歌唱区間における前記歌唱音声の抑揚の評価を行う評価手段と
を具備し、
前記音量レベル抽出手段は、
前記音声入力手段により生成された歌唱者音声データが示す歌唱音声の倍音成分を含む特定の周波数帯域の音量レベルを増幅した後の歌唱者音声データを用いて、前記所定時間長毎の音量レベルを抽出する
ことを特徴とするカラオケ装置。
楽曲を示す楽曲データを再生する再生手段と、
前記再生手段が楽曲データを再生する間に入力された歌唱者の歌唱音声に基づいて歌唱者音声データを生成する音声入力手段と、
前記楽曲のうちの歌唱区間において、前記歌唱者音声データが示す歌唱音声の所定時間長毎の音量レベルを抽出する音量レベル抽出手段と、
前記音量レベル抽出手段により抽出された前記所定時間長毎の音量レベルを用いて、前記歌唱区間における前記歌唱音声の評価の基準となる音量レベルを算出する算出手段と、
前記算出手段により算出された前記基準となる音量レベルと、前記音量レベル抽出手段により抽出された前記所定時間長毎の音量レベルとの差分により、前記歌唱区間における前記歌唱音声の抑揚の評価を行う評価手段と
を具備し、
前記音量レベル抽出手段は、
前記音声入力手段により生成された歌唱者音声データが示す歌唱音声の倍音成分を含む一部の周波数帯域における音量レベルを抽出する
ことを特徴とするカラオケ装置。
前記算出手段は、前記歌唱者音声データが示す音量レベルの平均レベルを前記基準となる音量レベルとして算出する
ことを特徴とする請求項１又は請求項２に記載のカラオケ装置。
前記音量レベル抽出手段により前記所定時間長毎に抽出された各時刻の音量レベルを、当該時刻を含む前記所定時間長よりも長い時間幅において最大値の音量レベルにするデータ処理を行うデータ処理部を備え、
前記算出手段は、前記データ処理部により前記データ処理が行われた音量レベルを用いて、前記基準となる音量レベルを算出し、
前記評価手段は、前記データ処理部により前記データ処理が行われた後の前記抽出された前記所定時間長毎の音量レベルを用いて、前記評価を行う
ことを特徴とする請求項１乃至請求項３のいずれか１項に記載のカラオケ装置。
前記評価手段は、前記音量レベル抽出手段により抽出された音量レベルが所定の音量レベル以下となる前記所定時間の区間を評価対象から除外する
ことを特徴とする請求項１乃至請求項４のいずれか１項に記載のカラオケ装置。