JP2008139426A

JP2008139426A - 評価用データのデータ構造、カラオケ装置及び記録媒体

Info

Publication number: JP2008139426A
Application number: JP2006323732A
Authority: JP
Inventors: Akane Noguchi; あかね野口; Juichi Sato; 寿一佐藤; Shingo Kamiya; 伸悟神谷
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2006-11-30
Filing date: 2006-11-30
Publication date: 2008-06-19

Abstract

【課題】歌唱評価を効率よく行うことのできる技術を提供する。
【解決手段】カラオケ装置１のコンテンツファイル記憶領域１２４には、歌唱者の歌唱を評価する際に用いられるコンテンツファイルが楽曲毎に記憶されている。コンテンツファイルは、模範音声データについて音声分析をした結果であって時間区切りを付けられた区間単位毎にブロック化されている分析済みデータであってピッチ，パワー，スペクトルを示す分析済みデータと、模範音声データについて歌唱技法を分析した結果であって時間区切りを付けられた区間単位毎にブロック化されている技法データを含んでいる。カラオケ装置１の制御部１１は、時間区切りに応じたブロックの分析済みデータと技法データとを記憶部１２から読み出して歌唱音声と比較し、比較結果に応じて歌唱音声を評価する。
【選択図】図１

Description

本発明は、カラオケ装置及びデータ構造に関する。

カラオケ装置においては、歌唱者の歌唱の巧拙を採点するための方法が種々提案されている。この採点方法としては、例えば、お手本として準備された音声データとユーザの歌唱音声との類似度を比較することによって歌唱の巧拙を評価する方法が提案されている。また、特許文献１には、演奏のための情報の取扱いを容易にすると共に、各情報間のきめ細かい同期制御を可能にする技術が提案されている。
特開２００２−５５７８２号公報

ところで、お手本音声を用いた歌唱指導を行う場合、お手本音声のピッチ・パワー・スペクトルなどの音声分析やアーティキュレーション（歌唱技法）の分析を評価時に毎回行うと効率が悪く、また、逐次処理を行う場合には機器の処理速度が間に合わない可能性がある。特許文献１に記載の技術では、演奏するための情報を格納しているのみであるから、歌唱の評価や指導を行うことはできなかった。
本発明は上述した背景の下になされたものであり、歌唱評価を効率よく行うことのできる技術を提供することを目的とする。

本発明の好適な態様である評価用データのデータ構造は、歌唱者の歌唱を評価する際に用いられる評価用データのデータ構造において、模範となる歌唱の音声を表す模範音声データについて音声分析をした結果であって時間区切りを付けられた区間単位にブロック化されているとともに、ブロックごとに識別情報が設けられ、前記識別情報によって各ブロックが個別に読み出し可能となっている分析済みデータを具備することを特徴とする。
また、本発明の好適な態様である評価用データのデータ構造は、歌唱者の歌唱を評価する際に用いられる評価用データのデータ構造において、模範となる歌唱の音声を表す模範音声データについて歌唱技法を分析した結果であって時間区切りを付けられた区間単位にブロック化されているとともに、ブロックごとに識別情報が設けられ、前記識別情報によって各ブロックが個別に読み出し可能となっている技法データを具備することを特徴とする。

また、本発明の好適な態様である評価用データのデータ構造は、歌唱者の歌唱を評価する際に用いられる評価用データのデータ構造において、模範となる歌唱の音声を表す模範音声データについて音声分析をした結果であって時間区切りを付けられた区間単位にブロック化されているとともに、ブロックごとに識別情報が設けられ、前記識別情報によって各ブロックが個別に読み出し可能となっている分析済みデータと、模範となる歌唱の音声を表す模範音声データについて歌唱技法を分析した結果であって時間区切りを付けられた区間単位にブロック化されているとともに、ブロックごとに識別情報が設けられ、前記識別情報によって各ブロックが個別に読み出し可能となっている技法データとを具備することを特徴とする。

この態様において、前記各ブロックは、予め定められた種類毎に分類され、各分類の中で一のブロックの下位層に他のブロックが含まれるように、階層的になっていてもよい。
また、この態様において、上位層が読み出された場合は、その下位側の層のブロックも読み出される構成となっていてもよい。
また、この態様において、前記分析済みデータは、ピッチ、パワー及びスペクトルの少なくともいずれか一つを含んでもよい。

また、本発明の好適な態様であるカラオケ装置は、楽曲の伴奏を表す伴奏データを記憶する記憶手段と、請求項１乃至６のいずれかに記載の評価用データを記憶する評価用データ記憶手段と、時間区切りに応じたブロックの分析済みデータを前記記憶手段から読み出して歌唱音声と比較し、該比較結果に応じた評価を行う評価手段と、前記記憶手段に記憶された伴奏データに応じて、伴奏音を放音手段に放音させる放音制御手段とを備えることを特徴とする。
この態様において、前記技法毎に、評価に用いるか否かを示すフラグを書き込む書き込み手段を備え、前記評価手段は、前記フラグが評価に用いることを示すブロックの分析済みデータを前記記憶手段から読み出して歌唱音声と比較し、該比較結果に応じた評価を行ってもよい。
また、本発明の好適な態様である記録媒体は、上述のデータ構造を有する評価用データを記録していることを特徴とする。

本発明によれば、歌唱評価を効率よく行うことができる。

以下、図面を参照して、本発明の実施形態について説明する。
＜Ａ：構成＞
図１は、本実施形態であるカラオケ装置１のハードウェア構成の一例を示すブロック図である。図において、制御部１１は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）を備え、ＲＯＭ又は記憶部１２に記憶されているコンピュータプログラムを読み出して実行することにより、バス１３を介してカラオケ装置１の各部を制御する。記憶部１２は、ハードディスクなどの記憶手段である。表示部１４は、液晶ディスプレイなどの表示手段であり、制御部１１の制御の下、文字列や各種メッセージ、カラオケ装置１を操作するためのメニュー画面等を表示する。操作部１５は、各種のキーを備え、キーの押下などに応じて操作内容に対応した信号を制御部１１へ出力する。マイクロフォン１８は、収音し、収音した音声を表す音声信号（アナログ信号）を出力する収音手段である。音声処理部１６は、マイクロフォン１８が出力する音声信号（アナログ信号）をデジタルデータに変換して制御部１１に出力する。また、音声処理部１６は、音声を表すデジタルデータをアナログ信号に変換してスピーカ１７に出力する。スピーカ１７は、音声処理部１６でデジタルデータからアナログ信号に変換され出力される音声信号に応じた強度で放音する放音手段である。

カラオケ装置１の記憶部１２は、図１に示すように、伴奏データ記憶領域１２１と歌詞データ記憶領域１２２と模範音声データ記憶領域１２３とコンテンツファイル記憶領域１２４と練習者音声データ記憶領域１２５とを有している。伴奏データ記憶領域１２１には、ＭＩＤＩ（Musical Instruments Digital Interface）形式などのデータ形式の伴奏データであって、各楽曲の伴奏楽音を構成する伴奏データが記憶されている。また、この伴奏データには、楽曲のガイドメロディのノート（音符）毎のピッチを示すメロディデータが含まれている。歌詞データ記憶領域１２２には、楽曲の歌詞を示す歌詞データが記憶されている。歌詞データは、カラオケ歌唱の際に歌詞テロップとして表示部１４に表示される。

模範音声データ記憶領域１２３には、歌唱のお手本として予め収録された模範音声を表す模範音声データが記憶されている。模範音声データは、ＷＡＶＥ形式やＭＰ３（MPEG1 Audio Layer-3）形式などのデータ形式である。練習者音声データ記憶領域１２５には、マイクロフォン１８によって収音されて音声処理部１６でデジタルデータに変換された音声データ（以下、「練習者音声データ」という）が記憶される。この練習者音声データも、ＷＡＶＥ形式やＭＰ３形式などのデータ形式である。

コンテンツファイル記憶領域１２４には、歌唱者の歌唱を評価する際に用いられる評価用データ（以下、「コンテンツファイル」という）が楽曲毎に記憶される。
図２は、コンテンツファイルのデータ構造の一例を示す図である。コンテンツファイルは、図示のように、「コンテンツＩＤ」と「コンテンツサイズ」と「コンテンツ情報」と「評価用構造情報」「アプリ用構造情報」と「音声分析結果情報」との各項目が互いに関連付けて構成されている。これらの項目のうち、「コンテンツＩＤ」の項目には、コンテンツファイルを識別する識別情報が格納される。「コンテンツサイズ」の項目には、コンテンツファイルのサイズを示す情報が格納される。「コンテンツ情報」の項目には、コンテンツの著作権を示す情報やその他コンテンツに関する付加情報が格納される。「評価用構造情報」の項目には、技法データなど、歌唱者の歌唱を評価する際に用いられる情報が格納される。「アプリ用構造情報」の項目には、コメント、区切り情報などが格納される。次に、「音声分析結果情報」の項目には、その楽曲の模範となる歌唱音声を分析した結果を示す音声分析結果情報が記憶される。

次に、「評価用構造情報」のデータ構造について更に詳細に説明する。「評価用構造情報」は、時間区切りを付けられた区間単位にブロック化されている。この実施形態においては、評価用構造情報は、歌唱区間毎に時間区切りを付けられた区間単位にブロック化されているとともに、それぞれの歌唱区間毎のブロックは、評価区間毎に区切りを付けられた区間単位にブロック化されている。
評価区間は、歌唱区間よりも短い区間であり、この実施形態においては、複数の評価区間がまとめられて歌唱区間が構成されている。評価区間は、制御部１１が評価を行う際の単位として用いるものであり、一方、歌唱区間は、歌唱者に歌唱練習を行わせる際の単位として用いられるものである。この実施形態においては、歌詞を表示部１４の画面に表示しきれる程度に区分したそれぞれの区間を評価区間として用い、一方、歌唱者が歌唱練習を行いやすい程度の時間区間毎（例えば、フレーズ毎）に区分したそれぞれを歌唱区間として用いる。このように、各ブロックは、予め定められた種類毎に分類され、各分類の中で一のブロックの下位層に他のブロックが含まれるように、階層的になっている。また、上位層のブロックが読み出された場合は、その下位側の層のブロックも読み出される構成となっている。

なお、以下の説明においては、説明の便宜上、歌唱区間毎のブロックと評価単位毎のブロックとを「チャンク」と称して説明する。また、「評価用構造情報」と「アプリ用構造情報」とを各々区別する必要がない場合には、これらを「構造情報」と称して説明する。

「評価用構造情報」は、図２に示すように、「チャンクＩＤ」と「チャンクサイズ」と「歌唱区間チャンク」との各項目が互いに関連付けて構成されている。これらの項目のうち、「チャンクＩＤ」の項目には、チャンクを識別する識別情報が格納される。「チャンクサイズ」の項目には、そのチャンクのサイズを示す情報が格納される。「歌唱区間チャンク」の項目には、歌唱区間毎にブロック化された評価用構造情報が格納されている。

さらに、「歌唱区間チャンク」は、「チャンクＩＤ」と「チャンクサイズ」と「区切り情報」と「評価区間チャンク」との各項目が互いに関連付けて構成されている。これらの項目のうち、「チャンクＩＤ」の項目には、チャンクを識別する識別情報が格納される。「チャンクサイズ」の項目には、チャンクのサイズを示す情報が格納される。「区切り情報」の項目には、そのチャンクの時間区切りの位置（時刻）を示す情報が格納される。「評価区間チャンク」の項目には、評価区間毎にブロック化された評価用構造情報が格納されている。

「評価区間チャンク」は、「チャンクＩＤ」と「チャンクサイズ」と「区切り情報」と「歌詞チャンク」と「技法データ」との各項目が互いに関連付けて構成されている。これらの項目のうち、「チャンクＩＤ」の項目には、チャンクを識別する識別情報が格納される。「チャンクサイズ」の項目には、チャンクのサイズを示す情報が格納される。「歌詞チャンク」の項目には、歌詞の文字単位で時間区切りを付けられた区間単位にブロック化された歌詞毎の文字を示す文字情報や音声分析結果を示す情報が格納される。次に、「技法データ」の項目には、模範音声データ記憶領域１２３に記憶された模範音声データについて歌唱技法を記述した結果であって時間区切りを付けられた区間単位にブロック化されている技法データが格納される。

「技法データ」は、図２に示すように、「技法種別」と「技法態様」との各項目が互いに関連付けて構成されている。これらの項目のうち、「技法種別」の項目には、例えば、「ビブラート」、「しゃくり」、「こぶし」、「ファルセット」、「つっこみ」、「ため」、「息継ぎ」、「アクセント」などの歌唱の技法を識別する識別情報が記憶される。「ビブラート」は、音の高さをほんのわずかに連続的に上下させ、震えるような音色を出すという技法である。「しゃくり」は、目的の音より低い音から発音し、音程を滑らかに目的の音に近づけていくという技法である。「こぶし」は、装飾的にうねるような節回しを行うという技法である。「ファルセット」は、いわゆる「裏声」で歌うという技法である。「つっこみ」は、歌い出しを本来のタイミングよりも早いタイミングにするという技法である。「ため」は、歌い出しを本来のタイミングよりも遅いタイミングにするという技法である。「息継ぎ」は、練習者が息継ぎをするタイミングを意味する。「アクセント」は、音を強調するために、やや大きい音量で演奏する技法である。
なお、カラオケ装置１の管理者や開発者等が、技法データの削除、追加、編集等を行えるようにしてもよい。具体的には、例えば、模範音声にオリジナルの技法が不足しているなどの必要に応じて、カラオケ装置１の管理者等が、カラオケ装置１の操作部１５を操作して、技法データの追加を行えるようにしてもよい。この場合、操作部１５は操作された内容に応じた信号を制御部１１に出力し、制御部１１は、操作部１５からの信号に応じて、技法データの削除、追加、編集等を行う。

次に、「技法態様」の項目には、その技法の態様を示す情報が記憶されている。例えば、ビブラートの場合には、ビブラート開始位置、ビブラートの長さ、深さ、周期といった情報が記憶され、また、しゃくりの場合には、しゃくり開始位置、しゃくり長さ、開始音程などを示す情報が記憶される。

次に、「アプリ用構造情報」について説明する。なお、以下の説明において、「チャンクＩＤ」や「チャンクサイズ」は、それぞれ、チャンクを識別する識別情報、チャンクのサイズを示す情報である。
「アプリ用構造情報」は、「チャンクＩＤ」と「チャンクサイズ」と「歌唱区間チャンク」との各項目が互いに関連付けて構成されている。この構造は上述した評価用構造情報の構造と同様である。
次に、「歌唱区間チャンク」は、「チャンクＩＤ」と「チャンクサイズ」と「区切り情報」と「評価区間チャンク」との各項目が互いに関連付けられて構成される。なお、この構成は、上述した「評価用構造情報」の構成と同様である。

次に、「評価区間チャンク」は、「チャンクＩＤ」と「チャンクサイズ」と「区切り情報」と「コメント情報」との各項目が関連付けられて構成されている。「コメント情報」の項目には、その評価区間を歌唱する際に気をつけるべき箇所やその内容などを示すテキストデータが格納されている。

「音声分析結果情報」は、「チャンクＩＤ」と「チャンクサイズ」と「分析結果情報」との各項目が互いに関連付けて構成される。更に、「分析結果情報」は、「チャンクＩＤ」と「チャンクサイズ」と「区切り情報」と「分析済みデータ」との各項目が互いに関連付けて構成される。これらの項目のうち、「分析済みデータ」の項目には、模範音声データ記憶領域１２３に記憶された模範音声データについて音声分析をした結果であって時間区切りを付けられた区間単位（例えば、フレーム単位）にブロック化されている分析済みデータが格納される。この実施形態においては、分析済みデータとして、フレーム毎のピッチ、パワー、スペクトルを示す情報が格納される。

次に、カラオケ装置１のソフトウェア構成について、図３を参照しつつ以下に説明する。
図３は、カラオケ装置１のソフトウェア構成の一例を示すブロック図である。図３に示す音声分析・比較部１１１，技法分析・比較部１１２，シーケンサ部１１３，アプリケーション部１１４は、制御部１１がＲＯＭ又は記憶部１２に記憶されたコンピュータプログラムを読み出して実行することにより実現される。

音声分析・比較部１１１は、模範音声データ（又は練習者音声データ）について音声分析を行い、模範音声データと練習者音声データとから、所定時間長（例えば、「１０msec」）のフレーム単位で、ピッチ、パワー、スペクトルを検出する。スペクトルの検出にはＦＦＴ（Fast Fourier Transform）が用いられる。音声分析・比較部１１１は、模範音声データについて音声分析をした結果であって時間区切りを付けられた区間単位（フレーム単位）毎にブロック化した、ピッチ、パワー、スペクトルを示す分析済みデータを生成する。

また、音声分析・比較部１１１は、模範音声データと練習者音声データとから検出された両者のスペクトルに基づいて、両者の対応関係を求める。模範音声と練習者音声とは時間的に前後にずれている可能性がある。このように模範音声と練習者音声とが時間的に前後にずれている場合であっても、両者を対応付けられるようにするため、練習者音声データの時間軸を伸縮させる正規時間化（ＤＴＷ：Dynamic Time Warping）を行い、両者の時間軸を合わせる。このＤＴＷを行うための手法としては、この実施形態ではＤＰ（Dynamic Programming：動的計画法）を用いる。
更に、音声分析・比較部１１１は、コンテンツファイル記憶領域１２４に記憶されたコンテンツファイルに含まれる、時間区切りに応じたブロックの分析済みデータを、コンテンツファイル記憶領域１２４から読み出して、練習者音声と比較し、比較結果に応じた評価を行う。この評価は、例えば、ピッチ、パワー、スペクトルのそれぞれについて比較を行って評価してもよく、また、評価単位毎や歌唱単位毎などの所定単位区間毎に分析済みデータと練習者音声とを比較し、単位区間毎に評価してもよい。

技法分析・比較部１１２は、音声分析・比較部１１１によって検出されたピッチ、パワー及びスペクトルの時間的な変化のパターンを分析して、この分析結果が予め定められたパターンに対応するか否かを判定し、対応する場合には当該パターンに対応する区間を特定の歌唱技法が用いられている区間として特定し、特定した区間を示す技法データを生成する処理を行う。また、技法分析・比較部１１２は、模範音声の技法データと練習者音声の技法データとを比較して、それらが所定量以上隔たっていた場合に、予め定められた評価区間毎に相違箇所として特定する処理を行う。

シーケンサ部１１３は、各ソフトウェアの処理シーケンスやデータの流れを制御する処理を行う。アプリケーション部１１４は、カラオケ伴奏の際に歌詞テロップを表示部１４に表示させたり、また、評価結果を表示部１４に表示したりする処理を行う。

＜Ｂ：動作＞
次に、この実施形態の動作を説明する。
＜Ｂ−１：コンテンツファイル生成動作＞
まず、コンテンツファイル生成動作について、図４に示すフローチャートを参照しつつ説明する。カラオケ装置１の制御部１１は、まず、模範音声データ記憶領域１２３から模範音声データを読み出し、読み出した音声データに対して音声分析処理を行って、ピッチ、パワー及びスペクトルをフレーム単位で検出し、検出結果を示す分析済みデータをフレーム単位で生成する（ステップＳ１）。次いで、制御部１１は、模範音声データとメロディデータとを所定のフレーム単位で解析し、模範音声データとメロディデータとの時間的な対応関係を検出する（ステップＳ２）。次いで、制御部１１は、模範音声データから算出されたピッチ、パワー及びスペクトルの時間的な変化のパターンを解析して、この結果が予め定められたパターンに対応するか否かを判定し、対応する場合には当該パターンに対応する区間を特定の歌唱技法が用いられている区間として特定する。そして、制御部１１は、この歌唱技法を解析した結果であって時間区切りを付けられた評価区間単位にブロック化されている技法データを生成する（ステップＳ３）。

技法データの生成処理について以下に説明する。本実施形態においては、制御部１１は、「ビブラート」、「しゃくり」、「こぶし」、「ファルセット」、「つっこみ」、「ため」および「息継ぎ」の各歌唱技法について解析を行う。これらのうち、「ビブラート」および「しゃくり」は模範音声データから算出されたピッチに基づいて解析する。また、「こぶし」および「ファルセット」は模範音声データから算出されたスペクトルに基づいて解析する。また、「ため」および「つっこみ」は、模範音声データから算出されたピッチとメロディデータとに基づいて解析する。また、「息継ぎ」は、模範音声データから算出されたパワーとメロディデータとに基づいて解析する。

制御部１１は、模範音声データとメロディデータとの対応関係と、模範音声データから算出されたピッチとに基づいて、模範音声データに含まれる音の開始時刻と当該音に対応するメロディデータの音の開始時刻とが異なる区間を特定する。ここで、制御部１１は、模範音声データのピッチの変化タイミングがメロディデータのピッチの変化タイミングよりも早く現れている区間、すなわち模範音声データに含まれる音の開始時刻が当該音に対応するメロディデータの音の開始時刻よりも早い区間については、この区間を「つっこみ」の歌唱技法が用いられている区間であると特定する。制御部１１は、この結果を示す技法データを生成し、生成した技法データを、この技法が用いられていると特定した区間に対応する評価区間チャンクに格納する。

逆に、制御部１１は、模範音声データとメロディデータとの対応関係と、模範音声データから算出されたピッチとに基づいて、模範音声データのピッチの変化タイミングがメロディデータのピッチの変化タイミングよりも遅れて現れている区間、すなわち模範音声データに含まれる音の開始時刻が当該音に対応するメロディデータの音の開始時刻よりも遅い区間を、「ため」の歌唱技法が用いられている区間であると特定する。制御部１１は、この解析結果を示す技法データを生成し、生成した技法データを、この技法が用いられていると特定した区間に対応する評価区間チャンクに格納する。

また、制御部１１は、模範音声データから算出したピッチの時間的な変化のパターンを解析して、中心となる周波数の上下に所定の範囲内でピッチが連続的に変動している区間を、「ビブラート」の歌唱技法が用いられている区間であると特定する。制御部１１は、この解析結果を示す技法データを生成し、生成した技法データを、この技法が用いられていると特定した区間に対応する評価区間チャンクに格納する。

また、制御部１１は、模範音声データから算出したピッチの時間的な変化のパターンを解析して、低いピッチから高いピッチに連続的にピッチが変化する区間を、「しゃくり」の歌唱技法が用いられている区間であると特定する。なお、この処理は、メロディデータとの対応関係に基づいて行うようにしてもよい。すなわち、制御部１１は、模範音声データとメロディデータとの対応関係に基づいて、模範音声データのピッチが、低いピッチから連続的にメロディデータのピッチに近づいている区間を特定すればよい。また、制御部１１は、この解析結果を示す技法解析済みデータを生成し、生成した技法データを、この技法が用いられていると特定した区間に対応する評価区間チャンクに格納する。

また、制御部１１は、模範音声データとメロディデータとの対応関係と、模範音声データから算出されたパワーとに基づいて、模範音声データのパワー値が所定の閾値よりも小さい区間を、「息継ぎ」の区間であると特定する。また、制御部１１は、この解析結果を示す技法解析済みデータを生成し、生成した技法データを、この技法が用いられていると特定した区間に対応する評価区間チャンクに格納する。

また、制御部１１は、模範音声データから算出されたスペクトルの時間的な変化パターンを解析して、スペクトル特性がその予め決められた変化状態に急激に遷移している区間を、「ファルセット」の歌唱技法が用いられている区間であると特定する。ここで、予め決められた変化状態とは、スペクトル特性の高調波成分が極端に少なくなる状態である。これは、地声の場合は沢山の高調波成分が含まれるが、ファルセットになると高調波成分の大きさが極端に小さくなることを利用したものである。なお、この場合、制御部１１は、ピッチが大幅に上方に変化したかどうかも参照してもよい。ファルセットは地声と同一のピッチを発生する場合でも用いられることもあるが、一般には地声では発声できない高音を発声するときに使われる技法だからである。したがって、音声データのピッチが所定音高以上の場合に限って「ファルセット」の特定をするように構成してもよい。また、男声と女声とでは一般にファルセットを用いる音高の領域が異なるので、音声データの音域や、音声データから検出されるフォルマントによって性別検出を行い、この結果を踏まえてファルセット特定の音高領域を設定してもよい。
また、制御部１１は、この解析結果を示す技法データを生成し、生成した技法データを、この技法が用いられていると特定した区間に対応する評価区間チャンクに格納する。

また、制御部１１は、スペクトル特性の変化の態様が短時間に多様に切り替わる区間を、「こぶし」の歌唱技法が用いられている部分であると特定する。「こぶし」の場合は、短い区間において声色や発声方法を変えて唸るような味わいを付加する歌唱技法であるため、この技法が用いられている区間においてはスペクトル特性が多様に変化するからである。
以上のようにして、制御部１１は、模範音声データについて歌唱技法を解析し、その解析結果を示す技法データを、時間区切りを付けられた区間単位毎にブロック化して格納する。

制御部１１が以上の処理を、各楽曲に対して実行することにより、コンテンツファイル記憶領域１２４には、コンテンツ情報、構造情報（評価用構造情報、アプリ用構造情報）、音声分析結果情報が互いに関連付けられたコンテンツファイルが記憶される。

＜Ｂ−２：歌唱評価動作＞
次に、カラオケ装置１の歌唱評価動作について、図５に示すフローチャートを参照しつつ説明する。
練習者は、カラオケ装置１の操作部１５を操作して歌唱したい楽曲を選定し、伴奏の再生を指示する。制御部１１は、この指示に応じて図５に示す処理を開始する。制御部１１は、まず、指定された楽曲の伴奏データを伴奏データ記憶領域１２１から読み出し、音声処理部１６に供給する。音声処理部１６は、供給された伴奏データをアナログの音声信号に変換してスピーカ１７に供給して放音させる（ステップＳ１１）。また、このとき、制御部１１は表示部１４を制御して、歌詞データ記憶領域１２２から歌詞データを読み出して歌詞を表示部１４に表示させる。このとき、その歌詞を伴奏の進行に合わせて順番に色変わりさせてもよい。

練習者は、スピーカ１７から放音される伴奏に合わせて歌唱を行う。このとき、練習者の音声はマイクロフォン１８によって収音されて音声信号に変換され、音声処理部１６へと供給される。そして、音声処理部１６によってＡ／Ｄ変換された練習者音声データは、演奏開始から発音タイミングまでの経過時間を示す情報と共に、練習者音声データ記憶領域１２５に時系列に記憶されていく（ステップＳ１２）。

伴奏データの再生が終了すると（ステップＳ１３；ＹＥＳ）、制御部１１は、まず、コンテンツファイル記憶領域１２４から楽曲に対応するコンテンツファイルを選択する（ステップＳ１４）。次いで、制御部１１は、練習者音声データから、所定時間長のフレーム単位で、ピッチ、パワー及びスペクトルを検出する音声分析処理を行って、分析済みデータを生成する（ステップＳ１５）。次に、制御部１１は、練習者音声データと伴奏データ記憶領域１２１に記憶されたメロディデータとの時間的な対応関係を検出する（ステップＳ１６）。次いで、制御部１１は、練習者音声データから検出されたピッチ、パワー、スペクトルの時間的な変化のパターンを分析して、この分析結果が予め定められたパターンに対応するか否かを判定する技法分析を行い、技法データを生成する（ステップＳ１７）。このステップＳ１７に示す処理と上述した図４のステップＳ３に示す処理とが異なる点は、処理対象となる音声データが模範音声データか練習者音声データかで異なる点であり、その処理内容は同様である。そのため、ステップＳ１７についてはその詳細な説明を省略する。

次いで、制御部１１は、時間区切りに応じたブロックの分析済みデータをコンテンツファイル記憶領域１２４から読み出して練習者歌唱音声と比較し、比較結果に応じた評価を行う（ステップＳ１８）。また、制御部１１は、時間区切りに応じたブロックの技法データをコンテンツファイル記憶領域１２４から読み出して練習者歌唱音声と比較し、比較結果に応じた評価を行う（ステップＳ１９）。このとき、各ブロックには、時間区切りを示す時間区切り情報が付与されているから、制御部１１は、各ブロックの時間区切り情報を参照することで、曲のどの位置でその技法が用いられているかを判断することができ、これにより、技法が用いられたタイミングのずれや技法が用いられた時間長のずれを検出することができる。具体的には、例えば、「しゃくり」技法について評価を行う場合には、制御部１１は、「しゃくり」技法のブロックを読み出し、そのブロックの区切り情報を参照することで、曲のどの位置で「しゃくり」技法が用いられているかを把握することができる。

次いで、制御部１１は、ステップＳ１８の評価結果とステップＳ１９の評価結果とを示す情報を表示部１４に出力する。表示部１４は、制御部１１から供給される情報に応じて、ステップＳ１８とステップＳ１９との評価結果を表示する（ステップＳ２０）。図６は、表示部１４に表示される画面の一例を示す図である。図６に示す例においては、歌唱技法が用いられている旨を示す図形Ｉ１０〜Ｉ１４が表示されるとともに、評価結果を示すコメント文Ｃ１〜Ｃ４や、技法の評価結果を示す図形Ｈ１〜Ｈ５、ピッチの評価結果を示す図形Ｈ６、発音タイミングの評価結果を示す図形Ｈ７〜Ｈ８などが表示されている。ユーザは、表示部１４に表示される評価結果を参考にして歌唱の反省を行い、次回の歌唱練習に活かすことができる。
なお、このとき、制御部１１は、図６に示すような、模範音声のピッチの時間的な変化を示すグラフＡ１や練習者音声のピッチの時間的な変化を示すグラフＡ２を表示することもできる。また、図６に示すような、模範音声のリズムを表す図形Ａ３や練習者音声のリズムを表す図形Ａ４を表示することもできる。また、模範音声と練習者音声との音量やリズムの違いを比較するために、模範音声に対応する歌詞Ｗ１を表示したり、また、練習者音声に対応する歌詞Ｗ２を表示したりすることもできる。また、制御部１１は、歌詞Ｗ１と歌詞Ｗ２とを表示部１４に表示させるに加えて、音量やリズムの評価結果を示す図形Ｈ９（例えば、「○」や「×」）を表示部１４に表示させるようにしてもよい。

このように、この実施形態においては、コンテンツファイルに、音声分析結果を示す分析済みデータや、技法データを予め格納するから、制御部１１が評価を行う際に、音声分析や技法分析を毎回行う必要がなく、効率よく評価を行うことができる。また、逐次処理を行う場合であっても、音声分析や技法分析を評価時に毎回行う必要がないから、処理の遅延を防ぐことができる。

また、この実施形態においては、楽曲の構造・音声の区切りと歌唱内容の対応情報がコンテンツファイルに記憶されているから、制御部１１は、その区間に対応するブロックを読み出すことで、歌唱の評価や指導を行うことができる。
特に、評価データは、技法分析・比較部１１２で用いる技法データや、音声分析・比較部１１１で用いる分析済みデータといった、各ソフトウェアで用いるデータが個別に管理されるから、制御部１１が、データの参照を行い易い。
また、評価データは、時間区切りを付けられた区間単位にブロック化されているから、歌唱を行っている最中にリアルタイムで評価を行う場合であっても、必要とする評価データをＩＤを参照することで読み出し、さらに、読み出した評価データの時刻情報を参照することにより、リアルタイムで評価をスムーズに行うことができる。

さらに、この実施形態においては、コンテンツファイルは、歌唱区間や評価区間毎にＩＤが付されたブロック単位で構成されているから、制御部１１は、コンテンツファイルを逐次参照する必要はなく、ＩＤを参照することで、目的毎に、その目的に応じたブロックを個別に読み出すことができる。また、ＩＤを参照することで、一つ上の層との関係で、曲中の全体時間が指定されるから、そのブロックについて、曲中の絶対時間を把握することができる。
このように、この実施形態においては、参照したいデータの格納場所をいちいち計算することなく、それぞれのプログラムに適したデータのみを読み出すことができる。

＜Ｃ：変形例＞
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。
（１）上述した実施形態では、カラオケ装置１の制御部１１がコンテンツファイルを生成したが、コンテンツファイルを生成する装置はカラオケ装置に限らず、専用のコンピュータ装置でコンテンツファイルを生成することもでき、パーソナルコンピュータやサーバ装置など、様々な装置でコンテンツファイルを生成することもできる。

また、上述した実施形態では、カラオケ装置１の制御部１１が、コンテンツファイルを用いて練習者の歌唱音声を評価したが、歌唱音声の評価を行う装置はカラオケ装置に限らず、パーソナルコンピュータや専用のコンピュータ装置で歌唱評価を行うこともできる。
また、生成されたコンテンツファイルは、複数の装置で共通して用いることもでき、さまざまな装置に汎用的に用いることができる。

（２）上述した実施形態においては、「フレーム分析結果情報」として、フレーム毎のピッチ、パワー、スペクトルを示す情報を用いた。フレーム分析結果情報は、これに限らず、例えば、ピッチを示す情報であってもよく、また、スペクトルを示す情報であってもよく、ピッチ、パワー及びスペクトルの少なくともいずれか一つを示す情報を含むことが好ましい。

（３）上述した実施形態において、技法毎に、評価に用いるか否かを示すフラグを付与し、カラオケ装置１の制御部１１が、技法毎に評価に用いるか否かを示すフラグを書き込んでもよい。この場合は、歌唱の評価を行う際に、制御部１１は、技法毎のフラグを参照し、そのフラグに評価に用いることを示す値が設定されている場合には、その技法の分析済みデータを読み出して歌唱音声と比較し、該比較結果に応じた評価を行う。一方、フラグに評価に用いないことを示す値が設定されている場合には、その技法のデータを評価に使用しない。なお、この場合は、評価に使用しないデータを表示にのみ使用してもよい。例えば、技法についての分析済みデータに、評価に用いない旨を示すフラグが付与されている場合に、その分析済みデータを評価には使用しない一方、表示にのみ使用してもよい。
このように、評価に用いるか否かを示すフラグを技法毎に付与することで、評価の態様を様々にすることができる。例えば、技法については指導コメントを表示するものの、歌唱の評価には使用しない、といったように、練習者のニーズに応じた評価を行うことができる。
また、例えば、「音程は評価するが技法は評価しない」や、「特定の技法についてのみ評価する」といったように、カラオケ装置毎に評価体系が異なるアプリケーションが用いられる場合であっても、共通の評価データを用いて、異なる評価を行うことができる。

（４）上述した実施形態におけるコンテンツファイル（評価用データ）は、磁気テープ、磁気ディスク、フレキシブルディスク、光記録媒体、光磁気記録媒体、ＲＡＭ、ＲＯＭなどの記録媒体に記録した状態で提供し得る。また、インターネットのようなネットワーク経由でカラオケ装置などのコンピュータ装置にダウンロードさせることも可能である。
また、上述した実施形態におけるカラオケ装置１の制御部１１によって実行されるプログラムは、磁気テープ、磁気ディスク、フレキシブルディスク、光記録媒体、光磁気記録媒体、ＲＡＭ、ＲＯＭなどの記録媒体に記録した状態で提供し得る。また、インターネットのようなネットワーク経由でカラオケ装置１にダウンロードさせることも可能である。

カラオケ装置１のハードウェア構成の一例を示すブロック図である。コンテンツファイルのデータ構造の一例を示す図である。カラオケ装置１のソフトウェア構成の一例を示す図である。カラオケ装置１の処理の流れを示すフローチャートである。カラオケ装置１の処理の流れを示すフローチャートである。表示部１４に表示される画面の一例を示す図である。

符号の説明

１…カラオケ装置、１１…制御部、１２…記憶部、１３…バス、１４…表示部、１５…操作部、１６…音声処理部、１７…スピーカ、１８…マイクロフォン、１１１…音声分析・比較部、１１２…技法分析・比較部、１１３…シーケンサ部、１１４…アプリケーション部、１２１…伴奏データ記憶領域、１２２…歌詞データ記憶領域、１２３…模範音声データ記憶領域、１２４…コンテンツファイル記憶領域、１２５…練習者音声データ記憶領域。

Claims

歌唱者の歌唱を評価する際に用いられる評価用データのデータ構造において、
模範となる歌唱の音声を表す模範音声データについて音声分析をした結果であって時間区切りを付けられた区間単位にブロック化されているとともに、ブロックごとに識別情報が設けられ、前記識別情報によって各ブロックが個別に読み出し可能となっている分析済みデータ
を具備することを特徴とする評価用データのデータ構造。
歌唱者の歌唱を評価する際に用いられる評価用データのデータ構造において、
模範となる歌唱の音声を表す模範音声データについて歌唱技法を解析した結果であって時間区切りを付けられた区間単位にブロック化されているとともに、ブロックごとに識別情報が設けられ、前記識別情報によって各ブロックが個別に読み出し可能となっている技法データ
を具備することを特徴とする評価用データのデータ構造。
歌唱者の歌唱を評価する際に用いられる評価用データのデータ構造において、
模範となる歌唱の音声を表す模範音声データについて音声分析をした結果であって時間区切りを付けられた区間単位にブロック化されているとともに、ブロックごとに識別情報が設けられ、前記識別情報によって各ブロックが個別に読み出し可能となっている分析済みデータと、
模範となる歌唱の音声を表す模範音声データについて歌唱技法を解析した結果であって時間区切りを付けられた区間単位にブロック化されているとともに、ブロックごとに識別情報が設けられ、前記識別情報によって各ブロックが個別に読み出し可能となっている技法データと
を具備することを特徴とする評価用データのデータ構造。
請求項１乃至３のいずれかに記載の評価用データのデータ構造であって、
前記各ブロックは、予め定められた種類毎に分類され、各分類の中で一のブロックの下位層に他のブロックが含まれるように、階層的になっていることを特徴とする評価用データのデータ構造。
請求項４に記載の評価用データのデータ構造であって、
上位層が読み出された場合は、その下位側の層のブロックも読み出される構成となっていることを特徴とする評価用データのデータ構造。
請求項１又は３に記載の評価用データのデータ構造であって、
前記分析済みデータは、ピッチ、パワー及びスペクトルの少なくともいずれか一つを含むことを特徴とする評価用データのデータ構造。
楽曲の伴奏を表す伴奏データを記憶する記憶手段と、
請求項１又は３に記載の評価用データを記憶する評価用データ記憶手段と、
時間区切りに応じたブロックの分析済みデータを前記記憶手段から読み出して歌唱音声と比較し、該比較結果に応じた評価を行う評価手段と、
前記記憶手段に記憶された伴奏データに応じて、伴奏音を放音手段に放音させる放音制御手段と
を備えることを特徴とするカラオケ装置。
請求項７に記載のカラオケ装置において、
前記技法毎に、評価に用いるか否かを示すフラグを書き込む書き込み手段
を備え、
前記評価手段は、前記フラグが評価に用いることを示す分析済みデータを前記記憶手段から読み出して歌唱音声と比較し、該比較結果に応じた評価を行う
ことを特徴とするカラオケ装置。
請求項１乃至６のいずれかに記載のデータ構造を有する評価用データを記録した記録媒体。