JP2008026622A

JP2008026622A - 評価装置

Info

Publication number: JP2008026622A
Application number: JP2006199385A
Authority: JP
Inventors: Juichi Sato; 寿一佐藤
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2006-07-21
Filing date: 2006-07-21
Publication date: 2008-02-07

Abstract

【課題】歌唱評価を行う評価装置において、曲中のいろいろな部分に対しその部分に適した視点で評価することのできる技術を提供する。
【解決手段】カラオケ装置１のＣＰＵ１１は、模範音声データ記憶領域１４２に記憶された区切りデータを参照して区間を認識しながら模範音声データを読み出し、読み出した模範音声データの各区間に対して、マイクロフォン１７で収音した練習者の音声を表す練習者音声データを対応付ける。次いで、制御部１１は、区間種別データ記憶領域１４９に記憶された区間種別データに対応する評価態様を区間毎に選択し、選択した評価態様に基づいて、対応付けられた模範音声データと練習者音声データを比較し、比較結果に応じて練習者音声データを評価する。
【選択図】図１

Description

本発明は、評価装置に関する。

カラオケ装置においては、歌唱者の歌唱の巧拙を採点するための方法が種々提案されている。例えば、特許文献１においては、歌唱とそのお手本となるリファレンスを比較するにあたって、歌唱のタイミングとリファレンスのタイミングがずれている場合には、歌唱音声データとリファレンスデータを時間軸方向にずらして相互相関を求め、相互相関の最も高い位置で各音符について採点する方法が提案されている。この方法によれば、歌唱者が「ため」や「ルバート」の歌唱技法を用いて歌唱した場合でも、歌唱タイミングをリファレンスのタイミングに合わせて比較して採点することができる。
特開２００５−１０７３３０号公報

しかしながら、従来の技術では、歌唱者の歌唱の巧拙を採点することができるものの、曲によって、又は曲中の部分によって、違った視点で評価したい場合（例えば、ある部分はピッチ重視、ある部分はリズム重視、など）に対応できない。この問題は、歌唱を練習する場合に限らず、模範演奏を真似て楽器の演奏を練習する場合であっても同様に発生する。

本発明は上述した背景に鑑みてなされたものであり、その目的は、いろいろな曲、あるいは曲中のいろいろな部分に対しその部分に適した視点で評価することのできる技術を提供することである。

本発明の好適な態様である評価装置は、時系列に沿って進行する音に対応する第１の音データ、前記時系列の区間の区切りを示す区切りデータ、および前記各区間の種別を表す区間種別データを記憶する記憶手段と、前記記憶手段内の前記区切りデータを参照して区間を認識しながら前記第１の音データを読み出し、読み出した前記第１の音データの各区間に対して、収音手段から供給される第２の音データを対応付ける対応付け手段と、区間の種別毎に評価態様が予め設定され、前記記憶手段に記憶された区間種別データに対応する評価態様を区間毎に選択し、選択した評価態様に基づいて、前記対応付け手段によって対応付けられた第１の音データと第２の音データを比較し、比較結果に応じて該第２の音データを評価する評価手段と、前記評価手段による評価結果を表す情報を出力する出力手段とを備える。

また、本発明の好適な態様である評価装置は、時系列に沿って進行する音に対応する第１の音データを記憶するとともに、音の属性に関する所定項目毎の評価の態様を表す評価態様データを記憶する記憶手段と、前記記憶手段に記憶された第１の音データと収音手段から供給される第２の音データの対応する時間部分の属性を前記項目毎に解析するとともに、解析結果に対し前記記憶手段に記憶された前記項目毎の評価態様データに基づく比較をし、比較結果に基づいて該第２の音データを評価する評価手段と、前記評価手段による評価結果を表す情報を出力する出力手段とを備える。

この態様において、前記記憶手段は、前記第１の音データに代えて、時系列に沿って進行する音に対応する音の属性を示すパラメータを属性の項目毎に記憶し、前記評価手段は、前記収音手段から供給される第２の音データの属性を前記項目毎に解析するとともに、解析結果と前記記憶手段に記憶されたパラメータとに対し前記記憶手段に記憶された前記項目毎の評価態様データに基づく比較をし、比較結果に応じて該第２の音データを評価してもよい。

また、本発明の好適な態様である評価装置は、時系列に沿って進行する音に対応する第１の音データ、前記時系列の区間の区切りを示す区切りデータ、前記各区間の種別を表す区間種別データ、および音の属性に関する所定項目毎および前記区間毎の評価の態様を表す評価態様データを記憶する記憶手段と、前記記憶手段内の前記区切りデータを参照して区間を認識しながら前記第１の音データを読み出し、読み出した前記第１の音データの各区間に対して、収音手段から供給される第２の音データを対応付ける対応付け手段と、前記対応付け手段によって対応付けられた第１の音データと第２の音データとの対応する時間部分の属性を前記項目毎及び前記区間毎に解析し、解析結果に対し前記記憶手段に記憶された前記項目毎及び前記区間毎の評価態様データに基づく比較をし、比較結果に基づいて該第２の音データを評価する評価手段と、前記評価手段による評価結果を表す情報を出力する出力手段とを備える。

上述の態様において、前記項目は、音のピッチ、タイミング、強さ、歌詞及び技法の少なくともいずれかひとつを示してもよい。
上述の態様において、前記第１の音データは、発音タイミングが時系列に連なる複数の音素を表すデータであり、前記第１の音データと前記第２の音データとを所定時間長のフレーム単位で対応付け、対応付けたフレームを表す対応箇所データを生成する対応箇所検出手段を備え、前記評価手段は、前記第２の音データが表す音素の発音タイミングを、前記第１の音データが表す音素の発音タイミングと前記対応箇所データとに基づいて特定し、該第１の音データが表す音素の発音タイミングと該第２の音データが表す音素の発音タイミングとの差分が閾値を超えるか否かを判断し、該判断結果に応じて該第２の音データを評価してもよい。

上述の態様において、前記第１の音データの表す音において特定の技法が用いられている区間を示す第１の技法データを記憶する第１の技法データ記憶手段と、前記第２の音データの表す音のピッチ、スペクトル及びパワーの少なくともいずれか一つを検出し、検出結果を示す分析データを生成する検出手段と、前記検出手段により生成された分析データの表す内容の時間的な変化のパターンを解析して、この解析結果が予め定められたパターンに対応するか否かを判定し、対応する場合には当該パターンに対応する区間を特定の技法が用いられている区間として特定する技法区間特定手段と、前記技法区間特定手段により特定された区間を示す第２の技法データを生成する第２の技法データ生成手段とを備え、前記評価手段は、前記第２の技法データ生成手段により生成された第２の技法データと前記第１の技法データ記憶手段に記憶された第１の技法データとを比較し、該比較結果に応じて該第２の音データを評価してもよい。
上述の態様において、前記出力手段は、前記評価手段による評価結果を報知してもよい。

本発明によれば、曲中のいろいろな部分に対しその部分に適した視点で評価することができる。

次に、本発明を実施するための最良の形態を説明する。
＜Ａ：第１実施形態＞
＜Ａ−１：構成＞
図１は、この発明の一実施形態に係る評価装置としてのカラオケ装置１のハードウェア構成を例示したブロック図である。ＣＰＵ（Central Processing Unit）１１は、ＲＯＭ（Read Only Memory）１２又は記憶部１４に記憶されているコンピュータプログラムを読み出してＲＡＭ（Random Access Memory）１３にロードし、これを実行することにより、カラオケ装置１の各部を制御する。記憶部１４は、例えばハードディスクなどの大容量の記憶手段である。表示部１５は、例えば液晶ディスプレイなどであり、ＣＰＵ１１の制御の下で、カラオケ装置１を操作するためのメニュー画面や、背景画像に歌詞テロップを重ねたカラオケ画面などの各種画面を表示する。操作部１６は、各種のキーを備えており、押下されたキーに対応した信号をＣＰＵ１１へ出力する。マイクロフォン１７は、歌唱者が発音した音声を収音する収音手段である。音声処理部１８は、マイクロフォン１７によって収音された音声（アナログデータ）をデジタルデータに変換してＣＰＵ１１に供給する。スピーカ１９は、音声処理部１８に接続されており、音声処理部１８から出力される音声を放音する。

記憶部１４は、図示のように、伴奏データ記憶領域１４１と、模範音声データ記憶領域１４２と、歌詞データ記憶領域１４３と、練習者音声データ記憶領域１４４と、背景画データ記憶領域１４５と、コメントテーブル記憶領域１４６と、模範技法データ記憶領域１４７と、練習者技法データ記憶領域１４８と、区間種別データ記憶領域１４９とを有している。伴奏データ記憶領域１４１には、例えばＭＩＤＩ（Musical Instruments Digital Interface）形式などの伴奏データであって、各曲の伴奏を行う各種楽器の音階（ピッチ）を示す情報が楽曲の進行に伴って記された伴奏データが記憶されている。この伴奏データの中には、楽曲のメロディの音階を示すメロディデータが含まれている。歌詞データ記憶領域１４３には、模範音声データと対応する歌詞を示す歌詞データが記憶されている。また、背景画データ記憶領域１４５には、伴奏データと対応する動画像を示す背景画データが記憶されている。

模範音声データ記憶領域１４２には、例えばＷＡＶＥ形式やＭＰ３（MPEG1 Audio Layer-3）形式などの音声データであって、伴奏データによって表される伴奏に沿って歌唱者が発音した音声（以下、模範音声という）を表す音声データ（以下、模範音声データ）が記憶されている。この模範音声データは、時系列に沿って進行する音に対応するデータである。また、この模範音声データ記憶領域１４２には、模範音声データに対する時系列の時間の区切りを示す区切りデータが記憶されている。

ここで、図２は、模範音声データと歌詞データとの対応関係を説明する図である。図示のように、歌詞データは、歌詞を構成するそれぞれの語（音素）と、これらの音素を発音すべき時間を表す発音タイミングとを含んでいる。そして、模範音声データと、歌詞を構成するそれぞれの語（音素）と、これらの各音素の発音タイミングとが互いに対応付けられている。図２に示す例では、「すぎさりしひびのゆめを・・」の「す」は発音タイミングＴ1で発音を開始し、「ぎ」は発音タイミングＴ２で発音を開始し、「さ」は発音タイミングＴ３で発音を開始し・・・（以下同様）ということを示している。この発音タイミングは、伴奏データに基づく伴奏が開始された時点からの経過時間によって表されている。

再び図１の説明に戻る。
練習者音声データ記憶領域１４４には、マイクロフォン１７から音声処理部１８を経てＡ／Ｄ変換された音声データが、例えばＷＡＶＥ形式やＭＰ３形式で時系列に記憶される。この音声データは、練習者の音声（以下、練習者音声）を表す音声データであるから、以下では、練習者音声データという。ＣＰＵ１１は、この練習者音声データと前述した模範音声データとを比較することで、発音タイミングや発音内容の相違箇所を検出し、その相違箇所を表示部１５に表示するなどして練習者に報知する。練習者は、その報知内容を参照することで、自身の発音タイミングがずれている箇所や発音が間違っている箇所を認識することができる。なお、以下の説明においては、説明の便宜上、「模範音声データ」と「練習者音声データ」とを各々区別する必要がない場合には、これらを「音声データ」と総称する。

次に、記憶部１４のコメントテーブル記憶領域１４６には、歌唱に対する指摘コメント文と歌唱に対する指導コメント文とをそれぞれ複数記憶するコメントテーブルが記憶されている。
図３は、コメントテーブルの内容の一例を示す図である。図示のように、コメントテーブルは、「指摘種別」と「指摘コメント」と「指導コメント」との各項目が互いに関連付けて記憶されている。これらの項目のうち、「指摘種別」の項目には、「歌詞ずれ（早い）」や「歌詞間違い」といった、模範音声と練習者音声との隔たりの態様を識別する情報が記憶されている。「指摘コメント」の項目には、例えば、「歌詞ずれです・・・」や「歌詞間違いです・・・」等、歌唱に対する指摘コメント文を示すテキストデータが記憶されている。「指導コメント」の項目には、例えば、「注意して歌いましょう」といった、歌唱に対する指導コメント文を示すテキストデータが記憶されている。

模範技法データ記憶領域１４７には、模範音声データ記憶領域１４２に記憶された模範音声の表す模範となる歌唱に用いられている歌唱技法の種類、区間及び態様を示す模範技法データが、楽曲ＩＤに対応付けて記憶されている。
図４は、模範技法データ記憶領域１４７に記憶されている模範技法データの内容の一例を示す図である。模範技法データは、図示のように、「技法種別」と「区間」と「態様」との各項目が互いに関連付けて記憶されている。これらの項目のうち、「技法種別」の項目には、例えば「ビブラート」、「しゃくり」、「こぶし」、「ファルセット」、「つっこみ」、「ため」、「息継ぎ」などの歌唱の技法を識別する識別情報が記憶される。「ビブラート」は、音の高さをほんのわずかに連続的に上下させ、震えるような音色を出すという技法である。「しゃくり」は、目的の音より低い音から発音し、音程を滑らかに目的の音に近づけていくという技法である。「こぶし」は、装飾的に加えるうねるような節回しを行うという技法である。「ファルセット」は、いわゆる「裏声」で歌うという技法である。「つっこみ」は、歌い出しを本来のタイミングよりも早いタイミングにするという技法である。「ため」は、歌い出しを本来のタイミングよりも遅いタイミングにするという技法である。「息継ぎ」は、練習者が息継ぎをするタイミングを意味する。

次に、「区間」の項目には、その技法が用いられている区間（時間部分）を示す情報が記憶される。「態様」の項目には、その技法の態様を示す情報が記憶される。図４に示す例においては、技法の程度を１０段階で示す数値が記憶されている。例えば、「ビブラート」の場合には、ビブラートの「深さ」、「周期」、「長さ」の程度を１０段階で示す数値が記憶される。

図５（ａ）は、ビブラート技法についての技法の態様を説明するための図である。図において、曲線Ｗ１は、音声のピッチを表す曲線であり、縦軸はピッチ（音高）を、横軸は時刻を示している。この実施形態においては、曲線Ｗ１においてビブラート技法が用いられている区間における振幅ｙが「深さ」を示し、周期λが「周期」を示す。また、ビブラート技法が用いられている区間の区間長Ｌ１が「長さ」を示す。

また、「しゃくり」の場合は、しゃくりの「ピッチ幅」や「長さ」の程度を１０段階で示す数値が記憶される。
図５（ｂ）は、しゃくり技法についての技法の態様を説明するための図である。図において、曲線Ｗ２はしゃくりが用いられている音声のピッチを表す曲線であり、縦軸はピッチ（音高）を、横軸は時刻を示している。この実施形態においては、曲線Ｗ２においてしゃくり技法が用いられている区間における区間の開始時刻におけるピッチと終了時刻におけるピッチとの差ｐ１が「ピッチ幅」として用いられ、その時間長Ｌ２が「長さ」として用いられる。

「つっこみ」、「ため」の場合は、「タイミング」を１０段階で示す値が記憶され、「ファルセット」、「息継ぎ」、「こぶし」は、それぞれの技法が用いられた時間の長さが１０段階の数値で示されている。例えば、図４に示す例においては、「ｔ１〜ｔ２」の区間で、「ビブラート」の技法が、「深さ」が「３」、「長さ」が「４」の程度で用いられた場合のデータが記憶されている。
なお、本実施形態においては、技法の態様を１０段階の数値で表すようにしたが、これに限定されるものではなく、技法の態様を示す情報であればどのような情報を用いてもよい。

また、練習者技法データ記憶領域１４８には、練習者音声データで用いられている歌唱技法を示すデータ（以下、「練習者技法データ」）が記憶される。この練習者技法データの構成は、上述した模範技法データの構成と同様であり、「技法種別」と「区間」と「態様」との各項目が互いに関連付けられて構成されている。

次に、区間種別データ記憶領域１４９には、各楽曲に含まれる各区間の種別を表す区間種別データが記憶されている。
図６は、区間種別データ記憶領域１４９に記憶されたデータの内容の一例を示す図である。図示のように、この記憶領域には、「楽曲ＩＤ」と「ジャンル種別」と「区間種別データ」と「区切りデータ」と「区間毎評価態様データ」との各項目が互いに関連付けて記憶されている。これらの項目のうち、「楽曲ＩＤ」の項目には、楽曲を識別する識別情報が記憶されている。「ジャンル種別」の項目には、たとえば「ラップ」など、その楽曲のジャンルを識別する識別情報が記憶される。「区間種別データ」の項目には、その楽曲においてサビの区間を示す「サビ区間」や、その楽曲においてセリフの区間を示す「セリフ区間」といった、区間の種別を示す区間種別データが記憶される。「区切りデータ」の項目には、時系列の区間の区切りを示す区切りデータが記憶される。「区間毎評価態様データ」の項目には、例えば、「歌詞のみ評価」、「ピッチは評価しない」といったような、その区間についての評価の態様を表すデータが記憶されている。このように、この実施形態においては、区間の種別毎に評価態様が予め設定されており、ＣＰＵ１１は、区間種別データに対応する評価態様を区間毎に選択し、選択した評価態様に基づいて練習者音声データを評価する。

次に、図７に示すブロック図を参照しながら、カラオケ装置１のソフトウェア構成について説明する。図７に示した基礎分析部１１１、対応箇所検出部１１２、発音内容比較部１１３、発音タイミング比較部１１４、報知部１１５、技法分析部１１６及び技法比較部１１７は、ＣＰＵ１１がＲＯＭ１２又は記憶部１４に記憶されたコンピュータプログラムを実行することによって実現される。なお、図中の矢印は、データの流れを概略的に示したものである。
図７において、基礎分析部１１１は、模範音声データ記憶領域１４２に記憶された区切りデータを参照して区間を認識しながら模範音声データを読み出し、読み出した模範音声データの各区間に対して、練習者音声データ記憶領域１４４に記憶された練習者音声データを対応付ける。この対応付けは、練習者音声データを単純に時間区間毎に区切っていくという、単なる時間的な対応付けを行うものである。更に、基礎分析部１１１は、模範音声データ記憶領域１４２から読み出された模範音声データと、練習者音声データ記憶領域１４４から読み出された練習者音声データとを、それぞれ所定時間長のフレーム単位で、ピッチ、パワー（音量）、スペクトルを検出する処理を行う。スペクトルの検出にはＦＦＴ（Fast Fourier Transform）が用いられる。

対応箇所検出部１１２は、基礎分析部１１１によって算出された各音声データのスペクトルに基づいて、模範音声データに含まれる音素（語）と練習者音声データに含まれる音素（語）との対応関係（対応箇所）を求める。これら練習者音声及び模範音声の対応箇所は、対応箇所検出部１１２から発音内容比較部１１３及び発音タイミング比較部１１４に供給される。

ところで、模範音声と練習者音声とは、時間的にずれている可能性がある。そこで、対応箇所検出部１１２は、両者の音声データの時間軸を伸縮させて時間正規化（ＤＴＷ；Dynamic Time Warping）を行う必要がある。本実施形態ではこのＤＴＷを行うための手法としてＤＰ（Dynamic Programming：動的計画法）マッチングを用いる。具体的には以下のような処理となる。

対応箇所検出部１１２は、図８に示すような座標平面（以下、ＤＰプレーンという）をＲＡＭ１３に形成する。このＤＰプレーンの縦軸は、模範音声データの各フレームのスペクトルの絶対値の対数に逆フーリエ変換をかけて得られるパラメータに対応しており、横軸は、練習者音声データの各フレームから得たスペクトルの絶対値の対数に逆フーリエ変換をかけて得られるパラメータ（ケプストラム）に対応している。図８において、ａ１、ａ２、ａ３・・・ａｎは、模範音声データの各フレームを時間軸に従って並べたものであり、ｂ１、ｂ２、ｂ３・・・ｂｎは、練習者音声データの各フレームを時間軸に従って並べたものである。縦軸のａ１、ａ２、ａ３・・・ａｎの間隔と横軸のｂ１、ｂ２、ｂ３・・・ｂｎの間隔は、いずれもフレームの時間長と対応している。このＤＰプレーンにおける各格子点の各々には、ａ１、ａ２、ａ３・・・の各パラメータと、ｂ１、ｂ２、ｂ３・・・の各パラメータのユークリッド距離を夫々示す値であるＤＰマッチングスコアが対応付けられている。例えば、ａ１とｂ１とにより位置決めされる格子点には、模範音声データの一連のフレームのうち最初のフレームから得たパラメータと練習者音声データの一連のフレームのうち最初のフレームから得たパラメータのユークリッド距離を示す値が対応付けられることになる。対応箇所検出部１１２は、このような構造を成すＤＰプレーンを形成した後、ａ１とｂ１とにより位置決めされる格子点（始端）からａｎとｂｎとにより位置決めされる格子点（終端）に至る全経路を探索し、探索した各経路毎に、その始端から終端までの間に辿る各格子点のＤＰマッチングスコアを累算して行き、最小の累算値を求める。このＤＰマッチングスコアの累算値が最も小さくなる経路は、練習者音声データの各フレームの時間軸を模範音声データの時間軸に合わせて伸縮する際における伸縮の尺度として参酌される。

そして、対応箇所検出部１１２は、ＤＰマッチングスコアの累算値が最小となる経路をＤＰプレーン上から特定し、特定した経路の内容に応じて練習者音声データの時間軸を伸縮する処理であるアライメント処理を行う。具体的には、ＤＰプレーン上から特定された経路上の各格子点のＤＰマッチングスコアが時間軸上の位置を同じくするフレームから得たパラメータのユークリッド距離を表すものとなるように、練習者音声データの各フレームのタイムスタンプの内容を書き換えた上で、時間軸上の位置を同じくする各フレームを組として順次対応付けていく。例えば、図８に示すＤＰプレーン上に記された経路においては、ａ１とｂ１により位置決めされる始点からその右上のａ２とｂ２により位置決めされる格子点に進んでいることが分かる。この場合、ａ２とｂ２のフレームの時間軸上の位置は当初から同じであるので、ｂ２のフレームのタイムスタンプの内容を書き換える必要はない。更に、この経路においては、ａ２とｂ２により位置決めされる格子点からその右のａ２とｂ３により位置決めされる格子点に進んでいることが分かる。この場合、ｂ２のフレームだけでなくｂ３のフレームもａ２のフレームと時間軸上の位置を同じくする必要があるので、ｂ３のフレームと対を成していたタイムスタンプをフレーム一つ分だけ早いものと置き換える。この結果、ａ２のフレームとｂ２及びｂ３のフレームが時間軸上の位置を同じくするフレームの組として対応付けられることになる。このようなタイムスタンプの置き換えとフレームの対応付けがｂ１からｂｎに至る全フレーム区間について行われる。これにより、例えば図９（ａ）に示すように、練習者音声の発音タイミングが模範音声の発音タイミングよりも遅れていたとしても、図９（ｂ）に示すように、一方の音データの時間軸を他方の音データの時間軸に合わせて伸縮し、その伸縮によって合わせられた時間軸上の位置を同じくするフレーム（音素）どうしを対応付けることができる。
以上がＤＰマッチングの仕組みである。

図７の説明に戻る。
発音内容比較部１１３は、互いに対応する模範音声の発音内容と練習者音声の発音内容とを比較し、これら音声そのものの相違箇所を検出する処理を行う。具体的にはまず、発音内容比較部１１３は、練習者音声データが表す音声と、その音声に対応付けられた模範音声データが表す音声とを比較し、両者のスペクトルの差分を算出する。異なる人が同じ語を発音した場合、多少の個人差はあるものの、その音声波形はおおよそ類似したものとなる。よって、スペクトルが類似しているか否かによって、模範音声と練習者音声とが相違しているか否かを判断することができる。更に正確な方法としては、基礎分析部１１１で求めた音声データのスペクトルに対してフォルマント分析を行うことによって、模範音声と練習者音声の相違箇所を検出する方法がある。このフォルマントとは、特定周波数に偏ったスペクトルの山の部分のことであり、例え声質が異なっていても、同じ語を発音するとその語（音声）に固有のフォルマントが出現する。よって、このフォルマントの出現状態を解析すれば発音の内容を識別することができる。発音内容比較部１１３は、このように模範音声と練習者音声との間で、そのスペクトルやフォルマントの差分をとり、その差分が閾値を超える場合には、模範音声の発音内容と練習者音声の発音内容の相違箇所と判断する。なお、このとき用いる閾値としては、人が同じ語を発音したものと認められる程度の差分の上限値を予め決めておき、これを閾値として記憶部１４に記憶させておけばよい。また、このとき、発音内容比較部１１３は、区間種別データ記憶領域１４９に記憶された区間種別データに対応する区間毎評価態様データを読み出すことによって、区間種別データに対応する評価態様を各区間毎に選択し、選択した評価態様に基づいて比較を行う。具体的には、例えば、発音内容比較部１１３は、「サビ区間」においては、比較処理の際に用いる閾値の値を小さくして、両者の差分が小さい箇所についても相違箇所として検出し、一方、ある区間では、比較処理や相違箇所の検出処理を行わず、両者が大きくずれている場合であっても相違箇所を検出しない。このようにすることで、「サビ区間」においては厳しく評価を行う一方、それ以外の区間では低い水準で評価を行うといったように、それぞれの区間に適した評価を行うことができる。

発音タイミング比較部１１４は、互いに対応する模範音声の発音タイミングと練習者音声の発音タイミングとを比較して、両者の相違箇所を検出する処理を行う。また、発音タイミング比較部１１４は、区間種別データ記憶領域１４９に記憶された区間種別データに対応する区間毎評価態様データを読み出すことによって、区間種別データに対応する評価態様を各区間毎に選択し、選択した評価態様に基づいて、基礎分析部１１１によって対応付けられた模範音声データと練習者音声データとの発音タイミングを比較し、比較結果に応じて練習者音声データを評価する。具体的には、例えば、発音タイミング比較部１１４は、「サビ区間」においては、比較処理の際に用いる閾値の値を小さくして、両者の差分が小さい箇所についても相違箇所として検出し、一方、ある区間では、比較処理や相違箇所の検出処理を行わず、両者が大きくずれている場合であっても相違箇所を検出しない。このようにすることで、「サビ区間」においては厳しく評価を行う一方、それ以外の区間では低い水準で評価を行うといったように、それぞれの区間に適した評価を行うことができる。

技法分析部１１６は、基礎分析部１１１によって検出されたピッチ、パワーおよびスペクトルの時間的な変化のパターンを解析して、この解析結果が予め定められたパターンに対応するか否かを判定し、対応する場合には当該パターンに対応する区間を特定の歌唱技法が用いられている区間として特定し、特定した区間を示す技法データ（模範技法データまたは練習者技法データ）を生成する処理を行う。

技法比較部１１７は、模範技法データと練習者技法データとのタイミングを比較して、それらが所定量以上隔たっていた場合に、予め決められた評価区間毎に相違箇所として特定する処理を行う。また、技法比較部１１７は、区間種別データ記憶領域１４９に記憶された区間種別データに対応する区間毎評価態様データを読み出すことによって、区間種別データに対応する評価態様を各区間毎に選択し、選択した評価態様に基づいて、基礎分析部１１１によって対応付けられた模範音声データと練習者音声データと各々で用いられている技法を比較し、比較結果に応じて練習者音声データを評価する。具体的には、例えば、技法比較部１１７は、「サビ区間」においては、比較処理の際に用いる閾値の値を小さくして、両者の差分が小さい箇所についても相違箇所として検出し、一方、ある区間では、比較処理や相違箇所の検出処理を行わず、両者が大きくずれている場合であっても相違箇所を検出しない。このようにすることで、「サビ区間」においては厳しく評価を行う一方、それ以外の区間では低い水準で評価を行うといったように、それぞれの区間に適した評価を行うことができる。

報知部１１５は、発音内容比較部１１３、発音タイミング比較部１１４及び技法比較部１１７によって検出された相違箇所を特定する情報や各種メッセージなど、評価結果を示す情報を生成し、これらを表示部１５に出力して表示部１５に表示させるなどして、練習者に報知する。

＜Ａ−２：動作＞
次に、図１０に示すフローチャートを参照しつつ、カラオケ装置１の動作を説明する。
練習者は、カラオケ装置１の操作部１６を操作して歌唱したい曲を選定し、伴奏データの再生を指示する。ＣＰＵ１１は、この指示に応じて図１０に示す処理を開始する。ＣＰＵ１１は、まず、指定された曲の伴奏データを伴奏データ記憶領域１４１から読み出し、音声処理部１８に供給する。音声処理部１８は、供給された伴奏データをアナログ音声信号に変換してスピーカ１９に供給して放音させる（ステップＳ１）。このとき、ＣＰＵ１１は表示部１５を制御して、歌詞データ記憶領域１４３から読み出した歌詞を表示するとともに、「伴奏に合わせて歌唱してください」というような歌唱を促すメッセージを表示し、さらに、その歌詞を伴奏の進行に合わせて順番に色変わりさせるようにしてもよい。練習者は、スピーカ１９から放音される伴奏に合わせて歌唱を行う。このとき、練習者の音声はマイクロフォン１７によって収音されて音声信号に変換され、音声処理部１８へと供給される。そして、音声処理部１８によってＡ／Ｄ変換された練習者音声データは、演奏開始から発音タイミングまでの経過時間を表す情報と共に、記憶部１４の練習者音声データ記憶領域１４４に時系列に記憶されていく（ステップＳ２）。

伴奏データの再生が終了すると（ステップＳ３；ＹＥＳ）、ＣＰＵ１１は、前述した基礎分析部１１１の処理、即ち模範音声データ記憶領域１４２に記憶された区切りデータを参照して区間を認識しながら模範音声データを読み出し、読み出した模範音声データの各区間に対して、練習者音声データ記憶領域１４４に記憶された練習者音声データを対応付けるとともに、模範音声データ記憶領域１４２から読み出した模範音声データと、練習者音声データ記憶領域１４４から読み出した練習者音声データとから、それぞれ所定時間長のフレーム単位で、ピッチ、パワー及びスペクトルを算出する（ステップＳ４）。次に、ＣＰＵ１１は、前述した対応箇所検出部１１２の処理、つまりＤＰマッチングによって両者の音声データの時間軸を合わせ、合わせられた時間軸上の位置を同じくするフレームどうしを対応付け、対応付けたフレームを表す対応箇所データを生成する（ステップＳ５）。

続けて、ＣＰＵ１１は、前述した発音タイミング比較部１１４の処理、つまり、互いに対応する模範音声の発音タイミングと練習者音声の発音タイミングとを比較し、発音タイミングが相違する箇所を検出する処理を行う（ステップＳ６）。具体的には、ＣＰＵ１１は、練習者音声データと、ステップＳ５の処理によって得られた対応箇所データとに基づいて、練習者音声の発音タイミングを特定する。そのため、ＣＰＵ１１はまず、図９（ｂ）に示すように同一の時間軸における模範音声と練習者音声の対応関係を参照して両者の対応箇所を特定する。両者の対応関係が特定されると、ＣＰＵ１１は、図９（ａ）に示すような練習者音声の時間軸上において、ある音素（例えば「す」）とその次に発音された音素（例えば「ぎ」）との境界（切れ目）を特定することができる。練習者音声データは、前述したように、演奏開始から発音タイミングまでの経過時間を表す情報と共に記憶されているから、ＣＰＵ１１は、音と音の境界に相当する経過時間を特定することができる。この経過時間が、練習者音声に含まれる各音の発音タイミングとなる。

次に、ＣＰＵ１１は、その練習者音声に対応付けられた模範音声データの音の発音タイミングを歌詞データ記憶領域１４３から読み出す。次いで、ＣＰＵ１１は、練習者音声の発音タイミングと、その練習者音声に対応する模範音声の発音タイミングとの差分を算出する。そして、ＣＰＵ１１は、その差分が予め決められた閾値を超えるか否かを判断する。このときの閾値は、発音のタイミングがずれていると判断される最小の時間間隔であり、記憶部１４に予め記憶されている。この差分が閾値を超えると判断された箇所の音声（音素）が、模範音声の発音タイミングと練習者音声の発音タイミングとの相違箇所となる。

このとき、ＣＰＵ１１は、区間種別データ記憶領域１４９に記憶された区間種別データに対応する区間毎評価態様データを読み出すことによって、区間種別データに対応する評価態様を各区間毎に選択し、選択した評価態様に基づいて、模範音声データと練習者音声データとの発音タイミングを比較する。具体的には、例えば、ＣＰＵ１１は、「サビ区間」においては上述の比較処理の際に用いる閾値の値を小さくすることで厳しい評価を行い、一方、サビの区間以外の区間においては閾値の値を大きくすることで甘い評価を行う。このように、区間毎に異なる態様で比較や評価を行うことで、区間毎に重み付けした評価を行うことができる。

次に、ＣＰＵ１１は、前述した発音内容比較部１１３の処理、つまり、互いに対応する模範音声と練習者音声とを比較し、これら音声そのものの相違箇所を検出する処理を行う（ステップＳ７）。具体的にはまず、ＣＰＵ１１は、練習者音声データが表す音声と、その音声に対応付けられた模範音声データが表す音声とを比較し、両者のスペクトルの差分を算出する。異なる人が同じ語を発音した場合、多少の個人差はあるものの、その音声波形はおおよそ類似したものとなる。よって、スペクトルが類似しているか否かによって、模範音声と練習者音声とが相違しているか否かを判断することができる。更に正確な方法としては、ステップＳ４で求めた音声データのスペクトルに対してフォルマント分析を行うことによって、模範音声と練習者音声の相違箇所を検出する方法がある。このフォルマントとは、特定周波数に偏ったスペクトルの山の部分のことであり、例えば声質が異なっていても、同じ語を発音するとその語（音声）に固有のフォルマントが出現する。よって、このフォルマントの出現状態を解析すれば発音の内容を識別することができる。ＣＰＵ１１は、このように模範音声と練習者音声との間で、そのスペクトルやフォルマントの差分をとり、その差分が閾値を超える場合には、模範音声の発音内容と練習者音声の発音内容の相違箇所と判断する。なお、このとき用いる閾値としては、人が同じ語を発音したものと認められる程度の差分の上限値を予め決めておき、これを閾値として記憶部１４に記憶させておけばよい。

このとき、ＣＰＵ１１は、区間種別データ記憶領域１４９に記憶された区間種別データに対応する区間毎評価態様データを読み出すことによって、区間種別データに対応する評価態様を各区間毎に選択し、選択した評価態様に基づいて、模範音声データと練習者音声データとの発音内容を区間毎に比較する。具体的には、例えば、ＣＰＵ１１は、「サビ区間」においては上述の比較処理の際に用いる閾値の値を小さくすることで厳しい評価を行い、一方、サビの区間以外の区間においては閾値の値を大きくすることで甘い評価を行う。このように、区間毎に異なる態様で評価を行うことで、区間毎に重み付けした評価を行うことができる。

次いで、ＣＰＵ１１は、伴奏データ記憶領域１４１に記憶された伴奏データに含まれるメロディデータと模範音声データ記憶領域１４２に記憶された模範音声データとを所定のフレーム単位で解析し、模範音声データとメロディデータとの時間的な対応関係を検出する（ステップＳ８）。次に、ＣＰＵ１１は、模範音声データから算出されたピッチ、パワーおよびスペクトルの時間的な変化のパターンを解析して、この解析結果が予め定められたパターンに対応するか否かを判定する技法分析を行い、対応する場合には当該パターンに対応する区間を特定の歌唱技法が用いられている区間として特定する（ステップＳ９）。そして、ＣＰＵ１１は、特定した区間の区間情報を、その歌唱技法を示す種別情報と関連付けて記憶部１４の模範技法データ記憶領域１４７に記憶する。

ここで、ステップＳ９に示す技法分析処理について以下に説明する。本実施形態においては、ＣＰＵ１１は、「ビブラート」、「しゃくり」、「こぶし」、「ファルセット」、「つっこみ」、「ため」および「息継ぎ」の各歌唱技法が用いられている区間を特定する。これらのうち、「ビブラート」および「しゃくり」は模範音声データから算出されたピッチに基づいて特定する。また、「こぶし」および「ファルセット」は模範音声データから算出されたスペクトルに基づいて特定する。また、「ため」および「つっこみ」は、模範音声データから算出されたピッチとメロディデータとに基づいて特定する。また、「息継ぎ」は、模範音声データから算出されたパワーとメロディデータとに基づいて特定する。

ＣＰＵ１１は、模範音声データとメロディデータとの対応関係と、模範音声データから算出されたピッチとに基づいて、模範音声データに含まれる音の開始時刻と当該音に対応するメロディデータの音の開始時刻とが異なる区間を特定する。ここで、ＣＰＵ１１は、模範音声データのピッチの変化タイミングがメロディデータのピッチの変化タイミングよりも早く現れている区間、すなわち模範音声データに含まれる音の開始時刻が当該音に対応するメロディデータの音の開始時刻よりも早い区間については、この区間を「つっこみ」の歌唱技法が用いられている区間であると特定する。ＣＰＵ１１は、特定した区間の区間情報を、「つっこみ」を示す識別情報と関連付けて模範技法データ記憶領域１４７に記憶する。また、ＣＰＵ１１は、練習者音声データのピッチの変化タイミングと楽譜音データのピッチの変化タイミングとの時間差を算出し、算出した値を、この技法の態様として１０段階の数値で示される値に変換する。

逆に、ＣＰＵ１１は、模範音声データとメロディデータとの対応関係と、模範音声データから算出されたピッチとに基づいて、模範音声データのピッチの変化タイミングがメロディデータのピッチの変化タイミングよりも遅れて現れている区間、すなわち模範音声データに含まれる音の開始時刻が当該音に対応するメロディデータの音の開始時刻よりも遅い区間を、「ため」の歌唱技法が用いられている区間であると特定する。また、ＣＰＵ１１は、練習者音声データのピッチの変化タイミングと楽譜音データのピッチの変化タイミングとの時間差を算出し、算出した値を、この技法の態様として１０段階の数値で示される値に変換する。

また、ＣＰＵ１１は、模範音声データから算出したピッチの時間的な変化のパターンを解析して、中心となる周波数の上下に所定の範囲内でピッチが連続的に変動している区間を、「ビブラート」の歌唱技法が用いられている区間であると特定する。また、ＣＰＵ１１は、特定した区間におけるピッチの変動範囲を算出し、算出した値を、この技法の「深さ」の程度として１０段階の数値で示される値に変換する。また、ＣＰＵ１１は、特定した区間の時間長を、この技法の「長さ」の程度として１０段階の数値で示される値に変換する。

また、ＣＰＵ１１は、模範音声データから算出したピッチの時間的な変化のパターンを解析して、低いピッチから高いピッチに連続的にピッチが変化する区間を、「しゃくり」の歌唱技法が用いられている区間であると特定する。なお、この処理は、メロディデータとの対応関係に基づいて行うようにしてもよい。すなわち、ＣＰＵ１１は、模範音声データとメロディデータとの対応関係に基づいて、模範音声データのピッチが、低いピッチから連続的にメロディデータのピッチに近づいている区間を特定すればよい。また、ＣＰＵ１１は、特定した区間の時間長を、この技法の「長さ」の程度として１０段階の数値で示される値に変換する。また、ＣＰＵ１１は、特定した区間のピッチ幅を算出し、算出した値を、この技法の「ピッチ幅」の程度として１０段階の数値で示される値に変換する。

また、ＣＰＵ１１は、模範音声データとメロディデータとの対応関係と、模範音声データから算出されたパワーとに基づいて、メロディデータが有音である区間であって模範音声データのパワー値が所定の閾値よりも小さい区間を、「息継ぎ」の区間であると特定する。また、ＣＰＵ１１は、特定した区間の時間長を、この技法の「長さ」の程度として１０段階の数値で示される値に変換する。

また、ＣＰＵ１１は、模範音声データから算出されたスペクトルの時間的な変化パターンを解析して、スペクトル特性がその予め決められた変化状態に急激に遷移している区間を、「ファルセット」の歌唱技法が用いられている区間であると特定する。ここで、予め決められた変化状態とは、スペクトル特性の高調波成分が極端に少なくなる状態である。例えば、図１１に示すように、地声の場合は沢山の高調波成分が含まれるが（同図（ａ）参照）、ファルセットになると高調波成分の大きさが極端に小さくなる（同図（ｂ）参照）。なお、この場合、ＣＰＵ１１は、ピッチが大幅に上方に変化したかどうかも参照してもよい。ファルセットは地声と同一のピッチを発生する場合でも用いられることもあるが、一般には地声では発声できない高音を発声するときに使われる技法だからである。したがって、音声データのピッチが所定音高以上の場合に限って「ファルセット」の特定をするように構成してもよい。また、男声と女声とでは一般にファルセットを用いる音高の領域が異なるので、音声データの音域や、音声データから検出されるフォルマントによって性別検出を行い、この結果を踏まえてファルセット特定の音高領域を設定してもよい。
また、ＣＰＵ１１は、特定した区間の時間長を、この技法の「長さ」の程度として１０
段階の数値で示される値に変換する。

また、ＣＰＵ１１は、スペクトル特性の変化の態様が短時間に多様に切り替わる区間を、「こぶし」の歌唱技法が用いられている部分であると特定する。「こぶし」の場合は、短い区間において声色や発声方法を変えて唸るような味わいを付加する歌唱技法であるため、この技法が用いられている区間においてはスペクトル特性が多様に変化するからである。
以上のようにして、ＣＰＵ１１は、模範音声データから各歌唱技法が用いられている区間と技法の態様とを特定し、特定した区間を示す区間情報をその歌唱技法を示す種別情報と関連付けて模範技法データ記憶領域１４７に記憶する。
また、ＣＰＵ１１は、特定した区間の時間長を、この技法の「長さ」の程度として１０
段階の数値で示される値に変換する。

模範技法データの生成を終えると、ＣＰＵ１１は、伴奏データ記憶領域１４１に記憶された伴奏データに含まれるメロディデータと練習者音声データ記憶領域１４４に記憶された練習者音声データとを所定のフレーム単位で解析し、練習者音声データとメロディデータとの時間的な対応関係を検出する（ステップＳ１０）。続けて、ＣＰＵ１１は、練習者音声データから練習者技法データを生成する（ステップＳ１１）。これらのステップＳ１０，Ｓ１１に示す処理と、上述したステップＳ８，Ｓ９に示した処理が異なる点は、処理対象となる音声データが異なる点である。すなわち、ステップＳ８，Ｓ９では模範音声データに対して処理を行い、ステップＳ１０，Ｓ１１では練習者音声データに対して処理が行われるものの、その処理内容については同様である。そのため、ステップＳ１０，Ｓ１１についてはその詳細な説明を省略する。

次いで、ＣＰＵ１１は、模範技法データ記憶領域１４７に記憶された模範技法データと、練習者音声データから生成された練習者技法データとを比較し、練習者技法データが模範技法データに対して予め定められた閾値（所定量）以上の隔たりがある場合は、練習者技法データの該当箇所を相違箇所として検出する（ステップＳ１２）。具体的には、例えば、ＣＰＵ１１は、模範技法データ記憶領域１４７に記憶された模範技法データをひとつずつ読み出して、読み出した模範技法データと対応する練習者技法データを練習者技法データ記憶領域１４８から検索し、歌詞の文字単位毎の区間を評価区間として、模範技法データの区間情報と練習者技法データの区間情報とが所定量以上隔たっている評価区間を相違箇所として検出する。

このとき、ＣＰＵ１１は、区間種別データ記憶領域１４９に記憶された区間種別データに対応する区間毎評価態様データを読み出すことによって、区間種別データに対応する評価態様を各区間毎に選択し、選択した評価態様に基づいて、模範音声データと練習者音声データとで用いられている技法を区間毎に比較する。具体的には、例えば、ＣＰＵ１１は、「サビ区間」においては閾値の値を小さくすることで厳しい評価を行い、一方、サビの区間以外の区間においては閾値の値を大きくすることで甘い評価を行う。このように、区間毎に異なる態様で評価を行うことで、区間毎に重み付けした評価を行うことができる。

次に、ＣＰＵ１１は、ステップＳ６，Ｓ７，Ｓ１２における比較によって相違箇所が検出されたか否かを判断する（ステップＳ１３）。相違箇所が検出されない場合には（ステップＳ１３；ＮＯ）、ＣＰＵ１１は、「あなたはうまく歌えています」などといったメッセージを表示部１５に表示して処理を終了する。一方、相違箇所が検出された場合には（ステップＳ１３；ＹＥＳ）、ＣＰＵ１１は、その相違箇所に相当する練習者音声（音素）又は模範音声（音素）を特定する情報を生成し、それを表示部１５に表示させるなどの報知処理を行う（ステップＳ１４）。このとき、ＣＰＵ１１は、相違箇所における練習者音声データの模範音声データに対する隔たりの対応に応じて、コメントテーブル記憶領域１４６に記憶されたコメントテーブルからコメント文を読み出し、読み出したコメント文を表示部１５に表示させることによって報知する。
具体的には、ＣＰＵ１１は、検出した相違箇所に対応する歌詞にアンダーラインを施して表示したり、その歌詞（文字）の色や太さをその他の文字の表示態様と異ならせて表示する。また、ＣＰＵ１１は、例えば発音タイミングがずれている箇所については、発音タイミングがどのようにずれているとか、発音がどのように間違っているかといったメッセージを併せて表示する。

ここで、ステップＳ６，Ｓ７，Ｓ１２の処理によって検出される相違箇所には、図１２の（ａ）〜（ｄ）に示すような４つの態様がある。
まず１つ目の態様は、図１２の（ａ）に示すように、「すぎさりしひびのゆめを・・・」という歌詞のうち「しひびのゆめ」という一連の歌詞が、模範音声よりも早いタイミングで発音されている場合である。ＣＰＵ１１は、このように練習者音声の発音タイミングが所定数以上（ここでは２つの語以上）連続して模範音声の発音タイミングよりもずれている場合には、練習者の歌唱は「歌詞ずれ」であると判断する。この場合、ＣＰＵ１１は、図１３（ａ）に示すように、「すぎさりしひびのゆめを・・・」という歌詞のうち「しひびのゆめ」にアンダーラインを施して表示するとともに、模範音声ないし伴奏よりも早いタイミングで発音される歌詞ずれが発生していることを練習者に報知するためのメッセージを表示する。

次に、２つ目の態様は、図１２の（ｂ）に示すように、「すぎさりしひびのゆめを・・・」という練習者音声のうち「の」だけが模範音声よりも早いタイミングで発音されている場合である。ＣＰＵ１１は、このように練習者音声の発音タイミングが所定数未満（ここでは２つの語未満）の模範音声の発音タイミングよりもずれている場合には、練習者の歌唱が「タイミングずれ」であると判断する。この場合、ＣＰＵ１１は、図１３（ｂ）に示すように、「すぎさりしひびのゆめを・・・」という歌詞のうち「の」だけにアンダーラインを施して表示するとともに、模範音声ないし伴奏よりも早いタイミングで発音されていることを練習者に報知するためのメッセージを表示する。
このように、ＣＰＵ１１は、発音タイミングがずれている場合には、そのずれている音素（語）が所定数以上連続するか否かを判断し、所定数以上連続すると判断した場合と所定数以上連続しないと判断された場合とで、それぞれ異なるメッセージを表示部１５に表示する。

次に、３つ目の態様は、図１２の（ｃ）に示すように、「すぎさりしひびのゆめを・・・」の「すぎさりし」という歌詞が「すぎさった」というように間違えて歌唱された場合である。ＣＰＵ１１は、このように発音内容が異なっている場合には、練習者の歌唱が「歌詞の間違い」であると判断する。この場合、ＣＰＵ１１は、図１３（ｃ）に示すように、「すぎさりしひびのゆめを・・・」という正しい歌詞と、「すぎさったひびのゆめを・・・」という練習者の間違った発音とを並列に表示し、さらに、練習者の間違った発音「った」にアンダーラインを施して表示するとともに、歌詞に間違いがあることを練習者に報知するためのメッセージを表示部１５に表示する。

そして、４つ目の態様は、図１２の（ｄ）に示すように、「すぎさりし・・・」という練習者音声のうちの「し」の歌詞に対応する部分について、模範音声で歌唱技法が用いられている一方、練習者音声では歌唱技法が用いられていない場合や、歌唱技法が用いられているタイミングがずれている場合である。ＣＰＵ１１は、このように練習者音声と模範音声とで用いられている歌唱技法に差分がある場合には、練習者の歌唱が「技法間違い」であると判断する。この場合、ＣＰＵ１１は、図１３（ｄ）に示すように、「すぎさりし・・・」という歌詞のうち「し」の文字の近傍に技法を示す図形を表示するとともに、技法間違いがあることを練習者に報知するためのメッセージを表示する。

ところで、ＣＰＵ１１は、図１３（ａ）〜（ｄ）に示すように、「もう１回歌い直しますか？Ｙｅｓ／Ｎｏ」というメッセージも表示部１５に表示する。ここで、練習者が操作部１６を操作して「Ｙｅｓ」を選択すると、ＣＰＵ１１は歌唱の再練習が指示されたと判断する（ステップＳ１５；Ｙｅｓ）。そして、ＣＰＵ１１は、発音タイミング又は発音内容の相違箇所を中心として前後の所定範囲にわたる歌詞データ（この場合「すぎさりしひびのゆめを」という歌詞）と、その歌詞データに対応する伴奏データとを、歌詞データ記憶領域１４３及び伴奏データ記憶領域１４１から読み出し、これらを音声処理部１８に供給して再生させる（ステップＳ１６）。このとき、ＣＰＵ１１は表示部１５を制御して、歌詞データ記憶領域１４３から読み出した歌詞を表示し、さらにその歌詞を伴奏の進行に合わせて順番に色変わりさせる。練習者はこの伴奏に合わせて、表示部１５に表示された歌詞を歌唱する。

この後、ＣＰＵ１１の処理は前述したステップＳ２に戻る。つまり、練習者の音声がマイクロフォン１７によって収音されて音声信号に変換され、音声処理部１８へと供給される。そして、音声処理部１８によってＡ／Ｄ変換された練習者音声データは、記憶部１４の練習者音声データ記憶領域１４４に時系列に記憶されていく（ステップＳ２）。以降、この記憶された練習者音声データに対して上述したステップＳ３〜Ｓ１６の処理が繰り返される。これにより、練習者は自らが納得するまで、同一箇所の歌詞を繰り返し練習することができる。そして、図１３（ａ）〜（ｄ）に示した画面で練習者が「Ｎｏ」を選択すると（ステップＳ１５；Ｎｏ）、ＣＰＵ１１の処理は終了する。

このように、本実施形態においては、区間種別（例えば、サビ区間、それ以外の区間、等）毎に異なる水準で評価（比較）を行うから、歌唱指導の評価時に、評価結果を重要度で重み付けして歌唱者にフィードバックすることができる。

また、本実施形態においては、模範音声データと練習者音声データの時間軸を合わせたうえで、その時間軸上の位置を同じくする音どうしを対応付けて両者を比較し、発音タイミングや発音内容の相違箇所を表示する。よって、練習者は、自らの歌唱に発音タイミングのずれや発音の間違いがあることを明確に意識することができると共に、その相違箇所や相違内容を視覚的に把握することができる。

＜Ｂ：第２実施形態＞
次に、この発明の第２の実施形態について説明する。
この第２の実施形態であるカラオケ装置（以下、「カラオケ装置１Ａ」という）が、上述した図１に示したカラオケ装置１と異なる点は、記憶部１４が、評価態様データ記憶領域１５０（図１に鎖線で図示）を有している点であり、他の構成要素は、上述したカラオケ装置１と同様である。そのため、以下の説明においては、図１のカラオケ装置１と同様の構成要素については、同じ符号を用いることとし、その説明を省略する。

評価態様データ記憶領域１５０には、音のピッチ、発音タイミング、強さ、歌詞、技法などの、音の属性に関する所定項目毎及び区間毎の評価の態様を表す評価態様データが記憶されている。
図１４は、評価態様データの内容の一例を示す図である。図示のように、評価態様データは、「サビ区間」、「セリフ区間」、「その他の区間」のそれぞれの時間区間（以下、単に「区間」という）毎に、「ピッチ重要度」、「タイミング重要度」、「強さ重要度」、「歌詞重要度」、「ビブラート技法重要度」といった歌唱に関わる歌唱要素項目が互いに関連付けて構成される。この実施形態においては、各歌唱要素項目には、各歌唱要素項目の重要度を示す「０」〜「３」の数値が記憶されている。具体的には、「０」は、「歌唱評価に使用しない」旨を示す。一方、「１」は、「重要ではない」旨を示し、「２」は「普通」、「３」は「重要」である旨を示す。
例えば、図１４に示す例においては、「サビ区間」においては、「ピッチ重要度」、「タイミング重要度」、「歌詞重要度」が「３」であることから、サビの区間においては、ピッチ、タイミング及び歌詞については高い重要度で評価が行われる。一方、「セリフ区間」については、「ピッチ重要度」、「タイミング重要度」、「強さ重要度」が「０」であり、「歌詞重要度」が「３」であることから、セリフの区間においては、ピッチ、タイミング、強さの各歌唱要素項目は評価には使用されず、一方、歌詞について高い重要度で評価が行われる。

次に、この実施形態の動作について説明する。
カラオケ装置１Ａの行う処理が、上述したカラオケ装置１の行う処理と異なる点は、練習者音声と模範音声との比較処理、すなわち、図７の発音内容比較部１１３，発音タイミング比較部１１４及び技法比較部１１７で行う処理（図１０のステップＳ６，Ｓ７，Ｓ１２に示す処理）の内容が異なる点であり、その他の処理や全体の処理の流れは、上述した第１実施形態のそれと同様である。そのため、以下の説明においては、上述した第１実施形態と同様の処理については適宜その説明を省略する。

カラオケ装置１ＡのＣＰＵ１１は、ステップＳ６の発音タイミングの比較処理、ステップＳ７の発音比較処理、ステップＳ１２の技法比較処理を行う際に、評価態様データ記憶領域１５０に記憶された評価態様データに基づく比較を行い、比較結果に基づいて練習者音声データを評価する。具体的には、例えば、「サビ区間」においては、ピッチ比較、発音タイミング比較及び技法比較を行う際に、他の区間よりも小さい値の閾値を用いて比較・評価を行う。

例えば、正確に歌ってほしい部分のピッチやタイミングの重要度を上げることにより、正確に歌ってほしいサビの部分は厳しく指導するが、他の部分は多少不正確でもうるさく指摘しないようにすることもできる。
また、例えば、曲中のセリフの部分は、ピッチもリズムも重要でないが、歌詞が重要であるとして評価を行うこともできる。

＜Ｃ：第３実施形態＞
次に、この発明の第３の実施形態について説明する。この発明の第３の実施形態であるカラオケ装置（以下、「カラオケ装置１Ｂ」という）が、上述した第２の実施形態であるカラオケ装置１Ａと異なる点は、評価態様データ記憶領域１５０に記憶された評価態様データの内容が異なる点である。

図１５は、評価態様データの内容の一例を示す図である。図において、技法項目は、更に、「深さ」や「周期」といった要素毎に重要度が指定されている。具体的には、例えば、ビブラートの技法については、図１５に示すように、「深さ」、「周期」、「長さ」といった要素毎に重要度を示す情報が記憶されている。また、しゃくりの技法については、「ピッチ幅」、「長さ」といった要素毎に重要度を示す情報が記憶されている。
また、しゃくりについては、図１６（ａ）に示すような、前の音を引きずってしゃくり上げるしゃくり（以下、「しゃくりＡ」という）の場合、「ピッチ幅」の重要度を上げ、逆に、図１６（ｂ）に示すような、前の音がないしゃくり（以下、「しゃくりＢ」という）の場合、「ピッチ幅」の重要度を下げるように重要度を設定することもできる。

カラオケ装置１ＢのＣＰＵ１１は、各技法項目について、各技法の要素毎の評価態様データを評価態様データ記憶領域１５０から読み出し、読み出した評価態様データの表す評価態様で、各技法の要素毎に評価を行う。例えば、ＣＰＵ１１は、「しゃくり」の技法については、練習者技法データと模範技法データとのピッチ幅の差分と閾値とを比較して、練習者音声の評価を行う。このとき、ＣＰＵ１１は、その技法が「しゃくりＡ」である場合には、比較処理の際に用いる閾値を小さくし、一方、「しゃくりＢ」である場合には、閾値を大きくする。このようにすることで、「しゃくりＡ」についてはピッチ幅の重要度を上げて厳しい評価を行い、一方、「しゃくりＢ」についてはピッチ幅の重要度を下げて甘い評価を行うことができる。

このように、この実施形態では、技法項目毎、さらに技法の要素（深さ、周期、長さ、ピッチ幅等）毎に評価を行うことができる。

＜Ｄ：変形例＞
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。
（１）上述した実施形態では、カラオケ装置１のＣＰＵ１１が、模範音声データと練習者音声データとを比較し、該比較結果に応じて練習者音声データを評価した。練習者音声データを評価するために用いる音データ（第１の音データ）は、模範となる歌唱音声を表す模範音声データに限らず、例えば、楽曲のガイドメロディを表すデータであってもよく、また、歌唱の採点用に予め用意されたメロディデータであってもよい。要するに、時系列に沿って進行する音に対応するデータであればよい。

（２）上述した実施形態においては、カラオケ装置１のＣＰＵ１１が、歌詞の文字単位で練習者音声データと模範音声データとを比較し、該比較結果に応じて相違箇所を検出した（評価した）。比較単位は、歌詞の文字ごとの単位に限らず、例えば、フレーム単位であってもよく、また、小節単位、フレーズ単位で比較を行ってもよい。

（３）上述した実施形態では、予め定められた時間区間（例えば、サビ区間、セリフ区間など）毎や、また、音の属性に関する項目（ピッチ、発音タイミング、歌唱技法など）毎に、練習者音声データと模範音声データとを比較し、該比較結果に応じて練習者音声データを評価した。評価単位は、上述した以外でも、例えば、音符毎や、歌詞の文字単位、小節単位、フレーズ単位であってもよい。要するに、予め定められた区間毎、又は、歌唱に関わる項目毎に比較すればよい。
ここで、図１７を参照しつつ、（歌詞）音符毎に設定した場合の一例を以下に説明する。
図１７は、評価態様データの内容の一例を示す図である。
図示のように、各音符に対して、項目の重要度（「０」〜「３」の数値）が予め設定されている。歌唱の評価時には、カラオケ装置１のＣＰＵ１１は、重要度を加味して点数や指摘する項目を決める。例えば、重要度の高い項目で、うまく歌唱できなかったものを優先的に指摘することもできる。

また、例えば、ラップのような曲は、リズムは重視するがピッチは無視する、といった評価を行うなど、曲毎のジャンルを示すジャンルデータに応じて、評価の態様を異ならせることもできる。この場合は、曲のジャンル毎に評価態様を予め設定しておき（例えば、ジャンルが「ラップ」の場合は、リズムの評価を厳しくする一方、ピッチの評価は行わない、等）、カラオケ装置１のＣＰＵ１１は、曲に対応するジャンル種別情報を区間種別データ記憶領域１４９（図６参照）から読み出し、読み出したジャンル種別情報に応じて、態様を異ならせて評価する。

また、上述した実施形態においては、音のピッチ、タイミング、強さ、歌詞、技法などを、音の属性に関する項目として用いた。音の属性に関する項目はこれらに限らず、例えば、音色を項目として用いてもよく、音の属性に関する項目であればどのようなものであってもよい。この場合も、ＣＰＵ１１は、上述した実施形態と同様に、模範音声データと練習者音声データの対応する時間部分の属性を項目毎に解析すればよい。

（４）上述した実施形態においては、練習者の歌唱を評価する場合を例に挙げて説明したが、これに限らず、練習者の楽器演奏を評価するようにしてもよい。この場合、伴奏データ記憶領域１４１には、練習したい楽器（例えばフルート）以外の楽器（例えばピアノやバイオリン）の演奏データが記憶されており、模範音声データ記憶領域１４２には、模範となる模範演奏データ（フルートの演奏音を表すデータ）が記憶されており、歌詞データ記憶領域１４３には、演奏音の音程と発音タイミングとが対応付けられて記憶されており、練習者音声データ記憶領域１４４には、練習者の演奏データが記憶されている。なお、この場合は、練習者の演奏技法（例えば、ビブラート、息継ぎ、ため等）を示す技法データを練習者技法データとして、また、模範演奏の演奏技法を示す技法データを模範技法データとして用いることができる。
ＣＰＵ１１は、これらのデータに基づき、上記と同様の処理を経て模範演奏と練習演奏との相違箇所を検出し、その相違箇所を特定する情報を報知する。このように本発明は歌唱や演奏を含み得るため、本発明における「発音」という用語には、人が歌唱するときに発せられる音声のほか、楽器を演奏することで発せられる演奏音も含むものとする。また、本発明において、「音素」とは、歌唱や演奏のいずれの場合であっても、ひとまとまりの音として意識されて発音されるものであり、発音タイミングや発音の間違いを指摘することに意味があるものであればよい。

（５）図２に示した歌詞データでは、それぞれの音声の発音を開始すべきタイミングを「発音タイミング」として考えていた。なぜなら、発音タイミングのずれは、大抵の場合、発音を開始すべきタイミングの影響が大きいからである。ただし、これに限らず、音声の発音を終了するタイミングも「発音タイミング」という概念に含めるようにしてもよい。例えば図２において冒頭の「す」という音声の発音を開始するタイミングＴ1と、図示はしていないがその「す」という音声の発音を終了するタイミング（タイミングＴ1よりは遅く、タイミングＴ２よりは早いタイミング）とを、それぞれ模範音声と練習者音声との間で比較するようにしてもよい。このようにすれば、発音の開始から終了に至るまでの微妙なずれまでをも評価することが可能となる。

（６）上述した実施形態においては、特定した相違箇所と対応する文字の表示態様を他の文字と異ならせて表示させることによって、相違箇所を報知するようにした。相違箇所の報知方法はこれに限定されるものではなく、例えば相違箇所と対応する歌詞の近傍にアイコンを表示させるようにしてもよい。または、歌唱技法を示す図形の表示態様を異ならせることによって相違箇所を報知するようにしてもよい。また、小節毎の区間を評価区間とする場合は、相違箇所と対応する小節の表示態様を他の小節の表示態様と異ならせて表示するようにしてもよく、または、相違箇所と対応する小節のみを表示するようにしてもよい。
また、報知部１１５による報知の形態は、表示に限らず、評価結果を示す音声メッセージを出力するような形態であってもよい。また、音素を特定する情報を電子メール形式で練習者のメール端末に送信するという形態であってもよい。また、音素を特定する情報を記憶媒体に出力して記憶させるようにしてもよく、この場合、練習者はコンピュータを用いてこの記憶媒体から情報を読み出させることで、それを参照することができる。要は、練習者に対して何らかの手段でメッセージ乃至情報を伝えられるように、評価結果を示す情報を出力するものであればよい。

（７）実施形態では、ハードディスク等の記憶部１４に練習者音声データを記憶するようにしていたが、歌唱の評価を終えた後に練習者音声をすぐに破棄する場合には、練習者音声データをＲＡＭ１３に記憶するようにしてもよい。

（８）実施形態では、練習者音声データを記憶する際には、歌詞を表示し、さらに伴奏データを再生しながら練習者に歌唱させる、所謂カラオケ歌唱を行うようにしていたが、これは必ずしも必要ではない。つまり、練習者が歌詞の表示や伴奏データの再生が無いままで歌唱し、それを録音して模範音声と比較するようにしてもよい。歌唱能力が相当に高い練習者であっても、歌詞の表示や伴奏が無い状態で発音タイミングや歌詞を間違えずに歌唱することは容易ではないから、練習者の歌唱能力をより厳密に評価することが可能となる。

（９）実施形態では、ＣＰＵ１１が図１０に示す処理を実行するたびに、模範音声データに対して周波数分析を行っていたが（ステップＳ４）、これに限らず、模範音声データに対して予め周波数分析を行った結果を記憶部１４に記憶しておいてもよいし、一度でも過去に周波数分析を行ったことがあれば、その結果を記憶部１４に記憶しておいてもよい。なお、模範音声データや練習者音声データはＷＡＶＥ形式やＭＰ３形式のデータとしたが、データの形式はこれに限定されるものではなく、音声を示すデータであればどのような形式のデータであってもよい。

（１０）上述した実施形態においては、模範音声データを記憶部１４に記憶させて、カラオケ装置１のＣＰＵ１１が記憶部１４から模範音声データを読み出すようにしたが、これに代えて、通信ネットワークを介して音声データを受信するようにしてもよい。要するに、模範音声データをＣＰＵ１１に入力するようにすればよい。このようにすれば、所望の歌手の音声データをダウンロードして用いることができるから、練習者は、その歌手の歌唱技法と自身の歌唱技法とを比較することができ、所望の歌手の歌唱技法を真似て歌唱することが容易になる。

（１１）上述した実施形態においては、模範音声データから歌唱技法が用いられている区間を検出して模範技法データを生成するようにした。これに代えて、模範音声データそのものは記憶させておかずに、模範技法データを予め記憶部に記憶させておき、記憶された模範技法データを用いて比較処理を行うようにしてもよい。この場合は、模範技法データの生成処理（図１０のステップＳ９の処理）を行う必要はない。この場合は、練習者によって歌唱が行われると、ＣＰＵ１１は、上述した実施形態と同様に、練習者歌唱データから練習者技法データを生成し、練習者技法データと記憶部に記憶された模範技法データとを比較して、予め決められた評価区間毎に相違箇所を検出する。

または、模範音声データそのものは記憶させておかずに、基礎分析データ（ピッチ、パワー、スペクトル）を予め記憶部に記憶させておくようにしてもよい。要するに、模範音声データに変えて、時系列に沿って進行する音に対応する音の属性（ピッチ、パワー、スペクトル等）を示すパラメータ（基礎分析データ等）を属性の項目毎に記憶させておくようにしてもよい。この場合は、記憶された基礎分析データから模範技法データを生成すればよく、模範音声データの音声分析処理（図１０のステップＳ４に含まれる処理）を行う必要はない。

（１２）上述した実施形態においては、歌唱技法として「ビブラート」や「ため」等が用いられている区間を特定したが、特定する歌唱技法（または演奏技法）は上述した実施形態において示したものに限定されるものではなく、例えば、スタッカートやクレッシェンド（デクレッシェンド）等であってもよい。具体的には、音声データから検出したパワーがある短い一定期間の間だけ強く現れる区間をスタッカートとして特定するようにしてもよい。また、パワーデータ値が連続的に徐々に大きくなる（小さくなる）区間をクレッシェンド（デクレッシェンド）として特定するようにしてもよい。要するに、音声データから算出されたピッチやスペクトル、パワーの時間的な変化のパターンを解析して、この解析結果が予め定められたパターンに対応するか否かを判定し、対応する場合には当該パターンに対応する区間を特定の技法が用いられている区間として特定すればよい。

（１３）上述した実施形態においては、練習者が歌唱した後で、練習者の歌唱技法と模範音声の歌唱技法とを比較して、両者の相違箇所を報知するようにしたが、模範音声で用いられている歌唱技法（または演奏技法）を、練習者が歌唱する際にリアルタイムで表示しておくようにしてもよい。このようにすれば、練習者は、歌唱する前に（または歌唱している最中に）模範音声で用いている歌唱技法（ビブラート、ため等）を視覚的に把握することができるから、お手本の歌唱技法を真似て歌いやすくなる。

（１４）実施形態では、カラオケ装置１が、図７に示した機能の全てを実現するようになっていた。これに対し、通信ネットワークで接続された２以上の装置が上記機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態のカラオケ装置１を実現するようにしてもよい。例えば、マイクロフォンやスピーカ、表示装置及び入力装置等を備え、報知部１１５を実現するコンピュータ装置と、基礎分析部１１１、対応箇所検出部１１２、発音内容比較部１１３、発音タイミング比較部１１４、技法分析部１１６及び技法比較部１１７を実現するサーバ装置とが通信ネットワークで接続されたシステムとして構成されていてもよい。この場合は、コンピュータ装置が、マイクロフォンから入力された音声を音声データに変換してサーバ装置に送信し、サーバ装置が、受信した音声データと模範音声データ及び歌詞データとの比較処理を行い、その比較結果をコンピュータ装置に送信するようにすればよい。

（１５）上述した実施形態における評価装置としてのカラオケ装置１のＣＰＵ１１によって実行されるプログラムは、磁気テープ、磁気ディスク、フレキシブルディスク、光記録媒体、光磁気記録媒体、ＲＡＭ、ＲＯＭなどの記録媒体に記録した状態で提供し得る。また、インターネットのようなネットワーク経由でカラオケ装置１にダウンロードさせることも可能である。

カラオケ装置１のハードウェア構成を例示したブロック図である。模範音声データと歌詞データとの対応関係を説明する図である。コメントテーブルの内容の一例を示す図である。模範技法データの内容の一例を示す図である。ビブラート技法としゃくり技法の態様を説明するための図である。区間種別データの内容の一例を示す図である。カラオケ装置１のソフトウェア構成の一例を示す図である。ＤＰマッチングを示す図である。ＤＰマッチングにおいて時間軸の伸縮を示す図である。カラオケ装置のＣＰＵが行う処理の流れを示すフローチャートである。ファルセットにおける周波数成分を説明するための図である。発音タイミング及び発音内容が相違する際の各種態様を説明する図である。カラオケ装置において表示される画面の一例を示す図である。評価態様データの内容の一例を示す図である。評価態様データの内容の一例を示す図である。しゃくりの技法の態様を説明するための図である。評価態様データの内容の一例を示す図である。

符号の説明

１…カラオケ装置、１１…ＣＰＵ、１２…ＲＯＭ、１３…ＲＡＭ、１４…記憶部、１５……表示部、１６…操作部、１７…マイクロフォン、１８…音声処理部、１９…スピーカ、１１１…基礎分析部、１１２…対応箇所検出部、１１３…発音内容比較部、１１４…発音タイミング比較部、１１５…報知部、１１６…技法分析部、１１７…技法比較部、１４１…伴奏データ記憶領域、１４２…模範音声データ記憶領域、１４３…歌詞データ記憶領域、１４４…練習者音声データ記憶領域、１４５…背景画データ記憶領域、１４６…コメントテーブル記憶領域、１４７…模範技法データ記憶領域、１４８…練習者技法データ記憶領域、１４９…区間種別データ記憶領域、１５０…評価態様データ記憶領域。

Claims

時系列に沿って進行する音に対応する第１の音データ、前記時系列の区間の区切りを示す区切りデータ、および前記各区間の種別を表す区間種別データを記憶する記憶手段と、
前記記憶手段内の前記区切りデータを参照して区間を認識しながら前記第１の音データを読み出し、読み出した前記第１の音データの各区間に対して、収音手段から供給される第２の音データを対応付ける対応付け手段と、
区間の種別毎に評価態様が予め設定され、前記記憶手段に記憶された区間種別データに対応する評価態様を区間毎に選択し、選択した評価態様に基づいて、前記対応付け手段によって対応付けられた第１の音データと第２の音データを比較し、比較結果に応じて該第２の音データを評価する評価手段と、
前記評価手段による評価結果を表す情報を出力する出力手段と
を備えることを特徴とする評価装置。
時系列に沿って進行する音に対応する第１の音データを記憶するとともに、音の属性に関する所定項目毎の評価の態様を表す評価態様データを記憶する記憶手段と、
前記記憶手段に記憶された第１の音データと収音手段から供給される第２の音データの対応する時間部分の属性を前記項目毎に解析するとともに、解析結果に対し前記記憶手段に記憶された前記項目毎の評価態様データに基づく比較をし、比較結果に基づいて該第２の音データを評価する評価手段と、
前記評価手段による評価結果を表す情報を出力する出力手段と
を備えることを特徴とする評価装置。
前記記憶手段は、前記第１の音データに代えて、時系列に沿って進行する音に対応する音の属性を示すパラメータを属性の項目毎に記憶し、
前記評価手段は、前記収音手段から供給される第２の音データの属性を前記項目毎に解析するとともに、解析結果と前記記憶手段に記憶されたパラメータとに対し前記記憶手段に記憶された前記項目毎の評価態様データに基づく比較をし、比較結果に応じて該第２の音データを評価する
ことを特徴とする請求項２に記載の評価装置。
時系列に沿って進行する音に対応する第１の音データ、前記時系列の区間の区切りを示す区切りデータ、前記各区間の種別を表す区間種別データ、および音の属性に関する所定項目毎および前記区間毎の評価の態様を表す評価態様データを記憶する記憶手段と、
前記記憶手段内の前記区切りデータを参照して区間を認識しながら前記第１の音データを読み出し、読み出した前記第１の音データの各区間に対して、収音手段から供給される第２の音データを対応付ける対応付け手段と、
前記対応付け手段によって対応付けられた第１の音データと第２の音データとの対応する時間部分の属性を前記項目毎及び前記区間毎に解析し、解析結果に対し前記記憶手段に記憶された前記項目毎及び前記区間毎の評価態様データに基づく比較をし、比較結果に基づいて該第２の音データを評価する評価手段と、
前記評価手段による評価結果を表す情報を出力する出力手段と
を備えることを特徴とする評価装置。
前記項目は、音のピッチ、タイミング、強さ、歌詞及び技法の少なくともいずれかひとつを示す
ことを特徴とする請求項２乃至４のいずれかに記載の評価装置。
前記第１の音データは、発音タイミングが時系列に連なる複数の音素を表すデータであり、
前記第１の音データと前記第２の音データとを所定時間長のフレーム単位で対応付け、対応付けたフレームを表す対応箇所データを生成する対応箇所検出手段を備え、
前記評価手段は、前記第２の音データが表す音素の発音タイミングを、前記第１の音データが表す音素の発音タイミングと前記対応箇所データとに基づいて特定し、該第１の音データが表す音素の発音タイミングと該第２の音データが表す音素の発音タイミングとの差分が閾値を超えるか否かを判断し、該判断結果に応じて該第２の音データを評価する
ことを特徴とする請求項１又は２に記載の評価装置。
前記第１の音データの表す音において特定の技法が用いられている区間を示す第１の技法データを記憶する第１の技法データ記憶手段と、
前記第２の音データの表す音のピッチ、スペクトル及びパワーの少なくともいずれか一つを検出し、検出結果を示す分析データを生成する検出手段と、
前記検出手段により生成された分析データの表す内容の時間的な変化のパターンを解析して、この解析結果が予め定められたパターンに対応するか否かを判定し、対応する場合には当該パターンに対応する区間を特定の技法が用いられている区間として特定する技法区間特定手段と、
前記技法区間特定手段により特定された区間を示す第２の技法データを生成する第２の技法データ生成手段と
を備え、
前記評価手段は、前記第２の技法データ生成手段により生成された第２の技法データと前記第１の技法データ記憶手段に記憶された第１の技法データとを比較し、該比較結果に応じて該第２の音データを評価する
ことを特徴とする請求項１又は２に記載の評価装置。
前記出力手段は、前記評価手段による評価結果を報知する
ことを特徴とする請求項１乃至７のいずれかに記載の評価装置。