JP2007322934A

JP2007322934A - 歌唱練習装置、カラオケ装置及びプログラム

Info

Publication number: JP2007322934A
Application number: JP2006155297A
Authority: JP
Inventors: Shingo Kamiya; 伸吾神谷; Juichi Sato; 寿一佐藤; Akane Noguchi; あかね野口
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2006-06-02
Filing date: 2006-06-02
Publication date: 2007-12-13

Abstract

【課題】歌唱練習において、発音、音域又は歌唱技法（ビブラート等）などの曲に関わる個々の要素について繰り返して練習できる技術を提供する。
【解決手段】カラオケ装置１の記憶部１４には、歌唱練習において模範となる音声を表す歌唱練習用データが予め定められた練習項目に分類されて記憶されている。練習者は、操作部１６を操作して練習項目を選択し、選択した練習項目に応じた歌唱練習を行う。カラオケ装置１のＣＰＵ１１は、選択された練習項目に対応する歌唱練習用データと、練習者の音声を表す練習者音声データとを比較し、その隔たりの度合いに応じて練習者音声を評価して評価結果を報知する。また、ＣＰＵ１１は、その評価結果に応じて楽曲を選択し、選択した楽曲を報知する。
【選択図】図１

Description

本発明は、歌唱練習装置、カラオケ装置及びプログラムに関する。

カラオケ装置においては、楽曲の歌詞を画面に表示させるものが一般的である。また、特許文献１には、歌唱指導、解説等の文字情報を副映像で表示する方法が提案されている。また、このようなカラオケ装置においては、歌唱者の歌唱の巧拙を採点する機能を備えたものもある。
特開平１０−３１２６７２号公報

ところで、歌唱練習においては、曲の始めから終わりまで全てを練習するのではなく、発音、音域、歌唱技法（ビブラート、しゃくり等）などの曲に関わる個々の要素について繰り返して練習したほうが効果的な場合がある。また、歌唱の習得の度合いに応じて練習内容を変えられると好適である。このように曲に関わる個々の要素についての反復練習や、歌唱の習得の度合いに応じた歌唱練習を行える装置の開発が望まれていた。
本発明は上述した背景の下になされたものであり、歌唱者が曲に関わる個々の要素について歌唱練習を行うことのできる技術を提供することを目的とする。

本発明の好適な態様である歌唱練習装置は、歌唱練習において模範となる音声を表す歌唱練習用データが予め定められた項目に分類されて記憶された歌唱練習用データ記憶手段と、前記項目内の前記歌唱練習用データを選択する歌唱練習用データ選択手段と、練習者の音声を表す練習者音声データと前記歌唱練習用データ選択手段によって選択された歌唱練習用データとを比較し、該比較結果に応じて前記練習者音声データに対する評価結果を生成する練習者音声データ評価手段と、前記練習者音声データ評価手段による前記評価結果を報知する評価結果報知手段とを備える。
この態様において、複数の楽曲を識別する楽曲識別情報と当該楽曲の歌唱における特徴を表す楽曲特徴データとを関連付けて記憶する楽曲特徴データ記憶手段と、前記練習者音声データ評価手段による評価結果と前記楽曲特徴データ記憶手段に記憶された楽曲特徴データとを対比し、該対比結果に応じて、前記複数の楽曲から１以上の楽曲を選択する楽曲選択手段と、前記楽曲選択手段により選択された楽曲を報知する楽曲報知手段とを備えてもよい。
また、この態様において、楽曲の歌唱パートを構成し、模範となる歌唱音声を表す模範音声データを記憶する模範音声データ記憶手段と、前記練習者音声データと前記模範音声データ記憶手段に記憶された模範音声データとを、楽曲の進行に沿って前記項目毎に比較し、その隔たりの度合いに応じて、前記練習者音声データに対する前記項目毎に項目別評価結果を生成する楽曲評価手段と、前記楽曲評価手段による前記項目別評価結果が予め定められたレベルより低い項目について、当該項目に対応する歌唱練習用データを前記歌唱練習用データ記憶手段から読み出して出力する歌唱練習用データ出力手段とを備えてもよい。

また、この態様において、前記複数の楽曲について、各楽曲の伴奏楽音を構成する伴奏データを記憶する伴奏データ記憶手段と、前記楽曲選択手段により選択された楽曲に対応する伴奏データを、前記伴奏データ記憶手段から読み出して、伴奏信号を生成する伴奏信号生成手段とを備えてもよい。

また、上述の態様において、楽曲の歌唱パートを構成し、模範となる歌唱音声を表す模範音声データを記憶する模範音声データ記憶手段と、前記楽曲の歌詞を示す歌詞データを記憶する歌詞データ記憶手段と、前記練習者音声データと前記模範音声データ記憶手段に記憶された模範音声データとを楽曲の進行に沿って比較し、前記練習者音声データが前記模範音声データに対して所定量以上の隔たりがある箇所を特定する相違箇所特定手段と、前記歌詞データ記憶手段に記憶された歌詞データを読み出し、前記模範音声データ用の表示列と前記練習者用の表示列に楽曲の進行に対応するように２列に並べて表示装置に表示させるとともに、前記相違箇所特定手段により特定された箇所については、前記模範音声データ用と前記練習者用の歌詞データ表示の表示態様を異ならせる表示制御手段とを備えてもよい。

また、この発明の好適な態様であるカラオケ装置は、歌唱練習において模範となる音声を表す歌唱練習用データが予め定められた項目に分類されて記憶された歌唱練習用データ記憶手段と、前記項目内の前記歌唱練習用データを選択する歌唱練習用データ選択手段と、練習者の音声を表す練習者音声データと前記歌唱練習用データ選択手段によって選択された歌唱練習用データとを比較し、該比較結果に応じて前記練習者音声データに対する評価結果を生成する練習者音声データ評価手段と、複数の楽曲を識別する楽曲識別情報と当該楽曲の歌唱における特徴を表す楽曲特徴データとを関連付けて記憶する楽曲特徴データ記憶手段と、前記練習者音声データ評価手段による評価結果と前記楽曲特徴データ記憶手段に記憶された楽曲特徴データとを対比し、該対比結果に応じて、前記複数の楽曲から１以上の楽曲を選択する楽曲選択手段と、前記複数の楽曲について、各楽曲の伴奏楽音を構成する伴奏データを記憶する伴奏データ記憶手段と、前記楽曲選択手段により選択された楽曲に対応する伴奏データを、前記伴奏データ記憶手段から読み出して、伴奏信号を生成する伴奏信号生成手段とを備える。

本発明によれば、歌唱者が曲に関わる個々の要素について歌唱練習を行うことができる。

次に、この発明を実施するための最良の形態を説明する。
＜Ａ：構成＞
図１は、この発明の一実施形態であるカラオケ装置１のハードウェア構成を示したブロック図である。このカラオケ装置１は、カラオケ伴奏を再生するカラオケ機能を備えるとともに、練習者が歌唱練習を行うための歌唱練習装置としても機能する。図において、ＣＰＵ（Central Processing Unit）１１は、ＲＯＭ（Read Only Memory）１２又は記憶部１４に記憶されているコンピュータプログラムを読み出してＲＡＭ（Random Access Memory）１３にロードし、これを実行することにより、カラオケ装置１の各部を制御する。記憶部１４は、例えばハードディスクなどの大容量の記憶手段であり、伴奏データ記憶領域１４ａと、歌詞データ記憶領域１４ｂと、背景画データ記憶領域１４ｃと、楽曲特徴データ記憶領域１４ｄと、歌唱練習用データ記憶領域１４ｅと、模範音声データ記憶領域１４ｆと、練習者音声データ記憶領域１４ｇと、模範技法データ記憶領域１４ｈと、練習者技法データ記憶領域１４ｉと、コメントテーブル記憶領域１４ｊと、修正領域データ記憶領域１４ｋとを有している。表示部１５は、例えば液晶ディスプレイなどの表示装置であり、ＣＰＵ１１の制御の下で、カラオケ装置１を操作するためのメニュー画面や、背景画像に歌詞テロップが重ねられたカラオケ画面などの各種画面を表示する。操作部１６は、テンキーや上下キー、演奏開始キーなどの各種のキーを備えており、押下されたキーに対応した操作信号をＣＰＵ１１へ出力する。マイクロフォン１７は、練習者が発声した音声を収音し、音声信号（アナログデータ）を出力する。音声処理部１８は、マイクロフォン１７が出力する音声信号（アナログデータ）をデジタルデータに変換してＣＰＵ１１に出力する。スピーカ１９は、音声処理部１８から出力される音声信号に応じた強度で放音する。

記憶部１４の伴奏データ記憶領域１４ａには、例えばＭＩＤＩ（Musical Instruments Digital Interface）形式の伴奏データであって、各楽曲の伴奏楽音を構成する伴奏データが記憶されている。この伴奏データは、その曲の伴奏を行う各種楽器の音高（ピッチ）を示す情報が楽曲の進行に伴って記されたデータである。歌詞データ記憶領域１４ｂには、楽曲の歌詞を示す歌詞データが記憶されている。歌詞データは、カラオケ歌唱の際に歌詞テロップとして表示部１５に表示される。背景画データ記憶領域１４ｃには、伴奏データと対応する動画像を示す背景画データが記憶されている。

楽曲特徴データ記憶領域１４ｄには、楽曲を識別する楽曲ＩＤ（楽曲識別情報）と当該楽曲の歌唱における特徴を表す楽曲特徴データとが関連付けて記憶されている。
図２は、楽曲特徴データの内容の一例を示す図である。図２に示す例においては、楽曲特徴データとして「音高幅」と「用いられている技法」との各練習項目の内容を示すデータが用いられている。「音高幅」の練習項目には、その楽曲で用いられている音について、最も低い音高と最も高い音高とを示すデータが記憶される。「用いられている技法」の練習項目には、その楽曲で用いられている歌唱技法（例えば、ビブラートやしゃくりなど）を示すデータとその楽曲で用いられている歌唱技法の難易度を示すデータ（例えば、難、易など）とが記憶される。

歌唱練習用データ記憶領域１４ｅには、歌唱練習において模範となる音声を表す歌唱練習用データが予め定められた練習項目に分類されて記憶されている。この歌唱練習用データは、例えば、ある音高（の音符）（高音の四分音符、二分音符、全音符など）、短いフレーズでの音階変化、技法（しゃくり、ビブラートなど）が加味された音を表すデータであり、技法などの練習項目毎に分類されて複数記憶されている。この歌唱練習用データは、歌唱者の歌唱音声を表すデータであってもよく、また、電子音を表すデータであってもよい。
また、その曲または別の曲の模範音声データの一部を参照するための参照位置データでもよい。さらに、別用途で持っているデータの一部を参照するための参照IDデータと位置データ等でもよい。
図３は、歌唱練習用データの内容の一例を示す図である。図示のように、歌唱練習用データは、練習項目（例えば、単音発声練習、しゃくり、ビブラートなど）毎に記憶されている。例えば、「単音発声練習」の練習項目の歌唱練習用データは、ある音高の音符（高音の四分音符、二分音符、全音符など）の音を示す音データであり、また、「ビブラート」の練習項目の歌唱練習用データは、ビブラート技法が加味された音を表すデータである。カラオケ装置１のＣＰＵ１１は、後述する練習モード処理において、選択された練習項目に対応する歌唱練習用データを読み出して音声処理部１８に出力し、音声処理部１８はＣＰＵ１１から出力される歌唱練習用データをアナログ信号に変換してスピーカ１９に放音させる。

次に、模範音声データ記憶領域１４ｆには、例えばＷＡＶＥ形式やＭＰ３（MPEG1 Audio Layer-3）形式などの音声データであって、楽曲の歌唱パートを構成し、伴奏データによって表される伴奏に沿って歌唱された模範となる歌唱音声（以下、模範音声）を表す音声データ（以下、模範音声データ）が記憶されている。模範音声については例えばプロ歌手の音声データを用いる。練習者音声データ記憶領域１４ｇには、マイクロフォン１７から音声処理部１８を経てＡ／Ｄ変換された音声データが、例えばＷＡＶＥ形式やＭＰ３形式で、伴奏開始からの経過時間を表す情報と共に時系列に記憶される。この音声データは、練習者の音声（以下、練習者音声）を表す音声データであるから、以下では、練習者音声データという。

模範技法データ記憶領域１４ｈには、模範音声データ記憶領域１４ｆに記憶された模範音声データの表す模範となる歌唱に用いられている歌唱技法の種類とタイミングとを示すデータ（以下、「模範技法データ」）が記憶される。
図４は、模範技法データの内容の一例を示す図である。図示のように、模範技法データは、「区間情報」と「技法種別」との各項目が互いに関連付けられている。これらの項目のうち、「区間情報」の項目には、模範音声データにおいて歌唱技法が用いられた区間を示す情報が記憶される。なお、この区間情報が示す区間は、開始時刻情報と終了時刻情報とによって表される時間幅を有した区間であってもよく、また、ある１点の時刻を示すものであってもよい。
「技法種別」の項目には、例えば「ビブラート」、「しゃくり」、「こぶし」、「ファルセット」、「つっこみ」、「ため」、「息継ぎ」などの歌唱の技法を識別する識別情報が記憶される。「ビブラート」は、音の高さをほんのわずかに連続的に上下させ、震えるような音色を出すという技法である。「しゃくり」は、目的の音より低い音から発音し、音高を滑らかに目的の音に近づけていくという技法である。「こぶし」は、装飾的に加える、うねるような節回しを行うという技法である。「ファルセット」は、いわゆる「裏声」で歌うという技法である。「つっこみ」は、歌い出しを本来のタイミングよりも早いタイミングにするという技法である。「ため」は、歌い出しを本来のタイミングよりも遅いタイミングにするという技法である。「息継ぎ」は、練習者が息継ぎをするタイミングを意味する。

次に、記憶部１４のコメントテーブル記憶領域１４ｊには、歌唱に対する指摘コメント文と歌唱に対する指導コメント文とをそれぞれ複数記憶するコメントテーブルが記憶されている。
図５は、コメントテーブルの内容の一例を示す図である。図示のように、コメントテーブルは、「修正領域種別」と「指摘コメント」と「指導コメント」との各項目が互いに関連付けて記憶されている。これらの項目のうち、「修正領域種別」の項目には、「音高ずれ」や「タイミングずれ」といった、模範音声と練習者音声との隔たりの態様を識別する情報が記憶されている。「指摘コメント」の項目には、例えば、「音高ずれ」や「タイミングずれ」等、歌唱に対する指摘コメント文を示すテキストデータが記憶されている。「指導コメント」の項目には、例えば、「抑えて」や、「はっきりと」といった、歌唱に対する指導コメント文を示すテキストデータが記憶されている。

次に、修正領域データ記憶領域１４ｋには、ＣＰＵ１１が模範音声データと練習者音声データとの比較処理、および、模範技法データと練習者技法データとの比較処理を行うことによって生成する修正領域を示すデータ（以下、「修正領域データ」）が記憶される。この修正領域データは、練習者音声が模範音声に対して所定量以上の隔たりがある箇所を示すデータである。
図６は、修正領域データの内容の一例を示す図である。図示のように、修正領域データは、「修正領域種別」と「区間情報」と「態様情報」と「ＩＤ」との各項目が互いに関連付けられている。これらの項目のうち、「修正領域種別」は、例えば、「音高ずれ」や「タイミングずれ」、「ビブラートずれ」等、模範音声と練習者音声との隔たりの態様を識別する情報が記憶される。「区間情報」の項目には、その隔たりのある箇所を示す時刻情報が記憶される。また、「態様情報」の項目には、隔たりの態様をさらに具体的に示す情報が記憶される。例えば、修正領域種別が「タイミングずれ」の場合に、タイミングが早いのか遅いかといった内容を示す情報が記憶される。「ＩＤ」の項目には、修正領域データを識別する情報が記憶される。

＜Ｂ：動作＞
次に、図７に示すフローチャートを参照しつつ、カラオケ装置１の動作を説明する。
練習者は、カラオケ装置１の操作部１６を操作して、歌唱したい楽曲を選択する操作を行う。操作部１６は操作された内容に応じた操作信号をＣＰＵ１１へ出力し、ＣＰＵ１１は、操作部１６から出力される操作信号に応じて、楽曲を選択する。次いで、ＣＰＵ１１は、モードの選択を促す画面を表示部１５に表示させる。図８は、表示部１５に表示される画面の一例を示す図である。図示のように、この画面には、「通常カラオケモード」と「指導内容表示付カラオケモード」と「練習モード」とのいずれかを選択するための画面が表示される。「通常カラオケモード」は、画面に歌詞テロップを表示しつつカラオケ伴奏を行うモードである。「指導内容表示付カラオケモード」は、歌詞テロップに併せて指導内容を表す図形やコメント文を表示しつつカラオケ伴奏を行うモードである。「練習モード」は、歌唱の練習を行うためのモードである。

練習者は、表示部１５に表示された画面を確認して、操作部１６を操作してモードを選択する。操作部１６は操作された内容に応じた操作信号をＣＰＵ１１へ出力し、ＣＰＵ１１は、操作部１６から出力される操作信号に応じて、モードを判定する（ステップＳ１）。

「通常カラオケモード」であると判定された場合には、ＣＰＵ１１は、歌詞テロップを表示部１５に表示させるとともに、カラオケ伴奏を開始する（ステップＳ２）。すなわち、ＣＰＵ１１は、伴奏データ記憶領域１４ａから伴奏データを読み出して音声処理部１８に供給し、音声処理部１８は、伴奏データをアナログ信号に変換し、スピーカ１９に供給して放音させる。また、ＣＰＵ１１は、歌詞データ記憶領域１４ｂから歌詞データを読み出して歌詞テロップを表示部１５に表示させる。
図９は、「通常カラオケモード」において表示される画面の一例を示す図である。図示のように、表示部１５には、歌詞テロップＷ１が表示される。
練習者は、スピーカ１９から放音される伴奏にあわせて歌唱を行う。このとき、練習者の音声はマイクロフォン１７によって収音されて音声信号に変換され、音声処理部１８へと出力される。音声処理部１８によってＡ／Ｄ変換された練習者音声データは、伴奏開始からの経過時間を示す情報と共に、練習者音声データ記憶領域１４ｇに時系列に記憶（録音）されていく（ステップＳ３）。
また、この「通常カラオケモード」においては、ＣＰＵ１１は、練習モードに切り換えるためのボタンＢ１を表示部１５に表示させる。練習者が操作部１６を操作することによってこのボタンＢ１が選択されると、操作部１６は操作内容に応じた信号をＣＰＵ１１に出力する。ＣＰＵ１１は、操作部１６から出力される信号に応じてモードを切り換えるか否かを判定し、モードを切り換えると判定した場合には（ステップＳ３１；ＹＥＳ）、ＣＰＵ１１は、モードを「練習モード」に切り換え、ステップＳ７に示す練習モード処理を実行する（ステップＳ７）。

一方、ステップＳ１において、「指導内容表示付カラオケモード」であると判定された場合には、ＣＰＵ１１は、指導内容を表示するとともに、カラオケ伴奏を開始する（ステップＳ４）。すなわち、ＣＰＵ１１は、伴奏データ記憶領域１４ａから伴奏データを読み出して音声処理部１８に供給し、音声処理部１８は、伴奏データをアナログ信号に変換し、スピーカ１９に供給して放音させる。また、ＣＰＵ１１は、歌詞データ記憶領域１４ｂから歌詞データを読み出して歌詞テロップを表示部１５に表示させる。さらに、ＣＰＵ１１は、模範技法データ記憶領域１４ｈに記憶された模範技法データの示す各区間に対応する歌詞（文字）の表示位置の近傍に、各技法を示す図形を表示する。
図１０は、表示部１５に表示される画面の一例を示す図である。図示のように、歌詞テロップＷ１と、技法を示す図形Ｉ１〜Ｉ４が表示される。具体的には、例えば、「に」の文字Ｗ１１の表示位置の近傍に、「ビブラート」の技法を示す図形Ｉ２が表示されている。
練習者は、この画面をみることで、どのタイミングでどのような歌唱技法を用いればよいかを確認することができる。

この「指導内容表示付カラオケモード」においても、練習者は、スピーカ１９から放音される伴奏にあわせて歌唱を行う。練習者の音声はマイクロフォン１７によって収音されて音声信号に変換され、音声処理部１８へと出力される。音声処理部１８によってＡ／Ｄ変換された練習者音声データは、伴奏開始からの経過時間を示す情報と共に、練習者音声データ記憶領域１４ｇに時系列に記憶（録音）されていく（ステップＳ３）。
また、この「指導内容表示付カラオケモード」においても、ＣＰＵ１１は、練習モードに切り換えるためのボタンＢ１を表示部１５に表示させる。練習者が操作部１６を操作することによってこのボタンＢ１が選択されると、操作部１６は操作内容に応じた信号をＣＰＵ１１に出力する。ＣＰＵ１１は、操作部１６から出力される信号に応じてモードを切り換えるか否かを判定し、モードを切り換えると判定した場合には（ステップＳ３１；ＹＥＳ）、ＣＰＵ１１は、モードを「練習モード」に切り換え、ステップＳ７に示す練習モード処理を実行する（ステップＳ７）。

「通常カラオケモード」又は「指導内容表示付カラオケモード」においては、ＣＰＵ１１は、楽曲の伴奏が終了するまで、伴奏の再生と音声の録音を継続して実行する。楽曲の伴奏が終了すると（ステップＳ５；ＹＥＳ）、ＣＰＵ１１は、評価結果反映練習モード処理（ステップＳ６）に進む。

次に、ステップＳ１において「練習モード」であると判定された場合の動作について説明する。
ステップＳ１において「練習モード」であると判定された場合には、ＣＰＵ１１は、ステップＳ７に示す練習モード処理を実行する。
図１１は、練習モード処理の流れを示すフローチャートである。まず、ＣＰＵ１１は、練習メニューの選択を促す画面を表示部１５に表示させる。図１２は、表示部１５に表示される画面の一例を示す図である。図示のように、表示部１５には、「発声練習メニュー」と「フレーズ毎練習メニュー」と「技法毎練習メニュー」とのいずれかのメニューを選択するための画面が表示される。
練習者は、表示部１５に表示される画面を確認しつつ、操作部１６を操作してメニューを選択する操作を行う。操作部１６は、操作内容に応じた操作信号をＣＰＵ１１に出力し、ＣＰＵ１１は、操作部１６から出力される操作信号に応じて、練習項目を選択（判定）する（ステップＳ７１）。

「発声練習メニュー」が選択されたと判定された場合には、ＣＰＵ１１は、歌唱練習用データ記憶領域１４ｅに記憶された「単音発声練習」の練習項目に対応する歌唱練習用データの表す音をスピーカ１９から放音させる（ステップＳ７２）。すなわち、ＣＰＵ１１は、歌唱練習用データを音声処理部１８に出力し、音声処理部１８は、歌唱練習用データをアナログ信号に変換してスピーカ１９に出力し、スピーカ１９は、音声処理部１８から出力されるアナログ信号に応じた大きさで放音する。
練習者は、スピーカ１９から放音される音声を参考にして、発声練習を行うことができる。これにより、練習者は、歌唱を開始する前に、音合わせをしたり高音の発生練習を行ったりすることができる。

一方、「技法毎練習メニュー」が選択された場合には、ＣＰＵ１１は、技法の選択を促す画面を表示部１５に表示する。練習者が操作部１６を操作することによって技法を選択すると、ＣＰＵ１１は、操作部１６から出力される操作信号に応じて技法を選択し、選択された技法に対応する歌唱練習用データを、歌唱練習用データ記憶領域１４ｅから読み出して音声処理部１８に出力する。音声処理部１８は、供給される歌唱練習用データをアナログ信号に変換してスピーカ１９に出力し、スピーカ１９は、音声処理部１８から出力されるアナログ信号に応じて放音する（ステップＳ７３）。具体的には、例えば、「ビブラート」の技法が選択された場合には、ＣＰＵ１１は、「ビブラート」の練習項目に対応する歌唱練習用データを読み出して音声処理部１８に出力する。スピーカ１９からは、ビブラートの技法を加味した音が放音されるから、練習者は、この音を聴きながらビブラートの歌唱技法を練習することができる。

一方、ステップＳ７１において、「フレーズ毎練習メニュー」が選択された場合には、ＣＰＵ１１は、フレーズの選択を促す画面を表示する。練習者は、操作部１６を操作して楽曲を選択するとともにその楽曲に含まれるフレーズのいずれかを選択する。なお、この選択は、小節番号、フレーズ番号、歌詞などを指定するようにしてもよく、また、歌詞を画面に表示し、練習者が表示された歌詞のなかから練習したい歌詞の部分を選択するようにしてもよい。また、曲を選択しない場合は事前にカラオケとして歌唱した曲を選択してもよい。

フレーズが選択されると、ＣＰＵ１１は、例えば、図１３（ａ）に示すような、フレーズ毎の練習画面を表示部１５に表示させる（ステップＳ７４）。
図１３（ａ）に示す画面において、練習者は、模範音声又は伴奏を再生する旨を、操作部１６を用いて指示することができる。これは例えば、図１３（ａ）に示すような、「先生の歌唱を聴く場合はＣを押してください」といった、操作を促すメッセージＭ１を表示するようにし、また、図１３（ｂ）に示すような、０〜９のテンキーＢ１０と、「Ａ」，「Ｂ」、「Ｃ」を選択できる操作ボタンＢ１１，Ｂ１２，Ｂ１３とを備える操作部１６を操作して練習者が指示するようにすればよい。例えば練習者が操作ボタンＢ１１を押下した場合には、ＣＰＵ１１は操作部１６からの操作信号に応じて伴奏を再生する。一方、練習者が操作ボタンＢ１３を押下した場合には、ＣＰＵ１１は操作部１６からの操作信号に応じて模範音声を再生する。
練習者が操作部１６を操作することによって指示されると、その指示内容を示す信号が操作部１６からＣＰＵ１１に出力される。ＣＰＵ１１は、模範音声の再生指示を示す信号が入力されたことを検知した場合は、模範音声データのうちの当該修正領域に対応するデータを、音声処理部１８に供給する。音声処理部１８は、供給された信号に応じてスピーカ１９から放音する。一方、伴奏の再生指示を示す信号が入力されたことを検知した場合には、ＣＰＵ１１は、伴奏データからそのフレーズに対応するデータを抽出して、音声処理部１８に供給する。音声処理部１８は、供給された信号に応じてスピーカ１９から放音する。

練習者が歌唱練習を行うと、練習者の音声は、マイクロフォン１７によって収音されアナログ信号に変換され音声処理部１８に出力される。音声処理部１８は出力されるアナログ信号をデジタルデータに変換して練習者音声データ記憶領域１４ｇに時系列に記憶していく（ステップＳ７５）。

ＣＰＵ１１は、練習者音声データと歌唱練習用データ記憶領域１４ｅに記憶された歌唱練習用データとを比較し、その隔たりの度合い（比較結果）に応じて練習者音声データを評価して評価結果データを生成する（ステップＳ７６）。そして、ＣＰＵ１１は、生成した評価結果データを表示部１５に出力することによって評価結果を報知する（ステップＳ７７）。表示部１５は、ＣＰＵ１１から出力される評価結果データに応じて、評価結果を示す内容を表示する。
評価結果データの生成方法としては、具体的には、ＣＰＵ１１は、歌唱練習用データと練習者音声データとのピッチ（音高）の隔たり（差）を算出し、ピッチ差が所定量以上である場合には、そのピッチ差に応じた評価結果データを生成する。または、ＣＰＵ１１は、歌唱練習用データのピッチの変化タイミングが練習者音声データのピッチの変化タイミングに対して所定量以上の隔たり（タイミング差）がある場合には、そのタイミング差に応じた評価結果データを生成する。
この評価結果データは、例えば、練習者音声データと歌唱練習用データとの隔たりの度合いを数値で示したデータであってもよく、また、隔たりの度合いが予め定められた範囲内である場合に、その練習項目をクリアしたことを示すデータであってもよい。

次いで、ＣＰＵ１１は、評価結果と楽曲特徴データ記憶領域１４ｄに記憶された楽曲特徴データとを対比し、対比結果に応じて、１以上の楽曲を選択し（ステップＳ７８）、選択した楽曲を表示部１５に表示させることによって報知する（ステップＳ７９）。なお、表示の態様は、選択した楽曲の楽曲名や歌いだし部分の歌詞などをリスト表示するようにしてもよい。楽曲の選択方法としては、具体的には、例えば、ＣＰＵ１１は、各練習項目の評価結果に応じて、練習者がクリアした技法が用いられている楽曲を楽曲特徴データを参照して選択する。特に、複数の練習項目について評価を行った場合には、それらの複数の練習項目の評価結果に応じて楽曲を選択するから、練習項目が多いほど的確な推奨（選択）ができる。なお、このとき、練習者が歌唱練習を行った練習項目が少ない場合には、ＣＰＵ１１が追加の練習項目を指示するようにしてもよい。

次いで、ＣＰＵ１１は、選択した楽曲に対応する伴奏データを、伴奏データ記憶領域１４ａから読み出して、伴奏信号を生成する。すなわち、練習者の歌唱レベルにあった楽曲が選択され、選択された楽曲のカラオケ伴奏が再生される。これにより、練習者は、自身の歌唱レベルにあった楽曲の中の好きな曲を選んで歌唱することができる。
以上が練習モード処理の説明である。

なお、本実施形態においては、ＣＰＵ１１は、「通常カラオケモード」や「指導内容表示付カラオケモード」でカラオケ伴奏を行っている最中であっても、操作部１６から出力される操作信号に応じて「練習モード」に移行することが可能となっている。具体的には、例えば、図９に示す「通常カラオケモード」の画面が表示されている状態や、図１０に示す「指導内容表示付カラオケモード」の画面が表示されている状態で、練習者は、操作部１６の上下キーを押下するなどの操作をして、「練習モード」ボタンＢ１を選択する。ＣＰＵ１１は、操作部１６から出力される操作信号に応じて処理モードを「練習モード」に移行する。
練習者は、歌唱している最中に、苦手なフレーズを見つけた場合には、歌唱の途中であっても、「練習モード」に移行して、苦手なフレーズを繰り返し練習することができる。

次に、評価結果反映練習モード処理（図７のステップＳ６の処理）について、図１４に示すフローチャートを参照しつつ以下に説明する。
伴奏データの再生が終了すると、ＣＰＵ１１は、練習者音声データ記憶領域１４ｇに記憶された練習者音声データから、所定時間長のフレーム単位でピッチ、パワー及びスペクトルを検出する（ステップＳ６１）。スペクトルの検出にはＦＦＴ（Fast Fourier Transform）が用いられる。続けて、ＣＰＵ１１は、伴奏データ記憶領域１４ａに記憶された伴奏データと練習者音声データ記憶領域１４ｇに記憶された練習者音声データとを所定のフレーム単位で解析し、練習者音声データと伴奏データとの時間的な対応関係を検出する（ステップＳ６２）。

次に、ＣＰＵ１１は、練習者音声データから算出されたピッチ、パワーおよびスペクトルの時間的な変化のパターンを解析して、この解析結果が予め定められたパターンに対応するか否かを判定し、対応する場合には当該パターンに対応する区間を特定の歌唱技法が用いられている区間として特定する。そして、ＣＰＵ１１は、特定した区間の区間情報を、その歌唱技法を示す種別情報と関連付けて記憶部１４の練習者技法データ記憶領域１４ｉに記憶する（ステップＳ６３）。

ここで、ステップＳ６３に示す、各歌唱技法が用いられている区間の特定処理について以下に説明する。本実施形態においては、ＣＰＵ１１は、「ビブラート」、「しゃくり」、「こぶし」、「ファルセット」、「つっこみ」、「ため」および「息継ぎ」の各歌唱技法が用いられている区間を特定（検出）する。これらのうち、「ビブラート」および「しゃくり」は練習者音声データから算出されたピッチに基づいて検出する。また、「こぶし」および「ファルセット」は練習者音声データから算出されたスペクトルに基づいて検出する。また、「ため」および「つっこみ」は、練習者音声データから算出されたピッチと伴奏データとに基づいて検出する。また、「息継ぎ」は、練習者音声データから算出されたパワーと伴奏データとに基づいて検出する。

ＣＰＵ１１は、練習者音声データと伴奏データとの対応関係と、練習者音声データから算出されたピッチとに基づいて、練習者音声データに含まれる音の開始時刻と当該音に対応する伴奏データの音の開始時刻とが異なる区間を特定する。ここで、ＣＰＵ１１は、練習者音声データのピッチの変化タイミングが伴奏データのピッチの変化タイミングよりも早く現れている区間、すなわち練習者音声データに含まれる音の開始時刻が当該音に対応する伴奏データの音の開始時刻よりも早い区間については、この区間を「つっこみ」の歌唱技法が用いられている区間であると特定する。ＣＰＵ１１は、特定した区間の区間情報を、「つっこみ」を示す識別情報と関連付けて記憶部１４の練習者技法データ記憶領域１４ｉに記憶する。
逆に、ＣＰＵ１１は、練習者音声データと伴奏データとの対応関係と、練習者音声データから算出されたピッチとに基づいて、練習者音声データのピッチの変化タイミングが伴奏データのピッチの変化タイミングよりも遅れて現れている区間、すなわち練習者音声データに含まれる音の開始時刻が当該音に対応する伴奏データの音の開始時刻よりも遅い区間を検出し、検出した区間を「ため」の歌唱技法が用いられている区間であると特定する。

また、ＣＰＵ１１は、練習者音声データから算出したピッチの時間的な変化のパターンを解析して、中心となる周波数の上下に所定の範囲内でピッチが連続的に変動している区間を検出し、検出した区間を「ビブラート」の歌唱技法が用いられている区間であると特定する。

また、ＣＰＵ１１は、練習者音声データから算出したピッチの時間的な変化のパターンを解析して、低いピッチから高いピッチに連続的にピッチが変化する区間を検出し、検出した区間を「しゃくり」の歌唱技法が用いられている区間であると特定する。なお、この処理は、伴奏データとの対応関係に基づいて行うようにしてもよい。すなわち、ＣＰＵ１１は、練習者音声データと伴奏データとの対応関係に基づいて、練習者音声データのピッチが、低いピッチから連続的に伴奏データのピッチに近づいている区間を検出すればよい。

また、ＣＰＵ１１は、練習者音声データと伴奏データとの対応関係と、練習者音声データから算出されたパワーとに基づいて、伴奏データが有音である区間であって練習者音声データのパワー値が所定の閾値よりも小さい区間を検出し、検出した区間を「息継ぎ」の区間であると特定する。

また、ＣＰＵ１１は、練習者音声データから算出されたスペクトルの時間的な変化パターンを解析して、スペクトル特性がその予め決められた変化状態に急激に遷移している区間を検出し、検出した区間を「ファルセット」の歌唱技法が用いられている区間であると特定する。ここで、予め決められた変化状態とは、スペクトル特性の高調波成分が極端に少なくなる状態である。例えば、地声の場合は沢山の高調波成分が含まれるが、ファルセットになると高調波成分の大きさが極端に小さくなる。なお、この場合、ＣＰＵ１１は、ピッチが大幅に上方に変化したかどうかも参照してもよい。ファルセットは地声と同一のピッチを発生する場合でも用いられることもあるが、一般には地声では発声できない高音を発声するときに使われる技法だからである。したがって、音声データのピッチが所定音高以上の場合に限って「ファルセット」の検出をするように構成してもよい。また、男声と女声とでは一般にファルセットを用いる音高の領域が異なるので、音声データの音域や、音声データから検出されるフォルマントによって性別検出を行い、この結果を踏まえてファルセット検出の音高領域を設定してもよい。
また、ＣＰＵ１１は、スペクトル特性の変化の態様が短時間に多様に切り替わる区間を検出し、検出した部分を「こぶし」の歌唱技法が用いられている部分であると特定する。「こぶし」の場合は、短い区間において声色や発声方法を変えて唸るような味わいを付加する歌唱技法であるため、この技法が用いられている区間においてはスペクトル特性が多様に変化するからである。
以上のようにして、ＣＰＵ１１は、練習者音声データから各歌唱技法が用いられている区間を検出し、検出した区間を示す区間情報をその歌唱技法を示す種別情報と関連付けて記憶部１４の練習者技法データ記憶領域１４ｉに記憶する。

次いで、ＣＰＵ１１は、模範音声のスペクトルと練習者音声のスペクトルとに基づいて、練習者音声データの時間軸と模範音声データの時間軸とを合わせ、その時間軸上の位置を同じくする音どうしを対応付けることによって両者の対応箇所を検出する（ステップＳ６４）。
模範音声と練習者音声とは時間的に前後にずれている可能性がある。例えば、練習者が発音タイミングを間違えて歌唱した場合や、または、模範となる歌唱者が歌い始めや歌い終わりを意図的にずらして歌唱した場合などは、模範音声と練習者音声とは時間的に前後にずれている。このように模範音声と練習者音声とが時間的に前後にずれている場合であっても、両者を対応付けられるようにするため、練習者音声データの時間軸を伸縮させる時間正規化（ＤＴＷ：Dynamic Time Warping）を行い、両者の時間軸を合わせる。このＤＴＷを行うための手法としては、この実施形態ではＤＰ（Dynamic Programming：動的計画法）を用いる。具体的には以下のような処理となる。

ＣＰＵ１１は、図１５に示すような座標平面（以下、ＤＰプレーンという）をＲＡＭ１３に形成する。このＤＰプレーンの縦軸は、模範音声データの各フレームのバンドごとのパワーに対応しており、横軸は、練習者音声データの各フレームのバンドごとのパワーに対応している。図１５において、ａ１、ａ２、ａ３・・・ａｎは、模範音声データの各フレームを時間軸に従って並べたものであり、ｂ１、ｂ２、ｂ３・・・ｂｎは、練習者音声データの各フレームを時間軸に従って並べたものである。縦軸のａ１、ａ２、ａ３・・・ａｎの間隔と横軸のｂ１、ｂ２、ｂ３・・・ｂｎの間隔は、いずれもフレームの時間長と対応している。このＤＰプレーンにおける各格子点の各々には、ａ１、ａ２、ａ３・・・の各パラメータと、ｂ１、ｂ２、ｂ３・・・の各パラメータのユークリッド距離を夫々示す値であるＤＰマッチングスコアが対応付けられている。例えば、ａ１とｂ１とにより位置決めされる格子点には、模範音声データの一連のフレームのうち最初のフレームから得たパラメータと練習者音声データの一連のフレームのうち最初のフレームから得たパラメータのユークリッド距離を示す値が対応付けられることになる。ＣＰＵ１１は、このような構造を成すＤＰプレーンを形成した後、ａ１とｂ１とにより位置決めされる格子点（始端）からａｎとｂｎとにより位置決めされる格子点（終端）に至る全経路を探索し、探索した各経路毎に、その始端から終端までの間に辿る各格子点のＤＰマッチングスコアを累算して行き、最小の累算値を求める。このＤＰマッチングスコアの累算値が最も小さくなる経路は、練習者音声データの各フレームの時間軸を模範音声データの時間軸に合わせて伸縮する際における伸縮の尺度として参酌される。

そして、ＣＰＵ１１は、ＤＰマッチングスコアの累算値が最小となる経路をＤＰプレーン上から特定し、特定した経路の内容に応じて練習者音声データの時間軸を伸縮する処理であるアライメント処理を行う。具体的には、ＤＰプレーン上から特定された経路上の各格子点のＤＰマッチングスコアが時間軸上の位置を同じくするフレームから得たパラメータのユークリッド距離を表わすものとなるように、練習者音声データの各フレームのタイムスタンプの内容を書き換えた上で、時間軸上の位置を同じくする各フレームを組として順次対応付けていく。例えば、図１５に示すＤＰプレーン上に記された経路においては、ａ１とｂ１により位置決めされる始点からその右上のａ２とｂ２により位置決めされる格子点に進んでいることが分かる。この場合、ａ２とｂ２のフレームの時間軸上の位置は当初から同じであるので、ｂ２のフレームのタイムスタンプの内容を書き換える必要はない。更に、この経路においては、ａ２とｂ２により位置決めされる格子点からその右のａ２とｂ３により位置決めされる格子点に進んでいることが分かる。この場合、ｂ２のフレームだけでなくｂ３のフレームもａ２のフレームと時間軸上の位置を同じくする必要があるので、ｂ３のフレームと対を成していたタイムスタンプをフレーム一つ分だけ早いものと置き換える。この結果、ａ２のフレームとｂ２及びｂ３のフレームが時間軸上の位置を同じくするフレームの組として対応付けられることになる。このようなタイムスタンプの置き換えとフレームの対応付けがｂ１からｂｎに至る全フレーム区間について行われる。これにより、練習者音声の発音タイミングと模範音声の発音タイミングとがずれていたとしても、合わせられた時間軸上の位置を同じくするフレーム（音素）どうしを対応付けることができる。
以上がＤＰマッチングの仕組みである。

続けて、カラオケ装置１のＣＰＵ１１は、ステップＳ６４で検出した対応箇所に基づいて、模範音声データ記憶領域１４ｆに記憶された模範音声データと練習者音声データ記憶領域１４ｇに記憶された練習者音声データとを比較し、練習者音声データが模範音声データに対して所定量以上の隔たりがある場合は、練習者音声データの該当箇所を修正領域として特定する（ステップＳ６５）。具体的には、ピッチの隔たりを検出する場合は、ＣＰＵ１１は、模範音声データのピッチと練習者音声データのピッチとを、歌詞の文字単位（本実施形態においてはひらがな１文字単位）毎の区間毎に比較して、練習者音声データが模範音声データに対して所定量以上の隔たりが検出された場合には、該練習者音声データの当該箇所を修正領域として特定する。その他の要素、例えばタイミングや技法について同様である。

そして、ＣＰＵ１１は、検出した隔たりの態様と、その隔たりの程度とを示す修正領域データを生成して、記憶部１４の修正領域データ記憶領域１４ｋに記憶する。具体的には、例えば、ＣＰＵ１１は、練習者音声データのピッチが模範音声データのピッチに対して所定量以上の隔たりが検出された場合には、「音高ずれ」を示す修正領域データを生成する。また、例えば、ＣＰＵ１１は、練習者音声データのピッチの変化タイミングが模範音声データのピッチの変化タイミングに対して所定量以上の隔たりが検出された場合には、「タイミングずれ」を示す修正領域データを生成する。
また、ＣＰＵ１１は、模範技法データ記憶領域１４ｈに記憶された模範技法データと、練習者音声データから生成された練習者技法データとを比較し、練習者技法データが模範技法データに対して所定量以上の隔たりがある場合は、練習者技法データの該当箇所を修正領域として特定する。具体的には、例えば、ＣＰＵ１１は、記憶部１４の模範技法データ記憶領域１４ｈに記憶された模範技法データをひとつずつ読み出して、読み出した模範技法データと対応する練習者技法データを練習者技法データ記憶領域１４ｉから検索し、歌詞の文字単位毎の区間を評価区間として、模範技法データの区間情報と練習者技法データの区間情報とが所定量以上隔たっている評価区間を修正領域として特定する。このようにして修正領域を特定することによって、模範音声で歌唱技法が用いられている区間と練習者音声で歌唱技法が用いられている区間とに時間的なずれがある修正領域と特定することができるとともに、また、模範音声で歌唱技法が用いられている区間であって練習者音声で歌唱技法が用いられていない区間についても、この区間を修正領域として特定することができる。

続けて、ＣＰＵ１１は、歌唱練習モードの選択を促す画面を表示する（ステップＳ６６）。図１６は、表示部１５に表示される画面の一例を示す図である。この画面には、「自動選択モード（フレーズ毎に選択）」、「自動選択モード（技法毎に選択）」、「ユーザ選択モード（フレーズ毎に選択）、「ユーザ選択モード（技法毎に選択）」のいずれかを選択するための画面が表示される。練習者は表示部１５に表示された画面を確認して、操作部１６を操作してモードを選択する。操作部１６は操作された内容に応じた操作信号をＣＰＵ１１へ出力し、ＣＰＵ１１は、操作部１６から出力される操作信号に応じて、モードを選択する。

はじめに、「ユーザ選択モード（フレーズ毎に選択）」が選択された場合の動作について説明する。ＣＰＵ１１は、フレーズの選択を促す画面を表示部１５に表示させる。練習者によってフレーズが選択されると、ＣＰＵ１１は、選択されたフレーズについて、ステップＳ６５において特定した修正領域における練習者音声データの模範音声データに対する隔たりの態様に応じて、コメントテーブル記憶領域１４ｊに記憶されたコメントテーブルからコメント文を選択して読み出す。すなわち、ＣＰＵ１１は、生成された修正領域データの修正領域種別を、コメントテーブル記憶領域１４ｊに記憶されたコメントテーブルから検索し、検索されたものと対応する指摘コメントと指導コメントとを選択して読み出す。

次に、カラオケ装置１のＣＰＵ１１は、伴奏データと歌詞データとを、伴奏データ記憶領域１４ａ，歌詞データ記憶領域１４ｂからそれぞれ読み出して表示部１５に表示させるとともに、練習者音声データと模範音声データとを表示部１５に表示させる。また、ＣＰＵ１１は、コメントテーブル記憶領域１４ｊから読み出したコメント文（指摘コメントと指導コメント）を、表示部１５に表示されている歌詞データにおけるステップＳ６５で特定した修正領域に該当する部分に表示させる。

図１７は、カラオケ装置１の表示部１５に表示される画面の一例を示す図である。
カラオケ装置１のＣＰＵ１１は、模範音声データのピッチの時間的な変化を示すグラフＡ１を表示させるとともに、練習者音声データのピッチの時間的な変化を示すグラフＡ２を表示部１５に表示させる。
また、ＣＰＵ１１は、歌詞データ記憶領域１４ｂに記憶された歌詞データを読出し、模範音声データ用の表示列と練習者用の表示列に楽曲の進行に対応するように２列に並べて歌詞Ｗ３，Ｗ４を表示させるとともに、修正領域として特定された箇所については、模範音声データ用と練習者用の歌詞表示の表示態様を異ならせる。具体的には、図１７に示す例においては、「き」の文字の大きさを、他の文字より大きくして表示した様子を示している。
なお、この実施形態においては、文字の大きさを異ならせるようにしたが、これに限らず、例えば、相違箇所に対応する歌詞とそれ以外の箇所に対応する歌詞とをその文字の色を異ならせて表示してもよく、相違箇所に対応する歌詞とそれ以外の箇所に対応する歌詞とを異なる表示態様で表示部１５に表示するものであればどのようなものであってもよい。

さらに、ＣＰＵ１１は、模範技法データの種別情報と区間情報とに基づいて、模範音声において各歌唱技法が用いられている区間と対応する歌詞の文字に対応する位置（図１７においては上方部）に、当該種別情報と対応する歌唱技法を示す図形Ｉ１０〜Ｉ１４を表示させる。また、ＣＰＵ１１は、コメントテーブル記憶領域１４ｊから読み出したコメントＣ１，Ｃ２を、表示されている歌詞の該当部分付近に表示させる。

また、ＣＰＵ１１は、修正領域データに基づいて、練習者音声データと模範音声データとを比較し、その隔たりの度合いに応じて練習者音声データを評価し、その評価結果を示す図形（Ｈ１〜Ｈ９）を表示部１５に表示させることによって、評価結果を報知する。

図１７に示す画面において、練習者は、その修正領域における模範音声または練習者音声を再生する旨を、操作部１６を用いて指示することができる。これは例えば、図１７に示すような、「先生の歌唱を聴く場合はＣを押してください」や、「あなたの歌唱を聴く場合はＤを押してください」といった、操作を促すメッセージＭ１を表示する。
図１７に示す画面においては、練習者は、「指摘箇所を練習する」、「自動で繰り返し練習する」、「先生の歌唱を聴く」、「あなたの歌唱を聴く」、「先生の歌唱とあなたの歌唱を併せて聴く」のいずれかを、操作部１６を用いて選択することができる。練習者によって操作部１６が操作されると、操作部１６は、操作された内容に応じた信号をＣＰＵ１１に出力することによって各処理を指示する。例えば、「指摘箇所を練習する」を選択する操作が行われた場合は、操作部１６は、図１４のステップＳ６５において特定した修正領域から伴奏を開始させることをＣＰＵ１１に指示する。
操作部１６から信号が入力されると、ＣＰＵ１１は、入力された信号に応じた処理を実行する。例えば、「指摘箇所を練習する」旨の信号が入力された場合、すなわち、操作部１６を介して伴奏の開始が指示された場合は、ＣＰＵ１１は、図１４のステップＳ６５において特定した修正領域に対応する伴奏データを伴奏データ記憶領域１４ａから読み出して、伴奏データ信号を生成して音声処理部１８に出力する。音声処理部１８は、供給された信号に応じてスピーカ１９から伴奏音を放音する。
このように、修正領域に対応する伴奏データをカラオケ装置１が再生することによって、練習者は、模範音声と自身の歌唱との相違箇所の歌唱を練習することができる。

一方、「自動で繰り返し練習する」旨の信号が入力された場合は、ＣＰＵ１１は、音声処理部１８を介して、伴奏データのうち修正領域に対応する伴奏データの示す伴奏をスピーカ１９から繰り返し放音させる。「先生の歌唱を聴く」、または「あなたの歌唱を聴く」が選択された場合は、ＣＰＵ１１は、修正領域に対応する模範音声データまたは練習者音声データを、音声処理部１８を介してスピーカ１９から放音させる。「先生の歌唱とあなたの歌唱とを併せて聴く」が選択された場合には、ＣＰＵ１１は、模範音声データと練習者音声データとが示す音声を、音声処理部１８を介してスピーカ１９から放音させる。
練習者は、スピーカ１９から放音される音声を聴くことで、模範音声と自身の音声とを聴き比べることができる。

次に、「ユーザ選択モード（技法毎）」が選択された場合の動作について説明する。「ユーザ選択モード（技法毎）」が選択された場合には、ＣＰＵ１１は、技法を選択するための画面を表示部１５に表示させ、操作部１６が操作されることによって技法が選択されると、選択された技法に対応する歌唱練習用データを歌唱練習用データ記憶領域１４ｅから読み出して音声処理部１８に出力し、音声処理部１８を介してスピーカ１９から放音させる。

次に、「自動選択メニュー（技法毎）」が選択された場合の動作について説明する。
「自動選択メニュー」が選択されると、ＣＰＵ１１は、修正領域データに基づいて、練習者音声データと模範音声データとを、技法（練習項目）毎に比較し、その隔たりの度合いに応じて、練習者音声データに対する練習項目毎に練習項目別評価結果を生成する。次いで、ＣＰＵ１１は、その評価結果が予め定められたレベルより低い練習項目について、当該練習項目に対応する歌唱練習用データを歌唱練習用データ記憶領域１４ｅから読み出して、音声処理部１８に出力する。
音声処理部１８は、供給される歌唱練習用データをアナログ信号に変換してスピーカ１９に出力し、スピーカ１９は供給されるアナログ信号に応じた大きさで放音する。
なお、このとき、ＣＰＵ１１は、「あなたが苦手な歌唱技法は「○○」です。音を参考にして歌唱練習を行ってください」という旨のメッセージを表示部１５に表示させてもよい。練習者は、放音される音を聴きながら歌唱練習を行う。

一方、「自動選択メニュー（フレーズ毎）」が選択された場合には、ＣＰＵ１１は、フレーズ毎に修正領域データの統計をとって、その評価結果が予め定められた閾値以下であるフレーズを選択する。次いで、ＣＰＵ１１は、選択したフレーズを練習するための処理を行う。なお、この処理は、上述した「ユーザ選択モード（フレーズ毎）」が選択された場合に行う処理と同様であり、ここではその説明を省略する。
なお、ＣＰＵ１１が選択するフレーズは１つであってもよく、また、複数であってもよい。複数の場合は、選択したフレーズについて順番に歌唱練習を行わせて、評価結果が予め定められた範囲内に達した場合に、次のフレーズの歌唱練習に移行するようにしてもよい。

このように、「自動練習メニュー（フレーズ毎／技法毎）」が選択された場合には、ＣＰＵ１１は、楽曲の歌唱について評価が悪い箇所を選択し、選択した箇所に対応した練習モードに移行する。これにより、練習者は、自身が不得意な箇所について歌唱練習を行うことができる。

＜Ｃ：変形例＞
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。
（１）上述した実施形態においては、歌唱練習機能を備えたカラオケ装置１を例に挙げて説明したが、上述したカラオケ装置１の歌唱練習機能部分を切り出して単体の装置として構成してもよい。具体的には、図１１に示した歌唱練習モードの動作に係る構成を備えた歌唱練習装置であってもよい。

（２）上述した実施形態では、「練習モード」として、「発声練習メニュー」と「フレーズ毎練習メニュー」と「技法毎練習メニュー」との３種類のメニューからいずれかを選択するようになっていた。練習メニューはこれらに限定されるものではなく、例えば、音程の練習や早口言葉の練習、ボイストレーニングの練習などの練習メニューであってもよい。この場合も、それぞれの練習メニューに対応する歌唱練習用データを歌唱練習用データ記憶領域１４ｅに記憶させておき、練習者が操作部１６を操作することによって練習メニューを選択すると、ＣＰＵ１１は、操作部１６からの操作信号に応じて選択されたメニューに対応する歌唱練習用データを歌唱練習用データ記憶領域１４ｅから読み出して音声処理部１８に出力する。

（３）なお、本実施形態においては、表示部１５に表示させることによって評価結果や楽曲を報知しているが、評価結果や楽曲の報知手段はこれに限らず、例えば音声メッセージを放音することによって報知してもよく、また、報知結果又は楽曲を示すデータを含む電子メールを練習者のコンピュータ装置に送信することによって報知してもよく、評価結果や楽曲を報知する手段であればどのようなものであってもよい。

（４）上述した実施形態では、模範技法データを予め模範技法データ記憶領域１４ｈに記憶させておいたが、これに代えて、カラオケ装置１のＣＰＵ１１が模範音声データから模範技法データを生成してもよい。この場合は、カラオケ装置１のＣＰＵ１１は、上述した練習者音声データから歌唱技法を抽出した処理と同様の処理を、模範音声データに対して行って、模範音声データから模範技法データを生成する。

（５）上述した実施形態においては、模範音声データを模範音声データ記憶領域１４ｆに記憶させて、カラオケ装置１のＣＰＵ１１が記憶部１４から模範音声データを読み出すようにしたが、これに代えて、通信ネットワークを介して模範音声データを受信するようにしてもよい。
また、上述した実施形態では、マイクロフォン１７で練習者の音声を収音して音声処理部１８が練習者音声データを生成するようにしたが、これに代えて、通信ネットワークを介して練習者音声データを受信するようにしてもよく、または、ＵＳＢ（Universal Serial Bus）等のインタフェースを介して練習者音声データを入力するようにしてもよい。要するに、カラオケ装置のＣＰＵに練習者音声データを入力するものであればどのようなものであってもよい。

（６）上述した実施形態においては、歌唱技法として「ビブラート」や「ため」等を用いたが、歌唱技法は上述した実施形態において示したものに限定されるものではなく、例えば、スタッカートやクレッシェンド（デクレッシェンド）等であってもよい。具体的には、音声データから検出したパワーがある短い一定期間の間だけ強く現れる区間をスタッカートとして検出するようにしてもよい。また、パワーデータ値が連続的に徐々に大きくなる（小さくなる）区間をクレッシェンド（デクレッシェンド）として検出するようにしてもよい。要するに、音声データから算出されたピッチやスペクトル、パワーの時間的な変化のパターンを解析して、この解析結果が予め定められたパターンに対応するか否かを判定し、対応する場合には当該パターンに対応する区間を特定の技法が用いられている区間として特定すればよい。

（７）上述した実施形態では、評価結果データの生成方法として、歌唱練習用データと練習者音声データとを、両者のピッチや発音タイミングの隔たりの度合いに応じて練習者音声データを評価するようにした。評価方法はこれに限らず、例えば、練習者音声データの音声の大きさ（パワー）や音程の繊巧の度合いなどを歌唱練習用データとどの程度異なっているかによって評価してもよい。

（８）上述した実施形態では、カラオケ装置１が、本実施形態に係る機能の全てを実現するようになっていた。これに対し、通信ネットワークで接続された２以上の装置が上記機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態のカラオケ装置１を実現するようにしてもよい。例えば、マイクロフォンやスピーカ、表示装置及び入力装置を備えるコンピュータ装置と、評価機能や楽曲選択機能などの本実施形態に係る機能を実現するサーバ装置とが通信ネットワークで接続されたシステムとして構成されていてもよい。この場合は、コンピュータ装置が、マイクロフォンから入力された音声を音声データに変換してサーバ装置に送信し、サーバ装置が、受信した音声データと模範音声データに基づいて比較処理や評価処理、楽曲選択処理などの本実施形態に係る処理を実行し、評価結果や選択した楽曲を示すデータをコンピュータ装置に送信するようにすればよい。

（９）上述した実施形態におけるカラオケ装置１のＣＰＵ１１によって実行されるプログラムは、磁気テープ、磁気ディスク、フレキシブルディスク、光記録媒体、光磁気記録媒体、ＣＤ（Compact Disk）−ＲＯＭ、ＤＶＤ（Digital Versatile Disk）、ＲＡＭなどの記録媒体に記憶した状態で提供し得る。また、インターネットのようなネットワーク経由でカラオケ装置１にダウンロードさせることも可能である。

カラオケ装置のハードウェア構成の一例を示すブロック図である。楽曲特徴データの内容の一例を示す図である。歌唱練習用データの内容の一例を示す図である。模範技法データの内容の一例を示す図である。コメントテーブルの内容の一例を示す図である。修正領域データの内容の一例を示す図である。カラオケ装置が行う処理の流れを示すフローチャートである。表示部１５に表示される画面の一例を示す図である。表示部１５に表示される画面の一例を示す図である。表示部１５に表示される画面の一例を示す図である。カラオケ装置が行う処理の流れを示すフローチャートである。表示部１５に表示される画面の一例を示す図である。表示部１５に表示される画面の一例を示す図である。カラオケ装置が行う処理の流れを示すフローチャートである。ＤＰマッチングを示す図である。表示部１５に表示される画面の一例を示す図である。表示部１５に表示される画面の一例を示す図である。

符号の説明

１…カラオケ装置、１１…ＣＰＵ、１２…ＲＯＭ、１３…ＲＡＭ、１４…記憶部、１５…表示部、１６…操作部、１７…マイクロフォン、１８…音声処理部、１９…スピーカ。

Claims

歌唱練習において模範となる音声を表す歌唱練習用データが予め定められた項目に分類されて記憶された歌唱練習用データ記憶手段と、
前記項目内の前記歌唱練習用データを選択する歌唱練習用データ選択手段と、
練習者の音声を表す練習者音声データと前記歌唱練習用データ選択手段によって選択された歌唱練習用データとを比較し、該比較結果に応じて前記練習者音声データに対する評価結果を生成する練習者音声データ評価手段と、
前記練習者音声データ評価手段による前記評価結果を報知する評価結果報知手段と
を備えることを特徴とする歌唱練習装置。
複数の楽曲を識別する楽曲識別情報と当該楽曲の歌唱における特徴を表す楽曲特徴データとを関連付けて記憶する楽曲特徴データ記憶手段と、
前記練習者音声データ評価手段による評価結果と前記楽曲特徴データ記憶手段に記憶された楽曲特徴データとを対比し、該対比結果に応じて、前記複数の楽曲から１以上の楽曲を選択する楽曲選択手段と、
前記楽曲選択手段により選択された楽曲を報知する楽曲報知手段と
を備えることを特徴とする請求項１に記載の歌唱練習装置。
前記複数の楽曲について、各楽曲の伴奏楽音を構成する伴奏データを記憶する伴奏データ記憶手段と、
前記楽曲選択手段により選択された楽曲に対応する伴奏データを、前記伴奏データ記憶手段から読み出して、伴奏信号を生成する伴奏信号生成手段と
を備えることを特徴とする請求項２に記載の歌唱練習装置。
楽曲の歌唱パートを構成し、模範となる歌唱音声を表す模範音声データを記憶する模範音声データ記憶手段と、
前記練習者音声データと前記模範音声データ記憶手段に記憶された模範音声データとを、楽曲の進行に沿って前記項目毎に比較し、その隔たりの度合いに応じて、前記練習者音声データに対する前記項目毎に項目別評価結果を生成する楽曲評価手段と、
前記楽曲評価手段による前記項目別評価結果が予め定められたレベルより低い項目について、当該項目に対応する歌唱練習用データを前記歌唱練習用データ記憶手段から読み出して出力する歌唱練習用データ出力手段と
を備えることを特徴とする請求項１又は２に記載の歌唱練習装置。
楽曲の歌唱パートを構成し、模範となる歌唱音声を表す模範音声データを記憶する模範音声データ記憶手段と、
前記楽曲の歌詞を示す歌詞データを記憶する歌詞データ記憶手段と、
前記練習者音声データと前記模範音声データ記憶手段に記憶された模範音声データとを楽曲の進行に沿って比較し、前記練習者音声データが前記模範音声データに対して所定量以上の隔たりがある箇所を特定する相違箇所特定手段と、
前記歌詞データ記憶手段に記憶された歌詞データを読み出し、前記模範音声データ用の表示列と前記練習者用の表示列に楽曲の進行に対応するように２列に並べて表示装置に表示させるとともに、前記相違箇所特定手段により特定された箇所については、前記模範音声データ用と前記練習者用の歌詞データ表示の表示態様を異ならせる表示制御手段と
を備えることを特徴とする請求項１又は２に記載の歌唱練習装置。
歌唱練習において模範となる音声を表す歌唱練習用データが予め定められた項目に分類されて記憶された歌唱練習用データ記憶手段と、
前記項目内の前記歌唱練習用データを選択する歌唱練習用データ選択手段と、
練習者の音声を表す練習者音声データと前記歌唱練習用データ選択手段によって選択された歌唱練習用データとを比較し、該比較結果に応じて前記練習者音声データに対する評価結果を生成する練習者音声データ評価手段と、
複数の楽曲を識別する楽曲識別情報と当該楽曲の歌唱における特徴を表す楽曲特徴データとを関連付けて記憶する楽曲特徴データ記憶手段と、
前記練習者音声データ評価手段による評価結果と前記楽曲特徴データ記憶手段に記憶された楽曲特徴データとを対比し、該対比結果に応じて、前記複数の楽曲から１以上の楽曲を選択する楽曲選択手段と、
前記複数の楽曲について、各楽曲の伴奏楽音を構成する伴奏データを記憶する伴奏データ記憶手段と、
前記楽曲選択手段により選択された楽曲に対応する伴奏データを、前記伴奏データ記憶手段から読み出して、伴奏信号を生成する伴奏信号生成手段と
を備えることを特徴とするカラオケ装置。
歌唱練習において模範となる音声を表す歌唱練習用データが予め定められた項目に分類されて記憶された歌唱練習用データ記憶手段を備えるコンピュータに、
前記項目内の前記歌唱練習用データを選択する練習用データ選択機能と、
練習者の音声を表す練習者音声データと前記練習用データ選択機能により選択した歌唱練習用データとを比較し、該比較結果に応じて前記練習者音声データに対する評価結果を生成する練習者音声データ評価機能と、
前記練習者音声データ評価機能による前記評価結果を示す評価結果データを出力する出力機能と
を実現させるプログラム。
歌唱練習において模範となる音声を表す歌唱練習用データが予め定められた項目に分類されて記憶された歌唱練習用データ記憶手段と、複数の楽曲を識別する楽曲識別情報と当該楽曲の歌唱における特徴を表す楽曲特徴データとを関連付けて記憶する楽曲特徴データ記憶手段とを備えるコンピュータに、
前記項目内の前記歌唱練習用データを選択する練習用データ選択機能と、
練習者の音声を表す練習者音声データと前記練習用データ選択機能により選択した歌唱練習用データとを比較し、該比較結果に応じて前記練習者音声データに対する評価結果を生成する練習者音声データ評価機能と、
前記練習者音声データ評価機能による前記評価結果を示す評価結果データを出力する第１の出力機能と
前記練習者音声データ評価機能による評価結果と前記楽曲特徴データ記憶手段に記憶された楽曲特徴データとを対比し、該対比結果に応じて、前記複数の楽曲から１以上の楽曲を選択する楽曲選択機能と、
前記楽曲選択機能により選択された楽曲を示すデータを出力する第２の出力機能と
を実現させるプログラム。
コンピュータに、
前記複数の楽曲について各楽曲の伴奏楽音を構成する伴奏データを記憶する伴奏データ記憶手段から、前記楽曲選択機能により選択した楽曲に対応する伴奏データを読み出して、伴奏信号を生成する伴奏信号生成機能を更に実現させる請求項８に記載のプログラム。
コンピュータに、
楽曲の歌唱パートを構成し、模範となる歌唱音声を表す模範音声データを記憶する模範音声データ記憶手段に記憶された模範音声データと前記練習者音声データとを、楽曲の進行に沿って前記項目毎に比較し、その隔たりの度合いに応じて、前記練習者音声データに対する前記項目毎に項目別評価結果を生成する楽曲評価機能と、
前記楽曲評価機能による前記項目別評価結果が予め定められたレベルより低い項目について、当該項目に対応する歌唱練習用データを前記歌唱練習用データ記憶手段から読み出して出力する歌唱練習用データ出力機能と
を更に実現する請求項７又は８に記載のプログラム。
楽曲の歌唱パートを構成し、模範となる歌唱音声を表す模範音声データを記憶する模範音声データ記憶手段と、前記楽曲の歌詞を示す歌詞データを記憶する歌詞データ記憶手段とを備えるコンピュータに、
前記練習者音声データと前記模範音声データ記憶手段に記憶された模範音声データとを楽曲の進行に沿って比較し、前記練習者音声データが前記模範音声データに対して所定量以上の隔たりがある箇所を特定する相違箇所特定機能と、
前記歌詞データ記憶手段に記憶された歌詞データを読み出し、前記模範音声データ用の表示列と前記練習者用の表示列に楽曲の進行に対応するように２列に並べて表示装置に表示させるとともに、前記相違箇所特定機能により特定した箇所については、前記模範音声データ用と前記練習者用の歌詞データ表示の表示態様を異ならせる表示制御機能と
を更に実現する請求項７又は８に記載のプログラム。