JP2007322933A

JP2007322933A - 指導装置、指導用データ製作装置及びプログラム

Info

Publication number: JP2007322933A
Application number: JP2006155296A
Authority: JP
Inventors: Shingo Kamiya; 伸吾神谷
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2006-06-02
Filing date: 2006-06-02
Publication date: 2007-12-13
Anticipated expiration: 2026-06-02
Also published as: JP4839967B2

Abstract

【課題】歌唱者の歌唱方法を練習者に分かりやすく伝えることのできる技術を提供する。
【解決手段】カラオケ装置１の記憶部１４には、発音タイミングが時系列に連なる複数の音素（歌詞を構成するそれぞれの語）の発音タイミングを表す楽譜音データと、模範となる歌唱音声を表す模範音データとが記憶されている。カラオケ装置１の制御部１１は、記憶部１４に記憶されている楽譜音データと模範音データとを音素単位で対応付ける。次いで、制御部１１は、対応付け結果に基づいて、楽譜音データが表す各音素の発音タイミングを、模範音データが表す音素の発音タイミングに変換して、加工楽譜音データを生成する。そして、制御部１１は、楽譜音データが表す音素の発音区間と加工楽譜音データが表す音素の発音区間とを、同一の時間軸に対応させて表示部１５に表示する。
【選択図】図１

Description

本発明は、指導装置、指導用データ製作装置及びプログラムに関する。

歌唱や楽器演奏の指導においては、模範となる歌唱者（又は演奏者）が手本を示し、それに似せて歌唱（又は演奏）を行わせるといった指導が行われている。例えば、特許文献１には、ユーザの演奏と手本の演奏との差をユーザに分かりやすく伝えるために、ユーザ演奏表示と手本の演奏表示とを、それぞれのノートナンバおよびベロシティに応じた表示図形でそれぞれのノートナンバおよび発生タイミングに応じた位置に表示する方法が提案されている。
特開２００２−９１２９０号公報

ところで、歌手のように熟練した歌唱者は、楽譜に沿って機械的に歌を歌うことはほとんどなく、その多くが、歌い始めや歌い終わりを意図的にずらしたり、ビブラートやこぶし等の歌唱技法を用いたりして歌のなかに情感を表現する。歌唱を練習する者は、このような意図的なタイミングのずれや歌唱技法を真似て歌いたいという要望をもつ者が少なくない。
しかしながら、従来の歌唱指導装置においては、このような歌唱者の意図的な歌唱方法を分かりやすく練習者に伝えることができなかった。これは楽器の演奏についても同様である。
本発明は上述した背景の下になされたものであり、歌唱者の歌唱方法（又は演奏者の演奏方法）を練習者に分かりやすく伝えることのできる技術を提供することを目的とする。

本発明の好適な態様である指導装置は、発音タイミングが時系列に連なる複数の音素の発音タイミングを表す楽譜音データを記憶する第１の記憶手段と、模範となる音を表す模範音データを記憶する第２の記憶手段と、前記第２の記憶手段によって記憶されている模範音データを音素毎に区切り、前記第１の記憶手段によって記憶されている楽譜音データと音素単位で対応付ける対応付け手段と、前記対応付け手段による対応付け結果に基づいて、前記楽譜音データが表す各音素の発音タイミングを、前記模範音データが表す音素の発音タイミングに変換して、加工楽譜音データを生成する加工楽譜音データ生成手段と、前記楽譜音データと加工楽譜音データ生成手段により生成された加工楽譜音データとを出力する出力手段とを備える。
この態様において、前記出力手段は、前記楽譜音データが表す音素の発音区間と前記加工楽譜音データが表す音素の発音区間とを、同一の時間軸に対応させて表示手段に表示してもよい。
この態様において、前記模範音データから、当該模範音データのピッチ、スペクトル及びパワーのうちの少なくともいずれか一つを示す音分析データを生成する音分析データ生成手段と、前記音分析データ生成手段により生成された音分析データの時間的な変化のパターンを解析して、この解析結果が予め定められたパターンに対応するか否かを判定し、対応する場合には当該パターンに対応する区間を特定の技法が用いられている区間として特定する技法区間特定手段とを備え、前記出力手段は、前記加工楽譜音データが表す音素の発音区間のうち、前記技法区間特定手段によって特定された区間に対応する部分の表示態様を、それ以外の区間の表示態様と異ならせて前記表示手段に表示してもよい。
この態様において、前記音分析データ生成手段は、前記模範音データからピッチを示す音分析データを生成し、前記技法区間特定手段は、前記音分析データ生成手段により生成された音分析データの示すピッチの時間的な変化のパターンを解析して、低いピッチから高いピッチに連続的に変化する区間を特定し、前記出力手段は、前記加工楽譜音データが表す音素の発音区間のうち、前記技法特定手段によって特定された区間に対応する部分の表示態様を、当該区間のピッチ変化を表す表示態様にして前記表示手段に表示してもよい。

本発明によれば、歌唱者の歌唱方法（又は演奏者の演奏方法）を練習者に分かりやすく伝えることができる。

次に、この発明を実施するための最良の形態を説明する。
＜Ａ：構成＞
図１は、この発明の一実施形態であるカラオケ装置１のハードウェア構成を示したブロック図である。このカラオケ装置１は、カラオケ伴奏を再生するカラオケ機能を備えるとともに、練習者に歌唱指導を行うための歌唱の指導装置としても機能する。図において、ＣＰＵ（Central Processing Unit）１１は、ＲＯＭ（Read Only Memory）１２又は記憶部１４に記憶されているコンピュータプログラムを読み出してＲＡＭ（Random Access Memory）１３にロードし、これを実行することにより、カラオケ装置１の各部を制御する。記憶部１４は、例えばハードディスクなどの大容量の記憶手段であり、伴奏データ記憶領域１４ａと、楽譜音データ記憶領域１４ｂと、模範音データ記憶領域１４ｃと、模範技法データ記憶領域１４ｄとを有している。表示部１５は、例えば液晶ディスプレイなどであり、ＣＰＵ１１の制御の下で、カラオケ装置１を操作するためのメニュー画面や、背景画像に歌詞テロップが重ねられたカラオケ画面などの各種画面を表示する。操作部１６は、テンキーや上下キー、演奏開始キーなどの各種のキーを備えており、押下されたキーに対応した操作信号をＣＰＵ１１へ出力する。マイクロフォン１７は、練習者が発声した音声を収音し、音声信号（アナログデータ）を出力する。音声処理部１８は、マイクロフォン１７が出力する音声信号（アナログデータ）をデジタルデータに変換してＣＰＵ１１に出力する。スピーカ１９は、音声処理部１８から出力される音声信号に応じた強度で放音する。

記憶部１４の伴奏データ記憶領域１４ａには、楽曲の伴奏を行う各種楽器の演奏音が楽曲の進行に伴って記された伴奏データが、楽曲に割り当てられた楽曲ＩＤに関連付けられて記憶されている。伴奏データは、例えばＭＩＤＩ（Musical Instruments Digital Interface）形式などのデータ形式であり、練習者がカラオケ歌唱する際に再生される。
楽譜音データ記憶領域１４ｂには、発音タイミングが時系列に連なる複数の音素（歌詞を構成するそれぞれの語）の発音タイミングを表す楽譜音データが記憶されている。この楽譜音データのデータ形式は、ＭＩＤＩ形式などのデータ形式である。

模範音データ記憶領域１４ｃには、例えばＷＡＶＥ形式やＭＰ３（MPEG1 Audio Layer-3）形式などの音声データであって、伴奏データによって表される伴奏に従って歌唱者が歌唱した模範となる歌唱音声（以下、模範音声）を表す音声データ（以下、模範音データ）が記憶されている。

模範技法データ記憶領域１４ｄには、模範音データ記憶領域１４ｃに記憶された模範音データの表す模範となる歌唱音声に用いられている歌唱技法の種類とタイミングとを示すデータ（以下、「模範技法データ」）が記憶される。
図２は、模範技法データの内容の一例を示す図である。図示のように、模範技法データは、「区間情報」と「技法種別」との各項目が互いに関連付けられている。これらの項目のうち、「区間情報」の項目には、模範音データにおいて歌唱技法が用いられた区間を示す情報が記憶される。なお、この区間情報が示す区間は、開始時刻情報と終了時刻情報とによって表される時間幅を有した区間であってもよく、また、ある１点の時刻を示すものであってもよい。
「技法種別」の項目には、例えば「ビブラート」、「しゃくり」、「こぶし」、「ファルセット」、「つっこみ」、「ため」、「息継ぎ」などの歌唱の技法を識別する識別情報が記憶される。「ビブラート」は、音の高さをほんのわずかに連続的に上下させ、震えるような音色を出すという技法である。「しゃくり」は、目的の音より低い音から発音し、音程を滑らかに目的の音に近づけていくという技法である。「こぶし」は、装飾的に加える、うねるような節回しを行うという技法である。「ファルセット」は、いわゆる「裏声」で歌うという技法である。「つっこみ」は、歌い出しを本来のタイミングよりも早いタイミングにするという技法である。「ため」は、歌い出しを本来のタイミングよりも遅いタイミングにするという技法である。「息継ぎ」は、練習者が息継ぎをするタイミングを意味する。

＜Ｂ：動作＞
＜Ｂ−１：動作例１＞
次に、図３に示すフローチャートを参照しつつ、カラオケ装置１の動作を説明する。
練習者は、カラオケ装置１の操作部１６を操作して、歌唱したい楽曲を選定する操作を行う。操作部１６は操作された内容に応じた操作信号をＣＰＵ１１へ出力し、ＣＰＵ１１は、操作部１６から出力される操作信号に応じて、楽曲を選定する。ＣＰＵ１１は、選定した楽曲に対応する模範音データを模範音データ記憶領域１４ｃから読み出し、読み出した模範音声データから、所定時間長のフレーム単位でピッチ及びスペクトルを検出し、検出したピッチ、スペクトルを示す音分析データを生成する（ステップＳ１）。スペクトルの検出にはＦＦＴ（Fast Fourier Transform）が用いられる。続けて、ＣＰＵ１１は、模範音データのスペクトルと楽譜音データとに基づいて、模範音データに含まれる音素（語）と楽譜音データに含まれる音素（語）との対応関係（対応箇所）を求める（ステップＳ２）。すなわち、ＣＰＵ１１は、模範音データを音素毎に区切り、模範音データと楽譜音データとを音素単位で対応付ける。

模範音声データの各音素の発音タイミングと楽譜音データの各音素の発音タイミングとは時間的に前後にずれている可能性がある。具体的には、例えば、模範となる歌唱者が歌い始めや歌い終わりを意図的にずらして歌唱した場合には、模範音声と楽譜音とは時間的に前後にずれている。このように模範音声と楽譜音とが時間的に前後にずれている場合であっても、両者を対応付けられるようにするため、音声認識技術を用いて模範音データにおける歌詞（音素）の発音タイミングを特定する。なお、音声認識技術に限らず、模範音データにおける各音素の発音タイミングは、予め手動で切っておき、音素と発音タイミングを対応付けて記憶しておいたものを使用してもよい。
図４において、波形Ｇ１は、模範音データの表す音声を示す波形であり、実線Ｇ２１〜Ｇ２８は、楽譜音データの表す音素毎のピッチと発音タイミングとを示すものである。図において、例えば、歌詞の「た」に対応する音素の発音開始タイミングと発音終了タイミングとは、模範音声と楽譜音とで時間的に前後にずれていることがわかる。このように、模範音声の発音タイミングが楽譜音の発音タイミングとずれていたとしても、音声認識を行うことにより、一方の音データの時間軸を他方の音データの時間軸に合わせて伸縮し、その伸縮によって合わせられた時間軸上の位置を同じくする音素どうしを対応付けることができる。

次いで、ＣＰＵ１１は、ステップＳ２の対応付け結果に基づいて、楽譜音データが表す各音素の発音タイミングを、模範音データが表す音素の発音タイミングに変換して、加工楽譜音データを生成する（ステップＳ３）。次いで、ＣＰＵ１１は、楽譜音データとステップＳ３で生成した加工楽譜音データとを表示部１５に出力することによって、楽譜音データが表す音素の発音区間と加工楽譜音データが表す音素の発音区間とを、同一の時間軸に対応させて表示部１５に表示させる（ステップＳ４）。
図５は、ステップＳ４において表示部１５に表示される画面の一例を示す図である。図において、実線Ｇ２１〜Ｇ２８（以下、「実線Ｇ２」と称する）は楽譜音データが表す音素の発音区間を示すものであり、実線Ｇ３１〜Ｇ３８（以下、「実線Ｇ３」と称する）は、加工楽譜音データが表す音素の発音区間を示すものである。なお、図５に示す例においては、参考のために模範音データの波形Ｇ１も示しているが、この波形Ｇ１は表示されなくてもよい。
実線Ｇ２と実線Ｇ３とにおいて、縦軸はピッチの高低を示し、横軸は時刻を示している。ＣＰＵ１１は、実線Ｇ２と実線Ｇとを同一の時間軸に対応させて表示部１５に表示させる。すなわち、実線Ｇ２と実線Ｇ３とによって、楽譜音と加工楽譜音とのそれぞれに含まれる音素のピッチと発音タイミング（発音開始タイミングと発音終了タイミング）とが表現されている。また、実線Ｇ２と実線Ｇ３は、音素毎の区切り位置で区切られて表示される。

模範となる歌唱者が歌い出しを本来のタイミングよりも早いタイミングにするいわゆる「つっこみ」という技法や、歌い出しを本来のタイミングよりも遅いタイミングにするいわゆる「ため」という技法を用いた場合、練習者は、楽譜音を表す実線Ｇ２を見ても、模範となる歌唱者が発音タイミングをずらしている箇所を把握することはできない。また、波形Ｇ１に示すような模範音声の波形を見たとしても、波形から利用者が発音タイミングを把握することは困難であることが多い。これに対し、本実施形態においては、実線Ｇ３によって示される音素の発音タイミングは模範音声の音素の発音タイミングであるから、練習者は、表示部１５に表示される画面を見ることで、模範音声の発音タイミングを把握することが容易になる。さらに練習者の音程カーブを重ねて表示することで模範音声に対する発音タイミングの遅れ進みを表現することができる。

＜Ｂ−２：動作例２＞
次に、この実施形態の第２の動作例について、図６に示すフローチャートを参照しつつ以下に説明する。なお、図６に示すフローチャートにおいて、ステップＳ１，ステップＳ２に示す処理は、図３に示したそれと同様であり、ここではその説明を省略する。
模範音データと楽譜音データとの対応関係を求める（ステップＳ２）と、次いで、ＣＰＵ１１は、「しゃくり」の技法が用いられている区間を、模範音データから検出されたピッチに基づいて特定する。そして、ＣＰＵ１１は、特定した区間の区間情報を、その歌唱技法を示す種別情報と関連付けて記憶部１４の模範技法データ記憶領域１４ｄに記憶する（ステップＳ１３）。より詳細には、ＣＰＵ１１は、模範音データから算出したピッチの時間的な変化のパターンを解析して、低いピッチから高いピッチに連続的にピッチが変化する区間を検出し、検出した区間を「しゃくり」の歌唱技法が用いられている区間であると特定する。このとき、ＣＰＵ１１は、特定した区間の始めのピッチと終わりのピッチとを示すピッチデータを、「しゃくり」を示す種別情報と特定した区間の区間情報とに関連付けて模範技法データ記憶領域１４ｄに記憶する。
この具体例について、図７を参照しつつ説明する。図７において、曲線Ｇ４は模範音声のピッチを表すグラフである。ＣＰＵ１１がステップＳ１３の処理を実行することによって、曲線Ｇ４の区間ｋ１，ｋ２，ｋ３が、「しゃくり」の技法が用いられている区間であると特定される。
なお、この処理は、楽譜音データとの対応関係に基づいて行うようにしてもよい。すなわち、ＣＰＵ１１は、模範音データとすでに作成したＧ３との対応関係に基づいて、模範音データのピッチが、低いピッチから連続的に楽譜音データのピッチに近づいている区間を検出すればよい。

次いで、ＣＰＵ１１は、ステップＳ２の対応付け結果に基づいて、楽譜音データが表す各音素の発音タイミングを、模範音データが表す音素の発音タイミングに変換して、加工楽譜音データを生成する（ステップＳ１４）。なお、この処理は、上述した図３のステップＳ３の処理と同様である。

次いで、ＣＰＵ１１は、楽譜音データとステップＳ１４で生成した加工楽譜音データとを表示部１５に出力することによって、楽譜音データが表す各音素の発音区間と加工楽譜音データが表す音素の発音区間とを、同一の時間軸に対応させて表示部１５に表示させる。（ステップＳ１５）。このとき、ＣＰＵ１１は、ステップＳ１４の処理により記憶部１４の模範技法データ記憶領域１４ｄに記憶された模範技法データを参照して、加工楽譜音データが表す音素の発音区間のうち、「しゃくり」の技法が用いられている区間に対応する部分の表示態様を、当該区間のピッチ変化を表す表示態様にして表示部１５に表示させる。
図８は、ステップＳ１５において表示部１５に表示される画面の一例を示す図である。図において、Ｇ３１〜Ｇ３８はステップＳ１４で作成したものであり、点線Ｇ３１Ａ〜Ｇ３８Ａは、加工楽譜音データを表すものである。ＣＰＵ１１は、点線Ｇ３１Ａ〜Ｇ３８Ａにおいて「しゃくり」の技法が用いられている区間ｋ１，ｋ２，ｋ３に対応する部分を、その区間のピッチ変化を示す形状で表示している。具体的には、例えば、区間ｋ１においては、開始時刻のピッチｐ１から終了時刻のピッチｐ２までピッチ変化が示されている。
練習者は、表示部１５に表示される画面を見ることで、どのタイミングで「しゃくり」の技法が用いられているかを把握することが容易になる。

＜Ｃ：変形例＞
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。
（１）上述した第２の動作例では、ＣＰＵ１１は、模範音データから「しゃくり」の技法が用いられている区間を抽出した。抽出する技法は「しゃくり」に限らず、例えば、「ビブラート」、「こぶし」、「ファルセット」、「息継ぎ」、「スタッカート」、「クレッシェンド（デクレッシェンド）」などであってもよい。
具体的には、ＣＰＵ１１は、模範音データから算出したピッチの時間的な変化のパターンを解析して、中心となる周波数の上下に所定の範囲内でピッチが連続的に変動している区間を検出し、検出した区間を「ビブラート」の歌唱技法が用いられている区間であると特定する。
また、ＣＰＵ１１は、模範音データと楽譜音データとの対応関係と、模範音データから算出されたパワーとに基づいて、楽譜音データが有音である区間であって模範音データのパワー値が所定の閾値よりも小さい区間を検出し、検出した区間を「息継ぎ」の区間であると特定する。
また、ＣＰＵ１１は、模範音データから算出されたスペクトルの時間的な変化パターンを解析して、スペクトル特性がその予め決められた変化状態に急激に遷移している区間を検出し、検出した区間を「ファルセット」の歌唱技法が用いられている区間であると特定する。ここで、予め決められた変化状態とは、スペクトル特性の高調波成分が極端に少なくなる状態である。例えば、地声の場合は沢山の高調波成分が含まれるが、ファルセットになると高調波成分の大きさが極端に小さくなる。なお、この場合、ＣＰＵ１１は、ピッチが大幅に上方に変化したかどうかも参照してもよい。ファルセットは地声と同一のピッチを発生する場合でも用いられることもあるが、一般には地声では発声できない高音を発声するときに使われる技法だからである。したがって、音声データのピッチが所定音高以上の場合に限って「ファルセット」の検出をするように構成してもよい。また、男声と女声とでは一般にファルセットを用いる音高の領域が異なるので、音声データの音域や、音声データから検出されるフォルマントによって性別検出を行い、この結果を踏まえてファルセット検出の音高領域を設定してもよい。
また、ＣＰＵ１１は、スペクトル特性の変化の態様が短時間に多様に切り替わる区間を検出し、検出した部分を「こぶし」の歌唱技法が用いられている部分であると特定する。「こぶし」の場合は、短い区間において声色や発声方法を変えて唸るような味わいを付加する歌唱技法であるため、この技法が用いられている区間においてはスペクトル特性が多様に変化するからである。
また、ＣＰＵ１１は、模範音データから検出したパワーがある短い一定期間の間だけ強く現れる区間をスタッカートとして検出するようにしてもよい。また、パワーデータ値が連続的に徐々に大きくなる（小さくなる）区間をクレッシェンド（デクレッシェンド）として検出するようにしてもよい。
要するに、ＣＰＵ１１が、模範音データから生成された音分析データの示すピッチ、パワー及びスペクトルの時間的な変化のパターンを解析して、この解析結果が予め定められたパターンに対応するか否かを判定し、対応する場合には当該パターンに対応する区間を特定の歌唱技法が用いられている区間として特定すればよい。

「しゃくり」以外の歌唱技法を検出する場合においても、ＣＰＵ１１は、加工楽譜音データが表す音素の発音区間のうち、技法が用いられていると特定された区間に対応する部分の表示態様を、当該区間のピッチ変化を表す表示態様にして表示部１５に表示すればよい。
具体的には、例えば、ＣＰＵ１１は、図９に例示するように、「ビブラート」の技法が用いられている区間ｋ１２においては、その区間を波線で表してもよい。また、ＣＰＵ１１は、「クレッシェンド」の技法が用いられている区間ｋ１１においては、その区間を表す線の太さが徐々に太くなるように表示してもよい。

（２）上述した実施形態では、音素毎の区切り位置で区切って表示した。これに代えて、発音区間を表す各線の区切り位置によって息継ぎの区間を表現してもよい。

（３）上述した実施形態では、楽譜音データが表す音素の発音区間と加工楽譜音データが表す音素の発音区間とを、水平に伸びるライン状の図形で表した。楽譜音データと加工楽譜音データの音素の発音区間を表す図形は、上述したライン状の図形に限らず、例えば矩形図形であってもよく、また、複数の円状図形が連なって構成された図形であってもよく、要は、加工楽譜音データが表す音素の発音区間と加工楽譜音データが表す音素の発音区間とを、同一の時間軸に対応させて表示するものであればどのようなものであってもよい。

（４）上述した実施形態においては、音分析データとして、模範音データから検出されたピッチ及びスペクトルを示すデータを用いて、この音分析データから「しゃくり」の技法が用いられている区間を抽出した。音分析データはピッチに限らず、抽出したい歌唱技法が用いられている区間を特定できるデータであればよく、例えば「しゃくり」、「ビブラート」の歌唱技法を抽出する場合には、模範音データのピッチを示すデータを音分析データとして用いればよく、また、例えば「クレッシェンド」の技法を抽出する場合には、パワーを示すデータを音分析データとして用いればよい。要するに、音分析データは、模範音声データのピッチ、スペクトル及びパワーのうちの少なくともいずれか一つを示すデータであればよい。

（５）上述した実施形態においては、発音タイミングを示すデータとして、音素の発音開始タイミングと発音終了タイミングとの両方を示すデータを用いたが、音素の発音開始タイミングのみを示すデータであってもよい。

（６）上述した実施形態では、ＣＰＵ１１は、模範音データから技法を抽出して模範技法データを生成した。これに代えて、模範技法データを予め記憶しておいてもよい。この場合は、ＣＰＵ１１は、模範音データから模範技法データを生成する処理を行う必要はない。

（７）上述した実施形態においては、模範音データを模範音データ記憶領域１４ｃに記憶させて、カラオケ装置１のＣＰＵ１１が記憶部１４から模範音データを読み出すようにしたが、これに代えて、通信ネットワークを介して模範音データを受信するようにしてもよい。また、ＵＳＢ（Universal Serial Bus）等のインタフェースを介して模範音データを入力するようにしてもよい。

（８）上述した実施形態では、カラオケ装置１が、本実施形態に係る機能の全てを実現するようになっていた。これに対し、通信ネットワークで接続された２以上の装置が上記機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態のカラオケ装置１を実現するようにしてもよい。

（９）上述した実施形態では、ＣＰＵ１１は、加工楽譜音データを表示部１５に出力した。これに代えて、加工楽譜音データを通信ネットワークを介して所定のサーバ装置に送信することによって出力してもよい。または、ＵＳＢ等のインタフェースを介して加工楽譜音データを出力してもよい。

（１０）上述した実施形態におけるカラオケ装置１のＣＰＵ１１によって実行されるプログラムは、磁気テープ、磁気ディスク、フレキシブルディスク、光記録媒体、光磁気記録媒体、ＣＤ（Compact Disk）−ＲＯＭ、ＤＶＤ（Digital Versatile Disk）、ＲＡＭなどの記録媒体に記憶した状態で提供し得る。また、インターネットのようなネットワーク経由でカラオケ装置１にダウンロードさせることも可能である。

（１１）上述した実施形態では、模範となる歌唱音声を表す模範音データと楽譜音データとを対応付けて、その対応結果に基づいて楽譜音データを加工するようにした。本発明における模範音データは、歌唱音声を表す音声データに限定されるものではなく、楽器の演奏音を表す音声データにも適用することができる。この場合も、カラオケ装置のＣＰＵが、楽器の演奏音を表す音声データと楽譜音データとを対応付けて、その対応結果に基づいて楽譜音データを加工する。すなわち、模範音データは、人の歌声を表す音声データであってもよく、楽器の演奏音を表す音声データであってもよい。

カラオケ装置のハードウェア構成の一例を示すブロック図である。模範技法データの内容の一例を示す図である。カラオケ装置が行う処理の流れを示すフローチャートである。模範音データと楽譜音データの対応付けを説明するための図である。表示部に表示される画面の一例を示す図である。カラオケ装置が行う処理の流れを示すフローチャートである。技法が用いられている区間の検出処理を説明するための図である。表示部に表示される画面の一例を示す図である。表示部に表示される画面の一例を示す図である。

符号の説明

１…カラオケ装置、１１…ＣＰＵ、１２…ＲＯＭ、１３…ＲＡＭ、１４…記憶部、１５…表示部、１６…操作部、１７…マイクロフォン、１８…音声処理部、１９…スピーカ。

Claims

発音タイミングが時系列に連なる複数の音素の発音タイミングを表す楽譜音データを記憶する第１の記憶手段と、
模範となる音を表す模範音データを記憶する第２の記憶手段と、
前記第２の記憶手段によって記憶されている模範音データを音素毎に区切り、前記第１の記憶手段によって記憶されている楽譜音データと音素単位で対応付ける対応付け手段と、
前記対応付け手段による対応付け結果に基づいて、前記楽譜音データが表す各音素の発音タイミングを、前記模範音データが表す音素の発音タイミングに変換して、加工楽譜音データを生成する加工楽譜音データ生成手段と、
前記楽譜音データと加工楽譜音データ生成手段により生成された加工楽譜音データとを出力する出力手段と
を備えることを特徴とする指導装置。
発音タイミングが時系列に連なる複数の音素の発音タイミングを表す楽譜音データを記憶する第１の記憶手段と、
模範となる音を表す模範音データを記憶する第２の記憶手段と、
前記第２の記憶手段によって記憶されている模範音データを音素毎に区切り、前記第１の記憶手段によって記憶されている楽譜音データと音素単位で対応付ける対応付け手段と、
前記対応付け手段による対応付け結果に基づいて、前記楽譜音データが表す各音素の発音タイミングを、前記模範音データが表す音素の発音タイミングに変換して、加工楽譜音データを生成する加工楽譜音データ生成手段と、
前記加工楽譜音データ生成手段により生成された工楽譜音データを指導用データとして出力する出力手段と
を備えることを特徴とする指導用データ製作装置。
前記出力手段は、前記楽譜音データが表す音素の発音区間と前記加工楽譜音データが表す音素の発音区間とを、同一の時間軸に対応させて表示手段に表示する
ことを特徴とする請求項１に記載の指導装置。
前記模範音データから、当該模範音データのピッチ、スペクトル及びパワーのうちの少なくともいずれか一つを示す音分析データを生成する音分析データ生成手段と、
前記音分析データ生成手段により生成された音分析データの時間的な変化のパターンを解析して、この解析結果が予め定められたパターンに対応するか否かを判定し、対応する場合には当該パターンに対応する区間を特定の技法が用いられている区間として特定する技法区間特定手段と
を備え、
前記出力手段は、前記加工楽譜音データが表す音素の発音区間のうち、前記技法区間特定手段によって特定された区間に対応する部分の表示態様を、それ以外の区間の表示態様と異ならせて前記表示手段に表示する
ことを特徴とする請求項３に記載の指導装置。
前記音分析データ生成手段は、前記模範音データからピッチを示す音分析データを生成し、
前記技法区間特定手段は、前記音分析データ生成手段により生成された音分析データの示すピッチの時間的な変化のパターンを解析して、低いピッチから高いピッチに連続的に変化する区間を特定し、
前記出力手段は、前記加工楽譜音データが表す音素の発音区間のうち、前記技法特定手段によって特定された区間に対応する部分の表示態様を、当該区間のピッチ変化を表す表示態様にして前記表示手段に表示する
ことを特徴とする請求項４に記載の指導装置。
発音タイミングが時系列に連なる複数の音素の発音タイミングを表す楽譜音データを記憶する第１の記憶手段と、模範となる音を表す模範音データを記憶する第２の記憶手段とを備えるコンピュータに、
前記第２の記憶手段によって記憶されている模範音データを音素毎に区切り、前記第１の記憶手段によって記憶されている楽譜音データと音素単位で対応付ける対応付け機能と、
前記対応付け機能による対応付け結果に基づいて、前記楽譜音データが表す各音素の発音タイミングを、前記模範音データが表す音素の発音タイミングに変換して、加工楽譜音データを生成する加工楽譜音データ生成機能と、
前記楽譜音データと前記加工楽譜音データ生成機能により生成した加工楽譜音データとを出力する出力機能と
を実現させるプログラム。
発音タイミングが時系列に連なる複数の音素の発音タイミングを表す楽譜音データを記憶する第１の記憶手段と、模範となる音を表す模範音データを記憶する第２の記憶手段とを備えるコンピュータに、
前記第２の記憶手段によって記憶されている模範音データを音素毎に区切り、前記第１の記憶手段によって記憶されている楽譜音データと音素単位で対応付ける対応付け機能と、
前記対応付け機能による対応付け結果に基づいて、前記楽譜音データが表す各音素の発音タイミングを、前記模範音データが表す音素の発音タイミングに変換して、加工楽譜音データを生成する加工楽譜音データ生成機能と、
前記加工楽譜音データ生成機能により生成した加工楽譜音データを出力する出力機能と
を実現させるプログラム。
前記出力機能は、前記楽譜音データが表す音素の発音区間と前記加工楽譜音データが表す音素の発音区間とを、同一の時間軸に対応させて表示手段に表示する
ことを特徴とする請求項６に記載のプログラム。
コンピュータに、
前記模範音データから、当該模範音データのピッチ、スペクトル及びパワーのうちの少なくともいずれか一つを示す音分析データを生成する音分析データ生成機能と、
前記音分析データ生成機能により生成された音分析データの時間的な変化のパターンを解析して、この解析結果が予め定められたパターンに対応するか否かを判定し、対応する場合には当該パターンに対応する区間を特定の技法が用いられている区間として特定する技法区間特定機能と
を更に実現させ、
前記出力機能は、前記加工楽譜音データが表す音素の発音区間のうち、前記技法区間特定機能により特定した区間に対応する部分の表示態様を、それ以外の区間の表示態様と異ならせて前記表示手段に表示する
ことを特徴とする請求項８に記載のプログラム。
前記音分析データ生成機能は、前記模範音データからピッチを示す音分析データを生成し、
前記技法区間特定機能は、前記音分析データ生成機能により生成した音分析データの示すピッチの時間的な変化のパターンを解析して、低いピッチから高いピッチに連続的に変化する区間を特定し、
前記出力機能は、前加工楽譜音データが表す音素の発音区間のうち、前記技法特定機能により特定された区間に対応する部分の表示態様を、当該区間のピッチ変化を表す表示態様にして前記表示手段に表示する
ことを特徴とする請求項９に記載のプログラム。