JP2007271977A

JP2007271977A - 評価基準判定装置、制御方法及びプログラム

Info

Publication number: JP2007271977A
Application number: JP2006098069A
Authority: JP
Inventors: Ryuichi Nariyama; 隆一成山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2006-03-31
Filing date: 2006-03-31
Publication date: 2007-10-18

Abstract

【課題】聴取者の主観的な評価の基準を歌唱者に示す。
【解決手段】歌唱者音声の特徴と模範音声の特徴との差分（特徴差分データ）と、その歌唱者音声に対する評価データとを対応付けて記憶しておく。そして、高い評価を表す評価データに対応付けられて記憶されている特徴差分データによって表される特徴と、低い評価を表す評価データに対応付けられて記憶されている特徴差分データによって表される特徴とを分析し、その特徴と評価との関係を求めて出力する。このような歌唱者音声の特徴とその歌唱者音声に対する評価との関係を歌唱者に示すことによって、歌唱者は聴取者の評価基準を認識することができる。
【選択図】図３

Description

本発明は、歌唱や演奏に対する聴取者の評価基準の傾向を調べる技術に関する。

カラオケ装置においては、歌唱者の歌唱の巧拙を評価するための方法が種々提案されている。その評価方法の１つに、楽譜の音符を評価基準として歌唱音声を客観的に評価するものがある（例えば特許文献１参照）。このような客観的評価方法によれば、楽譜の内容に忠実な歌唱が高く評価されることになる。さらに、このような評価方法は歌唱だけではなく、楽器の演奏にも適用し得る。

ところで、歌唱や演奏の評価は聴取者の主観に委ねられるという一面もある。例えば歌手のように熟練した歌唱者は、楽譜の内容に忠実に従って歌唱することはほとんどなく、その多くが、歌い始めや歌い終わりを意図的にずらしたり、声質や音量を変化させたり、或いはビブラートやこぶし等の各種歌唱技法を用いたりして、歌のなかに感情の盛り上がり（情感）を表現する。このような情感は歌唱者によって様々に表現される一方、その情感表現に対する評価も聴取者の主観によって様々である。そこで、複数の聴取者に歌唱を聴かせてから、その歌唱に対する主観的な評価結果を得るとともに、カラオケ装置による客観的な評価結果を加味して総合的な評価を行う、という手法が提案されている（特許文献２参照）。
特開２００５−１０７３２８号公報特開２００３−２３３３８３号公報

ところで、歌唱者にとっては、自らの歌唱や演奏に対する評価結果を正確に認識することが重要であるとともに、どのような歌唱技術や演奏技術が高く評価されるか、即ち評価基準の傾向を知っておくことも重要である。上述した特許文献１，２に記載の技術では、このような評価基準の傾向を捉えることはできない。
そこで、本発明の目的は、聴取者による評価基準を歌唱者に提供することにある。

上記課題を解決するため、本発明は、歌唱音声又は演奏音の特徴を表す特徴データを取得する特徴データ取得手段と、前記歌唱音声又は前記演奏音に対する聴取者の評価を表す評価データを取得する評価データ取得手段と、前記特徴データ取得手段によって取得された歌唱音声又は演奏音の特徴データと、前記評価データ取得手段によって取得された当該歌唱音声又は当該演奏音に対する前記評価データとを対応付けて記憶する評価データ記憶手段と、高い評価を表す前記評価データに対応付けられて前記評価データ記憶手段に記憶されている複数の特徴データ、又は、低い評価を表す前記評価データに対応付けられて前記評価データ記憶手段に記憶されている複数の特徴データのうち少なくともいずれか一方によって表される特徴を分析し、その特徴と前記評価データが表す評価との関係を求める分析手段と、前記分析手段によって求められた結果を出力する出力手段とを備えることを特徴とする評価基準判定装置を提供する。

また、本発明は、記憶手段と制御手段とを備えた評価基準判定装置の制御方法であって、前記制御手段が、歌唱音声又は演奏音の特徴を表す特徴データと、当該歌唱音声又は当該演奏音に対する聴取者の評価を表す評価データとを取得する第１のステップと、前記制御手段が、前記第１のステップにおいて取得された特徴データ及び評価データを互いに対応付けて前記記憶手段に記憶させる第２のステップと、前記制御手段が、高い評価を表す前記評価データに対応付けられて前記記憶手段に記憶されている複数の特徴データ、又は、低い評価を表す前記評価データに対応付けられて前記記憶手段に記憶されている複数の特徴データのうち少なくともいずれか一方によって表される特徴を分析し、その特徴と前記評価データが表す評価との関係を求める第３のステップと、前記制御手段が、前記第３のステップにおいて求められた結果を出力する第４のステップとを備えることを特徴とする制御方法を提供する。さらに、本発明は、コンピュータに対して機能を実現させるプログラムとしての形態も採り得る。

本発明においては、歌唱音声又は演奏音の特徴データと、その歌唱音声又は演奏音に対する評価データとを対応付けて記憶しておき、高い評価を表す前記評価データに対応付けられて前記記憶手段に記憶されている複数の特徴データ、又は、低い評価を表す前記評価データに対応付けられて前記記憶手段に記憶されている複数の特徴データのうち少なくともいずれか一方によって表される特徴を分析し、その特徴と前記評価データが表す評価との関係を求めて出力する。このような歌唱音声又は演奏音の特徴と、その歌唱音声又は演奏に対する評価との関係を歌唱者に示すことによって、歌唱者は聴取者の評価基準を認識することができる。

次に、本発明を実施するための最良の形態を説明する。以下の説明では、歌唱を行う者を「歌唱者」と呼び、その歌唱者の歌唱を聴取して主観的に評価する者を「評価者（聴取者）」と呼ぶ。
［１．構成］
図１は、本実施形態に係る評価システム１の全体構成を示すブロック図である。この評価システム１は、複数のカラオケ装置２ａ，２ｂ，２ｃと、サーバ装置３と、これらを接続するネットワーク４とを備えている。カラオケ装置２ａ，２ｂ，２ｃは、一般家庭や、カラオケボックス又は飲食店などの各種店舗に備えられており、ネットワーク４を介して通信を行う通信装置として機能する。サーバ装置３は、カラオケ装置２ａ，２ｂ，２ｃから収集した歌唱者の歌唱音声を表す歌唱者音声データと、その歌唱音声に対する評価を表す評価データとに基づいて、歌唱音声の特徴と評価との関係を求め、これを評価者の主観的な評価基準の傾向として出力する評価基準判定装置である。ネットワーク４は、例えばＩＳＤＮ（Integrated Services Digital Network）やインターネット或いは店舗内ネットワークであり、有線区間又は無線区間を含んでいる。図１には３つのカラオケ装置が例示されているが、この評価システム１に含まれるカラオケ装置の数は３に限定されるものではなく、これより多くても少なくてもよい。また、カラオケ装置２ａ，２ｂ，２ｃはいずれも同じ構成及び動作であるから、これらを各々区別する必要がない場合には単に「カラオケ装置２」と呼ぶことにする。

図２は、カラオケ装置２の構成を示したブロック図である。
図２において、制御部２１は例えばＣＰＵであり、記憶部２２に記憶されているコンピュータプログラムを読み出して実行することにより、カラオケ装置２の各部を制御する。表示部２３は、例えば液晶ディスプレイなどであり、制御部２１による制御の下で、カラオケ装置２を操作するためのメニュー画面や、背景画像に歌詞テロップが重ねられたカラオケ画面などの各種画面を表示する。操作部２４は、各種のキーを備えており、押下されたキーに対応した信号を制御部２１へ出力する。マイクロフォン２５は、歌唱者が発音した音声を収音する。音声処理部２６は、マイクロフォン２５によって収音された音声（アナログデータ）をデジタルデータに変換して制御部２１に出力する。スピーカ２７は、音声処理部２６から出力される音声を放音する。通信部２８は、制御部２１による制御の下で、ネットワーク４を介してサーバ装置３とデータ通信を行う。記憶部２２は、例えばハードディスクなどの大容量の記憶手段であり、前述したコンピュータプログラムを記憶するほか、伴奏・歌詞データ記憶領域２２ａを有している。この伴奏・歌詞データ記憶領域２２ａには、楽曲の伴奏を行う各種楽器の演奏音が楽曲の進行に伴って記された伴奏データと、楽曲の歌詞を示す歌詞データとが対応付けられて記憶されている。伴奏データは、例えばＭＩＤＩ（Musical Instruments Digital Interface）形式などのデータ形式であり、歌唱者がカラオケ歌唱する際に再生される。歌詞データは、そのカラオケ歌唱の際に歌詞テロップとして表示部２３に表示される。

次に、図３は、サーバ装置３の構成を示したブロック図である。
図３において、制御部３１は例えばＣＰＵであり、記憶部３２に記憶されているコンピュータプログラムを読み出して実行することにより、サーバ装置３の各部を制御する。記憶部３２は、例えばハードディスクなどの大容量の記憶手段である。通信部３３は、制御部３１による制御の下で、ネットワーク４を介してカラオケ装置２とデータ通信を行う。

記憶部３２は、前述したコンピュータプログラムを記憶するほか、図示のように歌唱者データ記憶領域３２ａと、模範データ記憶領域３２ｂと、歌唱楽譜音データ記憶領域３２ｃと、評価データ記憶領域３２ｄと、分析結果記憶領域３２ｅとを有している。歌唱者データ記憶領域３２ａには、カラオケ装置２からネットワーク４経由で取得した歌唱者音声データと、その歌唱音声の特徴を表す歌唱者音声特徴データとが対応付けられて記憶されている。歌唱者音声データは、例えばＷＡＶＥ形式やＭＰ３（MPEG Audio Layer-3）形式などのデータ形式で記憶されている。歌唱音声の特徴とは、その歌唱音声のピッチ（音程）、発音タイミング、パワー（音量）、スペクトル（声質）、及び、歌唱に用いられる技法である。ここでいう技法としては、「ビブラート」、「しゃくり」、「こぶし」、「ファルセット」、「つっこみ」、「ため」、「息継ぎ」を想定している。これらのうち、「ビブラート」は、音の高さをほんのわずかに連続的に上下させ、震えるような音色を出す、という技法である。「しゃくり」は、目的の音より低い音から発音し、音程を滑らかに目的の音に近づけていく、という技法である。「こぶし」は、装飾的に加えるうねるような節回しを行う、という技法である。「ファルセット」は、いわゆる「裏声」で歌う、という技法である。「つっこみ」は、歌い出しを本来の発音タイミングよりも早い発音タイミングにする、という技法である。「ため」は、歌い出しを本来の発音タイミングよりも遅い発音タイミングにする、という技法である。「息継ぎ」は、歌唱者が息継ぎをする発音タイミングを意味する。

次に、模範データ記憶領域３２ｂには、歌唱者に対する模範として予め決められた歌唱音声（以下、模範音声という）を表す模範音声データと、その模範音声の特徴を表す模範音声特徴データとが楽曲毎に対応付けられて記憶されている。模範音声データは、例えばＷＡＶＥ形式やＭＰ３形式などのデータ形式で記憶されている。模範音声の特徴とは、前述した歌唱音声の特徴と同様である。これらの模範音声データ及び模範音声特徴データは、予めこの模範データ記憶領域３２ｂに記憶されている。

次に、歌唱楽譜音データ記憶領域３２ｃには、楽曲の楽譜によって規定された歌唱部分の音程及びタイミングを表す楽譜音データ（例えばＭＩＤＩ形式）が記憶されている。この楽譜音データは、歌唱者音声データや模範音声データから各種技法を抽出するために利用される。

歌唱者データ記憶領域３２ａに記憶されている歌唱者音声データは、サーバ装置３からカラオケ装置２へと送信され、カラオケ装置２によって歌唱音声として再生される。評価者はこの歌唱音声を聴取し、その歌唱音声に対する評価をカラオケ装置２に入力する。この評価は、例えば「良い」、「やや良い」、「どちらとも言えない」、「やや悪い」、「悪い」といった５段階評価によってなされる。入力された評価結果は、カラオケ装置２からサーバ装置３へと送信され、評価データとして評価データ記憶領域３２ｄに記憶される。

ここで、図４は、評価データ記憶領域３２ｄに記憶されている内容を例示した図である。評価データ記憶領域３２ｄには、歌唱音声の特徴と模範音声の特徴との差分を表す特徴差分データと、その歌唱音声に対する評価を表す評価データとが対応付けられて記憶されている。図４では、楽曲ＩＤ（Identification：識別情報）「ｍ０１」が割り当てられた楽曲を、歌唱者ＩＤ「ａ０１」が割り当てられた歌唱者が歌唱した場合の歌唱音声の特徴と模範音声の特徴との差分が例示されている。即ち、歌唱音声のピッチ（音程）は模範音声のピッチとほぼ同じであり、歌唱音声の発音タイミングは模範音声よりも早い発音タイミングであることが多く、歌唱音声のパワー（音量）は模範音声よりも強いことが多く、歌唱音声のスペクトルは模範音声よりも男性的な声質を表している。そして、技法に関しては、歌唱音声において「ビブラート」、「ファルセット」、「ため」及び「息継ぎ」が用いられている一方、「しゃくり」、「こぶし」及び「つっこみ」は用いられていない。

このような特徴を有する歌唱音声に対して、評価者ＩＤ「ｐ０１」が割り当てられた評価者が評価した結果は、ピッチ（音程）については５段階評価のうちの「５」という評価レベルであり、発音タイミングについては「２」という評価レベルであり、パワー（音量）については「４」という評価レベルであり、スペクトル（声質）については「４」という評価レベルであり、技法については「３」という評価レベルである。なお、評価レベルの値は大きいほど高い評価を意味しており、評価レベル１が「悪い」に相当し、評価レベル２が「やや悪い」に相当し、評価レベル３が「どちらとも言えない」に相当し、評価レベル４が「やや良い」に相当し、評価レベル５が「良い」に相当する。そして、この評価者の属性である年齢は「１８歳」で、性別は「男性」である。このような特徴差分データ及び評価データが楽曲及び歌唱者毎に評価データ記憶領域３２ｄに記憶されている。
なお、上述した楽曲ＩＤとしては、例えば曲名やカラオケ曲ナンバーなどの識別情報を用いればよい。また、歌唱者ＩＤや評価者ＩＤとしては、例えばカラオケボックスなどの店舗が発行した会員番号やユーザＩＤなどの識別情報を用いてもよいし、歌唱や評価が行われた場所（カラオケボックスの部屋番号や店舗の店番号）を用いてもよい。また、歌唱が行われた日時や評価がされた日時を、歌唱者ＩＤや評価者ＩＤとして用いることもできる。

このように評価データ記憶領域３２ｄには、特徴差分データと評価データの対が多数記憶されているので、これらを統計学的に分析すると、歌唱音声の特徴及び評価の高低の相互関係を特定することができる。つまり、歌唱音声のどのような特徴に対してどのように評価されるか、という評価基準の傾向が分かるのである。分析結果記憶領域３２ｅには、このような分析結果が記憶されている。

ここで、図５は、分析結果記憶領域３２ｅに記憶されている内容を例示した図である。
図５では、楽曲ＩＤ「ｍ０１」が割り当てられた楽曲を歌唱した際の多数の歌唱音声に対して、高い評価を得ることができた歌唱音声の特徴（ここでは歌唱音声の特徴と模範音声の特徴との差分）と、低い評価にしかならなかった歌唱音声の特徴とが記憶されている。図示の例では、楽曲ＩＤ「ｍ０１」の楽曲を歌唱する場合、１０代の男性から高い評価を得るには、ピッチ（音程）を模範音声のピッチとほぼ同じくし、発音タイミングを模範音声とほぼ同じくし、パワー（音量）を模範音声よりも強くし、スペクトル（声質）を模範音声よりも男性的な声質とし、さらに、技法として「ため」及び「息継ぎ」を用いるべきである、ということが分かる。分析結果記憶領域３２ｅには、このほかにも２０代、３０代、４０代、５０代、６０代以上及び全年代の男性の評価者による評価の傾向や、１０代、２０代、３０代、４０代、５０代、６０代以上及び全年代の女性の評価者による評価の傾向のほか、性別を問わない全年代の評価者による評価の傾向が記憶されている。

［２．動作］
次に、本実施形態の動作説明を行う。
本実施形態においては、歌唱者の歌唱者音声データをサーバ装置３に登録する動作と、歌唱者音声に対する評価データをサーバ装置３に収集する動作と、評価基準の傾向を求めるために評価データを分析する動作と、その分析結果（評価基準の傾向）を歌唱者に提示する動作という、４つの動作に大別される。以下、これらを順番に説明する。

［２−１．歌唱者音声データの登録］
まず、歌唱者の歌唱者音声データをサーバ装置３に登録する動作について説明する。
図６のシーケンスチャートにおいて、歌唱者は、カラオケ装置２の操作部２４を操作して、自身の歌唱を歌唱者音声データとして登録することを指示し、さらに所望する曲の楽曲ＩＤを指定して伴奏データの再生を指示する。このとき、歌唱者は自身の歌唱者ＩＤを操作部２４によって入力するか、又は、制御部２１自身が歌唱者ＩＤを生成する。そして、制御部２１は、カラオケ伴奏を開始する（ステップＳ１）。即ち、制御部２１は、伴奏・歌詞データ記憶領域２２ａから伴奏データを読み出して音声処理部２６に供給し、音声処理部２６は、伴奏データをアナログ信号に変換し、スピーカ２７に供給して放音させる。同時に、制御部２１は、「伴奏に合わせて歌唱してください」というような歌唱を促すメッセージを表示部２３に表示させてから、伴奏・歌詞データ記憶領域２２ａから歌詞データを読み出して歌詞テロップを表示部２３に表示させる。歌唱者は、表示された歌詞テロップを参照しつつ、スピーカ２７から放音される伴奏に合わせて歌唱を行う。このとき、歌唱者の音声はマイクロフォン２５によって収音されて音声信号に変換され、音声処理部２６へと出力される。音声処理部２６によってＡ／Ｄ変換された音声データは、伴奏開始からの経過時間を表す情報と共に、記憶部２２に記憶（録音）されていく（ステップＳ２）。

伴奏データの再生が終了すると、制御部２１は歌唱者の音声を録音する処理を終了する。次に、制御部２１は、記憶部２２に記憶されている音声データを、上記の楽曲ＩＤ及び歌唱者ＩＤと共に通信部２８からサーバ装置３に送信する（ステップＳ３）。一方、サーバ装置３の制御部３１は、通信部３３によって音声データ、楽曲ＩＤ及び歌唱者ＩＤが受信されたことを検知すると、音声データを歌唱者音声データとして記憶部３２の歌唱者データ記憶領域３２ａに記憶させるとともに、その歌唱者音声データに対応付けて楽曲ＩＤ及び歌唱者ＩＤを記憶する（ステップＳ４）。

次に、制御部３１は、記憶部３２に記憶されている歌唱者音声データを所定時間長のフレーム単位に分離し、フレーム単位でピッチ、発音タイミング、パワー及びスペクトルを算出する（ステップＳ５）。発音タイミングの算出に関しては、或るピッチが次のピッチに変化するタイミングを発音タイミングとして考えればよい。また、スペクトルの算出には例えばＦＦＴ（Fast Fourier Transform）を用いればよい。

次いで、制御部３１は、歌唱者音声データから技法を抽出する（ステップＳ６）。制御部３１は、まず、これらの各技法が用いられている区間を特定（検出）する。例えば「ビブラート」及び「しゃくり」については、歌唱者音声データのピッチに基づいて検出することができる。また、「こぶし」及び「ファルセット」については、歌唱者音声データのスペクトルに基づいて検出することができる。また、「ため」及び「つっこみ」については、歌唱者音声データのピッチと、歌唱楽譜音データ記憶領域３２ｃに記憶されている楽譜音データとに基づいて検出することができる。また、「息継ぎ」については、歌唱者音声データのパワーと、歌唱楽譜音データ記憶領域３２ｃに記憶されている楽譜音データとに基づいて検出することができる。

具体的な区間の検出方法は以下のとおりである。
制御部３１は、歌唱者音声データと楽譜音データとの対応関係と、歌唱者音声データから算出されたピッチとに基づいて、歌唱者音声データに含まれる音の開始時刻と当該音に対応する楽譜音データの音の開始時刻とが異なる区間を特定する。ここで、制御部３１は、歌唱者音声データのピッチの変化発音タイミングが楽譜音データのピッチの変化発音タイミングよりも早く現れている区間、すなわち歌唱者音声データに含まれる音の開始時刻が当該音に対応する楽譜音データの音の開始時刻よりも早い区間については、この区間を「つっこみ」の歌唱技法が用いられている区間であると特定する。制御部３１は、このようにして特定した区間の区間情報を、「つっこみ」を示す識別情報と関連付ける。

逆に、制御部３１は、歌唱者音声データと楽譜音データとの対応関係と、歌唱者音声データから算出されたピッチとに基づいて、歌唱者音声データのピッチの変化発音タイミングが楽譜音データのピッチの変化発音タイミングよりも遅れて現れている区間、すなわち歌唱者音声データに含まれる音の開始時刻が当該音に対応する楽譜音データの音の開始時刻よりも遅い区間を検出し、検出した区間を「ため」の歌唱技法が用いられている区間であると特定する。

また、制御部３１は、歌唱者音声データから算出したピッチの時間的な変化のパターンを解析して、中心となる周波数の上下に所定の範囲内でピッチが連続的に変動している区間を検出し、検出した区間を「ビブラート」の歌唱技法が用いられている区間であると特定する。

また、制御部３１は、歌唱者音声データから算出したピッチの時間的な変化のパターンを解析して、低いピッチから高いピッチに連続的にピッチが変化する区間を検出し、検出した区間を「しゃくり」の歌唱技法が用いられている区間であると特定する。なお、この処理は、楽譜音データとの対応関係に基づいて行うようにしてもよい。すなわち、制御部３１は、歌唱者音声データと楽譜音データとの対応関係に基づいて、歌唱者音声データのピッチが、低いピッチから連続的に楽譜音データのピッチに近づいている区間を検出すればよい。

また、制御部３１は、歌唱者音声データと楽譜音データとの対応関係と、歌唱者音声データから算出されたパワーとに基づいて、楽譜音データが有音である区間であって歌唱者音声データのパワー値が所定の閾値よりも小さい区間を検出し、検出した箇所を「息継ぎ」の区間であると特定する。

また、制御部３１は、歌唱者音声データから算出されたスペクトルの時間的な変化パターンを解析して、スペクトル特性がその予め決められた変化状態に急激に遷移している区間を検出し、検出した区間を「ファルセット」の歌唱技法が用いられている区間であると特定する。ここで、予め決められた変化状態とは、スペクトル特性の高調波成分が極端に少なくなる状態である。例えば、地声の場合は沢山の高調波成分が含まれるが、ファルセットになると高調波成分の大きさが極端に小さくなる。なお、この場合、制御部３１は、ピッチが大幅に上方に変化したかどうかも参照してもよい。ファルセットは地声と同一のピッチを発生する場合でも用いられることもあるが、一般には地声では発声できない高音を発声するときに使われる技法だからである。したがって、歌唱者音声データのピッチが所定音高以上の場合に限って「ファルセット」の検出をするように構成してもよい。また、男声と女声とでは一般にファルセットを用いる音高の領域が異なるので、歌唱者音声データの音域や、歌唱者音声データから検出されるフォルマントによって性別検出を行い、この結果を踏まえてファルセット検出の音高領域を設定してもよい。

また、制御部３１は、スペクトル特性の変化の態様が短時間に多様に切り替わる区間を検出し、検出した部分を「こぶし」の歌唱技法が用いられている部分であると特定する。「こぶし」の場合は、短い区間において声色や発声方法を変えて唸るような味わいを付加する歌唱技法であるため、この技法が用いられている区間においてはスペクトル特性が多様に変化するからである。

以上のようにして、制御部３１は、歌唱者音声データから各技法が用いられている区間を検出し、検出した区間を示す区間情報をその歌唱技法を示す種別情報と関連付ける。そして、制御部３１は、ステップＳ５にて算出したピッチ、発音タイミング、スペクトル及びパワーと、ステップＳ６にて生成した区間情報及び種別情報とを含む歌唱者音声特徴データを生成する。そして、制御部２１は、生成した歌唱者音声特徴データを、楽曲ＩＤ及び歌唱者ＩＤと対応付けて歌唱者データ記憶領域３２ａに記憶する（ステップＳ７）。以上のような処理を経ることで、サーバ装置３の歌唱者データ記憶領域３２ａには、歌唱者音声データ、楽曲ＩＤ、歌唱者ＩＤ及び歌唱者音声特徴データが互いに対応付けて記憶されることになる。なお、模範音声データから模範音声特徴データを抽出するアルゴリズムは、上述した歌唱者音声データから歌唱者音声特徴データを抽出するアルゴリズムと同様である。よって、サーバ装置３の制御部３１は、模範音声データから事前に模範音声特徴データを抽出しておき、これを模範データ記憶領域３２ｂに記憶させておけばよい。

次に、制御部３１は、歌唱音声特徴データと模範音声特徴データとを比較し、その差分を表す特徴差分データを生成して評価データ記憶領域３２ｄに記憶する（ステップＳ８）。ただし、この時点では、特徴差分データに対応する評価データはまだ記憶されていない（図４参照）。

［２−２．評価データの収集］
次に、歌唱者音声データに対する評価データをサーバ装置３に収集する動作について説明する。
図７のシーケンスチャートにおいて、評価者は、カラオケ装置２の操作部２４を操作し、楽曲ＩＤを指定して歌唱の評価を行うことを指示する。制御部２１は、指定された楽曲ＩＤを通信部２８からサーバ装置３に送信する（ステップＳ１１）。サーバ装置３の制御部３１は、楽曲ＩＤを受信すると、歌唱者データ記憶領域３２ａにおいてその楽曲ＩＤに対応付けられて記憶されている全ての歌唱者ＩＤを読み出し、カラオケ装置２に送信する（ステップＳ１２）。カラオケ装置２の制御部２１は、受信した歌唱者ＩＤを図８に示すように一覧形式で表示部２３に表示させる（ステップＳ１３）。評価者は、このようにして表示された歌唱者ＩＤの中から、カラオケ装置２の操作部２４を操作して所望の歌唱者ＩＤを１つ指定し、「この歌唱者を評価する」というソフトボタンを選択する。制御部２１は、この操作を受け付けると、指定された歌唱者ＩＤをサーバ装置３に送信する（ステップＳ１４）。

サーバ装置３の制御部３１は、受信した歌唱者ＩＤに対応付けられた歌唱者音声データを歌唱者データ記憶領域３２ａから読み出し、カラオケ装置２に送信する（ステップＳ１５）。カラオケ装置２の制御部２１は、受信した歌唱者音声データに基づき、歌唱者の音声を再生する（ステップＳ１６）。即ち、制御部２１は、歌唱者音声データを音声処理部２６に供給し、音声処理部２６がその歌唱者音声データをアナログ信号に変換してスピーカ２７から放音させる。

歌唱者音声データの再生が終了すると、制御部２１は、前述した図９に示すような評価画面を表示部２３に表示させ、評価者に対して評価を行うよう促す（ステップＳ１７）。そこで、評価者は、図示のような「音程」、「発音タイミング」、「音量」、「声質」及び「技巧」（つまり技法）の各評価項目について、評価レベル５（良い）〜評価レベル１（悪い）のいずれかを選択すると共に、自身の性別や年齢といった属性を入力する。このとき、制御部２１が評価者ＩＤを生成するか、又は、評価者が自身の評価者ＩＤを操作部２４によって入力する。そして、評価者が「この内容で評価する」というソフトボタンを選択すると、制御部２１は、選択された各評価レベルと、入力された属性を表す属性データを、評価者ＩＤと共に通信部２８からサーバ装置３に送信する（ステップＳ１８）。

サーバ装置３の制御部３１は、受信した評価レベル、属性データ及び評価者ＩＤを、上記楽曲ＩＤ及び歌唱者ＩＤを含む特徴差分データに対応付けて評価データ記憶領域３２ｄに記憶する（ステップＳ１９）。これにより、図４に示したような内容が評価データ記憶領域３２ｄに記憶されることになる。
以上のように、評価者による評価が行われる度に、その評価結果がサーバ装置３に送信され、評価データとして記憶される。

［２−３．評価データの分析］
次に、図１０のフローチャートを参照しながら、サーバ装置３が評価データを分析して評価基準の傾向を求める動作を説明する。
制御部３１は、例えば午前０時などの所定の時期が到来する度に、図１０に示す処理を開始する。まず、制御部３１は、評価者の属性（年代・性別）を基準として評価データをグルーピングする（ステップＳ２１）。つまり、評価データが、１０代・男性、２０代・男性、３０代・男性、４０代・男性、５０代・男性、６０代以上・男性、全年代の男性、１０代・女性、２０代・女性、３０代・女性、４０代・女性、５０代・女性、６０代以上・女性、全年代の女性及び全年代の男性・女性、という各グループに区分される。

次に、制御部３１は、或る楽曲ＩＤに対応する全ての評価データについて、ピッチ、発音タイミング、パワー、スペクトル及び技法といった各評価項目に対応する評価レベルをグループごとに抽出する。そして、制御部３１は、各々のグループ単位で、抽出した評価項目毎に評価レベルの平均値を算出する（ステップＳ２２）。

次に、制御部３１は、評価データ記憶領域３２ｄから、各々のグループ単位で、その平均値よりも高い評価レベルの評価項目に対応する特徴差分データを全て抽出する（ステップＳ２３）。例えば、楽曲ＩＤ「ｍ０１」に対応するピッチ、発音タイミング、パワー、スペクトル及び技法の評価レベルの平均値として、それぞれ「３．５」、「３．２」、「２．８」、「２．９」、「２．４」が算出された場合、図４に例示した評価データにおいては、ピッチ、パワー、スペクトル及び技法の評価レベルがその平均値よりも高い。よって、制御部３１は、ピッチに対応する特徴差分データ「模範音声と同じピッチ」と、パワーに対応する特徴差分データ「模範音声よりも強い」と、スペクトルに対応する特徴差分データ「男性的な声質」の他、各々の技法の有無を抽出する。次に、制御部３１は、各々のグループ単位で、平均値よりも低い評価レベルの評価項目に対応する特徴差分データを全て抽出する（ステップＳ２４）。上記の例では、制御部３１は、発音タイミングに対応する特徴差分データ「模範音声よりも早い発音タイミング」を抽出することになる。

そして、制御部３１は、高評価に対応する特徴差分データと、低評価に対応する特徴差分データとに基づいて統計学手法を用いた分析を行って、特徴差分データが表す歌唱音声の特徴と評価データが表す評価との関係を各々のグループ単位で求めていく（ステップＳ２５）。これにより、高い評価を得ることができた歌唱音声の特徴の傾向と、低い評価にしかならなかった歌唱音声の特徴の傾向とがグループ毎に抽出されることになるので、制御部３１は、これらを図５に示すような形式で分析結果記憶領域３２ｅに記憶する（ステップＳ２６）。
制御部３１は、以上の処理を全ての楽曲に対して実行することで、各々の楽曲における評価基準の傾向を求め、分析結果記憶領域３２ｅに記憶することとなる。

［２−４．分析結果の提示］
次に、サーバ装置３が上記の分析結果（評価基準の傾向）を出力して歌唱者に提示する動作について説明する。
図１１のシーケンスチャートにおいて、歌唱者は、カラオケ装置２の操作部２４を操作し、所望の楽曲ＩＤを指定して評価基準の傾向を要求すると、カラオケ装置２の制御部２１はこの操作を受け付けて（ステップＳ３１）、サーバ装置３に対して評価基準の傾向を要求する。サーバ装置３の制御部３１は、この要求を受け付けると、評価者の属性を指定する属性指定画面をカラオケ装置２に送信する（ステップＳ３２）。カラオケ装置２の制御部２１は、受信した属性指定画面を図１２に示すようにして表示部２３に表示させる（ステップＳ３３）。歌唱者は、このようにして表示された評価者の属性の中から、所望するものを１つ指定する。制御部２１は、この操作を受け付けると（ステップＳ３４）、指定された属性を表す属性データをサーバ装置３に送信する。

サーバ装置３の制御部３１は、指定された楽曲ＩＤ及び属性データに対応する分析結果を分析結果記憶領域３２ｅから読み出し、カラオケ装置２に送信（出力）する（ステップＳ３５）。カラオケ装置２の制御部２１は、受信した分析結果を図１３に示すような形態で、表示部２３に表示させる（ステップＳ３６）。図１３に示す例では、図５に例示したように、楽曲ＩＤ「ｍ０１」が割り当てられた楽曲の歌唱音声に対して、高い評価を得ることができた歌唱音声の特徴と、低い評価にしかならなかった歌唱音声の特徴とが表示されている。歌唱者は、このような分析結果を参照することで、どのように歌唱すれば高く評価され、どのように歌唱すれば低く評価されるかということ、即ち評価基準の傾向を認識することができる。
以上説明したように、本実施形態によれば、評価者（聴取者）の主観的な評価の基準を歌唱者に提供することができる。

［３．変形例］
上述した実施形態を次のように変形してもよい。
［３−１］上述した実施形態においては、歌唱者の歌唱評価を例に挙げて説明したが、これに限らず、楽器の演奏についての実施形態も実現可能である。この場合、上述した歌唱者音声データに代えて演奏者の演奏音データが用いられ、模範音声データに代えて模範となる演奏音データが用いられる。また、伴奏・歌詞データ記憶領域２２ａには、練習したい楽器（例えばギター）以外の楽器（例えばベースやドラム）の演奏音データが記憶され、歌唱楽譜音データ記憶領域３２ｃには、楽譜に演奏音として規定された楽譜音データが記憶される。サーバ装置３の制御部３１は、これらのデータに基づき、上記と同様の処理を経て評価基準の傾向を分析する。

［３−２］上述した実施形態においては、歌唱者音声特徴データや模範音声特徴データとして、音声のピッチ、発音タイミング、パワー、スペクトル及び技法の全てを用いていたが、これらの特徴のうち少なくともいずれかを用いるだけでもよいし、これら以外の特徴を用いても良い。また、これらの特徴のうち、どれを用いるかを歌唱者が操作部２４を用いて選択できるようにしてもよい。同様に、各種の技法のうちいずれかを歌唱者が選択できるようにしてもよい。

［３−３］実施形態においては、サーバ装置３の制御部３１が、歌唱者音声データから歌唱者音声特徴データを生成するようになっていたが、これに代えて、カラオケ装置２の制御部２１が、歌唱者の音声を録音したときに歌唱者音声特徴データを生成するようにしてもよい。
また、カラオケ装置２の制御部２１が、歌唱者音声データ及び歌唱者音声特徴データの入力を促し、歌唱者が予め用意しておいた歌唱者音声データ及び歌唱者音声特徴データをカラオケ装置２に入力するようにしてもよい。例えば、制御部２１が、歌唱者音声データ及び歌唱者音声特徴データの入力を促す画面を表示部２３に表示させ、歌唱者は、例えばＵＳＢ（Universal Serial Bus）等のインタフェースを介してカラオケ装置２に歌唱者音声データ及び歌唱者音声特徴データを入力するようにすればよい。この場合、歌唱者は自らの歌唱音声を事前にパーソナルコンピュータ等の装置に録音し、さらにこの装置に歌唱者音声特徴データを生成させておけばよい。また、カラオケ装置２にＲＦＩＤリーダを設けて、歌唱者音声データ及び歌唱者音声特徴データが書き込まれたＲＦＩＤをカラオケ装置２のＲＦＩＤリーダが読み取るようにしてもよい。
また、実施形態では、サーバ装置３が、歌唱者音声データ及び模範音声データを記憶していたが、これら歌唱者音声データ及び模範音声データを記憶部３２に記憶させておく必要がない場合もある。例えば、歌唱者がカラオケ装置２で歌唱した際に、その歌唱者の周りで歌唱音声を聴いている人たちが評価者となって評価結果をカラオケ装置に入力するような場合には、カラオケ装置２は歌唱者音声データから歌唱者音声特徴データを生成した後は、歌唱者音声特徴データのみをサーバ装置３に送信し、歌唱者音声データを消去してもよい。更にこの場合、歌唱者の周りで歌唱音声を聴いている人が評価者になるのではなく、歌唱者の歌唱音声をカラオケ装置２ａからネットワーク４経由でカラオケ装置２ｂ，２ｃに送信し、そのカラオケ装置２ｂ，２ｃから放音される歌唱音声に対する評価結果をそのカラオケ装置２ｂ，２ｃの利用者が入力するようにしてもよい。つまり、歌唱者から遠隔の地にいる評価者によって評価するのである。
また、実施形態において、サーバ装置３は歌唱者音声データから歌唱者音声特徴データを抽出して事前に記憶しておいたが、そうではなくて、サーバ装置３が歌唱者音声データだけを記憶しておき、評価基準を分析する必要がある度に歌唱者音声データから歌唱者音声特徴データを抽出するようにしてもよい。なお、模範音声データや歌唱者音声データはＷＡＶＥ形式やＭＰ３形式のデータとしたが、データの形式はこれに限定されるものではなく、音声を示すデータであればどのような形式のデータであってもよい。

［３−４］サーバ装置３による評価基準の分析結果を出力する形態は、カラオケ装置２による表示に限らず、音声メッセージを出力するような形態であってもよい。また、評価基準の分析結果を表すメッセージを電子メール形式で歌唱者のメール端末に送信するという形態であってもよい。また、そのメッセージを記憶媒体に出力して記憶させるようにしてもよく、この場合、歌唱者はコンピュータを用いてこの記憶媒体から分析結果を読み出させることで、それを参照することができる。

［３−５］実施形態では、それぞれの評価者による評価をすべて均等に取り扱っていたが、これらの評価に重み付けを行ってもよい。
例えば、各々の評価者の評価能力を判定し、その評価能力に応じて評価データに重み付けを行って、その評価データが表す評価の高低を判断する。具体的には、サーバ装置３の制御部３１は、事前に評価者に対して評価能力の試験を行い、その評価能力を複数のレベル値、例えば「０．６」，「０．７」，「０．８」，「０．９」，「１．０」，「１．１」,「１．２」，「１．３」，「１．４」，「１．５」の合計１０個のレベル値に区分する。このレベル値は評価者ＩＤに対応付けて記憶部３２に記憶される。そして、制御部３１は、評価者によって歌唱者音声に対する評価レベルが入力された場合、それぞれの評価レベルに対して上記の評価能力レベルのレベル値を乗算する。例えば、評価能力レベルのレベル値が「１．２」の場合、その評価者によって入力された評価レベル（例えば「３」）に「１．２」を乗算して評価レベル「３．６」とし、元々の評価レベル「３」よりも過大に扱うのである。
なお、実施形態では、平均よりも大きい評価レベルを高い評価とし、平均よりも小さい評価レベルを低い評価としていたが、評価の高低を判断する基準は、これに限らず、例えば評価レベル「５」と「４」を高い評価とし、評価レベル「２」と「１」を低い評価としてもよい。

［３−６］実施形態では、歌唱音声の特徴を、模範音声の特徴との差分（特徴差分データ）で表現していたが、これは歌唱音声の特徴を模範音声の特徴との相対的な差として取り扱ったほうが、その特徴を把握しやすいからであって、必ずしもそうする必要はない。例えば歌唱音声の特徴そのものを絶対的に表現してもよいし、歌唱音声の特徴と歌唱楽譜音の特徴との差分で表現してもよい。

［３−７］実施形態では、高い評価を表す評価データに対応付けられている特徴差分データと、低い評価を表す評価データに対応付けられて記憶されている特徴差分データの双方を用いて評価基準の傾向を求めていたが、いずれか一方によって表される特徴を分析して評価基準の傾向を求めるようにしてもよい。例えば、高く評価されるための評価基準を求めることができれば、大抵の場合、その傾向の逆が低い評価にしかならない。よって、いずれか一方を求めるだけでも、歌唱者にとっては評価基準の傾向を知る上で大いに参考になる。

［３−８］上述した実施形態では、カラオケ装置２とサーバ装置３とが通信ネットワークで接続された評価システム１が、本実施形態に係る機能の全てを実現するようになっている。これに対し、通信ネットワークで接続された３以上の装置が上記機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態のシステムを実現するようにしてもよい。または、ひとつの装置が上記機能のすべてを実現するようにしてもよい。

［３−９］本発明においては評価者による多数の評価結果が必要である。そこで、評価者が歌唱者の歌唱を評価する行為に対して何らかの特典を与え、評価行為を促進するように工夫することが望ましい。具体的には、サーバ装置３の記憶部３２に、評価者に対して特典として与えられる金額乃至ポイントと、その評価者の評価者ＩＤとを対応付けて記憶しておき、制御部３１が、図７のステップＳ１９において、評価データと評価者ＩＤとを記憶部３２に記憶させた場合、その評価者ＩＤに対応付けられて記憶されている金額乃至ポイントを増加させて更新する。この金額乃至ポイントは、例えば評価者がカラオケ装置２を用いてカラオケ歌唱を楽しむ場合に、その利用料金の支払いに充てることができる。

［３−１０］上述した実施形態におけるカラオケ装置２の制御部２１またはサーバ装置３の制御部３１によって実行されるプログラムは、磁気テープ、磁気ディスク、フレキシブルディスク、光記録媒体、光磁気記録媒体、ＣＤ（Compact Disk）−ＲＯＭ、ＤＶＤ（Digital Versatile Disk）、ＲＡＭなどの記録媒体に記憶した状態で提供し得る。また、インターネットのようなネットワーク経由でカラオケ装置２またはサーバ装置３にダウンロードさせることも可能である。

本発明の一実施形態に係るシステム全体の構成を示すブロック図である。カラオケ装置の構成を示すブロック図である。サーバ装置の構成を示すブロック図である。サーバ装置の評価データ記憶領域に記憶されるデータの一例を示す図である。サーバ装置の分析結果記憶領域に記憶されるデータの一例を示す図である。歌唱者の音声データを再生する動作を示すシーケンスチャートである。歌唱者の音声データに対する評価者の評価結果を蓄積する動作を示すシーケンスチャートである。カラオケ装置によって表示される画面の一例を示す図である。カラオケ装置によって表示される評価画面の一例を示す図である。サーバ装置が評価データを分析する動作を示すフローチャートである。分析結果を出力する動作を示すシーケンスチャートである。カラオケ装置によって表示される属性指定画面の一例を示す図である。カラオケ装置によって表示される、評価基準の分析結果を表す画面の一例を示す図である。

符号の説明

１…評価システム、２ａ，２ｂ，２ｃ…カラオケ装置、３…サーバ装置、４…ネットワーク、２１…制御部、２２…記憶部、２３……表示部、２４…操作部、２５…マイクロフォン、２６…音声処理部、２７…スピーカ、２８…通信部、３１…制御部、３２…記憶部、３３…通信部。

Claims

歌唱音声又は演奏音の特徴を表す特徴データを取得する特徴データ取得手段と、
前記歌唱音声又は前記演奏音に対する聴取者の評価を表す評価データを取得する評価データ取得手段と、
前記特徴データ取得手段によって取得された歌唱音声又は演奏音の特徴データと、前記評価データ取得手段によって取得された当該歌唱音声又は当該演奏音に対する前記評価データとを対応付けて記憶する評価データ記憶手段と、
高い評価を表す前記評価データに対応付けられて前記評価データ記憶手段に記憶されている複数の特徴データ、又は、低い評価を表す前記評価データに対応付けられて前記評価データ記憶手段に記憶されている複数の特徴データのうち少なくともいずれか一方によって表される特徴を分析し、その特徴と前記評価データが表す評価との関係を求める分析手段と、
前記分析手段によって求められた結果を出力する出力手段と
を備えることを特徴とする評価基準判定装置。
前記歌唱音声又は演奏音を表す音声データを記憶する音声データ記憶手段と、
複数の通信装置とネットワークを介してデータ通信を行う通信手段と、
前記音声データ記憶手段によって記憶された音声データを前記通信手段によって前記通信装置に配信する配信手段とを備え、
前記評価データ取得手段は、前記通信手段を用いて前記通信装置から前記評価データを取得する
ことを特徴とする請求項１記載の評価基準判定装置。
前記評価データ取得手段は、前記評価データとともに、前記聴取者の属性を示す属性データを取得し、
前記評価データ記憶手段は、前記特徴データ及び前記評価データに対応付けて、前記属性データを記憶し、
前記分析手段は、前記属性データが表す聴取者の属性を基準としたグループ単位で前記特徴データが表す特徴と前記評価データが表す評価との関係を求め、
前記出力手段は、前記分析手段によって求められた結果を前記グループ単位で出力する
ことを特徴とする請求項１記載の評価基準判定装置。
前記聴取者による歌唱音声又は演奏音に対する評価能力を判定する判定手段を備え、
前記分析手段は、前記判定手段によって判定された評価能力に応じて前記評価データに重み付けを行って、当該評価データが表す評価の高低を判断する
ことを特徴とする請求項１記載の評価基準判定装置。
前記特徴データは、前記歌唱音声又は演奏音のピッチ、タイミング、スペクトル、パワー、及び、歌唱又は演奏に用いられる技法のうち、少なくともいずれか一つを示すデータであることを特徴とする請求項１に記載の評価基準判定装置。
前記特徴データは、予め模範として決められた模範音声又は模範演奏音の特徴と、前記歌唱音声又は演奏音の特徴との差分によって表わされていることを特徴とする請求項１に記載の評価基準判定装置。
記憶手段と制御手段とを備えた評価基準判定装置の制御方法であって、
前記制御手段が、歌唱音声又は演奏音の特徴を表す特徴データと、当該歌唱音声又は当該演奏音に対する聴取者の評価を表す評価データとを取得する第１のステップと、
前記制御手段が、前記第１のステップにおいて取得された特徴データ及び評価データを互いに対応付けて前記記憶手段に記憶させる第２のステップと、
前記制御手段が、高い評価を表す前記評価データに対応付けられて前記記憶手段に記憶されている複数の特徴データ、又は、低い評価を表す前記評価データに対応付けられて前記記憶手段に記憶されている複数の特徴データのうち少なくともいずれか一方によって表される特徴を分析し、その特徴と前記評価データが表す評価との関係を求める第３のステップと、
前記制御手段が、前記第３のステップにおいて求められた結果を出力する第４のステップと
を備えることを特徴とする制御方法。
コンピュータに、
歌唱音声又は演奏音の特徴を表す特徴データを取得する特徴データ取得機能と、
前記歌唱音声又は前記演奏音に対する聴取者の評価を表す評価データを取得する評価データ取得機能と、
前記特徴データ取得機能によって取得された歌唱音声又は演奏音の特徴データと、前記評価データ取得機能によって取得された当該歌唱音声又は当該演奏音に対する前記評価データとを対応付けて記憶手段に記憶させる評価データ記憶機能と、
高い評価を表す前記評価データに対応付けられて前記記憶手段に記憶されている複数の特徴データ、又は、低い評価を表す前記評価データに対応付けられて前記記憶手段に記憶されている複数の特徴データのうち少なくともいずれか一方によって表される特徴を分析し、その特徴と前記評価データが表す評価との関係を求める分析機能と、
前記分析機能によって求められた結果を出力する抽出機能と
を実現させるプログラム。