JP5262875B2

JP5262875B2 - 追従性評価システム，カラオケシステムおよびプログラム

Info

Publication number: JP5262875B2
Application number: JP2009062730A
Authority: JP
Inventors: 典昭阿瀬見
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2009-03-16
Filing date: 2009-03-16
Publication date: 2013-08-14
Anticipated expiration: 2029-03-16
Also published as: JP2010217382A

Description

本発明は、ユーザが対象楽曲を歌唱した際の歌唱音声につき、その対象楽曲に対する歌唱の追従性を評価するための追従性評価システムに関する。

近年、対象楽曲を歌唱してなる歌唱音声から抽出されたピッチ変化の傾向と、その対象楽曲におけるピッチ変化の傾向とに基づいて、その対象楽曲に対する歌唱の遅速を判定する、といった技術が提案されている（特許文献１参照）。

特開平１０−１４９１８０号公報

ただ、上記技術では、対象楽曲に対して「歌唱が遅れている」，「歌唱が速すぎる」または「丁度良い」ことを判定することしかできないため、その歌唱がどの程度対象楽曲に追従できているか，より具体的にいえばどの程度そのテンポに合わせて歌唱できているのかといったことまで判定することはできなかった。

本発明は、このような課題を解決するためになされたものであり、その目的は、どの程度テンポに合わせて歌唱できているのかといったことを判定するための技術を提供することである。

上記課題を解決するため第１の構成は、ユーザが対象楽曲を歌唱した際の歌唱音声を構成する構成音の変化するタイミング（以降「歌唱変化タイミング」という）それぞれが、その対象楽曲を適切に歌唱した場合における模範音声における構成音が変化するタイミング（以降「模範変化タイミング」という）ｃｓｔ［ｋ］（ｋ＝１〜ｎ）のいずれに対応するかを照合するタイミング照合手段と、前記歌唱変化タイミングそれぞれにつき、該歌唱変化タイミングに対応するものとして前記タイミング照合手段に照合された前記模範変化タイミングを基準とするタイミングのズレ量ｖｄｔ［ｋ］を特定するズレ特定手段と、それぞれ隣接する前記模範変化タイミングｃｓｔ［ｋ］，ｃｓｔ［ｋ＋１］，および，該模範変化タイミングについて前記ズレ特定手段が特定したズレ量ｖｄｔ［ｋ］，ｖｄｔ［ｋ＋１］に基づいて、前記歌唱音声における構成音それぞれの発声時間ｖｌｅｎ［ｋ］を特定する発声特定手段と、前記発声特定手段により特定された発声時間ｖｌｅｎ［ｋ］それぞれを、該発声時間ｖｌｅｎ［ｋ］の特定時に参照された模範変化タイミングｃｓｔ［ｋ］，ｃｓｔ［ｋ＋１］の区間を適切に発声した場合における模範発声時間ｃｌｅｎ［ｋ］と対比することにより、発声時間ｖｌｅｎ［ｋ］における模範発声時間ｃｌｅｎ［ｋ］の非再現性ｎｖｌｅｎ［ｋ］を特定する再現性特定手段と、前記再現性特定手段により特定された非再現性ｎｖｌｅｎ［ｋ］それぞれを、該特定に際して参照された前記模範変化タイミングｃｓｔ［ｋ］の到来する順に分布させた場合における非再現性の系列に基づいて、該系列における非再現性の変化パターンに含まれる周期性が低いほど、前記対象楽曲に対する歌唱の追従性として高い評価値を出力する評価出力手段と、を備えている。

このように構成された追従性評価システムでは、歌唱音声および模範音声を照合して各構成音の発声時間それぞれを特定すると共に、これを対応する模範発声時間と対比して非再現性を特定し、この非再現性の系列に含まれる周期性が低いほど、対象楽曲に対する歌唱の追従性として高い評価値を出力する。

非再現性の系列は、対象楽曲に対する歌唱に追従できている，つまりテンポに合わせて適切に歌唱できていれば、その系列における変化パターンに大きな周期性が現れることはない。それは、対象楽曲のテンポに合わせて適切に歌唱できていれば、模範発声時間の非再現性が大きくなることはなく、一定の大きさで推移するため、大きな周期性を持った変化パターンとはなりえないからである。

一方、対象楽曲のテンポに合わせて適切に歌唱できず、実際のテンポから遅れて歌唱したり速く歌唱してしまう場合には、模範発声時間の非再現性が大きくなった後、非再現性の大きさに起因する歌唱タイミングのズレに気付いた歌唱者が模範変化タイミングに合わせて構成音の音高を変化させる、といった歌唱行動を繰り返すことが予想される。

この場合、模範発声時間の非再現性が、大きくなった後それまでよりも小さくなるといった変化パターンを繰り返すようになり、これが系列において大きな周期性として現れるようになる。そして、この周期性は、対象楽曲に対する歌唱に追従できていない，つまりテンポに合わせて歌唱できていないほど大きくなる。

そのため、上述のように、模範発声時間の非再現性の系列に含まれる周期性が低いほど、対象楽曲をそのテンポに合わせて適切に歌唱できているといえ、歌唱に対する追従性が高いということができる。

つまり、上記構成のように、周期性が低いほど対象楽曲に対する歌唱の追従性として高い評価値を出力するようにすることで、その評価値を、その歌唱がどの程度対象楽曲に追従できているか，つまりどの程度そのテンポに合わせて歌唱できているのかといったことを判定した結果とすることができる。

この構成において「評価値を出力する」とは、例えば、表示部やスピーカから評価値を示すメッセージを出力させたり、後述するカラオケ装置など別の装置にその評価値を渡して処理させたり、といったことである。

また、この構成において、歌唱音声における構成音それぞれの発声時間ｖｌｅｎ［ｋ］を特定するに際しては、例えば、｛ｃｓｔ［ｋ＋１］＋ｖｄｔ［ｋ＋１］｝−｛ｃｓｔ［ｋ］＋ｖｄｔ［ｋ］｝といった数式に従って算出した値を、発声時間ｖｌｅｎ［ｋ］として特定するようにすることが考えられる。

また、上記構成における「非再現性」とは、歌唱音声における実際の発声時間が、同一構成音の模範発声時間をどの程度再現できていないのか、を示すものであり、例えば、発声時間ｖｌｅｎ［ｋ］と模範発声時間ｃｌｅｎ［ｋ］との比（＝ｖｌｅｎ［ｋ］／ｃｌｅｎ［ｋ］，または，ｃｌｅｎ［ｋ］／ｖｌｅｎ［ｋ］）として算出した値を、「１」から離れるほど大きくなる非再現性ｎｖｌｅｎ［ｋ］として特定するようにすることが考えられる。

また、上記構成において、模範音声おける模範変化タイミングが、歌唱音声における歌唱変化タイミングのいずれに対応するのかを特定するに際しては、どのような手法で模範音声と歌唱音声とを照合することとしてもよい。

具体的な例としては、例えば、模範音声および歌唱音声それぞれの時間軸に沿った音高の推移パターン（具体的な例としては、音高の推移を示す波形など）を照合して変化タイミングを特定することが考えられる。

このためには、上記第１の構成を以下に示す第２の構成（請求項２）のようにするとよい。
この構成において、前記タイミング照合手段は、前記歌唱音声および前記模範音声それぞれの時間軸に沿った音高の推移パターンを照合することで、前記歌唱音声において音高が変化する前記歌唱変化タイミングそれぞれが、前記模範音声における前記模範変化タイミングｃｓｔ［ｋ］のいずれに対応するのかを特定する。

この構成であれば、模範音声および歌唱音声それぞれにおける音高の推移パターンを照合することで、例えば、模範音声の時間軸に沿った音高の推移パターンのうち、歌唱音声における構成音の歌唱変化タイミングにおける推移パターンに所定のしきい値以上近似している模範変化タイミングを特定し、これを、その近似する歌唱変化タイミングに対応する模範変化タイミングであると特定することができる。

この構成において照合に用いられる模範音声における音高の推移パターンとしては、時間軸に沿った実際の音高の推移を示す波形などを用いればよく、模範音声となる構成音それぞれの音高，音価を示す情報列（具体的な例としては楽譜データ）などを用いてもよい。

なお、この構成では、模範音声において同一音高で連続する構成音が含まれていると、その模範変化タイミングが、音高の推移だけで対応関係を特定することが難しくなるため、別の照合方法を併用することが望ましい。この場合における「別の照合方法」としては、例えば、音声レベルの推移パターンによる照合方法が考えられる。

この構成において、前記タイミング照合手段は、前記歌唱音声の時間軸に沿った区間のうち、前記模範変化タイミングとの対応関係を特定した歌唱変化タイミングで挟まれ，かつ，前記対応関係を特定していない前記模範変化タイミングｃｓｔ［ｋ］に対応する区間について、該区間において音声レベルが一定以下になるタイミングを、前記対応関係が特定されなかった前記模範変化タイミングｃｓｔ［ｋ］に対応する前記歌唱変化タイミングとして特定する。

この構成であれば、模範音声および歌唱音声それぞれにおける音高の推移パターンを照合することで変化タイミングの対応関係を特定した後、ここで対応関係が特定されなかった区間について、音声レベルの推移パターンを照合することにより、模範音声において同一音高で連続する構成音の模範変化タイミングが、歌唱音声における歌唱変化タイミングのいずれに対応する模範変化タイミングかを特定することができる。

そのため、模範音声において同一音高で連続する構成音が含まれていたとしても、その模範変化タイミングが、歌唱音声における歌唱変化タイミングのいずれに対応するのかを適切に特定することができるようになる。

また、上記各構成において、歌唱の追従性を示す評価値を決定するに際しては、「非再現性の系列」に含まれる周期性を特定する必要があるところ、その特定は、評価値を決定するタイミングで行うこととすればよく、また、その決定に先立って行うこととしてもよい。

この後者のためには、上記各構成を以下に示す第４の構成（請求項４）のようにするとよい。
この構成においては、前記非再現性の系列に含まれる周期性を特定する周期特定手段，を備えている。そして、前記評価出力手段は、前記周期特定手段により特定された周期性が低いほど、前記対象楽曲に対する歌唱の追従性として高い評価値を出力する。

この構成であれば、歌唱の追従性を示す評価値を決定するのに先立ち、非再現性の系列に含まれる周期性を特定しておくことができる。
この構成における周期性の特定方法については、特に限定されないが、例えば、非再現性の系列を、非再現性の大きさを振幅として変化する波形とみなし、その波形の周波数成分の分布で規定される周期性を特定できるようにする、ことが考えられる。

このための構成としては、上記第４の構成を以下に示す第５の構成（請求項５）のようにすることが考えられる。
この構成において、前記周期特定手段は、前記非再現性の系列を、非再現性の大きさを振幅として前記模範変化タイミングｃｓｔ［ｋ］の到来する順に変化する波形とみなし、該波形の周波数成分の分布を算出することにより、該分布で規定される周期性を特定して、前記評価出力手段は、前記周期特定手段により算出された周波数成分の分布に基づき、該分布している周波数成分の尖鋭度が小さいほど、前記時間差の変化パターンに含まれる周期性が低いものとして高い評価値を出力する。

この構成であれば、「非再現性の系列」を、非再現性の大きさが振幅として変化する波形とみなし、その波形の周波数成分の分布を算出したうえで、その周波数成分における尖鋭度（いわゆるＱ値）が小さいほど変化パターンに含まれる周期性が低いものとして、そのような場合に高い評価値を出力することしている。

上記周波数成分の分布は、非再現性の系列における周期性が大きければ、当然、特定の周波数成分のスペクトル強度が大きくなっているはずであり、周波数成分の分布においてピークが現れる。この場合、そのようにスペクトル強度が大きくなっている周波数成分については、その尖鋭度として大きな値を示すものとなっているはずである。逆に，非再現性の系列における周期性が小さければ，尖鋭度は小さな値を示す。

そのため、上記構成のように、尖鋭度が小さいほど変化パターンに含まれる周期性が低いものとして、そのような場合に高い評価値を出力する構成であれば、その評価値を、対象楽曲に対する歌唱の追従性としての高い評価とすることができる。

また、この構成においては、周波数成分の分布においてスペクトル強度が大きくなっているものであれば、いずれの周波数成分の尖鋭度に基づいて評価値を決定することとしてもよいが、そのスペクトル強度が最も大きい周波数成分の尖鋭度に基づいて決定するようにすればよい。

このためには、上記構成を以下に示す第６の構成（請求項６）のようにするとよい。
この構成において、前記評価出力手段は、前記周期特定手段により算出された周波数成分の分布に基づき、該分布においてスペクトル強度が最も大きい周波数成分について、該周波数成分の尖鋭度が小さいほど、前記時間差の変化パターンに含まれる周期性が低いものとして高い評価値を決定する。

この構成であれば、周波数成分の分布においてスペクトル強度が最も大きくなっている周波数成分の尖鋭度に基づいて評価値を決定することができる。
また、上記各構成は、以下に示す第７の構成（請求項７）のようにするとよい。

この構成においては、ユーザによる対象楽曲の歌唱時における歌唱音声を示す歌唱データを、該歌唱された対象楽曲を識別可能な識別情報と共に取得する歌唱データ取得手段，を備えている。そして、前記タイミング照合手段は、前記歌唱データ取得手段により歌唱データで示される歌唱音声を、前記歌唱データと共に取得された識別情報で識別される対象楽曲の模範音声と照合する。

この構成であれば、ユーザによる対象楽曲の歌唱毎に歌唱データを取得すると共に、その歌唱データに基づいて評価値を決定して出力することができる。
なお、上記各構成における追従性評価システムは、１つの装置として構成してもよいし、それぞれ通信可能に接続された複数の装置が協調して動作するように構成してもよい。

また、上記課題を解決するための構成としては、カラオケシステムを以下に示す第８の構成（請求項８）のようにしてもよい。
この構成においては、請求項１から７のいずれかに記載の追従性評価システムと、前記歌唱データで示される歌唱音声を時系列に沿って所定の区間毎に分割した単位区間それぞれについて、該単位区間の音声に関する歌唱パラメータを、該単位区間において発声すべき正しい音声に基づく理想パラメータと対比することにより、その歌唱楽曲を採点する歌唱採点手段と、前記歌唱採点手段により採点された採点結果を報知する結果報知手段と、を備えている。

そして、前記歌唱採点手段は、前記歌唱パラメータと前記理想パラメータとの対比による採点結果を、前記評価出力手段により出力された評価値に応じて加減点させることにより、最終的な採点結果を決定する。

この構成であれば、上記各構成と同様の作用，効果を得ることができる。さらに、上述したように出力された評価値を考慮した採点結果を報知することができる。
また、上記課題を解決するためには、上記第１〜第８のいずれかにおける全ての手段として機能させるための各種処理手順をコンピュータシステムに実行させるためのプログラム（請求項９）としてもよい。

このプログラムを実行するコンピュータシステムであれば、上記第１〜第８のいずれかに係る追従性評価システムの一部を構成することができる。
なお、上述したプログラムは、コンピュータシステムによる処理に適した命令の順番付けられた列からなるものであって、各種記録媒体や通信回線を介して追従性評価システム，カラオケシステムや、これを利用するユーザ等に提供されるものである。

カラオケシステムの全体構成を示すブロック図追従性評価処理を示すフローチャート音高の推移パターンに基づいて変化タイミングの対応関係を特定する様子を示す図音声レベルの推移パターンに基づいて変化タイミングの対応関係を特定する様子を示す図非再現性の系列における変化のパターンの周期性を特定する様子を示す図楽曲演奏処理を示すフローチャート

以下に本発明の実施形態を図面と共に説明する。
（１）全体構成
カラオケシステム１は、周知のコンピュータシステムからなるサーバ２と、１以上のカラオケ装置３それぞれとが、ネットワーク１００を介して通信可能に接続されてなるものである。

サーバ２は、サーバ全体を制御する制御部２１，各種情報を記憶する記憶部２３，ネットワーク１００を介した通信を制御する通信部２５，キーボードやディスプレイなどからなるユーザインタフェース（Ｕ／Ｉ）部２７，記録メディアを介して情報を入出力するメディアドライブ２９などを備えている。なお、このサーバ２が本発明における追従性評価システムとして機能するものである。

カラオケ装置３は、装置全体を制御する制御部３１，演奏楽曲の伴奏内容および歌詞を示す楽曲データや映像データなどを記憶する記憶部３３，ネットワーク１００を介した通信を制御する通信部３５，各種映像の表示を行う表示部４１，複数のキー・スイッチなどからなる操作部４３，マイク４５からの音声の入力とスピーカ４７からの音声の出力とを制御する音声入出力部４９などを備えている。
（２）サーバ２による追従性評価処理
以下に、サーバ２の制御部２１が、内蔵メモリまたは記憶部２３に記憶されているプログラムに従って実行する追従性評価処理の処理手順を図２に基づいて説明する。

この追従性評価処理は、いずれかのカラオケ装置３から歌唱データを取得する（ｓ１１０）ことにより開始される。
この歌唱データは、ユーザがカラオケ装置３を使用して楽曲を歌唱した後で送信されてくるデータであり、その歌唱に係る音声の時系列に沿った音声信号をデジタル信号として示すものである。また、この歌唱データは、その歌唱に係る楽曲の識別情報（楽曲番号）が付加された状態で送信されてくるものである。なお、この歌唱データは、カラオケ装置３による歌唱とは無関係に取得されることとしてもよい。

この追従性評価処理が起動されると、まず、その起動に際して受信した歌唱データで示される音声波形に基づいて、この音声波形が離散周波数スペクトルに変換される（ｓ１２０）。

ここでは、まず、音声波形ｖ［ｉ］（ｉ：時間インデックス）（図３（ａ）参照）を、デジタル信号としてのサンプリングのポイントを所定数ｎ₀ずつズラして時間長Ｎ₀（例えば、数十ｍｓ）の時間窓ｗ［ｎ］で順番に切り出してなる波形素片ｖ_w［ｐ］（ｐ＝１，２，…，Ｎ₀）が、下記の式１により求められる。

なお、この時間素片ｖ_w［ｐ］は、時間窓ｗ［ｎ］の順番（番号）ｍ，および，デジタル信号におけるサンプリング周波数Ｆ_sに基づいて下記の式２により決められる時間領域ｔ［ｍ］の音声波形を示すものである。

そして、こうして求められた波形素片ｖ_w［ｐ］が、以下の式３により離散フーリエ変換されることにより、音声波形ｖ［ｉ］を変換してなる離散周波数スペクトルＶ［ｉ’］が求められる。

次に、上記ｓ１２０で変換された離散周波数スペクトルＶ［ｉ’］に基づいて、この離散周波数スペクトルに含まれている調波構造の成分における基本周波数が推定される（ｓ１３０）。ここでは、基本周波数Ｆ₀とその高調波成分（倍音成分）からなる調波構造モデルＶ_HM［ｉ’］（下記の式４）と、上記ｓ１２０にて変換された離散周波数スペクトルＶ［ｉ’］（ｉ’：周波数インデックス）と、の相関関係が最大になるＦ₀が、上述した時間領域ｔ［ｍ］について求められ、こうして求められるＦ₀が基本周波数ｖｆ０［ｍ］として推定される。

こうして推定された基本周波数ｖｆ０［ｍ］は、各時間窓に対応する周波数を分布させると、図３（ｂ）に示すように、歌唱データで示される音声波形に含まれる基本周波数の推移，つまり音高の推移パターンを示すものとなる。

次に、上記ｓ１１０にて受信した歌唱データに付加された楽曲（以降「歌唱楽曲」という）の識別情報（楽曲番号）に基づき、その楽曲において発声すべき正しい音声（以降「模範音声」という）を示す模範データが、記憶部２３における模範データ用の記憶領域にあらかじめ記憶されている複数種類の模範データの中から読み出される（ｓ１４０）。

この模範データは、歌唱楽曲における模範音声の時間軸に沿った音高の推移パターンを、その模範音声となる構成音ｋ（＝１，２，…）それぞれの発声開始タイミングｃｓｔ［ｋ］，音高ｃｆ０［ｋ］，音価ｃｌｅｎ［ｋ］および音声レベルｃｖｏｌ［ｋ］にて規定したものであり、本実施形態では、各構成音を音符として表した楽譜データである。

次に、上記ｓ１４０にて読み出された模範データで示される模範音声，および，上記ｓ１１０にて受信した歌唱データで示される歌唱音声それぞれの時間軸に沿った音高の推移パターンを照合することで、模範音声において連続する構成音が変化する変化タイミング（以降「模範変化タイミング」という）それぞれが、歌唱音声において連続する構成音の変化する変化タイミング（以降「歌唱変化タイミング」という）ｃｓｔ［ｋ］（ｋ＝１〜ｎ）のいずれに対応するのかが特定される（ｓ１５０）。

このｓ１５０では、まず、模範音声における音高の推移パターンに基づいて、模範音声において連続する構成音の変化が開始されてから終了するまでの間の所定タイミング（本実施形態では中間地点）それぞれが模範変化タイミングとして特定される。

続いて、歌唱音声および模範音声それぞれにおいて各模範変化タイミングを中心とする基準期間（例えば、隣接する構成音それぞれまでの期間）分の音高の推移パターンそれぞれが同一基準期間同士で照合される（図３（ｃ）参照）。

ここでは、模範音声における基準期間のうち、連続する構成音の音高が変化している模範変化タイミングを中心とする各基準期間の推移パターンに対し、歌唱音声における同一基準区間の推移パターンを時間軸に沿って移動させ、両推移パターンの類似度（相関関係）が最大となった際の類似度および時間軸に沿った時間差ｖｄｔ［ｋ］が算出される。なお、ここでの類似度（相関関係）および時間差を算出するための手法については特に限定されないが、例えば、特開２００５−１０７３３０号公報に記載されている手法を用いることが考えられる。

そして、上記照合により類似度および時間差が算出された模範変化タイミングそれぞれが、この模範変化タイミングとの照合の対象となった歌唱音声の基準期間に含まれる歌唱変化タイミングに対応するものとして特定される。ここで、同一音高で連続する構成音における模範変化タイミングに関しては、推移パターンの照合および時間差ｖｄｔ［ｋ］の算出が行われないが、これら時間差ｖｄｔ［ｋ］は初期値の「０」とされる。

次に、上記ｓ１１０にて受信した歌唱データで示される音声波形に基づいて、この音声波形が音声レベルの推移を示すレベル波形に変換される（ｓ１６０）。
ここでは、まず、上記ｓ１２０と同様に、音声波形ｖ［ｉ］（図３（ａ）参照）を、デジタル信号としてのサンプリングのポイントを所定数ｎ₀ずつズラして時間長Ｎ₀の時間窓ｗ［ｎ］で順番に切り出してなる波形素片ｖ_w［ｐ］が上記の式１により求められる。

そして、こうして求められた波形素片ｖ_w［ｐ］が、以下の式５により、音声レベルの推移を示すレベル波形ｖ_p［ｍ］に変換される。

こうして変換されたレベル波形ｖ_p［ｍ］は、各時間窓に対応する音声レベルを分布させると、図４（ａ）に示すように、歌唱データで示される音声波形における音声レベルの推移パターンを示すものとなる。

次に、上記ｓ１１０にて受信した歌唱データで示される歌唱音声それぞれの時間軸に沿った区間のうち、上記ｓ１５０にて模範変化タイミングとの対応関係が特定された歌唱変化タイミングで挟まれ，かつ，対応関係が特定されなかった模範変化タイミングに対応する区間について、この区間において音声レベルが一定以下になるタイミングが、その対応関係の特定されなかった模範変化タイミングに対応する歌唱変化タイミングとして特定される（ｓ１７０）。

ここでは、図４（ｂ）に示すように、上記ｓ１６０にて変換されたレベル波形のうち、該当する区間において音声レベルが最小となるタイミングが特定され、このタイミングが、該当区間において特定されなかった模範変化タイミングに対応する歌唱変化タイミングとして特定される。

このタイミングについてはどのように特定することとしてもよいが、本実施形態では、上述した式５により変換されたレベル波形ｖ_p［ｍ］に基づき、このレベル波形の一次微分値ｖ_p’［ｍ］＝０、および、二次微分値ｖ_p’’［ｍ］＞０の条件を同時に満たす「ｍ」に対応するタイミングとして特定するように構成されている。

ここでの各微分値は下記の式６，７により近似される。
一次微分値ｖ_p’［ｍ］＝ｖ_p［ｍ＋１］−ｖ_p［ｍ］ … （式６）
二次微分値ｖ_p’’［ｍ］＝ｖ_p’［ｍ＋１］−ｖ_p’［ｍ］ … （式７）
また、このｓ１７０では、さらに、以下の式８により、対応関係が特定された歌唱変化タイミングにおける模範変化タイミングｃｓｔ［ｋ］に対する時間差ｖｄｔ［ｋ］が算出，特定される。なお、下記の式８では、上記のように特定されたｍをｍ０と表してある。

次に、上記ｓ１５０，ｓ１７０にて特定された構成音ｋそれぞれについての時間差ｖｄｔ［ｋ］に基づいて、歌唱音声における各構成音ｋの発声時間ｖｌｅｎ［ｋ］それぞれが特定される（ｓ１８０）。ここでは、ある構成音ｋについての時間差ｖｄｔ［ｋ］と、これに隣接する構成音ｋ＋１についての時間差ｖｄｔ［ｋ＋１］と、から下記の式９により、構成音ｋに対する発声時間長ｖｌｅｎ［ｋ］が算出，特定される。

次に、上記ｓ１８０にて算出された発声時間ｖｌｅｎ［ｋ］それぞれについて、同一区間における模範発声時間ｃｌｅｎ［ｋ］の非再現性ｎｖｌｅｎ［ｋ］それぞれが特定される（ｓ１９０）。この「非再現性」とは、歌唱音声における実際の発声時間が、同一構成音の模範発声時間をどの程度再現できていないのか、を示すものである。

ここでは、上記ｓ１８０にて特定された発声時間ｖｌｅｎ［ｋ］それぞれを、この発声時間ｖｌｅｎ［ｋ］の算出時に参照された模範変化タイミングｃｓｔ［ｋ］，ｃｓｔ［ｋ＋１］の区間を適切に発声した場合における模範発声時間ｃｌｅｎ［ｋ］と対比することにより、発声時間ｖｌｅｎ［ｋ］における模範発声時間ｃｌｅｎ［ｋ］の非再現性ｎｖｌｅｎ［ｋ］（＝ｖｌｅｎ［ｋ］／ｃｌｅｎ［ｋ］）が算出される。

次に、上記ｓ１９０にて特定された非再現性ｎｖｌｅｎ［ｋ］の系列に基づいて、この系列における非再現性の変化パターンに含まれる周期性が特定される（ｓ２００）。
ここでは、非再現性の系列を、その特定に際して参照された変化タイミングの到来する順に非再現性の大きさを振幅として変化する波形とみなし（図５（ａ）参照）、その波形の周波数スペクトルの分布ＮＶＬＥＮ［ｋ］を下記の式１０にて算出することにより、この分布で規定される周期性が特定される。

こうして特定された周波数スペクトルの分布ＮＶＬＥＮ［ｋ］は、各変化タイミングについてスペクトル強度を分布させると、図５（ｂ）に示すように、非再現性の変化パターンに含まれる周期性が高いほど、その周期性に応じた周波数成分のスペクトル強度が大きくなる。つまり、この周波数スペクトルの分布ＮＶＬＥＮ［ｋ］は、スペクトル強度が大きいほど、そのスペクトル強度に対応する周波数成分についての周期性が高いということを示す。

そして、上記ｓ２００にて特定された周期性に基づいて、上記ｓ１１０で受信された歌唱データで示される歌唱音声における歌唱の追従性を評価してなる評価値が決定される（ｓ２１０）。

ここでは、上記ｓ２００にて特定された周波数スペクトルの分布ＮＶＬＥＮ［ｋ］において、その分布している所定の周波数成分（例えば、最もスペクトル強度の大きい周波数成分）の尖鋭度Ｑが小さいほど、非再現性の変化パターンに含まれる周期性が低いものとして高い評価値を決定する。

具体的には、上記周波数成分におけるピークとなる時間インデックスｋを「ｋ０」とし、そのピークから１／２の大きさになる時間インデックスｋの幅を「Δｋ」とした場合にｋ０とΔｋとの比（ｋ０／Δｋ）により尖鋭度Ｑが求められ、この尖鋭度Ｑの逆数が評価値ＳＣ（＝１／Ｑ）として決定される。

なお、このｓ２１０では、上述した評価値ＳＣの決定だけでなく、歌唱データに基づいて周知の採点を行い、その採点結果を、評価値ＳＣに応じて加減点させることにより、最終的な採点結果を決定することとしてもよい。ここでの採点は、例えば、歌唱データで示される歌唱音声を時系列に沿って所定の区間毎に分割した単位区間それぞれについて、その単位区間の音声に関する歌唱パラメータを、その単位区間において発声すべき正しい音声に基づく理想パラメータと対比することにより、単位区間それぞれにおけるパラメータの誤差に応じた値を採点結果とすればよい。

そして、このｓ２１０にて決定された評価値ＳＣ（または評価値と採点結果；以降「評価値等」という）が、楽曲データの送信元であるカラオケ装置３へと返信された後（ｓ２２０）、本追従性評価処理が終了する。

この評価値等を受信したカラオケ装置３では、後述する楽曲演奏処理により、その評価値等の表示部４１への表示を行うこととなる。
（３）カラオケ装置３による楽曲演奏処理
以下に、カラオケ装置３の制御部３１が内蔵メモリまたは記憶部３３に記憶されたプログラムに従って実行する楽曲演奏処理の処理手順を図６に基づいて説明する。この楽曲演奏処理は、カラオケ装置３が起動した以降、繰り返し実行される。

この楽曲演奏処理が起動されると、まず、ユーザにより歌唱すべき楽曲を選択するための操作が行われるまで待機状態となる（ｓ３１０：ＮＯ）。
その後、楽曲を選択するための操作が行われたら（ｓ３１０：ＹＥＳ）、そうして選択された楽曲（指定楽曲）の楽曲番号が取得される（ｓ３２０）。

次に、上記ｓ３２０にて取得された楽曲番号に基づき、この楽曲番号で識別される指定楽曲を演奏するための楽曲データをカラオケ装置３に要求するための情報として、その楽曲番号，および，これと共に取得されたユーザＩＤを伴う通知要求が生成され（ｓ３３０）、これがサーバ２に送信される（ｓ３４０）。

この通知要求を受信したサーバ２は、この通知要求に伴う楽曲番号で識別される指定楽曲を演奏するための楽曲データを返信してくるように構成されている。
こうして、上記ｓ３４０で通知要求を送信した後、サーバ２から返信されてくる楽曲データが受信されたら（ｓ３５０）、この楽曲データが記憶部３３に記憶される（ｓ３６０）。

次に、上記ｓ３６０にて記憶部３３に記憶された楽曲データに基づく指定楽曲の演奏が開始されると共に（ｓ３８０）、その演奏に際してマイク４５から入力された音声，つまり指定楽曲を歌唱してなる音声を示す歌唱データの生成が開始される（ｓ３９０）。

こうして、指定楽曲の演奏が開始された以降、その演奏が終了するまで待機状態となった後（ｓ４００：ＮＯ）、演奏が終了したら（ｓ４００：ＹＥＳ）、上記ｓ３９０にて開始された歌唱データの生成が終了され、その時点までに生成された歌唱データが取得される（ｓ４１０）。

次に、上記ｓ４１０にて取得された歌唱データがサーバ２へと送信される（ｓ４２０）。この歌唱データを受信したサーバ２は、上述した追従性評価処理により追従性の評価を行った後、その評価結果である評価値または採点結果（評価値等）を返信してくる。

なお、ここでは、歌唱データそのものをサーバ２へと送信しているが、サーバ２側で評価値等を決定するために必要なパラメータのみをサーバ２へと送信することとしてもよい。

そして、上記ｓ４２０により歌唱データがサーバ２へと送信されてから、このサーバ２から送信されてくる評価値等が受信され（ｓ４３０）、この評価値等が表示部４１に表示された後（ｓ４４０）、本楽曲演奏処理が終了する。
（４）作用，効果
このように構成されたカラオケシステム１では、歌唱音声および模範音声を照合して各構成音ｋの発声時間ｖｌｅｎ［ｋ］それぞれを特定すると共に（図２のｓ１８０）、これを対応する模範発声時間ｃｌｅｎ［ｋ］と対比して非再現性ｎｖｌｅｎ［ｋ］を特定し（同図ｓ１９０）、この非再現性ｎｖｌｅｎ［ｋ］の系列に含まれる周期性が低いほど、対象楽曲に対する歌唱の追従性として高い評価値を決定する（同図ｓ２１０）。

非再現性の系列は、対象楽曲に対する歌唱に追従できている，つまりテンポに合わせて適切に歌唱できていれば、その系列における変化パターンに大きな周期性が現れることはない。それは、対象楽曲のテンポに合わせて適切に歌唱できていれば、模範発声時間ｃｌｅｎ［ｋ］の非再現性ｎｖｌｅｎ［ｋ］が大きくなることはなく、一定の大きさで推移するため、大きな周期性を持った変化パターンとはなりえないからである。

一方、対象楽曲のテンポに合わせて適切に歌唱できず、実際のテンポから遅れて歌唱したり速く歌唱してしまう場合には、模範発声時間ｃｌｅｎ［ｋ］の非再現性ｎｖｌｅｎ［ｋ］が大きくなった後、非再現性ｎｖｌｅｎ［ｋ］の大きさに起因する歌唱タイミングのズレに気付いた歌唱者が模範変化タイミングに合わせて構成音の音高を変化させる、といった歌唱行動を繰り返すことが予想される。

この場合、模範発声時間ｃｌｅｎ［ｋ］の非再現性ｎｖｌｅｎ［ｋ］が、大きくなった後それまでよりも小さくなるといった変化パターンを繰り返すようになり、これが系列において大きな周期性として現れるようになる。そして、この周期性は、対象楽曲に対する歌唱に追従できていない，つまりテンポに合わせて歌唱できていないほど大きくなる。

そのため、上述のように、模範発声時間ｃｌｅｎ［ｋ］の非再現性ｎｖｌｅｎ［ｋ］の系列に含まれる周期性が低いほど、対象楽曲をそのテンポに合わせて適切に歌唱できているといえ、歌唱に対する追従性が高いということができる。

また、上記実施形態においては、模範音声および歌唱音声それぞれにおける音高の推移パターンを照合することで、模範音声の時間軸に沿った音高の推移パターンのうち、歌唱音声における構成音の歌唱変化タイミングにおける推移パターンに所定のしきい値以上近似している（最大の類似度となっている）模範変化タイミングを特定し、これを、その近似する歌唱変化タイミングに対応する模範変化タイミングであると特定できる（図２のｓ１５０）。

また、上記実施形態においては、模範音声および歌唱音声それぞれにおける音高の推移パターンを照合することで変化タイミングの対応関係を特定した後（図２のｓ１５０）、ここで対応関係が特定されなかった区間について、音声レベルの推移パターンを照合することにより、模範音声において同一音高で連続する構成音の模範変化タイミングが、歌唱音声における歌唱変化タイミングのいずれに対応するかを特定することができる（同図１７０）。

また、上記実施形態においては、歌唱の追従性を示す評価値を決定するのに先立ち、非再現性の系列に含まれる周期性を特定しておくことができる（図２のｓ２００）。
また、上記実施形態においては、「非再現性の系列」を、非再現性の大きさが振幅として変化する波形とみなし、その波形の周波数成分の分布を算出したうえで、その周波数成分における尖鋭度（いわゆるＱ値）が小さいほど変化パターンに含まれる周期性が低いものとして、そのような場合に高い評価値を出力する（図２のｓ２００，ｓ２１０）。

上記周波数成分の分布は、非再現性の系列における周期性が大きければ、当然、特定の周波数成分のスペクトル強度が大きくなっているはずであり、周波数成分の分布においてピークが現れる。この場合、そのようにスペクトル強度が大きくなっている周波数成分については、その尖鋭度として大きな値を示すものとなっているはずである。逆に，非再現性の系列における周期性が小さければ，尖鋭度は小さな値を示す（図５参照）。

そのため、上記実施形態のように、尖鋭度が小さいほど変化パターンに含まれる周期性が低いものとして、そのような場合に高い評価値を出力する構成であれば、その評価値を、対象楽曲に対する歌唱の追従性としての高い評価とすることができる。

また、上記実施形態においては、周波数成分の分布においてスペクトル強度が最も大きくなっている周波数成分の尖鋭度に基づいて評価値を決定することができる（図２の２１０）。

また、上記実施形態においては、ユーザによる対象楽曲の歌唱毎に歌唱データを取得すると共に（図２のｓ１１０）、その歌唱データに基づいて評価値を決定して出力することができる（同図ｓ１２０〜ｓ２１０）。

また、上記実施形態においては、周知の採点を行った結果を評価値ＳＣに応じて加減点させるように構成した場合であれば、追従性の評価として決定された評価値を考慮した採点結果を報知することができる（図２のｓ２２０）。
（５）変形例
以上、本発明の実施の形態について説明したが、本発明は、上記実施形態に何ら限定されることはなく、本発明の技術的範囲に属する限り種々の形態をとり得ることはいうまでもない。

例えば、上記実施形態においては、カラオケ装置３の表示部４１への表示という態様で評価値を出力するように構成されている（図６のｓ４４０）。しかし、この評価値の出力は、例えば、評価値を示すメッセージをサーバ２の表示部やスピーカなどで表示することで実現してもよい。

また、上記実施形態においては、模範データが、模範音声の構成音それぞれを音符として表した音譜データである場合を例示した。しかし、この模範データは、模範音声における音高または音声レベルの波形を示すデータとしてもよい。

また、上記実施形態では、カラオケシステム１として、サーバ２およびカラオケ装置３が協調して動作するように構成された場合を例示した。しかし、このシステムは、カラオケ装置３側に実装された機能をサーバ２に実装させることにより、サーバ２単体からなる構成としてもよい。

また、上記実施形態におけるサーバ２は、このサーバ２による処理の一部または全部を他の装置と協調して実施することにより、他の装置を含めた全体でサーバ２として機能するようにできることはいうまでもない。

また、上記実施形態においては、模範変化タイミングと歌唱変化タイミングとの時間差を算出するにあたり、推移パターンを照合するように構成されているものを例示した。しかし、両変化タイミングの時間差を算出するにあたっては、歌唱音声を音声認識してなる文字およびその歌唱されたタイミングを、対象楽曲の歌詞を構成する文字およびその歌唱されるタイミングと対比することにより、その時間差を算出することとしてもよい。

また、上記実施形態においては、非再現性ｎｖｌｅｎ［ｋ］として、ｖｌｅｎ［ｋ］／ｃｌｅｎ［ｋ］により算出された値を用いるように構成されている。しかし、この非再現性ｎｖｌｅｎ［ｋ］は、「１」から離れるほど非再現性が大きいことを示すものであればよく、例えば、ｃｌｅｎ［ｋ］／ｖｌｅｎ［ｋ］により算出した値を用いてもよい。

また、上記実施形態においては、図２のｓ１３０で基本周波数を推定するにあたり、上記式４のモデルＶＨＭ［ｉ’］を用いるように構成されたものを例示した。しかし、この基本周波数を推定する際に用いるモデルは、このモデルに限られない。例えば、下記に示す式１１のモデルを用いることが考えられる。

なお、この式７における「σ」は、スペクトルの広がりを調整するためのパラメータであり、分布のピーク値から所定割合Ｘ％（数十％；本実施形態の条件では約３７％）の値に小さくなるまでの周波数インデックスｉのズレを示す。この値が小さいほど調波構造の各成分は細く尖った形状となり、逆に大きいほど太くなめらかな形状となる。そして、この「σ」の値としては、上記所定割合Ｘ％よりも小さい値（具体的な例としては１０〜２０％程度）に設定しておけばよい。
（６）本発明との対応関係
以上説明した実施形態において、図２のｓ１５０，ｓ１７０が本発明におけるズレ特定手段であり、同図ｓ１８０が本発明における発声特定手段であり、同図ｓ１９０が本発明における再現性特定手段であり、同図ｓ２２０が本発明における評価出力手段であり、同図ｓ２００が本発明における周期特定手段であり、同図ｓ１１０が本発明における歌唱データ取得手段であり、同図ｓ２１０が本発明における歌唱採点手段であり、図６のｓ４４０が本発明における結果報知手段である。

１…カラオケシステム、２…サーバ、２１…制御部、２３…記憶部、２５…通信部、２７…ユーザインタフェース部、２９…メディアドライブ、３…カラオケ装置、３１…制御部、３３…記憶部、３５…通信部、４１…表示部、４３…操作部、４５…マイク、４７…スピーカ、４９…音声入出力部、１００…ネットワーク。

Claims

ユーザが対象楽曲を歌唱した際の歌唱音声を構成する構成音の変化するタイミング（以降「歌唱変化タイミング」という）それぞれが、その対象楽曲を適切に歌唱した場合における模範音声における構成音が変化するタイミング（以降「模範変化タイミング」という）ｃｓｔ［ｋ］（ｋ＝１〜ｎ）のいずれに対応するかを照合するタイミング照合手段と、
前記歌唱変化タイミングそれぞれにつき、該歌唱変化タイミングに対応するものとして前記タイミング照合手段に照合された前記模範変化タイミングを基準とするタイミングのズレ量ｖｄｔ［ｋ］を特定するズレ特定手段と、
それぞれ隣接する前記模範変化タイミングｃｓｔ［ｋ］，ｃｓｔ［ｋ＋１］，および，該模範変化タイミングについて前記ズレ特定手段が特定したズレ量ｖｄｔ［ｋ］，ｖｄｔ［ｋ＋１］に基づいて、前記歌唱音声における構成音それぞれの発声時間ｖｌｅｎ［ｋ］を特定する発声特定手段と、
前記発声特定手段により特定された発声時間ｖｌｅｎ［ｋ］それぞれを、該発声時間ｖｌｅｎ［ｋ］の特定時に参照された模範変化タイミングｃｓｔ［ｋ］，ｃｓｔ［ｋ＋１］の区間を適切に発声した場合における模範発声時間ｃｌｅｎ［ｋ］と対比することにより、発声時間ｖｌｅｎ［ｋ］における模範発声時間ｃｌｅｎ［ｋ］の非再現性ｎｖｌｅｎ［ｋ］を特定する再現性特定手段と、
前記再現性特定手段により特定された非再現性ｎｖｌｅｎ［ｋ］それぞれを、該特定に際して参照された前記模範変化タイミングｃｓｔ［ｋ］の到来する順に分布させた場合における非再現性の系列に基づいて、該系列における非再現性の変化パターンに含まれる周期性が低いほど、前記対象楽曲に対する歌唱の追従性として高い評価値を出力する評価出力手段と、を備えている
ことを特徴とする追従性評価システム。
前記タイミング照合手段は、前記歌唱音声および前記模範音声それぞれの時間軸に沿った音高の推移パターンを照合することで、前記歌唱音声において音高が変化する前記歌唱変化タイミングそれぞれが、前記模範音声における前記模範変化タイミングｃｓｔ［ｋ］のいずれに対応するのかを特定する
ことを特徴とする請求項１に記載の追従性評価システム。
前記タイミング照合手段は、前記歌唱音声の時間軸に沿った区間のうち、前記模範変化タイミングとの対応関係を特定した歌唱変化タイミングで挟まれ，かつ，前記対応関係を特定していない前記模範変化タイミングｃｓｔ［ｋ］に対応する区間について、該区間において音声レベルが一定以下になるタイミングを、前記対応関係が特定されなかった前記模範変化タイミングｃｓｔ［ｋ］に対応する前記歌唱変化タイミングとして特定する
ことを特徴とする請求項２に記載の追従性評価システム。
前記非再現性の系列に含まれる周期性を特定する周期特定手段，を備え、
前記評価出力手段は、前記周期特定手段により特定された周期性が低いほど、前記対象楽曲に対する歌唱の追従性として高い評価値を出力する
ことを特徴とする請求項１から３のいずれかに記載の追従性評価システム。
前記周期特定手段は、前記非再現性の系列を、非再現性の大きさを振幅として前記模範変化タイミングｃｓｔ［ｋ］の到来する順に変化する波形とみなし、該波形の周波数成分の分布を算出することにより、該分布で規定される周期性を特定して、
前記評価出力手段は、前記周期特定手段により算出された周波数成分の分布に基づき、該分布している周波数成分の尖鋭度が小さいほど、前記時間差の変化パターンに含まれる周期性が低いものとして高い評価値を出力する
ことを特徴とする請求項４に記載の追従性評価システム。
前記評価出力手段は、前記周期特定手段により算出された周波数成分の分布に基づき、該分布においてスペクトル強度が最も大きい周波数成分について、該周波数成分の尖鋭度が小さいほど、前記時間差の変化パターンに含まれる周期性が低いものとして高い評価値を決定する
ことを特徴とする請求項５に記載の追従性評価システム。
ユーザによる対象楽曲の歌唱時における歌唱音声を示す歌唱データを、該歌唱された対象楽曲を識別可能な識別情報と共に取得する歌唱データ取得手段，を備えており、
前記タイミング照合手段は、前記歌唱データ取得手段により歌唱データで示される歌唱音声を、前記歌唱データと共に取得された識別情報で識別される対象楽曲の模範音声と照合する
ことを特徴とする請求項１から６に記載の追従性評価システム。
請求項１から７のいずれかに記載の追従性評価システムと、
前記歌唱データで示される歌唱音声を時系列に沿って所定の区間毎に分割した単位区間それぞれについて、該単位区間の音声に関する歌唱パラメータを、該単位区間において発声すべき正しい音声に基づく理想パラメータと対比することにより、その歌唱楽曲を採点する歌唱採点手段と、
前記歌唱採点手段により採点された採点結果を報知する結果報知手段と、を備え、
前記歌唱採点手段は、前記歌唱パラメータと前記理想パラメータとの対比による採点結果を、前記評価出力手段により出力された評価値に応じて加減点させることにより、最終的な採点結果を決定する
ことを特徴とするカラオケシステム。
請求項１から８のいずれかに記載の全ての手段として機能させるための各種処理手順をコンピュータシステムに実行させるためのプログラム。