JP6024130B2

JP6024130B2 - 音声評価装置

Info

Publication number: JP6024130B2
Application number: JP2012056044A
Authority: JP
Inventors: 隆一成山; 松本　秀一; 秀一松本; 辰弥寺島
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2012-03-13
Filing date: 2012-03-13
Publication date: 2016-11-09
Anticipated expiration: 2032-03-13
Also published as: JP2013190564A

Description

本発明は、音声評価装置に関する。

カラオケ装置においては、歌唱者による歌唱の巧拙を採点する機能を備えるものがある。例えば特許文献１には、マイクロフォンから入力される音声信号を、相互に異なった採点基準になされた複数のモードで採点する方法が開示されている。

特開平１０−２６９９２号公報

ところで、ラップと呼ばれる歌唱法が用いられる楽曲がある。ラップでは、ピッチの値ではなく抑揚やリズム感が重視されるため、特許文献１に記載の技術等の従来の方式では採点が困難である場合があった。
本発明は上述の背景に鑑みてなされたものであり、抑揚やリズム感が重視される歌唱法における歌唱の評価を好適に行うことを目的とする。

上述した課題を解決するために、本発明は、音声の波形を示す音声データを取得する音声取得部と、模範となる音の特徴を示す模範音データを取得する模範音取得部と、前記音声取得部により取得された音声データにより示される音の特徴を特定する特徴特定部と、前記特徴特定部により特定された特徴の変化量と、前記模範音データにより示される音の特徴の変化量のそれぞれの変化量の差分を特定する差分特定部と、前記差分特定部により特定された差分に基づき前記音声データにより示される音を評価し、評価結果を出力する評価部と、音の特徴の時間的変化を表すグラフの傾きが予め定められた閾値以上変化する箇所を変位点とするとき、前記特徴特定部により特定された特徴の変位点を特定する変位点特定部と、前記模範音データにより示される特徴に関する変位点と、当該変位点の時刻から所定の時間差内に現れる前記変位点特定部により特定された前記音声データの変位点とを互いに対応付ける対応付け部とを具備し、前記差分特定部は、前記差分の特定において、前記対応付け部により対応付けられた前記音声データに関する変位点における特徴の変化量と前記模範音データに関する変位点における特徴の変化量との差分を特定することを特徴とする音声評価装置を提供する。

また、本発明の更に好ましい態様において、前記音声データに関する変位点の時刻と、前記模範音データに関する変位点の時刻との差分を特定する時刻変位特定部を有し、前記評価部は、前記差分特定部により特定された差分及び前記時刻変位特定部により特定された差分に基づき前記音声データにより示される音を評価し、評価結果を出力してもよい。

また、本発明の更に好ましい態様において、前記評価部は、前記差分特定部により特定された差分が予め定められた閾値以内である場合には同一の評価結果を出力する一方、それ以外の場合には、該特定された差分が大きいほど低い評価を示す評価結果を出力してもよい。

本発明の更に好ましい態様において、前記音声データにおいて予め定められた歌唱態様による歌唱を行う区間を表す区間データを取得する区間データ取得部を具備し、前記評価部は、前記区間データ取得部によって取得された区間データの示す区間内においては、前記差分特定部によって特定された差分に基づく評価を行うまたはピッチを主とした従来の歌唱評価を行う一方、該区間データの示す区間以外の区間においては、前記特徴特定部によって特定された特徴と、前記模範音データにより示される音の特徴との差分に基づく評価を行ってもよい。

また、本発明の別の好ましい態様において、前記音声データを予め定められたアルゴリズムに従って解析し、解析結果に応じて、予め定められた歌唱態様による歌唱を行う区間を特定する区間特定部を具備し、前記評価部は、前記区間特定部によって特定された区間内においては、前記差分特定部によって特定された差分に基づく評価を行うまたはピッチを主とした従来の歌唱評価を行う一方、該特定された区間以外の区間においては、前記特徴特定部によって特定された特徴と、前記模範音データにより示される音の特徴との差分に基づく評価を行ってもよい。

また、本発明は、音声の波形を示す音声データを取得する音声取得部と、前記音声取得部により取得された音声データにより示される音の特徴を特定する特徴特定部と、前記特徴特定部により特定された特徴の時間的変化を表すグラフに現れるピーク値を複数特定するピーク値特定部と、前記ピーク値特定部により特定されたピーク値の変化量を特定する変化量特定部と、前記変化量特定部により特定された変化量に基づき前記音声データにより示される音を評価し、評価結果を出力する評価部とを具備することを特徴とする音声評価装置を提供する。

また、本発明は、音声の波形を表す音声データを取得する音声取得部と、楽曲の拍を示す拍データを取得する拍データ取得部と、前記音声取得部により取得された音声データにより示される音の特徴を特定する特徴特定部と、前記特徴特定部により特定された特徴の時間的変化を表すグラフの傾きが予め定められた閾値以上変化する箇所を変位点として特定する変位点特定部と、前記変位点特定部により特定された変位点と、前記拍データ取得部により取得された拍データの示す時刻との時間差に基づき前記音声データにより示される音を評価し、評価結果を出力する評価部とを具備することを特徴とする音声評価装置を提供する。
また、この態様において、前記特徴特定部により特定された特徴の変化量と、模範となる音の特徴を表す模範音データにより示される音の特徴の変化量との差分を特定する差分特定部を具備し、前記評価部は、前記変位点と前記拍データの示す時刻との時間差に基づく評価を行うともに、前記差分特定部により特定された差分に基づき前記音声データにより示される音を評価してもよい。

本発明によれば、抑揚やリズム感が重視される歌唱法における歌唱の評価を好適に行うことができる。

本発明の実施形態におけるシステムの構成図カラオケ装置のハードウェア構成を表すブロック図伴奏データ記憶領域の内容を表す模式図採点用データの内容の一例を示す図変位点データの内容の一例を示す図カラオケ装置の機能的構成の一例を示すブロック図採点部の機能的構成の一例を示すブロック図ピッチ比較部が行う処理の内容を説明するための図ピッチ比較部が行う処理の内容を説明するための図制御部が行う処理の流れを示すフロー図制御部が行う採点処理の流れを示すフロー図ピッチ比較処理の内容を説明するための図ピッチ比較処理の内容を説明するための図ピッチ比較処理の内容を説明するための図得点算出処理の内容を説明するための図ピッチ比較処理の内容を説明するための図変位点のヒストグラムを示す図ピッチ比較処理の内容を説明するための図歌唱音声のピッチの変化の一例を示す図

＜実施形態＞
＜構成＞
図１は、本発明の実施形態におけるシステムの構成を表した図である。このシステムは、カラオケ装置１００と、サーバ装置２００と、ネットワークＮＷとを有する。カラオケ装置１００は、ユーザからの要求に従ってカラオケ楽曲を再生するとともに、再生されるカラオケ楽曲についてのユーザによる歌唱を評価する装置である。ネットワークＮＷはＬＡＮ（Local Area Network）やインターネットであり、カラオケ装置１００とサーバ装置２００との間におけるデータ通信が行われる通信網である。サーバ装置２００は、その内部あるいは外部に備えたＨＤＤ（Hard Disk Drive）等の記憶手段に、カラオケ楽曲に関するコンテンツデータ等の各種データを記憶しており、カラオケ装置１００からの要求に従って、ネットワークＮＷ経由でこのコンテンツデータをカラオケ装置１００に供給する装置である。ここで、コンテンツとは、カラオケ楽曲に関する音声と映像との組み合わせを指す。すなわち、コンテンツデータとは、主旋律の歌声が存在せず伴奏やコーラスで構成されたいわゆる伴奏データと、この楽曲の歌詞や歌詞の背景に表示する映像からなる映像データとから成り立っている。なお、サーバ装置２００に対してカラオケ装置１００は複数存在してもよい。また、カラオケ装置１００に対してサーバ装置２００が複数存在してもよい。

図２は、カラオケ装置１００のハードウェア構成を表したブロック図である。カラオケ装置１００は、制御部１０、記憶部２０、操作部３０、表示部４０、通信制御部５０、音声処理部６０、マイクロホン６１、及びスピーカ６２を有し、これら各部がバス７０を介して接続されている。制御部１０は、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、及びＲＯＭ（Read Only Memory）等を有している。制御部１０において、ＣＰＵが、ＲＯＭや記憶部２０に記憶されているコンピュータプログラムを読み出しＲＡＭにロードして実行することにより、カラオケ装置１００の各部を制御する。

操作部３０は、各種の操作子を備え、ユーザによる操作内容を表す操作信号を制御部１０に出力する。表示部４０は、例えば液晶パネルを備え、制御部１０による制御の下、各カラオケ楽曲に応じた歌詞テロップや背景映像等の各種画像を表示する。通信制御部５０は、カラオケ装置１００とネットワークＮＷとを有線あるいは無線で接続し、ネットワークＮＷを介したカラオケ装置１００とサーバ装置２００との間のデータ通信を制御する。

サーバ装置２００は、図示せぬＣＰＵや各種メモリを備えたコンピュータであり、特にネットワークストレージ２１０を備えている。ネットワークストレージ２１０は例えばＨＤＤであり、カラオケ楽曲のコンテンツデータ等の各種データを記憶する。図２においてサーバ装置２００は１つのネットワークストレージ２１０を備えているが、ネットワークストレージの数はこれに限ったものではなく、複数のネットワークストレージをサーバ装置２００が備えてもよい。ユーザにより予約されたカラオケ楽曲のコンテンツデータがネットワークストレージ２１０に記憶されている場合、カラオケ装置１００は、通信制御部５０による制御に従ってサーバ装置２００と通信を行い、ネットワークストレージ２１０から読み出されたコンテンツデータをネットワークＮＷ経由でダウンロードしながら、ダウンロードが完了した部分から順次再生する、というストリーミング再生を行う。

マイクロホン６１は、収音した音声を表すアナログの音声信号を音声処理部６０に出力する。音声処理部６０は、Ａ／Ｄ（Analog / Digital）コンバータを有し、マイクロホン６１が出力したアナログの音声信号をデジタルの音声データに変換して制御部１０に出力し、制御部１０はこれを取得する。また、音声処理部６０は、Ｄ／Ａ（Digital / Analog）コンバータを有し、制御部１０から受け取ったデジタルの音声データをアナログの音声信号に変換してスピーカ６２に出力する。スピーカ６２は、音声処理部６０から受け取ったアナログの音声信号に基づく音を放音する。なお、この実施形態では、マイクロホン６１とスピーカ６２とがカラオケ装置１００に含まれている場合について説明するが、音声処理部６０に入力端子及び出力端子を設け、オーディオケーブルを介してその入力端子に外部マイクロホンを接続する構成としても良く、同様に、オーディオケーブルを介してその出力端子に外部スピーカを接続するとしても良い。また、この実施形態では、マイクロホン６１からスピーカ６２へ出力されるオーディオ信号がアナログオーディオ信号である場合について説明するが、デジタルオーディオデータを入出力するようにしても良い。このような場合には、音声処理部６０にてＡ／Ｄ変換やＤ／Ａ変換を行う必要はない。操作部３０や表示部４０についても同様であり、外部出力端子を設け、外部モニタを接続する構成としてもよい。

記憶部２０は、各種のデータを記憶するための記憶手段であり、例えばＨＤＤや不揮発性メモリである。記憶部２０は、伴奏データ記憶領域２１、映像データ記憶領域２２、ＧＭ（Guide Melody）データ記憶領域２３、採点用データ記憶領域２４、及びユーザ歌唱音声データ記憶領域２５といった複数の記憶領域を備えている。

図３は、伴奏データ記憶領域２１の内容を表す模式図である。伴奏データ記憶領域２１には、各楽曲における伴奏の音声を表す伴奏データに関する情報が記憶されている。伴奏データ記憶領域２１には、「曲番号」、「曲名」、「歌手名」、「ジャンル」、及び「ファイル格納場所」といった複数の項目からなる伴奏データレコードが複数記憶されている。「曲番号」は、楽曲を一意に識別するための番号であり、例えば４桁の親番号と２桁の枝番号とからなる。「曲名」は、各楽曲の名称を表す。「歌手名」は、各楽曲の歌い手の名称を表す。「ジャンル」は、予め決められた分類基準で分類された複数のジャンルのうち、各楽曲の属する音楽のジャンルを表す。「ファイル格納場所」は、各楽曲の伴奏データそのものであるデータファイルの格納場所を表し、server1というフォルダを含む場合には伴奏データのデータファイルがサーバ装置２００に格納されており、server1というフォルダを含まない場合には伴奏データのデータファイルがカラオケ装置１００に格納されていることを意味している。例えば図３において、曲名が「ＢＢＢ」である楽曲は、伴奏データのデータファイルがサーバ装置２００に格納されていることを表し、曲名が「ＣＣＣ」である楽曲は、伴奏データのデータファイルがカラオケ装置１００の記憶部２０に格納されていることを表している。この伴奏データのデータファイルは、例えば、ＭＩＤＩ（Musical Instrument Digital Interface）形式のファイルである。

映像データ記憶領域２２には、各楽曲の歌詞を示す歌詞データ及び歌詞の背景に表示される背景映像を表す背景映像データが記憶されている。歌詞データによって示される歌詞は、カラオケ歌唱の際に、楽曲の進行に伴って歌詞テロップとして表示部４０に表示される。また、背景映像データによって表される背景映像は、カラオケ歌唱の際に楽曲の進行に伴って歌詞テロップの背景として表示部４０に表示される。ＧＭデータ記憶領域２３には、楽曲のボーカルパートのメロディを示すデータ、すなわち、歌唱すべき構成音の内容を指定するデータであるガイドメロディデータ（以下「ＧＭデータ」という）が記憶されている。ＧＭデータは、制御部１０が、楽曲においてラップによる歌唱やものまねによる歌唱（以下「特定歌唱」という）を行う区間以外の区間において、制御部１０がユーザによる歌唱の巧拙の評価処理を行う際に比較の基準として用いるものである。なお、制御部１０が行う評価処理については後述するため、ここではその詳細な説明は省略する。ＧＭデータは、例えば、ＭＩＤＩ形式により記述されている。

採点用データ記憶領域２４には、楽曲において特定歌唱を行う区間（以下「特定区間」という）の採点を行うために用いられるデータ（以下「採点用データ」という）が記憶されている。図４は採点用データの内容の一例を示す図である。図示のように、採点用データは、「曲番号」と「特定区間データ」と「ピッチ変位点データ」と「音量変位点データ」の各項目を含んでいる。これらの項目のうち、「曲番号」は上述したとおりである。「特定区間データ」は、特定区間を示すデータである。図４に示す例では、「曲番号」が「１００４−１９」の楽曲は、時刻ｔ１１からｔ２０の区間と、時刻ｔ２１から時刻ｔ３０の区間との２つの区間が特定区間であることが示されている。ひとつの楽曲に含まれる特定区間の数は１であってもよく、また、複数であってもよい。また、特定区間を有しない楽曲の場合は、採点用データは記憶されない。

図４において、「ピッチ変位点データ」は、模範となる音を表す模範音データ（例えば、ＧＭデータ）から生成されたデータであり、模範音データにおいてピッチの変化の傾向（ピッチを表すグラフの傾き）が変わる時刻を示す時刻データと、その時刻におけるピッチの値を示すピッチデータとを含む。図４に示す例では、「曲番号」が「１００４−１９」の楽曲の時刻ｔ１１からｔ２０の特定区間においては、（時刻，ピッチ）＝（ｔ１１，ｐ１１），（ｔ１２，ｐ１２），…で示される複数の箇所がピッチの変位点として示されている。なお、模範音データはＧＭデータに限らず、例えば模範となる歌唱音声を表すデータであってもよく、模範となる音を表すデータであればどのようなものであってもよい。「音量変位点データ」は、模範音データから生成されたデータであり、模範音データにおいて音量の変化の傾向（音量を表すグラフの傾き）が変わる時刻を示す時刻データと、その時刻における音量の値を示す音量データとを含む。以下の説明では、説明の便宜上、ピッチ変位点データと音量変位点データとを各々区別する必要がない場合には、これらを「変位点データ」と称して説明する。すなわち、変位点データは、ピッチ（又は音量）の時間的変化を表すグラフの傾きがその前後で予め定められた閾値以上変化する箇所を示すデータである。

図５は、変位点データの内容の一例を示す図である。図において、横軸は時刻を示し、縦軸はピッチ（又は音量）を示す。実線５００は、ＧＭデータによって表されるガイドメロディのピッチ（又は音量）の変化を表しており、以下、ＧＭ曲線５００という。この実施形態では、ＧＭ曲線５００の傾きが大きく変わる点（以下「変位点」という）として、ピッチ（又は音量）が上昇から下降に転じた点（例えば、図５の時刻ｔ１９参照）、上昇をやめてある一定範囲に収まる点、上昇し始めた点（例えば、時刻ｔ１４参照）、ピッチ（又は音量）が下降から上昇に転じた点（例えば、時刻ｔ１７参照）、下降をやめてある一定範囲に収まる点（例えば、時刻ｔ１３参照）、下降し始めた点（例えば、時刻ｔ１１参照）等、ピッチ（又は音量）を表すグラフ（ＧＭ曲線５００）の傾きの変化量が予め定められた閾値以上となった位置を用いる。この実施形態では、ＧＭ曲線５００の傾きの変化量が予め定められた閾値以上となる箇所に加えて、歌唱開始時のピッチの検出が開始される箇所（図５の時刻ｔ１１等）も変位点として用いる。なお、これに限らず、歌唱開始時のピッチの検出が開始される箇所を変位点として用いない構成としてもよい。

ユーザ歌唱音声データ記憶領域２５には、カラオケの対象となった各楽曲について、その伴奏データが再生されている期間中マイクロホン６１によって収音されたユーザの歌唱音声が音声処理部６０でデジタルデータに変換されることで生成された音声データが記憶される。この音声データをユーザ歌唱音声データという。このユーザ歌唱音声データは、音声の波形を表す音声データであり、例えば、ＷＡＶＥ（RIFF waveform Audio Format）形式のデータファイルとして記憶される。各楽曲についてのユーザ歌唱音声データは、制御部１０によって、その楽曲のＧＭデータに対応付けられる。

図６は、カラオケ装置１００の機能的構成の一例を示すブロック図である。図６において、再生部１１及び採点部１２は、制御部１０のＣＰＵが、ＲＯＭや記憶部２０に記憶されているコンピュータプログラムを読み出しＲＡＭにロードして実行することにより実現される。再生部１１は、カラオケ楽曲の再生を行う。具体的には、再生部１１は、伴奏データ及びＧＭデータに基づく音声をスピーカ６２から放音させるとともに、映像データに基づく映像を表示部４０に表示させる。

採点部１２は、歌唱者の歌唱音声を表すデータ（以下「ユーザ歌唱音声データ」という）を採点する。採点部１２は、歌唱されている区間が特定歌唱を行う区間（以下「特定区間」）かそれ以外の区間（以下「標準区間」という）かを判定し、特定区間においては採点用データを用いて採点を行う一方、標準区間においてはＧＭデータを用いて採点を行う。より具体的には、採点部１２は、標準区間においては歌唱音声のピッチとＧＭデータのピッチとの差分に応じて歌唱を評価する一方、特定区間においては歌唱のピッチの変化量とＧＭデータのピッチの変化量との差分が小さいほど高評価となるように評価を行う。

図７は、採点部１２の機能的構成の一例を示すブロック図である。図７において、ピッチ特定部１２１は、ユーザ歌唱音声データ記憶領域２５に記憶されたユーザ歌唱音声データを取得する音声取得部として機能するとともに、取得したユーザ歌唱音声データを解析し、ユーザ歌唱音声データにより示される音のピッチを特定するピッチ特定部として機能する。ピッチ特定部１２１は、特定したピッチを表すデータ（以下「ピッチデータ」という）を区間判定部１２３に出力する。音量特定部１２２は、ユーザ歌唱音声データ記憶領域２５に記憶されたユーザ歌唱音声データの音量を特定する。音量特定部１２２は、特定した音量を表すデータ（以下「音量データ」という）を区間判定部１２３に出力する。

区間判定部１２３は、採点用データ記憶領域２４に記憶された区間データを参照し、取得されたユーザ歌唱音声データが特定区間であるか否かを判定する。区間判定部１２３は、特定区間であると判定された場合には、ピッチ特定部１２１から取得したピッチデータをピッチ変位点特定部１２４に出力する。一方、それ以外の場合には、区間判定部１２３は、ピッチ特定部１２１から取得したピッチデータをピッチ比較部１２６に出力する。また、区間判定部１２３は、特定区間であると判定された場合には、音量特定部１２２から取得した音量データを音量変位点特定部１２５に出力する。一方、それ以外の場合には、区間判定部１２３は、音量特定部１２２から取得した音量データを音量比較部１２７に出力する。

ピッチ変位点特定部１２４は、区間判定部１２３から供給されるピッチデータの表すピッチの時間的な変化を表すグラフの傾きがその前後で予め定められた閾値以上変化する箇所を変位点として特定する。すなわち、ピッチ変位点特定部１２４は、区間判定部１２３から供給されるピッチデータの表すグラフの傾きの変化量が予め定められた閾値以上となる時刻を特定するとともに、その時刻におけるピッチの値を特定する。前記ピッチデータの表すグラフの傾きは、例えば以下のようにして求められる。ピッチ変位点特定部１２４は、隣り合うサンプルから傾きを求めても良く、また、複数のサンプルの近似曲線から傾きを求めてもよい。また、ピッチ変位点特定部１２４は、隣り合うサンプルから求めた傾きの列に対してＬＰＦ（ローパスフィルタ）をかけてもよい。また、ピッチ変位点特定部１２４は、傾きを算出する前にサンプルにＬＰＦをかけてもよい。また、ピッチ変位点特定部１２４は、１点１点微分して接線の傾きを求めてもよい。ピッチ変位点特定部１２４は、特定した時刻とピッチを表すピッチ変位点データをピッチ比較部１２６に出力する。

音量変位点特定部１２５は、区間判定部１２３から供給される音量データから、ユーザ歌唱音声データにおける音量の変位点を特定する。すなわち、音量変位点特定部１２５は、区間判定部１２３から供給される音量データの表すグラフの傾きがその前後で予め定められた閾値以上変化する時刻を特定するとともに、その時刻における音量の値を特定する。音量変位点特定部１２５は、特定した時刻と音量を表す音量変位点データを音量比較部１２７に出力する。

ピッチ比較部１２６は、標準区間と特定区間とで異なる処理を行う。ピッチ比較部１２６は、標準区間においては、区間判定部１２３から出力されるユーザ歌唱音声のピッチデータと、このユーザ歌唱音声に対応するＧＭデータを取得する。ＧＭデータは、制御部１０がユーザによる歌唱の巧拙を評価する際に比較の基準となるものであって、歌唱の対象となる曲に対して予め定められた基準である。制御部１０は、ユーザ歌唱音声データとＧＭデータとを時間軸方向に対応付けるとともに、この対応付け結果に従ってユーザ歌唱音声データのピッチとＧＭデータのピッチとを比較し、両者の差分を表す比較結果データを生成する。

一方、特定区間においては、ピッチ比較部１２６は、採点用データ記憶領域２４から、模範音データの変位点におけるピッチを表すピッチ変位点データを取得する。このピッチ変位点データは、模範となる音のピッチを示す模範音データの一例である。また、ピッチ比較部１２６は、採点用データ記憶領域２４から取得したピッチ変位点データの示す変位点（すなわち模範音データにより示されるピッチに関する変位点）と、この変位点の時刻から所定の時間差内に現れる、ピッチ変位点特定部１２４から出力されるピッチ変位点データの示す変位点（すなわちユーザ歌唱音声データにより示されるピッチに関する変位点）とを互いに対応付け、対応付けられたユーザ歌唱音声データに関する変位点におけるピッチの変化量と模範音データに関する変位点におけるピッチの変化量との差分を特定する。変位点同士の対応付けは、例えば以下のようにして行う。ピッチ比較部１２６は、ユーザ歌唱音声データのピッチ列と模範音データのピッチ列から変位点を求める。変位点の時間的な位置は、それぞれ曲の先頭位置を０（ゼロ）としたときの時刻で定まる。ピッチ比較部１２６は、模範音データのピッチ列から得た変位点の近傍に、ユーザ歌唱音声データのピッチ列から得た変位点があるか否かを探す。変位点の近傍としては、例えば、変位点の前後１秒以内、といったように時間でその範囲を決めてもよく、また、例えば、一拍等、テンポに依存するようにしてもよい。ピッチ比較部１２６は、近傍に変位点がない場合、模範音データの変位点に対応する変位点は存在しなかったものとする。一方、ピッチ比較部１２６は、近傍に変位点がひとつしかない場合は、その変位点が対応する変位点であるとする。また、ピッチ比較部１２６は、近傍に変位点が２つ以上ある場合は、複数の変位点のうち時間的に近いものを、対応付ける変位点として採用する。なお、ピッチ比較部１２６は、ピッチの傾きの変化の態様（例えば、上昇から下降に転じている、下降から上昇に転じている、等）が同じ変位点同士で比較する。

ピッチ比較部１２６は、特定した差分を表す比較結果データを生成する。ピッチ比較部１２６は、本発明に係る対応付け部及び差分特定部の一例に相当する。この実施形態では、ピッチ比較部１２６は、以下のような処理を行って比較結果データを生成する。図８及び図９は、特定区間におけるピッチ比較部１２６の処理の内容を説明するための図である。図８は、変位点における時刻の変化量の差分の算出処理の内容を示す図であり、図９は、変位点におけるピッチの変化量の差分の算出処理の内容を示す図である。図８及び図９において、横軸は時刻を示し、縦軸はピッチを示す。ＧＭ曲線５００は図５に示したそれと同様である。実線３００は、ユーザ歌唱音声データによって表されるユーザの歌唱時の音声のピッチの変化を表しており、以下、ユーザ歌唱音声曲線３００という。まず、ピッチ比較部１２６は、採点用データに含まれる、変位点Ｘ_i（ｉは１からｎ（ｎ＞１）までの整数）におけるピッチ変位点データ（ｇｔ_i，ｇｐ_i）と、その直前の変位点Ｘ_i-1におけるピッチ変位点データ（ｇｔ_i-1，ｇｐ_i-1）との変化量（Δｇｔ_i，Δｇｐ_i）＝（ｇｔ_i−ｇｔ_i-1，ｇｐ_i−ｇｐ_i-1）を算出する。同様に、ピッチ比較部１２６は、ユーザ歌唱音声データの変位点ＵＸ_iにおけるピッチ変位点データ（ｕｔ_i，ｕｐ_i）と、その直前の変位点ＵＸ_i-1におけるピッチ変位点データ（ｕｔ_i-1，ｕｐ_i-1）との変化量（Δｕｔ_i，Δｕｐ_i）＝（ｕｔ_i−ｕｔ_i-1，ｕｐ_i−ｕｐ_i-1）を算出する。

次いで、ピッチ比較部１２６は、採点用データの変位点毎に求めた変化量（Δｇｔ_i，Δｇｐ_i）と、ユーザ歌唱音声データの変位点毎に求めた変化量（Δｕｔ_i，Δｕｐ_i）との差分値（Δｔ_i，Δｐ_i）＝（Δｇｔ_i−Δｕｔ_i，Δｇｐ_i−Δｕｐ_i）を算出し、算出結果を表す時刻の差分値Δｔ_iと、ピッチの差分値Δｐ_iとを、比較結果データとして出力する。

音量比較部１２７は、標準区間と特定区間とで異なる処理を行う。音量比較部１２７は、標準区間においては、ユーザ歌唱音声データ記憶領域２５に記憶されたユーザ歌唱音声データの音量と、予め定められた音量基準値とを比較し、両者の差分を表す比較結果データを生成する。

一方、特定区間においては、音量比較部１２７は、採点用データに含まれる音量変位点データとユーザ歌唱音声データの音量変位点データとを用いて、両者の変化量の差分を表す比較結果データを生成する。この比較処理はピッチ比較部１２６が行うピッチの比較処理と同様である。すなわち、音量比較部１２７は、採点用データ記憶領域２４に記憶された採点用データに含まれる変位点毎の音量変位点データについて、変位点Ｘ_iにおける音量変位点データ（ｇｔ_i，ｇｖ_i）とその直前の変位点Ｘ_i-1における音量変位点データ（ｇｔ_i-1，ｇｖ_i-1）との変化量（Δｇｔ_i，Δｇｖ_i）を算出するとともに、ユーザ歌唱音声データの変位点についても同様の処理を行って変化量（Δｕｔ_i，ｕｖ_i）を算出し、両者の差分値（Δｔ_i，Δｖ_i）＝（Δｇｔ_i−Δｕｔ_i，Δｇｖ_i−Δｕｖ_i）を、比較結果データとして出力する。

採点出力部１２８は、ピッチ比較部１２６から出力される比較結果データと、音量比較部１２７から出力される比較結果データとに基づいて、歌唱音声の評価処理を行い、評価結果を表示部４０等に出力する。採点出力部１２８は、採点用データ記憶領域２４から、特定区間を表す特定区間データを取得し、取得した特定区間データの示す特定区間においては、歌唱音声データのピッチの変化量と模範音データのピッチの変化量との差分が小さいほど高評価となるように評価処理を行う一方、特定区間以外の区間においては、ユーザ歌唱音声データのピッチとＧＭデータのピッチとの差分に基づいてユーザ歌唱音声データを評価する。より具体的には、例えば、標準区間においては、採点出力部１２８は、ユーザ歌唱音声データが示す音声のピッチの変化と、ＧＭデータが示すガイドメロディのピッチの変化とを比較し、これらの一致の程度を示す評価値を算出する。評価値は、あるノートにおいて、両者のピッチの差が予め定められた許容範囲内に収まっていれば１００％（すなわち減点なし）とし、両者のピッチの差が上記範囲内に収まらない部分の期間が、ＧＭデータにおいてこのノートにおける音長の半分に渡っていれば５０％である、といった具合であってもよい。つまり、あるノートにおいて、両者のピッチの差が上記範囲内に収まる期間を、ＧＭデータにおいてこのノートにおける音長で除した値を評価値とする。制御部１０は、算出した評価値に基づいて減点するポイントを決定する。例えば、あるノートに「２点」のポイントが割り当てられているときに、評価値が５０％と算出された場合、制御部１０は、「１点」を減点のポイントとして決定する。

評価値は、例えば、あるノートにおいて、両者のピッチの差が予め定められた許容範囲内に収まっていれば１００％（すなわち減点なし）とし、両者のピッチの差が上記範囲内に収まらない部分の期間が、ＧＭデータにおいてこのノートにおける音長の半分に渡っていれば５０％である、といった具合であってもよい。なお、音量基準値は、ＧＭに含まれるノート毎に設定されていてもよく、また、例えば、小節毎等の予め定められた区間毎に設定されていてもよい。

一方、特定区間においては、採点出力部１２８は、例えば、模範音データの変位点一箇所ごとに点数をつけ、特定区間終了後に平均を求めてもよい。より具体的には、例えば、採点出力部１２８が、ずれ度ｘ_iを下記の（１）式で算出し、全ての変位点のずれ度ｘ_iの平均値が小さいほど点数が高くなるように採点を行ってもよい。以下の（１）式において、Δｔ_iはピッチ変位点の時間差（ピッチ比較部１２６により算出される差分値Δｔ_i）を示し、Δｐ_iは変位点のピッチ差（ピッチ比較部１２６により算出される差分値Δｐ_i）を示す。また、α，βは重み付け係数である。
ｘ_i＝｜Δｔ_i｜＊α＋｜Δｐ_i｜＊β …（１）

なお、採点の態様は上記のものに限らず、他の態様であってもよい。例えば、採点出力部１２８は、時間差の偏差とピッチ差の偏差をそれぞれ変位点毎に点数化したのち、変位点毎の点数ｓ_iを下記の（２）式により算出し、全変位点の得点の平均が大きいほど点数が高くなるように採点を行ってもよい。以下の（２）式において、ｓｔ_iは変位点Ｘ_iにおける時間差の偏差に基づく点数を示し、ｓｐ_iは変位点Ｘ_iにおけるピッチ差の偏差に基づく点数を示す。
ｓ_i＝ｓｔ_i＊α＋ｓｐ_i＊β …（２）

＜動作＞
図１０は、制御部１０が行う処理の流れを示すフロー図である。操作部３０を介してユーザにより楽曲が予約されると（ステップＳ１００；Ｙｅｓ）、制御部１０は、記憶部２０から予約された楽曲の検索を行う（ステップＳ１０２）。具体的にはステップＳ１０２において、制御部１０は、伴奏データ記憶領域２１、映像データ記憶領域２２、及びＧＭデータ記憶領域２３の各々から、選択された楽曲の曲番号または曲名をキーにして、その楽曲に関するデータを検索し、検索結果のデータをＲＡＭに読み込む。

次いで、制御部１０は、ＲＡＭに記憶された伴奏データ、映像データ、及びＧＭデータに基づいて、カラオケ楽曲の再生を行う（ステップＳ１０４）。具体的にはステップＳ１０４において、制御部１０は、伴奏データ及びＧＭデータに基づく音声をスピーカ６２から放音させるとともに、映像データに基づく映像を表示部４０に表示させる。そして制御部１０は、マイク６１によって収音されたユーザの歌唱音声が音声処理部６０によってデジタルのデータに変換されたものであるユーザ歌唱音声データを、ユーザ歌唱音声データ記憶領域２５に記憶させる（ステップＳ１０６）。カラオケ楽曲の再生が終了すると、制御部１０は、ユーザ歌唱音声データ記憶領域２５に記憶されたユーザ歌唱音声データとＧＭデータ及び採点用データとに基づいて、歌唱の採点を行う（ステップＳ１０８）。そして制御部１０は、採点結果を表示部４０に表示させる（ステップＳ１１０）。

図１１は、制御部１０が行う採点処理（図１０のステップＳ１０８）の流れを示すフロー図である。まず、制御部１０は、ユーザ歌唱音声データにより示される音のピッチを特定する（ステップＳ２００）。次いで、制御部１０は、特定区間においてユーザ歌唱音声データからピッチ変位点を特定する（ステップＳ２１０）。次いで、制御部１０は、予め定められた単位区間毎に、以下のステップＳ２２０からステップＳ２５０の処理を行うことによって、ユーザ歌唱音声の採点を行う。まず、制御部１０は、採点対象が標準区間であるか特定区間であるかを判定する（ステップＳ２２０）。制御部１０は、標準区間である場合は（ステップＳ２２０；ＮＯ）、ユーザ歌唱音声データのピッチとＧＭデータのピッチとを比較し、両者の差分に応じて評価値を算出するとともに、ユーザ歌唱音声データの音量と予め定められた音量基準値とを比較し、両者の差分に応じて評価値を算出する（ステップＳ２３０）。一方、制御部１０は、特定区間である場合には（ステップＳ２２０；ＮＯ）、ユーザ歌唱音声データから特定されたピッチ変位点を表すデータの変化量と採点用データ記憶領域２４に記憶されたピッチ変位点データの変化量とを比較し、両者の変化量の差分に応じた評価値を算出するとともに、ユーザ歌唱音声データから特定された音量変位点を表すデータと採点用データ記憶領域２４に記憶された音量変位点データとを比較し、両者の変化量の差分に応じた評価値を算出する（ステップＳ２４０）。

制御部１０は、採点していない区間があるかを判定することによって処理を終了するか否かを判定し（ステップＳ２５０）、採点対象である区間がある場合には（ステップＳ２５０；ＮＯ）、ステップＳ２２０に戻って次の区間の採点を行う一方、楽曲の最後まで採点したと判定された場合には（ステップＳ２５０；ＹＥＳ）、採点処理を終了する。

ところで、ラップの歌唱においては、小節の終わりなどで韻を踏みながら、あまりメロディを付けずにリズミカルに喋るように歌唱される。そのため、ラップの採点においてはピッチの一致度はそれほど重視されるものではなく、イントネーションやリズムが重視される。一般的な歌唱の採点においては、メロディに乗せて歌う歌唱の採点を目的としているため、ピッチの絶対的な値を重視している。一方、ラップでは、ピッチの値ではなく、抑揚やリズム感を重視するため、従来の方式では採点が困難である。この実施形態では、ユーザ歌唱音声データのピッチの変化量とＧＭデータのピッチの変化量との差分に応じて採点を行うから、ラップやものまね等、抑揚やリズム感が重視される音声を好適に採点することができる。

＜変形例＞
以上の実施形態は次のように変形可能である。尚、以下の変形例は適宜組み合わせて実施しても良い。また、上記実施形態と以下の変形例を組み合わせて実施しても良い。

＜変形例１＞
上述の実施形態では、区間データを参照して特定区間とそれ以外の区間とで異なる評価処理を行うようにしたが、これに限らず、特定区間か否かを判定する処理を行わないようにしてもよい。この場合は、楽曲の全ての区間において上述の採点用データを用いた採点を行うようにしてもよい。より具体手的には、例えば、ジャンルが「ラップ」の楽曲については、楽曲の全ての区間において採点用データを用いた採点処理を行うようにしてもよい。この態様によれば、制御部１０は、採点処理を切り替える必要がなく、また、曲データに特定区間を指示する必要がない。

＜変形例２＞
上述の実施形態では、制御部１０は、ユーザ歌唱音声データからピッチ変位点と音量変位点とを特定し、隣り合う変位点の変化量の差分を、ユーザ歌唱音声データと採点用データとで比較した。ユーザ歌唱音声データと採点用データの比較処理の態様は上述したものに限定されるものではなく、例えば、以下のような処理であってもよい。まず、制御部１０は、予め定められた時間間隔で、ユーザ歌唱音声データのピッチの変化量を算出するとともに、模範音データ（例えば、ＧＭデータ）のピッチの変化量を予め定められた時間間隔で算出する。次いで、制御部１０は、算出したユーザ歌唱音声データのピッチの変化量と模範音データのピッチの変化量とを比較し、両者の差分を算出する。図１２に示す例では、模範音データのピッチの一定間隔毎の差（ｂ−ａ），（ｃ−ｂ），（ｄ−ｃ），…と、ユーザ歌唱音声データのピッチの一定間隔毎の差（ｂ´−ａ´），（ｃ´−ｂ´），（ｄ´−ｃ´），…とが比較され、両者の差分が算出される。この算出処理によって求められる差分が小さいほど、ユーザ歌唱音声データのピッチと模範音データのピッチとの差分の偏差が小さいといえる。そのため、制御部１０が、算出される差分が小さいほど高評価となるような評価処理を行うことで、上述の実施形態と同様の評価処理が行われる。このように、制御部１０は、変位点におけるピッチの変化量の差分に応じて採点を行うことに代えて、ユーザ歌唱音声データのピッチと模範音データにより示される音のピッチとを予め定められた単位時間毎に比較し、両者の変化量の差分に基づいた評価処理を行ってもよい。この態様においても、上述の実施形態と同様に、抑揚やリズム感が重視される歌唱法による歌唱を好適に評価することができる。要は、制御部１０は、ユーザ歌唱音声データのピッチの変化量と模範音データにより示される音のピッチの変化量との差分に基づいてユーザ歌唱音声データにより示される音を評価し、評価結果を出力するものであればよい。

＜変形例３＞
また、ユーザ歌唱音声データと採点用データの比較処理は、以下のような処理であってもよい。まず、制御部１０は、ＧＭ曲線５００の傾きを求め、この傾きの値の範囲に応じて特定区間を複数の区間に分割する。例えば、制御部１０は、傾きが正の値である区間（すなわちピッチが上昇している区間）、負の値である区間（すなわちピッチが下降している区間）、ゼロ（又はゼロに近い予め定められた閾値内である）値である区間（すなわちピッチの変化が少ない区間）、に分割してもよい。同様に、制御部１０は、ユーザ歌唱音声曲線３００の傾きを求め、この傾きの値の範囲に応じて特定区間を複数の区間に分割する。次いで、制御部１０は、ピッチの変化の態様が同じである区間（例えば、共に傾きが正の値である区間）（図１３の区間Ａ１参照）については高評価とする一方、ピッチの変化の態様が異なる区間（例えば、一方の傾きの値が正である一方、他方の傾きの値が負である区間）（図１３の区間Ａ２参照）については低評価となるように評価処理を行うようにしてもよい。ピッチの変化の態様が異なる区間は、ユーザ歌唱音声データのピッチの変化量と模範音データのピッチの変化量との差分は大きくなるといえるから、この評価処理においても、上述の実施形態と同様に、歌唱音声データのピッチの変化量と模範音データのピッチの変化量との差分が大きいほど低評価となる評価処理が行われる。そのため、この態様においても、抑揚やリズム感が重視される歌唱法による歌唱を好適に評価することができる。また、この態様によれば、歌唱を評価する際に変位点を特定する必要がない。

＜変形例４＞
また、ユーザ歌唱音声データと採点用データの比較処理は、以下のような処理であってもよい。まず、制御部１０は、ユーザ歌唱音声データからピッチを特定し、ピッチの平均値を算出する。また、制御部１０は、模範音データのピッチの平均値を算出し、ピッチの値と算出した平均値との差分が予め定められた閾値以上となる区間（図１４の区間Ａ１１，Ａ１２，…参照）を示す区間データを生成する。なお、制御部１０がこの区間データを生成するに限らず、区間データを予め採点用データに含めて採点用データ記憶領域２４に記憶しておく構成としてもよい。制御部１０は、ユーザ歌唱音声データのピッチと平均値との差分が予め定められた閾値以上となる区間（図１４の区間Ａ２１，Ａ２２，…参照）を特定し、特定した区間と区間データの示す区間とを比較し、重複する部分が大きいほど高評価となるように評価処理を行う。この態様においては、ピッチの平均値からの差分が閾値以上となる区間の重複量に応じて評価されるから、抑揚やリズム感が重視される歌唱法による歌唱を好適に採点することができる。

また、他の例として、例えば、制御部１０が、ユーザ歌唱音声データにおいて所定の時間間隔（例えば５００ｍｓ程度）でピッチを取得し、隣り合うサンプル毎のピッチの差の絶対値の合計値を算出するとともに、模範音データにおいて同様の時間間隔でピッチを取得した場合の隣り合うピッチの差の絶対値の合計値を算出し、ユーザ歌唱音声データにおける合計値と模範音データにおける合計値とを比較してもよい。この場合、ユーザ歌唱音声データから算出された合計値と模範音データから算出された合計値との差分が小さいほど高評価となるように評価処理を行ってもよい。この態様によれば、模範音データのピッチを用いて評価することができ、また、評価処理に要する計算量を軽くすることができる。

＜変形例５＞
上述の実施形態では、制御部１０は、上述の（１）式を用いて変位点毎の採点を行ったが、採点処理の態様はこれに限らず、例えば、図１５に示すような採点関数４００を用いて採点値を算出してもよい。図１５は、変位点一箇所あたりの得点の算出処理の内容を示す図であり、横軸はユーザ歌唱音声データと採点用データとの時間（又はピッチ）の変化量の差分を示し、縦軸は得点を示す。図１５に示す例では、制御部１０は、変化量の差分がある一定範囲内であれば満点となり、それ以降は点数が下がり、ある一定量以上のずれは最低点となるように得点を算出する。すなわち、制御部１０は、ユーザ歌唱音声データの変化量と採点用データの変化量との差分が予め定められた閾値以内である場合には同一の評価結果を出力する一方、それ以外の場合には、差分が大きいほど低い評価結果を出力する。この態様によれば、ずれをある程度許容するような計算方式をとることができるため、より聴感に近い採点結果が得られる。

＜変形例６＞
上述の実施形態では、変位点ごとに採点し、変位点ごとの採点値の平均値を求めることで特定区間の採点を行うようにしたが、特定区間の採点の態様はこれに限定されるものではない。例えば、採点用データにおいてある時刻にピッチの変位点があるとして、その時間的なごく近傍に歌唱ピッチの変位点があると高得点が得られ、時間的に離れれば離れるほど得点が下がるようにしてもよい。また、例えば、制御部１０が、採点用データのピッチの変位点がない時刻に歌唱ピッチが変位点をとると減点するようにしてもよい。

また、他の例として、例えば、制御部１０が、特定区間全体を見て統計処理をしてもよい。より具体的には、例えば、採点用データによって示される変位点の時間と、歌唱の変位点の時間の差（図１６のΔｔ５０参照）の平均と偏差を求め、平均がゼロに近いほど、また偏差が小さいほど高得点が得られるようにしてもよい。各変位点で、採点用データとユーザ歌唱音声データとで変位点の時間差を算出し、時間差の平均がゼロに近ければ近いほど、また、偏差がゼロに近ければ近いほど、採点用データによって示される模範歌唱のとおりに歌唱したことになる。そのため、制御部１０は、以下の（３）式で点数ｓｃｏｒｅを算出してもよい。以下の（３）式において、Ａは平均値、Ｄは偏差値、ａ，ｂ，ｃは係数とする。
ｓｃｏｒｅ＝ａＡ＋ｂＤ＋ｃ …（３）

この態様において、制御部１０が、ヒストグラムをとる等の処理を行う（図１７参照）ことによって特定の変位点（例えば極大値をとる点など）を特定し、特定した変位点に対して、重みを行ってもよい。この態様によれば、特定の変位点においては、時間のずれが強調されることになり、聴いた感じにより近い採点が行われる。

＜変形例７＞
上述の実施形態では、制御部１０は、特定区間においては採点用データを用いて採点を行ったが、これに限らず、採点用データを用いずに採点を行ってもよい。この場合は、例えば、楽曲情報に含まれる拍の時刻（または拍間を２分割または４分割する時刻）とユーザ歌唱音声データから特定された変位点と時刻の差を用いて評価処理を行ってもよい。（図１８参照）。すなわち、制御部１０が、楽曲の拍を示す拍データを取得し、取得した拍データの示す時刻と、ユーザ歌唱音声におけるピッチ変位点の時刻との時間差に基づいて歌唱音声を評価してもよい。この場合、制御部１０は、拍と変位点とのずれ量（すなわち時間差）が大きいほど低評価となるように評価処理を行ってもよい。この態様によれば、模範音データを用いることなく歌唱の評価を行うことができるから、模範音データを作成する手間が省かれる。また、制御部１０が、この変形例に係る評価処理と、上述の実施形態に係る評価処理とを併用してもよい。すなわち、制御部１０が、ユーザ歌唱音声のピッチの変位点の時刻と楽曲の拍データの示す時刻との時間差に基づく評価を行うとともに、ユーザ歌唱音声のピッチの変化量と模範音データのピッチの変化量との差分に基づいて評価を行うようにしてもよい。

また、採点用データを用いない他の態様として、例えば、制御部１０が、変位点のうち、極大値を統計処理し、分散が小さければ小さいほど高得点となるようにしてもよい。すなわち、制御部１０が、ユーザ歌唱音声データにより示される音のピッチの時間的な変化を表すグラフに現れるピーク値（図１９の変位点ｐ９１，９２，９３参照）のピッチの値の変化量（偏差）を算出し、算出された変化量（偏差）が小さいほど高評価となるように評価処理を行ってもよい。得点の算出の態様としては、例えば、１００から偏差を差し引いた値を得点として算出してもよい。変位点のうち、値が極大となる点の値は、ラップ等の歌唱の場合は歌唱が上手な歌唱者ほどそろってくる（図１９参照）。そのため、このような評価処理を行うことで、変位点の値がそろっている歌唱ほど高評価が得られる。この態様によれば、模範音データを用いることなく歌唱の評価を行うことができるから、模範音データを作成する手間が省かれる。

また、採点用データを用いない他の態様として、例えば、制御部１０が、ユーザ歌唱音声の音量の立ち上がり部を特定し、特定した立ち上がり部を用いて歌唱のリズムを評価してもよい。この場合は、例えば、制御部１０が、楽曲情報に含まれる拍の時刻（または拍間を２分割または４分割する時刻）と特定された音量の立ち上がり部の時刻の差を用いて評価処理を行ってもよい。この場合、制御部１０は、拍と立ち上がり部とのずれ量（すなわち時間差）が大きいほど低評価となるように評価処理を行ってもよい。この態様によれば、採点用データを用いることなく評価することができる。また、この態様によれば、模範音データを用いることなく歌唱の評価を行うことができるから、模範音データを作成する手間が省かれる。また、音量の立ち上がり部に限らず、制御部１０が、音程の立ち上がり部を用いて歌唱のリズムを評価してもよい。この場合は、制御部１０が、ユーザ歌唱音声の音程の立ち上がり部を特定し、楽曲情報に含まれる拍の時刻と特定した音程の立ち上がり部の時刻の差を用いて評価処理を行ってもよい。また、音程の立ち上がり部に限らず、制御部１０が、ユーザ歌唱音声の検出が開始されたタイミングを用いて歌唱のリズムを評価してもよい。この場合は、制御部１０が、ユーザ歌唱音声の検出が開始されたタイミングを特定し、楽曲情報に含まれる拍の時刻と特定したタイミングとの時間差を用いて評価処理を行ってもよい。この態様によれば、模範音データを用いることなく歌唱の評価を行うことができるから、模範音データを作成する手間が省かれる。

＜変形例８＞
上述の実施形態では、制御部１０が、特定区間を示す区間データを取得する構成としたが、これに代えて、制御部１０が、ユーザ歌唱音声データを予め定められたアルゴリズムに従って解析し、解析結果に応じて特定区間を特定するようにしてもよい。具体的には、例えば、制御部１０が、ピッチの変化の態様が予め定められた条件を満たす区間を特定区間として特定するようにしてもよい。この場合も、上述の実施形態と同様に、制御部１０は、特定区間においては採点用データを用いた採点を行うようにすればよい。この態様によれば、特定区間を予め曲データに記載するという手間が省かれる。

＜変形例９＞
上述の実施形態では、制御部１０は、ピッチの変化量の差分と音量の変化量の差分とを用いて採点処理を行ったが、音量の変化を採点に加味しない構成であってもよい。すなわち、ピッチの変化に基づいて評価値を算出するようにしてもよい。この場合は、採点用データに、音量の変位点を表すデータを含める必要はない。

また、上述の実施形態では、採点用データを採点用データ記憶領域２４に予め記憶しておく構成としたが、これに限らず、制御部１０が、模範となる歌唱（以下「模範歌唱」という）を表すデータ（以下「模範歌唱データ」）を解析し、採点用データを生成するようにしてもよい。

上述の実施形態では、制御部１０が、歌唱音声データをユーザ歌唱音声データ記憶領域２５に記憶し、歌唱が終了した後に採点を行うようにしたが、これに限らず、歌唱中にリアルタイムで採点処理を行うようにしてもよい。

また、上述の実施形態では、制御部１０は、歌唱音声のピッチとＧＭデータのピッチとを比較し、比較結果に応じて評価処理を行ったが、評価処理の態様はこれに限らず、他の態様であってもよい。例えば、ＦＦＴ（Fast Fourier Transform）などを用いた周波数分析、音量分析などの公知の様々な手法を用い、評価項目について評価値、つまり評価結果を算出するようにしてもよい。

また、上述の実施形態では、制御部１０は、採点結果を表示部４０に出力したが、これに限らず、採点結果を示すデータを外部接続された記憶装置に出力するようにしてもよく、また、例えば、通信ネットワークを介して接続されたサーバ装置へ送信することによって採点結果を出力するようにしてもよい。また、この実施形態では、採点結果を表示部４０に出力することによってユーザに報知したが、報知の態様はこれに限らず、例えば、音声メッセージや報知音によって報知してもよく、採点結果をユーザに報知するものであればどのようなものであってもよい。

また、上述の実施形態では、制御部１０は、歌唱者の歌唱音声を評価したが、歌唱者の歌唱音声に代えて、演奏者による楽器の演奏音を評価してもよい。本実施形態にいう「音声」には、人間が発生した音声や楽器の演奏音といった種々の音響が含まれる。

また、上述の実施形態では、制御部１０は、音の特徴としてピッチと音量とを用いたが、音の特徴はピッチと音量に限定されるものではなく、他の特徴であってもよい。例えば、音の特徴は、特定の倍音のパワーの変動や、特定の倍音と基音のパワーの比率、倍音成分のパワーの合計と基音のパワーの比率、ＳＮ比率、ラウドネス（音量を聴覚の周波数特性に合わせて補正した値。「Ａ特性音圧レベル」、「サウンドレベル」とも呼ばれる。JIS C1509で規定。）等であってもよく、音の特徴を表すものであればどのようなものであってもよい。

また、上述の実施形態では、制御部１０は、ユーザ歌唱音声データに関する変位点の時刻の変化量と模範音データに関する変位点の時刻の変化量との差分に基づいてユーザ歌唱音声データを評価したが、これに限らず、変位点の時刻に関しては、絶対的な時刻があっているものの評価を高くしてもよい。すなわち、制御部１０は、ユーザ歌唱音声データに関する変位点の時刻と模範音データに関する変位点の時刻との差分を特定し、特定した差分に基づきユーザ歌唱音声データにより示される音を評価してもよい。制御部１０は、本発明に係る時刻変位特定部の一例である。

＜変形例１０＞
上述の実施形態では、制御部１０は、特定区間においては、ユーザ歌唱音声データの音の特徴の変化量の差分に基づく評価を行う一方、特定区間以外の区間においては、ユーザ歌唱音声データの音の特徴とＧＭデータにより示される音の特徴との差分に基づいて評価を行った。これに限らず、制御部１０が、特定区間において、音の特徴の変化量の差分に基づく評価を行うまたはピッチを主とした従来の歌唱評価を行う（すなわちユーザ歌唱音声データの音の特徴とＧＭデータにより示される音の特徴との差分に基づいて評価を行う）構成であってもよい。

＜変形例１１＞
上述の実施形態において、通信ネットワークで接続された２以上の装置が、上記実施形態のカラオケ装置１００に係る機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態のカラオケ装置１００を実現するようにしてもよい。例えば、マイクロホンやスピーカ、表示装置及び操作部等を備えるコンピュータ装置と、採点処理を実行するサーバ装置とが通信ネットワークで接続されたシステムとして構成されていてもよい。この場合は、例えば、コンピュータ装置が、マイクロホンで収音された音声をオーディオ信号に変換してサーバ装置に送信し、サーバ装置が、受信したオーディオ信号を解析して採点し、採点結果をコンピュータ装置に送信してもよい。この態様によれば、カラオケ端末の処理負荷が軽減され、また、サーバにおける統計処理が可能になる。

＜変形例１２＞
本発明は、評価装置以外にも、これらを実現するための方法や、コンピュータに音声評価機能を実現させるためのプログラムとしても把握される。かかるプログラムは、これを記憶させた光ディスク等の記録媒体の形態で提供されたり、インターネット等を介して、コンピュータにダウンロードさせ、これをインストールして利用させるなどの形態でも提供されたりする。この態様によれば、家庭のＰＣ（Personal Computer）や携帯端末等（スマートフォンを含む）で、上述した実施形態に係るサービスを提供できる。

１０…制御部、２０…記憶部、２１…伴奏データ記憶領域、２２…映像データ記憶領域、２３…ＧＭデータ記憶領域、２４…採点用データ記憶領域、２５…ユーザ歌唱音声データ記憶領域、３０…操作部、４０…表示部、５０…通信制御部、６０…音声処理部、６１…マイクロホン、６２…スピーカ、７０…バス、１００…カラオケ装置、２００…サーバ装置、２１０…ネットワークストレージ、３００…ユーザ歌唱音声曲線、４００…採点関数、５００…ＧＭ曲線

Claims

音声の波形を示す音声データを取得する音声取得部と、
模範となる音の特徴を示す模範音データを取得する模範音取得部と、
前記音声取得部により取得された音声データにより示される音の特徴を特定する特徴特定部と、
前記特徴特定部により特定された特徴の変化量と、前記模範音データにより示される音の特徴の変化量のそれぞれの変化量の差分を特定する差分特定部と、
前記差分特定部により特定された差分に基づき前記音声データにより示される音を評価し、評価結果を出力する評価部と、
音の特徴の時間的変化を表すグラフの傾きが予め定められた閾値以上変化する箇所を変位点とするとき、前記特徴特定部により特定された特徴の変位点を特定する変位点特定部と、
前記模範音データにより示される特徴に関する変位点と、当該変位点の時刻から所定の時間差内に現れる前記変位点特定部により特定された前記音声データの変位点とを互いに対応付ける対応付け部とを具備し、
前記差分特定部は、前記差分の特定において、前記対応付け部により対応付けられた前記音声データに関する変位点における特徴の変化量と前記模範音データに関する変位点における特徴の変化量との差分を特定する
することを特徴とする音声評価装置。
前記音声データに関する変位点の時刻と、前記模範音データに関する変位点の時刻との差分を特定する時刻変位特定部を有し、
前記評価部は、前記差分特定部により特定された差分及び前記時刻変位特定部により特定された差分に基づき前記音声データにより示される音を評価し、評価結果を出力する
ことを特徴とする請求項１に記載の音声評価装置。
前記評価部は、前記差分特定部により特定された差分が予め定められた閾値以内である場合には同一の評価結果を出力する一方、それ以外の場合には、該特定された差分が大きいほど低い評価を示す評価結果を出力する
ことを特徴とする請求項１又は２に記載の音声評価装置。
前記音声データにおいて予め定められた歌唱態様による歌唱を行う区間を表す区間データを取得する区間データ取得部
を具備し、
前記評価部は、前記区間データ取得部によって取得された区間データの示す区間内においては、前記差分特定部によって特定された差分に基づく評価を行う一方、該区間データの示す区間以外の区間においては、前記特徴特定部によって特定された特徴と、前記模範音データにより示される音の特徴との差分に基づく評価を行う
ことを特徴とする請求項１に記載の音声評価装置。
前記音声データを予め定められたアルゴリズムに従って解析し、解析結果に応じて、予め定められた歌唱態様による歌唱を行う区間を特定する区間特定部
を具備し、
前記評価部は、前記区間特定部によって特定された区間内においては、前記差分特定部によって特定された差分に基づく評価を行う一方、該特定された区間以外の区間においては、前記特徴特定部によって特定された特徴と、前記模範音データにより示される音の特徴との差分に基づく評価を行う
ことを特徴とする請求項１に記載の音声評価装置。