JP6024130B2 - 音声評価装置 - Google Patents

音声評価装置 Download PDF

Info

Publication number
JP6024130B2
JP6024130B2 JP2012056044A JP2012056044A JP6024130B2 JP 6024130 B2 JP6024130 B2 JP 6024130B2 JP 2012056044 A JP2012056044 A JP 2012056044A JP 2012056044 A JP2012056044 A JP 2012056044A JP 6024130 B2 JP6024130 B2 JP 6024130B2
Authority
JP
Japan
Prior art keywords
data
difference
unit
section
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012056044A
Other languages
English (en)
Other versions
JP2013190564A (ja
Inventor
隆一 成山
隆一 成山
松本 秀一
秀一 松本
辰弥 寺島
辰弥 寺島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2012056044A priority Critical patent/JP6024130B2/ja
Publication of JP2013190564A publication Critical patent/JP2013190564A/ja
Application granted granted Critical
Publication of JP6024130B2 publication Critical patent/JP6024130B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

本発明は、音声評価装置に関する。
カラオケ装置においては、歌唱者による歌唱の巧拙を採点する機能を備えるものがある。例えば特許文献1には、マイクロフォンから入力される音声信号を、相互に異なった採点基準になされた複数のモードで採点する方法が開示されている。
特開平10−26992号公報
ところで、ラップと呼ばれる歌唱法が用いられる楽曲がある。ラップでは、ピッチの値ではなく抑揚やリズム感が重視されるため、特許文献1に記載の技術等の従来の方式では採点が困難である場合があった。
本発明は上述の背景に鑑みてなされたものであり、抑揚やリズム感が重視される歌唱法における歌唱の評価を好適に行うことを目的とする。
上述した課題を解決するために、本発明は、音声の波形を示す音声データを取得する音声取得部と、模範となる音の特徴を示す模範音データを取得する模範音取得部と、前記音声取得部により取得された音声データにより示される音の特徴を特定する特徴特定部と、 前記特徴特定部により特定された特徴の変化量と、前記模範音データにより示される音の特徴の変化量のそれぞれの変化量の差分を特定する差分特定部と、前記差分特定部により特定された差分に基づき前記音声データにより示される音を評価し、評価結果を出力する評価部と、音の特徴の時間的変化を表すグラフの傾きが予め定められた閾値以上変化する箇所を変位点とするとき、 前記特徴特定部により特定された特徴の変位点を特定する変位点特定部と、前記模範音データにより示される特徴に関する変位点と、当該変位点の時刻から所定の時間差内に現れる前記変位点特定部により特定された前記音声データの変位点とを互いに対応付ける対応付け部とを具備し、前記差分特定部は、前記差分の特定において、前記対応付け部により対応付けられた前記音声データに関する変位点における特徴の変化量と前記模範音データに関する変位点における特徴の変化量との差分を特定することを特徴とする音声評価装置を提供する。
また、本発明の更に好ましい態様において、前記音声データに関する変位点の時刻と、前記模範音データに関する変位点の時刻との差分を特定する時刻変位特定部を有し、前記評価部は、前記差分特定部により特定された差分及び前記時刻変位特定部により特定された差分に基づき前記音声データにより示される音を評価し、評価結果を出力してもよい。
また、本発明の更に好ましい態様において、前記評価部は、前記差分特定部により特定された差分が予め定められた閾値以内である場合には同一の評価結果を出力する一方、それ以外の場合には、該特定された差分が大きいほど低い評価を示す評価結果を出力してもよい。
本発明の更に好ましい態様において、前記音声データにおいて予め定められた歌唱態様による歌唱を行う区間を表す区間データを取得する区間データ取得部を具備し、前記評価部は、前記区間データ取得部によって取得された区間データの示す区間内においては、前記差分特定部によって特定された差分に基づく評価を行うまたはピッチを主とした従来の歌唱評価を行う一方、該区間データの示す区間以外の区間においては、前記特徴特定部によって特定された特徴と、前記模範音データにより示される音の特徴との差分に基づく評価を行ってもよい。
また、本発明の別の好ましい態様において、前記音声データを予め定められたアルゴリズムに従って解析し、解析結果に応じて、予め定められた歌唱態様による歌唱を行う区間を特定する区間特定部を具備し、前記評価部は、前記区間特定部によって特定された区間内においては、前記差分特定部によって特定された差分に基づく評価を行うまたはピッチを主とした従来の歌唱評価を行う一方、該特定された区間以外の区間においては、前記特徴特定部によって特定された特徴と、前記模範音データにより示される音の特徴との差分に基づく評価を行ってもよい。
また、本発明は、音声の波形を示す音声データを取得する音声取得部と、前記音声取得部により取得された音声データにより示される音の特徴を特定する特徴特定部と、前記特徴特定部により特定された特徴の時間的変化を表すグラフに現れるピーク値を複数特定するピーク値特定部と、前記ピーク値特定部により特定されたピーク値の変化量を特定する変化量特定部と、前記変化量特定部により特定された変化量に基づき前記音声データにより示される音を評価し、評価結果を出力する評価部とを具備することを特徴とする音声評価装置を提供する。
また、本発明は、音声の波形を表す音声データを取得する音声取得部と、楽曲の拍を示す拍データを取得する拍データ取得部と、前記音声取得部により取得された音声データにより示される音の特徴を特定する特徴特定部と、前記特徴特定部により特定された特徴の時間的変化を表すグラフの傾きが予め定められた閾値以上変化する箇所を変位点として特定する変位点特定部と、前記変位点特定部により特定された変位点と、前記拍データ取得部により取得された拍データの示す時刻との時間差に基づき前記音声データにより示される音を評価し、評価結果を出力する評価部とを具備することを特徴とする音声評価装置を提供する。
また、この態様において、前記特徴特定部により特定された特徴の変化量と、模範となる音の特徴を表す模範音データにより示される音の特徴の変化量との差分を特定する差分特定部を具備し、前記評価部は、前記変位点と前記拍データの示す時刻との時間差に基づく評価を行うともに、前記差分特定部により特定された差分に基づき前記音声データにより示される音を評価してもよい。
本発明によれば、抑揚やリズム感が重視される歌唱法における歌唱の評価を好適に行うことができる。
本発明の実施形態におけるシステムの構成図 カラオケ装置のハードウェア構成を表すブロック図 伴奏データ記憶領域の内容を表す模式図 採点用データの内容の一例を示す図 変位点データの内容の一例を示す図 カラオケ装置の機能的構成の一例を示すブロック図 採点部の機能的構成の一例を示すブロック図 ピッチ比較部が行う処理の内容を説明するための図 ピッチ比較部が行う処理の内容を説明するための図 制御部が行う処理の流れを示すフロー図 制御部が行う採点処理の流れを示すフロー図 ピッチ比較処理の内容を説明するための図 ピッチ比較処理の内容を説明するための図 ピッチ比較処理の内容を説明するための図 得点算出処理の内容を説明するための図 ピッチ比較処理の内容を説明するための図 変位点のヒストグラムを示す図 ピッチ比較処理の内容を説明するための図 歌唱音声のピッチの変化の一例を示す図
<実施形態>
<構成>
図1は、本発明の実施形態におけるシステムの構成を表した図である。このシステムは、カラオケ装置100と、サーバ装置200と、ネットワークNWとを有する。カラオケ装置100は、ユーザからの要求に従ってカラオケ楽曲を再生するとともに、再生されるカラオケ楽曲についてのユーザによる歌唱を評価する装置である。ネットワークNWはLAN(Local Area Network)やインターネットであり、カラオケ装置100とサーバ装置200との間におけるデータ通信が行われる通信網である。サーバ装置200は、その内部あるいは外部に備えたHDD(Hard Disk Drive)等の記憶手段に、カラオケ楽曲に関するコンテンツデータ等の各種データを記憶しており、カラオケ装置100からの要求に従って、ネットワークNW経由でこのコンテンツデータをカラオケ装置100に供給する装置である。ここで、コンテンツとは、カラオケ楽曲に関する音声と映像との組み合わせを指す。すなわち、コンテンツデータとは、主旋律の歌声が存在せず伴奏やコーラスで構成されたいわゆる伴奏データと、この楽曲の歌詞や歌詞の背景に表示する映像からなる映像データとから成り立っている。なお、サーバ装置200に対してカラオケ装置100は複数存在してもよい。また、カラオケ装置100に対してサーバ装置200が複数存在してもよい。
図2は、カラオケ装置100のハードウェア構成を表したブロック図である。カラオケ装置100は、制御部10、記憶部20、操作部30、表示部40、通信制御部50、音声処理部60、マイクロホン61、及びスピーカ62を有し、これら各部がバス70を介して接続されている。制御部10は、CPU(Central Processing Unit)、RAM(Random Access Memory)、及びROM(Read Only Memory)等を有している。制御部10において、CPUが、ROMや記憶部20に記憶されているコンピュータプログラムを読み出しRAMにロードして実行することにより、カラオケ装置100の各部を制御する。
操作部30は、各種の操作子を備え、ユーザによる操作内容を表す操作信号を制御部10に出力する。表示部40は、例えば液晶パネルを備え、制御部10による制御の下、各カラオケ楽曲に応じた歌詞テロップや背景映像等の各種画像を表示する。通信制御部50は、カラオケ装置100とネットワークNWとを有線あるいは無線で接続し、ネットワークNWを介したカラオケ装置100とサーバ装置200との間のデータ通信を制御する。
サーバ装置200は、図示せぬCPUや各種メモリを備えたコンピュータであり、特にネットワークストレージ210を備えている。ネットワークストレージ210は例えばHDDであり、カラオケ楽曲のコンテンツデータ等の各種データを記憶する。図2においてサーバ装置200は1つのネットワークストレージ210を備えているが、ネットワークストレージの数はこれに限ったものではなく、複数のネットワークストレージをサーバ装置200が備えてもよい。ユーザにより予約されたカラオケ楽曲のコンテンツデータがネットワークストレージ210に記憶されている場合、カラオケ装置100は、通信制御部50による制御に従ってサーバ装置200と通信を行い、ネットワークストレージ210から読み出されたコンテンツデータをネットワークNW経由でダウンロードしながら、ダウンロードが完了した部分から順次再生する、というストリーミング再生を行う。
マイクロホン61は、収音した音声を表すアナログの音声信号を音声処理部60に出力する。音声処理部60は、A/D(Analog / Digital)コンバータを有し、マイクロホン61が出力したアナログの音声信号をデジタルの音声データに変換して制御部10に出力し、制御部10はこれを取得する。また、音声処理部60は、D/A(Digital / Analog)コンバータを有し、制御部10から受け取ったデジタルの音声データをアナログの音声信号に変換してスピーカ62に出力する。スピーカ62は、音声処理部60から受け取ったアナログの音声信号に基づく音を放音する。なお、この実施形態では、マイクロホン61とスピーカ62とがカラオケ装置100に含まれている場合について説明するが、音声処理部60に入力端子及び出力端子を設け、オーディオケーブルを介してその入力端子に外部マイクロホンを接続する構成としても良く、同様に、オーディオケーブルを介してその出力端子に外部スピーカを接続するとしても良い。また、この実施形態では、マイクロホン61からスピーカ62へ出力されるオーディオ信号がアナログオーディオ信号である場合について説明するが、デジタルオーディオデータを入出力するようにしても良い。このような場合には、音声処理部60にてA/D変換やD/A変換を行う必要はない。操作部30や表示部40についても同様であり、外部出力端子を設け、外部モニタを接続する構成としてもよい。
記憶部20は、各種のデータを記憶するための記憶手段であり、例えばHDDや不揮発性メモリである。記憶部20は、伴奏データ記憶領域21、映像データ記憶領域22、GM(Guide Melody)データ記憶領域23、採点用データ記憶領域24、及びユーザ歌唱音声データ記憶領域25といった複数の記憶領域を備えている。
図3は、伴奏データ記憶領域21の内容を表す模式図である。伴奏データ記憶領域21には、各楽曲における伴奏の音声を表す伴奏データに関する情報が記憶されている。伴奏データ記憶領域21には、「曲番号」、「曲名」、「歌手名」、「ジャンル」、及び「ファイル格納場所」といった複数の項目からなる伴奏データレコードが複数記憶されている。「曲番号」は、楽曲を一意に識別するための番号であり、例えば4桁の親番号と2桁の枝番号とからなる。「曲名」は、各楽曲の名称を表す。「歌手名」は、各楽曲の歌い手の名称を表す。「ジャンル」は、予め決められた分類基準で分類された複数のジャンルのうち、各楽曲の属する音楽のジャンルを表す。「ファイル格納場所」は、各楽曲の伴奏データそのものであるデータファイルの格納場所を表し、server1というフォルダを含む場合には伴奏データのデータファイルがサーバ装置200に格納されており、server1というフォルダを含まない場合には伴奏データのデータファイルがカラオケ装置100に格納されていることを意味している。例えば図3において、曲名が「BBB」である楽曲は、伴奏データのデータファイルがサーバ装置200に格納されていることを表し、曲名が「CCC」である楽曲は、伴奏データのデータファイルがカラオケ装置100の記憶部20に格納されていることを表している。この伴奏データのデータファイルは、例えば、MIDI(Musical Instrument Digital Interface)形式のファイルである。
映像データ記憶領域22には、各楽曲の歌詞を示す歌詞データ及び歌詞の背景に表示される背景映像を表す背景映像データが記憶されている。歌詞データによって示される歌詞は、カラオケ歌唱の際に、楽曲の進行に伴って歌詞テロップとして表示部40に表示される。また、背景映像データによって表される背景映像は、カラオケ歌唱の際に楽曲の進行に伴って歌詞テロップの背景として表示部40に表示される。GMデータ記憶領域23には、楽曲のボーカルパートのメロディを示すデータ、すなわち、歌唱すべき構成音の内容を指定するデータであるガイドメロディデータ(以下「GMデータ」という)が記憶されている。GMデータは、制御部10が、楽曲においてラップによる歌唱やものまねによる歌唱(以下「特定歌唱」という)を行う区間以外の区間において、制御部10がユーザによる歌唱の巧拙の評価処理を行う際に比較の基準として用いるものである。なお、制御部10が行う評価処理については後述するため、ここではその詳細な説明は省略する。GMデータは、例えば、MIDI形式により記述されている。
採点用データ記憶領域24には、楽曲において特定歌唱を行う区間(以下「特定区間」という)の採点を行うために用いられるデータ(以下「採点用データ」という)が記憶されている。図4は採点用データの内容の一例を示す図である。図示のように、採点用データは、「曲番号」と「特定区間データ」と「ピッチ変位点データ」と「音量変位点データ」の各項目を含んでいる。これらの項目のうち、「曲番号」は上述したとおりである。「特定区間データ」は、特定区間を示すデータである。図4に示す例では、「曲番号」が「1004−19」の楽曲は、時刻t11からt20の区間と、時刻t21から時刻t30の区間との2つの区間が特定区間であることが示されている。ひとつの楽曲に含まれる特定区間の数は1であってもよく、また、複数であってもよい。また、特定区間を有しない楽曲の場合は、採点用データは記憶されない。
図4において、「ピッチ変位点データ」は、模範となる音を表す模範音データ(例えば、GMデータ)から生成されたデータであり、模範音データにおいてピッチの変化の傾向(ピッチを表すグラフの傾き)が変わる時刻を示す時刻データと、その時刻におけるピッチの値を示すピッチデータとを含む。図4に示す例では、「曲番号」が「1004−19」の楽曲の時刻t11からt20の特定区間においては、(時刻,ピッチ)=(t11,p11),(t12,p12),…で示される複数の箇所がピッチの変位点として示されている。なお、模範音データはGMデータに限らず、例えば模範となる歌唱音声を表すデータであってもよく、模範となる音を表すデータであればどのようなものであってもよい。「音量変位点データ」は、模範音データから生成されたデータであり、模範音データにおいて音量の変化の傾向(音量を表すグラフの傾き)が変わる時刻を示す時刻データと、その時刻における音量の値を示す音量データとを含む。以下の説明では、説明の便宜上、ピッチ変位点データと音量変位点データとを各々区別する必要がない場合には、これらを「変位点データ」と称して説明する。すなわち、変位点データは、ピッチ(又は音量)の時間的変化を表すグラフの傾きがその前後で予め定められた閾値以上変化する箇所を示すデータである。
図5は、変位点データの内容の一例を示す図である。図において、横軸は時刻を示し、縦軸はピッチ(又は音量)を示す。実線500は、GMデータによって表されるガイドメロディのピッチ(又は音量)の変化を表しており、以下、GM曲線500という。この実施形態では、GM曲線500の傾きが大きく変わる点(以下「変位点」という)として、ピッチ(又は音量)が上昇から下降に転じた点(例えば、図5の時刻t19参照)、上昇をやめてある一定範囲に収まる点、上昇し始めた点(例えば、時刻t14参照)、ピッチ(又は音量)が下降から上昇に転じた点(例えば、時刻t17参照)、下降をやめてある一定範囲に収まる点(例えば、時刻t13参照)、下降し始めた点(例えば、時刻t11参照)等、ピッチ(又は音量)を表すグラフ(GM曲線500)の傾きの変化量が予め定められた閾値以上となった位置を用いる。この実施形態では、GM曲線500の傾きの変化量が予め定められた閾値以上となる箇所に加えて、歌唱開始時のピッチの検出が開始される箇所(図5の時刻t11等)も変位点として用いる。なお、これに限らず、歌唱開始時のピッチの検出が開始される箇所を変位点として用いない構成としてもよい。
ユーザ歌唱音声データ記憶領域25には、カラオケの対象となった各楽曲について、その伴奏データが再生されている期間中マイクロホン61によって収音されたユーザの歌唱音声が音声処理部60でデジタルデータに変換されることで生成された音声データが記憶される。この音声データをユーザ歌唱音声データという。このユーザ歌唱音声データは、音声の波形を表す音声データであり、例えば、WAVE(RIFF waveform Audio Format)形式のデータファイルとして記憶される。各楽曲についてのユーザ歌唱音声データは、制御部10によって、その楽曲のGMデータに対応付けられる。
図6は、カラオケ装置100の機能的構成の一例を示すブロック図である。図6において、再生部11及び採点部12は、制御部10のCPUが、ROMや記憶部20に記憶されているコンピュータプログラムを読み出しRAMにロードして実行することにより実現される。再生部11は、カラオケ楽曲の再生を行う。具体的には、再生部11は、伴奏データ及びGMデータに基づく音声をスピーカ62から放音させるとともに、映像データに基づく映像を表示部40に表示させる。
採点部12は、歌唱者の歌唱音声を表すデータ(以下「ユーザ歌唱音声データ」という)を採点する。採点部12は、歌唱されている区間が特定歌唱を行う区間(以下「特定区間」)かそれ以外の区間(以下「標準区間」という)かを判定し、特定区間においては採点用データを用いて採点を行う一方、標準区間においてはGMデータを用いて採点を行う。より具体的には、採点部12は、標準区間においては歌唱音声のピッチとGMデータのピッチとの差分に応じて歌唱を評価する一方、特定区間においては歌唱のピッチの変化量とGMデータのピッチの変化量との差分が小さいほど高評価となるように評価を行う。
図7は、採点部12の機能的構成の一例を示すブロック図である。図7において、ピッチ特定部121は、ユーザ歌唱音声データ記憶領域25に記憶されたユーザ歌唱音声データを取得する音声取得部として機能するとともに、取得したユーザ歌唱音声データを解析し、ユーザ歌唱音声データにより示される音のピッチを特定するピッチ特定部として機能する。ピッチ特定部121は、特定したピッチを表すデータ(以下「ピッチデータ」という)を区間判定部123に出力する。音量特定部122は、ユーザ歌唱音声データ記憶領域25に記憶されたユーザ歌唱音声データの音量を特定する。音量特定部122は、特定した音量を表すデータ(以下「音量データ」という)を区間判定部123に出力する。
区間判定部123は、採点用データ記憶領域24に記憶された区間データを参照し、取得されたユーザ歌唱音声データが特定区間であるか否かを判定する。区間判定部123は、特定区間であると判定された場合には、ピッチ特定部121から取得したピッチデータをピッチ変位点特定部124に出力する。一方、それ以外の場合には、区間判定部123は、ピッチ特定部121から取得したピッチデータをピッチ比較部126に出力する。また、区間判定部123は、特定区間であると判定された場合には、音量特定部122から取得した音量データを音量変位点特定部125に出力する。一方、それ以外の場合には、区間判定部123は、音量特定部122から取得した音量データを音量比較部127に出力する。
ピッチ変位点特定部124は、区間判定部123から供給されるピッチデータの表すピッチの時間的な変化を表すグラフの傾きがその前後で予め定められた閾値以上変化する箇所を変位点として特定する。すなわち、ピッチ変位点特定部124は、区間判定部123から供給されるピッチデータの表すグラフの傾きの変化量が予め定められた閾値以上となる時刻を特定するとともに、その時刻におけるピッチの値を特定する。前記ピッチデータの表すグラフの傾きは、例えば以下のようにして求められる。ピッチ変位点特定部124は、隣り合うサンプルから傾きを求めても良く、また、複数のサンプルの近似曲線から傾きを求めてもよい。また、ピッチ変位点特定部124は、隣り合うサンプルから求めた傾きの列に対してLPF(ローパスフィルタ)をかけてもよい。また、ピッチ変位点特定部124は、傾きを算出する前にサンプルにLPFをかけてもよい。また、ピッチ変位点特定部124は、1点1点微分して接線の傾きを求めてもよい。ピッチ変位点特定部124は、特定した時刻とピッチを表すピッチ変位点データをピッチ比較部126に出力する。
音量変位点特定部125は、区間判定部123から供給される音量データから、ユーザ歌唱音声データにおける音量の変位点を特定する。すなわち、音量変位点特定部125は、区間判定部123から供給される音量データの表すグラフの傾きがその前後で予め定められた閾値以上変化する時刻を特定するとともに、その時刻における音量の値を特定する。音量変位点特定部125は、特定した時刻と音量を表す音量変位点データを音量比較部127に出力する。
ピッチ比較部126は、標準区間と特定区間とで異なる処理を行う。ピッチ比較部126は、標準区間においては、区間判定部123から出力されるユーザ歌唱音声のピッチデータと、このユーザ歌唱音声に対応するGMデータを取得する。GMデータは、制御部10がユーザによる歌唱の巧拙を評価する際に比較の基準となるものであって、歌唱の対象となる曲に対して予め定められた基準である。制御部10は、ユーザ歌唱音声データとGMデータとを時間軸方向に対応付けるとともに、この対応付け結果に従ってユーザ歌唱音声データのピッチとGMデータのピッチとを比較し、両者の差分を表す比較結果データを生成する。
一方、特定区間においては、ピッチ比較部126は、採点用データ記憶領域24から、模範音データの変位点におけるピッチを表すピッチ変位点データを取得する。このピッチ変位点データは、模範となる音のピッチを示す模範音データの一例である。また、ピッチ比較部126は、採点用データ記憶領域24から取得したピッチ変位点データの示す変位点(すなわち模範音データにより示されるピッチに関する変位点)と、この変位点の時刻から所定の時間差内に現れる、ピッチ変位点特定部124から出力されるピッチ変位点データの示す変位点(すなわちユーザ歌唱音声データにより示されるピッチに関する変位点)とを互いに対応付け、対応付けられたユーザ歌唱音声データに関する変位点におけるピッチの変化量と模範音データに関する変位点におけるピッチの変化量との差分を特定する。変位点同士の対応付けは、例えば以下のようにして行う。ピッチ比較部126は、ユーザ歌唱音声データのピッチ列と模範音データのピッチ列から変位点を求める。変位点の時間的な位置は、それぞれ曲の先頭位置を0(ゼロ)としたときの時刻で定まる。ピッチ比較部126は、模範音データのピッチ列から得た変位点の近傍に、ユーザ歌唱音声データのピッチ列から得た変位点があるか否かを探す。変位点の近傍としては、例えば、変位点の前後1秒以内、といったように時間でその範囲を決めてもよく、また、例えば、一拍等、テンポに依存するようにしてもよい。ピッチ比較部126は、近傍に変位点がない場合、模範音データの変位点に対応する変位点は存在しなかったものとする。一方、ピッチ比較部126は、近傍に変位点がひとつしかない場合は、その変位点が対応する変位点であるとする。また、ピッチ比較部126は、近傍に変位点が2つ以上ある場合は、複数の変位点のうち時間的に近いものを、対応付ける変位点として採用する。なお、ピッチ比較部126は、ピッチの傾きの変化の態様(例えば、上昇から下降に転じている、下降から上昇に転じている、等)が同じ変位点同士で比較する。
ピッチ比較部126は、特定した差分を表す比較結果データを生成する。ピッチ比較部126は、本発明に係る対応付け部及び差分特定部の一例に相当する。この実施形態では、ピッチ比較部126は、以下のような処理を行って比較結果データを生成する。図8及び図9は、特定区間におけるピッチ比較部126の処理の内容を説明するための図である。図8は、変位点における時刻の変化量の差分の算出処理の内容を示す図であり、図9は、変位点におけるピッチの変化量の差分の算出処理の内容を示す図である。図8及び図9において、横軸は時刻を示し、縦軸はピッチを示す。GM曲線500は図5に示したそれと同様である。実線300は、ユーザ歌唱音声データによって表されるユーザの歌唱時の音声のピッチの変化を表しており、以下、ユーザ歌唱音声曲線300という。まず、ピッチ比較部126は、採点用データに含まれる、変位点Xi(iは1からn(n>1)までの整数)におけるピッチ変位点データ(gti,gpi)と、その直前の変位点Xi-1におけるピッチ変位点データ(gti-1,gpi-1)との変化量(Δgti,Δgpi)=(gti−gti-1,gpi−gpi-1)を算出する。同様に、ピッチ比較部126は、ユーザ歌唱音声データの変位点UXiにおけるピッチ変位点データ(uti,upi)と、その直前の変位点UXi-1におけるピッチ変位点データ(uti-1,upi-1)との変化量(Δuti,Δupi)=(uti−uti-1,upi−upi-1)を算出する。
次いで、ピッチ比較部126は、採点用データの変位点毎に求めた変化量(Δgti,Δgpi)と、ユーザ歌唱音声データの変位点毎に求めた変化量(Δuti,Δupi)との差分値(Δti,Δpi)=(Δgti−Δuti,Δgpi−Δupi)を算出し、算出結果を表す時刻の差分値Δtiと、ピッチの差分値Δpiとを、比較結果データとして出力する。
音量比較部127は、標準区間と特定区間とで異なる処理を行う。音量比較部127は、標準区間においては、ユーザ歌唱音声データ記憶領域25に記憶されたユーザ歌唱音声データの音量と、予め定められた音量基準値とを比較し、両者の差分を表す比較結果データを生成する。
一方、特定区間においては、音量比較部127は、採点用データに含まれる音量変位点データとユーザ歌唱音声データの音量変位点データとを用いて、両者の変化量の差分を表す比較結果データを生成する。この比較処理はピッチ比較部126が行うピッチの比較処理と同様である。すなわち、音量比較部127は、採点用データ記憶領域24に記憶された採点用データに含まれる変位点毎の音量変位点データについて、変位点Xiにおける音量変位点データ(gti,gvi)とその直前の変位点Xi-1における音量変位点データ(gti-1,gvi-1)との変化量(Δgti,Δgvi)を算出するとともに、ユーザ歌唱音声データの変位点についても同様の処理を行って変化量(Δuti,uvi)を算出し、両者の差分値(Δti,Δvi)=(Δgti−Δuti,Δgvi−Δuvi)を、比較結果データとして出力する。
採点出力部128は、ピッチ比較部126から出力される比較結果データと、音量比較部127から出力される比較結果データとに基づいて、歌唱音声の評価処理を行い、評価結果を表示部40等に出力する。採点出力部128は、採点用データ記憶領域24から、特定区間を表す特定区間データを取得し、取得した特定区間データの示す特定区間においては、歌唱音声データのピッチの変化量と模範音データのピッチの変化量との差分が小さいほど高評価となるように評価処理を行う一方、特定区間以外の区間においては、ユーザ歌唱音声データのピッチとGMデータのピッチとの差分に基づいてユーザ歌唱音声データを評価する。より具体的には、例えば、標準区間においては、採点出力部128は、ユーザ歌唱音声データが示す音声のピッチの変化と、GMデータが示すガイドメロディのピッチの変化とを比較し、これらの一致の程度を示す評価値を算出する。評価値は、あるノートにおいて、両者のピッチの差が予め定められた許容範囲内に収まっていれば100%(すなわち減点なし)とし、両者のピッチの差が上記範囲内に収まらない部分の期間が、GMデータにおいてこのノートにおける音長の半分に渡っていれば50%である、といった具合であってもよい。つまり、あるノートにおいて、両者のピッチの差が上記範囲内に収まる期間を、GMデータにおいてこのノートにおける音長で除した値を評価値とする。制御部10は、算出した評価値に基づいて減点するポイントを決定する。例えば、あるノートに「2点」のポイントが割り当てられているときに、評価値が50%と算出された場合、制御部10は、「1点」を減点のポイントとして決定する。
評価値は、例えば、あるノートにおいて、両者のピッチの差が予め定められた許容範囲内に収まっていれば100%(すなわち減点なし)とし、両者のピッチの差が上記範囲内に収まらない部分の期間が、GMデータにおいてこのノートにおける音長の半分に渡っていれば50%である、といった具合であってもよい。なお、音量基準値は、GMに含まれるノート毎に設定されていてもよく、また、例えば、小節毎等の予め定められた区間毎に設定されていてもよい。
一方、特定区間においては、採点出力部128は、例えば、模範音データの変位点一箇所ごとに点数をつけ、特定区間終了後に平均を求めてもよい。より具体的には、例えば、採点出力部128が、ずれ度xiを下記の(1)式で算出し、全ての変位点のずれ度xiの平均値が小さいほど点数が高くなるように採点を行ってもよい。以下の(1)式において、Δtiはピッチ変位点の時間差(ピッチ比較部126により算出される差分値Δti)を示し、Δpiは変位点のピッチ差(ピッチ比較部126により算出される差分値Δpi)を示す。また、α,βは重み付け係数である。
i=|Δti|*α+|Δpi|*β …(1)
なお、採点の態様は上記のものに限らず、他の態様であってもよい。例えば、採点出力部128は、時間差の偏差とピッチ差の偏差をそれぞれ変位点毎に点数化したのち、変位点毎の点数siを下記の(2)式により算出し、全変位点の得点の平均が大きいほど点数が高くなるように採点を行ってもよい。以下の(2)式において、stiは変位点Xiにおける時間差の偏差に基づく点数を示し、spiは変位点Xiにおけるピッチ差の偏差に基づく点数を示す。
i=sti*α+spi*β …(2)
<動作>
図10は、制御部10が行う処理の流れを示すフロー図である。操作部30を介してユーザにより楽曲が予約されると(ステップS100;Yes)、制御部10は、記憶部20から予約された楽曲の検索を行う(ステップS102)。具体的にはステップS102において、制御部10は、伴奏データ記憶領域21、映像データ記憶領域22、及びGMデータ記憶領域23の各々から、選択された楽曲の曲番号または曲名をキーにして、その楽曲に関するデータを検索し、検索結果のデータをRAMに読み込む。
次いで、制御部10は、RAMに記憶された伴奏データ、映像データ、及びGMデータに基づいて、カラオケ楽曲の再生を行う(ステップS104)。具体的にはステップS104において、制御部10は、伴奏データ及びGMデータに基づく音声をスピーカ62から放音させるとともに、映像データに基づく映像を表示部40に表示させる。そして制御部10は、マイク61によって収音されたユーザの歌唱音声が音声処理部60によってデジタルのデータに変換されたものであるユーザ歌唱音声データを、ユーザ歌唱音声データ記憶領域25に記憶させる(ステップS106)。カラオケ楽曲の再生が終了すると、制御部10は、ユーザ歌唱音声データ記憶領域25に記憶されたユーザ歌唱音声データとGMデータ及び採点用データとに基づいて、歌唱の採点を行う(ステップS108)。そして制御部10は、採点結果を表示部40に表示させる(ステップS110)。
図11は、制御部10が行う採点処理(図10のステップS108)の流れを示すフロー図である。まず、制御部10は、ユーザ歌唱音声データにより示される音のピッチを特定する(ステップS200)。次いで、制御部10は、特定区間においてユーザ歌唱音声データからピッチ変位点を特定する(ステップS210)。次いで、制御部10は、予め定められた単位区間毎に、以下のステップS220からステップS250の処理を行うことによって、ユーザ歌唱音声の採点を行う。まず、制御部10は、採点対象が標準区間であるか特定区間であるかを判定する(ステップS220)。制御部10は、標準区間である場合は(ステップS220;NO)、ユーザ歌唱音声データのピッチとGMデータのピッチとを比較し、両者の差分に応じて評価値を算出するとともに、ユーザ歌唱音声データの音量と予め定められた音量基準値とを比較し、両者の差分に応じて評価値を算出する(ステップS230)。一方、制御部10は、特定区間である場合には(ステップS220;NO)、ユーザ歌唱音声データから特定されたピッチ変位点を表すデータの変化量と採点用データ記憶領域24に記憶されたピッチ変位点データの変化量とを比較し、両者の変化量の差分に応じた評価値を算出するとともに、ユーザ歌唱音声データから特定された音量変位点を表すデータと採点用データ記憶領域24に記憶された音量変位点データとを比較し、両者の変化量の差分に応じた評価値を算出する(ステップS240)。
制御部10は、採点していない区間があるかを判定することによって処理を終了するか否かを判定し(ステップS250)、採点対象である区間がある場合には(ステップS250;NO)、ステップS220に戻って次の区間の採点を行う一方、楽曲の最後まで採点したと判定された場合には(ステップS250;YES)、採点処理を終了する。
ところで、ラップの歌唱においては、小節の終わりなどで韻を踏みながら、あまりメロディを付けずにリズミカルに喋るように歌唱される。そのため、ラップの採点においてはピッチの一致度はそれほど重視されるものではなく、イントネーションやリズムが重視される。一般的な歌唱の採点においては、メロディに乗せて歌う歌唱の採点を目的としているため、ピッチの絶対的な値を重視している。一方、ラップでは、ピッチの値ではなく、抑揚やリズム感を重視するため、従来の方式では採点が困難である。この実施形態では、ユーザ歌唱音声データのピッチの変化量とGMデータのピッチの変化量との差分に応じて採点を行うから、ラップやものまね等、抑揚やリズム感が重視される音声を好適に採点することができる。
<変形例>
以上の実施形態は次のように変形可能である。尚、以下の変形例は適宜組み合わせて実施しても良い。また、上記実施形態と以下の変形例を組み合わせて実施しても良い。
<変形例1>
上述の実施形態では、区間データを参照して特定区間とそれ以外の区間とで異なる評価処理を行うようにしたが、これに限らず、特定区間か否かを判定する処理を行わないようにしてもよい。この場合は、楽曲の全ての区間において上述の採点用データを用いた採点を行うようにしてもよい。より具体手的には、例えば、ジャンルが「ラップ」の楽曲については、楽曲の全ての区間において採点用データを用いた採点処理を行うようにしてもよい。この態様によれば、制御部10は、採点処理を切り替える必要がなく、また、曲データに特定区間を指示する必要がない。
<変形例2>
上述の実施形態では、制御部10は、ユーザ歌唱音声データからピッチ変位点と音量変位点とを特定し、隣り合う変位点の変化量の差分を、ユーザ歌唱音声データと採点用データとで比較した。ユーザ歌唱音声データと採点用データの比較処理の態様は上述したものに限定されるものではなく、例えば、以下のような処理であってもよい。まず、制御部10は、予め定められた時間間隔で、ユーザ歌唱音声データのピッチの変化量を算出するとともに、模範音データ(例えば、GMデータ)のピッチの変化量を予め定められた時間間隔で算出する。次いで、制御部10は、算出したユーザ歌唱音声データのピッチの変化量と模範音データのピッチの変化量とを比較し、両者の差分を算出する。図12に示す例では、模範音データのピッチの一定間隔毎の差(b−a),(c−b),(d−c),…と、ユーザ歌唱音声データのピッチの一定間隔毎の差(b´−a´),(c´−b´),(d´−c´),…とが比較され、両者の差分が算出される。この算出処理によって求められる差分が小さいほど、ユーザ歌唱音声データのピッチと模範音データのピッチとの差分の偏差が小さいといえる。そのため、制御部10が、算出される差分が小さいほど高評価となるような評価処理を行うことで、上述の実施形態と同様の評価処理が行われる。このように、制御部10は、変位点におけるピッチの変化量の差分に応じて採点を行うことに代えて、ユーザ歌唱音声データのピッチと模範音データにより示される音のピッチとを予め定められた単位時間毎に比較し、両者の変化量の差分に基づいた評価処理を行ってもよい。この態様においても、上述の実施形態と同様に、抑揚やリズム感が重視される歌唱法による歌唱を好適に評価することができる。要は、制御部10は、ユーザ歌唱音声データのピッチの変化量と模範音データにより示される音のピッチの変化量との差分に基づいてユーザ歌唱音声データにより示される音を評価し、評価結果を出力するものであればよい。
<変形例3>
また、ユーザ歌唱音声データと採点用データの比較処理は、以下のような処理であってもよい。まず、制御部10は、GM曲線500の傾きを求め、この傾きの値の範囲に応じて特定区間を複数の区間に分割する。例えば、制御部10は、傾きが正の値である区間(すなわちピッチが上昇している区間)、負の値である区間(すなわちピッチが下降している区間)、ゼロ(又はゼロに近い予め定められた閾値内である)値である区間(すなわちピッチの変化が少ない区間)、に分割してもよい。同様に、制御部10は、ユーザ歌唱音声曲線300の傾きを求め、この傾きの値の範囲に応じて特定区間を複数の区間に分割する。次いで、制御部10は、ピッチの変化の態様が同じである区間(例えば、共に傾きが正の値である区間)(図13の区間A1参照)については高評価とする一方、ピッチの変化の態様が異なる区間(例えば、一方の傾きの値が正である一方、他方の傾きの値が負である区間)(図13の区間A2参照)については低評価となるように評価処理を行うようにしてもよい。ピッチの変化の態様が異なる区間は、ユーザ歌唱音声データのピッチの変化量と模範音データのピッチの変化量との差分は大きくなるといえるから、この評価処理においても、上述の実施形態と同様に、歌唱音声データのピッチの変化量と模範音データのピッチの変化量との差分が大きいほど低評価となる評価処理が行われる。そのため、この態様においても、抑揚やリズム感が重視される歌唱法による歌唱を好適に評価することができる。また、この態様によれば、歌唱を評価する際に変位点を特定する必要がない。
<変形例4>
また、ユーザ歌唱音声データと採点用データの比較処理は、以下のような処理であってもよい。まず、制御部10は、ユーザ歌唱音声データからピッチを特定し、ピッチの平均値を算出する。また、制御部10は、模範音データのピッチの平均値を算出し、ピッチの値と算出した平均値との差分が予め定められた閾値以上となる区間(図14の区間A11,A12,…参照)を示す区間データを生成する。なお、制御部10がこの区間データを生成するに限らず、区間データを予め採点用データに含めて採点用データ記憶領域24に記憶しておく構成としてもよい。制御部10は、ユーザ歌唱音声データのピッチと平均値との差分が予め定められた閾値以上となる区間(図14の区間A21,A22,…参照)を特定し、特定した区間と区間データの示す区間とを比較し、重複する部分が大きいほど高評価となるように評価処理を行う。この態様においては、ピッチの平均値からの差分が閾値以上となる区間の重複量に応じて評価されるから、抑揚やリズム感が重視される歌唱法による歌唱を好適に採点することができる。
また、他の例として、例えば、制御部10が、ユーザ歌唱音声データにおいて所定の時間間隔(例えば500ms程度)でピッチを取得し、隣り合うサンプル毎のピッチの差の絶対値の合計値を算出するとともに、模範音データにおいて同様の時間間隔でピッチを取得した場合の隣り合うピッチの差の絶対値の合計値を算出し、ユーザ歌唱音声データにおける合計値と模範音データにおける合計値とを比較してもよい。この場合、ユーザ歌唱音声データから算出された合計値と模範音データから算出された合計値との差分が小さいほど高評価となるように評価処理を行ってもよい。この態様によれば、模範音データのピッチを用いて評価することができ、また、評価処理に要する計算量を軽くすることができる。
<変形例5>
上述の実施形態では、制御部10は、上述の(1)式を用いて変位点毎の採点を行ったが、採点処理の態様はこれに限らず、例えば、図15に示すような採点関数400を用いて採点値を算出してもよい。図15は、変位点一箇所あたりの得点の算出処理の内容を示す図であり、横軸はユーザ歌唱音声データと採点用データとの時間(又はピッチ)の変化量の差分を示し、縦軸は得点を示す。図15に示す例では、制御部10は、変化量の差分がある一定範囲内であれば満点となり、それ以降は点数が下がり、ある一定量以上のずれは最低点となるように得点を算出する。すなわち、制御部10は、ユーザ歌唱音声データの変化量と採点用データの変化量との差分が予め定められた閾値以内である場合には同一の評価結果を出力する一方、それ以外の場合には、差分が大きいほど低い評価結果を出力する。この態様によれば、ずれをある程度許容するような計算方式をとることができるため、より聴感に近い採点結果が得られる。
<変形例6>
上述の実施形態では、変位点ごとに採点し、変位点ごとの採点値の平均値を求めることで特定区間の採点を行うようにしたが、特定区間の採点の態様はこれに限定されるものではない。例えば、採点用データにおいてある時刻にピッチの変位点があるとして、その時間的なごく近傍に歌唱ピッチの変位点があると高得点が得られ、時間的に離れれば離れるほど得点が下がるようにしてもよい。また、例えば、制御部10が、採点用データのピッチの変位点がない時刻に歌唱ピッチが変位点をとると減点するようにしてもよい。
また、他の例として、例えば、制御部10が、特定区間全体を見て統計処理をしてもよい。より具体的には、例えば、採点用データによって示される変位点の時間と、歌唱の変位点の時間の差(図16のΔt50参照)の平均と偏差を求め、平均がゼロに近いほど、また偏差が小さいほど高得点が得られるようにしてもよい。各変位点で、採点用データとユーザ歌唱音声データとで変位点の時間差を算出し、時間差の平均がゼロに近ければ近いほど、また、偏差がゼロに近ければ近いほど、採点用データによって示される模範歌唱のとおりに歌唱したことになる。そのため、制御部10は、以下の(3)式で点数scoreを算出してもよい。以下の(3)式において、Aは平均値、Dは偏差値、a,b,cは係数とする。
score=aA+bD+c …(3)
この態様において、制御部10が、ヒストグラムをとる等の処理を行う(図17参照)ことによって特定の変位点(例えば極大値をとる点など)を特定し、特定した変位点に対して、重みを行ってもよい。この態様によれば、特定の変位点においては、時間のずれが強調されることになり、聴いた感じにより近い採点が行われる。
<変形例7>
上述の実施形態では、制御部10は、特定区間においては採点用データを用いて採点を行ったが、これに限らず、採点用データを用いずに採点を行ってもよい。この場合は、例えば、楽曲情報に含まれる拍の時刻(または拍間を2分割または4分割する時刻)とユーザ歌唱音声データから特定された変位点と時刻の差を用いて評価処理を行ってもよい。(図18参照)。すなわち、制御部10が、楽曲の拍を示す拍データを取得し、取得した拍データの示す時刻と、ユーザ歌唱音声におけるピッチ変位点の時刻との時間差に基づいて歌唱音声を評価してもよい。この場合、制御部10は、拍と変位点とのずれ量(すなわち時間差)が大きいほど低評価となるように評価処理を行ってもよい。この態様によれば、模範音データを用いることなく歌唱の評価を行うことができるから、模範音データを作成する手間が省かれる。また、制御部10が、この変形例に係る評価処理と、上述の実施形態に係る評価処理とを併用してもよい。すなわち、制御部10が、ユーザ歌唱音声のピッチの変位点の時刻と楽曲の拍データの示す時刻との時間差に基づく評価を行うとともに、ユーザ歌唱音声のピッチの変化量と模範音データのピッチの変化量との差分に基づいて評価を行うようにしてもよい。
また、採点用データを用いない他の態様として、例えば、制御部10が、変位点のうち、極大値を統計処理し、分散が小さければ小さいほど高得点となるようにしてもよい。すなわち、制御部10が、ユーザ歌唱音声データにより示される音のピッチの時間的な変化を表すグラフに現れるピーク値(図19の変位点p91,92,93参照)のピッチの値の変化量(偏差)を算出し、算出された変化量(偏差)が小さいほど高評価となるように評価処理を行ってもよい。得点の算出の態様としては、例えば、100から偏差を差し引いた値を得点として算出してもよい。変位点のうち、値が極大となる点の値は、ラップ等の歌唱の場合は歌唱が上手な歌唱者ほどそろってくる(図19参照)。そのため、このような評価処理を行うことで、変位点の値がそろっている歌唱ほど高評価が得られる。この態様によれば、模範音データを用いることなく歌唱の評価を行うことができるから、模範音データを作成する手間が省かれる。
また、採点用データを用いない他の態様として、例えば、制御部10が、ユーザ歌唱音声の音量の立ち上がり部を特定し、特定した立ち上がり部を用いて歌唱のリズムを評価してもよい。この場合は、例えば、制御部10が、楽曲情報に含まれる拍の時刻(または拍間を2分割または4分割する時刻)と特定された音量の立ち上がり部の時刻の差を用いて評価処理を行ってもよい。この場合、制御部10は、拍と立ち上がり部とのずれ量(すなわち時間差)が大きいほど低評価となるように評価処理を行ってもよい。この態様によれば、採点用データを用いることなく評価することができる。また、この態様によれば、模範音データを用いることなく歌唱の評価を行うことができるから、模範音データを作成する手間が省かれる。また、音量の立ち上がり部に限らず、制御部10が、音程の立ち上がり部を用いて歌唱のリズムを評価してもよい。この場合は、制御部10が、ユーザ歌唱音声の音程の立ち上がり部を特定し、楽曲情報に含まれる拍の時刻と特定した音程の立ち上がり部の時刻の差を用いて評価処理を行ってもよい。また、音程の立ち上がり部に限らず、制御部10が、ユーザ歌唱音声の検出が開始されたタイミングを用いて歌唱のリズムを評価してもよい。この場合は、制御部10が、ユーザ歌唱音声の検出が開始されたタイミングを特定し、楽曲情報に含まれる拍の時刻と特定したタイミングとの時間差を用いて評価処理を行ってもよい。この態様によれば、模範音データを用いることなく歌唱の評価を行うことができるから、模範音データを作成する手間が省かれる。
<変形例8>
上述の実施形態では、制御部10が、特定区間を示す区間データを取得する構成としたが、これに代えて、制御部10が、ユーザ歌唱音声データを予め定められたアルゴリズムに従って解析し、解析結果に応じて特定区間を特定するようにしてもよい。具体的には、例えば、制御部10が、ピッチの変化の態様が予め定められた条件を満たす区間を特定区間として特定するようにしてもよい。この場合も、上述の実施形態と同様に、制御部10は、特定区間においては採点用データを用いた採点を行うようにすればよい。この態様によれば、特定区間を予め曲データに記載するという手間が省かれる。
<変形例9>
上述の実施形態では、制御部10は、ピッチの変化量の差分と音量の変化量の差分とを用いて採点処理を行ったが、音量の変化を採点に加味しない構成であってもよい。すなわち、ピッチの変化に基づいて評価値を算出するようにしてもよい。この場合は、採点用データに、音量の変位点を表すデータを含める必要はない。
また、上述の実施形態では、採点用データを採点用データ記憶領域24に予め記憶しておく構成としたが、これに限らず、制御部10が、模範となる歌唱(以下「模範歌唱」という)を表すデータ(以下「模範歌唱データ」)を解析し、採点用データを生成するようにしてもよい。
上述の実施形態では、制御部10が、歌唱音声データをユーザ歌唱音声データ記憶領域25に記憶し、歌唱が終了した後に採点を行うようにしたが、これに限らず、歌唱中にリアルタイムで採点処理を行うようにしてもよい。
また、上述の実施形態では、制御部10は、歌唱音声のピッチとGMデータのピッチとを比較し、比較結果に応じて評価処理を行ったが、評価処理の態様はこれに限らず、他の態様であってもよい。例えば、FFT(Fast Fourier Transform)などを用いた周波数分析、音量分析などの公知の様々な手法を用い、評価項目について評価値、つまり評価結果を算出するようにしてもよい。
また、上述の実施形態では、制御部10は、採点結果を表示部40に出力したが、これに限らず、採点結果を示すデータを外部接続された記憶装置に出力するようにしてもよく、また、例えば、通信ネットワークを介して接続されたサーバ装置へ送信することによって採点結果を出力するようにしてもよい。また、この実施形態では、採点結果を表示部40に出力することによってユーザに報知したが、報知の態様はこれに限らず、例えば、音声メッセージや報知音によって報知してもよく、採点結果をユーザに報知するものであればどのようなものであってもよい。
また、上述の実施形態では、制御部10は、歌唱者の歌唱音声を評価したが、歌唱者の歌唱音声に代えて、演奏者による楽器の演奏音を評価してもよい。本実施形態にいう「音声」には、人間が発生した音声や楽器の演奏音といった種々の音響が含まれる。
また、上述の実施形態では、制御部10は、音の特徴としてピッチと音量とを用いたが、音の特徴はピッチと音量に限定されるものではなく、他の特徴であってもよい。例えば、音の特徴は、特定の倍音のパワーの変動や、特定の倍音と基音のパワーの比率、倍音成分のパワーの合計と基音のパワーの比率、SN比率、ラウドネス(音量を聴覚の周波数特性に合わせて補正した値。「A特性音圧レベル」、「サウンドレベル」とも呼ばれる。JIS C1509で規定。)等であってもよく、音の特徴を表すものであればどのようなものであってもよい。
また、上述の実施形態では、制御部10は、ユーザ歌唱音声データに関する変位点の時刻の変化量と模範音データに関する変位点の時刻の変化量との差分に基づいてユーザ歌唱音声データを評価したが、これに限らず、変位点の時刻に関しては、絶対的な時刻があっているものの評価を高くしてもよい。すなわち、制御部10は、ユーザ歌唱音声データに関する変位点の時刻と模範音データに関する変位点の時刻との差分を特定し、特定した差分に基づきユーザ歌唱音声データにより示される音を評価してもよい。制御部10は、本発明に係る時刻変位特定部の一例である。
<変形例10>
上述の実施形態では、制御部10は、特定区間においては、ユーザ歌唱音声データの音の特徴の変化量の差分に基づく評価を行う一方、特定区間以外の区間においては、ユーザ歌唱音声データの音の特徴とGMデータにより示される音の特徴との差分に基づいて評価を行った。これに限らず、制御部10が、特定区間において、音の特徴の変化量の差分に基づく評価を行うまたはピッチを主とした従来の歌唱評価を行う(すなわちユーザ歌唱音声データの音の特徴とGMデータにより示される音の特徴との差分に基づいて評価を行う)構成であってもよい。
<変形例11>
上述の実施形態において、通信ネットワークで接続された2以上の装置が、上記実施形態のカラオケ装置100に係る機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態のカラオケ装置100を実現するようにしてもよい。例えば、マイクロホンやスピーカ、表示装置及び操作部等を備えるコンピュータ装置と、採点処理を実行するサーバ装置とが通信ネットワークで接続されたシステムとして構成されていてもよい。この場合は、例えば、コンピュータ装置が、マイクロホンで収音された音声をオーディオ信号に変換してサーバ装置に送信し、サーバ装置が、受信したオーディオ信号を解析して採点し、採点結果をコンピュータ装置に送信してもよい。この態様によれば、カラオケ端末の処理負荷が軽減され、また、サーバにおける統計処理が可能になる。
<変形例12>
本発明は、評価装置以外にも、これらを実現するための方法や、コンピュータに音声評価機能を実現させるためのプログラムとしても把握される。かかるプログラムは、これを記憶させた光ディスク等の記録媒体の形態で提供されたり、インターネット等を介して、コンピュータにダウンロードさせ、これをインストールして利用させるなどの形態でも提供されたりする。この態様によれば、家庭のPC(Personal Computer)や携帯端末等(スマートフォンを含む)で、上述した実施形態に係るサービスを提供できる。
10…制御部、20…記憶部、21…伴奏データ記憶領域、22…映像データ記憶領域、23…GMデータ記憶領域、24…採点用データ記憶領域、25…ユーザ歌唱音声データ記憶領域、30…操作部、40…表示部、50…通信制御部、60…音声処理部、61…マイクロホン、62…スピーカ、70…バス、100…カラオケ装置、200…サーバ装置、210…ネットワークストレージ、300…ユーザ歌唱音声曲線、400…採点関数、500…GM曲線

Claims (5)

  1. 音声の波形を示す音声データを取得する音声取得部と、
    模範となる音の特徴を示す模範音データを取得する模範音取得部と、
    前記音声取得部により取得された音声データにより示される音の特徴を特定する特徴特定部と、
    前記特徴特定部により特定された特徴の変化量と、前記模範音データにより示される音の特徴の変化量のそれぞれの変化量の差分を特定する差分特定部と、
    前記差分特定部により特定された差分に基づき前記音声データにより示される音を評価し、評価結果を出力する評価部と
    音の特徴の時間的変化を表すグラフの傾きが予め定められた閾値以上変化する箇所を変位点とするとき、 前記特徴特定部により特定された特徴の変位点を特定する変位点特定部と、
    前記模範音データにより示される特徴に関する変位点と、当該変位点の時刻から所定の時間差内に現れる前記変位点特定部により特定された前記音声データの変位点とを互いに対応付ける対応付け部とを具備し、
    前記差分特定部は、前記差分の特定において、前記対応付け部により対応付けられた前記音声データに関する変位点における特徴の変化量と前記模範音データに関する変位点における特徴の変化量との差分を特定する
    することを特徴とする音声評価装置。
  2. 記音声データに関する変位点の時刻と、前記模範音データに関する変位点の時刻との差分を特定する時刻変位特定部を有し、
    前記評価部は、前記差分特定部により特定された差分及び前記時刻変位特定部により特定された差分に基づき前記音声データにより示される音を評価し、評価結果を出力する
    ことを特徴とする請求項に記載の音声評価装置。
  3. 記評価部は、前記差分特定部により特定された差分が予め定められた閾値以内である場合には同一の評価結果を出力する一方、それ以外の場合には、該特定された差分が大きいほど低い評価を示す評価結果を出力する
    ことを特徴とする請求項1又は2に記載の音声評価装置。
  4. 記音声データにおいて予め定められた歌唱態様による歌唱を行う区間を表す区間データを取得する区間データ取得部
    を具備し、
    前記評価部は、前記区間データ取得部によって取得された区間データの示す区間内においては、前記差分特定部によって特定された差分に基づく評価を行う一方、該区間データの示す区間以外の区間においては、前記特徴特定部によって特定された特徴と、前記模範音データにより示される音の特徴との差分に基づく評価を行う
    ことを特徴とする請求項1に記載の音声評価装置。
  5. 記音声データを予め定められたアルゴリズムに従って解析し、解析結果に応じて、予め定められた歌唱態様による歌唱を行う区間を特定する区間特定部
    を具備し、
    前記評価部は、前記区間特定部によって特定された区間内においては、前記差分特定部によって特定された差分に基づく評価を行う一方、該特定された区間以外の区間においては、前記特徴特定部によって特定された特徴と、前記模範音データにより示される音の特徴との差分に基づく評価を行う
    ことを特徴とする請求項1に記載の音声評価装置。
JP2012056044A 2012-03-13 2012-03-13 音声評価装置 Expired - Fee Related JP6024130B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012056044A JP6024130B2 (ja) 2012-03-13 2012-03-13 音声評価装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012056044A JP6024130B2 (ja) 2012-03-13 2012-03-13 音声評価装置

Publications (2)

Publication Number Publication Date
JP2013190564A JP2013190564A (ja) 2013-09-26
JP6024130B2 true JP6024130B2 (ja) 2016-11-09

Family

ID=49390896

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012056044A Expired - Fee Related JP6024130B2 (ja) 2012-03-13 2012-03-13 音声評価装置

Country Status (1)

Country Link
JP (1) JP6024130B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6514874B2 (ja) * 2014-10-03 2019-05-15 株式会社第一興商 リファレンスの音高差と歌唱音声の音高差を比較して採点を行うカラオケ採点装置
JP6759545B2 (ja) * 2015-09-15 2020-09-23 ヤマハ株式会社 評価装置およびプログラム
KR102107588B1 (ko) * 2018-10-31 2020-05-07 미디어스코프 주식회사 가창 평가 방법 및 이를 수행하기 위한 컴퓨팅 장치

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5287789A (en) * 1991-12-06 1994-02-22 Zimmerman Thomas G Music training apparatus
JPH11224094A (ja) * 1998-02-09 1999-08-17 Yamaha Corp カラオケ採点装置
JP3587200B2 (ja) * 2002-06-10 2004-11-10 ヤマハ株式会社 カラオケ採点装置
JP4116849B2 (ja) * 2002-09-10 2008-07-09 ヤマハ株式会社 動作評価装置、カラオケ装置およびプログラム
JP2008015214A (ja) * 2006-07-06 2008-01-24 Dds:Kk 歌唱力評価方法及びカラオケ装置
JP2008020677A (ja) * 2006-07-13 2008-01-31 Casio Comput Co Ltd 歌唱採点装置および歌唱採点プログラム
JP2008039833A (ja) * 2006-08-01 2008-02-21 Yamaha Corp 音声評価装置
JP2008040258A (ja) * 2006-08-08 2008-02-21 Yamaha Corp 楽曲練習支援装置、動的時間整合モジュールおよびプログラム
JP4906776B2 (ja) * 2008-04-16 2012-03-28 株式会社アルカディア 音声制御装置
US8148621B2 (en) * 2009-02-05 2012-04-03 Brian Bright Scoring of free-form vocals for video game
JP5122598B2 (ja) * 2010-03-30 2013-01-16 株式会社コナミデジタルエンタテインメント 音声入力評価システム、音声入力評価システムの制御方法、及びプログラム

Also Published As

Publication number Publication date
JP2013190564A (ja) 2013-09-26

Similar Documents

Publication Publication Date Title
KR101521451B1 (ko) 표시 제어 장치 및 방법
JP6060867B2 (ja) 情報処理装置,データ生成方法,及びプログラム
JP2007310204A (ja) 楽曲練習支援装置、制御方法及びプログラム
JP6024130B2 (ja) 音声評価装置
JP4163584B2 (ja) カラオケ装置
JP6288197B2 (ja) 評価装置及びプログラム
JP4910854B2 (ja) こぶし検出装置、こぶし検出方法及びプログラム
JP6102076B2 (ja) 評価装置
JP2007271977A (ja) 評価基準判定装置、制御方法及びプログラム
JP5772054B2 (ja) 歌唱評価装置
JP4048249B2 (ja) カラオケ装置
JP5618743B2 (ja) 歌唱音声評価装置
JP5585320B2 (ja) 歌唱音声評価装置
JP5125957B2 (ja) 音域特定システム、プログラム
JP6365483B2 (ja) カラオケ装置,カラオケシステム,及びプログラム
JP5034642B2 (ja) カラオケ装置
JP6380305B2 (ja) データ生成装置、カラオケシステム、及びプログラム
JP6406182B2 (ja) カラオケ装置、及びカラオケシステム
JP6074835B2 (ja) 楽曲練習支援装置
JP2007233078A (ja) 評価装置、制御方法及びプログラム
JP6144593B2 (ja) 歌唱採点システム
JP5805474B2 (ja) 音声評価装置,音声評価方法,及びプログラム
JP5012269B2 (ja) 演奏クロック生成装置、データ再生装置、演奏クロック生成方法、データ再生方法およびプログラム
JP5262908B2 (ja) 歌詞表示装置,プログラム
JP2023049513A (ja) カラオケ装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160216

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160406

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160913

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160926

R151 Written notification of patent or utility model registration

Ref document number: 6024130

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees