JP6365483B2 - カラオケ装置,カラオケシステム,及びプログラム - Google Patents

カラオケ装置,カラオケシステム,及びプログラム Download PDF

Info

Publication number
JP6365483B2
JP6365483B2 JP2015186811A JP2015186811A JP6365483B2 JP 6365483 B2 JP6365483 B2 JP 6365483B2 JP 2015186811 A JP2015186811 A JP 2015186811A JP 2015186811 A JP2015186811 A JP 2015186811A JP 6365483 B2 JP6365483 B2 JP 6365483B2
Authority
JP
Japan
Prior art keywords
feature
singer
data
note
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015186811A
Other languages
English (en)
Other versions
JP2017062313A (ja
Inventor
典昭 阿瀬見
典昭 阿瀬見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2015186811A priority Critical patent/JP6365483B2/ja
Publication of JP2017062313A publication Critical patent/JP2017062313A/ja
Application granted granted Critical
Publication of JP6365483B2 publication Critical patent/JP6365483B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

本発明は、歌唱音声を評価する技術に関する。
従来、楽曲を演奏すると共に、楽曲の演奏に併せて入力された歌唱音声を評価するカラオケ装置が知られている(特許文献1参照)。そして、特許文献1に記載されたカラオケ装置では、歌唱音声の評価を以下の手順で実施している。
特許文献1に記載されたカラオケ装置では、模範歌唱信号と歌唱信号とに対する二つの音声の特徴点を抽出し、特定話者単語音声認識を実施する。その特定話者単語音声認識によって得られた声質、発生単語の長さを比較し、この比較の結果を表す類似度を評価結果として出力する。
特開平11−259081号公報
このようなカラオケ装置では、楽曲の実演家であるオリジナル歌手の歌い回しや声質に対する再現性を評価していると考えられる。
カラオケ装置のユーザの歌い回しや声質は、オリジナルの歌手の歌い回しや声質に類似していない場合が多い。
従来の技術では、オリジナルの歌手の歌い回しや声質に類似していない場合、評価が低くなり、当該ユーザのモチベーションが低下する可能性があるという課題があった。
そこで、本発明は、カラオケにおいて、ユーザのモチベーションが低下することを抑制する技術を提供することを目的とする。
上記目的を達成するためになされた本発明の一態様のカラオケ装置は、楽譜取得手段と、演奏手段と、波形取得手段と、特徴取得手段と、類似特定手段と、生成手段と、評価手段とを備える。
このうち、楽譜取得手段は、歌詞が割り当てられた楽曲のうち指定の楽曲について、音高と音符長とが規定された複数の構成音符が時間軸に沿って配置された楽譜データを取得する。
演奏手段は、楽譜取得手段で取得した楽譜データの前記構成音符に従って、前記指定の楽曲を演奏する。
さらに、波形取得手段は、演奏手段による前記指定の楽曲の演奏に合わせて歌唱したユーザの歌声の波形を表す波形データを取得する。
そして、特徴取得手段は、波形取得手段により取得した前記波形データから、歌唱の特徴を表す少なくとも1つの特徴量を含む歌声特徴量を取得する。
類似特定手段は、複数の歌手特徴データから、前記特徴取得手段により取得した前記歌声特徴量に類似する歌手特徴量を含む前記歌手特徴データを特定する。ここで言う複数の歌手特徴データとは、複数の既定の歌手それぞれについて、前記音高と音符長とが規定された各音符を含む単位音符と、前記単位音符に対する発声母音との組み合わせごとに、前記少なくとも一つの特徴量を含む歌手特徴量を対応付けたデータを歌手特徴データとして蓄積したデータ群である。
そして、生成手段は、楽譜取得手段で取得した指定楽譜データと、類似特定手段で取得した前記歌手特徴データとに基づいて、評価基準データを生成する。この評価基準データは、前記指定楽譜データを構成する構成音符に、前記歌手特徴データにおいて、当該構成音符の音高,音符長及び発声母音に一致する前記単位音符に対応付けられた歌手特徴量を割り当てたデータである。
そして、評価手段は、前記演奏手段による前記指定の楽曲の演奏に合わせて歌唱したユーザの歌声の波形を表す波形データを、前記生成手段で生成した評価基準データに基づいて評価する。
このようなカラオケ装置では、当該カラオケ装置のユーザの歌い方の特徴に類似する歌手(以下、類似歌手と称す)を特定する。そして、カラオケ装置では、その特定した類似歌手が指定楽曲を歌唱した場合に、各構成音符においてどのような歌い方となるのかを表す評価基準データを生成する。
すなわち、カラオケ装置によれば、ユーザの歌い方に近い、類似歌手が指定楽曲を歌唱した場合にどのような歌い方をするのかという点を基準として、ユーザの歌い方を評価できる。このため、カラオケ装置によれば、カラオケ装置のユーザがオリジナル歌手の歌い回しや声質に類似していない場合であっても、評価が低くなることを防止できる。
この結果、カラオケ装置によれば、評価が低いことに起因して、ユーザのモチベーションが上がらなくなることを抑制できる。
前記単位音符は、前記楽曲において時間軸に沿って連続する少なくとも2つの音符の組み合わせであってもよい。この場合、前記連続する少なくとも2つの音符の組み合わせには、前記歌手特徴量が対応付けられていてもよい。
さらに、類似特定手段は、前記歌手特徴データの前記連続する少なくとも2つの音符の組み合わせに対応付けられた前記歌手特徴量を用いて、前記歌声特徴量に類似する前記歌手特徴データを特定してもよい。
このようなカラオケ装置によれば、特徴データに含まれる情報をより詳しくできる。そして、カラオケ装置においては、当該カラオケ装置のユーザの歌唱をより詳細に評価できる。
また、本発明の一態様のカラオケ装置では、単位音符は、前記楽曲において時間軸に沿って連続する少なくとも3つの音符の組み合わせであってもよい。この場合、前記単位音符を構成する少なくとも3つの音符のうちの1つの音符に、音符長と、時間軸に沿って当該音符の演奏開始タイミングと当該音符の前後に演奏される音符の演奏開始タイミングとの時間差を示す時間長とが定められていてもよい。
さらに、類似特定手段は、前記歌手特徴データの前記音符長と、前記時間長とを用いて、前記歌声特徴量の前記特徴量に類似する前記歌手特徴データを特定してもよい。
カラオケ装置のユーザは、通常、構成音符の演奏開始タイミングを把握することで、楽曲におけるリズムを認識している。
したがって、カラオケ装置によれば、単位音符を構成する少なくとも3つの音符のうちの1つの音符に、音符長と、時間軸に沿って当該音符の演奏開始タイミングと当該音符の前後に演奏される音符の演奏開始タイミングとの時間差を示す時間長とを表すことで、楽曲におけるリズムを特徴量の分類項目とすることができる。
また、本発明の一態様のカラオケ装置では、前記少なくとも一つの特徴量のそれぞれは、予め規定された歌い方の項目それぞれにおける特徴量であってもよい。この場合、評価手段は、生成手段で生成した評価基準データにおける歌手特徴量と、前記特徴取得手段で取得した歌声特徴量との相関を前記少なくとも一つの特徴量の項目ごとに算出した結果を、前記評価とすればよい。
このようなカラオケ装置によれば、ユーザの歌唱を、歌声特徴量として規定された項目ごとに評価できる。
なお、本発明の一態様のカラオケ装置において、歌手特徴データは、前記複数の既定の歌手の中で、当該歌手に特徴的な歌い方の項目に対する特徴量を特定特徴量として、特徴的な歌い方の項目以外の他の特徴量より大きな重みが付されたものであってもよい。そして、類似特定手段は、前記特定特徴量に前記他の特徴量より大きな重みを付した前記歌手特徴データを用いて、前記歌声特徴量に類似する歌手特徴量を含む前記歌手特徴データを特定するものであってもよい。
さらに、生成手段は、前記歌手特徴データの前記特定特徴量に、前記特定特徴量以外の前記特徴量より大きな重みが付された前記歌声特徴量を用いて前記評価基準データを生成するものであってもよい。評価手段は、生成手段で生成した前記特定特徴量に重みが付された前記評価基準データにおける歌手特徴量と、前記指定の楽曲を歌唱した前記ユーザの歌唱の前記波形データから取得された前記歌声特徴量との相関が高いほど高い評価としてもよい。
このようなカラオケ装置によれば、特定した類似歌手における特徴的な歌い方を表現できているほど、高い評価とすることができる。
本発明の一態様におけるカラオケ装置は、波形取得手段で取得した波形データから、前記指定の楽曲を歌唱するユーザの歌唱の特徴を表す照合特徴量を導出する特徴導出手段を備えていてもよい。
さらに、カラオケ装置の評価手段は、前記特徴導出手段で導出した照合特徴量を、前記生成手段で生成した評価基準データにおける歌手特徴量に基づいて評価してもよい。
このようなカラオケ装置によれば、評価基準データにおける歌手特徴量に基づいて照合特徴量を評価できる。
本発明の一態様のカラオケ装置においては、評価手段での評価結果を報知する報知手段を備えていてもよい。
このようなカラオケ装置によれば、評価結果を報知できる。
さらに、本発明の一態様のカラオケ装置における報知手段は、類似特定手段で取得した類似特徴データに対応する既定の歌手である類似歌手に関する情報を報知してもよい。
カラオケ装置によれば、類似歌手に関する情報を報知できる。よって、カラオケ装置のユーザは、類似歌手を認識でき、類似歌手の歌い方がユーザ自身の歌い方に類似していることを知ることができる。
ここで言う「類似歌手に関する情報」には、類似歌手の名前やその類似歌手の歌い方の特徴などを含む。
本発明の一態様は、楽譜取得手段と、演奏手段と、波形取得手段と、特徴取得手段と、類似特定手段と、生成手段と、評価手段とを備えたカラオケシステムであってもよい。
このようなカラオケシステムによれば、カラオケ装置と同様の効果を得ることができる。
また、本発明の一態様は、楽譜取得手順と、演奏手順と、波形取得手順と、特徴取得手順と、類似特定手順と、生成手順と、評価手順とを、コンピュータに実行させるプログラムであってもよい。
このように、本発明がプログラムとしてなされていれば、記録媒体から必要に応じてコンピュータにロードさせて起動することや、必要に応じて通信回線を介してコンピュータに取得させて起動することにより用いることができる。そして、コンピュータに各手順を実行させることによって、当該コンピュータを、カラオケ装置と同様に動作させることができる。
カラオケシステムの概略構成を示すブロック図である。 歌手特徴データの一例を示す説明図である。 演奏処理の処理手順を示すフローチャートである。 類似歌手特定処理の処理手順を示すフローチャートである。 (A)特徴量の1つである「タメ時間」を説明する説明図であり、(B)特徴量の1つである「音高特徴」を説明する説明図である。 特徴量の1つである「ビブラート特徴」を説明する説明図である。 評価処理の処理手順を示すフローチャートである。
以下に、本発明の一態様としての実施形態を図面と共に説明する。
<カラオケシステム>
図1に示すカラオケシステム1は、情報処理サーバ10と、カラオケ装置30とを備えている。カラオケシステム1は、カラオケ装置30のユーザによって指定された楽曲を演奏すると共に、ユーザの歌唱を評価するシステムである。
本実施形態における楽曲とは、複数の構成音符が時間軸に沿って配置された楽曲であって、構成音符の少なくとも一部に歌詞が割り当てられた楽曲である。また、以下では、カラオケ装置30のユーザによって指定された楽曲を指定の楽曲と称す。
なお、カラオケシステム1は、複数のカラオケ装置30を備えている。
<情報処理サーバ>
情報処理サーバ10は、通信部12と、記憶部14と、制御部16とを備えている。
通信部12は、通信網を介して、情報処理サーバ10が外部との間で通信を行う。すなわち、情報処理サーバ10は、通信網を介してカラオケ装置30と接続されている。なお、ここで言う通信網は、有線による通信網であってもよいし、無線による通信網であってもよい。
記憶部14は、記憶内容を読み書き可能に構成された周知の記憶装置である。この記憶部14には、詳しくは後述する少なくとも1つのMIDI楽曲MDが記憶される。なお、図1に示す符号「n」は、情報処理サーバ10の記憶部14に記憶されているMIDI楽曲MDを識別する識別子である。この符号「n」は、1以上の自然数である。
さらに、記憶部14には、後述する少なくとも1つの歌手特徴データCDが蓄積された歌手特徴データベースが格納されている。なお、図1に示す符号「m」は、情報処理サーバ10の記憶部14に記憶されている歌手特徴データCDを識別する識別子である。この符号「m」は、1以上の自然数である。
制御部16は、ROM18,RAM20,CPU22を備えた周知のマイクロコンピュータを中心に構成された周知の制御装置である。ROM18は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを記憶する。RAM20は、処理プログラムやデータを一時的に記憶する。CPU22は、ROM18やRAM20に記憶された処理プログラムに従って各処理を実行する。
<MIDI楽曲>
MIDI楽曲MDは、楽曲ごとに予め用意されたデータである。MIDI楽曲MDは、楽譜データと、歌詞データと、楽曲情報とを備えている。
楽譜データは、周知のMIDI(Musical Instrument Digital Interface)規格によって、一つの楽曲の楽譜を表したデータである。この楽譜データは、楽曲の主旋律を表す主旋律楽譜トラックと、主旋律以外の旋律である副旋律を表す副旋律楽譜トラックとを備えている。
これらの楽譜トラックには、MIDI音源にて演奏される個々の構成音符について、少なくとも、音高(いわゆるノートナンバー)と、音符長とが規定されている。楽譜トラックにおける音符長は、当該構成音符のノートオンタイミングと、当該構成音符のノートオフタイミングとによって規定されている。
歌詞データは、楽曲の歌詞に関するデータである。歌詞データは、歌詞テキストデータと、歌詞出力データとを備えている。歌詞テキストデータは、楽曲の歌詞を構成する文字(以下、歌詞構成文字とする)を表す。歌詞出力データは、歌詞構成文字の出力タイミングである歌詞出力タイミングを、楽譜データに基づく演奏と対応付けるタイミング対応関係が規定されたデータである。
このタイミング対応関係においては、楽曲の主旋律を構成する構成音符のうちの少なくとも一部の構成音符に歌詞構成文字を割り当てることが規定されている。ここで言う「少なくとも一部の音符」とは、前奏や間奏を除くという意味を含むものである。したがって、歌詞構成文字は、例えば、Aメロや、Bメロ、サビなどのフレーズを構成する構成音符に割り当てられている。
なお、本実施形態における歌詞構成文字は、歌詞を音節ごとに表した文字である。そして、本実施形態における歌詞構成文字には、各文字における母音を識別する情報を含む。
楽曲情報は、楽曲に関する情報である。楽曲情報には、楽曲を識別する識別情報(即ち、楽曲ID)と、オリジナル歌手に関する情報であるオリジナル歌手情報とを含む。
ここで言うオリジナル歌手とは、楽曲を歌唱した実演家としての歌手であり、例えば、楽曲情報で対応付けられる楽曲を持ち歌として歌うプロの歌手である。そして、オリジナル歌手情報には、オリジナル歌手の氏名や、オリジナル歌手を識別する歌手IDを含む。
<歌手特徴データ>
歌手特徴データベースは、歌手特徴データCDを複数蓄積したデータ群である。
歌手特徴データCDは、図2に示すように、実演家である歌手の特徴量を発声情報ごとに表したデータである。歌手特徴データCDは、歌手ごとに予め用意されている。
歌手特徴データCDは、歌手情報と、発声情報と、歌手特徴量とを備えている。歌手特徴データCDに歌手特徴量が発声情報として登録される歌手には、例えば、上述したような複数の楽曲をそれぞれ持ち歌として歌う複数のオリジナル歌手と、楽曲情報に登録されたいずれかの楽曲をカバーして歌唱する歌手とが含まれている。言い換えると、歌手特徴データCDには、異なる楽曲をそれぞれ歌唱した複数の実演家であるオリジナル歌手およびカバー歌手の歌手特徴量を集めたものであってもよい。本実施形態のオリジナル歌手およびカバー歌手が、本発明における複数の既定の歌手の一例である。以下、オリジナル歌手およびカバー歌手を総称して説明する場合を、「歌手」とし、楽曲情報で対応付けられる楽曲を持ち歌として歌うプロの歌手を称して説明する場合を「オリジナル歌手」として、説明する。
発声情報は、単位音符と、発声母音とを備え、単位音符と発声母音との組み合わせによって規定される情報である。
ここで言う単位音符とは、時間軸に沿って連続する少なくとも2つの音符の組み合わせである。具体的に本実施形態における単位音符は、時間軸に沿って連続する3つの音符の組み合わせである。単位音符は、単位音符を構成する音符(以下、単位構成音符と称す)それぞれの音高と音符長との組み合わせによって規定される。
すなわち、本実施形態においては、単位構成音符として、対象音符と、その対象音符に時間軸に沿って前に位置する前音符と、対象音符に時間軸に沿って後ろに位置する後音符とを備えている。なお、本実施形態においては、対象音符の音符長として、対象音符の音価が規定されている。また、前音符の時間長として、前音符の演奏開始タイミングから対象音符の演奏開始タイミングまでの時間差が規定されている。後音符の時間長として、対象音符の演奏開始タイミングから後音符の演奏開始タイミングまでの時間差が規定されている。
発声母音は、単位構成音符において歌唱される歌詞の母音である。発声母音は、対象音符において歌唱される歌詞の母音だけであってもよいし、対象音符と前音符と後音符とのそれぞれにおいて歌唱される歌詞の母音の組み合わせであってもよい。
歌手特徴量は、単位音符に含まれる対象音符を歌手それぞれが歌唱した場合の特徴量である。
ここで言う特徴量とは、歌声における音声の特徴を表す特徴量である。この特徴量として、詳しくは後述する「時間特徴」、「音高特徴」、「ビブラート特徴」、「音量特徴」、「スペクトル特徴」,「声質特徴量」などを含む。
「時間特徴」には、「タメ時間」を含む。「音高特徴」には、「音高変化微分(開始)」、「音高変化微分(終了)」を含む。「ビブラート特徴」には、「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時刻」を含む。「音量特徴」には、「音量平均」、「音量微分平均」、「音量比」を含む。「スペクトル特徴」には、「スペクトル変動指数」を含む。各特徴量の詳細については、後述する。
歌手情報は、歌手に関する情報である。歌手情報には、歌手の氏名と、オリジナル歌手を識別する識別番号である歌手IDと、特定特徴量とを含む。ここで言う特定特徴量とは、当該歌手に特徴的な特徴量であり、予め指定された種類の特徴量である。この特定特徴量は、1種類の特徴量であってもよいし、複数種類の特徴量であってもよい。
すなわち、歌手特徴データCDは、音高と音符長とによって規定される音符のそれぞれに割り当てられた歌詞の発声母音それぞれを複数の実演家である歌手それぞれが歌唱した場合の特徴量を表したデータである。
<カラオケ装置>
カラオケ装置30は、通信部32と、入力受付部34と、楽曲再生部36と、記憶部38と、音声制御部40と、映像制御部46と、制御部50とを備えている。
通信部32は、通信網を介して、カラオケ装置30が外部との間で通信を行う。入力受付部34は、外部からの操作に従って情報や指令の入力を受け付ける入力機器である。ここでの入力機器とは、例えば、キーやスイッチ、リモコンの受付部などである。
楽曲再生部36は、情報処理サーバ10からダウンロードしたMIDI楽曲MDに基づく楽曲の演奏を実行する。この楽曲再生部36は、例えば、MIDI音源である。音声制御部40は、音声の入出力を制御するデバイスであり、出力部42と、マイク入力部44とを備えている。
マイク入力部44には、マイク62が接続される。これにより、マイク入力部44は、マイク62を介して入力された音声を取得する。出力部42は、楽曲再生部36によって再生される楽曲の音源信号、マイク入力部44からの歌唱音の音源信号をスピーカ60に出力する。スピーカ60は、出力部42から出力される音源信号を音に換えて出力する。
映像制御部46は、制御部50から送られてくる映像データに基づく映像または画像の出力を行う。映像制御部46には、映像または画像を表示する表示部64が接続されている。
記憶部38は、記憶内容を読み書き可能に構成された周知の記憶装置である。
制御部50は、ROM52,RAM54,CPU56を少なくとも有した周知のコンピュータを中心に構成されている。ROM52は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを記憶する。RAM54は、処理プログラムやデータを一時的に記憶する。CPU56は、ROM52やRAM54に記憶された処理プログラムに従って各処理を実行する。
本実施形態のROM52には、指定楽曲データに基づいて指定の楽曲を演奏する演奏処理を制御部50が実行するための処理プログラムが記憶されている。
<演奏処理>
次に、カラオケ装置30の制御部50が実行する演奏処理について、図3を用いて説明する。
図3に示す演奏処理が起動されると、制御部50は、まず、入力受付部34を介して指定された楽曲(即ち、指定の楽曲)の楽曲IDを取得する(S110)。そして、制御部50は、S110で取得した楽曲IDを含むMIDI楽曲MDを、情報処理サーバ10の記憶部14から取得する(S120)。
そして、制御部50は、MIDI楽曲MDに基づいて指定の楽曲の演奏を実行する(S130)。このS130におけるMIDI楽曲MDに基づく演奏では、制御部50は、楽曲再生部36にMIDI楽曲MDを時間軸に沿って順次出力する。そのMIDI楽曲MDを取得した楽曲再生部36は、指定の楽曲の演奏を行う。そして、楽曲再生部36によって演奏された指定の楽曲の音源信号が、出力部42を介してスピーカ60へと出力される。スピーカ60は、音源信号を音に換えて出力する。
このS130におけるMIDI楽曲MDに基づく演奏では、制御部50は、歌詞出力データ及び歌詞テキストデータを映像制御部46に出力する。この歌詞出力データ及び歌詞テキストデータを取得した映像制御部46は、指定の楽曲の演奏に併せて歌詞構成文字を表示部64に順次表示する。
続いて、制御部50は、マイク62及びマイク入力部44を介して入力された音声を波形データとして取得する(S140)。ここで言う波形データとは、ユーザが発した音声の波形を表すデータである。本実施形態における波形データは、指定の楽曲をユーザが歌唱した歌声を表すデータである。
そして、制御部50は、指定の楽曲における類似特定区間の演奏が終了したか否かを判定する(S150)。ここで言う類似特定区間とは、指定の楽曲に対して予め規定された区間である。この類似特定区間として、例えば、指定の楽曲における最初の数フレーズや、指定の楽曲における最初のサビが終了するまでの区間などが規定されていてもよい。また、指定の楽曲に対して予め規定された区間であれば、楽曲における途中の一部区間が規定されていてもよい。
このS150での判定の結果、指定の楽曲における類似特定区間の演奏が終了していなければ(S150:NO)、制御部50は、演奏処理をS140へと戻す。一方、S150での判定の結果、指定の楽曲における類似特定区間の演奏が終了していれば(S150:YES)、制御部50は、演奏処理をS160へと移行させる。
そのS160では、制御部50は、類似歌手特定処理を実行する。類似歌手特定処理は、ユーザの歌い方に類似する歌い方をする歌手(以下、類似歌手と称す)を特定する処理である。この類似歌手特定処理の処理内容については、詳しくは後述する。なお、類似歌手は、指定の楽曲を歌唱したオリジナル歌手でなくともよい。
演奏処理では、続いて、マイク62及びマイク入力部44を介して入力された音声を波形データとして取得する(S170)。このS170で取得する波形データは、類似特定区間の演奏終了後にマイク62を介して入力された音声であってもよいし、類似特定区間を含む指定の楽曲の演奏中にマイク62を介して入力された音声であってもよい。
そして、制御部50は、指定の楽曲における評価区間の演奏が終了したか否かを判定する(S180)。ここで言う評価区間とは、指定の楽曲に対して予め規定された区間である。この評価区間として、例えば、指定の楽曲における規定数のフレーズや、指定の楽曲の1番が終了するまでの区間、指定の楽曲の全体が終了するまでの区間などが規定されていてもよい。
このS180での判定の結果、指定の楽曲における評価区間の演奏が終了していなければ(S180:NO)、制御部50は、演奏処理をS170へと戻す。一方、S180での判定の結果、指定の楽曲における評価区間の演奏が終了していれば(S180:YES)、制御部50は、演奏処理をS190へと移行させる。
そのS190では、制御部50は、評価処理を実行する。評価処理は、類似歌手が指定の楽曲を歌唱した場合の歌い方を表す評価基準データに基づいて、ユーザの歌唱を評価する処理である。この評価処理の処理内容については、詳しくは後述する。
制御部50は、その後、演奏処理を終了する。
<類似歌手特定処理>
演奏処理のS160で起動される類似歌手特定処理について、図4を用いて説明する。
この類似歌手特定処理が起動されると、図4に示すように、制御部50は、先のS140で取得した波形データを音響分析する(S310)。このS310における音響分析では、制御部50は、周波数スペクトル推移、基本周波数推移、及び音圧推移を導出する。
周波数スペクトル推移の導出では、制御部50は、まず、予め規定された単位時間の分析窓を、互いに隣接かつ少なくとも一部が重複するように波形データに対して設定する。そして、音響分析では、制御部50は、波形データの分析窓それぞれについて、周波数解析(例えば、DFT)を実施する。この周波数解析を分析窓ごとに実行した結果を時間軸に沿って配置することで、周波数スペクトル推移を導出する。
また、基本周波数推移の導出方法の一例としては、設定された分析窓それぞれの波形データについて周波数解析(例えば、DFT)を実行し、自己相関の結果、最も強い周波数成分を基本周波数として導出することが考えられる。そして、このように導出した基本周波数を時間軸に沿って配置することで、基本周波数推移を導出することが考えられる。
さらに、音圧推移の導出方法の一例としては、分析窓ごとに、波形データの振幅を二乗した結果を音圧として導出することが考えられる。そして、このように導出した音圧を時間軸に沿って配置することで、音圧推移を導出することが考えられる。
さらに、類似歌手特定処理では、制御部50は、S310にて導出した波形データの周波数スペクトル推移、基本周波数推移、音圧推移、及びS140で取得した波形データそのものを分析して歌声特徴量を導出する(S320)。ここで言う歌声特徴量とは、波形データにおける特徴量である。歌声特徴量は、「タメ時間」、「音高変化微分(開始)」、「音高変化微分(終了)」、「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時刻」、「音量平均」、「音量微分平均」、「音量比」、「スペクトル変動指数」、「声質特徴量」である。
まず、「タメ時間」の導出方法の一例について説明する。
「タメ時間」の導出では、例えば、制御部50は、図5(A)に示すように、波形データにおける発声開始タイミングと、MIDI楽曲MDにおける構成音符のノートオンタイミングとの、対応する構成音符ごとの時間差分を、各構成音符に対する「タメ時間」として特定する。
なお、波形データにおける発声開始タイミングの特定方法としては、周知の手法を用いればよい。具体的には波形データの音圧の推移において、その音圧が閾値以上となるタイミングを発声開始タイミングとして特定すればよい。
次に、「音高変化微分(開始)」、「音高変化微分(終了)」の導出方法の一例について説明する。ここで言う「音高変化微分(開始)」、「音高変化微分(終了)」とは、それぞれ、音高遷移音符群における音高の移行区間において、音高の変化が開始される変化開始タイミング、及び音高の変化が終了される変化終了タイミングでの、波形データの基本周波数推移における傾きである。なお、音高遷移音符群とは、連続する音符であり、かつ互いの音高が異なる音符の組である。
具体的に、「音高変化微分(開始)」、「音高変化微分(終了)」の導出では、図5(B)に示すように、制御部50は、基本周波数推移の中から、一つの時間窓における基本周波数(以下、第1探索音高と称す)を抽出する。そして、第1探索音高に対応する時間窓よりも時間軸に沿って前のN個分の時間窓における基本周波数の平均値に対する、第1探索音高の変化率が、規定された第1比率以上となる時間窓を変化開始タイミングとする。なお、ここで言う第1比率とは、音高遷移音符群を構成する音符間の音高差に対して規定されたものであり、例えば、αパーセントであってもよい。
また、基本周波数推移の中から、一つの時間窓における基本周波数(以下、第2探索音高と称す)を抽出する。そして、第2探索音高に対応する時間窓よりも時間軸に沿って後のN個分の時間窓における基本周波数の平均値に対する、第2探索音高の変化率が、規定された第2比率未満となる時間窓を変化終了タイミングとする。なお、ここで言う第2比率とは、音高遷移音符群を構成する音符間の音高差に対して規定されたものであり、例えば、βパーセントであってもよい。
さらに、制御部50は、変化開始タイミングにおける第1探索音高の変化率、変化終了タイミングにおける第2探索音高の変化率のそれぞれを、「音高変化微分(開始)」、「音高変化微分(終了)」として導出する。
「音高一致度」、「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時刻」の導出方法の一例について説明する。
まず、「音高一致度」の導出では、制御部50は、図6に示すように、各構成音符の音高に対する基本周波数推移の一致度の平均値を「音高一致度」として導出する。ここで言う一致度は、半音単位で算出してもよい。
また、「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時間」の導出方法としては、周知の方法を用いればよい。「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時間」の導出方法の一例として、特開2010−085655号公報に記載された方法を用いてもよい。
なお、ここで言う「ビブラート周波数」は、図6に示すように、ビブラートを用いて歌唱された波形データの区間における基本周波数の振動周期の逆数である。「ビブラート深さ」は、ビブラートを用いて歌唱された波形データの区間における基本周波数の周波数軸に沿った振れ幅を表す。「ビブラート開始時間」は、波形データにおいて、ビブラートを用いて歌唱が開始されたタイミングである。
「音量平均」、「音量微分平均」、「音量比」の導出方法の一例について説明する。
「音量平均」の導出では、制御部50は、音圧推移において、構成音符内での音圧の平均値を「音量平均」として導出する。さらに、「音量微分平均」の導出では、制御部50は、音圧推移において構成音符内での微分値の平均値を「音量微分平均」として導出する。また、「音量比」の導出では、制御部50は、音圧推移において、対象音符に対する音圧と前音符に対する音圧との比を「音量比」として導出する。
「スペクトル変動指標」の導出方法の一例について説明する。
「スペクトル変動指標」の導出では、制御部50は、周波数スペクトル推移における構成音符内のスペクトル包絡に関して、隣接する分析窓間全てに対して相関関数を算出する。そして、制御部50は、相関関数の絶対値の構成音符ごとの平均値を「スペクトル変動指標」として導出する。
「声質特徴量」の導出方法の一例について説明する。
「声質特徴量」の導出では、制御部50は、波形データの分析窓それぞれについて、周波数解析(例えば、DFT)を実施する。制御部50は、周波数スペクトル推移に対してケプストラム分析を実行することで、各分析窓のメル周波数ケプストラム(MFCC)を算出する。そして、制御部50は、分析窓ごとのメル周波数ケプストラム(MFCC)を、構成音符に設定された全ての分析窓に渡って相加平均し、その相加平均の結果を、各構成音符の声質特徴量として導出する。
類似歌手特定処理では、続いて、制御部50は、先のS120で取得したMIDI楽曲MDに基づいて、類似特定区間に含まれる構成音符の音符パラメータを特定する(S330)。ここで言う音符パラメータとは、構成音符に含まれる主音符と主音符の前後の音符における音高との組み合わせである。この音符パラメータは、各音符の音符長、音高、及び各音符それぞれにて歌唱される歌詞の母音との組み合わせである。
さらに、類似歌手特定処理では、制御部50は、情報処理サーバ10に格納されている歌手特徴データの個数を、歌手の総数を表す歌手総数として取得する(S340)。続いて、制御部50は、類似歌手を探索する対象(以下、被探索歌手と称す)を表す歌手IDである歌手インデックスSiを初期値に設定する(S350)。
そして、類似歌手特定処理では、制御部50は、歌手インデックスSiが歌手総数未満であるか否かを判定する(S360)。このS360での判定の結果、歌手インデックスSiが歌手総数以上であれば(S360:NO)、制御部50は、詳しくは後述するS440へと類似歌手特定処理を移行させる。
一方、S360での判定の結果、歌手インデックスSiが歌手総数未満であれば(S360:YES)、制御部50は、類似歌手特定処理をS370へと移行させる。そのS370では、制御部50は、歌手インデックスSiが含まれる歌手特徴データを情報処理サーバ10から取得する。
続いて、制御部50は、S360で取得した歌手特徴データに含まれる歌手特徴量の中から、S320で特定した構成音符の音符パラメータに一致する発声情報と対応付けられた歌手特徴量を取得する(S380)。そして、制御部50は、S320で導出した歌声特徴量と、S380で取得した歌手特徴量との、対応する音符ごとの内積を評価内積として算出する(S390)。S390では、制御部50は、特徴量の種類ごと、かつ構成音符の音符パラメータごとに評価内積を算出する。
さらに、類似歌手特定処理では、制御部50は、評価内積の代表値である内積代表値を算出する(S400)。S400では、制御部50は、特徴量ごと、かつ音符ごとに評価内積を算出された評価内積を重みづけ平均した結果を、内積代表値として算出すればよい。
この場合、制御部50は、特定特徴量に大きな重みを付与すればよい。ここで言う特定特徴量に大きな重みとは、被探索歌手において特徴的な特徴量である特定特徴量には、特定特徴量以外の特徴量より大きな重みとすることである。実現方法としては、特定特徴量に対応する重みを大きくしてもよいし、特定特徴量以外の特徴量を小さくしてもよい。
すなわち、歌手特徴データベースに蓄積された歌手特徴データCDのいずれかの歌手の特徴的な歌い方に近い歌い方が可能であるほど、S400で算出される内積代表値は大きな値となる。
類似歌手特定処理では、制御部50は、類似歌手特定処理における今回のサイクルのS400で算出した内積代表値(以下、今代表値と称す)が、前回以前のサイクルのS400で算出された内積代表値の中で最大の内積代表値(以下、最大値と称す)よりも大きいか否かを判定する(S410)。このS410での判定の結果、今代表値が最大値よりも大きければ(S410:YES)、制御部50は、今回のサイクルにて設定されている歌手インデックスSiを、類似歌手インデックスSSiとして設定する(S420)。なお、S410での判定の結果、今代表値が最大値以上であるとき、今回のサイクルにて設定されている歌手インデックスSiを、類似歌手インデックスSSiとして設定してもよい。万が一、内積代表値が同じ歌手インデックスSiが2つ以上存在した場合は、同じ内積代表値の歌手インデックスSiからランダムに何れかの歌手インデックスSiを選択し、類似歌手インデックスSSiとしてもよい。あるいは、いずれかの特定特徴量が大きい歌手インデックスSiを、類似歌手インデックスSSiとしてもよい。ここで言う類似歌手インデックスSSiとは、被探索歌手の歌手IDであり、類似歌手である可能性が最も高い歌手を示す歌手IDである。
制御部50は、その後、類似歌手特定処理をS430へと移行させる。
ところで、S410での判定の結果、今代表値が最大値以下であれば(S410:NO)、制御部50は、類似歌手特定処理をS430へと移行させる。
そのS430では、制御部50は、歌手インデックスSiを一つインクリメントする。制御部50は、その後、類似歌手特定処理をS360へと戻す。そして、制御部50は、情報処理サーバ10に格納された全ての歌手特徴データに含まれる歌手特徴量と、歌声特徴量との内積の算出(即ち、照合)が完了するまで、S360からS430までのステップを繰り返す。
そして、全ての歌手特徴データに含まれる歌手特徴量と歌声特徴量との内積の算出が完了すると(即ち、S350での判定の結果、歌手インデックスSiが歌手総数以上となると)移行するS440では、制御部50は、類似歌手インデックスSSiが含まれる歌手特徴データを類似特徴データとして情報処理サーバ10から取得する。ここで言う類似特徴データとは、歌声特徴量に最も類似する歌手特徴量を有した歌手特徴データであり、類似歌手の歌手特徴データである。
制御部50は、その後、類似歌手特定処理を終了する。
つまり、類似歌手特定処理では、制御部50は、類似歌手を特定し、その特定した類似歌手の歌手特徴データ(即ち、類似特徴データ)を取得する。
<評価処理>
次に、演奏処理のS190で実行される評価処理について、図7を用いて説明する。
この評価処理が起動されると、図7に示すように、制御部50は、まず、先のS430で取得した類似特徴データと指定楽譜データとに基づいて、評価基準データを生成する(S510)。ここで言う指定楽譜データとは、先のS120で取得した指定の楽曲のMIDI楽曲MDに含まれている主旋律楽譜トラックである。
また、評価基準データは、指定楽譜データによって表される構成音符に、当該構成音符の音高,音符長及び発声母音に一致する単位音符に対応付けられた特徴量を割り当てたデータである。このS510においては、制御部50は、指定楽譜データによって表される各構成音符に、類似特徴データに含まれる歌手特徴量の中で、当該構成音符の音符パラメータに一致する発声情報と対応付けられた特徴量を割り当てることで、評価基準データを生成すればよい。例えば、特徴的な特徴量である特定特徴量に、特定特徴量以外の特徴量より大きな重みが付されている場合、特徴量の重みを考慮して、評価基準データを作成すればよい。
続いて評価処理では、制御部50は、先のS170で取得した波形データを音響分析する(S520)。このS520における音響分析では、制御部50は、周波数スペクトル推移、基本周波数推移、及び音圧推移を導出する。ここで言う音響分析は、類似歌手特定処理におけるS320と同様であるため、ここでの詳しい説明は省略する。
評価処理では、制御部50は、波形データを分析して、波形データにおける特徴量である歌声特徴量を導出する(S530)。この歌声特徴量の導出方法としては、S320における歌声特徴量の導出方法と同様の手法を用いればよい。
制御部50は、指定の楽曲の評価区間に含まれる構成音符の音符パラメータに一致する発声情報と対応付けられた歌手特徴量を、類似特徴データから取得する(S540)。
そして、評価処理では、制御部50は、評価項目を表す評価インデックスEiを初期値に設定する(S550)。ここで言う評価項目とは、評価の対象とする特徴量である。評価項目の一例として、「時間特徴」、「音高特徴」、「ビブラート特徴」、「音量特徴」、「スペクトル特徴」、「声質特徴量」が挙げられる。
続いて制御部50は、評価インデックスEiが評価項目の総数未満であるか否かを判定する(S560)。このS560での判定の結果、評価インデックスEiが評価項目の総数以上であれば(S560:NO)、制御部50は、詳しくは後述するS630へと評価処理を移行させる。
一方、S560での判定の結果、評価インデックスEiが評価項目の総数未満であれば(S560:YES)、制御部50は、評価処理をS570へと移行させる。そのS570では、評価インデックスEiによって表される評価項目に含まれる特徴量が一次元であるか否かを判定する。このS570では、例えば、評価インデックスEiによって表される評価項目が「時間特徴」であれば、その「時間特徴」に含まれる特徴量は「タメ時間」だけであるため、制御部50は、特徴量が一次元であるものと判定する。一方、S570では、例えば、評価インデックスEiによって表される評価項目が「ビブラート特徴」であれば、その「ビブラート特徴」には「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時刻」が含まれるため、制御部50は、特徴量が一次元ではないものと判定する。
そして、S570での判定の結果、評価インデックスEiによって表される評価項目に含まれる特徴量が一次元であれば(S570:YES)、制御部50は、時間軸に沿って、歌手特徴量と歌声特徴量との正規化された相互相関値を算出する(S580)。その後、制御部50は、詳しくは後述するS610へと評価処理を移行させる。
一方、S570での判定の結果、評価インデックスEiによって表される評価項目に含まれる特徴量が一次元でなければ(S570:NO)、制御部50は、構成音符ごとに、歌手特徴量と歌声特徴量との内積を算出する(S590)。続いて、制御部50は、S590で算出した内積の代表値である項目代表値を算出する(S600)。ここで言う代表値とは、平均値であってもよいし、最頻値であってもよい。制御部50は、その後、評価処理をS610へと移行させる。
そのS610では、制御部50は、S580で算出された相互相関値、またはS600で算出された項目代表値を、評価インデックスEiによって表される評価項目に対する評価値へと変換する。このS610では、制御部50は、歌手特徴量と歌声特徴量との相関が高いほど高い評価となる評価値へと変換すればよい。
評価処理では、続いて、制御部50は、評価インデックスEiを1つインクリメントする(S620)。制御部50は、その後評価処理をS560へと戻す。
ところで、評価インデックスEiが評価項目の総数以上となった場合に移行するS630では、制御部50は、S610で変換された評価項目ごとの評価値を、映像制御部46へと出力する。この評価項目ごとの評価値を取得した映像制御部46は、評価項目ごとの評価値を表示部64に表示させる。
さらに、評価処理では、制御部50は、総合評価を算出する(S640)。このS640では、評価項目ごとの評価値を加算した結果を総合評価として算出してもよいし、評価項目ごとの評価値を重み付け加算した結果を総合評価として算出してもよい。重み付け加算を実行する場合、類似歌手の特定特徴量に、特定特徴量以外の特徴量より大きな重みを付与すればよい。すなわち、類似歌手に特徴的な歌い方を表す歌手特徴量に対する重みを大きなものとしてもよい。
なお、総合評価の算出方法はこれに限るものではなく、例えば、評価項目ごとの評価値の平均値を総合評価としてもよい。さらには、指定の楽曲の主旋律を構成する構成音符の音高と、波形データの基本周波数推移との一致度に、評価項目ごとの評価値の平均値を加算した結果を総合評価としてもよいし、その他の方法で算出してもよい。
評価処理では、続いて制御部50は、S640で算出した総合評価を映像制御部46へと出力する(S650)。この総合評価を取得した映像制御部46は、総合評価を表示部64に表示させる。
さらに、制御部50は、先のS430で取得した類似特徴データに含まれる歌手情報を映像制御部46へと出力する(S660)。この歌手情報を取得した映像制御部46は、少なくとも、類似歌手の氏名を表示部64に表示させる。
その後、本評価処理を終了する。
[実施形態の効果]
以上説明したように、カラオケ装置30によれば、類似歌手が指定の楽曲を歌唱した場合にどのような歌い方をするのかという点を基準として、ユーザの歌い方を評価できる。このため、カラオケ装置30によれば、カラオケ装置30のユーザが指定の楽曲における歌手の歌い回しや声質に類似していない場合であっても、評価が低くなることを防止できる。
この結果、カラオケ装置30によれば、評価が低いことに起因して、ユーザのモチベーションが上がらなくなることを抑制できる。
また、カラオケ装置30においては、類似歌手に関する情報を報知している。
したがって、カラオケ装置30のユーザは、類似歌手を認識でき、類似歌手の歌い方が自身の歌い方に類似していることを知ることができる。
また、カラオケシステム1においては、対象音符と、その対象音符に時間軸に沿って前に位置する前音符と、対象音符に時間軸に沿って後ろに位置する後音符とを、単位構成音符としている。
このような音符の組み合わせを単位音符とすることで、歌手特徴データCDに含まれる情報をより詳しくできる。このような歌手特徴データCDによって歌唱を評価することで、カラオケ装置30においては、当該カラオケ装置30のユーザの歌唱をより詳細に評価できる。
特に、上記実施形態では、前音符及び後音符の音符長を、当該前音符及び当該後音符の演奏開始タイミングによって表している。このため、カラオケ装置30においては、指定の楽曲におけるリズムを特徴量の分類項目とすることができる。
また、評価処理においては、類似歌手の特定特徴量に、特定特徴量以外の特徴量より大きな重みを付与して重み付き加算をした結果を総合評価として算出した場合を想定する。
この場合、カラオケ装置30によれば、類似歌手における特徴的な歌い方を表現できているほど、高い評価とすることができる。
[その他の実施形態]
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。
(1) 上記実施形態においては、類似特定処理において類似歌手の特定に用いる波形データを、指定の楽曲の演奏中に入力された音声としていたが、類似歌手の特定に用いる歌声データは、これに限るものではない。類似歌手の特定に用いる波形データは、例えば、ユーザが楽曲を歌唱した場合に予め録音した歌声であってもよい。また、本発明は、指定の楽曲の演奏中に入力された音声を用いて、演奏の終了後に類似歌手の特定および評価処理を行うものであってもよい。
(2) 上記実施形態においては、評価処理において評価の対象とする波形データを、指定の楽曲の演奏中に入力された歌声としていたが、評価処理において評価の対象とする波形データは、これに限るものではない。評価の対象とする波形データは、例えば、ユーザが楽曲を歌唱した場合に録音された歌声であってもよい。
この場合、評価処理は、指定の楽曲の演奏が終了した後に実行されてもよい。
(3) 上記実施形態の類似歌手特定処理では、歌声特徴量と歌手特徴量との内積に従って、ユーザの歌い方と被探索歌手の歌い方との類似度合いを求めていたが、ユーザの歌い方と被探索歌手の歌い方との類似度合いの求め方は、内積に限るものではない。すなわち、ユーザの歌い方と被探索歌手の歌い方との類似度合いは、歌声特徴量と歌手特徴量との相関に基づくものであれば、どのように求められていてもよい。
(4) 上記実施形態の類似歌手特定処理では、歌声特徴量と歌手特徴量との内積に従って、ユーザの歌唱の評価指標を求めていたが、ユーザの評価指標の求め方は、内積に限るものではない。すなわち、ユーザの歌唱の評価指標は、歌声特徴量と歌手特徴量との相関に基づくものであれば、どのように求められていてもよい。
(5) 上記実施形態の評価処理におけるS630、S650、S660では、それぞれ、評価項目ごとの評価値、総合評価、歌手情報を、表示部64に表示することで、ユーザに、評価項目ごとの評価値、総合評価、歌手情報を通知していたが、ユーザへの通知方法は、表示に限るものではない。例えば、評価項目ごとの評価値、総合評価、歌手情報を音によって出力してもよい。つまり、評価処理におけるS630、S650、S660では、それぞれ、評価項目ごとの評価値、総合評価、歌手情報が報知されれば、どのような方法で実現されてもよい。
(6) 上記実施形態においては、特徴量として、「時間特徴」、「音高特徴」、「ビブラート特徴」、「音量特徴」、「スペクトル特徴」,「声質特徴量」を想定していたが、特徴量は、これらの特徴量の少なくとも1つが含まれていれば、歌声の特徴を表す他の特徴量の少なくとも1つが省略されていてもよいし、当該他の特徴量が含まれていてもよい。
(7) 上記実施形態における「時間特徴」は、「タメ時間」であったが、「時間特徴」は、歌唱における時間に関係する他の特徴量を含んでいてもよいし、当該他の特徴量に置き換えられていてもよい。
上記実施形態における「音高特徴」には、「音高変化微分(開始)」、「音高変化微分(終了)」を含んでいたが、「音高特徴」は、2つの特徴量のうちのいずれかでもよいし、歌唱における音高に関係する他の特徴量を含んでいてもよいし、当該他の特徴量に置き換えられていてもよい。
上記実施形態における「ビブラート特徴」には、「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時刻」を含んでいたが、「ビブラート特徴」は、「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時刻」のうちの少なくとも1つが省略されていてもよい。また、「ビブラート特徴」は、歌唱におけるビブラートに関する他の特徴量を含んでいてもよいし、当該他の特徴量に置き換えられていてもよい。
上記実施形態における「音量特徴」には、「音量平均」、「音量微分平均」、「音量比」を含んでいたが、「音量特徴」は、「音量平均」、「音量微分平均」、「音量比」の内の少なくとも1つが省略されていてもよい。また、「音量特徴」には、歌唱における音量に関する他の特徴量を含んでいてもよいし、当該他の特徴量に置き換えられていてもよい。
上記実施形態における「スペクトル特徴」は、「スペクトル変動指数」であったが、「スペクトル特徴」は、歌唱におけるスペクトルに関係する他の特徴量を含んでいてもよいし、当該他の特徴量に置き換えられていてもよい。
(8) 上記実施形態のカラオケシステム1においては、MIDI楽曲MD及び歌手特徴データCDが情報処理サーバ10に格納されていたが、MIDI楽曲MD及び歌手特徴データCDは、カラオケ装置30に格納されていてもよい。この場合、情報処理サーバ10は省略されていてもよい。
(9) なお、上記実施形態の構成の一部を省略した態様も本発明の実施形態である。また、上記実施形態と変形例とを適宜組み合わせて構成される態様も本発明の実施形態である。また、特許請求の範囲に記載した文言によって特定される発明の本質を逸脱しない限度において考え得るあらゆる態様も本発明の実施形態である。
(10) 本発明は、前述したカラオケ装置30,カラオケシステム1の他、カラオケ装置30として機能する情報処理装置、カラオケ装置30としてコンピュータを機能させるためのプログラム、このプログラムを記録した記録媒体など、種々の形態で本発明を実現することもできる。
なお、ここで言う記録媒体には、例えば、DVD−ROM、CD−ROM、ハードディスク等のコンピュータ読み取り可能な電子媒体を含む。
[対応関係の一例]
演奏処理のS120を実行することで得られる機能が、楽譜取得手段の一例である。S130を実行することで得られる機能が演奏手段の一例である。S140を実行することで得られる機能が波形取得手段の一例である。
類似歌手特定処理のS320を実行することで得られる機能が特徴取得手段の一例である。S440を実行することで得られる機能が類似特定手段の一例である。
評価処理のS510を実行することで得られる機能が生成手段の一例である。S640,S640を実行することで得られる機能が評価手段の一例である。
また、演奏処理のS170を実行することで得られる機能が特徴導出手段の一例である。評価処理のS630,S650,S660を実行することで得られる機能が報知手段の一例である。
1…カラオケシステム 10…情報処理サーバ 12…通信部 14…記憶部 16,50…制御部 18,52…ROM 20,54…RAM 22,56…CPU 30…カラオケ装置 32…通信部 34…入力受付部 36…楽曲再生部 38…記憶部 40…音声制御部 42…出力部 44…マイク入力部 46…映像制御部 60…スピーカ 62…マイク 64…表示部

Claims (10)

  1. 歌詞が割り当てられた楽曲のうち指定の楽曲について、音高と音符長とが規定された複数の構成音符が時間軸に沿って配置された楽譜データを取得する楽譜取得手段と、
    前記楽譜取得手段で取得した楽譜データの前記構成音符に従って、前記指定の楽曲を演奏する演奏手段と、
    前記演奏手段による前記指定の楽曲の演奏に合わせて歌唱したユーザの歌声の波形を表す波形データを取得する波形取得手段と、
    前記波形取得手段により取得した前記波形データから、歌唱の特徴を表す少なくとも1つの特徴量を含む歌声特徴量を取得する特徴取得手段と、
    複数の既定の歌手それぞれについて、前記音高と音符長とが規定された各音符を含む単位音符と、前記単位音符に対する発声母音との組み合わせごとに、前記少なくとも一つの特徴量を含む歌手特徴量を対応付けたデータを歌手特徴データとして蓄積した複数の歌手特徴データから、前記特徴取得手段により取得した前記歌声特徴量に類似する歌手特徴量を含む前記歌手特徴データを特定する類似特定手段と、
    前記楽譜取得手段で取得した指定楽譜データと、前記類似特定手段で取得した前記歌手特徴データとに基づいて、前記指定楽譜データを構成する構成音符に、前記歌手特徴データにおいて、当該構成音符の音高,音符長及び発声母音に一致する前記単位音符に対応付けられた歌手特徴量を割り当てた評価基準データを生成する生成手段と、
    前記演奏手段による前記指定の楽曲の演奏に合わせて歌唱したユーザの歌声の波形を表す波形データを、前記生成手段で生成した評価基準データに基づいて評価する評価手段と
    を備える、カラオケ装置。
  2. 前記単位音符は、前記楽曲において時間軸に沿って連続する少なくとも2つの音符の組み合わせであり、
    前記連続する少なくとも2つの音符の組み合わせには、前記歌手特徴量が対応付けられており、
    前記類似特定手段は、前記歌手特徴データの前記連続する少なくとも2つの音符の組み合わせに対応付けられた前記歌手特徴量を用いて、前記歌声特徴量に類似する前記歌手特徴データを特定する
    請求項1に記載のカラオケ装置。
  3. 前記単位音符は、前記楽曲において時間軸に沿って連続する少なくとも3つの音符の組み合わせであり、
    前記単位音符を構成する少なくとも3つの音符のうちの1つの音符に、音符長と、時間軸に沿って当該音符の演奏開始タイミングと当該音符の前後に演奏される音符の演奏開始タイミングとの時間差を示す時間長とが定められており、
    前記類似特定手段は、前記歌手特徴データの前記音符長と、前記時間長とを用いて、前記歌声特徴量の前記特徴量に類似する前記歌手特徴データを特定する
    請求項1または請求項2に記載のカラオケ装置。
  4. 前記少なくとも一つの特徴量のそれぞれは、予め規定された歌い方の項目それぞれにおける特徴量であり、
    前記評価手段は、
    前記生成手段で生成した評価基準データにおける歌手特徴量と、前記特徴取得手段で取得した歌声特徴量との相関を前記少なくとも一つの特徴量の項目ごとに算出した結果を、前記評価とする
    請求項1から請求項3までのいずれか一項に記載のカラオケ装置。
  5. 前記歌手特徴データは、前記複数の既定の歌手の中で、当該歌手に特徴的な歌い方の項目に対する特徴量を特定特徴量として、特徴的な歌い方の項目以外の他の特徴量より大きな重みが付されたものであり、
    前記類似特定手段は、前記特定特徴量に前記他の特徴量より大きな重みを付した前記歌手特徴データを用いて、前記歌声特徴量に類似する歌手特徴量を含む前記歌手特徴データを特定するものであり、
    前記生成手段は、前記歌手特徴データの前記特定特徴量に、前記特定特徴量以外の前記特徴量より大きな重みが付された前記歌声特徴量を用いて前記評価基準データを生成するものであり、
    前記評価手段は、
    前記生成手段で生成した前記特定特徴量に重みが付された前記評価基準データにおける歌手特徴量と、前記指定の楽曲を歌唱した前記ユーザの歌唱の前記波形データから取得された前記歌声特徴量との相関が高いほど高い評価とする
    請求項4に記載のカラオケ装置。
  6. 前記波形取得手段で取得した波形データから、前記指定の楽曲を歌唱するユーザの歌唱の特徴を表す照合特徴量を導出する特徴導出手段を備え、
    前記評価手段は、前記特徴導出手段で導出した照合特徴量を、前記生成手段で生成した評価基準データにおける照合特徴量に基づいて評価する
    請求項1から請求項5までのいずれか一項に記載のカラオケ装置。
  7. 前記評価手段での評価結果を報知する報知手段
    を備える請求項1から請求項6までのいずれか一項に記載のカラオケ装置。
  8. 前記報知手段は、
    前記類似特定手段で取得した類似特徴データに対応する既定の歌手である類似歌手に関する情報を報知する
    請求項7に記載のカラオケ装置。
  9. 歌詞が割り当てられた楽曲のうち指定の楽曲について、音高と音符長とが規定された複数の構成音符が時間軸に沿って配置された楽譜データを取得する楽譜取得手段と、
    前記楽譜取得手段で取得した楽譜データの前記構成音符に従って、前記指定の楽曲を演奏する演奏手段と、
    前記演奏手段による前記指定の楽曲の演奏に合わせて歌唱したユーザの歌声の波形を表す波形データを取得する波形取得手段と、
    前記波形取得手段により取得した前記波形データから、歌唱の特徴を表す少なくとも1つの特徴量を含む歌声特徴量を取得する特徴取得手段と、
    複数の既定の歌手それぞれについて、前記音高と音符長とが規定された各音符を含む単位音符と、前記単位音符に対する発声母音との組み合わせごとに、前記少なくとも一つの特徴量を含む歌手特徴量を対応付けたデータを歌手特徴データとして蓄積した複数の歌手特徴データから、前記特徴取得手段により取得した前記歌声特徴量に類似する歌手特徴量を含む前記歌手特徴データを特定する類似特定手段と、
    前記楽譜取得手段で取得した指定楽譜データと、前記類似特定手段で取得した前記歌手特徴データとに基づいて、前記指定楽譜データを構成する構成音符に、前記歌手特徴データにおいて、当該構成音符の音高,音符長及び発声母音に一致する前記単位音符に対応付けられた歌手特徴量を割り当てた評価基準データを生成する生成手段と、
    前記演奏手段による前記指定の楽曲の演奏に合わせて歌唱したユーザの歌声の波形を表す波形データを、前記生成手段で生成した評価基準データに基づいて評価する評価手段と
    を備える、カラオケシステム。
  10. コンピュータに実行させるプログラムであって、
    歌詞が割り当てられた楽曲のうち指定の楽曲について、音高と音符長とが規定された複数の構成音符が時間軸に沿って配置された楽譜データを取得する楽譜取得手順と、
    前記楽譜取得手順で取得した楽譜データの前記構成音符に従って、前記指定の楽曲を演奏する演奏手順と、
    前記演奏手順による前記指定の楽曲の演奏に合わせて歌唱したユーザの歌声の波形を表す波形データを取得する波形取得手順と、
    前記波形取得手順により取得した前記波形データから、歌唱の特徴を表す少なくとも1つの特徴量を含む歌声特徴量を取得する特徴取得手順と、
    複数の既定の歌手それぞれについて、前記音高と音符長とが規定された各音符を含む単位音符と、前記単位音符に対する発声母音との組み合わせごとに、前記少なくとも一つの特徴量を含む歌手特徴量を対応付けたデータを歌手特徴データとして蓄積した複数の歌手特徴データから、前記特徴取得手順により取得した前記歌声特徴量に類似する歌手特徴量を含む前記歌手特徴データを特定する類似特定手順と、
    前記楽譜取得手順で取得した指定楽譜データと、前記類似特定手順で取得した前記歌手特徴データとに基づいて、前記指定楽譜データを構成する構成音符に、前記歌手特徴データにおいて、当該構成音符の音高,音符長及び発声母音に一致する前記単位音符に対応付けられた歌手特徴量を割り当てた評価基準データを生成する生成手順と、
    前記演奏手順による前記指定の楽曲の演奏に合わせて歌唱したユーザの歌声の波形を表す波形データを、前記生成手順で生成した評価基準データに基づいて評価する評価手順とを、
    前記コンピュータに実行させる、プログラム。
JP2015186811A 2015-09-24 2015-09-24 カラオケ装置,カラオケシステム,及びプログラム Active JP6365483B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015186811A JP6365483B2 (ja) 2015-09-24 2015-09-24 カラオケ装置,カラオケシステム,及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015186811A JP6365483B2 (ja) 2015-09-24 2015-09-24 カラオケ装置,カラオケシステム,及びプログラム

Publications (2)

Publication Number Publication Date
JP2017062313A JP2017062313A (ja) 2017-03-30
JP6365483B2 true JP6365483B2 (ja) 2018-08-01

Family

ID=58430138

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015186811A Active JP6365483B2 (ja) 2015-09-24 2015-09-24 カラオケ装置,カラオケシステム,及びプログラム

Country Status (1)

Country Link
JP (1) JP6365483B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109300485B (zh) * 2018-11-19 2022-06-10 北京达佳互联信息技术有限公司 音频信号的评分方法、装置、电子设备及计算机存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4204941B2 (ja) * 2003-09-30 2009-01-07 ヤマハ株式会社 カラオケ装置
JP2009210790A (ja) * 2008-03-04 2009-09-17 Nec Software Kyushu Ltd 選曲歌手分析推薦装置、その方法及びプログラム
JP5122598B2 (ja) * 2010-03-30 2013-01-16 株式会社コナミデジタルエンタテインメント 音声入力評価システム、音声入力評価システムの制御方法、及びプログラム
JP2013231881A (ja) * 2012-04-28 2013-11-14 Daiichikosho Co Ltd カラオケ採点システム
JP6075313B2 (ja) * 2014-03-24 2017-02-08 ブラザー工業株式会社 プログラム,情報処理装置,及び評価データ生成方法

Also Published As

Publication number Publication date
JP2017062313A (ja) 2017-03-30

Similar Documents

Publication Publication Date Title
TWI497484B (zh) Performance evaluation device, karaoke device, server device, performance evaluation system, performance evaluation method and program
JP6060867B2 (ja) 情報処理装置,データ生成方法,及びプログラム
JP4479701B2 (ja) 楽曲練習支援装置、動的時間整合モジュールおよびプログラム
JP5598516B2 (ja) カラオケ用音声合成システム,及びパラメータ抽出装置
JP6252420B2 (ja) 音声合成装置、及び音声合成システム
JP6365483B2 (ja) カラオケ装置,カラオケシステム,及びプログラム
JP6098422B2 (ja) 情報処理装置、及びプログラム
JP6260565B2 (ja) 音声合成装置、及びプログラム
JP5782972B2 (ja) 情報処理システム,プログラム
JP6075314B2 (ja) プログラム,情報処理装置,及び評価方法
JP6075313B2 (ja) プログラム,情報処理装置,及び評価データ生成方法
JP6056799B2 (ja) プログラム、情報処理装置、及びデータ生成方法
JP2008040260A (ja) 楽曲練習支援装置、動的時間整合モジュールおよびプログラム
JP6406182B2 (ja) カラオケ装置、及びカラオケシステム
JP5983670B2 (ja) プログラム、情報処理装置、及びデータ生成方法
JP2008040258A (ja) 楽曲練習支援装置、動的時間整合モジュールおよびプログラム
JP6011506B2 (ja) 情報処理装置,データ生成方法,及びプログラム
JP5810947B2 (ja) 発声区間特定装置、音声パラメータ生成装置、及びプログラム
JP6380305B2 (ja) データ生成装置、カラオケシステム、及びプログラム
JP6365561B2 (ja) カラオケシステム、カラオケ装置、及びプログラム
JP6252517B2 (ja) 音声合成装置、及びプログラム
JP6252421B2 (ja) 採譜装置、及び採譜システム
JP6281447B2 (ja) 音声合成装置,及び音声合成システム
JP6074835B2 (ja) 楽曲練習支援装置
JP6252408B2 (ja) 表示制御装置,及び表示制御システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170901

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180605

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180618

R150 Certificate of patent or registration of utility model

Ref document number: 6365483

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150