JP4983958B2 - Singing scoring device and singing scoring program - Google Patents
Singing scoring device and singing scoring program Download PDFInfo
- Publication number
- JP4983958B2 JP4983958B2 JP2010101757A JP2010101757A JP4983958B2 JP 4983958 B2 JP4983958 B2 JP 4983958B2 JP 2010101757 A JP2010101757 A JP 2010101757A JP 2010101757 A JP2010101757 A JP 2010101757A JP 4983958 B2 JP4983958 B2 JP 4983958B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- singing
- user
- singing sound
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
Description
本発明は、カラオケ装置に用いて好適な歌唱採点装置および歌唱採点プログラムに関する。 The present invention relates to a singing scoring device and a singing scoring program suitable for use in a karaoke apparatus.
カラオケ伴奏の主旋律パートを構成する各音符の音高および発音タイミングを採点基準とし、この採点基準に対して歌唱者の歌声から抽出したピッチを比較することで歌唱採点する歌唱採点装置を備えたカラオケ装置が各種開発されている。この種の装置については、例えば特許文献1に開示されている。 A karaoke equipped with a singing scoring device that scores singing by comparing the pitch extracted from the singing voice of the singer against the scoring standard, with the pitch and pronunciation timing of each note constituting the main melody part of the karaoke accompaniment as the scoring standard Various devices have been developed. This type of apparatus is disclosed in, for example, Patent Document 1.
ところで、上記特許文献1に開示の技術のように、採点基準と歌唱ピッチとを比較して採点する方式では、明確なメロディーを持たない「ラップ」と呼ばれるスタイルのカラオケ曲であると、採点基準が存在しないことから歌唱採点することができない、という問題がある。 By the way, as in the technique disclosed in Patent Document 1 above, in the method of scoring by comparing the scoring standard and the singing pitch, the scoring standard is a karaoke song of a style called “rap” that does not have a clear melody. There is a problem that singing cannot be scored because there is no.
また、採点基準と歌唱ピッチとを比較して採点する方式であっても、カラオケ曲の一部分のみを丁寧に歌唱してカラオケ伴奏を停止させると、その一部分のみについて歌唱採点されることから、高得点を得ることが出来てしまう弊害もある。そうした弊害を回避するには、一定時間以上歌唱し続けなければ、得点が無効になるようにすれば良いが、そのようにすると、今度は非常に短い曲では全て歌唱しても採点されなくなるという問題が生じる。 In addition, even if the scoring standard is compared with the singing pitch, if only a part of the karaoke song is sung carefully and the karaoke accompaniment is stopped, the singing score is only given to that part. There is also an adverse effect that can be scored. In order to avoid such harmful effects, if the singing is not continued for a certain period of time, the score may be invalidated. However, in this case, all the very short songs will not be scored even if they are sung. Problems arise.
本発明は、このような事情に鑑みてなされたもので、メロディーが無い曲や、演奏時間が非常に短い曲であっても歌唱採点することができる歌唱採点装置および歌唱採点プログラムを提供することを目的としている。 The present invention has been made in view of such circumstances, and provides a singing scoring device and a singing scoring program capable of scoring even a song without a melody or a song with a very short performance time. It is an object.
請求項1に記載の発明では、カラオケ曲の再生に同期して発生するデータであって、手本として歌唱された手本歌唱音を表す手本歌唱音データと、再生されるカラオケ曲に合せてユーザが歌唱するユーザ歌唱音から得たユーザ歌唱データとを所定データ数毎に区切りフレーム化するフレーム化手段と、前記フレーム化手段によりフレーム化された所定データ数分の手本歌唱音データから手本歌唱音の音声特徴量を抽出する第1の特徴抽出手段と、前記フレーム化手段によりフレーム化された所定データ数分のユーザ歌唱データからユーザ歌唱音の音声特徴量を抽出する第2の特徴抽出手段と、前記第1および第2の特徴抽出手段によりそれぞれ抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度を算出する類似度算出手段と、前記類似度算出手段により算出された類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否をフレーム毎に判定する判定手段と、ユーザ歌唱データのフレームの数と手本歌唱音データのフレームの数との比が一定値以上の場合にのみ、前記判定手段がフレーム毎に適否判定した結果に基づきユーザの歌唱を採点する採点手段とを具備することを特徴とする。 According to the first aspect of the present invention, the data is generated in synchronization with the reproduction of the karaoke song, and is matched with the sample singing sound data representing the example singing sound sung as a model and the reproduced karaoke song. From the singing sound data corresponding to the predetermined number of data framed by the framing means, and the framing means for dividing the user singing data obtained from the user singing sound sung by the user into predetermined frames. A first feature extracting unit that extracts a voice feature amount of the model singing sound; and a second feature extracting unit that extracts the voice feature amount of the user singing sound from the user singing data of a predetermined number of data framed by the framing unit. Similarity calculation for calculating the similarity between the voice feature amount of the model singing sound and the voice feature amount of the user singing sound respectively extracted by the feature extraction means and the first and second feature extraction means And stage, in response to said degree of similarity calculated by the similarity calculation means, determination means for determining suitability of the user singing sound for each frame for model singing sound, the number of frames of the user singing data and model singing sound Only when the ratio with the number of frames of data is equal to or greater than a certain value, there is provided scoring means for scoring the user's song based on the result of the determination by the determination means for each frame.
請求項2に記載の発明では、カラオケ曲の再生に同期して発生するデータであって、手本として歌唱された手本歌唱音を表す手本歌唱音データと、再生されるカラオケ曲に合せてユーザが歌唱するユーザ歌唱音から得たユーザ歌唱データとを所定データ数毎に区切りフレーム化するフレーム化処理と、前記フレーム化処理によりフレーム化された所定データ数分の手本歌唱音データから手本歌唱音の音声特徴量を抽出する第1の特徴抽出処理と、前記フレーム化処理によりフレーム化された所定データ数分のユーザ歌唱データからユーザ歌唱音の音声特徴量を抽出する第2の特徴抽出処理と、前記第1および第2の特徴抽出処理によりそれぞれ抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度を算出する類似度算出処理と、前記類似度算出処理により算出された類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否をフレーム毎に判定する判定処理と、ユーザ歌唱データのフレームの数と手本歌唱音データのフレームの数との比が一定値以上の場合にのみ、前記判定処理がフレーム毎に適否判定した結果に基づきユーザの歌唱を採点する採点処理とをコンピュータで実行させることを特徴とする。 According to the second aspect of the present invention, the data is generated in synchronization with the reproduction of the karaoke song, and is matched with the sample singing sound data representing the example singing sound sung as a model and the reproduced karaoke song. From the singing sound data for the predetermined number of data framed by the framing process, the framing process for dividing the user singing data obtained from the user singing sound sung by the user into predetermined frames A first feature extraction process for extracting a voice feature value of a model singing sound, and a second feature for extracting a voice feature value of a user singing sound from user song data for a predetermined number of data framed by the framing process Similarity calculation for calculating the similarity between the voice feature amount of the model singing sound and the voice feature amount of the user singing sound extracted by the feature extraction process and the first and second feature extraction processes, respectively. And a determination process for determining, for each frame, the suitability of the user singing sound with respect to the model singing sound according to the similarity calculated by the similarity calculating process, and the number of frames of the user singing data and the model singing sound. Only when the ratio with the number of frames of data is a certain value or more, the computer executes a scoring process for scoring the user's song based on the result of the determination process determining whether each frame is appropriate.
本発明では、手本として歌唱された手本歌唱音から抽出した音声特徴量と、ユーザが歌唱するユーザ歌唱音から抽出した音声特徴量との類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否を判定して採点するので、曲の歌詞が正しく歌唱されているかどうかを歌唱採点できる。したがって、明確なメロディーを持たない「ラップ」と呼ばれるスタイルのカラオケ曲であっても歌唱採点することができる。 In the present invention, the user singing for the model singing sound according to the similarity between the voice feature extracted from the model singing sound sung as a model and the voice feature extracted from the user singing sound sung by the user. Since the sound is judged to be appropriate and graded, it can be scored whether the lyrics of the song are sung correctly. Therefore, even a karaoke song of a style called “rap” without a clear melody can be scored.
また、本発明では、ユーザ歌唱データのフレームの数と手本歌唱音データのフレームの数との比が一定値以上の場合にのみ、フレーム毎に適否判定した結果に基づきユーザの歌唱を採点するので、演奏時間が非常に短い曲であっても歌唱採点することができる。 Moreover, in this invention, only when the ratio of the number of frames of user song data and the number of frames of model song sound data is a certain value or more, the user's song is scored based on the result of determining the suitability for each frame. Therefore, even a song with a very short performance time can be scored.
以下、図面を参照して本発明の実施の形態について説明する。
A.構成
図1は、本発明の実施の一形態による歌唱採点装置を備えたカラオケ装置の構成を示すブロック図である。この図において、CPU10は、スイッチ部14から供給されるスイッチイベントに応じて、プログラムROM11に記憶される所定のプログラムを実行して装置各部を制御する。本発明の要旨に係わるCPU10の特徴的な処理動作(カラオケ処理、部分採点処理およびMFCC算出処理)については追って述べる。
Embodiments of the present invention will be described below with reference to the drawings.
A. Constitution
FIG. 1 is a block diagram showing a configuration of a karaoke apparatus provided with a singing scoring apparatus according to an embodiment of the present invention. In this figure, the
プログラムROM11には、CPU10により実行される各種プログラムや制御データが記憶される。プログラムROM11に記憶される各種プログラムとは、後述する「カラオケ処理」、「部分採点処理」および「MFCC算出処理」を含む。RAM12は、ワークエリアおよびバッファエリアを備える。RAM12のワークエリアには、CPU10の処理に用いる各種レジスタ・フラグデータが一時記憶される。RAM12のバッファエリアには、後述する手本歌唱データおよびユーザ歌唱データが一時記憶される。
The
カラオケデータメモリ13は、例えばフラッシュメモリなど電気的に書き換え可能な不揮発性メモリから構成され、複数の曲のカラオケデータを記憶する。スイッチ部14には、例えば電源スイッチの他、カラオケ伴奏する曲を選択する曲選択スイッチや、カラオケの開始/停止を指示するスタート/ストップスイッチ等の各種スイッチを備え、これらスイッチ操作に応じたスイッチイベントを発生してCPU10に供給する。スイッチ部14のスタート/ストップスイッチの操作によってカラオケが開始された場合、CPU10は曲選択スイッチの操作で予め選択される曲のカラオケデータをカラオケデータメモリ13から読み出すようになっている。
The
カラオケデータメモリ13に記憶される1つの曲のカラオケデータは、歌詞データおよび音声データから構成される。歌詞データは、カラオケ伴奏に同期して曲の歌詞を字幕表示させるための情報である。音声データは、カラオケトラックおよびボーカルトラックを有するデュアルモノラルモードでMP3形式に圧縮符号化された伴奏データおよび手本歌唱データを含む。
The karaoke data of one song stored in the
すなわち、カラオケトラックには、カラオケ伴奏音をサンプリングしてなる伴奏データが圧縮符号化されて格納され、ボーカルトラックには、例えばカラオケ伴奏音に同期して歌手が手本として歌唱した歌唱音をサンプリングしてなる手本歌唱データが圧縮符号化されて格納されている。 That is, accompaniment data obtained by sampling the karaoke accompaniment sound is compressed and stored in the karaoke track, and the vocal track samples the singing sound sung by the singer as a model in synchronization with the karaoke accompaniment sound, for example. The model singing data is stored after being compressed and encoded.
マイク15は、入力されるユーザの歌唱音を歌唱音声信号に変換して出力する。コーデック16は、マイク15から供給される歌唱音声信号をA/D変換して得るユーザ歌唱データを、CPU10の制御の下に、RAM12のバッファエリアにストアする。また、コーデック16は、CPU10の制御の下に、カラオケデータメモリ13から読み出されるMP3形式の手本歌唱データをデコード(伸長復号)してRAM12のバッファエリアにストアする。なお、カラオケ実行中にRAM12のバッファエリアにストアされるユーザ歌唱データおよび手本歌唱データは、それぞれ1024サンプリングポイント分のフレームに相当する256msec毎に更新される。
The
さらに、コーデック16は、CPU10の制御の下に、カラオケデータメモリ13から読み出されるMP3形式の伴奏データをデコード(伸長復号)すると共に、デコードされた伴奏データをD/A変換して得られるカラオケ伴奏音信号と、マイク15から供給される歌唱音声信号とを混合してオーディオ出力を発生する。オーディオ出力は、例えば図示されていないテレビジョン受像機の外部音声入力端子に供給されて音声再生される。ビデオエンコーダ17は、CPU10の制御の下に、カラオケデータメモリ13から読み出される歌詞データを字幕表示用のビデオ出力に変換する。ビデオ出力は、例えば図示されていないテレビジョン受像機のビデオ入力端子に供給されて歌詞字幕として画面表示される。
Further, the
B.動作
次に、図2〜図5を参照して、上記構成によるカラオケ装置の動作を説明する。以下では、CPU10が実行するカラオケ処理、部分採点処理およびMFCC算出処理の各動作について述べる。
B. Action
Next, with reference to FIGS. 2-5, operation | movement of the karaoke apparatus by the said structure is demonstrated. Below, each operation | movement of the karaoke process, partial scoring process, and MFCC calculation process which CPU10 performs is described.
(1)カラオケ処理の動作
図2は、カラオケ処理の動作を示すフローチャートである。装置電源が投入されると、CPU10は、図2に示すステップSA1に処理を進め、カラオケ開始指示があるまで待機する。ここで、スイッチ部14に設けられるスタート/ストップスイッチの操作に応じてカラオケ開始指示が発生すると、ステップSA1の判断結果が「YES」になり、次のステップSA2に進む。
(1) Karaoke processing operation
FIG. 2 is a flowchart showing the operation of karaoke processing. When the apparatus power is turned on, the
ステップSA2では、曲選択スイッチの操作で予め選択される曲のカラオケデータ(歌詞データおよび音声データ)をカラオケデータメモリ13から読み出し、読み出したカラオケデータ中の歌詞データをビデオエンコーダ17に供給して歌詞字幕表示用のビデオ出力に変換する。また、ステップSA2では、読み出したカラオケデータ中の音声データ、すなわちMP3形式で圧縮符号化されたカラオケトラックの伴奏データおよびボーカルトラックの手本歌唱データをコーデック16に供給してデコード(伸長復号)させる。
In step SA2, karaoke data (lyric data and audio data) of a song preselected by the operation of the song selection switch is read from the
次いで、ステップSA3では、上記ステップSA2においてデコードされた伴奏データをD/A変換して得られるカラオケ伴奏音信号と、マイク15から供給される歌唱音声信号とを混合してオーディオ出力を発生するようコーデック16に指示する。これにより、例えばテレビジョン受像機(不図示)の外部音声入力端子にオーディオ出力を、ビデオ入力端子にビデオ出力をそれぞれ供給すれば、歌詞字幕が画面表示されると共に、カラオケ伴奏音が再生される。
Next, in step SA3, the karaoke accompaniment sound signal obtained by D / A converting the accompaniment data decoded in step SA2 and the singing voice signal supplied from the
こうしてカラオケ伴奏が始ると、CPU10はステップSA4に処理を進め、上記ステップSA2においてコーデック16がデコードした手本歌唱データをRAM12のバッファエリアにストアし、続くステップSA5では、コーデック16が発生するユーザ歌唱データをRAM12のバッファエリアにストアする。
When the karaoke accompaniment starts, the
そして、ステップSA6では、RAM12にバッファリングされた1024サンプリングポイント分の手本歌唱データおよびユーザ歌唱データからそれぞれ抽出する両者の音声特徴量MFCCに基づき、手本歌唱音(手本歌唱データ)に対するユーザ歌唱音(ユーザ歌唱データ)の類似度を算出し、算出した類似度に応じて適否判定した結果に基づき歌唱採点する部分採点処理(後述する)を実行する。なお、部分採点処理は、RAM12にバッファリングされる1024サンプリングポイント分のデータを使用する為、256msec毎に実行される。
In step SA6, based on both voice feature values MFCC extracted from the sample song data and user song data for 1024 sampling points buffered in the
次いで、ステップSA7では、カラオケ停止指示の有無を判断する。カラオケ停止指示が無ければ、判断結果は「NO」になり、上述したステップSA2に処理を戻す。以後、カラオケ伴奏が曲終端に達するか、あるいはスイッチ部14のスタート/ストップスイッチの操作によってカラオケ停止指示が発生するまで上述したステップSA2〜SA6を繰り返してカラオケ伴奏を進行させながら、ユーザ歌唱音を256msec毎に採点する。そして、例えばカラオケ伴奏が曲終端に達してカラオケ停止指示が発生すると、ステップSA7の判断結果が「YES」になり、ステップSA8に進み、採点処理を実行する。
Next, in step SA7, it is determined whether or not there is a karaoke stop instruction. If there is no karaoke stop instruction, the determination result is “NO”, and the process returns to step SA2 described above. Thereafter, until the karaoke accompaniment reaches the end of the song or the karaoke stop instruction is generated by operating the start / stop switch of the
採点処理では、フレームカウンタの数と楽曲全体のフレーム数の比率が一定値以上あるか否かを判定する。なお、フレームカウンタとは、後述するように、無音状態でない手本歌唱データのフレームを計数するカウンタである。また、フレームとは、1024サンプリングポイント毎(256msec毎)にバッファリングされるデータの区切りを指す。楽曲全体のフレーム数とは、手本歌唱データをフレームで除した数に相当する。 In the scoring process, it is determined whether or not the ratio between the number of frame counters and the number of frames of the entire music is a certain value or more. As will be described later, the frame counter is a counter that counts frames of model singing data that are not silent. A frame refers to a segment of data buffered every 1024 sampling points (every 256 msec). The number of frames of the entire music corresponds to the number obtained by dividing the model song data by frames.
したがって、採点処理では、カラオケ伴奏される曲を一定比率以上歌唱したかどうかを判断し、一定比率以上歌唱していなければ、上記ステップSA6の部分採点処理で得られる部分得点を無効とし、歌唱評価を零点と採点して次のステップSA9に進む。 Therefore, in the scoring process, it is determined whether or not the karaoke accompaniment has been sung over a certain ratio. If the singing is not performed over a certain ratio, the partial scoring obtained in the partial scoring process in step SA6 is invalidated and the singing evaluation is performed. Is scored as zero, and the process proceeds to the next step SA9.
一方、カラオケ伴奏される曲を一定比率以上歌唱していれば、上記ステップSA6の部分採点処理で得られる部分得点をフレームカウンタの数で除し、その値の百分率を点数データとして算出する。この後、ステップSA9に進み、算出した点数データをビデオエンコーダ17にてビデオ出力に変換することでユーザの歌唱点数を画面表示して本処理を終える。
On the other hand, if the karaoke accompaniment is sung at a certain ratio or more, the partial score obtained by the partial scoring process in step SA6 is divided by the number of frame counters, and the percentage of the value is calculated as score data. Thereafter, the process proceeds to step SA9, where the calculated score data is converted into a video output by the
(2)部分採点処理の動作
次に、図3を参照して部分採点処理の動作を説明する。上述したカラオケ処理のステップSA6(図2参照)を介して本処理が実行されると、CPU10は図3に図示するステップSB1に進み、RAM12のバッファエリアにストアされた1024サンプリングポイント分の手本歌唱データが無音状態であるかをチェックする。
(2) Partial scoring operation
Next, the operation of the partial scoring process will be described with reference to FIG. When this processing is executed through the above-described karaoke processing step SA6 (see FIG. 2), the
続いて、ステップSB2では、上記ステップSB1のチェック結果に基づき、無音状態の手本歌唱データであるかどうかを判断する。無音状態の手本歌唱データであると、歌唱部分ではないと見做し、ここでの判断結果が「YES」となり、一旦本処理を完了させる。この場合、無音状態の手本歌唱データを含むフレームを破棄し、次フレームまで待機する。 Subsequently, in step SB2, based on the check result in step SB1, it is determined whether the sample singing data is silent. If the sample singing data is in the silent state, it is assumed that it is not a singing part, and the determination result here is “YES”, and this processing is once completed. In this case, the frame including the model song data in the silent state is discarded, and the process waits until the next frame.
一方、無音状態でない手本歌唱データならば、上記ステップSB2の判断結果は「NO」になり、ステップSB3に進む。ステップSB3では、フレームカウンタをインクリメントして歩進させる。フレームカウンタとは、無音状態でない手本歌唱データのフレームを計数するカウンタであり、その値は曲の進行位置を表す。次いで、ステップSB4では、手本歌唱データMFCC算出処理を実行する。 On the other hand, if it is model singing data that is not silent, the determination result of step SB2 is “NO”, and the process proceeds to step SB3. In step SB3, the frame counter is incremented and incremented. The frame counter is a counter that counts the frames of the model song data that is not silent, and the value represents the progress position of the song. Next, in step SB4, a model song data MFCC calculation process is executed.
ここで、図4を参照してMFCC算出処理の動作を説明する。上記ステップSB4を介してMFCC算出処理が実行されると、CPU10は図4に図示するステップSC1に処理を進め、RAM12のバッファエリアにストアされた無音状態でない1024サンプリングポイント分の手本歌唱データ(以下、入力信号と称す)に対し、低次のハイパスフィルタリングを施して直流分(バイアスノイズ)を除去する。続いて、ステップSC2では、バイアス除去された入力信号にハニング窓をかけて高速フーリエ変換FFTを施すことによって、入力信号をスペクトル領域に変換する。
Here, the operation of the MFCC calculation process will be described with reference to FIG. When the MFCC calculation process is executed via the above step SB4, the
次いで、ステップSC3では、スペクトル領域に変換された入力信号にフィルタバンク処理を施し、特徴量として用いられる20次元のスペクトル系列を発生する。すなわち、このフィルタバンク処理では、図5に図示するように、周波数軸に対して対数尺度で幅をとった20個の三角窓を備えるフィルタバンクを用いる。続いて、ステップSC4では、線形領域にある20次元のスペクトル系列を対数スペクトル系列に変換する対数化処理を行う。そして、ステップSC4では、対数スペクトル系列に離散コサイン変換DCTを施してケプストラム領域に変換するDCT処理を実行する。 Next, in step SC3, a filter bank process is performed on the input signal converted into the spectral domain to generate a 20-dimensional spectral sequence used as a feature quantity. That is, in this filter bank processing, as shown in FIG. 5, a filter bank having 20 triangular windows having a logarithmic scale with respect to the frequency axis is used. Subsequently, in step SC4, a logarithmic process for converting a 20-dimensional spectrum sequence in the linear region into a logarithmic spectrum sequence is performed. In step SC4, a DCT process is performed in which a discrete cosine transform DCT is performed on the logarithmic spectrum sequence to convert it into a cepstrum region.
次に、ステップSC6では、上記ステップSC5のDCT処理で得られたDCT係数の内からスペクトル直流成分である最低次の係数C0を除いた低次から12個の係数を、ケプストラム領域の音声特徴量MFCC(Mel Frequency Cepstrum Coefficient)として抽出する係数抽出処理を実行した後、本処理を完了させて図3に図示する部分採点処理に復帰する。 Next, in step SC6, the 12 coefficients from low order excluding the lowest-order coefficient C 0 is the spectral DC component from among the DCT coefficients obtained by the DCT process in the step SC5, the audio characteristics of the cepstrum domain After executing a coefficient extraction process for extracting as a quantity MFCC (Mel Frequency Cepstrum Coefficient), the present process is completed and the process returns to the partial scoring process shown in FIG.
以上のように、ステップSB4の手本歌唱データMFCC算出処理では、RAM12のバッファエリアにストアされた無音状態でない1024サンプリングポイント分の手本歌唱データからケプストラム領域の音声特徴量MFCCを算出するようになっている。
As described above, in the example song data MFCC calculation process in step SB4, the speech feature value MFCC of the cepstrum area is calculated from the sample song data for 1024 sampling points stored in the buffer area of the
この後、図3に図示するステップSB5に進み、RAM12のバッファエリアにストアされた1024サンプリングポイント分のユーザ歌唱データが無音状態であるかをチェックする。そして、ステップSB6では、上記ステップSB5のチェック結果に基づき、無音状態のユーザ歌唱データであるかどうかを判断する。無音状態のユーザ歌唱データであると、歌唱部分ではないと見做して判断結果が「YES」となり、一旦本処理を完了させる。この場合、無音状態のユーザ歌唱データを含むフレームを破棄し、次フレームまで待機する。
Thereafter, the process proceeds to step SB5 shown in FIG. 3 to check whether the user singing data for 1024 sampling points stored in the buffer area of the
一方、無音状態でないユーザ歌唱データならば、上記ステップSB6の判断結果が「NO」になり、ステップSB7に進む。ステップSB7では、ユーザ歌唱データMFCC算出処理を実行する。ユーザ歌唱データMFCC算出処理では、上述したステップSB4と同様、RAM12のバッファエリアにストアされた無音状態でない1024サンプリングポイント分のユーザ歌唱データから音声特徴量MFCCを算出する。
On the other hand, if the user song data is not silent, the determination result in step SB6 is “NO”, and the process proceeds to step SB7. In step SB7, user song data MFCC calculation processing is executed. In the user song data MFCC calculation process, the speech feature value MFCC is calculated from the user song data for 1024 sampling points that are not silenced and stored in the buffer area of the
続いて、ステップSB8では、上記ステップSB4で算出した手本歌唱データの音声特徴量MFCCと、上記ステップSB7で算出したユーザ歌唱データの音声特徴量MFCCとの類似度を測る尺度として、手本歌唱データの音声特徴量MFCCを表すベクトルa=(a1,a2,…,a12)と、ユーザ歌唱データの音声特徴量MFCCを表すベクトルb=(b1,b2,…,b12)との間のユークリッド距離d(a,b)を算出する。 Subsequently, in step SB8, the model song is used as a measure for measuring the similarity between the voice feature value MFCC of the model song data calculated in step SB4 and the voice feature value MFCC of the user song data calculated in step SB7. A vector a = (a 1 , a 2 ,..., A 12 ) representing the voice feature value MFCC of the data, and a vector b = (b 1 , b 2 ,..., B 12 ) representing the voice feature value MFCC of the user song data. Euclidean distance d (a, b) between is calculated.
次いで、ステップSB9では、上記ステップSB8にて算出したユークリッド距離d(a,b)が予め設定した閾値以下であるか否か、すなわち手本の歌唱音とユーザの歌唱音とが類似しているかどうかを判断する。上記ステップSB8にて算出したユークリッド距離d(a,b)が閾値以上となり、手本の歌唱音とユーザの歌唱音との類似度が低い場合には、判断結果が「NO」となり、本処理を終える。 Next, in step SB9, whether or not the Euclidean distance d (a, b) calculated in step SB8 is equal to or smaller than a preset threshold value, that is, whether the model singing sound is similar to the user singing sound. Judge whether. When the Euclidean distance d (a, b) calculated in step SB8 is equal to or greater than the threshold value and the similarity between the model singing sound and the user singing sound is low, the determination result is “NO”, and this processing is performed. Finish.
これに対し、上記ステップSB8にて算出したユークリッド距離d(a,b)が閾値未満となり、手本の歌唱音とユーザの歌唱音との類似度が高い場合には、判断結果が「YES」となり、ステップSB10に進む。そして、ステップSB10では、採点対象としているフレームの採点結果を合格とし、部分得点をインクリメントして本処理を終える。 On the other hand, when the Euclidean distance d (a, b) calculated in step SB8 is less than the threshold value and the similarity between the singing sound of the model and the singing sound of the user is high, the determination result is “YES”. Thus, the process proceeds to step SB10. In step SB10, the scoring result of the frame that is the scoring target is accepted, the partial score is incremented, and the process is completed.
以上のように、本実施の形態では、カラオケ伴奏音をサンプリングした伴奏データと、歌手が手本として歌唱した歌唱音をサンプリングした手本歌唱データとをカラオケデータメモリ13に記憶しておき、カラオケ開始指示に応じて、カラオケデータメモリ13から伴奏データを読み出してカラオケ伴奏音を再生すると、再生されるカラオケ伴奏音に合せてユーザが歌唱する歌唱音をサンプリングして得たユーザ歌唱データと、上記伴奏データに同期してカラオケデータメモリ13から読み出される手本歌唱データとを所定のデータ数分のフレームで区切り、区切られたフレーム中の手本歌唱データから手本歌唱音の音声特徴量MFCCを、ユーザ歌唱データからユーザ歌唱音の音声特徴量MFCCをそれぞれ抽出する。
As described above, in the present embodiment, accompaniment data obtained by sampling a karaoke accompaniment sound and model singing data obtained by sampling a singing sound sung by a singer as a model are stored in the
そして、抽出した手本歌唱音の音声特徴量MFCCおよびユーザ歌唱音の音声特徴量MFCCに基づき手本歌唱音に対するユーザ歌唱音の類似度を算出して適否判定し、その結果に基づき歌唱採点するので、曲の歌詞が正しく歌唱されているかどうかを歌唱採点できる。この結果、明確なメロディーを持たない「ラップ」と呼ばれるスタイルのカラオケ曲であっても歌唱採点し得るようになる。 Then, based on the extracted voice feature value MFCC of the model singing sound and the voice feature value MFCC of the user singing sound, the similarity of the user singing sound with respect to the model singing sound is calculated to determine suitability, and singing is scored based on the result. So, you can score whether the song lyrics are sung correctly. As a result, even a karaoke song of a style called “rap” without a clear melody can be scored.
また、本実施の形態では、ユーザが歌唱したフレームの数と、カラオケ曲中で手本歌唱データが存在するフレームの数との比をとり、その比が一定値以上ある場合にのみ歌唱採点するので、演奏時間が非常に短い曲であっても歌唱採点することが可能になる。 In this embodiment, the ratio between the number of frames sung by the user and the number of frames in which singing singing data exists in the karaoke song is taken, and the singing score is given only when the ratio is a certain value or more. Therefore, even a song with a very short performance time can be scored.
なお、上述した実施形態では、音声特徴量MFCCに基づき手本歌唱音に対するユーザ歌唱音の類似度を算出して歌唱採点したが、これに加えて、従来のピッチ抽出による歌唱採点方式を併用する態様としてもよい。例えば、カラオケ曲の伴奏データにメロディ部分とラップ部分とが混在する場合には、当該伴奏データ中にメロディ部分とラップ部分とを区別する識別フラグを設けておき、この識別フラグを参照してメロディ部分の伴奏データが再生される時にはピッチ抽出して歌唱採点を行い、一方、ラップ部分の伴奏データが再生される時には音声特徴量MFCCを抽出して歌唱採点を行う態様となる。このようにすれば、ユーザ歌唱音の音高の適否と、歌唱した歌詞の適否とを同時に判定することができる。 In the embodiment described above, the singing score is calculated by calculating the similarity of the user singing sound with respect to the model singing sound based on the voice feature value MFCC, but in addition to this, the singing scoring method based on the conventional pitch extraction is used in combination. It is good also as an aspect. For example, when the accompaniment data of a karaoke song includes a melody part and a rap part, an identification flag for distinguishing the melody part from the rap part is provided in the accompaniment data, and the melody is referenced with reference to this identification flag. When the accompaniment data of the part is reproduced, the pitch is extracted and the singing is performed. On the other hand, when the accompaniment data of the rap part is reproduced, the voice feature amount MFCC is extracted and the singing is performed. If it does in this way, the appropriateness of the pitch of a user singing sound and the appropriateness of the sung lyrics can be determined simultaneously.
また、上述した実施形態では、音声の特徴量を表すパラメータとして、ケプストラム領域の特徴量であるMFCC(Mel Frequency Cepstrum Coefficient)を抽出するようにしたが、これに替えて、LPCケプストラム等の他の特徴パラメータを抽出する態様としても構わない。 In the above-described embodiment, the MFCC (Mel Frequency Cepstrum Coefficient), which is a feature amount of the cepstrum region, is extracted as a parameter representing the feature amount of the voice. However, instead of this, other parameters such as an LPC cepstrum are extracted. A feature parameter may be extracted.
加えて、本実施形態では、手本歌唱データの音声特徴量MFCCと、ユーザ歌唱データの音声特徴量MFCCとの類似度を測る尺度として、手本歌唱データの音声特徴量MFCCを表すベクトルa=(a1,a2,…,a12)と、ユーザ歌唱データの音声特徴量MFCCを表すベクトルb=(b1,b2,…,b12)との間のユークリッド距離d(a,b)を算出するようにしたが、これに限らず、例えば板倉距離などの他の尺度で類似度を算出しても構わない。 In addition, in the present embodiment, as a measure for measuring the similarity between the voice feature value MFCC of the sample song data and the voice feature value MFCC of the user song data, a vector a = representing the voice feature value MFCC of the sample song data Euclidean distance d (a, b) between (a 1 , a 2 ,..., A 12 ) and a vector b = (b 1 , b 2 ,..., B 12 ) representing the voice feature value MFCC of the user song data. However, the present invention is not limited to this, and the degree of similarity may be calculated using another scale such as the Itakura distance.
また、上述した実施形態では、カラオケ伴奏音の再生に同期してカラオケデータメモリ13から読み出される手本歌唱データを所定のデータ数分のフレームで区切り、区切られたフレーム毎の音声特徴量MFCCを抽出するようにしたが、これに替えて、予め手本歌唱データからフレーム毎の音声特徴量MFCCを算出し、これを手本歌唱データの替わりにカラオケデータメモリ13に記憶しておくこともできる。このようにすれば、前述したステップSB4(図3参照)の手本歌唱データMFCC算出処理を不要にし、CPU10の処理負荷低減を図ることができる。
In the above-described embodiment, the sample singing data read from the
10 CPU
11 プログラムROM
12 RAM
13 カラオケデータメモリ
14 スイッチ部
15 マイク
16 コーデック
17 ビデオエンコーダ
10 CPU
11 Program ROM
12 RAM
13
Claims (2)
前記フレーム化手段によりフレーム化された所定データ数分の手本歌唱音データから手本歌唱音の音声特徴量を抽出する第1の特徴抽出手段と、
前記フレーム化手段によりフレーム化された所定データ数分のユーザ歌唱データからユーザ歌唱音の音声特徴量を抽出する第2の特徴抽出手段と、
前記第1および第2の特徴抽出手段によりそれぞれ抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度を算出する類似度算出手段と、
前記類似度算出手段により算出された類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否をフレーム毎に判定する判定手段と、
ユーザ歌唱データのフレームの数と手本歌唱音データのフレームの数との比が一定値以上の場合にのみ、前記判定手段がフレーム毎に適否判定した結果に基づきユーザの歌唱を採点する採点手段と
を具備することを特徴とする歌唱採点装置。 Data generated in synchronization with the reproduction of the karaoke song, from the model singing sound data representing the model singing sound sung as a model, and the user singing sound sung by the user in accordance with the reproduced karaoke song Framing means for dividing the obtained user singing data into predetermined frames for each predetermined number of data;
First feature extraction means for extracting a voice feature amount of model singing sound from model singing sound data for a predetermined number of data framed by the framing means;
Second feature extraction means for extracting voice feature values of user singing sound from user singing data for a predetermined number of data framed by the framing means;
Similarity calculating means for calculating the similarity between the voice feature quantity of the model singing sound and the voice feature quantity of the user singing sound respectively extracted by the first and second feature extracting means;
A determination unit that determines the suitability of the user singing sound with respect to the model singing sound for each frame according to the similarity calculated by the similarity calculating unit;
Scoring means for scoring the user's singing based on the result of determination by the determination means for each frame only when the ratio of the number of frames of the user singing data and the number of frames of the sample singing sound data is equal to or greater than a certain value A singing scoring device comprising:
前記フレーム化処理によりフレーム化された所定データ数分の手本歌唱音データから手本歌唱音の音声特徴量を抽出する第1の特徴抽出処理と、A first feature extraction process for extracting a voice feature amount of a model singing sound from model singing sound data for a predetermined number of data framed by the framing process;
前記フレーム化処理によりフレーム化された所定データ数分のユーザ歌唱データからユーザ歌唱音の音声特徴量を抽出する第2の特徴抽出処理と、A second feature extraction process for extracting voice feature quantities of user singing sound from user singing data for a predetermined number of data framed by the framing process;
前記第1および第2の特徴抽出処理によりそれぞれ抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度を算出する類似度算出処理と、A similarity calculation process for calculating a similarity between the voice feature quantity of the model singing sound and the voice feature quantity of the user singing sound, respectively extracted by the first and second feature extraction processes;
前記類似度算出処理により算出された類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否をフレーム毎に判定する判定処理と、A determination process for determining the suitability of the user singing sound for the model singing sound for each frame according to the similarity calculated by the similarity calculating process;
ユーザ歌唱データのフレームの数と手本歌唱音データのフレームの数との比が一定値以上の場合にのみ、前記判定処理がフレーム毎に適否判定した結果に基づきユーザの歌唱を採点する採点処理とA scoring process for scoring the user's song based on the result of determining whether each frame is appropriate or not only when the ratio between the number of frames of the user song data and the number of frames of the sample song sound data is a certain value or more. When
をコンピュータで実行させることを特徴とする歌唱採点プログラム。A singing scoring program, which is executed by a computer.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010101757A JP4983958B2 (en) | 2010-04-27 | 2010-04-27 | Singing scoring device and singing scoring program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010101757A JP4983958B2 (en) | 2010-04-27 | 2010-04-27 | Singing scoring device and singing scoring program |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006192514A Division JP2008020677A (en) | 2006-07-13 | 2006-07-13 | Singing marking device and singing marking program |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012007606A Division JP5246354B2 (en) | 2012-01-18 | 2012-01-18 | Singing scoring device and singing scoring program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010191463A JP2010191463A (en) | 2010-09-02 |
JP4983958B2 true JP4983958B2 (en) | 2012-07-25 |
Family
ID=42817491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010101757A Active JP4983958B2 (en) | 2010-04-27 | 2010-04-27 | Singing scoring device and singing scoring program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4983958B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2450877B1 (en) | 2010-11-09 | 2013-04-24 | Sony Computer Entertainment Europe Limited | System and method of speech evaluation |
JP6425560B2 (en) * | 2015-01-23 | 2018-11-21 | 株式会社第一興商 | Karaoke device with repetitive playback function |
CN109905789A (en) * | 2017-12-10 | 2019-06-18 | 张德明 | A kind of K song microphone |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11259081A (en) * | 1998-03-13 | 1999-09-24 | Nec Corp | Singing score display karaoke device |
JP4205824B2 (en) * | 1999-10-21 | 2009-01-07 | ヤマハ株式会社 | Singing evaluation device and karaoke device |
JP2005215493A (en) * | 2004-01-30 | 2005-08-11 | Brother Ind Ltd | Karaoke machine and program |
JP4612329B2 (en) * | 2004-04-28 | 2011-01-12 | 株式会社テクノフェイス | Information processing apparatus and program |
-
2010
- 2010-04-27 JP JP2010101757A patent/JP4983958B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010191463A (en) | 2010-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789290B2 (en) | Audio data processing method and apparatus, and computer storage medium | |
JP6290858B2 (en) | Computer processing method, apparatus, and computer program product for automatically converting input audio encoding of speech into output rhythmically harmonizing with target song | |
US8311831B2 (en) | Voice emphasizing device and voice emphasizing method | |
KR100949872B1 (en) | Song practice support device, control method for a song practice support device and computer readable medium storing a program for causing a computer to excute a control method for controlling a song practice support device | |
US9892758B2 (en) | Audio information processing | |
JP2006195385A (en) | Device and program for music reproduction | |
JP6060867B2 (en) | Information processing apparatus, data generation method, and program | |
JP5246354B2 (en) | Singing scoring device and singing scoring program | |
JP2019061135A (en) | Electronic musical instrument, musical sound generating method of electronic musical instrument, and program | |
JP2009210790A (en) | Music selection singer analysis and recommendation device, its method, and program | |
JP4983958B2 (en) | Singing scoring device and singing scoring program | |
JP4212446B2 (en) | Karaoke equipment | |
JP2008020677A (en) | Singing marking device and singing marking program | |
KR20150118974A (en) | Voice processing device | |
JP4595948B2 (en) | Data reproducing apparatus, data reproducing method and program | |
US20230335090A1 (en) | Information processing device, information processing method, and program | |
WO2022054496A1 (en) | Electronic musical instrument, electronic musical instrument control method, and program | |
JP2006276560A (en) | Music playback device and music playback method | |
JP4048249B2 (en) | Karaoke equipment | |
JP4209751B2 (en) | Karaoke equipment | |
JP5034642B2 (en) | Karaoke equipment | |
CN112750420B (en) | Singing voice synthesis method, device and equipment | |
JP5983670B2 (en) | Program, information processing apparatus, and data generation method | |
JP4862772B2 (en) | Karaoke device with scoring function | |
JP2653456B2 (en) | Automatic music transcription method and device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100526 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100526 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120327 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120409 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4983958 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150511 Year of fee payment: 3 |