JP2008020677A - Singing marking device and singing marking program - Google Patents
Singing marking device and singing marking program Download PDFInfo
- Publication number
- JP2008020677A JP2008020677A JP2006192514A JP2006192514A JP2008020677A JP 2008020677 A JP2008020677 A JP 2008020677A JP 2006192514 A JP2006192514 A JP 2006192514A JP 2006192514 A JP2006192514 A JP 2006192514A JP 2008020677 A JP2008020677 A JP 2008020677A
- Authority
- JP
- Japan
- Prior art keywords
- user
- singing
- singing sound
- data
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
Description
本発明は、カラオケ装置に用いて好適な歌唱採点装置および歌唱採点プログラムに関する。 The present invention relates to a singing scoring device and a singing scoring program suitable for use in a karaoke apparatus.
カラオケ伴奏の主旋律パートを構成する各音符の音高および発音タイミングを採点基準とし、この採点基準に対して歌唱者の歌声から抽出したピッチを比較することで歌唱採点する歌唱採点装置を備えたカラオケ装置が各種開発されている。この種の装置については、例えば特許文献1に開示されている。 Karaoke equipped with a singing scoring device that uses the pitch and pronunciation timing of each note constituting the main melody part of karaoke accompaniment as a scoring standard, and compares the pitch extracted from the singers' voices against this scoring standard. Various devices have been developed. This type of apparatus is disclosed in, for example, Patent Document 1.
ところで、上記特許文献1に開示の技術のように、採点基準と歌唱ピッチとを比較して採点する方式では、明確なメロディーを持たない「ラップ」と呼ばれるスタイルのカラオケ曲であると、採点基準が存在しないことから歌唱採点することができない、という問題がある。 By the way, as in the technique disclosed in Patent Document 1 above, in the method of scoring by comparing the scoring standard and the singing pitch, the scoring standard is a karaoke song of a style called “rap” that does not have a clear melody. There is a problem that singing cannot be scored because there is no.
また、採点基準と歌唱ピッチとを比較して採点する方式であっても、カラオケ曲の一部分のみを丁寧に歌唱してカラオケ伴奏を停止させると、その一部分のみについて歌唱採点されることから、高得点を得ることが出来てしまう弊害もある。そうした弊害を回避するには、一定時間以上歌唱し続けなければ、得点が無効になるようにすれば良いが、そのようにすると、今度は非常に短い曲では全て歌唱しても採点されなくなるという問題が生じる。 In addition, even if the scoring standard is compared with the singing pitch, if only a part of the karaoke song is sung carefully and the karaoke accompaniment is stopped, the singing score is only given to that part. There is also an adverse effect that can be scored. In order to avoid such harmful effects, if the singing is not continued for a certain period of time, the score may be invalidated. However, in this case, all the very short songs will not be scored even if they are sung. Problems arise.
本発明は、このような事情に鑑みてなされたもので、メロディーが無い曲や、演奏時間が非常に短い曲であっても歌唱採点することができる歌唱採点装置および歌唱採点プログラムを提供することを目的としている。 The present invention has been made in view of such circumstances, and provides a singing scoring device and a singing scoring program capable of scoring even a song without a melody or a song with a very short performance time. It is an object.
上記目的を達成するため、請求項1に記載の発明では、手本として歌唱された手本歌唱音の音声特徴量を抽出する第1の特徴抽出手段と、ユーザが歌唱するユーザ歌唱音の音声特徴量を抽出する第2の特徴抽出手段と、前記第1および第2の特徴抽出手段によりそれぞれ抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度を算出する類似度算出手段と、前記類似度算出手段により算出された類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否を判定して採点する採点手段とを具備することを特徴とする。 In order to achieve the above object, in the first aspect of the present invention, the first feature extraction means for extracting the voice feature amount of the model singing sound sung as a model, and the voice of the user singing sound sung by the user The second feature extraction means for extracting the feature quantity, and the similarity between the voice feature quantity of the sample singing sound and the voice feature quantity of the user singing sound respectively extracted by the first and second feature extraction means A degree-of-similarity calculating means, and a scoring means for determining whether or not the user singing sound is appropriate for the model singing sound according to the degree of similarity calculated by the degree-of-similarity calculating means.
上記請求項1に従属する請求項2に記載の発明では、前記第1および第2の特徴抽出手段が抽出する音声特徴量は、ケプストラム領域の特徴量MFCC(Mel Frequency Cepstrum Coefficient)であることを特徴とする。 In the invention according to claim 2 subordinate to claim 1, the speech feature quantity extracted by the first and second feature extraction means is a feature quantity MFCC (Mel Frequency Cepstrum Coefficient) of a cepstrum region. Features.
上記請求項1に従属する請求項3に記載の発明では、前記類似度算出手段は、手本歌唱音の音声特徴量を表す第1のベクトルと、ユーザ歌唱音の音声特徴量を表す第2のベクトルとの間のユークリッド距離を類似度として算出することを特徴とする。 In the invention according to claim 3, which is dependent on claim 1, the similarity calculation means includes a first vector representing the voice feature amount of the model singing sound and a second vector representing the voice feature amount of the user singing sound. The Euclidean distance between the two vectors is calculated as the similarity.
請求項4に記載の発明では、カラオケ曲の再生に同期して発生するデータであって、手本として歌唱された手本歌唱音を表す手本歌唱音データと、再生されるカラオケ曲に合せてユーザが歌唱するユーザ歌唱音から得たユーザ歌唱データとを所定データ数毎に区切りフレーム化するフレーム化手段と、前記フレーム化手段によりフレーム化された所定データ数分の手本歌唱音データから手本歌唱音の音声特徴量を抽出する第1の特徴抽出手段と、前記フレーム化手段によりフレーム化された所定データ数分のユーザ歌唱データからユーザ歌唱音の音声特徴量を抽出する第2の特徴抽出手段と、前記第1および第2の特徴抽出手段によりそれぞれ抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度を算出する類似度算出手段と、前記類似度算出手段により算出された類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否をフレーム毎に判定する判定手段と、前記判定手段がフレーム毎に適否判定した結果に基づきユーザの歌唱を採点する採点手段とを具備することを特徴とする。 In the invention according to claim 4, the data is generated in synchronization with the reproduction of the karaoke song, and the sample song sound data representing the example song sound sung as a model is matched with the reproduced karaoke song. From the singing sound data corresponding to the predetermined number of data framed by the framing means, and the framing means for dividing the user singing data obtained from the user singing sound sung by the user into predetermined frames. First feature extraction means for extracting the voice feature quantity of the model singing sound and second feature extraction means for extracting the voice feature quantity of the user singing sound from the user song data for the predetermined number of data framed by the framing means. Similarity calculation for calculating the similarity between the voice feature amount of the model singing sound and the voice feature amount of the user singing sound respectively extracted by the feature extraction means and the first and second feature extraction means And a determination means for determining the suitability of the user singing sound for the model singing sound for each frame according to the similarity calculated by the similarity calculating means, and a result of the determination by the determining means for each frame. And scoring means for scoring the user's song.
上記請求項4に従属する請求項5に記載の発明では、前記採点手段は、ユーザ歌唱データのフレームの数と手本歌唱音データのフレームの数との比が一定値以上の場合にのみ、前記判定手段がフレーム毎に適否判定した結果に基づきユーザの歌唱を採点することを特徴とする。 In the invention according to claim 5 subordinate to claim 4, the scoring means only when the ratio between the number of frames of the user song data and the number of frames of the sample song sound data is a certain value or more, The determination means scores the user's song based on the result of determination of suitability for each frame.
請求項6に記載の発明では、カラオケ曲のメロディ部分とラップ部分とを識別して再生可能なカラオケ装置において、カラオケ曲のメロディ部分が再生される場合に、ユーザが歌唱するユーザ歌唱音のピッチを抽出し、抽出したピッチと再生されるメロディ部分のピッチとを比較してユーザ歌唱音の適否を判定して採点する第1の採点手段と、カラオケ曲のラップ部分が再生される場合に、手本として歌唱される手本歌唱音の音声特徴量およびユーザが歌唱するユーザ歌唱音の音声特徴量を各々抽出し、抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否を判定して採点する第2の採点手段とを具備することを特徴とする。 In the invention according to claim 6, in the karaoke apparatus capable of identifying and reproducing the melody portion and the lap portion of the karaoke song, the pitch of the user singing sound sung by the user when the melody portion of the karaoke song is reproduced. A first scoring means for comparing the extracted pitch and the pitch of the melody part to be reproduced to determine the suitability of the user singing sound and scoring, and when the rap part of the karaoke song is reproduced, The voice feature amount of the model singing sound sung as a model and the voice feature amount of the user singing sound sung by the user are extracted, respectively, and the extracted voice feature amount of the sample singing sound and the voice feature amount of the user singing sound And second scoring means for determining whether or not the user singing sound is appropriate for the model singing sound and scoring according to the degree of similarity.
請求項7に記載の発明では、手本として歌唱された手本歌唱音の音声特徴量を抽出する第1の特徴抽出処理と、ユーザが歌唱するユーザ歌唱音の音声特徴量を抽出する第2の特徴抽出処理と、前記第1および第2の特徴抽出処理によりそれぞれ抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度を算出する類似度算出処理と、前記類似度算出処理により算出された類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否を判定して採点する採点処理とをコンピュータで実行させることを特徴とする。 In the invention according to claim 7, a first feature extraction process for extracting a voice feature amount of a model singing sound sung as a model, and a second feature extraction unit for extracting a voice feature amount of a user singing sound sung by the user. A similarity calculation process for calculating the similarity between the voice feature quantity of the model singing sound and the voice feature quantity of the user singing sound, respectively extracted by the first feature extraction process and the second feature extraction process; According to the similarity calculated by the similarity calculation process, the computer performs a scoring process for determining whether or not the user singing sound is appropriate for the model singing sound and scoring.
上記請求項7に従属する請求項8に記載の発明では、前記第1および第2の特徴抽出処理により抽出される音声特徴量は、ケプストラム領域の特徴量MFCC(Mel Frequency Cepstrum Coefficient)であることを特徴とする。 In the invention according to claim 8, which is dependent on claim 7, the speech feature quantity extracted by the first and second feature extraction processes is a feature quantity MFCC (Mel Frequency Cepstrum Coefficient) of a cepstrum region. It is characterized by.
上記請求項7に従属する請求項9に記載の発明では、前記類似度算出処理は、手本歌唱音の音声特徴量を表す第1のベクトルと、ユーザ歌唱音の音声特徴量を表す第2のベクトルとの間のユークリッド距離を類似度として算出することを特徴とする。 In the invention according to claim 9, which is dependent on claim 7, the similarity calculation processing includes a first vector representing the voice feature amount of the model singing sound and a second vector representing the voice feature amount of the user singing sound. The Euclidean distance between the two vectors is calculated as the similarity.
請求項10に記載の発明では、カラオケ曲の再生に同期して発生するデータであって、手本として歌唱された手本歌唱音を表す手本歌唱音データと、再生されるカラオケ曲に合せてユーザが歌唱するユーザ歌唱音から得たユーザ歌唱データとを所定データ数毎に区切りフレーム化するフレーム化処理と、前記フレーム化処理によりフレーム化された所定データ数分の手本歌唱音データから手本歌唱音の音声特徴量を抽出する第1の特徴抽出処理と、前記フレーム化処理によりフレーム化された所定データ数分のユーザ歌唱データからユーザ歌唱音の音声特徴量を抽出する第2の特徴抽出処理と、前記第1および第2の特徴抽出処理によりそれぞれ抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度を算出する類似度算出処理と、前記類似度算出処理により算出された類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否をフレーム毎に判定する判定処理と、前記判定処理がフレーム毎に適否判定した結果に基づきユーザの歌唱を採点する採点処理とをコンピュータで実行させることを特徴とする。 In the invention according to claim 10, the data is generated in synchronization with the reproduction of the karaoke song, and the sample song sound data representing the example song sound sung as a model is matched with the reproduced karaoke song. From the singing sound data for the predetermined number of data framed by the framing process, the framing process for dividing the user singing data obtained from the user singing sound sung by the user into predetermined frames A first feature extraction process for extracting a voice feature value of a model singing sound, and a second feature for extracting a voice feature value of a user singing sound from user song data for a predetermined number of data framed by the framing process Similarity calculation for calculating the similarity between the voice feature amount of the model singing sound and the voice feature amount of the user singing sound extracted by the feature extraction processing and the first and second feature extraction processing, respectively. In accordance with the process, the determination process for determining the suitability of the user singing sound for the model singing sound for each frame according to the similarity calculated by the similarity calculation process, and the result of the determination process determining the suitability for each frame And a scoring process for scoring the user's song based on the computer.
上記請求項10に従属する請求項11に記載の発明では、前記採点処理は、ユーザ歌唱データのフレームの数と手本歌唱音データのフレームの数との比が一定値以上の場合にのみ、前記判定処理がフレーム毎に適否判定した結果に基づきユーザの歌唱を採点することを特徴とする。 In the invention according to claim 11 dependent on claim 10, the scoring process is performed only when the ratio between the number of frames of user song data and the number of frames of model song sound data is a predetermined value or more. A user's song is scored based on the result of the determination process determining whether each frame is appropriate.
請求項12に記載の発明では、カラオケ曲のメロディ部分とラップ部分とを識別して再生可能なカラオケ装置に適用されるプログラムであって、カラオケ曲のメロディ部分が再生される場合に、ユーザが歌唱するユーザ歌唱音のピッチを抽出し、抽出したピッチと再生されるメロディ部分のピッチとを比較してユーザ歌唱音の適否を判定して採点する第1の採点処理と、カラオケ曲のラップ部分が再生される場合に、手本として歌唱された手本歌唱音の音声特徴量およびユーザが歌唱するユーザ歌唱音の音声特徴量を各々抽出し、抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否を判定して採点する第2の採点処理とをコンピュータで実行させることを特徴とする。 In the twelfth aspect of the present invention, the program is applied to a karaoke apparatus capable of identifying and reproducing the melody portion and the lap portion of the karaoke song, and when the melody portion of the karaoke song is reproduced, the user A first scoring process for extracting the pitch of the user singing sound to be sung, comparing the extracted pitch with the pitch of the melody part to be reproduced, determining the suitability of the user singing sound, and scoring the karaoke song lap part Are extracted, respectively, the voice feature amount of the model singing sound sung as a model and the voice feature amount of the user singing sound sung by the user, and the voice feature amount of the extracted sample singing sound and A second scoring process is performed by a computer that determines whether or not the user singing sound is appropriate for the model singing sound according to the similarity with the voice feature amount of the user singing sound and performs scoring.
本発明では、手本として歌唱された手本歌唱音から抽出した音声特徴量と、ユーザが歌唱するユーザ歌唱音から抽出した音声特徴量との類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否を判定して採点するので、曲の歌詞が正しく歌唱されているかどうかを歌唱採点できる。したがって、明確なメロディーを持たない「ラップ」と呼ばれるスタイルのカラオケ曲であっても歌唱採点することができる。 In the present invention, the user singing for the model singing sound according to the similarity between the voice feature extracted from the model singing sound sung as a model and the voice feature extracted from the user singing sound sung by the user. Since the sound is judged to be appropriate and graded, it can be scored whether the lyrics of the song are sung correctly. Therefore, even a karaoke song of a style called “rap” without a clear melody can be scored.
また、本発明では、ユーザ歌唱データのフレームの数と手本歌唱音データのフレームの数との比が一定値以上の場合にのみ、フレーム毎に適否判定した結果に基づきユーザの歌唱を採点するので、演奏時間が非常に短い曲であっても歌唱採点することができる。 Moreover, in this invention, only when the ratio of the number of the frames of user song data and the number of the frames of model song sound data is more than a fixed value, a user's song is scored based on the result of determining suitability for each frame. Therefore, even a song with a very short performance time can be scored.
以下、図面を参照して本発明の実施の形態について説明する。
A.構成
図1は、本発明の実施の一形態による歌唱採点装置を備えたカラオケ装置の構成を示すブロック図である。この図において、CPU10は、スイッチ部14から供給されるスイッチイベントに応じて、プログラムROM11に記憶される所定のプログラムを実行して装置各部を制御する。本発明の要旨に係わるCPU10の特徴的な処理動作(カラオケ処理、部分採点処理およびMFCC算出処理)については追って述べる。
Embodiments of the present invention will be described below with reference to the drawings.
A. Constitution
FIG. 1 is a block diagram showing a configuration of a karaoke apparatus provided with a singing scoring apparatus according to an embodiment of the present invention. In this figure, the CPU 10 controls each part of the apparatus by executing a predetermined program stored in the program ROM 11 in accordance with a switch event supplied from the switch part 14. Characteristic processing operations (karaoke processing, partial scoring processing, and MFCC calculation processing) of the CPU 10 according to the gist of the present invention will be described later.
プログラムROM11には、CPU10により実行される各種プログラムや制御データが記憶される。プログラムROM11に記憶される各種プログラムとは、後述する「カラオケ処理」、「部分採点処理」および「MFCC算出処理」を含む。RAM12は、ワークエリアおよびバッファエリアを備える。RAM12のワークエリアには、CPU10の処理に用いる各種レジスタ・フラグデータが一時記憶される。RAM12のバッファエリアには、後述する手本歌唱データおよびユーザ歌唱データが一時記憶される。 The program ROM 11 stores various programs executed by the CPU 10 and control data. The various programs stored in the program ROM 11 include “karaoke processing”, “partial scoring processing”, and “MFCC calculation processing” described later. The RAM 12 includes a work area and a buffer area. In the work area of the RAM 12, various register / flag data used for the processing of the CPU 10 are temporarily stored. In the buffer area of the RAM 12, model song data and user song data, which will be described later, are temporarily stored.
カラオケデータメモリ13は、例えばフラッシュメモリなど電気的に書き換え可能な不揮発性メモリから構成され、複数の曲のカラオケデータを記憶する。スイッチ部14には、例えば電源スイッチの他、カラオケ伴奏する曲を選択する曲選択スイッチや、カラオケの開始/停止を指示するスタート/ストップスイッチ等の各種スイッチを備え、これらスイッチ操作に応じたスイッチイベントを発生してCPU10に供給する。スイッチ部14のスタート/ストップスイッチの操作によってカラオケが開始された場合、CPU10は曲選択スイッチの操作で予め選択される曲のカラオケデータをカラオケデータメモリ13から読み出すようになっている。 The karaoke data memory 13 is composed of an electrically rewritable nonvolatile memory such as a flash memory, for example, and stores karaoke data of a plurality of songs. For example, in addition to the power switch, the switch unit 14 includes various switches such as a song selection switch for selecting a song to accompany karaoke and a start / stop switch for instructing start / stop of karaoke. An event is generated and supplied to the CPU 10. When karaoke is started by operating the start / stop switch of the switch unit 14, the CPU 10 reads out karaoke data from the karaoke data memory 13 for a song selected in advance by operating the song selection switch.
カラオケデータメモリ13に記憶される1つの曲のカラオケデータは、歌詞データおよび音声データから構成される。歌詞データは、カラオケ伴奏に同期して曲の歌詞を字幕表示させるための情報である。音声データは、カラオケトラックおよびボーカルトラックを有するデュアルモノラルモードでMP3形式に圧縮符号化された伴奏データおよび手本歌唱データを含む。 The karaoke data of one song stored in the karaoke data memory 13 is composed of lyrics data and voice data. The lyrics data is information for displaying subtitles of the lyrics of the song in synchronization with the karaoke accompaniment. The audio data includes accompaniment data and sample singing data compressed and encoded in MP3 format in a dual monaural mode having a karaoke track and a vocal track.
すなわち、カラオケトラックには、カラオケ伴奏音をサンプリングしてなる伴奏データが圧縮符号化されて格納され、ボーカルトラックには、例えばカラオケ伴奏音に同期して歌手が手本として歌唱した歌唱音をサンプリングしてなる手本歌唱データが圧縮符号化されて格納されている。 That is, accompaniment data obtained by sampling the karaoke accompaniment sound is compressed and stored in the karaoke track, and the vocal track samples the singing sound sung by the singer as a model in synchronization with the karaoke accompaniment sound, for example. The model singing data is stored after being compressed and encoded.
マイク15は、入力されるユーザの歌唱音を歌唱音声信号に変換して出力する。コーデック16は、マイク15から供給される歌唱音声信号をA/D変換して得るユーザ歌唱データを、CPU10の制御の下に、RAM12のバッファエリアにストアする。また、コーデック16は、CPU10の制御の下に、カラオケデータメモリ13から読み出されるMP3形式の手本歌唱データをデコード(伸長復号)してRAM12のバッファエリアにストアする。なお、カラオケ実行中にRAM12のバッファエリアにストアされるユーザ歌唱データおよび手本歌唱データは、それぞれ1024サンプリングポイント分のフレームに相当する256msec毎に更新される。 The microphone 15 converts the input user's singing sound into a singing voice signal and outputs it. The codec 16 stores user singing data obtained by A / D converting the singing voice signal supplied from the microphone 15 in the buffer area of the RAM 12 under the control of the CPU 10. Further, the codec 16 decodes (decompresses) MP3 format model song data read from the karaoke data memory 13 under the control of the CPU 10, and stores it in the buffer area of the RAM 12. Note that the user song data and the model song data stored in the buffer area of the RAM 12 during karaoke execution are updated every 256 msec corresponding to a frame of 1024 sampling points.
さらに、コーデック16は、CPU10の制御の下に、カラオケデータメモリ13から読み出されるMP3形式の伴奏データをデコード(伸長復号)すると共に、デコードされた伴奏データをD/A変換して得られるカラオケ伴奏音信号と、マイク15から供給される歌唱音声信号とを混合してオーディオ出力を発生する。オーディオ出力は、例えば図示されていないテレビジョン受像機の外部音声入力端子に供給されて音声再生される。ビデオエンコーダ17は、CPU10の制御の下に、カラオケデータメモリ13から読み出される歌詞データを字幕表示用のビデオ出力に変換する。ビデオ出力は、例えば図示されていないテレビジョン受像機のビデオ入力端子に供給されて歌詞字幕として画面表示される。 Further, the codec 16 decodes (decompresses) the MP3 format accompaniment data read from the karaoke data memory 13 under the control of the CPU 10, and performs karaoke accompaniment obtained by D / A converting the decoded accompaniment data. The sound signal and the singing voice signal supplied from the microphone 15 are mixed to generate an audio output. The audio output is supplied to, for example, an external audio input terminal of a television receiver (not shown) to reproduce the audio. Under the control of the CPU 10, the video encoder 17 converts the lyrics data read from the karaoke data memory 13 into a video output for subtitle display. The video output is supplied to, for example, a video input terminal of a television receiver (not shown) and displayed on the screen as lyrics subtitles.
B.動作
次に、図2〜図5を参照して、上記構成によるカラオケ装置の動作を説明する。以下では、CPU10が実行するカラオケ処理、部分採点処理およびMFCC算出処理の各動作について述べる。
B. Action
Next, with reference to FIGS. 2-5, operation | movement of the karaoke apparatus by the said structure is demonstrated. Below, each operation | movement of the karaoke process, partial scoring process, and MFCC calculation process which CPU10 performs is described.
(1)カラオケ処理の動作
図2は、カラオケ処理の動作を示すフローチャートである。装置電源が投入されると、CPU10は、図2に示すステップSA1に処理を進め、カラオケ開始指示があるまで待機する。ここで、スイッチ部14に設けられるスタート/ストップスイッチの操作に応じてカラオケ開始指示が発生すると、ステップSA1の判断結果が「YES」になり、次のステップSA2に進む。
(1) Karaoke processing operation
FIG. 2 is a flowchart showing the operation of karaoke processing. When the apparatus power is turned on, the CPU 10 advances the process to step SA1 shown in FIG. 2 and waits for a karaoke start instruction. Here, when a karaoke start instruction is generated in response to an operation of a start / stop switch provided in the switch unit 14, the determination result in step SA1 is “YES”, and the process proceeds to the next step SA2.
ステップSA2では、曲選択スイッチの操作で予め選択される曲のカラオケデータ(歌詞データおよび音声データ)をカラオケデータメモリ13から読み出し、読み出したカラオケデータ中の歌詞データをビデオエンコーダ17に供給して歌詞字幕表示用のビデオ出力に変換する。また、ステップSA2では、読み出したカラオケデータ中の音声データ、すなわちMP3形式で圧縮符号化されたカラオケトラックの伴奏データおよびボーカルトラックの手本歌唱データをコーデック16に供給してデコード(伸長復号)させる。 In step SA2, karaoke data (lyric data and audio data) of a song preselected by the operation of the song selection switch is read from the karaoke data memory 13, and the lyrics data in the read karaoke data is supplied to the video encoder 17 to input lyrics. Convert to video output for subtitle display. In step SA2, the voice data in the read karaoke data, that is, the accompaniment data of the karaoke track compressed and encoded in the MP3 format and the sample song data of the vocal track are supplied to the codec 16 to be decoded (decompressed). .
次いで、ステップSA3では、上記ステップSA2においてデコードされた伴奏データをD/A変換して得られるカラオケ伴奏音信号と、マイク15から供給される歌唱音声信号とを混合してオーディオ出力を発生するようコーデック16に指示する。これにより、例えばテレビジョン受像機(不図示)の外部音声入力端子にオーディオ出力を、ビデオ入力端子にビデオ出力をそれぞれ供給すれば、歌詞字幕が画面表示されると共に、カラオケ伴奏音が再生される。 Next, in step SA3, the karaoke accompaniment sound signal obtained by D / A converting the accompaniment data decoded in step SA2 and the singing voice signal supplied from the microphone 15 are mixed to generate an audio output. The codec 16 is instructed. Thus, for example, if audio output is supplied to an external audio input terminal of a television receiver (not shown) and video output is supplied to a video input terminal, lyrics subtitles are displayed on the screen and karaoke accompaniment sounds are reproduced. .
こうしてカラオケ伴奏が始ると、CPU10はステップSA4に処理を進め、上記ステップSA2においてコーデック16がデコードした手本歌唱データをRAM12のバッファエリアにストアし、続くステップSA5では、コーデック16が発生するユーザ歌唱データをRAM12のバッファエリアにストアする。 When the karaoke accompaniment starts, the CPU 10 advances the process to step SA4, stores the model song data decoded by the codec 16 in the above step SA2 in the buffer area of the RAM 12, and in the subsequent step SA5, the user who generates the codec 16 The song data is stored in the buffer area of the RAM 12.
そして、ステップSA6では、RAM12にバッファリングされた1024サンプリングポイント分の手本歌唱データおよびユーザ歌唱データからそれぞれ抽出する両者の音声特徴量MFCCに基づき、手本歌唱音(手本歌唱データ)に対するユーザ歌唱音(ユーザ歌唱データ)の類似度を算出し、算出した類似度に応じて適否判定した結果に基づき歌唱採点する部分採点処理(後述する)を実行する。なお、部分採点処理は、RAM12にバッファリングされる1024サンプリングポイント分のデータを使用する為、256msec毎に実行される。 In step SA6, based on both voice feature values MFCC extracted from the sample song data and user song data for 1024 sampling points buffered in the RAM 12, the user with respect to the sample song sound (example song data). The degree of similarity of the singing sound (user singing data) is calculated, and a partial scoring process (to be described later) for singing the song based on the result of the suitability determination according to the calculated degree of similarity is executed. The partial scoring process is executed every 256 msec because data for 1024 sampling points buffered in the RAM 12 is used.
次いで、ステップSA7では、カラオケ停止指示の有無を判断する。カラオケ停止指示が無ければ、判断結果は「NO」になり、上述したステップSA2に処理を戻す。以後、カラオケ伴奏が曲終端に達するか、あるいはスイッチ部14のスタート/ストップスイッチの操作によってカラオケ停止指示が発生するまで上述したステップSA2〜SA6を繰り返してカラオケ伴奏を進行させながら、ユーザ歌唱音を256msec毎に採点する。そして、例えばカラオケ伴奏が曲終端に達してカラオケ停止指示が発生すると、ステップSA7の判断結果が「YES」になり、ステップSA8に進み、採点処理を実行する。 Next, in step SA7, it is determined whether or not there is a karaoke stop instruction. If there is no karaoke stop instruction, the determination result is “NO”, and the process returns to step SA2 described above. Thereafter, until the karaoke accompaniment reaches the end of the song or the karaoke stop instruction is generated by operating the start / stop switch of the switch unit 14, the above-described steps SA2 to SA6 are repeated to advance the karaoke accompaniment. A score is given every 256 msec. For example, when the karaoke accompaniment reaches the end of the song and a karaoke stop instruction is issued, the determination result in step SA7 is “YES”, and the process proceeds to step SA8 to execute the scoring process.
採点処理では、フレームカウンタの数と楽曲全体のフレーム数の比率が一定値以上あるか否かを判定する。なお、フレームカウンタとは、後述するように、無音状態でない手本歌唱データのフレームを計数するカウンタである。また、フレームとは、1024サンプリングポイント毎(256msec毎)にバッファリングされるデータの区切りを指す。楽曲全体のフレーム数とは、手本歌唱データをフレームで除した数に相当する。 In the scoring process, it is determined whether or not the ratio between the number of frame counters and the number of frames of the entire music is a certain value or more. As will be described later, the frame counter is a counter that counts frames of model singing data that are not silent. A frame refers to a segment of data buffered every 1024 sampling points (every 256 msec). The number of frames of the entire music corresponds to the number obtained by dividing the model song data by frames.
したがって、採点処理では、カラオケ伴奏される曲を一定比率以上歌唱したかどうかを判断し、一定比率以上歌唱していなければ、上記ステップSA6の部分採点処理で得られる部分得点を無効とし、歌唱評価を零点と採点して次のステップSA9に進む。 Therefore, in the scoring process, it is determined whether or not the karaoke accompaniment has been sung over a certain ratio. If the singing is not performed over a certain ratio, the partial scoring obtained in the partial scoring process in step SA6 is invalidated and the singing evaluation is performed. Is scored as zero, and the process proceeds to the next step SA9.
一方、カラオケ伴奏される曲を一定比率以上歌唱していれば、上記ステップSA6の部分採点処理で得られる部分得点をフレームカウンタの数で除し、その値の百分率を点数データとして算出する。この後、ステップSA9に進み、算出した点数データをビデオエンコーダ17にてビデオ出力に変換することでユーザの歌唱点数を画面表示して本処理を終える。 On the other hand, if the karaoke accompaniment is sung at a certain ratio or more, the partial score obtained by the partial scoring process in step SA6 is divided by the number of frame counters, and the percentage of the value is calculated as score data. Thereafter, the process proceeds to step SA9, where the calculated score data is converted into a video output by the video encoder 17, whereby the user's singing score is displayed on the screen and the present process is terminated.
(2)部分採点処理の動作
次に、図3を参照して部分採点処理の動作を説明する。上述したカラオケ処理のステップSA6(図2参照)を介して本処理が実行されると、CPU10は図3に図示するステップSB1に進み、RAM12のバッファエリアにストアされた1024サンプリングポイント分の手本歌唱データが無音状態であるかをチェックする。
(2) Partial scoring operation
Next, the operation of the partial scoring process will be described with reference to FIG. When this processing is executed through the above-described karaoke processing step SA6 (see FIG. 2), the CPU 10 proceeds to step SB1 shown in FIG. 3 and samples 1024 sampling points stored in the buffer area of the RAM 12. Check if the singing data is silent.
続いて、ステップSB2では、上記ステップSB1のチェック結果に基づき、無音状態の手本歌唱データであるかどうかを判断する。無音状態の手本歌唱データであると、歌唱部分ではないと見做し、ここでの判断結果が「YES」となり、一旦本処理を完了させる。この場合、無音状態の手本歌唱データを含むフレームを破棄し、次フレームまで待機する。 Subsequently, in step SB2, based on the check result in step SB1, it is determined whether the sample singing data is silent. If the sample singing data is in the silent state, it is assumed that it is not a singing part, and the determination result here is “YES”, and this processing is once completed. In this case, the frame including the model song data in the silent state is discarded, and the process waits until the next frame.
一方、無音状態でない手本歌唱データならば、上記ステップSB2の判断結果は「NO」になり、ステップSB3に進む。ステップSB3では、フレームカウンタをインクリメントして歩進させる。フレームカウンタとは、無音状態でない手本歌唱データのフレームを計数するカウンタであり、その値は曲の進行位置を表す。次いで、ステップSB4では、手本歌唱データMFCC算出処理を実行する。 On the other hand, if it is model singing data that is not silent, the determination result of step SB2 is “NO”, and the process proceeds to step SB3. In step SB3, the frame counter is incremented and incremented. The frame counter is a counter that counts the frames of the model song data that is not silent, and the value represents the progress position of the song. Next, in step SB4, a model song data MFCC calculation process is executed.
ここで、図4を参照してMFCC算出処理の動作を説明する。上記ステップSB4を介してMFCC算出処理が実行されると、CPU10は図4に図示するステップSC1に処理を進め、RAM12のバッファエリアにストアされた無音状態でない1024サンプリングポイント分の手本歌唱データ(以下、入力信号と称す)に対し、低次のハイパスフィルタリングを施して直流分(バイアスノイズ)を除去する。続いて、ステップSC2では、バイアス除去された入力信号にハニング窓をかけて高速フーリエ変換FFTを施すことによって、入力信号をスペクトル領域に変換する。 Here, the operation of the MFCC calculation process will be described with reference to FIG. When the MFCC calculation process is executed via the above step SB4, the CPU 10 advances the process to step SC1 shown in FIG. 4, and singing sample data for 1024 sampling points (non-silent state) stored in the buffer area of the RAM 12 ( Hereinafter, the input signal is subjected to low-order high-pass filtering to remove a DC component (bias noise). Subsequently, in step SC2, the input signal is converted into a spectral domain by applying a fast Fourier transform FFT to the input signal from which the bias has been removed by applying a Hanning window.
次いで、ステップSC3では、スペクトル領域に変換された入力信号にフィルタバンク処理を施し、特徴量として用いられる20次元のスペクトル系列を発生する。すなわち、このフィルタバンク処理では、図5に図示するように、周波数軸に対して対数尺度で幅をとった20個の三角窓を備えるフィルタバンクを用いる。続いて、ステップSC4では、線形領域にある20次元のスペクトル系列を対数スペクトル系列に変換する対数化処理を行う。そして、ステップSC4では、対数スペクトル系列に離散コサイン変換DCTを施してケプストラム領域に変換するDCT処理を実行する。 Next, in step SC3, a filter bank process is performed on the input signal converted into the spectral domain to generate a 20-dimensional spectral sequence used as a feature quantity. That is, in this filter bank process, as shown in FIG. 5, a filter bank having 20 triangular windows having a logarithmic scale with respect to the frequency axis is used. Subsequently, in step SC4, logarithmic processing for converting a 20-dimensional spectrum sequence in the linear region into a logarithmic spectrum sequence is performed. In step SC4, a DCT process is performed in which a logarithmic spectrum sequence is subjected to discrete cosine transform DCT to be transformed into a cepstrum region.
次に、ステップSC6では、上記ステップSC5のDCT処理で得られたDCT係数の内からスペクトル直流成分である最低次の係数C0を除いた低次から12個の係数を、ケプストラム領域の音声特徴量MFCC(Mel Frequency Cepstrum Coefficient)として抽出する係数抽出処理を実行した後、本処理を完了させて図3に図示する部分採点処理に復帰する。 Next, in step SC6, the 12 coefficients from low order excluding the lowest-order coefficient C 0 is the spectral DC component from among the DCT coefficients obtained by the DCT process in the step SC5, the audio characteristics of the cepstrum domain After executing a coefficient extraction process for extracting as a quantity MFCC (Mel Frequency Cepstrum Coefficient), the present process is completed and the process returns to the partial scoring process shown in FIG.
以上のように、ステップSB4の手本歌唱データMFCC算出処理では、RAM12のバッファエリアにストアされた無音状態でない1024サンプリングポイント分の手本歌唱データからケプストラム領域の音声特徴量MFCCを算出するようになっている。 As described above, in the example song data MFCC calculation process in step SB4, the speech feature value MFCC of the cepstrum area is calculated from the sample song data for 1024 sampling points stored in the buffer area of the RAM 12 and not in silence. It has become.
この後、図3に図示するステップSB5に進み、RAM12のバッファエリアにストアされた1024サンプリングポイント分のユーザ歌唱データが無音状態であるかをチェックする。そして、ステップSB6では、上記ステップSB5のチェック結果に基づき、無音状態のユーザ歌唱データであるかどうかを判断する。無音状態のユーザ歌唱データであると、歌唱部分ではないと見做して判断結果が「YES」となり、一旦本処理を完了させる。この場合、無音状態のユーザ歌唱データを含むフレームを破棄し、次フレームまで待機する。 Thereafter, the process proceeds to step SB5 shown in FIG. 3 to check whether the user singing data for 1024 sampling points stored in the buffer area of the RAM 12 is in a silent state. In step SB6, based on the check result in step SB5, it is determined whether the user singing data is silent. If the user singing data is in a silent state, the determination result is “YES” assuming that it is not a singing portion, and this processing is once completed. In this case, the frame including the user singing data in the silent state is discarded, and the process waits until the next frame.
一方、無音状態でないユーザ歌唱データならば、上記ステップSB6の判断結果が「NO」になり、ステップSB7に進む。ステップSB7では、ユーザ歌唱データMFCC算出処理を実行する。ユーザ歌唱データMFCC算出処理では、上述したステップSB4と同様、RAM12のバッファエリアにストアされた無音状態でない1024サンプリングポイント分のユーザ歌唱データから音声特徴量MFCCを算出する。 On the other hand, if the user song data is not silent, the determination result in step SB6 is “NO”, and the process proceeds to step SB7. In step SB7, user song data MFCC calculation processing is executed. In the user song data MFCC calculation process, the speech feature value MFCC is calculated from the user song data for 1024 sampling points that are not silenced and stored in the buffer area of the RAM 12, as in step SB4 described above.
続いて、ステップSB8では、上記ステップSB4で算出した手本歌唱データの音声特徴量MFCCと、上記ステップSB7で算出したユーザ歌唱データの音声特徴量MFCCとの類似度を測る尺度として、手本歌唱データの音声特徴量MFCCを表すベクトルa=(a1,a2,…,a12)と、ユーザ歌唱データの音声特徴量MFCCを表すベクトルb=(b1,b2,…,b12)との間のユークリッド距離d(a,b)を算出する。 Subsequently, in step SB8, the model song is used as a scale for measuring the similarity between the voice feature value MFCC of the model song data calculated in step SB4 and the voice feature value MFCC of the user song data calculated in step SB7. A vector a = (a 1 , a 2 ,..., A 12 ) representing the voice feature value MFCC of the data, and a vector b = (b 1 , b 2 ,..., B 12 ) representing the voice feature value MFCC of the user song data. Euclidean distance d (a, b) between is calculated.
次いで、ステップSB9では、上記ステップSB8にて算出したユークリッド距離d(a,b)が予め設定した閾値以下であるか否か、すなわち手本の歌唱音とユーザの歌唱音とが類似しているかどうかを判断する。上記ステップSB8にて算出したユークリッド距離d(a,b)が閾値以上となり、手本の歌唱音とユーザの歌唱音との類似度が低い場合には、判断結果が「NO」となり、本処理を終える。 Next, in step SB9, whether or not the Euclidean distance d (a, b) calculated in step SB8 is equal to or smaller than a preset threshold value, that is, whether the model singing sound is similar to the user singing sound. Judge whether. When the Euclidean distance d (a, b) calculated in step SB8 is equal to or greater than the threshold value and the similarity between the model singing sound and the user singing sound is low, the determination result is “NO”, and this processing is performed. Finish.
これに対し、上記ステップSB8にて算出したユークリッド距離d(a,b)が閾値未満となり、手本の歌唱音とユーザの歌唱音との類似度が高い場合には、判断結果が「YES」となり、ステップSB10に進む。そして、ステップSB10では、採点対象としているフレームの採点結果を合格とし、部分得点をインクリメントして本処理を終える。 On the other hand, when the Euclidean distance d (a, b) calculated in step SB8 is less than the threshold value and the similarity between the singing sound of the model and the singing sound of the user is high, the determination result is “YES”. Thus, the process proceeds to step SB10. In step SB10, the scoring result of the frame that is the scoring target is accepted, the partial score is incremented, and the process is completed.
以上のように、本実施の形態では、カラオケ伴奏音をサンプリングした伴奏データと、歌手が手本として歌唱した歌唱音をサンプリングした手本歌唱データとをカラオケデータメモリ13に記憶しておき、カラオケ開始指示に応じて、カラオケデータメモリ13から伴奏データを読み出してカラオケ伴奏音を再生すると、再生されるカラオケ伴奏音に合せてユーザが歌唱する歌唱音をサンプリングして得たユーザ歌唱データと、上記伴奏データに同期してカラオケデータメモリ13から読み出される手本歌唱データとを所定のデータ数分のフレームで区切り、区切られたフレーム中の手本歌唱データから手本歌唱音の音声特徴量MFCCを、ユーザ歌唱データからユーザ歌唱音の音声特徴量MFCCをそれぞれ抽出する。 As described above, in the present embodiment, accompaniment data obtained by sampling a karaoke accompaniment sound and sample singing data obtained by sampling a singing sound sung by a singer as a model are stored in the karaoke data memory 13, When the accompaniment data is read from the karaoke data memory 13 and the karaoke accompaniment sound is reproduced in response to the start instruction, the user singing data obtained by sampling the singing sound sung by the user in accordance with the reproduced karaoke accompaniment sound, and the above The sample singing data read from the karaoke data memory 13 in synchronization with the accompaniment data is divided into frames for a predetermined number of data, and the voice feature quantity MFCC of the sample singing sound is calculated from the sample singing data in the divided frames. The voice feature amount MFCC of the user singing sound is extracted from the user singing data.
そして、抽出した手本歌唱音の音声特徴量MFCCおよびユーザ歌唱音の音声特徴量MFCCに基づき手本歌唱音に対するユーザ歌唱音の類似度を算出して適否判定し、その結果に基づき歌唱採点するので、曲の歌詞が正しく歌唱されているかどうかを歌唱採点できる。この結果、明確なメロディーを持たない「ラップ」と呼ばれるスタイルのカラオケ曲であっても歌唱採点し得るようになる。 Then, based on the extracted voice feature value MFCC of the model singing sound and the voice feature value MFCC of the user singing sound, the similarity of the user singing sound with respect to the model singing sound is calculated to determine suitability, and singing is scored based on the result. So, you can score whether the song lyrics are sung correctly. As a result, even a karaoke song of a style called “rap” without a clear melody can be scored.
また、本実施の形態では、ユーザが歌唱したフレームの数と、カラオケ曲中で手本歌唱データが存在するフレームの数との比をとり、その比が一定値以上ある場合にのみ歌唱採点するので、演奏時間が非常に短い曲であっても歌唱採点することが可能になる。 In this embodiment, the ratio between the number of frames sung by the user and the number of frames in which singing singing data exists in the karaoke song is taken, and the singing score is given only when the ratio is a certain value or more. Therefore, even a song with a very short performance time can be scored.
なお、上述した実施形態では、音声特徴量MFCCに基づき手本歌唱音に対するユーザ歌唱音の類似度を算出して歌唱採点したが、これに加えて、従来のピッチ抽出による歌唱採点方式を併用する態様としてもよい。例えば、カラオケ曲の伴奏データにメロディ部分とラップ部分とが混在する場合には、当該伴奏データ中にメロディ部分とラップ部分とを区別する識別フラグを設けておき、この識別フラグを参照してメロディ部分の伴奏データが再生される時にはピッチ抽出して歌唱採点を行い、一方、ラップ部分の伴奏データが再生される時には音声特徴量MFCCを抽出して歌唱採点を行う態様となる。このようにすれば、ユーザ歌唱音の音高の適否と、歌唱した歌詞の適否とを同時に判定することができる。 In the embodiment described above, the singing score is calculated by calculating the similarity of the user singing sound with respect to the model singing sound based on the voice feature value MFCC, but in addition to this, the singing scoring method based on the conventional pitch extraction is used in combination. It is good also as an aspect. For example, when the accompaniment data of a karaoke song includes a melody part and a rap part, an identification flag for distinguishing the melody part from the rap part is provided in the accompaniment data, and the melody is referenced with reference to this identification flag. When the accompaniment data of the part is reproduced, the pitch is extracted and the singing is performed. On the other hand, when the accompaniment data of the rap part is reproduced, the voice feature amount MFCC is extracted and the singing is performed. If it does in this way, the appropriateness of the pitch of a user singing sound and the appropriateness of the sung lyrics can be determined simultaneously.
また、上述した実施形態では、音声の特徴量を表すパラメータとして、ケプストラム領域の特徴量であるMFCC(Mel Frequency Cepstrum Coefficient)を抽出するようにしたが、これに替えて、LPCケプストラム等の他の特徴パラメータを抽出する態様としても構わない。 In the above-described embodiment, the MFCC (Mel Frequency Cepstrum Coefficient), which is a feature amount of the cepstrum region, is extracted as a parameter representing the feature amount of the voice. However, instead of this, other parameters such as an LPC cepstrum are extracted. A feature parameter may be extracted.
加えて、本実施形態では、手本歌唱データの音声特徴量MFCCと、ユーザ歌唱データの音声特徴量MFCCとの類似度を測る尺度として、手本歌唱データの音声特徴量MFCCを表すベクトルa=(a1,a2,…,a12)と、ユーザ歌唱データの音声特徴量MFCCを表すベクトルb=(b1,b2,…,b12)との間のユークリッド距離d(a,b)を算出するようにしたが、これに限らず、例えば板倉距離などの他の尺度で類似度を算出しても構わない。 In addition, in the present embodiment, as a measure for measuring the similarity between the voice feature value MFCC of the sample song data and the voice feature value MFCC of the user song data, a vector a = representing the voice feature value MFCC of the sample song data Euclidean distance d (a, b) between (a 1 , a 2 ,..., A 12 ) and a vector b = (b 1 , b 2 ,..., B 12 ) representing the voice feature value MFCC of the user song data. However, the present invention is not limited to this, and the degree of similarity may be calculated using another scale such as the Itakura distance.
また、上述した実施形態では、カラオケ伴奏音の再生に同期してカラオケデータメモリ13から読み出される手本歌唱データを所定のデータ数分のフレームで区切り、区切られたフレーム毎の音声特徴量MFCCを抽出するようにしたが、これに替えて、予め手本歌唱データからフレーム毎の音声特徴量MFCCを算出し、これを手本歌唱データの替わりにカラオケデータメモリ13に記憶しておくこともできる。このようにすれば、前述したステップSB4(図3参照)の手本歌唱データMFCC算出処理を不要にし、CPU10の処理負荷低減を図ることができる。 In the above-described embodiment, the sample singing data read from the karaoke data memory 13 in synchronization with the reproduction of the karaoke accompaniment sound is divided into frames for a predetermined number of data, and the audio feature value MFCC for each divided frame is obtained. However, instead of this, the voice feature quantity MFCC for each frame can be calculated from the model song data in advance and stored in the karaoke data memory 13 instead of the model song data. . In this way, the above-described example song data MFCC calculation process in step SB4 (see FIG. 3) is not required, and the processing load on the CPU 10 can be reduced.
10 CPU
11 プログラムROM
12 RAM
13 カラオケデータメモリ
14 スイッチ部
15 マイク
16 コーデック
17 ビデオエンコーダ
10 CPU
11 Program ROM
12 RAM
13 Karaoke data memory 14 Switch unit 15 Microphone 16 Codec 17 Video encoder
Claims (12)
ユーザが歌唱するユーザ歌唱音の音声特徴量を抽出する第2の特徴抽出手段と、
前記第1および第2の特徴抽出手段によりそれぞれ抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度を算出する類似度算出手段と、
前記類似度算出手段により算出された類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否を判定して採点する採点手段と
を具備することを特徴とする歌唱採点装置。 First feature extraction means for extracting a voice feature amount of a model singing sound sung as a model;
A second feature extracting means for extracting a voice feature amount of the user singing sound sung by the user;
Similarity calculating means for calculating the similarity between the voice feature quantity of the model singing sound and the voice feature quantity of the user singing sound respectively extracted by the first and second feature extracting means;
A singing scoring apparatus comprising: scoring means for determining whether or not the user singing sound is appropriate for the model singing sound according to the similarity calculated by the similarity calculating means.
前記フレーム化手段によりフレーム化された所定データ数分の手本歌唱音データから手本歌唱音の音声特徴量を抽出する第1の特徴抽出手段と、
前記フレーム化手段によりフレーム化された所定データ数分のユーザ歌唱データからユーザ歌唱音の音声特徴量を抽出する第2の特徴抽出手段と、
前記第1および第2の特徴抽出手段によりそれぞれ抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度を算出する類似度算出手段と、
前記類似度算出手段により算出された類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否をフレーム毎に判定する判定手段と、
前記判定手段がフレーム毎に適否判定した結果に基づきユーザの歌唱を採点する採点手段と
を具備することを特徴とする歌唱採点装置。 Data generated in synchronization with the reproduction of the karaoke song, from the model singing sound data representing the model singing sound sung as a model, and the user singing sound sung by the user in accordance with the karaoke song to be reproduced Framing means for dividing the obtained user singing data into predetermined frames for each number of data;
First feature extraction means for extracting a voice feature amount of the model singing sound from the model singing sound data for the predetermined number of data framed by the framing means;
Second feature extraction means for extracting voice feature values of user singing sound from user singing data for a predetermined number of data framed by the framing means;
Similarity calculating means for calculating the similarity between the voice feature quantity of the model singing sound and the voice feature quantity of the user singing sound extracted by the first and second feature extracting means,
A determination unit that determines the suitability of the user singing sound for the model singing sound for each frame according to the similarity calculated by the similarity calculating unit;
A singing scoring apparatus comprising: scoring means for scoring a user's song based on a result of the determination by the determination means for each frame.
カラオケ曲のメロディ部分が再生される場合に、ユーザが歌唱するユーザ歌唱音のピッチを抽出し、抽出したピッチと再生されるメロディ部分のピッチとを比較してユーザ歌唱音の適否を判定して採点する第1の採点手段と、
カラオケ曲のラップ部分が再生される場合に、手本として歌唱される手本歌唱音の音声特徴量およびユーザが歌唱するユーザ歌唱音の音声特徴量を各々抽出し、抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否を判定して採点する第2の採点手段と
を具備することを特徴とする歌唱採点装置。 In a karaoke device that can distinguish and reproduce the melody part and rap part of a karaoke song,
When the melody part of the karaoke song is reproduced, the pitch of the user singing sound sung by the user is extracted, and the suitability of the user singing sound is determined by comparing the extracted pitch with the pitch of the reproduced melody part. A first scoring means for scoring;
When the rap part of a karaoke song is played, the voice feature amount of the sample singing sound sung as a model and the voice feature amount of the user singing sound sung by the user are extracted, respectively, and the extracted sample singing sound And a second scoring means for scoring by determining the suitability of the user singing sound with respect to the model singing sound according to the similarity between the voice feature amount of the user singing sound and the sound feature amount of the user singing sound. Singing scoring device.
ユーザが歌唱するユーザ歌唱音の音声特徴量を抽出する第2の特徴抽出処理と、
前記第1および第2の特徴抽出処理によりそれぞれ抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度を算出する類似度算出処理と、
前記類似度算出処理により算出された類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否を判定して採点する採点処理と
をコンピュータで実行させることを特徴とする歌唱採点プログラム。 A first feature extraction process for extracting a voice feature amount of a model singing sound sung as a model;
A second feature extraction process for extracting a voice feature amount of the user singing sound sung by the user;
A similarity calculation process for calculating a similarity between the voice feature quantity of the model singing sound and the voice feature quantity of the user singing sound, respectively extracted by the first and second feature extraction processes;
A singing scoring program that causes a computer to execute a scoring process for determining whether or not a user singing sound is appropriate for a model singing sound according to the similarity calculated by the similarity calculating process.
前記フレーム化処理によりフレーム化された所定データ数分の手本歌唱音データから手本歌唱音の音声特徴量を抽出する第1の特徴抽出処理と、
前記フレーム化処理によりフレーム化された所定データ数分のユーザ歌唱データからユーザ歌唱音の音声特徴量を抽出する第2の特徴抽出処理と、
前記第1および第2の特徴抽出処理によりそれぞれ抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度を算出する類似度算出処理と、
前記類似度算出処理により算出された類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否をフレーム毎に判定する判定処理と、
前記判定処理がフレーム毎に適否判定した結果に基づきユーザの歌唱を採点する採点処理と
をコンピュータで実行させることを特徴とする歌唱採点プログラム。 Data generated in synchronization with the reproduction of the karaoke song, from the model singing sound data representing the model singing sound sung as a model, and the user singing sound sung by the user in accordance with the karaoke song to be reproduced A framing process for dividing the obtained user singing data into predetermined frames for each predetermined number of data;
A first feature extraction process for extracting a voice feature amount of a model singing sound from model singing sound data for a predetermined number of data framed by the framing process;
A second feature extraction process for extracting voice feature quantities of user singing sound from user singing data for a predetermined number of data framed by the framing process;
A similarity calculation process for calculating a similarity between the voice feature quantity of the model singing sound and the voice feature quantity of the user singing sound, respectively extracted by the first and second feature extraction processes;
A determination process for determining the suitability of the user singing sound for the model singing sound for each frame according to the similarity calculated by the similarity calculating process;
A singing scoring program that causes a computer to perform scoring processing for scoring a user's singing based on a result of determining whether the determination processing is appropriate for each frame.
カラオケ曲のメロディ部分が再生される場合に、ユーザが歌唱するユーザ歌唱音のピッチを抽出し、抽出したピッチと再生されるメロディ部分のピッチとを比較してユーザ歌唱音の適否を判定して採点する第1の採点処理と、
カラオケ曲のラップ部分が再生される場合に、手本として歌唱された手本歌唱音の音声特徴量およびユーザが歌唱するユーザ歌唱音の音声特徴量を各々抽出し、抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否を判定して採点する第2の採点処理と
をコンピュータで実行させることを特徴とする歌唱採点プログラム。
A program applied to a karaoke apparatus capable of identifying and reproducing a melody part and a rap part of a karaoke song,
When the melody part of the karaoke song is reproduced, the pitch of the user singing sound sung by the user is extracted, and the suitability of the user singing sound is determined by comparing the extracted pitch with the pitch of the reproduced melody part. A first scoring process for scoring;
When the rap part of the karaoke song is played, the voice feature amount of the sample singing sound sung as a model and the voice feature amount of the user singing sound sung by the user are extracted, respectively, and the extracted sample singing sound A second scoring process for determining whether or not the user singing sound is appropriate for the model singing sound according to the similarity between the voice feature amount of the user singing sound and the voice feature amount of the user singing sound, and causing the computer to execute Singing scoring program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006192514A JP2008020677A (en) | 2006-07-13 | 2006-07-13 | Singing marking device and singing marking program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006192514A JP2008020677A (en) | 2006-07-13 | 2006-07-13 | Singing marking device and singing marking program |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010101757A Division JP4983958B2 (en) | 2010-04-27 | 2010-04-27 | Singing scoring device and singing scoring program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008020677A true JP2008020677A (en) | 2008-01-31 |
Family
ID=39076648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006192514A Pending JP2008020677A (en) | 2006-07-13 | 2006-07-13 | Singing marking device and singing marking program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008020677A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013190564A (en) * | 2012-03-13 | 2013-09-26 | Yamaha Corp | Voice evaluation device |
JP2015069082A (en) * | 2013-09-30 | 2015-04-13 | ブラザー工業株式会社 | Information processing device, data generation method and program |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11249674A (en) * | 1998-03-02 | 1999-09-17 | Daiichikosho Co Ltd | Singing marking system for karaoke device |
JPH11259081A (en) * | 1998-03-13 | 1999-09-24 | Nec Corp | Singing score display karaoke device |
JP2001117568A (en) * | 1999-10-21 | 2001-04-27 | Yamaha Corp | Singing evaluation device and karaoke device |
JP2005215493A (en) * | 2004-01-30 | 2005-08-11 | Brother Ind Ltd | Karaoke machine and program |
-
2006
- 2006-07-13 JP JP2006192514A patent/JP2008020677A/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11249674A (en) * | 1998-03-02 | 1999-09-17 | Daiichikosho Co Ltd | Singing marking system for karaoke device |
JPH11259081A (en) * | 1998-03-13 | 1999-09-24 | Nec Corp | Singing score display karaoke device |
JP2001117568A (en) * | 1999-10-21 | 2001-04-27 | Yamaha Corp | Singing evaluation device and karaoke device |
JP2005215493A (en) * | 2004-01-30 | 2005-08-11 | Brother Ind Ltd | Karaoke machine and program |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013190564A (en) * | 2012-03-13 | 2013-09-26 | Yamaha Corp | Voice evaluation device |
JP2015069082A (en) * | 2013-09-30 | 2015-04-13 | ブラザー工業株式会社 | Information processing device, data generation method and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789290B2 (en) | Audio data processing method and apparatus, and computer storage medium | |
US8027631B2 (en) | Song practice support device | |
JP2006195385A (en) | Device and program for music reproduction | |
US9892758B2 (en) | Audio information processing | |
WO2006060022A2 (en) | Method and apparatus for adapting original musical tracks for karaoke use | |
JP5246354B2 (en) | Singing scoring device and singing scoring program | |
JP7355165B2 (en) | Music playback system, control method and program for music playback system | |
JP2009210790A (en) | Music selection singer analysis and recommendation device, its method, and program | |
JP4212446B2 (en) | Karaoke equipment | |
JP4983958B2 (en) | Singing scoring device and singing scoring program | |
JP2007233077A (en) | Evaluation device, control method, and program | |
JP4204941B2 (en) | Karaoke equipment | |
JP2008020677A (en) | Singing marking device and singing marking program | |
JP6252420B2 (en) | Speech synthesis apparatus and speech synthesis system | |
KR20150118974A (en) | Voice processing device | |
JP4595948B2 (en) | Data reproducing apparatus, data reproducing method and program | |
WO2022054496A1 (en) | Electronic musical instrument, electronic musical instrument control method, and program | |
JP2006276560A (en) | Music playback device and music playback method | |
JP4048249B2 (en) | Karaoke equipment | |
JP4209751B2 (en) | Karaoke equipment | |
JP2013210501A (en) | Synthesis unit registration device, voice synthesis device, and program | |
CN112750420B (en) | Singing voice synthesis method, device and equipment | |
JP5983670B2 (en) | Program, information processing apparatus, and data generation method | |
JP4862772B2 (en) | Karaoke device with scoring function | |
JP2008268358A (en) | Karaoke device, singing evaluation method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090702 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100305 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100709 |