JP4862413B2 - Karaoke equipment - Google Patents
Karaoke equipment Download PDFInfo
- Publication number
- JP4862413B2 JP4862413B2 JP2006022648A JP2006022648A JP4862413B2 JP 4862413 B2 JP4862413 B2 JP 4862413B2 JP 2006022648 A JP2006022648 A JP 2006022648A JP 2006022648 A JP2006022648 A JP 2006022648A JP 4862413 B2 JP4862413 B2 JP 4862413B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- lyrics
- data
- singing
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/361—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
- G10H1/363—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems using optical disks, e.g. CD, CD-ROM, to store accompaniment information in digital form
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/361—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
- G10H1/366—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems with means for modifying or correcting the external signal, e.g. pitch correction, reverberation, changing a singer's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/046—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/066—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/091—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for performance evaluation, i.e. judging, grading or scoring the musical qualities or faithfulness of a performance, e.g. with respect to pitch, tempo or other timings of a reference performance
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Description
本発明は、歌唱者の歌唱力を採点する技術に関する。 The present invention relates to a technique for scoring a singer's singing ability.
楽曲データに基づいて自動演奏を行うカラオケ装置の中には、マイクに入力された歌唱者の音声を解析し、歌唱者の歌唱力を採点するものがある。例えば、特許文献1に開示されたカラオケ装置は、マイクに入力された歌唱者の音声の文言を認識し、楽曲の歌詞の文言とどの程度一致しているかを評価する。このカラオケ装置によれば、歌唱者が歌詞を正しく覚えているか否かを評価することができる。
ところで、特許文献1に開示されているカラオケ装置のように音声の文言を認識するためには、音声認識を行う必要がある。音声認識を行う場合、入力された音声を分析し、音声の音響特徴を抽出する。そして、辞書に記憶されている言葉の中から、言葉の音響特徴が入力音声の音響特徴に最も近い言葉を探して音声認識結果として出力する。ここで、言葉を正しく認識するには、辞書に記憶されている言葉が重要となり、正確に言葉を認識するには多くの言葉を辞書に記憶させておく必要がある。しかしながら、多くの言葉を辞書に記憶させると、多くの言葉の中から最も近い言葉を探し出すのに時間がかかることとなり、直ぐに評価結果を示すことができなくなる。また、カラオケで歌われる楽曲は、日本語だけでなく外国語の楽曲も多数ある。多数の言語について音声認識を行う場合には、言語毎に辞書を用意する必要があり、新たな言語の楽曲をカラオケ装置に追加する場合には、辞書も新たに用意しなければならず、システムが複雑化して簡単に楽曲を追加するのが難しくなるという問題が発生する。
By the way, in order to recognize the wording of a voice | voice like the karaoke apparatus currently disclosed by
本発明は、上述した背景の下になされたものであり、その目的は、システムを複雑化させることなく、歌唱者が歌詞を正しく覚えているか否かを評価できるようにすることにある。 The present invention has been made under the background described above, and its purpose is to enable a singer to evaluate whether or not he / she correctly remembers lyrics without complicating the system.
上述した課題を解決するために本発明は、楽曲を歌詞通りに歌唱したときの手本音声を表す手本音声データを記憶した記憶手段と、歌唱者の歌唱音声が入力される音声入力手段と、前記手本音声データが表す手本音声を複数の音声区間に分割し、前記音声入力手段に入力された歌唱音声において、前記分割された各音声区間に対応する音声区間を特定する特定手段と、前記特定手段で特定された音声区間の歌唱音声と、該音声区間の歌唱音声に対応する手本音声とを比較して歌詞の正誤の評価を行う評価手段と、前記評価手段の評価結果を表示する表示手段とを有するカラオケ装置を提供する。 In order to solve the above-described problems, the present invention includes a storage unit that stores model voice data representing a model voice when a song is sung according to lyrics, and a voice input unit that inputs a singing voice of a singer. Specifying means for dividing the model voice represented by the model voice data into a plurality of voice sections, and identifying voice sections corresponding to the divided voice sections in the singing voice input to the voice input means; The evaluation means for evaluating the correctness of the lyrics by comparing the singing voice of the voice section specified by the specifying means and the model voice corresponding to the singing voice of the voice section, and the evaluation result of the evaluation means A karaoke apparatus having display means for displaying is provided.
この態様においては、前記評価手段は、前記特定手段で特定された音声区間の歌唱音声と、該音声区間の歌唱音声に対応する手本音声との一致度を求め、求めた一致度により歌詞の正誤の評価を行うようにしてもよい。
また、前記記憶手段は、前記楽曲の歌詞を表す歌詞データを記憶し、前記評価手段が求
めた前記一致度が所定値未満である場合、前記一致度が所定値未満となった音声区間の音
声に対応した歌詞を前記記憶手段に記憶された歌詞データが表す歌詞の中から特定する歌
詞特定手段を有し、前記表示手段は、前記歌詞特定手段で特定された歌詞を表示するよう
にしてもよい。
また、前記評価手段は、前記歌唱音声のフォルマント周波数と前記手本音声のフォルマ
ント周波数の一致度を求めるようにしてもよい。
In this aspect, the evaluation means obtains the degree of coincidence between the singing voice of the voice section specified by the specifying means and the model voice corresponding to the singing voice of the voice section, and based on the obtained degree of coincidence , You may make it evaluate correctness .
In addition, the storage unit stores lyrics data representing the lyrics of the music, and when the degree of coincidence obtained by the evaluation unit is less than a predetermined value, the voice of the voice section in which the degree of coincidence is less than the predetermined value The lyrics specifying means for specifying the lyrics corresponding to the lyrics from the lyrics represented by the lyrics data stored in the storage means, and the display means displays the lyrics specified by the lyrics specifying means Good.
Further, the evaluation means may obtain a degree of coincidence between the formant frequency of the singing voice and the formant frequency of the model voice.
本発明によれば、システムを複雑化させることなく、歌唱者が歌詞を正しく覚えているか否かを評価することができる。 According to the present invention, it is possible to evaluate whether a singer correctly remembers lyrics without complicating the system.
[実施形態の構成]
図1は本発明の実施形態に係わるカラオケ装置の外観を示した図である。同図に示したように、カラオケ装置1にはモニタ2、スピーカ3L、スピーカ3R、そしてマイク4が接続されている。カラオケ装置1は、リモコン装置5から送信される赤外線信号により遠隔操作される。
[Configuration of the embodiment]
FIG. 1 is an external view of a karaoke apparatus according to an embodiment of the present invention. As shown in the figure, the
図2は、カラオケ装置1のハードウェア構成を示したブロック図である。バス101に接続されている各部は、このバス101を介して各部間で通信を行う。CPU(Central Processing Unit)102は、RAM(Random Access Memory)104をワークエリアとして利用し、ROM(Read Only Memory)103に格納されている各種プログラムを実行することでカラオケ装置1の各部を制御する。また、RAM104には楽曲データを一時記憶する楽曲記憶領域が確保される。記憶部105はハードディスク装置を具備しており、後述する楽曲データやマイク4より入力された歌唱音声のデジタルデータ等の各種データを記憶する。
FIG. 2 is a block diagram showing a hardware configuration of the
通信部108は、楽曲データの配信元であるホストコンピュータ(図示略)から、例えばインターネットなどの通信ネットワーク(図示略)を介して楽曲データを受信し、受信した楽曲データをCPU102の制御のもと記憶部105へと転送する。なお、本実施形態においては、楽曲データは予め記憶部105に記憶されていてもよい。また、CD−ROMやDVD等の各種記録媒体を読み取る読み取り装置をカラオケ装置1に設け、各種記録媒体に記録された楽曲データを、この読み取り装置により読み取って記憶部105に転送して記憶させるようにしてもよい。
ここで、本実施形態において用いられる楽曲データの構造について説明する。本実施形態における楽曲データは、図3に示すように、ヘッダ、カラオケ演奏音の内容を表すWAVE形式のデータである楽音データ、楽曲の歌詞を間違えずに正しく歌ったときのお手本の音声の波形を表すWAVE形式の手本音声データ、および楽曲の歌詞を表す歌詞データを格納した歌詞テーブルとを有している。
The
Here, the structure of music data used in the present embodiment will be described. As shown in FIG. 3, the music data in the present embodiment includes a header, musical sound data that is WAVE data representing the contents of the karaoke performance sound, and a waveform of a model voice when the lyrics of the music are correctly sung. Model audio data in the WAVE format, and a lyrics table storing lyrics data representing the lyrics of the music.
図4は、歌詞テーブルのフォーマットを例示した図である。歌詞テーブルにおいては、演奏される楽曲の歌詞を表す歌詞データと、楽音データに従って楽音が出力されたときに、この歌詞データが表す歌詞を発音すべき時間区間を示す時間区間データとが対応付けて格納される。
例えば、図4に示した歌詞テーブルにおいて、1行目の歌詞データは「かめれおんが」という歌詞を表しており、この歌詞データに対応付けられている時間区間データ「01:00−01:02」は、お手本の音声において、楽曲の演奏が開始されて1分経過した時点から1分2秒経過した時点までの間に、この歌詞「かめれおんが」が発音されることを示している。また、2行目の歌詞データは「やってきたー」という歌詞を表しており、この歌詞データに対応付けられている時間区間データ「01:03−01:06」は、お手本の音声において、楽曲の演奏が開始されて1分3秒経過した時点から1分6秒経過した時点までの間に、この歌詞「やってきたー」が発音されることを示している。
FIG. 4 is a diagram illustrating the format of the lyrics table. In the lyrics table, the lyrics data representing the lyrics of the music to be played is associated with the time interval data indicating the time interval in which the lyrics represented by the lyrics data should be pronounced when the musical sound is output according to the musical sound data. Stored.
For example, in the lyrics table shown in FIG. 4, the lyrics data on the first line represents the lyrics “Kamere-onga”, and the time interval data “01: 00-01: 02” associated with the lyrics data. "Indicates that the lyrics" Kamere-onga "is pronounced in the model voice from the time when 1 minute has passed since the start of the performance of the music to the time when 1 minute and 2 seconds have passed. The lyric data on the second line represents the lyrics “I have come”, and the time section data “01: 03-01: 06” associated with the lyric data is the music in the model voice. This means that the lyrics “I have come” will be pronounced between the time when 1 minute 3 seconds have passed and the
マイク4は、入力される歌唱者の歌唱音声を音声信号に変換して出力する。マイク4から出力された音声信号は、音声処理用DSP(Digital Signal Processor)111とアンプ112とに入力される。音声処理用DSP111は、入力される音声信号をA/D変換し、歌唱音声を表す歌唱音声データを生成する。この歌唱音声データは、記憶部105に記憶され、手本音声データと比較されて歌唱者の歌唱力の採点に用いられる。
The microphone 4 converts the singing voice of the input singer into a voice signal and outputs it. The audio signal output from the microphone 4 is input to an audio processing DSP (Digital Signal Processor) 111 and an
入力部106は、カラオケ装置1にある操作パネルまたはリモコン装置5への入力操作により発せられる信号を検出し、この検出結果をCPU102へ出力する。表示制御部107は、CPU102の制御のもと映像や歌唱者の歌唱力の採点結果をモニタ2に表示する。
The
音源装置109は供給される楽音データに対応する楽音信号を生成し、生成した楽音信号をカラオケ演奏音として効果用DSP110へ出力する。効果用DSP110は、音源装置109で生成された楽音信号に対してリバーブやエコー等の効果を付与する。効果を付与された楽音信号は、効果用DSP110によってD/A変換されてアンプ112へ出力される。アンプ112は、効果用DSP110から出力された楽音信号と、マイク4から出力された音声信号とを合成・増幅し、スピーカ3L、3Rへ出力する。これにより、楽曲のメロディと歌唱者の音声とがスピーカ3L、3Rから出力される。
The
[実施形態の動作]
次に本実施形態の動作について説明する。まず、利用者がリモコン装置5を操作して楽曲を指定する操作を行うと、指定された楽曲の楽曲データがCPU102により記憶部105からRAM104の楽曲記憶領域へ転送される。CPU102は、この楽曲記憶領域に格納された楽曲データに含まれている各種データを順次読み出すことにより、カラオケ伴奏処理を実行する。
[Operation of the embodiment]
Next, the operation of this embodiment will be described. First, when the user operates the
具体的には、CPU102は、楽曲データに含まれている楽音データを読み出し、読み出した楽音データを音源装置109へ出力する。音源装置109は、供給される楽曲データに基づいて所定の音色の楽音信号を生成し、生成した楽音信号を効果用DSP110へ出力する。効果用DSP110においては、音源装置109から出力された楽音信号に対してリバーブやエコー等の効果が付与される。効果を付与された楽音信号は、効果用DSP110によってD/A変換されてアンプ112へ出力される。アンプ112は、効果用DSP110から出力された楽音信号を増幅してスピーカ3L、3Rへ出力する。これにより、楽曲のメロディがスピーカ3L、3Rから出力される。また、CPU102は、楽曲データを音源装置109へ供給して楽音の出力が開始されると、楽曲の出力が開始されてから経過した経過時間のカウントを開始する。
Specifically, the
一方、楽曲の再生に応じて、歌唱者が歌唱すると、歌唱者の音声がマイク4に入力され、マイク4から音声信号が出力される。音声処理用DSP111は、マイク4から出力された音声信号をA/D変換し、歌唱音声を表す歌唱音声データを生成する。この歌唱音声データは、記憶部105に記憶される。
On the other hand, when the singer sings according to the reproduction of the music, the singer's voice is input to the microphone 4 and an audio signal is output from the microphone 4. The
CPU102は、経過時間のカウントを続け、カウントした時間を時間区間の開始時間として含む時間区間を、歌詞テーブルにおいて検索する。そして、検索した時間区間と、検索した時間区間に対応付けて格納されている歌詞データを読み出す。例えば、カウントされた経過時間が01:00である場合、図4にした歌詞テーブルにおいては、1行目の時間区間「01:00−01:02」と歌詞データ「かめれおんが」が読み出される。
The
CPU102は、時間区間を読み出すと、この時間区間においてマイク4に入力された音声と、この時間区間におけるお手本の音声とを比較し、歌唱者が歌詞を正しく歌ったか否かを判断する。具体的には、CPU102は、手本音声データが表す音声を解析し、図5に示したように、手本音声データが表す音声波形の時間軸において、読み出した時間区間(01:00−01:02)の間にある音声波形Aを抽出する。また、CPU102は、記憶された歌唱音声データを解析し、図5に示したように、歌唱音声データが表す時間軸において、読み出した時間区間の間にある音声波形Bを抽出する。そして、抽出した音声波形Aを、図6(a)に示したように所定の時間間隔(例えば、10ms)で区切って複数のフレームに分割する。また、抽出した音声波形Bを、図6(b)に示したように所定の時間間隔(例えば、10ms)で区切って複数のフレームに分割する。
When the
次にCPU102は、手本音声の各フレームの音声波形と、歌唱音声の各フレームの音声波形との対応付けをDP(Dynamic Programming)マッチング法を用いて行う。例えば、図6に例示した波形において、手本音声のフレームA1の音声波形と、歌唱音声のフレームB1の音声波形とが対応している場合、フレームA1とフレームB1とが対応付けされる。また、手本音声のフレームA2の音声波形と、歌唱音声のフレームB2ないしフレームB3の音声波形とが対応している場合、フレームA2とフレームB2ないしフレームB3とが対応付けされる。
Next, the
次にCPU102は、対応するフレーム間で音声波形の特徴を比較する。具体的には、CPU102は、手本音声の各フレームの音声波形毎に音声波形をフーリエ変換する。そしてCPU102は、フーリエ変換により得られた振幅スペクトルの対数を求め、それをフーリエ逆変換してフレームごとのスペクトル包絡を生成する。そしてCPU102は、得られたスペクトル包絡から第1フォルマントの周波数f11および第2フォルマントの周波数f12、第3フォルマントの周波数f13を抽出する。
また、CPU102は、手本音声の各フレームに対応付けされた歌唱者の音声のフレームの音声波形毎に、音声波形をフーリエ変換する。そしてCPU102は、フーリエ変換により得られた振幅スペクトルの対数を求め、それをフーリエ逆変換してフレームごとのスペクトル包絡を生成する。そしてCPU102は、得られたスペクトル包絡から第1フォルマントの周波数f21および第2フォルマントの周波数f22、第3フォルマントの周波数23を抽出する。
Next, the
In addition, the
例えば、CPU102は、手本音声のフレームA1のスペクトル包絡を生成し、このスペクトル包絡から第1〜第3フォルマントのフォルマント周波数f11〜f13を抽出する。そして、CPU102は、フレームA1に対応付けされているフレームB1の音声波形のスペクトル包絡を生成し、このスペクトル包絡から第1〜第3フォルマントのフォルマント周波数f21〜f23を抽出する。
また、CPU102は、手本音声のフレームA2のスペクトル包絡を生成し、このスペクトル包絡から第1〜第3フォルマントのフォルマント周波数f11〜f13を抽出する。そして、CPU102は、フレームA2に対応付けされているフレームB2ないしフレームB3の音声波形のスペクトル包絡を生成し、このスペクトル包絡から第1〜第3フォルマントのフォルマント周波数f21〜f23を抽出する。
For example, the
Further, the
次にCPU102は、手本音声の各フレームから抽出したフォルマント周波数f11〜f13と、手本音声の各フレームに対応付けされたフレームから抽出したフォルマント周波数f21〜f23とを比較する。そして、CPU102は、対応する音声波形同士でフォルマント周波数f11とフォルマント周波数f21の差、フォルマント周波数f12とフォルマント周波数f22の差、フォルマント周波数f13とフォルマント周波数f23の差が、所定の値以上である場合には、フォルマント周波数が不一致であったことを示す不一致情報Dを手本音声のフレームに付加する。
例えば、CPU102は、フレームA1の音声波形のフォルマント周波数f11〜f13と、フレームB1の音声波形のフォルマント周波数とが一致している場合、対応するフレーム同士で音声が一致していると判断し、不一致情報DをフレームA1に付加しない。
一方、フレームA2のフォルマント周波数f11〜f13と、フレームB2ないしフレームB3の音声波形のフォルマント周波数f21〜f23とで、各周波数の差が所定値以上である場合には、フォルマント周波数が不一致であったことを示す不一致情報DをフレームA2に付加する。
Next, the
For example, if the formant frequencies f11 to f13 of the speech waveform of the frame A1 match the formant frequencies of the speech waveform of the frame B1, the
On the other hand, when the difference between the formant frequencies f11 to f13 of the frame A2 and the formant frequencies f21 to f23 of the speech waveforms of the frames B2 to B3 is equal to or greater than a predetermined value, the formant frequencies do not match. Is added to the frame A2.
CPU102は、手本音声の各フレームの音声波形について、歌唱者の音声波形のフォルマント周波数との一致/不一致を判断すると、不一致情報Dが付加されたフレームの数Nをカウントする。次にCPU102は、分割した手本音声データのフレームの総数Mと、数Nの値とを比較し、数Nの値がフレーム総数Mの半分の以上である場合には、読み出した歌詞データが表す歌詞について、歌唱者の発音した歌詞と手本音声の歌詞とが異なると判断し、数Nの値がフレーム総数Mの半分未満である場合には、読み出した歌詞データが表す歌詞について、歌唱者の発音した歌詞と手本音声の歌詞とが同じであると判断する。例えば、手本音声データが表す「かめれおんが」という音声について、不一致情報の数Nがフレーム総数Mの半分未満である場合には、CPU102は、歌唱者の発音した歌詞と、手本音声の歌詞とが同じであると判断する。
なお、本実施形態においては、数Nの値がフレーム総数Mの半分以上である場合には、読み出した歌詞データが表す歌詞について、歌唱者の発音した歌詞と手本音声の歌詞とが異なると判断しているが、フレーム総数Mに対する数Nの割合が5割以外の所定の割合以上である場合に読み出した歌詞データが表す歌詞について、歌唱者の発音した歌詞と手本音声の歌詞とが異なると判断するようにしてもよい。
When determining whether the voice waveform of each frame of the model voice matches or does not match the formant frequency of the singer's voice waveform, the
In the present embodiment, when the value of the number N is half or more of the total number M of frames, the lyrics expressed by the read lyrics data are different from the lyrics of the singer's pronunciation and the lyrics of the model voice. If the ratio of the number N with respect to the total number M of frames is equal to or greater than a predetermined ratio other than 50%, the lyrics expressed by the lyrics data read out are the lyrics of the singer and the lyrics of the model voice. You may make it judge that it is different.
CPU102は、手本音声と歌唱音声の比較に並行して経過時間のカウントを続け、カウントした経過時間が01:03になると、図4にした歌詞テーブルの2行目の時間区間「01:03−01:06」と歌詞データ「やってきたー」を読み出す。また、楽曲の再生に従って歌唱者がこの読み出した時間区間において歌唱を行うと、歌唱音声データが記憶部105に記憶される。ここで、例えば、歌唱者が歌詞を間違え、読み出された歌詞データ2が表す歌詞「やってきた」とは異なる「いってくる」という歌詞で歌唱者が歌唱を行うと、「いってくる」という音声を表す歌唱音声データが生成されて記憶部105に記憶される。
The
次にCPU102は、この時間区間においてマイク4に入力された音声の波形と、この時間区間におけるお手本の音声の波形とを複数のフレームに分割する。そして、手本音声の各フレームの音声波形と、歌唱音声の各フレームの音声波形との対応付けを行い、対応付けられたフレーム間で音声波形のフォルマント周波数の比較を行う。そして、CPU102は、手本音声の各フレームの音声波形について、歌唱者の音声波形のフォルマント周波数との一致/不一致を判断し、不一致情報Dを付加した後、分割した手本音声データのフレーム総数Mと、不一致情報が付加されたフレームの数Nの値とを比較し、歌唱者が歌詞を正しく歌ったか否かを判断する。
Next, the
ここで、歌唱者は「やってきた」という歌詞に対し、「いってくる」と異なる歌詞で歌唱したため、手本音声の音声波形のフォルマント周波数と、歌唱者の音声波形のフォルマント周波数とを比較すると、フォルマント周波数が一致せず、不一致情報の数Nがフレーム総数M以上となる。CPU102は、数Nの値がフレーム総数Mの半分以上である場合には、読み出した歌詞データが表す歌詞について、歌唱者の発音した歌詞と手本音声の歌詞とが異なると判断し、読み出した歌詞データが表す歌詞「やってきた」を、表示制御部107を制御してモニタ2に表示させ、歌詞を間違った旨を報知する。
Here, because the singer sang with the lyrics different from “I come” against the lyrics “I came”, comparing the formant frequency of the voice waveform of the model voice with the formant frequency of the voice waveform of the singer The formant frequencies do not match, and the number N of mismatch information is equal to or greater than the total number M of frames. When the value of the number N is more than half of the total number M of frames, the
以下、CPU102は楽曲の再生に伴って、上述したように、歌詞データおよび手本音声データの読み出し、歌唱者が歌唱した歌詞の正誤の判断を繰り返す。そして、全ての演奏イベントデータを読み出すとカラオケ伴奏処理を終了する。
Hereinafter, as described above, the
以上説明したように、本実施形態によれば、辞書を用いた音声認識を行わなくても、歌唱者が歌詞通りに歌唱したか否かを判断することができる。また、本実施形態では、歌詞どおりに正しく歌唱した音声のデータがあれば、歌詞通りに正しく歌唱したか否か評価することができるので、辞書を用いて言語認識を行う態様のようにシステムを複雑化させることなく、様々な言語の歌詞について、歌唱者が歌詞を正しく覚えているか否かを評価することができる。 As described above, according to the present embodiment, it is possible to determine whether or not the singer has sung according to the lyrics without performing voice recognition using a dictionary. In addition, in this embodiment, if there is data of voice sung correctly according to the lyrics, it is possible to evaluate whether or not the singing was correctly performed according to the lyrics, so the system is configured like a mode of performing language recognition using a dictionary. Without being complicated, it is possible to evaluate whether or not the singer remembers the lyrics correctly for lyrics in various languages.
[変形例]
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、例えば、上述の実施形態を以下のように変形して本発明を実施してもよい。
[Modification]
As mentioned above, although embodiment of this invention was described, this invention is not limited to embodiment mentioned above, For example, you may implement the present invention, changing the above-mentioned embodiment as follows.
上述した実施形態においては、歌唱音声データが表す音声波形のピッチが手本音声データが表す音声波形のピッチとなるように、歌唱音声データが表す音声のピッチを補正するようにしてもよい。 In the embodiment described above, the pitch of the voice represented by the singing voice data may be corrected so that the pitch of the voice waveform represented by the singing voice data becomes the pitch of the voice waveform represented by the model voice data.
また、上述した実施形態においては、手本音声データが表す音声波形のピッチの周期的な変動を検出して手本となる音声にビブラートがかかっているか否かを判断し、ビブラートがかかっていると判断した場合、手本音声データが表す音声波形のピッチ変動と歌唱音声データが表す音声波形のピッチ変動との一致度を判断し、歌唱者が正しくビブラートをかけて歌唱しているか否かを判断するようにしてもよい。
また、手本音声データが表す音声波形のピッチ変動を検出して手本となる音声にしゃくりがあるか否かを判断し、しゃくりがあると判断した場合、手本音声データが表す音声波形のピッチ変動と歌唱音声データが表す音声波形のピッチ変動との一致度を判断し、歌唱者が正しくしゃくりを行って歌唱しているか否かを判断するようにしてもよい。
In the embodiment described above, periodic fluctuations in the pitch of the voice waveform represented by the model voice data are detected to determine whether the model voice is vibrato, and the vibrato is applied. If it is determined, the degree of coincidence between the pitch fluctuation of the voice waveform represented by the model voice data and the pitch fluctuation of the voice waveform represented by the singing voice data is determined, and whether or not the singer is singing with vibrato correctly being sung. You may make it judge.
In addition, the pitch fluctuation of the voice waveform represented by the model voice data is detected to determine whether or not the voice serving as the model is screaming. The degree of coincidence between the pitch fluctuation and the pitch fluctuation of the voice waveform represented by the singing voice data may be determined, and it may be determined whether or not the singer sings correctly.
また、上述した実施形態においては、複数のバンドパスフィルタによって、手本音声データが表す音声波形と歌唱音声データが表す音声波形とを複数の周波数帯域に分割し、周波数帯域毎に音声の特徴量の一致度を判断して歌詞の正否を判断するようにしてもよい。 In the above-described embodiment, the voice waveform represented by the model voice data and the voice waveform represented by the singing voice data are divided into a plurality of frequency bands by a plurality of bandpass filters, and the feature amount of the voice for each frequency band. The correctness of the lyrics may be determined by determining the degree of coincidence.
また、上述した実施形態においては、お手本の音声波形を表す手本音声データを記憶し、この手本音声データが表す音声波形を解析してフォルマント周波数の解析を行っているが、音声波形を複数のフレームに分割したときのフレーム毎のフォルマント周波数を予め記憶部105に記憶し、この記憶したフォルマント周波数と、歌唱者の音声波形の各フレームのフォルマント周波数とを比較して一致度を判断するようにしてもよい。
In the above-described embodiment, model voice data representing a model voice waveform is stored, and the voice waveform represented by the model voice data is analyzed to analyze the formant frequency. The formant frequency for each frame when the frame is divided is stored in the
上述した実施形態においては、歌唱者が楽曲を歌い終えた後に歌唱者が歌唱した歌詞の正誤の判断を行うようにしてもよい。また、上述した実施形態においては、歌唱者の発音した歌詞と手本音声の歌詞とが異なると判断した場合、歌詞を表示するのではなく、歌詞を間違った旨を知らせるメッセージや画像をモニタ2に表示するようにしてもよい。 In the above-described embodiment, after the singer has finished singing the music, the correctness of the lyrics sung by the singer may be determined. Further, in the above-described embodiment, when it is determined that the lyrics of the singer's pronunciation and the lyrics of the model voice are different from each other, a message or an image notifying that the lyrics are wrong is displayed instead of displaying the lyrics. May be displayed.
1・・・カラオケ装置、2・・・モニタ、3L,3R・・・スピーカ、4・・・マイク、5・・・リモコン装置、101・・・バス、102・・・CPU、103・・・ROM、104・・・RAM、105・・・記憶部、106・・・入力部、107・・・表示制御部、108・・・通信部、109・・・音源装置、110・・・効果用DSP、111・・・音声処理用DSP、112・・・アンプ
DESCRIPTION OF
Claims (4)
歌唱者の歌唱音声が入力される音声入力手段と、
前記手本音声データが表す手本音声を複数の音声区間に分割し、前記音声入力手段に入力された歌唱音声において、前記分割された各音声区間に対応する音声区間を特定する特定手段と、
前記特定手段で特定された音声区間の歌唱音声と、該音声区間の歌唱音声に対応する手本音声とを比較して歌詞の正誤の評価を行う評価手段と、
前記評価手段の評価結果を表示する表示手段と
を有するカラオケ装置。 Storage means for storing example voice data representing a model voice when a song is sung according to lyrics;
Voice input means for inputting the singing voice of the singer;
A specifying unit that divides a sample voice represented by the sample voice data into a plurality of voice sections, and specifies a voice section corresponding to each divided voice section in the singing voice input to the voice input unit;
An evaluation means for evaluating the correctness of the lyrics by comparing the singing voice of the voice section specified by the specifying means and the model voice corresponding to the singing voice of the voice section;
A karaoke apparatus comprising: display means for displaying an evaluation result of the evaluation means.
を特徴とする請求項1に記載のカラオケ装置。 The evaluation means obtains the degree of coincidence between the singing voice of the voice section specified by the specifying means and the model voice corresponding to the singing voice of the voice section, and evaluates the correctness of the lyrics based on the obtained degree of coincidence. The karaoke apparatus according to claim 1, wherein:
前記評価手段が求めた前記一致度が所定値未満である場合、前記一致度が所定値未満となった音声区間の音声に対応した歌詞を前記記憶手段に記憶された歌詞データが表す歌詞の中から特定する歌詞特定手段を有し、
前記表示手段は、前記歌詞特定手段で特定された歌詞を表示すること
を特徴とする請求項2に記載のカラオケ装置。 The storage means stores lyric data representing the lyrics of the music,
If the degree of coincidence obtained by the evaluation means is less than a predetermined value, the lyrics corresponding to the speech of the voice section where the degree of coincidence is less than the predetermined value are included in the lyrics represented by the lyrics data stored in the storage means There is a lyrics identification means to identify from
The karaoke apparatus according to claim 2, wherein the display means displays the lyrics specified by the lyrics specifying means.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006022648A JP4862413B2 (en) | 2006-01-31 | 2006-01-31 | Karaoke equipment |
PCT/JP2007/051413 WO2007088820A1 (en) | 2006-01-31 | 2007-01-29 | Karaoke machine and sound processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006022648A JP4862413B2 (en) | 2006-01-31 | 2006-01-31 | Karaoke equipment |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007206183A JP2007206183A (en) | 2007-08-16 |
JP4862413B2 true JP4862413B2 (en) | 2012-01-25 |
Family
ID=38327393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006022648A Expired - Fee Related JP4862413B2 (en) | 2006-01-31 | 2006-01-31 | Karaoke equipment |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4862413B2 (en) |
WO (1) | WO2007088820A1 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6217304B2 (en) * | 2013-10-17 | 2017-10-25 | ヤマハ株式会社 | Singing evaluation device and program |
CN104978961B (en) * | 2015-05-25 | 2019-10-15 | 广州酷狗计算机科技有限公司 | A kind of audio-frequency processing method, device and terminal |
US20180158469A1 (en) * | 2015-05-25 | 2018-06-07 | Guangzhou Kugou Computer Technology Co., Ltd. | Audio processing method and apparatus, and terminal |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60262187A (en) * | 1984-06-08 | 1985-12-25 | 松下電器産業株式会社 | Scoring apparatus |
JP3754741B2 (en) * | 1996-03-07 | 2006-03-15 | 株式会社エクシング | Karaoke equipment |
JPH1195760A (en) * | 1997-09-16 | 1999-04-09 | Ricoh Co Ltd | Musical tone reproducing device |
JP3673405B2 (en) * | 1998-07-08 | 2005-07-20 | 株式会社リコー | Performance song playback device |
JP4205824B2 (en) * | 1999-10-21 | 2009-01-07 | ヤマハ株式会社 | Singing evaluation device and karaoke device |
JP5007401B2 (en) * | 2005-01-20 | 2012-08-22 | 株式会社国際電気通信基礎技術研究所 | Pronunciation rating device and program |
-
2006
- 2006-01-31 JP JP2006022648A patent/JP4862413B2/en not_active Expired - Fee Related
-
2007
- 2007-01-29 WO PCT/JP2007/051413 patent/WO2007088820A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2007088820A1 (en) | 2007-08-09 |
JP2007206183A (en) | 2007-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yamada et al. | A rhythm practice support system with annotation-free real-time onset detection | |
KR100949872B1 (en) | Song practice support device, control method for a song practice support device and computer readable medium storing a program for causing a computer to excute a control method for controlling a song practice support device | |
US7579541B2 (en) | Automatic page sequencing and other feedback action based on analysis of audio performance data | |
US5889224A (en) | Karaoke scoring apparatus analyzing singing voice relative to melody data | |
JP2008026622A (en) | Evaluation apparatus | |
JP2007310204A (en) | Musical piece practice support device, control method, and program | |
JP2006276693A (en) | Singing evaluation display apparatus and program | |
JP4479701B2 (en) | Music practice support device, dynamic time alignment module and program | |
US20230186782A1 (en) | Electronic device, method and computer program | |
JP4862413B2 (en) | Karaoke equipment | |
JP2007233077A (en) | Evaluation device, control method, and program | |
JP2009169103A (en) | Practice support device | |
JP4839967B2 (en) | Instruction device and program | |
JP3362491B2 (en) | Voice utterance device | |
JP4900017B2 (en) | Vibrato detection device, vibrato evaluation device, vibrato detection method, vibrato evaluation method and program | |
JP2008040260A (en) | Musical piece practice assisting device, dynamic time warping module, and program | |
CN113823270B (en) | Determination method, medium, device and computing equipment of rhythm score | |
JP2008015388A (en) | Singing skill evaluation method and karaoke machine | |
JP4048249B2 (en) | Karaoke equipment | |
JP2008040258A (en) | Musical piece practice assisting device, dynamic time warping module, and program | |
JP5092311B2 (en) | Voice evaluation device | |
JP6788560B2 (en) | Singing evaluation device, singing evaluation program, singing evaluation method and karaoke device | |
JP5034642B2 (en) | Karaoke equipment | |
JP2007225916A (en) | Authoring apparatus, authoring method and program | |
JP6365483B2 (en) | Karaoke device, karaoke system, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110705 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110829 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111011 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111024 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141118 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4862413 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |