JP4862413B2 - Karaoke equipment - Google Patents

Karaoke equipment Download PDF

Info

Publication number
JP4862413B2
JP4862413B2 JP2006022648A JP2006022648A JP4862413B2 JP 4862413 B2 JP4862413 B2 JP 4862413B2 JP 2006022648 A JP2006022648 A JP 2006022648A JP 2006022648 A JP2006022648 A JP 2006022648A JP 4862413 B2 JP4862413 B2 JP 4862413B2
Authority
JP
Japan
Prior art keywords
voice
lyrics
data
singing
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006022648A
Other languages
Japanese (ja)
Other versions
JP2007206183A (en
Inventor
あかね 野口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2006022648A priority Critical patent/JP4862413B2/en
Priority to PCT/JP2007/051413 priority patent/WO2007088820A1/en
Publication of JP2007206183A publication Critical patent/JP2007206183A/en
Application granted granted Critical
Publication of JP4862413B2 publication Critical patent/JP4862413B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/363Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems using optical disks, e.g. CD, CD-ROM, to store accompaniment information in digital form
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/366Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems with means for modifying or correcting the external signal, e.g. pitch correction, reverberation, changing a singer's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/046Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/091Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for performance evaluation, i.e. judging, grading or scoring the musical qualities or faithfulness of a performance, e.g. with respect to pitch, tempo or other timings of a reference performance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

本発明は、歌唱者の歌唱力を採点する技術に関する。   The present invention relates to a technique for scoring a singer's singing ability.

楽曲データに基づいて自動演奏を行うカラオケ装置の中には、マイクに入力された歌唱者の音声を解析し、歌唱者の歌唱力を採点するものがある。例えば、特許文献1に開示されたカラオケ装置は、マイクに入力された歌唱者の音声の文言を認識し、楽曲の歌詞の文言とどの程度一致しているかを評価する。このカラオケ装置によれば、歌唱者が歌詞を正しく覚えているか否かを評価することができる。
特開平10−91172号公報
Some karaoke apparatuses that perform automatically based on music data analyze a singer's voice input to a microphone and score the singer's singing ability. For example, the karaoke apparatus disclosed in Patent Document 1 recognizes the words of the singer's voice input to the microphone and evaluates how much the words match the words of the lyrics of the music. According to this karaoke apparatus, it is possible to evaluate whether or not the singer correctly remembers the lyrics.
JP-A-10-91172

ところで、特許文献1に開示されているカラオケ装置のように音声の文言を認識するためには、音声認識を行う必要がある。音声認識を行う場合、入力された音声を分析し、音声の音響特徴を抽出する。そして、辞書に記憶されている言葉の中から、言葉の音響特徴が入力音声の音響特徴に最も近い言葉を探して音声認識結果として出力する。ここで、言葉を正しく認識するには、辞書に記憶されている言葉が重要となり、正確に言葉を認識するには多くの言葉を辞書に記憶させておく必要がある。しかしながら、多くの言葉を辞書に記憶させると、多くの言葉の中から最も近い言葉を探し出すのに時間がかかることとなり、直ぐに評価結果を示すことができなくなる。また、カラオケで歌われる楽曲は、日本語だけでなく外国語の楽曲も多数ある。多数の言語について音声認識を行う場合には、言語毎に辞書を用意する必要があり、新たな言語の楽曲をカラオケ装置に追加する場合には、辞書も新たに用意しなければならず、システムが複雑化して簡単に楽曲を追加するのが難しくなるという問題が発生する。   By the way, in order to recognize the wording of a voice | voice like the karaoke apparatus currently disclosed by patent document 1, it is necessary to perform voice recognition. When performing speech recognition, the input speech is analyzed and the acoustic features of the speech are extracted. Then, from the words stored in the dictionary, the word whose acoustic feature is closest to the acoustic feature of the input speech is searched for and output as a speech recognition result. Here, in order to correctly recognize words, words stored in the dictionary are important, and in order to correctly recognize words, it is necessary to store many words in the dictionary. However, if many words are stored in the dictionary, it takes time to find the closest word from many words, and the evaluation result cannot be immediately displayed. There are many songs sung in karaoke that are not only in Japanese but also in foreign languages. When performing speech recognition for a large number of languages, it is necessary to prepare a dictionary for each language, and when adding songs in a new language to a karaoke device, a dictionary must also be newly prepared. The problem becomes that it becomes difficult to add music easily due to complexity.

本発明は、上述した背景の下になされたものであり、その目的は、システムを複雑化させることなく、歌唱者が歌詞を正しく覚えているか否かを評価できるようにすることにある。   The present invention has been made under the background described above, and its purpose is to enable a singer to evaluate whether or not he / she correctly remembers lyrics without complicating the system.

上述した課題を解決するために本発明は、楽曲を歌詞通りに歌唱したときの手本音声を表す手本音声データを記憶した記憶手段と、歌唱者の歌唱音声が入力される音声入力手段と、前記手本音声データが表す手本音声を複数の音声区間に分割し、前記音声入力手段に入力された歌唱音声において、前記分割された各音声区間に対応する音声区間を特定する特定手段と、前記特定手段で特定された音声区間の歌唱音声と、該音声区間の歌唱音声に対応する手本音声とを比較して歌詞の正誤の評価を行う評価手段と、前記評価手段の評価結果を表示する表示手段とを有するカラオケ装置を提供する。 In order to solve the above-described problems, the present invention includes a storage unit that stores model voice data representing a model voice when a song is sung according to lyrics, and a voice input unit that inputs a singing voice of a singer. Specifying means for dividing the model voice represented by the model voice data into a plurality of voice sections, and identifying voice sections corresponding to the divided voice sections in the singing voice input to the voice input means; The evaluation means for evaluating the correctness of the lyrics by comparing the singing voice of the voice section specified by the specifying means and the model voice corresponding to the singing voice of the voice section, and the evaluation result of the evaluation means A karaoke apparatus having display means for displaying is provided.

この態様においては、前記評価手段は、前記特定手段で特定された音声区間の歌唱音声と、該音声区間の歌唱音声に対応する手本音声との一致度を求め、求めた一致度により歌詞の正誤の評価を行うようにしてもよい。
また、前記記憶手段は、前記楽曲の歌詞を表す歌詞データを記憶し、前記評価手段が求
めた前記一致度が所定値未満である場合、前記一致度が所定値未満となった音声区間の音
声に対応した歌詞を前記記憶手段に記憶された歌詞データが表す歌詞の中から特定する歌
詞特定手段を有し、前記表示手段は、前記歌詞特定手段で特定された歌詞を表示するよう
にしてもよい。
また、前記評価手段は、前記歌唱音声のフォルマント周波数と前記手本音声のフォルマ
ント周波数の一致度を求めるようにしてもよい。
In this aspect, the evaluation means obtains the degree of coincidence between the singing voice of the voice section specified by the specifying means and the model voice corresponding to the singing voice of the voice section, and based on the obtained degree of coincidence , You may make it evaluate correctness .
In addition, the storage unit stores lyrics data representing the lyrics of the music, and when the degree of coincidence obtained by the evaluation unit is less than a predetermined value, the voice of the voice section in which the degree of coincidence is less than the predetermined value The lyrics specifying means for specifying the lyrics corresponding to the lyrics from the lyrics represented by the lyrics data stored in the storage means, and the display means displays the lyrics specified by the lyrics specifying means Good.
Further, the evaluation means may obtain a degree of coincidence between the formant frequency of the singing voice and the formant frequency of the model voice.

本発明によれば、システムを複雑化させることなく、歌唱者が歌詞を正しく覚えているか否かを評価することができる。   According to the present invention, it is possible to evaluate whether a singer correctly remembers lyrics without complicating the system.

[実施形態の構成]
図1は本発明の実施形態に係わるカラオケ装置の外観を示した図である。同図に示したように、カラオケ装置1にはモニタ2、スピーカ3L、スピーカ3R、そしてマイク4が接続されている。カラオケ装置1は、リモコン装置5から送信される赤外線信号により遠隔操作される。
[Configuration of the embodiment]
FIG. 1 is an external view of a karaoke apparatus according to an embodiment of the present invention. As shown in the figure, the karaoke apparatus 1 is connected with a monitor 2, a speaker 3L, a speaker 3R, and a microphone 4. Karaoke device 1 is remotely operated by an infrared signal transmitted from remote control device 5.

図2は、カラオケ装置1のハードウェア構成を示したブロック図である。バス101に接続されている各部は、このバス101を介して各部間で通信を行う。CPU(Central Processing Unit)102は、RAM(Random Access Memory)104をワークエリアとして利用し、ROM(Read Only Memory)103に格納されている各種プログラムを実行することでカラオケ装置1の各部を制御する。また、RAM104には楽曲データを一時記憶する楽曲記憶領域が確保される。記憶部105はハードディスク装置を具備しており、後述する楽曲データやマイク4より入力された歌唱音声のデジタルデータ等の各種データを記憶する。   FIG. 2 is a block diagram showing a hardware configuration of the karaoke apparatus 1. Each unit connected to the bus 101 communicates with each other via the bus 101. A CPU (Central Processing Unit) 102 uses a RAM (Random Access Memory) 104 as a work area and executes various programs stored in a ROM (Read Only Memory) 103 to control each unit of the karaoke apparatus 1. . The RAM 104 has a music storage area for temporarily storing music data. The storage unit 105 includes a hard disk device, and stores various data such as music data described later and digital data of singing voice input from the microphone 4.

通信部108は、楽曲データの配信元であるホストコンピュータ(図示略)から、例えばインターネットなどの通信ネットワーク(図示略)を介して楽曲データを受信し、受信した楽曲データをCPU102の制御のもと記憶部105へと転送する。なお、本実施形態においては、楽曲データは予め記憶部105に記憶されていてもよい。また、CD−ROMやDVD等の各種記録媒体を読み取る読み取り装置をカラオケ装置1に設け、各種記録媒体に記録された楽曲データを、この読み取り装置により読み取って記憶部105に転送して記憶させるようにしてもよい。
ここで、本実施形態において用いられる楽曲データの構造について説明する。本実施形態における楽曲データは、図3に示すように、ヘッダ、カラオケ演奏音の内容を表すWAVE形式のデータである楽音データ、楽曲の歌詞を間違えずに正しく歌ったときのお手本の音声の波形を表すWAVE形式の手本音声データ、および楽曲の歌詞を表す歌詞データを格納した歌詞テーブルとを有している。
The communication unit 108 receives music data from a host computer (not shown), which is a music data distribution source, via a communication network (not shown) such as the Internet, and the received music data is controlled by the CPU 102. Transfer to the storage unit 105. In the present embodiment, the music data may be stored in the storage unit 105 in advance. Further, the karaoke apparatus 1 is provided with a reading device that reads various recording media such as CD-ROM and DVD, and the music data recorded on the various recording media is read by the reading device and transferred to the storage unit 105 to be stored. It may be.
Here, the structure of music data used in the present embodiment will be described. As shown in FIG. 3, the music data in the present embodiment includes a header, musical sound data that is WAVE data representing the contents of the karaoke performance sound, and a waveform of a model voice when the lyrics of the music are correctly sung. Model audio data in the WAVE format, and a lyrics table storing lyrics data representing the lyrics of the music.

図4は、歌詞テーブルのフォーマットを例示した図である。歌詞テーブルにおいては、演奏される楽曲の歌詞を表す歌詞データと、楽音データに従って楽音が出力されたときに、この歌詞データが表す歌詞を発音すべき時間区間を示す時間区間データとが対応付けて格納される。
例えば、図4に示した歌詞テーブルにおいて、1行目の歌詞データは「かめれおんが」という歌詞を表しており、この歌詞データに対応付けられている時間区間データ「01:00−01:02」は、お手本の音声において、楽曲の演奏が開始されて1分経過した時点から1分2秒経過した時点までの間に、この歌詞「かめれおんが」が発音されることを示している。また、2行目の歌詞データは「やってきたー」という歌詞を表しており、この歌詞データに対応付けられている時間区間データ「01:03−01:06」は、お手本の音声において、楽曲の演奏が開始されて1分3秒経過した時点から1分6秒経過した時点までの間に、この歌詞「やってきたー」が発音されることを示している。
FIG. 4 is a diagram illustrating the format of the lyrics table. In the lyrics table, the lyrics data representing the lyrics of the music to be played is associated with the time interval data indicating the time interval in which the lyrics represented by the lyrics data should be pronounced when the musical sound is output according to the musical sound data. Stored.
For example, in the lyrics table shown in FIG. 4, the lyrics data on the first line represents the lyrics “Kamere-onga”, and the time interval data “01: 00-01: 02” associated with the lyrics data. "Indicates that the lyrics" Kamere-onga "is pronounced in the model voice from the time when 1 minute has passed since the start of the performance of the music to the time when 1 minute and 2 seconds have passed. The lyric data on the second line represents the lyrics “I have come”, and the time section data “01: 03-01: 06” associated with the lyric data is the music in the model voice. This means that the lyrics “I have come” will be pronounced between the time when 1 minute 3 seconds have passed and the time 1 minute 6 seconds have passed.

マイク4は、入力される歌唱者の歌唱音声を音声信号に変換して出力する。マイク4から出力された音声信号は、音声処理用DSP(Digital Signal Processor)111とアンプ112とに入力される。音声処理用DSP111は、入力される音声信号をA/D変換し、歌唱音声を表す歌唱音声データを生成する。この歌唱音声データは、記憶部105に記憶され、手本音声データと比較されて歌唱者の歌唱力の採点に用いられる。   The microphone 4 converts the singing voice of the input singer into a voice signal and outputs it. The audio signal output from the microphone 4 is input to an audio processing DSP (Digital Signal Processor) 111 and an amplifier 112. The voice processing DSP 111 performs A / D conversion on the input voice signal, and generates singing voice data representing the singing voice. This singing voice data is stored in the storage unit 105, compared with the model voice data, and used for scoring the singing ability of the singer.

入力部106は、カラオケ装置1にある操作パネルまたはリモコン装置5への入力操作により発せられる信号を検出し、この検出結果をCPU102へ出力する。表示制御部107は、CPU102の制御のもと映像や歌唱者の歌唱力の採点結果をモニタ2に表示する。   The input unit 106 detects a signal generated by an input operation to the operation panel or the remote control device 5 in the karaoke device 1 and outputs the detection result to the CPU 102. The display control unit 107 displays the video and the singer's singing score on the monitor 2 under the control of the CPU 102.

音源装置109は供給される楽音データに対応する楽音信号を生成し、生成した楽音信号をカラオケ演奏音として効果用DSP110へ出力する。効果用DSP110は、音源装置109で生成された楽音信号に対してリバーブやエコー等の効果を付与する。効果を付与された楽音信号は、効果用DSP110によってD/A変換されてアンプ112へ出力される。アンプ112は、効果用DSP110から出力された楽音信号と、マイク4から出力された音声信号とを合成・増幅し、スピーカ3L、3Rへ出力する。これにより、楽曲のメロディと歌唱者の音声とがスピーカ3L、3Rから出力される。   The tone generator 109 generates a tone signal corresponding to the supplied tone data, and outputs the generated tone signal to the effect DSP 110 as a karaoke performance sound. The effect DSP 110 gives effects such as reverberation and echo to the musical sound signal generated by the sound source device 109. The effected tone signal is D / A converted by the effect DSP 110 and output to the amplifier 112. The amplifier 112 synthesizes and amplifies the musical tone signal output from the effect DSP 110 and the audio signal output from the microphone 4 and outputs the resultant signal to the speakers 3L and 3R. Thereby, the melody of music and the voice of the singer are output from the speakers 3L and 3R.

[実施形態の動作]
次に本実施形態の動作について説明する。まず、利用者がリモコン装置5を操作して楽曲を指定する操作を行うと、指定された楽曲の楽曲データがCPU102により記憶部105からRAM104の楽曲記憶領域へ転送される。CPU102は、この楽曲記憶領域に格納された楽曲データに含まれている各種データを順次読み出すことにより、カラオケ伴奏処理を実行する。
[Operation of the embodiment]
Next, the operation of this embodiment will be described. First, when the user operates the remote controller 5 to designate a music piece, the music data of the designated music piece is transferred from the storage unit 105 to the music storage area of the RAM 104 by the CPU 102. The CPU 102 executes karaoke accompaniment processing by sequentially reading various data included in the music data stored in the music storage area.

具体的には、CPU102は、楽曲データに含まれている楽音データを読み出し、読み出した楽音データを音源装置109へ出力する。音源装置109は、供給される楽曲データに基づいて所定の音色の楽音信号を生成し、生成した楽音信号を効果用DSP110へ出力する。効果用DSP110においては、音源装置109から出力された楽音信号に対してリバーブやエコー等の効果が付与される。効果を付与された楽音信号は、効果用DSP110によってD/A変換されてアンプ112へ出力される。アンプ112は、効果用DSP110から出力された楽音信号を増幅してスピーカ3L、3Rへ出力する。これにより、楽曲のメロディがスピーカ3L、3Rから出力される。また、CPU102は、楽曲データを音源装置109へ供給して楽音の出力が開始されると、楽曲の出力が開始されてから経過した経過時間のカウントを開始する。   Specifically, the CPU 102 reads out musical tone data included in the music data and outputs the read musical tone data to the sound source device 109. The tone generator 109 generates a tone signal of a predetermined tone color based on the supplied music data, and outputs the generated tone signal to the effect DSP 110. In the effect DSP 110, effects such as reverb and echo are applied to the musical sound signal output from the sound source device 109. The effected tone signal is D / A converted by the effect DSP 110 and output to the amplifier 112. The amplifier 112 amplifies the musical tone signal output from the effect DSP 110 and outputs it to the speakers 3L and 3R. Thereby, the melody of a music is output from the speakers 3L and 3R. In addition, when the music data is supplied to the sound source device 109 and the output of the musical sound is started, the CPU 102 starts counting the elapsed time that has elapsed since the output of the music is started.

一方、楽曲の再生に応じて、歌唱者が歌唱すると、歌唱者の音声がマイク4に入力され、マイク4から音声信号が出力される。音声処理用DSP111は、マイク4から出力された音声信号をA/D変換し、歌唱音声を表す歌唱音声データを生成する。この歌唱音声データは、記憶部105に記憶される。   On the other hand, when the singer sings according to the reproduction of the music, the singer's voice is input to the microphone 4 and an audio signal is output from the microphone 4. The voice processing DSP 111 performs A / D conversion on the voice signal output from the microphone 4 and generates singing voice data representing the singing voice. This singing voice data is stored in the storage unit 105.

CPU102は、経過時間のカウントを続け、カウントした時間を時間区間の開始時間として含む時間区間を、歌詞テーブルにおいて検索する。そして、検索した時間区間と、検索した時間区間に対応付けて格納されている歌詞データを読み出す。例えば、カウントされた経過時間が01:00である場合、図4にした歌詞テーブルにおいては、1行目の時間区間「01:00−01:02」と歌詞データ「かめれおんが」が読み出される。   The CPU 102 continues counting the elapsed time, and searches the lyrics table for a time interval including the counted time as the start time of the time interval. Then, the retrieved time interval and the lyrics data stored in association with the retrieved time interval are read out. For example, if the counted elapsed time is 01:00, the time section “01: 00-01: 02” and the lyrics data “Kamere-onga” on the first line are read out in the lyrics table shown in FIG. .

CPU102は、時間区間を読み出すと、この時間区間においてマイク4に入力された音声と、この時間区間におけるお手本の音声とを比較し、歌唱者が歌詞を正しく歌ったか否かを判断する。具体的には、CPU102は、手本音声データが表す音声を解析し、図5に示したように、手本音声データが表す音声波形の時間軸において、読み出した時間区間(01:00−01:02)の間にある音声波形Aを抽出する。また、CPU102は、記憶された歌唱音声データを解析し、図5に示したように、歌唱音声データが表す時間軸において、読み出した時間区間の間にある音声波形Bを抽出する。そして、抽出した音声波形Aを、図6(a)に示したように所定の時間間隔(例えば、10ms)で区切って複数のフレームに分割する。また、抽出した音声波形Bを、図6(b)に示したように所定の時間間隔(例えば、10ms)で区切って複数のフレームに分割する。   When the CPU 102 reads out the time section, the CPU 102 compares the voice input to the microphone 4 in this time section with the model voice in this time section, and determines whether or not the singer sang the lyrics correctly. Specifically, the CPU 102 analyzes the voice represented by the model voice data and, as shown in FIG. 5, reads the time interval (01: 00-01) on the time axis of the voice waveform represented by the model voice data. : The speech waveform A between 02) is extracted. In addition, the CPU 102 analyzes the stored singing voice data, and extracts the voice waveform B between the read time sections on the time axis represented by the singing voice data, as shown in FIG. Then, as shown in FIG. 6A, the extracted speech waveform A is divided at a predetermined time interval (for example, 10 ms) and divided into a plurality of frames. Further, as shown in FIG. 6B, the extracted speech waveform B is divided at a predetermined time interval (for example, 10 ms) and divided into a plurality of frames.

次にCPU102は、手本音声の各フレームの音声波形と、歌唱音声の各フレームの音声波形との対応付けをDP(Dynamic Programming)マッチング法を用いて行う。例えば、図6に例示した波形において、手本音声のフレームA1の音声波形と、歌唱音声のフレームB1の音声波形とが対応している場合、フレームA1とフレームB1とが対応付けされる。また、手本音声のフレームA2の音声波形と、歌唱音声のフレームB2ないしフレームB3の音声波形とが対応している場合、フレームA2とフレームB2ないしフレームB3とが対応付けされる。   Next, the CPU 102 associates the speech waveform of each frame of the model speech with the speech waveform of each frame of the singing speech using a DP (Dynamic Programming) matching method. For example, in the waveform illustrated in FIG. 6, when the voice waveform of the frame A1 of the model voice corresponds to the voice waveform of the frame B1 of the singing voice, the frame A1 and the frame B1 are associated with each other. Further, when the voice waveform of the frame A2 of the model voice and the voice waveform of the frames B2 to B3 of the singing voice correspond to each other, the frame A2 and the frames B2 to B3 are associated with each other.

次にCPU102は、対応するフレーム間で音声波形の特徴を比較する。具体的には、CPU102は、手本音声の各フレームの音声波形毎に音声波形をフーリエ変換する。そしてCPU102は、フーリエ変換により得られた振幅スペクトルの対数を求め、それをフーリエ逆変換してフレームごとのスペクトル包絡を生成する。そしてCPU102は、得られたスペクトル包絡から第1フォルマントの周波数f11および第2フォルマントの周波数f12、第3フォルマントの周波数f13を抽出する。
また、CPU102は、手本音声の各フレームに対応付けされた歌唱者の音声のフレームの音声波形毎に、音声波形をフーリエ変換する。そしてCPU102は、フーリエ変換により得られた振幅スペクトルの対数を求め、それをフーリエ逆変換してフレームごとのスペクトル包絡を生成する。そしてCPU102は、得られたスペクトル包絡から第1フォルマントの周波数f21および第2フォルマントの周波数f22、第3フォルマントの周波数23を抽出する。
Next, the CPU 102 compares the characteristics of the speech waveform between corresponding frames. Specifically, the CPU 102 Fourier transforms the speech waveform for each speech waveform of each frame of the model speech. Then, the CPU 102 obtains the logarithm of the amplitude spectrum obtained by the Fourier transform, and inversely transforms it to generate a spectrum envelope for each frame. Then, the CPU 102 extracts the frequency f11 of the first formant, the frequency f12 of the second formant, and the frequency f13 of the third formant from the obtained spectrum envelope.
In addition, the CPU 102 performs a Fourier transform on the speech waveform for each speech waveform of the singer's speech frame associated with each frame of the model speech. Then, the CPU 102 obtains the logarithm of the amplitude spectrum obtained by the Fourier transform, and inversely transforms it to generate a spectrum envelope for each frame. Then, the CPU 102 extracts the frequency f21 of the first formant, the frequency f22 of the second formant, and the frequency 23 of the third formant from the obtained spectrum envelope.

例えば、CPU102は、手本音声のフレームA1のスペクトル包絡を生成し、このスペクトル包絡から第1〜第3フォルマントのフォルマント周波数f11〜f13を抽出する。そして、CPU102は、フレームA1に対応付けされているフレームB1の音声波形のスペクトル包絡を生成し、このスペクトル包絡から第1〜第3フォルマントのフォルマント周波数f21〜f23を抽出する。
また、CPU102は、手本音声のフレームA2のスペクトル包絡を生成し、このスペクトル包絡から第1〜第3フォルマントのフォルマント周波数f11〜f13を抽出する。そして、CPU102は、フレームA2に対応付けされているフレームB2ないしフレームB3の音声波形のスペクトル包絡を生成し、このスペクトル包絡から第1〜第3フォルマントのフォルマント周波数f21〜f23を抽出する。
For example, the CPU 102 generates a spectrum envelope of the frame A1 of the model voice, and extracts formant frequencies f11 to f13 of the first to third formants from the spectrum envelope. And CPU102 produces | generates the spectrum envelope of the audio | voice waveform of the flame | frame B1 matched with the flame | frame A1, and extracts the formant frequencies f21-f23 of the 1st-3rd formants from this spectrum envelope.
Further, the CPU 102 generates a spectrum envelope of the frame A2 of the sample voice, and extracts the first to third formant formant frequencies f11 to f13 from the spectrum envelope. Then, the CPU 102 generates a spectrum envelope of the speech waveforms of the frames B2 to B3 associated with the frame A2, and extracts the first to third formant formant frequencies f21 to f23 from the spectrum envelope.

次にCPU102は、手本音声の各フレームから抽出したフォルマント周波数f11〜f13と、手本音声の各フレームに対応付けされたフレームから抽出したフォルマント周波数f21〜f23とを比較する。そして、CPU102は、対応する音声波形同士でフォルマント周波数f11とフォルマント周波数f21の差、フォルマント周波数f12とフォルマント周波数f22の差、フォルマント周波数f13とフォルマント周波数f23の差が、所定の値以上である場合には、フォルマント周波数が不一致であったことを示す不一致情報Dを手本音声のフレームに付加する。
例えば、CPU102は、フレームA1の音声波形のフォルマント周波数f11〜f13と、フレームB1の音声波形のフォルマント周波数とが一致している場合、対応するフレーム同士で音声が一致していると判断し、不一致情報DをフレームA1に付加しない。
一方、フレームA2のフォルマント周波数f11〜f13と、フレームB2ないしフレームB3の音声波形のフォルマント周波数f21〜f23とで、各周波数の差が所定値以上である場合には、フォルマント周波数が不一致であったことを示す不一致情報DをフレームA2に付加する。
Next, the CPU 102 compares the formant frequencies f11 to f13 extracted from each frame of the model voice with the formant frequencies f21 to f23 extracted from the frame associated with each frame of the model voice. Then, the CPU 102 determines that the difference between the formant frequency f11 and the formant frequency f21, the difference between the formant frequency f12 and the formant frequency f22, and the difference between the formant frequency f13 and the formant frequency f23 are equal to or greater than a predetermined value. Adds mismatch information D indicating that the formant frequencies do not match to the frame of the model voice.
For example, if the formant frequencies f11 to f13 of the speech waveform of the frame A1 match the formant frequencies of the speech waveform of the frame B1, the CPU 102 determines that the speech is matched between the corresponding frames, and does not match. Information D is not added to the frame A1.
On the other hand, when the difference between the formant frequencies f11 to f13 of the frame A2 and the formant frequencies f21 to f23 of the speech waveforms of the frames B2 to B3 is equal to or greater than a predetermined value, the formant frequencies do not match. Is added to the frame A2.

CPU102は、手本音声の各フレームの音声波形について、歌唱者の音声波形のフォルマント周波数との一致/不一致を判断すると、不一致情報Dが付加されたフレームの数Nをカウントする。次にCPU102は、分割した手本音声データのフレームの総数Mと、数Nの値とを比較し、数Nの値がフレーム総数Mの半分の以上である場合には、読み出した歌詞データが表す歌詞について、歌唱者の発音した歌詞と手本音声の歌詞とが異なると判断し、数Nの値がフレーム総数Mの半分未満である場合には、読み出した歌詞データが表す歌詞について、歌唱者の発音した歌詞と手本音声の歌詞とが同じであると判断する。例えば、手本音声データが表す「かめれおんが」という音声について、不一致情報の数Nがフレーム総数Mの半分未満である場合には、CPU102は、歌唱者の発音した歌詞と、手本音声の歌詞とが同じであると判断する。
なお、本実施形態においては、数Nの値がフレーム総数Mの半分以上である場合には、読み出した歌詞データが表す歌詞について、歌唱者の発音した歌詞と手本音声の歌詞とが異なると判断しているが、フレーム総数Mに対する数Nの割合が5割以外の所定の割合以上である場合に読み出した歌詞データが表す歌詞について、歌唱者の発音した歌詞と手本音声の歌詞とが異なると判断するようにしてもよい。
When determining whether the voice waveform of each frame of the model voice matches or does not match the formant frequency of the singer's voice waveform, the CPU 102 counts the number N of frames to which the mismatch information D is added. Next, the CPU 102 compares the total number M of frames of the divided sample voice data with the value of the number N. If the value of the number N is more than half of the total number M of frames, the read lyrics data is When it is determined that the lyric of the singer is different from the lyric of the model voice and the value of the number N is less than half of the total number M of frames, the singing is performed on the lyrics represented by the read lyric data. It is determined that the lyrics that the person pronounces are the same as the lyrics of the model voice. For example, if the number N of mismatch information is less than half of the total number M of frames for the voice “Kamere-onga” represented by the model voice data, the CPU 102 determines the lyrics of the singer and the model voice. Judge that the lyrics are the same.
In the present embodiment, when the value of the number N is half or more of the total number M of frames, the lyrics expressed by the read lyrics data are different from the lyrics of the singer's pronunciation and the lyrics of the model voice. If the ratio of the number N with respect to the total number M of frames is equal to or greater than a predetermined ratio other than 50%, the lyrics expressed by the lyrics data read out are the lyrics of the singer and the lyrics of the model voice. You may make it judge that it is different.

CPU102は、手本音声と歌唱音声の比較に並行して経過時間のカウントを続け、カウントした経過時間が01:03になると、図4にした歌詞テーブルの2行目の時間区間「01:03−01:06」と歌詞データ「やってきたー」を読み出す。また、楽曲の再生に従って歌唱者がこの読み出した時間区間において歌唱を行うと、歌唱音声データが記憶部105に記憶される。ここで、例えば、歌唱者が歌詞を間違え、読み出された歌詞データ2が表す歌詞「やってきた」とは異なる「いってくる」という歌詞で歌唱者が歌唱を行うと、「いってくる」という音声を表す歌唱音声データが生成されて記憶部105に記憶される。   The CPU 102 continues to count the elapsed time in parallel with the comparison between the model voice and the singing voice. When the counted elapsed time reaches 01:03, the time interval “01:03” in the second row of the lyrics table shown in FIG. “-01: 06” and the lyrics data “I came over” are read out. Further, when the singer sings in the read time interval according to the reproduction of the music, the singing voice data is stored in the storage unit 105. Here, for example, when the singer sings with a lyric “I will come” different from the lyric “I came” expressed by the read lyric data 2 when the singer mistakes the lyric, “I will come” Is generated and stored in the storage unit 105.

次にCPU102は、この時間区間においてマイク4に入力された音声の波形と、この時間区間におけるお手本の音声の波形とを複数のフレームに分割する。そして、手本音声の各フレームの音声波形と、歌唱音声の各フレームの音声波形との対応付けを行い、対応付けられたフレーム間で音声波形のフォルマント周波数の比較を行う。そして、CPU102は、手本音声の各フレームの音声波形について、歌唱者の音声波形のフォルマント周波数との一致/不一致を判断し、不一致情報Dを付加した後、分割した手本音声データのフレーム総数Mと、不一致情報が付加されたフレームの数Nの値とを比較し、歌唱者が歌詞を正しく歌ったか否かを判断する。   Next, the CPU 102 divides the waveform of the sound input to the microphone 4 in this time interval and the waveform of the model sound in this time interval into a plurality of frames. Then, the speech waveform of each frame of the model speech is associated with the speech waveform of each frame of the singing speech, and the formant frequencies of the speech waveforms are compared between the associated frames. Then, the CPU 102 determines whether the voice waveform of each frame of the model voice matches or does not match the formant frequency of the singer's voice waveform, adds the mismatch information D, and then adds the total number of frames of the sample voice data divided. M is compared with the value of the number N of frames to which the mismatch information is added, and it is determined whether or not the singer sang the lyrics correctly.

ここで、歌唱者は「やってきた」という歌詞に対し、「いってくる」と異なる歌詞で歌唱したため、手本音声の音声波形のフォルマント周波数と、歌唱者の音声波形のフォルマント周波数とを比較すると、フォルマント周波数が一致せず、不一致情報の数Nがフレーム総数M以上となる。CPU102は、数Nの値がフレーム総数Mの半分以上である場合には、読み出した歌詞データが表す歌詞について、歌唱者の発音した歌詞と手本音声の歌詞とが異なると判断し、読み出した歌詞データが表す歌詞「やってきた」を、表示制御部107を制御してモニタ2に表示させ、歌詞を間違った旨を報知する。   Here, because the singer sang with the lyrics different from “I come” against the lyrics “I came”, comparing the formant frequency of the voice waveform of the model voice with the formant frequency of the voice waveform of the singer The formant frequencies do not match, and the number N of mismatch information is equal to or greater than the total number M of frames. When the value of the number N is more than half of the total number M of frames, the CPU 102 determines that the lyrics expressed by the read lyrics data are different from the lyrics of the singer's pronunciation and the lyrics of the model voice. The display unit 107 controls the display 2 to display the lyrics “I have come” represented by the lyrics data to notify that the lyrics are wrong.

以下、CPU102は楽曲の再生に伴って、上述したように、歌詞データおよび手本音声データの読み出し、歌唱者が歌唱した歌詞の正誤の判断を繰り返す。そして、全ての演奏イベントデータを読み出すとカラオケ伴奏処理を終了する。   Hereinafter, as described above, the CPU 102 repeats the reading of the lyrics data and the model voice data and the determination of the correctness of the lyrics sung by the singer along with the reproduction of the music. Then, when all performance event data is read, the karaoke accompaniment process is terminated.

以上説明したように、本実施形態によれば、辞書を用いた音声認識を行わなくても、歌唱者が歌詞通りに歌唱したか否かを判断することができる。また、本実施形態では、歌詞どおりに正しく歌唱した音声のデータがあれば、歌詞通りに正しく歌唱したか否か評価することができるので、辞書を用いて言語認識を行う態様のようにシステムを複雑化させることなく、様々な言語の歌詞について、歌唱者が歌詞を正しく覚えているか否かを評価することができる。   As described above, according to the present embodiment, it is possible to determine whether or not the singer has sung according to the lyrics without performing voice recognition using a dictionary. In addition, in this embodiment, if there is data of voice sung correctly according to the lyrics, it is possible to evaluate whether or not the singing was correctly performed according to the lyrics, so the system is configured like a mode of performing language recognition using a dictionary. Without being complicated, it is possible to evaluate whether or not the singer remembers the lyrics correctly for lyrics in various languages.

[変形例]
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、例えば、上述の実施形態を以下のように変形して本発明を実施してもよい。
[Modification]
As mentioned above, although embodiment of this invention was described, this invention is not limited to embodiment mentioned above, For example, you may implement the present invention, changing the above-mentioned embodiment as follows.

上述した実施形態においては、歌唱音声データが表す音声波形のピッチが手本音声データが表す音声波形のピッチとなるように、歌唱音声データが表す音声のピッチを補正するようにしてもよい。   In the embodiment described above, the pitch of the voice represented by the singing voice data may be corrected so that the pitch of the voice waveform represented by the singing voice data becomes the pitch of the voice waveform represented by the model voice data.

また、上述した実施形態においては、手本音声データが表す音声波形のピッチの周期的な変動を検出して手本となる音声にビブラートがかかっているか否かを判断し、ビブラートがかかっていると判断した場合、手本音声データが表す音声波形のピッチ変動と歌唱音声データが表す音声波形のピッチ変動との一致度を判断し、歌唱者が正しくビブラートをかけて歌唱しているか否かを判断するようにしてもよい。
また、手本音声データが表す音声波形のピッチ変動を検出して手本となる音声にしゃくりがあるか否かを判断し、しゃくりがあると判断した場合、手本音声データが表す音声波形のピッチ変動と歌唱音声データが表す音声波形のピッチ変動との一致度を判断し、歌唱者が正しくしゃくりを行って歌唱しているか否かを判断するようにしてもよい。
In the embodiment described above, periodic fluctuations in the pitch of the voice waveform represented by the model voice data are detected to determine whether the model voice is vibrato, and the vibrato is applied. If it is determined, the degree of coincidence between the pitch fluctuation of the voice waveform represented by the model voice data and the pitch fluctuation of the voice waveform represented by the singing voice data is determined, and whether or not the singer is singing with vibrato correctly being sung. You may make it judge.
In addition, the pitch fluctuation of the voice waveform represented by the model voice data is detected to determine whether or not the voice serving as the model is screaming. The degree of coincidence between the pitch fluctuation and the pitch fluctuation of the voice waveform represented by the singing voice data may be determined, and it may be determined whether or not the singer sings correctly.

また、上述した実施形態においては、複数のバンドパスフィルタによって、手本音声データが表す音声波形と歌唱音声データが表す音声波形とを複数の周波数帯域に分割し、周波数帯域毎に音声の特徴量の一致度を判断して歌詞の正否を判断するようにしてもよい。   In the above-described embodiment, the voice waveform represented by the model voice data and the voice waveform represented by the singing voice data are divided into a plurality of frequency bands by a plurality of bandpass filters, and the feature amount of the voice for each frequency band. The correctness of the lyrics may be determined by determining the degree of coincidence.

また、上述した実施形態においては、お手本の音声波形を表す手本音声データを記憶し、この手本音声データが表す音声波形を解析してフォルマント周波数の解析を行っているが、音声波形を複数のフレームに分割したときのフレーム毎のフォルマント周波数を予め記憶部105に記憶し、この記憶したフォルマント周波数と、歌唱者の音声波形の各フレームのフォルマント周波数とを比較して一致度を判断するようにしてもよい。   In the above-described embodiment, model voice data representing a model voice waveform is stored, and the voice waveform represented by the model voice data is analyzed to analyze the formant frequency. The formant frequency for each frame when the frame is divided is stored in the storage unit 105 in advance, and the degree of coincidence is determined by comparing the stored formant frequency with the formant frequency of each frame of the singer's speech waveform. It may be.

上述した実施形態においては、歌唱者が楽曲を歌い終えた後に歌唱者が歌唱した歌詞の正誤の判断を行うようにしてもよい。また、上述した実施形態においては、歌唱者の発音した歌詞と手本音声の歌詞とが異なると判断した場合、歌詞を表示するのではなく、歌詞を間違った旨を知らせるメッセージや画像をモニタ2に表示するようにしてもよい。   In the above-described embodiment, after the singer has finished singing the music, the correctness of the lyrics sung by the singer may be determined. Further, in the above-described embodiment, when it is determined that the lyrics of the singer's pronunciation and the lyrics of the model voice are different from each other, a message or an image notifying that the lyrics are wrong is displayed instead of displaying the lyrics. May be displayed.

本発明の実施形態に係るカラオケ装置の外観図である。1 is an external view of a karaoke apparatus according to an embodiment of the present invention. 同カラオケ装置のハードウェア構成を示したブロック図である。It is the block diagram which showed the hardware constitutions of the karaoke apparatus. 同実施形態における楽曲データのフォーマットを例示した図である。It is the figure which illustrated the format of the music data in the embodiment. 歌詞テーブルのフォーマットを例示した図である。It is the figure which illustrated the format of the lyrics table. 手本音声の波形と歌唱音声の波形とを例示した図である。It is the figure which illustrated the waveform of the model voice and the waveform of the singing voice. 手本音声の波形と歌唱音声の波形とを複数のフレームに分割した時の図である。It is a figure when the waveform of a model voice and the waveform of a singing voice are divided into a plurality of frames.

符号の説明Explanation of symbols

1・・・カラオケ装置、2・・・モニタ、3L,3R・・・スピーカ、4・・・マイク、5・・・リモコン装置、101・・・バス、102・・・CPU、103・・・ROM、104・・・RAM、105・・・記憶部、106・・・入力部、107・・・表示制御部、108・・・通信部、109・・・音源装置、110・・・効果用DSP、111・・・音声処理用DSP、112・・・アンプ DESCRIPTION OF SYMBOLS 1 ... Karaoke device, 2 ... Monitor, 3L, 3R ... Speaker, 4 ... Microphone, 5 ... Remote control device, 101 ... Bus, 102 ... CPU, 103 ... ROM, 104 ... RAM, 105 ... storage unit, 106 ... input unit, 107 ... display control unit, 108 ... communication unit, 109 ... sound source device, 110 ... for effect DSP, 111 ... DSP for voice processing, 112 ... amplifier

Claims (4)

楽曲を歌詞通りに歌唱したときの手本音声を表す手本音声データを記憶した記憶手段と、
歌唱者の歌唱音声が入力される音声入力手段と、
前記手本音声データが表す手本音声を複数の音声区間に分割し、前記音声入力手段に入力された歌唱音声において、前記分割された各音声区間に対応する音声区間を特定する特定手段と、
前記特定手段で特定された音声区間の歌唱音声と、該音声区間の歌唱音声に対応する手本音声とを比較して歌詞の正誤の評価を行う評価手段と、
前記評価手段の評価結果を表示する表示手段と
を有するカラオケ装置。
Storage means for storing example voice data representing a model voice when a song is sung according to lyrics;
Voice input means for inputting the singing voice of the singer;
A specifying unit that divides a sample voice represented by the sample voice data into a plurality of voice sections, and specifies a voice section corresponding to each divided voice section in the singing voice input to the voice input unit;
An evaluation means for evaluating the correctness of the lyrics by comparing the singing voice of the voice section specified by the specifying means and the model voice corresponding to the singing voice of the voice section;
A karaoke apparatus comprising: display means for displaying an evaluation result of the evaluation means.
前記評価手段は、前記特定手段で特定された音声区間の歌唱音声と、該音声区間の歌唱音声に対応する手本音声との一致度を求め、求めた一致度により歌詞の正誤の評価を行うこと
を特徴とする請求項1に記載のカラオケ装置。
The evaluation means obtains the degree of coincidence between the singing voice of the voice section specified by the specifying means and the model voice corresponding to the singing voice of the voice section, and evaluates the correctness of the lyrics based on the obtained degree of coincidence. The karaoke apparatus according to claim 1, wherein:
前記記憶手段は、前記楽曲の歌詞を表す歌詞データを記憶し、
前記評価手段が求めた前記一致度が所定値未満である場合、前記一致度が所定値未満となった音声区間の音声に対応した歌詞を前記記憶手段に記憶された歌詞データが表す歌詞の中から特定する歌詞特定手段を有し、
前記表示手段は、前記歌詞特定手段で特定された歌詞を表示すること
を特徴とする請求項2に記載のカラオケ装置。
The storage means stores lyric data representing the lyrics of the music,
If the degree of coincidence obtained by the evaluation means is less than a predetermined value, the lyrics corresponding to the speech of the voice section where the degree of coincidence is less than the predetermined value are included in the lyrics represented by the lyrics data stored in the storage means There is a lyrics identification means to identify from
The karaoke apparatus according to claim 2, wherein the display means displays the lyrics specified by the lyrics specifying means.
前記評価手段は、前記歌唱音声のフォルマント周波数と前記手本音声のフォルマント周波数の一致度を求めることを特徴とする請求項2に記載のカラオケ装置。   The karaoke apparatus according to claim 2, wherein the evaluation unit obtains a degree of coincidence between a formant frequency of the singing voice and a formant frequency of the model voice.
JP2006022648A 2006-01-31 2006-01-31 Karaoke equipment Expired - Fee Related JP4862413B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006022648A JP4862413B2 (en) 2006-01-31 2006-01-31 Karaoke equipment
PCT/JP2007/051413 WO2007088820A1 (en) 2006-01-31 2007-01-29 Karaoke machine and sound processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006022648A JP4862413B2 (en) 2006-01-31 2006-01-31 Karaoke equipment

Publications (2)

Publication Number Publication Date
JP2007206183A JP2007206183A (en) 2007-08-16
JP4862413B2 true JP4862413B2 (en) 2012-01-25

Family

ID=38327393

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006022648A Expired - Fee Related JP4862413B2 (en) 2006-01-31 2006-01-31 Karaoke equipment

Country Status (2)

Country Link
JP (1) JP4862413B2 (en)
WO (1) WO2007088820A1 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6217304B2 (en) * 2013-10-17 2017-10-25 ヤマハ株式会社 Singing evaluation device and program
CN104978961B (en) * 2015-05-25 2019-10-15 广州酷狗计算机科技有限公司 A kind of audio-frequency processing method, device and terminal
US20180158469A1 (en) * 2015-05-25 2018-06-07 Guangzhou Kugou Computer Technology Co., Ltd. Audio processing method and apparatus, and terminal

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60262187A (en) * 1984-06-08 1985-12-25 松下電器産業株式会社 Scoring apparatus
JP3754741B2 (en) * 1996-03-07 2006-03-15 株式会社エクシング Karaoke equipment
JPH1195760A (en) * 1997-09-16 1999-04-09 Ricoh Co Ltd Musical tone reproducing device
JP3673405B2 (en) * 1998-07-08 2005-07-20 株式会社リコー Performance song playback device
JP4205824B2 (en) * 1999-10-21 2009-01-07 ヤマハ株式会社 Singing evaluation device and karaoke device
JP5007401B2 (en) * 2005-01-20 2012-08-22 株式会社国際電気通信基礎技術研究所 Pronunciation rating device and program

Also Published As

Publication number Publication date
WO2007088820A1 (en) 2007-08-09
JP2007206183A (en) 2007-08-16

Similar Documents

Publication Publication Date Title
Yamada et al. A rhythm practice support system with annotation-free real-time onset detection
KR100949872B1 (en) Song practice support device, control method for a song practice support device and computer readable medium storing a program for causing a computer to excute a control method for controlling a song practice support device
US7579541B2 (en) Automatic page sequencing and other feedback action based on analysis of audio performance data
US5889224A (en) Karaoke scoring apparatus analyzing singing voice relative to melody data
JP2008026622A (en) Evaluation apparatus
JP2007310204A (en) Musical piece practice support device, control method, and program
JP2006276693A (en) Singing evaluation display apparatus and program
JP4479701B2 (en) Music practice support device, dynamic time alignment module and program
US20230186782A1 (en) Electronic device, method and computer program
JP4862413B2 (en) Karaoke equipment
JP2007233077A (en) Evaluation device, control method, and program
JP2009169103A (en) Practice support device
JP4839967B2 (en) Instruction device and program
JP3362491B2 (en) Voice utterance device
JP4900017B2 (en) Vibrato detection device, vibrato evaluation device, vibrato detection method, vibrato evaluation method and program
JP2008040260A (en) Musical piece practice assisting device, dynamic time warping module, and program
CN113823270B (en) Determination method, medium, device and computing equipment of rhythm score
JP2008015388A (en) Singing skill evaluation method and karaoke machine
JP4048249B2 (en) Karaoke equipment
JP2008040258A (en) Musical piece practice assisting device, dynamic time warping module, and program
JP5092311B2 (en) Voice evaluation device
JP6788560B2 (en) Singing evaluation device, singing evaluation program, singing evaluation method and karaoke device
JP5034642B2 (en) Karaoke equipment
JP2007225916A (en) Authoring apparatus, authoring method and program
JP6365483B2 (en) Karaoke device, karaoke system, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110829

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111011

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111024

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141118

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4862413

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees