JP2007233077A - Evaluation device, control method, and program - Google Patents
Evaluation device, control method, and program Download PDFInfo
- Publication number
- JP2007233077A JP2007233077A JP2006055328A JP2006055328A JP2007233077A JP 2007233077 A JP2007233077 A JP 2007233077A JP 2006055328 A JP2006055328 A JP 2006055328A JP 2006055328 A JP2006055328 A JP 2006055328A JP 2007233077 A JP2007233077 A JP 2007233077A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- data
- sound data
- phoneme
- represented
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
Description
本発明は、模範となる歌唱(又は演奏)と、練習者の歌唱(又は演奏)との発音タイミングのずれや発音の間違いを練習者に示す技術に関する。 The present invention relates to a technique for indicating to a practitioner a shift in pronunciation timing between a singing (or performance) as an example and a singing (or performance) of a practitioner and a pronunciation error.
カラオケ装置は、歌詞テロップを画面に表示するとともに、そのテロップを伴奏に合わせて順番に色変わりさせていく機能を備えている。カラオケ装置は、このような機能により、正しい歌詞を正しいタイミングで発音するように歌唱者に案内することができる。 The karaoke apparatus has a function of displaying lyrics telop on the screen and changing the color of the telop in order according to the accompaniment. With such a function, the karaoke apparatus can guide the singer to pronounce the correct lyrics at the correct timing.
ところが、歌唱者によっては、上記のような案内があるにも関わらず、伴奏よりも遅いタイミングで発音したり、逆に発音のタイミングが早すぎたり、或いは歌詞の内容そのものを間違ったりする場合がある。このような歌唱者に対しては発音タイミングや歌詞の間違いを速やかに指摘してあげることが望ましいが、これに有効な技術が特許文献1に開示されている。即ち、伴奏を表すMIDIデータに含まれるノートオンのタイミングと、歌唱者の音声がマイクに収音されたタイミングとを比較し、両者の時間的なずれを検出するというものである。
この特許文献1に記載された技術を応用すれば、発音タイミングのずれを歌唱者に指摘することが可能であると考えられる。ところが、この技術は、ノートオンのタイミングと収音タイミングとを単純に比較するだけであり、歌詞を構成する語(音)と歌唱者の音声とを照合するものではない。よって、当然のことながら歌唱した歌詞の間違いを指摘することは無理であるし、発音タイミングのずれを正確に捉えることもできないという問題がある。後者の問題が発生するのは、例えば発音タイミングそのものは伴奏に合っているものの、歌詞を構成するそれぞれの語を1テンポ早く発音したりとか、1テンポ遅く発音したような場合である。
By applying the technique described in
具体的には、図7(a)に例示するように、伴奏に従って「すぎさりしひびのゆめを・・・」の「り」という語を発音すべき期間内に、その「り」という語に続けて次の「し」という語を発音してしまい、さらに本来は「し」を発音すべきタイミングで次の「ひ」を発音してしまったような場合である。つまり、特許文献1に記載の技術では、どのような音であってもよいから、とにかく何らかの音が上記「し」の正しいタイミングで発音されている限り、これを正しい発音とみなしてしまうのである。この点に特許文献1の技術を適用した場合の限界がある。さらに、これらの問題は、歌唱を練習する場合に限らず、模範演奏を真似て楽器の演奏を練習する場合であっても同様に発生する。
Specifically, as illustrated in FIG. 7A, according to the accompaniment, the word “ri” is to be pronounced within the period in which the word “ri” of “the dream of the crack is ...” In this case, the next word “shi” is pronounced, and the next word “hi” is pronounced at the timing when “shi” should be pronounced. That is, in the technique described in
本発明は上述した背景に鑑みてなされたものであり、その目的は、練習者の歌唱や楽器の演奏に対し、その模範となる歌唱や演奏との発音タイミングのずれや発音の間違いをより正確に示すことにある。 The present invention has been made in view of the above-described background, and its purpose is to more accurately detect a deviation in pronunciation timing and a mistake in pronunciation with the exemplar singing or playing with respect to the singing or playing of the instrument of the practitioner. It is to show.
上記課題を解決するため、本発明は、発音タイミングが時系列に連なる複数の音素を表す第1の音データを、該各音素の発音タイミングと対応付けて記憶する第1の記憶手段と、音を収音する収音手段から供給される第2の音データを記憶する第2の記憶手段と、前記第1の音データと前記第2の音データとを所定時間長のフレーム単位で対応付け、対応付けたフレームを表す対応箇所データを生成する対応箇所検出手段と、前記第2の音データが表す音素の発音タイミングを、前記第1の音データが表わす音素の発音タイミングと前記対応箇所データとに基づいて特定し、該第1の音データが表わす音素の発音タイミングと該第2の音データが表わす音素の発音タイミングとの差分が閾値を超えるか否かを判断する比較手段と、前記比較手段によって前記差分が閾値を超えると判断された音素を特定する情報を出力する出力手段とを備えることを特徴とする評価装置を提供する。 In order to solve the above-mentioned problem, the present invention provides a first storage means for storing first sound data representing a plurality of phonemes whose sound generation timings are arranged in time series in association with the sound generation timings of the respective phonemes, The second storage means for storing the second sound data supplied from the sound collection means for collecting the sound, and the first sound data and the second sound data are associated with each other in a frame unit of a predetermined time length. Corresponding location detecting means for generating corresponding location data representing the associated frame, and the pronunciation timing of the phoneme represented by the second sound data, the pronunciation timing of the phoneme represented by the first sound data, and the corresponding location data Comparing means for determining whether or not a difference between a sound generation timing of a phoneme represented by the first sound data and a sound generation timing of a phoneme represented by the second sound data exceeds a threshold value, Comparison It provides an assessment device characterized by an output means for outputting information specifying the phoneme determining that the difference exceeds the threshold value by.
本発明によれば、第1の音データと第2の音データとを所定時間長のフレーム単位で対応付けることで、第1の音データが表す音素と第2の音データが表す音素とを正確に対応付けることができる。よって、発音タイミングのずれをより正確に示すことが可能となる。 According to the present invention, by associating the first sound data and the second sound data in units of frames having a predetermined time length, the phonemes represented by the first sound data and the phonemes represented by the second sound data can be accurately determined. Can be associated. Therefore, it is possible to more accurately indicate a difference in sound generation timing.
また、本発明は、発音タイミングが時系列に連なる複数の音素を表す音データを、該各音素の発音タイミングと対応付けて記憶する第1の記憶手段と、音を収音する収音手段から供給される第2の音データを記憶する第2の記憶手段と、前記第1の音データと前記第2の音データとを所定時間長のフレーム単位で対応付け、対応付けたフレームを表す対応箇所データを生成する対応箇所検出手段と、前記第1の音データが表す音素と前記第2の音データが表す音素とを前記対応箇所データによって表されるフレーム単位で比較し、該第1の音データが表わす音素と該第2の音データが表わす音素との差分が閾値を超えるか否かを判断する比較手段と、前記比較手段によって前記差分が閾値を超えると判断された音素を特定する情報を出力する出力手段とを備えることを特徴とする評価装置を提供する。 In addition, the present invention includes: first storage means for storing sound data representing a plurality of phonemes whose sound generation timings are arranged in time series in association with sound generation timings of the respective phonemes; and sound collection means for collecting sounds. A second storage means for storing the supplied second sound data, and the first sound data and the second sound data are associated with each other in a frame unit of a predetermined time length, and a correspondence representing the associated frame A corresponding location detecting means for generating location data, a phoneme represented by the first sound data and a phoneme represented by the second sound data are compared in units of frames represented by the corresponding location data, and the first A comparing means for determining whether or not a difference between a phoneme represented by the sound data and a phoneme represented by the second sound data exceeds a threshold; and a phoneme for which the difference is determined to exceed the threshold by the comparing means Output information Provides an assessment apparatus, characterized in that it comprises a power means.
本発明によれば、第1の音データと第2の音データとを所定時間長のフレーム単位で対応付けることで、第1の音データが表す音素と第2の音データが表す音素とを正確に対応付けることができる。よって、これらの音の違いをより正確に示すことが可能となる。 According to the present invention, by associating the first sound data and the second sound data in units of frames having a predetermined time length, the phonemes represented by the first sound data and the phonemes represented by the second sound data can be accurately determined. Can be associated. Therefore, it is possible to more accurately indicate the difference between these sounds.
また、本発明は、発音タイミングが時系列に連なる複数の音素を表す第1の音データを、該各音素の発音タイミングと対応付けて記憶する第1の記憶手段と、音を収音する収音手段から供給される第2の音データを記憶する第2の記憶手段と、制御手段とを備える評価装置の制御方法であって、前記制御手段が、前記第1の音データと前記第2の音データとを所定時間長のフレーム単位で対応付け、対応付けたフレームを表す対応箇所データを生成するステップと、前記制御手段が、前記第2の音データが表す音素の発音タイミングを、前記第1の音データが表わす音素の発音タイミングと前記対応箇所データとに基づいて特定し、該第1の音データが表わす音素の発音タイミングと該第2の音データが表わす音素の発音タイミングとの差分が閾値を超えるか否かを判断するステップと、前記制御手段が、前記差分が閾値を超えると判断された音を特定する情報を出力するステップとを備えることを特徴とする制御方法を提供する。 According to the present invention, there is provided a first storage means for storing first sound data representing a plurality of phonemes whose sound generation timings are arranged in time series in association with the sound generation timing of each phoneme, and a sound collecting device for collecting sounds. An evaluation apparatus control method comprising: a second storage unit that stores second sound data supplied from a sound unit; and a control unit, wherein the control unit includes the first sound data and the second sound data. The corresponding sound data in units of frames of a predetermined time length, generating corresponding location data representing the correlated frames, and the control means, the sound generation timing of the phoneme represented by the second sound data, The sound generation timing of the phoneme represented by the first sound data is specified based on the sounding timing of the phoneme represented by the first sound data and the corresponding portion data, and the sounding timing of the phoneme represented by the first sound data and the sounding timing of the phoneme represented by the second sound data Difference And determining whether more than a threshold value, said control means provides a control method characterized by comprising the step of outputting information specifying the sound the difference is determined to exceed the threshold value.
また、本発明は、発音タイミングが時系列に連なる複数の音素を表す第1の音データを、該各音素の発音タイミングと対応付けて記憶する第1の記憶手段と、音を収音する収音手段から供給される第2の音データを記憶する第2の記憶手段と、制御手段とを備える評価装置の制御方法であって、前記制御手段が、前記第1の音データと前記第2の音データとを所定時間長のフレーム単位で対応付け、対応付けたフレームを表す対応箇所データを生成するステップと、前記制御手段が、前記第1の音データが表す音素と前記第2の音データが表す音素とを前記対応箇所データによって表されるフレーム単位で比較し、該第1の音データが表わす音素と該第2の音データが表わす音素との差分が閾値を超えるか否かを判断するステップと、前記制御手段が、前記差分が閾値を超えると判断された音を特定する情報を報知するステップとを備えることを特徴とする制御方法を提供する。 According to the present invention, there is provided a first storage means for storing first sound data representing a plurality of phonemes whose sound generation timings are arranged in time series in association with the sound generation timing of each phoneme, and a sound collecting device for collecting sounds. An evaluation apparatus control method comprising: a second storage unit that stores second sound data supplied from a sound unit; and a control unit, wherein the control unit includes the first sound data and the second sound data. The corresponding sound data in units of frames of a predetermined time length, generating corresponding location data representing the correlated frames, and the control means comprising the phoneme represented by the first sound data and the second sound The phonemes represented by the data are compared in units of frames represented by the corresponding location data, and whether or not the difference between the phonemes represented by the first sound data and the phonemes represented by the second sound data exceeds a threshold value. A step of judging, and It means, provides a control method characterized by comprising the step of notifying the information specifying the sound the difference is determined to exceed the threshold value.
さらに、本発明は、コンピュータに対して機能を実現させるプログラムとしての形態も採り得る。なお、本発明において「発音」という用語には、人が歌唱するときに発せられる音声のほか、楽器を演奏することで発せられる演奏音も含むものとする。また、本発明において、各々の「音素」とは、ひとまとまりの音として意識されて発音されるものであり、発音タイミングや発音の間違いを指摘することに意味がある音であればよい。 Furthermore, the present invention may also take the form of a program that causes a computer to realize functions. Note that in the present invention, the term “pronunciation” includes not only a sound produced when a person sings but also a performance sound produced by playing an instrument. Further, in the present invention, each “phoneme” is consciously pronounced as a group of sounds, and may be any sound that is meaningful for pointing out a pronunciation timing or a mistake in pronunciation.
本発明によれば、練習者の歌唱や楽器の演奏に対し、その模範となる歌唱や演奏との発音タイミングのずれや発音の間違いをより正確に示すことができる。 ADVANTAGE OF THE INVENTION According to this invention, with respect to a practitioner's song and musical instrument performance, the difference in pronunciation timing and the mistake of pronunciation with the example song and performance can be shown more correctly.
次に、本発明を実施するための最良の形態を説明する。
1.構成
図1は、この発明の一実施形態に係る評価装置としてのカラオケ装置1のハードウェア構成を例示したブロック図である。CPU(Central Processing Unit)11は、ROM(Read Only Memory)12又は記憶部14に記憶されているコンピュータプログラムを読み出してRAM(Random Access Memory)13にロードし、これを実行することにより、カラオケ装置1の各部を制御する。記憶部14は、例えばハードディスクなどの大容量の記憶手段であり、伴奏データ記憶領域14aと、模範音声データ記憶領域14bと、歌詞データ記憶領域14cと、練習者音声データ記憶領域14dを有している。表示部15は、例えば液晶ディスプレイなどであり、CPU11の制御の下で、カラオケ装置1を操作するためのメニュー画面や、背景画像に歌詞テロップを重ねたカラオケ画面などの各種画面を表示する。操作部16は、各種のキーを備えており、押下されたキーに対応した信号をCPU11へ出力する。マイクロフォン17は、歌唱者が発音した音声を収音する収音手段である。音声処理部18は、マイクロフォン17によって収音された音声(アナログデータ)をデジタルデータに変換してCPU11に供給する。スピーカ19は、音声処理部18に接続されており、音声処理部18から出力される音声を放音する。
Next, the best mode for carrying out the present invention will be described.
1. Configuration FIG. 1 is a block diagram illustrating a hardware configuration of a
記憶部14の伴奏データ記憶領域14aには、例えばMIDI(Musical Instruments Digital Interface)形式などの伴奏データであって、各曲の伴奏を行う各種楽器の音程(ピッチ)を示す情報が楽曲の進行に伴って記された伴奏データが記憶されている。模範音声データ記憶領域14bには、例えばWAVE形式やMP3(MPEG Audio Layer-3)形式などの音声データであって、伴奏データによって表わされる伴奏に沿って歌唱者が発音した音声(以下、模範音声という)を表す音声データ(以下、模範音声データ)が記憶されている。また、歌詞データ記憶領域14cには、模範音声データと対応する歌詞を示す歌詞データが記憶されている。
In the accompaniment
ここで、図2は、模範音声データと歌詞データとの対応関係を説明する図である。図示のように、歌詞データは、歌詞を構成するそれぞれの語(音素)と、これらの音素を発音すべき時間を表す発音タイミングとを含んでいる。そして、模範音声データと、歌詞を構成するそれぞれの語(音素)と、これらの各音素の発音タイミングとが互いに対応付けられている。図2に示す例では、「すぎさりしひびのゆめを・・」の「す」は発音タイミングT1で発音を開始し、「ぎ」は発音タイミングT2で発音を開始し、「さ」は発音タイミングT3で発音を開始し・・・(以下同様)ということを示している。この発音タイミングは、伴奏データに基づく伴奏が開始された時点からの経過時間によって表されている。 Here, FIG. 2 is a diagram for explaining the correspondence between the model voice data and the lyrics data. As shown in the figure, the lyric data includes each word (phoneme) that constitutes the lyric, and a pronunciation timing that represents a time during which these phonemes should be pronounced. The model voice data, each word (phoneme) constituting the lyrics, and the pronunciation timing of each phoneme are associated with each other. In the example shown in FIG. 2, “Su” in “Sustained Dream of Dreams” starts sounding at the sounding timing T 1 , “Gi” starts sounding at the sounding timing T 2 , and “S” It indicates that ... starts the pronunciation sounding timing T 3 (the same applies hereinafter). This sounding timing is represented by an elapsed time from the start of the accompaniment based on the accompaniment data.
再び図1の説明に戻る。
練習者音声データ記憶領域14dには、マイクロフォン17から音声処理部18を経てA/D変換された音声データが、例えばWAVE形式やMP3(MPEG Audio Layer-3)形式で時系列に記憶される。この音声データは、練習者の音声(以下、練習者音声)を表す音声データであるから、以下では、練習者音声データという。CPU11は、この練習者音声データと前述した模範音声データとを比較することで、発音タイミングや発音内容の相違箇所を検出し、その相違箇所を表示部15に表示するなどして練習者に報知する。練習者は、その報知内容を参照することで、自身の発音タイミングがずれている箇所や発音が間違っている箇所を認識することができる。なお、以下の説明においては、説明の便宜上、「模範音声データ」と「練習者音声データ」とを各々区別する必要がない場合には、これらを「音声データ」と総称する。
Returning to the description of FIG.
In the practitioner audio
次に、図3に示すブロック図を参照しながら、カラオケ装置1のソフトウェア構成について説明する。図3に示した基礎分析部111、対応箇所検出部112、発音内容比較部113、発音タイミング比較部114及び報知部115は、CPU11がROM12又は記憶部14に記憶されたコンピュータプログラムを実行することによって実現される。なお、図中の矢印は、データの流れを概略的に示したものである。図3において、基礎分析部111は、模範音声データ記憶領域14bから読み出された模範音声データと、練習者音声データ記憶領域14dから読み出された練習者音声データとを、それぞれ所定時間長のフレーム単位に分離し、その各々に対してFFT(Fast Fourier Transform)を施して、それぞれの音声データのスペクトルを算出する。
Next, the software configuration of the
対応箇所検出部112は、基礎分析部111によって算出された各音声データのスペクトルに基づいて、模範音声データに含まれる音素(語)と練習者音声データに含まれる音素(語)との対応関係(対応箇所)を求める。これら練習者音声及び模範音声の対応箇所は、対応箇所検出部112から発音内容比較部113及び発音タイミング比較部114に供給される。発音内容比較部113は、互いに対応する模範音声の発音内容と練習者音声の発音内容とを比較し、両者の相違箇所を検出する処理を行う。発音タイミング比較部114は、互いに対応する模範音声の発音タイミングと練習者音声の発音タイミングとを比較して、両者の相違箇所を検出する処理を行う。報知部115は、発音内容比較部113及び発音タイミング比較部114によって検出された相違箇所を特定する情報や各種メッセージを生成し、これらを表示部15に表示するなどして、練習者に報知する。
Based on the spectrum of each speech data calculated by the
ところで、模範音声と練習者音声とは、前述の図7(a)に示したように、時間的にずれている可能性がある。そこで、対応箇所検出部112は、両者の音声データの時間軸を伸縮させて時間正規化(DTW;Dynamic Time Warping)を行う必要がある。本実施形態ではこのDTWを行うための手法としてDP(Dynamic Programming:動的計画法)マッチングを用いる。具体的には以下のような処理となる。
By the way, the model voice and the practice person voice may be shifted in time as shown in FIG. Therefore, the corresponding
対応箇所検出部112は、図4に示すような座標平面(以下、DPプレーンという)をRAM13に形成する。このDPプレーンの縦軸は、模範音声データの各フレームのスペクトルの絶対値の対数に逆フーリエ変換をかけて得られるパラメータに対応しており、横軸は、練習者音声データの各フレームから得たスペクトルの絶対値の対数に逆フーリエ変換をかけて得られるパラメータ(ケプストラム)に対応している。図4において、a1、a2、a3・・・anは、模範音声データの各フレームを時間軸に従って並べたものであり、b1、b2、b3・・・bnは、練習者音声データの各フレームを時間軸に従って並べたものである。縦軸のa1、a2、a3・・・anの間隔と横軸のb1、b2、b3・・・bnの間隔は、いずれもフレームの時間長と対応している。このDPプレーンにおける各格子点の各々には、a1、a2、a3・・・の各パラメータと、b1、b2、b3・・・の各パラメータのユークリッド距離を夫々示す値であるDPマッチングスコアが対応付けられている。例えば、a1とb1とにより位置決めされる格子点には、模範音声データの一連のフレームのうち最初のフレームから得たパラメータと練習者音声データの一連のフレームのうち最初のフレームから得たパラメータのユークリッド距離を示す値が対応付けられることになる。対応箇所検出部112は、このような構造を成すDPプレーンを形成した後、a1とb1とにより位置決めされる格子点(始端)からanとbnとにより位置決めされる格子点(終端)に至る全経路を探索し、探索した各経路毎に、その始端から終端までの間に辿る各格子点のDPマッチングスコアを累算して行き、最小の累算値を求める。このDPマッチングスコアの累算値が最も小さくなる経路は、練習者音声データの各フレームの時間軸を模範音声データの時間軸に合わせて伸縮する際における伸縮の尺度として参酌される。
The corresponding
そして、対応箇所検出部112は、DPマッチングスコアの累算値が最小となる経路をDPプレーン上から特定し、特定した経路の内容に応じて練習者音声データの時間軸を伸縮する処理であるアライメント処理を行う。具体的には、DPプレーン上から特定された経路上の各格子点のDPマッチングスコアが時間軸上の位置を同じくするフレームから得たパラメータのユークリッド距離を表わすものとなるように、練習者音声データの各フレームのタイムスタンプの内容を書き換えた上で、時間軸上の位置を同じくする各フレームを組として順次対応付けていく。例えば、図4に示すDPプレーン上に記された経路においては、a1とb1により位置決めされる始点からその右上のa2とb2により位置決めされる格子点に進んでいることが分かる。この場合、a2とb2のフレームの時間軸上の位置は当初から同じであるので、b2のフレームのタイムスタンプの内容を書き換える必要はない。更に、この経路においては、a2とb2により位置決めされる格子点からその右のa2とb3により位置決めされる格子点に進んでいることが分かる。この場合、b2のフレームだけでなくb3のフレームもa2のフレームと時間軸上の位置を同じくする必要があるので、b3のフレームと対を成していたタイムスタンプをフレーム一つ分だけ早いものと置き換える。この結果、a2のフレームとb2及びb3のフレームが時間軸上の位置を同じくするフレームの組として対応付けられることになる。このようなタイムスタンプの置き換えとフレームの対応付けがb1からbnに至る全フレーム区間について行われる。これにより、例えば図5(a)に示すように、練習者音声の発音タイミングが模範音声の発音タイミングよりも遅れていたとしても、図5(b)に示すように、一方の音データの時間軸を他方の音データの時間軸に合わせて伸縮し、その伸縮によって合わせられた時間軸上の位置を同じくするフレーム(音素)どうしを対応付けることができる。
以上がDPマッチングの仕組みである。
And the corresponding
The above is the mechanism of DP matching.
2.動作
次に、図6に示すフローチャートを参照しつつ、カラオケ装置1の動作を説明する。
練習者は、カラオケ装置1の操作部16を操作して歌唱したい曲を選定し、伴奏データの再生を指示する。CPU11は、この指示に応じて図6に示す処理を開始する。CPU11は、まず、指定された曲の伴奏データを伴奏データ記憶領域14aから読み出し、音声処理部18に供給する(ステップS1)。音声処理部18は、供給された伴奏データをアナログ音声信号に変換してスピーカ19に供給して放音させる。このとき、CPU11は表示部15を制御して、歌詞データ記憶領域14cから読み出した歌詞を表示するとともに、「伴奏に合わせて歌唱してください」というような歌唱を促すメッセージを表示し、さらに、その歌詞を伴奏の進行に合わせて順番に色変わりさせるようにしてもよい。練習者は、スピーカ19から放音される伴奏に合わせて歌唱を行う。このとき、練習者の音声はマイクロフォン17によって収音されて音声信号に変換され、音声処理部18へと供給される。そして、音声処理部18によってA/D変換された練習者音声データは、演奏開始から発音タイミングまでの経過時間を表す情報と共に、記憶部14の練習者音声データ記憶領域14dに時系列に記憶されていく(ステップS2)。
2. Operation Next, the operation of the
The practitioner operates the
伴奏データの再生が終了すると(ステップS3;YES)、CPU11は、前述した基礎分析部111の処理、即ち模範音声データ記憶領域14bから読み出した模範音声データと、練習者音声データ記憶領域14dから読み出した練習者音声データとを、それぞれ所定時間長のフレーム単位に分離し、その各々に対してFFTを施して各音声データのスペクトルを算出する(ステップS4)。次に、CPU11は、前述した対応箇所検出部112の処理、つまりDPマッチングによって両者の音声データの時間軸を合わせ、合わせられた時間軸上の位置を同じくするフレームどうしを対応付け、対応付けたフレームを表す対応箇所データを生成する(ステップS5)。
When the reproduction of the accompaniment data is completed (step S3; YES), the
続けて、CPU11は、前述した発音タイミング比較部114の処理、つまり、互いに対応する模範音声の発音タイミングと練習者音声の発音タイミングとを比較し、発音タイミングが相違する箇所を検出する処理を行う(ステップS6)。具体的には、CPU11は、練習者音声データと、ステップS5の処理によって得られた対応箇所データとに基づいて、練習者音声の発音タイミングを特定する。そのため、CPU11はまず、図5(b)に示すように同一の時間軸における模範音声と練習者音声の対応関係を参照して両者の対応箇所を特定する。両者の対応関係が特定されると、CPU11は、図5(a)に示すような練習者音声の時間軸上において、ある音素(例えば「す」)とその次に発音された音素(例えば「ぎ」)との境界(切れ目)を特定することができる。練習者音声データは、前述したように、演奏開始から発音タイミングまでの経過時間を表す情報と共に記憶されているから、CPU11は、音と音の境界に相当する経過時間を特定することができる。この経過時間が、練習者音声に含まれる各音の発音タイミングとなる。
Subsequently, the
次に、CPU11は、その練習者音声に対応付けられた模範音声データの音の発音タイミングを歌詞データ記憶領域14cから読み出す。次いで、CPU11は、練習者音声の発音タイミングと、その練習者音声に対応する模範音声の発音タイミングとの差分を算出する。そして、CPU11は、その差分が予め決められた閾値を超えるか否かを判断する。このときの閾値は、発音のタイミングがずれていると判断される最小の時間間隔であり、記憶部14に予め記憶されている。この差分が閾値を超えると判断された箇所の音声(音素)が、模範音声の発音タイミングと練習者音声の発音タイミングとの相違箇所となる。
Next, the
次に、CPU11は、前述した発音内容比較部113の処理、つまり、互いに対応する模範音声と練習者音声とを比較し、これら音声そのものの相違箇所を検出する処理を行う(ステップS7)。具体的にはまず、CPU11は、練習者音声データが表す音声と、その音声に対応付けられた模範音声データが表す音声とを比較し、両者のスペクトルの差分を算出する。異なる人が同じ語を発音した場合、多少の個人差はあるものの、その音声波形はおおよそ類似したものとなる。よって、スペクトルが類似しているか否かによって、模範音声と練習者音声とが相違しているか否かを判断することができる。更に正確な方法としては、ステップS4で求めた音声データのスペクトルに対してフォルマント分析を行うことによって、模範音声と練習者音声の相違箇所を検出する方法がある。このフォルマントとは、特定周波数に偏ったスペクトルの山の部分のことであり、例え声質が異なっていても、同じ語を発音するとその語(音声)に固有のフォルマントが出現する。よって、このフォルマントの出現状態を解析すれば発音の内容を識別することができる。CPU11は、このように模範音声と練習者音声との間で、そのスペクトルやフォルマントの差分をとり、その差分が閾値を超える場合には、模範音声の発音内容と練習者音声の発音内容の相違箇所と判断する。なお、このとき用いる閾値としては、人が同じ語を発音したものと認められる程度の差分の上限値を予め決めておき、これを閾値として記憶部14に記憶させておけばよい。
Next, the
次に、CPU11は、ステップS6,S7における比較によって相違箇所が検出されたか否かを判断する(ステップS8)。相違箇所が検出されない場合には(ステップS8;NO)、CPU11は、「あなたはうまく歌えています」などといったメッセージを表示部15に表示して処理を終了する。一方、相違箇所が検出された場合には(ステップS8;YES)、CPU11は、その相違箇所に相当する練習者音声(音素)又は模範音声(音素)を特定する情報を生成し、それを表示部15によって表示させるなどの報知処理を行う(ステップS9)。具体的には、CPU11は、検出した相違箇所に対応する歌詞にアンダーラインを施して表示したり、その歌詞(文字)の色や太さをその他の文字の表示態様と異ならせて表示する。また、CPU11は、発音タイミングがどのようにずれているとか、発音がどのように間違っているかといったメッセージを併せて表示する。
Next, the
ここで、ステップS6,S7の処理によって検出される相違箇所には、図7の(a)〜(c)に示すような3つの態様がある。
まず1つ目の態様は、図7の(a)に示すように、「すぎさりしひびのゆめを・・・」という歌詞のうち「しひびのゆめ」という一連の歌詞が、模範音声よりも早いタイミングで発音されている場合である。CPU11は、このように練習者音声の発音タイミングが所定数以上(ここでは2つの語以上)連続して模範音声の発音タイミングよりもずれている場合には、練習者の歌唱は「歌詞ずれ」であると判断する。この場合、CPU11は、図8(a)に示すように、「すぎさりしひびのゆめを・・・」という歌詞のうち「しひびのゆめ」にアンダーラインを施して表示するとともに、模範音声ないし伴奏よりも早いタイミングで発音される歌詞ずれが発生していることを練習者に報知するためのメッセージを表示する。
Here, there are three aspects as shown in (a) to (c) of FIG.
First, as shown in FIG. 7 (a), a series of lyrics “Shibino Yume” out of the lyrics “Yume of Susashiri Hibiki ...” is from the model voice. This is the case when it is pronounced at an early timing. In this way, when the pronunciation timing of the practitioner's voice is more than a predetermined number (here, two words or more) continuously deviating from the pronunciation timing of the model voice, the practitioner's singing is “lyric deviation”. It is judged that. In this case, as shown in FIG. 8 (a), the
次に、2つ目の態様は、図7の(b)に示すように、「すぎさりしひびのゆめを・・・」という練習者音声のうち「の」だけが模範音声よりも早いタイミングで発音されている場合である。CPU11は、このように練習者音声の発音タイミングが所定数未満(ここでは2つの語未満)の模範音声の発音タイミングよりもずれている場合には、練習者の歌唱が「タイミングずれ」であると判断する。この場合、CPU11は、図8(b)に示すように、「すぎさりしひびのゆめを・・・」という歌詞のうち「の」だけにアンダーラインを施して表示するとともに、模範音声ないし伴奏よりも早いタイミングで発音されていることを練習者に報知するためのメッセージを表示する。
このように、CPU11は、発音タイミングがずれている場合には、そのずれている音素(語)が所定数以上連続するか否かを判断し、所定数以上連続すると判断した場合と所定数以上連続しないと判断された場合とで、それぞれ異なるメッセージを表示部15に表示する。
Next, as shown in FIG. 7 (b), the second mode is a timing in which only “no” of the practitioner's voice “is a dream of the crack” is earlier than the model voice. Is pronounced in When the sound generation timing of the practitioner voice is deviated from the sound generation timing of the model voice of less than a predetermined number (here, less than two words) in this way, the practitioner's singing is “timing misalignment”. Judge. In this case, as shown in FIG. 8 (b), the
As described above, when the sound generation timing is deviated, the
そして、3つ目の態様は、図7の(c)に示すように、「すぎさりしひびのゆめを・・・」の「すぎさりし」という歌詞が「すぎさった」というように間違えて歌唱された場合である。CPU11は、このように発音内容が異なっている場合には、練習者の歌唱が「歌詞の間違い」であると判断する。この場合、CPU11は、図8(c)に示すように、「すぎさりしひびのゆめを・・・」という正しい歌詞と、「すぎさったひびのゆめを・・・」という練習者の間違った発音とを並列に表示し、さらに、練習者の間違った発音「った」にアンダーラインを施して表示するとともに、歌詞に間違いがあることを練習者に報知するためのメッセージを表示部15に表示する。
And, as shown in FIG. 7 (c), the third mode is mistaken as the lyrics “Sugisarisashi” in “A dream of a crack is too much”. This is the case when singing. When the pronunciation content is different as described above, the
ところで、CPU11は、図8(a)〜(c)に示すように、「もう1回歌い直しますか? Yes/No」というメッセージも表示部15に表示する。ここで、練習者が操作部16を操作して「Yes」を選択すると、CPU11は歌唱の再練習が指示されたと判断する(ステップS10;Yes)。そして、CPU11は、発音タイミング又は発音内容の相違箇所を中心として前後の所定範囲にわたる歌詞データ(この場合「すぎさりしひびのゆめを」という歌詞)と、その歌詞データに対応する伴奏データとを、歌詞データ記憶領域14c及び伴奏データ記憶領域14aから読み出し、これらを音声処理部18に供給して再生させる(ステップS11)。このとき、CPU11は表示部15を制御して、歌詞データ記憶領域14cから読み出した歌詞を表示し、さらにその歌詞を伴奏の進行に合わせて順番に色変わりさせる。練習者はこの伴奏に合わせて、表示部15に表示された歌詞を歌唱する。
By the way, as shown in FIGS. 8A to 8C, the
この後、CPU11の処理は前述したステップS2に戻る。つまり、練習者の音声がマイクロフォン17によって収音されて音声信号に変換され、音声処理部18へと供給される。そして、音声処理部18によってA/D変換された練習者音声データは、記憶部14の練習者音声データ記憶領域14dに時系列に記憶されていく(ステップS2)。以降、この記憶された練習者音声データに対して上述したステップS3〜S11の処理が繰り返される。これにより、練習者は自らが納得するまで、同一箇所の歌詞を繰り返し練習することができる。そして、図8(a)〜(c)に示した画面で練習者が「No」を選択すると(ステップS10;No)、CPU11の処理は終了する。
Thereafter, the processing of the
このように本実施形態においては、模範音声データと練習者音声データの時間軸を合わせたうえで、その時間軸上の位置を同じくする音どうしを対応付けて両者を比較し、発音タイミングや発音内容の相違箇所を表示する。よって、練習者は、自らの歌唱に発音タイミングのずれや発音の間違いがあることを明確に意識することができると共に、その相違箇所や相違内容を視覚的に把握することができる。 As described above, in the present embodiment, after matching the time axes of the model voice data and the trainee voice data, the sounds having the same position on the time axis are associated with each other and compared, and the sound generation timing and the sound generation are compared. Display differences in content. Therefore, the practitioner can clearly recognize that his / her singing has a difference in pronunciation timing and a mistake in pronunciation, and can visually grasp the difference portion and the content of the difference.
3.変形例
上述した実施形態を次のように変形してもよい。
(1)上述した実施形態においては、練習者の歌唱を評価する場合を例に挙げて説明したが、これに限らず、練習者の楽器演奏を評価するようにしてもよい。この場合、伴奏データ記憶領域14aには、練習したい楽器(例えばギター)以外の楽器(例えばベースやドラム)の演奏データが記憶されており、模範音声データ記憶領域14bには、模範となる模範演奏データが記憶されており、歌詞データ記憶領域14cには、演奏音の音程と発音タイミングとが対応付けられて記憶されており、練習者音声データ記憶領域14dには、練習者の演奏データが記憶されている。CPU11は、これらのデータに基づき、上記と同様の処理を経て模範演奏と練習演奏との相違箇所を検出し、その相違箇所を特定する情報を報知する。このように本発明は歌唱や演奏を含み得るため、本発明における「発音」という用語には、人が歌唱するときに発せられる音声のほか、楽器を演奏することで発せられる演奏音も含むものとする。また、本発明において、「音素」とは、歌唱や演奏のいずれの場合であっても、ひとまとまりの音として意識されて発音されるものであり、発音タイミングや発音の間違いを指摘することに意味があるものであればよい。
3. Modifications The embodiment described above may be modified as follows.
(1) In the above-described embodiment, the case where a practitioner's singing is evaluated has been described as an example. However, the present invention is not limited thereto, and the practitioner's musical instrument performance may be evaluated. In this case, the accompaniment
(2)図2に示した歌詞データでは、それぞれの音声の発音を開始すべきタイミングを「発音タイミング」として考えていた。なぜなら、発音タイミングのずれは、大抵の場合、発音を開始すべきタイミングの影響が大きいからである。ただし、これに限らず、音声の発音を終了するタイミングも「発音タイミング」という概念に含めるようにしてもよい。例えば図2において冒頭の「す」という音声の発音を開始するタイミングT1と、図示はしていないがその「す」という音声の発音を終了するタイミング(タイミングT1よりは遅く、タイミングT2よりは早いタイミング)とを、それぞれ模範音声と練習者音声との間で比較するようにしてもよい。このようにすれば、発音の開始から終了に至るまでの微妙なずれまでをも評価することが可能となる。 (2) In the lyric data shown in FIG. 2, the timing at which each sound is to be pronounced is considered as the “sounding timing”. This is because the difference in sound generation timing is largely affected by the timing at which sound generation should start. However, the present invention is not limited to this, and the timing of ending sound generation may be included in the concept of “sound generation timing”. For example, in FIG. 2, the timing T 1 at which the pronunciation of the voice “su” at the beginning is started, and the timing at which the pronunciation of the voice “su” is ended, although not shown (timing T 2 later than timing T 1). May be compared between the model voice and the practitioner voice. In this way, it is possible to evaluate even a slight deviation from the start to the end of pronunciation.
(3)CPU11が発音タイミングの差分が閾値を超えると判断された回数を累算しておき、その累算結果に応じたメッセージを表示部15に表示するようにしてもよい。発音タイミングの差分が閾値を超えると判断された回数が多いということは、それだけ発音タイミングのずれが頻繁に発生していることを意味しているから、CPU11が例えば「歌詞ずれがとても多いです。もっとしっかり練習しましょう。」とか、「歌詞ずれがずいぶん少なくなりましたね。その調子です。」などというようなメッセージを表示すると、練習者の練習の励みになる。
これは発音タイミングに限らず、発音内容であっても同様であり、CPU11は、発音内容の差分が閾値を超えると判断された回数を累算しておき、その累算結果に応じたメッセージを表示部15に表示するようにしてもよい。
(3) The number of times that the
This applies not only to the pronunciation timing but also to the pronunciation content, and the
(4)実施形態では、練習者の歌唱が終わってから、図8に示すような評価結果を表示していた。そうではなくて、例えば練習者の過去の歌唱における発音タイミングや発音内容の相違箇所を履歴として記憶しておき、練習者のカラオケ歌唱(伴奏データの再生)に先立って又はそのカラオケ歌唱(伴奏データの再生)に同期して、発音タイミングや発音内容の相違しやすい箇所を表示するようにしてもよい。具体的には、CPU11は、ステップS6,S7において差分が閾値を超えると判断された音素を、歌詞データ記憶領域14cに記憶されている歌詞データに対応付けて記憶しておく。伴奏データ記憶領域14aと歌詞データ記憶領域14cにおいては歌詞データと伴奏データとが対応付けられて記憶されている。よって、CPU11は、練習者によって伴奏データの再生(カラオケ歌唱)が指示されると、その再生に先立って又はその再生に同期して、再生する伴奏データに対応する歌詞データに対応付けて記憶されている音素(過去にステップS6,S7において差分が閾値を超えると判断された音素)を特定する情報を報知する。再生に先立って報知する場合には、CPU11は例えば「あなたは、冒頭の「すぎさりしひびのゆめを・・・」の「しひびのゆめ」の発音タイミングが遅れがちです。注意しましょう。」といったメッセージを表示したり、再生に同期して報知する場合には、CPU11は例えば「すぎさりしひびのゆめを・・・」という歌詞の「しひびのゆめ」の部分を強調表示するなどすればよい。これは、発音タイミングに限らず、発音内容についても同様である。このようにすれば、練習者は、歌唱する前に(又は歌唱している最中に)、発音タイミングや発音内容を間違えやすい部分を視覚的に把握することができる。
(4) In the embodiment, the evaluation results as shown in FIG. 8 are displayed after the practitioner's singing is over. Instead, for example, the pronunciation timing and the difference in pronunciation contents in the past singing of the practitioner are stored as a history, and the karaoke singing (accompaniment data) before the practicing karaoke singing (reproduction of accompaniment data) In synchronism with the reproduction of the sound, a portion where the pronunciation timing and the content of the pronunciation are likely to differ may be displayed. Specifically, the
(5)報知部116による報知の形態は、表示に限らず、音素を特定する音声メッセージを出力するような形態であってもよい。また、音素を特定する情報を電子メール形式で練習者のメール端末に送信するという形態であってもよい。また、音素を特定する情報を記憶媒体に出力して記憶させるようにしてもよく、この場合、練習者はコンピュータを用いてこの記憶媒体から情報を読み出させることで、それを参照することができる。要は、練習者に対して何らかの手段でメッセージ乃至情報を伝えられるように、音素を特定する情報を出力するものであればよい。 (5) The form of notification by the notification unit 116 is not limited to display, but may be a form in which a voice message specifying a phoneme is output. Moreover, the form which transmits the information which specifies a phoneme to an e-mail format of a practitioner's mail terminal may be sufficient. In addition, information specifying phonemes may be output to a storage medium and stored. In this case, a practitioner can refer to the information by reading the information from the storage medium using a computer. it can. In short, any information may be used as long as it outputs information for identifying a phoneme so that a message or information can be transmitted to the practitioner by some means.
(6)実施形態では、ハードディスク等の記憶部14に練習者音声データを記憶するようにしていたが、歌唱の評価を終えた後に練習者音声をすぐに破棄する場合には、練習者音声データをRAM13に記憶するようにしてもよい。
(6) In the embodiment, the trainer voice data is stored in the
(7)実施形態では、練習者音声データを記憶する際には、歌詞を表示し、さらに伴奏データを再生しながら練習者に歌唱させる、所謂カラオケ歌唱を行うようにしていたが、これは必ずしも必要ではない。つまり、練習者が歌詞の表示や伴奏データの再生が無いままで歌唱し、それを録音して模範音声と比較するようにしてもよい。歌唱能力が相当に高い練習者であっても、歌詞の表示や伴奏が無い状態で発音タイミングや歌詞を間違えずに歌唱することは容易ではないから、練習者の歌唱能力をより厳密に評価することが可能となる。 (7) In the embodiment, when practicing voice data is stored, so-called karaoke singing is performed in which lyrics are displayed and the practitioner sings while reproducing accompaniment data. Not necessary. That is, the practitioner may sing without displaying the lyrics or reproducing the accompaniment data, and record it and compare it with the model voice. Even a practitioner with a very high singing ability cannot sing without mistakes in pronunciation timing and lyrics without displaying lyrics or accompaniment. It becomes possible.
(8)実施形態では、CPU11が図6に示す処理を実行するたびに、模範音声データに対して周波数分析を行っていたが(ステップS4)、これに限らず、模範音声データに対して予め周波数分析を行った結果を記憶部14に記憶しておいてもよいし、一度でも過去に周波数分析を行ったことがあれば、その結果を記憶部14に記憶しておいてもよい。なお、模範音声データや練習者音声データはWAVE形式やMP3形式のデータとしたが、データの形式はこれに限定されるものではなく、音声を示すデータであればどのような形式のデータであってもよい。
(8) In the embodiment, every time the
(9)さらに、実施形態においては、模範音声データを記憶部14に記憶させて、カラオケ装置1のCPU11が記憶部14から模範音声データを読み出すようにしたが、これに代えて、通信ネットワークを介して音声データを受信するようにしてもよい。
(9) Furthermore, in the embodiment, the model voice data is stored in the
(10)実施形態では、カラオケ装置1が、図3に示した機能の全てを実現するようになっていた。これに対し、通信ネットワークで接続された2以上の装置が上記機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態のカラオケ装置1を実現するようにしてもよい。例えば、マイクロフォンやスピーカ、表示装置及び入力装置等を備え、報知部115を実現するコンピュータ装置と、基礎分析部111、対応箇所検出部112,発音内容比較部113及び発音タイミング比較部114を実現するサーバ装置とが通信ネットワークで接続されたシステムとして構成されていてもよい。この場合は、コンピュータ装置が、マイクロフォンから入力された音声を音声データに変換してサーバ装置に送信し、サーバ装置が、受信した音声データと模範音声データ及び歌詞データとの比較処理を行い、その比較結果をコンピュータ装置に送信するようにすればよい。
(10) In the embodiment, the
(11)上述した実施形態における評価装置としてのカラオケ装置1のCPU11によって実行されるプログラムは、磁気テープ、磁気ディスク、フロッピー(登録商標)ディスク、光記録媒体、光磁気記録媒体、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)、RAMなどの記録媒体に記憶した状態で提供し得る。また、インターネットのようなネットワーク経由でカラオケ装置1にダウンロードさせることも可能である。
(11) Programs executed by the
1…カラオケ装置、11…CPU、12…ROM、13…RAM、14…記憶部、15……表示部、16…操作部、17…マイクロフォン、18…音声処理部、19…スピーカ、111…基礎分析部、112…対応箇所検出部、113…発音内容比較部、114…発音タイミング比較部、115…報知部。
DESCRIPTION OF
Claims (12)
音を収音する収音手段から供給される第2の音データを記憶する第2の記憶手段と、
前記第1の音データと前記第2の音データとを所定時間長のフレーム単位で対応付け、対応付けたフレームを表す対応箇所データを生成する対応箇所検出手段と、
前記第2の音データが表す音素の発音タイミングを、前記第1の音データが表わす音素の発音タイミングと前記対応箇所データとに基づいて特定し、該第1の音データが表わす音素の発音タイミングと該第2の音データが表わす音素の発音タイミングとの差分が閾値を超えるか否かを判断する比較手段と、
前記比較手段によって前記差分が閾値を超えると判断された音素を特定する情報を出力する出力手段と
を備えることを特徴とする評価装置。 First storage means for storing first sound data representing a plurality of phonemes whose pronunciation timings are arranged in time series in association with the pronunciation timing of each phoneme;
Second storage means for storing second sound data supplied from the sound collection means for collecting sound;
Corresponding location detection means for associating the first sound data and the second sound data in units of frames of a predetermined time length, and generating corresponding location data representing the associated frames;
The sound generation timing of the phoneme represented by the second sound data is specified based on the sound generation timing of the phoneme represented by the first sound data and the corresponding portion data, and the sound generation timing of the phoneme represented by the first sound data Comparing means for determining whether or not a difference between the phoneme generation timing represented by the second sound data exceeds a threshold value;
And an output means for outputting information for identifying a phoneme for which the difference is determined to exceed a threshold value by the comparison means.
前記出力手段は、前記差分が閾値を超えると判断された音素を特定する情報に加えて、前記判断手段によって前記差分が閾値を超えると判断された音素が所定数以上連続すると判断された場合と所定数以上連続しないと判断された場合とでそれぞれ異なるメッセージを出力する請求項1記載の評価装置。 Determining means for determining whether or not a predetermined number of phonemes determined by the comparing means that the difference exceeds a threshold value;
The output means, in addition to the information for identifying the phoneme for which the difference is determined to exceed the threshold, and the case where it is determined that the predetermined number of phonemes determined by the determination means to exceed the threshold are consecutive. The evaluation apparatus according to claim 1, wherein different messages are output when it is determined that the predetermined number or more does not continue.
前記出力手段は、前記差分が閾値を超えると判断された音素を特定する情報に加えて、前記累算手段による累算結果に応じたメッセージを出力する請求項1記載の評価装置。 Accumulating means for accumulating the number of times that the difference is determined by the comparing means to exceed a threshold;
The evaluation device according to claim 1, wherein the output unit outputs a message corresponding to a result of accumulation by the accumulation unit in addition to information specifying a phoneme for which the difference is determined to exceed a threshold value.
前記第1の音データに対応付けて伴奏データを記憶する第3の記憶手段と、
前記第3の記憶手段によって記憶されている伴奏データを再生する再生手段と、
前記再生手段によって伴奏データが再生されるのに先立って又はその再生に同期して、前記第3の記憶手段により当該伴奏データに対応付けて記憶された第1の音データに対応付けて前記履歴記憶手段に記憶されている音素を特定する情報を出力する事前出力手段と
を備えることを特徴とする請求項1記載の評価装置。 History storage means for storing the phonemes determined by the comparison means to have the difference exceeding a threshold value, in association with the first sound data;
Third storage means for storing accompaniment data in association with the first sound data;
Reproduction means for reproducing the accompaniment data stored in the third storage means;
Prior to or in synchronization with the reproduction of the accompaniment data by the reproduction means, the history is associated with the first sound data stored in association with the accompaniment data by the third storage means. The evaluation apparatus according to claim 1, further comprising: a pre-output unit that outputs information for specifying a phoneme stored in the storage unit.
音を収音する収音手段から供給される第2の音データを記憶する第2の記憶手段と、
前記第1の音データと前記第2の音データとを所定時間長のフレーム単位で対応付け、対応付けたフレームを表す対応箇所データを生成する対応箇所検出手段と、
前記第1の音データが表す音素と前記第2の音データが表す音素とを前記対応箇所データによって表されるフレーム単位で比較し、該第1の音データが表わす音素と該第2の音データが表わす音素との差分が閾値を超えるか否かを判断する比較手段と、
前記比較手段によって前記差分が閾値を超えると判断された音素を特定する情報を出力する出力手段と
を備えることを特徴とする評価装置。 First storage means for storing sound data representing a plurality of phonemes whose pronunciation timings are arranged in time series in association with the pronunciation timing of each phoneme;
Second storage means for storing second sound data supplied from the sound collection means for collecting sound;
Corresponding location detection means for associating the first sound data and the second sound data in units of frames of a predetermined time length, and generating corresponding location data representing the associated frames;
The phonemes represented by the first sound data and the phonemes represented by the second sound data are compared in units of frames represented by the corresponding location data, and the phonemes represented by the first sound data and the second sounds are compared. A comparing means for determining whether or not a difference between the phonemes represented by the data exceeds a threshold;
And an output means for outputting information for identifying a phoneme for which the difference is determined to exceed a threshold value by the comparison means.
前記出力手段は、前記差分が閾値を超えると判断された音素を特定する情報に加えて、前記累算手段による累算結果に応じたメッセージを出力する請求項5記載の評価装置。 Accumulating means for accumulating the number of times that the difference is determined by the comparing means to exceed a threshold;
6. The evaluation apparatus according to claim 5, wherein the output means outputs a message corresponding to an accumulation result by the accumulation means in addition to information specifying a phoneme for which the difference is determined to exceed a threshold value.
前記第1の音データに対応付けて伴奏データを記憶する第3の記憶手段と、
前記第3の記憶手段によって記憶されている伴奏データを再生する再生手段と、
前記再生手段によって伴奏データが再生されるのに先立って又はその再生に同期して、前記第3の記憶手段により当該伴奏データに対応付けて記憶された第1の音データに対応付けて前記履歴記憶手段に記憶されている音素を特定する情報を出力する事前出力手段と
を備えることを特徴とする請求項5記載の評価装置。 History storage means for storing the phonemes determined by the comparison means to have the difference exceeding a threshold value in association with the first sound data;
Third storage means for storing accompaniment data in association with the first sound data;
Reproduction means for reproducing the accompaniment data stored in the third storage means;
Prior to or in synchronization with the reproduction of the accompaniment data by the reproduction means, the history is associated with the first sound data stored in association with the accompaniment data by the third storage means. The evaluation apparatus according to claim 5, further comprising: a pre-output unit that outputs information for specifying a phoneme stored in the storage unit.
前記制御手段が、前記第1の音データと前記第2の音データとを所定時間長のフレーム単位で対応付け、対応付けたフレームを表す対応箇所データを生成するステップと、
前記制御手段が、前記第2の音データが表す音素の発音タイミングを、前記第1の音データが表わす音素の発音タイミングと前記対応箇所データとに基づいて特定し、該第1の音データが表わす音素の発音タイミングと該第2の音データが表わす音素の発音タイミングとの差分が閾値を超えるか否かを判断するステップと、
前記制御手段が、前記差分が閾値を超えると判断された音を特定する情報を出力するステップと
を備えることを特徴とする制御方法。 Supplied from a first storage means for storing first sound data representing a plurality of phonemes whose sound generation timings are arranged in time series in association with sound generation timings of the respective phonemes, and a sound collection means for collecting sounds. A method for controlling an evaluation apparatus, comprising: a second storage unit that stores second sound data; and a control unit.
The control means associating the first sound data and the second sound data in units of frames of a predetermined time length, and generating corresponding location data representing the associated frames;
The control means specifies the sound generation timing of the phoneme represented by the second sound data based on the sound generation timing of the phoneme represented by the first sound data and the corresponding portion data, and the first sound data is Determining whether the difference between the pronunciation timing of the phoneme represented and the pronunciation timing of the phoneme represented by the second sound data exceeds a threshold;
The control means comprises a step of outputting information for identifying a sound for which it is determined that the difference exceeds a threshold value.
前記制御手段が、前記第1の音データと前記第2の音データとを所定時間長のフレーム単位で対応付け、対応付けたフレームを表す対応箇所データを生成するステップと、
前記制御手段が、前記第1の音データが表す音素と前記第2の音データが表す音素とを前記対応箇所データによって表されるフレーム単位で比較し、該第1の音データが表わす音素と該第2の音データが表わす音素との差分が閾値を超えるか否かを判断するステップと、
前記制御手段が、前記差分が閾値を超えると判断された音を特定する情報を出力するステップと
を備えることを特徴とする制御方法。 Supplied from a first storage means for storing first sound data representing a plurality of phonemes whose sound generation timings are arranged in time series in association with sound generation timings of the respective phonemes, and a sound collection means for collecting sounds. A method for controlling an evaluation apparatus, comprising: a second storage unit that stores second sound data; and a control unit.
The control means associating the first sound data and the second sound data in units of frames of a predetermined time length, and generating corresponding location data representing the associated frames;
The control means compares the phoneme represented by the first sound data with the phoneme represented by the second sound data in units of frames represented by the corresponding location data, and the phoneme represented by the first sound data Determining whether the difference from the phoneme represented by the second sound data exceeds a threshold;
The control means comprises a step of outputting information for identifying a sound for which it is determined that the difference exceeds a threshold value.
前記第1の音データと前記第2の音データとを所定時間長のフレーム単位で対応付け、対応付けたフレームを表す対応箇所データを生成する対応箇所検出機能と、
前記第2の音データが表す音素の発音タイミングを、前記第1の音データが表わす音素の発音タイミングと前記対応箇所データとに基づいて特定し、該第1の音データが表わす音素の発音タイミングと該第2の音データが表わす音素の発音タイミングとの差分が閾値を超えるか否かを判断する比較機能と、
前記比較手段によって前記差分が閾値を超えると判断された音を特定する情報を出力する出力機能と
を実現させるプログラム。 Supplied from a first storage means for storing first sound data representing a plurality of phonemes whose sound generation timings are arranged in time series in association with sound generation timings of the respective phonemes, and a sound collection means for collecting sounds. A computer comprising second storage means for storing second sound data;
A corresponding location detection function for associating the first sound data and the second sound data in units of frames of a predetermined time length, and generating corresponding location data representing the associated frames;
The sound generation timing of the phoneme represented by the second sound data is specified based on the sound generation timing of the phoneme represented by the first sound data and the corresponding portion data, and the sound generation timing of the phoneme represented by the first sound data And a comparison function for determining whether or not the difference between the pronunciation timing of the phoneme represented by the second sound data exceeds a threshold value;
A program for realizing an output function for outputting information for identifying a sound for which the difference is determined to exceed a threshold value by the comparison means.
前記第1の音データと前記第2の音データとを所定時間長のフレーム単位で対応付け、対応付けたフレームを表す対応箇所データを生成する対応箇所検出機能と、
前記第1の音データが表す音素と前記第2の音データが表す音素とを前記対応箇所データによって表されるフレーム単位で比較し、該第1の音データが表わす音素と該第2の音データが表わす音素との差分が閾値を超えるか否かを判断する比較機能と、
前記比較手段によって前記差分が閾値を超えると判断された音を特定する情報を出力する出力機能と
を実現させるプログラム。
First sound data representing a plurality of phonemes whose sound generation timing is continuous in time series is supplied from first storage means for storing the sound data in association with sound generation timing of each phoneme, and sound collection means for collecting sounds. A computer comprising second storage means for storing second sound data;
A corresponding location detection function for associating the first sound data and the second sound data in units of frames of a predetermined time length, and generating corresponding location data representing the associated frames;
The phonemes represented by the first sound data and the phonemes represented by the second sound data are compared in units of frames represented by the corresponding location data, and the phonemes represented by the first sound data and the second sounds are compared. A comparison function for determining whether the difference from the phoneme represented by the data exceeds a threshold;
A program for realizing an output function for outputting information for identifying a sound for which the difference is determined to exceed a threshold value by the comparison means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006055328A JP2007233077A (en) | 2006-03-01 | 2006-03-01 | Evaluation device, control method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006055328A JP2007233077A (en) | 2006-03-01 | 2006-03-01 | Evaluation device, control method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007233077A true JP2007233077A (en) | 2007-09-13 |
Family
ID=38553729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006055328A Pending JP2007233077A (en) | 2006-03-01 | 2006-03-01 | Evaluation device, control method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007233077A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012123230A (en) * | 2010-12-09 | 2012-06-28 | Yamaha Corp | Information processor |
JP2013068808A (en) * | 2011-09-22 | 2013-04-18 | Casio Comput Co Ltd | Performance evaluation device and program |
JP2013190473A (en) * | 2012-03-12 | 2013-09-26 | Brother Ind Ltd | Voice identification device and program |
JP2016156990A (en) * | 2015-02-25 | 2016-09-01 | ブラザー工業株式会社 | Voice synthesizer and program |
CN106205288A (en) * | 2016-09-23 | 2016-12-07 | 长沙军鸽软件有限公司 | A kind of implementation method training robot |
JP2020166141A (en) * | 2019-03-29 | 2020-10-08 | 株式会社第一興商 | Karaoke device |
-
2006
- 2006-03-01 JP JP2006055328A patent/JP2007233077A/en active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012123230A (en) * | 2010-12-09 | 2012-06-28 | Yamaha Corp | Information processor |
JP2013068808A (en) * | 2011-09-22 | 2013-04-18 | Casio Comput Co Ltd | Performance evaluation device and program |
JP2013190473A (en) * | 2012-03-12 | 2013-09-26 | Brother Ind Ltd | Voice identification device and program |
JP2016156990A (en) * | 2015-02-25 | 2016-09-01 | ブラザー工業株式会社 | Voice synthesizer and program |
CN106205288A (en) * | 2016-09-23 | 2016-12-07 | 长沙军鸽软件有限公司 | A kind of implementation method training robot |
JP2020166141A (en) * | 2019-03-29 | 2020-10-08 | 株式会社第一興商 | Karaoke device |
JP7158331B2 (en) | 2019-03-29 | 2022-10-21 | 株式会社第一興商 | karaoke device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4124247B2 (en) | Music practice support device, control method and program | |
US7579541B2 (en) | Automatic page sequencing and other feedback action based on analysis of audio performance data | |
JP2008026622A (en) | Evaluation apparatus | |
JP2007256617A (en) | Musical piece practice device and musical piece practice system | |
JP2008139426A (en) | Data structure of data for evaluation, karaoke machine, and recording medium | |
JP2007232750A (en) | Karaoke device, control method and program | |
JP2006276693A (en) | Singing evaluation display apparatus and program | |
JP2007233077A (en) | Evaluation device, control method, and program | |
JP2008040259A (en) | Musical piece practice assisting device, dynamic time warping module, and program | |
JP5136128B2 (en) | Speech synthesizer | |
JP2009169103A (en) | Practice support device | |
JP2007322934A (en) | Singing practice device, karaoke device, and program | |
JP7232653B2 (en) | karaoke device | |
JP2008020621A (en) | Content authoring system | |
JP2008039833A (en) | Voice evaluation apparatus | |
JP2005249844A (en) | Device and program for performance indication | |
JP2008040260A (en) | Musical piece practice assisting device, dynamic time warping module, and program | |
JP4862413B2 (en) | Karaoke equipment | |
JP2007322933A (en) | Guidance device, production device for data for guidance, and program | |
JP4595948B2 (en) | Data reproducing apparatus, data reproducing method and program | |
JP4501874B2 (en) | Music practice device | |
JP4048249B2 (en) | Karaoke equipment | |
JP5416396B2 (en) | Singing evaluation device and program | |
JP2008040258A (en) | Musical piece practice assisting device, dynamic time warping module, and program | |
JP2007225916A (en) | Authoring apparatus, authoring method and program |