JP2008039833A - Voice evaluation apparatus - Google Patents
Voice evaluation apparatus Download PDFInfo
- Publication number
- JP2008039833A JP2008039833A JP2006209920A JP2006209920A JP2008039833A JP 2008039833 A JP2008039833 A JP 2008039833A JP 2006209920 A JP2006209920 A JP 2006209920A JP 2006209920 A JP2006209920 A JP 2006209920A JP 2008039833 A JP2008039833 A JP 2008039833A
- Authority
- JP
- Japan
- Prior art keywords
- syllable
- voice
- data
- evaluation
- singer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
Description
本発明は、歌唱を採点するカラオケ装置において、各音節内の音量変化を評価する技術に関する。 The present invention relates to a technique for evaluating a volume change in each syllable in a karaoke apparatus for scoring a song.
カラオケ装置において、歌唱者の歌唱の巧拙を点数で表示する採点機能を備えたものがある。このような採点機能のうち、できるだけ実際の歌唱の巧拙と採点の結果が対応するように、歌唱者の歌唱音声信号から抽出された音高データや音量データなどのデータと、カラオケ曲の歌唱旋律と対応するデータ(ガイドメロディ)との比較機能を持たせたものがある。(例えば、特許文献1)
このような採点機能を備えたカラオケ装置によって、1音を単位としてノートごとの音量変化を比較して採点することが可能になったが、この採点機能は、MIDI(Musical Instruments Digital Interface:登録商標)形式でデータ化されたガイドメロディを基準にして、歌唱者の歌唱音声と比較していたため、楽譜上の音符を基準にした採点に止まっていた。しかしながら、実際の歌唱は、一つの音符内でも音量が多様に変化する。例えば、一つのノート内においても音を徐々に大きくするクレッシェンドや、音を短く切るスタッカートなどの技法があり、ノート内で音量が多様に変化する。
そのため、ガイドメロディを基準に採点した場合、見本となる歌唱(以下、ガイドボーカルという)に近い歌い方をする歌唱者とそうでない歌唱者とで、実際の巧拙にあった採点結果がでないことがあった。
The karaoke apparatus having such a scoring function makes it possible to compare and change the volume change of each note in units of one sound. This scoring function is based on MIDI (Musical Instruments Digital Interface: registered trademark). ) Since it was compared with the singing voice of the singer based on the guide melody that was converted into data, the scoring was based on the notes on the score. However, actual singing varies in volume within a single note. For example, there are techniques such as crescendo that gradually increases the sound within one note, and staccato that cuts the sound short, and the volume changes variously within the note.
Therefore, when scoring based on the guide melody, the singer who sings close to the sample singing (hereinafter referred to as “guide vocal”) and the singer who does not sing, may not have an actual skillful scoring result. there were.
本発明は、上述の事情を鑑みてなされたものであり、カラオケ曲のノート内の音量変化について、ガイドボーカルと歌唱者の歌唱音声とを比較評価する音声評価装置を提供することを目的とする。 This invention is made in view of the above-mentioned situation, and it aims at providing the audio | voice evaluation apparatus which compares and evaluates a guide vocal and a song person's singing voice | voice about the volume change in the notebook of a karaoke song. .
上述の課題を解決するため、本発明は、楽曲の歌声を示す第1の音声データと前記歌声の音声の区切りを示す音声区切りデータとを記憶する記憶手段と、楽曲の進行に応じて前記記憶手段から前記第1の音声データと前記音声区切りデータとを読み出す読出手段と、歌唱者の音声が入力され、入力された音声を第2の音声データに変換して出力する音声入力手段と、前記読出手段が読み出した前記第1の音声データと前記音声区切りデータを参照して、前記第2の音声データを解析し、前記第1の音声データが示す音声の音節に対応する音節部分を前記第2の音声データから切り出す音節対応付け手段と、前記第1、第2の音声データについて、前記音節対応付け手段によって対応付けられた音節部分毎に音量の変化の態様を比較し、その比較結果に対応する評価を行う評価手段とを具備することを特徴とする音声評価装置を提供する。 In order to solve the above-mentioned problems, the present invention provides a storage means for storing first voice data indicating a singing voice of music and voice separation data indicating a voice break of the singing voice, and the storage according to the progress of the music. Reading means for reading out the first voice data and the voice separation data from the means, voice input means for inputting the voice of the singer, converting the input voice into second voice data, and outputting the voice data; The second voice data is analyzed with reference to the first voice data and the voice break data read by the reading means, and the syllable portion corresponding to the syllable of the voice indicated by the first voice data is determined as the first voice data. The syllable association means cut out from the two audio data and the first and second audio data are compared in terms of the volume change mode for each syllable part associated by the syllable association means. To provide a speech evaluation apparatus characterized by comprising an evaluation means for evaluating that corresponds to the result.
また、別の好ましい態様において、前記音節対応付け手段は、対応付けた音節部分に該当する前記第1、第2の音声データについて、当該第2の音声データの時間幅を当該第1の音声データの時間幅と同じになるように伸縮させてもよい。 Moreover, in another preferable aspect, the syllable association means sets the time width of the second audio data for the first and second audio data corresponding to the associated syllable portion, as the first audio data. It may be expanded and contracted to be the same as the time width.
また、別の好ましい態様において、前記評価手段は、前記音節対応付け手段によって対応付けられた音節部分毎に所定レベルの音量をしきい値として区間に分割し、前記しきい値より小さい音量と判断された区間の長さまたは前記しきい値より大きい音量と判断された区間の長さに基づいて評価を行ってもよい。また、前記評価手段は、前記音節対応付け手段によって対応付けられた音節部分毎に、当該音節部分の音量に基づいて前記しきい値を自動設定してもよい。さらに、音節部分毎の音量が前記しきい値を上回るまでの期間は評価から除外してもよい。 In another preferred aspect, the evaluation means divides the sound volume at a predetermined level for each syllable part associated by the syllable association means into sections using a threshold as a threshold, and determines that the volume is lower than the threshold. The evaluation may be performed based on the length of the determined section or the length of the section determined to be larger than the threshold value. Further, the evaluation means may automatically set the threshold value for each syllable part associated by the syllable association means based on the volume of the syllable part. Further, a period until the volume of each syllable part exceeds the threshold value may be excluded from the evaluation.
また、別の好ましい態様において、前記評価手段は、前記音節対応付け手段によって対応付けられた音節部分毎に、当該音節部分の音量変化率を抽出して比較してもよい。 In another preferable aspect, the evaluation unit may extract and compare the volume change rate of the syllable part for each syllable part associated by the syllable association unit.
歌唱者音声データの時間軸を伸縮しガイドボーカルデータの時間軸と合わせ、音節区切りデータで区切られた音節ごとの音量変化を比較することで、各音節内の微妙な変化についても評価を行うことができる。 Evaluate even subtle changes in each syllable by expanding and contracting the time axis of the singer's voice data, aligning it with the time axis of the guide vocal data, and comparing the volume change for each syllable divided by the syllable break data. Can do.
以下、本発明の一実施形態について説明する。 Hereinafter, an embodiment of the present invention will be described.
<実施形態>
図1は、この発明の一実施形態に係る音声評価装置としてのカラオケ装置1のハードウェア構成を例示したブロック図である。CPU(Central Processing Unit)11は、ROM(Read Only Memory)12または記憶部14に記憶されているコンピュータプログラムを読み出してRAM(Random Access Memory)13にロードし、これを実行することにより、カラオケ装置1の各部を制御する。記憶部14は、例えばハードディスクなどの大容量の記憶手段であり、楽曲データ記憶領域14aと、歌唱者音声データ記憶領域14bを有している。表示部15は、例えば液晶ディスプレイなどであり、CPU11の制御の下で、カラオケ装置1を操作するためのメニュー画面や、背景画像に歌詞テロップを重ねたカラオケ画面などの各種画面を表示する。操作部16は、各種のキーを備えており、押下されたキーに対応した信号をCPU11へ出力する。マイクロフォン17は、歌唱者が発音した音声を収音する。音声処理部18は、マイクロフォン17によって収音された音声をA/D変換してCPU11に供給する。スピーカ19は、音声処理部18に接続されており、音声処理部18から出力される音声信号をもとに放音する。
<Embodiment>
FIG. 1 is a block diagram illustrating a hardware configuration of a
楽曲データ記憶領域14aには、カラオケ曲の楽曲データが複数記憶されており、各楽曲データは、ガイドメロディトラック、伴奏データトラック、歌詞データトラック、ガイドボーカルトラック、音節区切りデータトラックを有している。
A plurality of song data of karaoke songs are stored in the song
ガイドメロディトラックは、楽曲のボーカルパートのメロディを示すデータであり、各ノートについてのノートオン(発音の指令)、ベロシティ(音の強さ)、ノートオフ(消音の指令)などのイベントデータと次のイベントデータを読み込んで実行するまでの時間を示すデルタタイムデータを有している。伴奏データトラックは、各伴奏楽器の複数のトラックから構成されており、各楽器のトラックは上述したガイドメロディトラックと同様のデータ構造を有している。なお、本実施形態の場合、MIDI(登録商標)形式のデータが記憶されている。 The guide melody track is data indicating the melody of the vocal part of the music, and event data such as note-on (pronunciation command), velocity (sound intensity), note-off (silence command) for each note, and the following Delta time data indicating the time until the event data is read and executed. The accompaniment data track is composed of a plurality of tracks of each accompaniment instrument, and each instrument track has the same data structure as the above-described guide melody track. In the case of this embodiment, data in the MIDI (registered trademark) format is stored.
歌詞データトラックは、楽曲の歌詞を示しているテキストデータ、歌詞の改行を示す改行データ、および歌詞の一文字毎にワイプ開始時刻を示すワイプ開始時刻データを有している。そして、カラオケ装置によって再生され、画面に歌詞テロップが表示されているときは、歌詞の1文字は対応するワイプ開始時刻になると当該文字の左側から色を変化させ始めて、次の文字ワイプ開始時刻に達すると、その文字全体について色の変化が完了するよう色替え制御される。この場合、ワイプ開始時刻データは、改行データにも設けられており、行の最後に表示される文字については、当該文字のワイプ開始時刻データと改行データのワイプ開始時刻データの時間間隔が、当該文字の色替え時間となる。各文字の色が変化するスピードは、文字の横方向のドット数と色替え時間(当該文字のワイプ開始時刻と次の文字のワイプ開始時刻の時間差)から決定される。 The lyrics data track has text data indicating the lyrics of the music, line feed data indicating the line break of the lyrics, and wipe start time data indicating the wipe start time for each character of the lyrics. Then, when it is played back by the karaoke device and the lyrics telop is displayed on the screen, one character of the lyrics starts to change color from the left side of the character at the corresponding wipe start time, and at the next character wipe start time. When it reaches, the color change is controlled so that the color change is completed for the entire character. In this case, the wipe start time data is also provided in the line feed data, and for the character displayed at the end of the line, the time interval between the wipe start time data of the character and the wipe start time data of the line feed data is It becomes the color change time of characters. The speed at which the color of each character changes is determined from the number of dots in the horizontal direction of the character and the color change time (the time difference between the wipe start time of the character and the wipe start time of the next character).
ガイドボーカルトラックは、見本となる歌手の歌声を記録した音声データ(以下、ガイドボーカルデータという)であって、例えば、WAVE形式やMP3(MPEG Audio Layer-3)形式などの音声データである。音節区切りデータトラックは、図2に示すように、ガイドボーカルを音節ごとに区切る時刻を示す音節区切りデータであり、t1、t2、t3・・・として各音節が発声される時刻を示している。ここで、図の縦軸はガイドボーカルの音量であり、横軸はガイドボーカルの進行を示す時間軸を表し、それぞれの音節に対応する歌詞を図の上部に対応させて表している。なお、ガイドボーカルデータにフレーム番号やサンプリング番号などの情報が付されている場合には、それらを時刻情報の代わりに用いて音節区切りデータとしてもよい。 The guide vocal track is audio data (hereinafter referred to as guide vocal data) in which a singer's voice as a sample is recorded, and is audio data in the WAVE format or MP3 (MPEG Audio Layer-3) format, for example. As shown in FIG. 2, the syllable separation data track is syllable separation data indicating the time at which the guide vocal is divided into syllables, and indicates the time when each syllable is uttered as t 1 , t 2 , t 3. ing. Here, the vertical axis in the figure represents the volume of the guide vocal, the horizontal axis represents the time axis indicating the progress of the guide vocal, and the lyrics corresponding to each syllable are represented in the upper part of the figure. When information such as a frame number and a sampling number is attached to the guide vocal data, these may be used as syllable delimiter data instead of the time information.
歌唱者音声データ記憶領域14bには、マイクロフォン17から音声処理部18を経てA/D変換された音声データ(以下、歌唱者音声データという)が、例えばWAVE形式やMP3形式などで時系列に記憶される。
In the singer voice
次に、CPU11が、ROM12または記憶部14に記憶されたコンピュータプログラムを実行することによって実現する機能について説明する。図3は、CPU11が実現する機能を示したブロック図である。
Next, functions realized by the
図において、ガイドボーカル音量抽出部2は、楽曲データ記憶領域14aからガイドボーカルデータおよび音節区切りデータを読み出し、当該ガイドボーカルの音量を抽出して、ガイドボーカル音量データを作成する機能、および音節区切りデータが有している音節区切り時刻によって音節ごとに当該ガイドボーカル音量データを分割して、全ての音節に対して、ガイドボーカル音節単位音量データを生成する機能を有している。例えば、図2に示すように、音節「あ」に対応するガイドボーカル音節単位音量データは、t1からt2の間の時間の音量の変化を示す音量データである。
In the figure, a guide vocal
ガイドボーカル無音領域抽出部3は、ガイドボーカル音節単位音量データに基づいて歌唱者音声と比較するための基準データとして、各音節について無音領域時間を抽出し、音節ごとに無音領域時間を対応させた無音領域基準データを作成する機能を有している。例えば、n番目の音節のガイドボーカル音節単位音量データが図4(a)に示すような音量変化を示している場合は、音量がスレッショルド音量Vnth以下に下がった時刻tnthになったところから無音領域とみなし、次の音節の区切り時刻tn+1までの無音領域時間tnoff=tn+1−tnthをn番目の音節の無音領域基準データとして作成する。ここで、スレッショルド音量Vnthは、例えば以下のように自動設定する。図4(a)に示すようなn番目の音節内の音量変化を所定の時間単位で分割したフレーム単位に分け、各音量の発生頻度をフレーム数で表すと、図4(b)のようなヒストグラムで表すことができる。ここで、n番目の音節の音量最小値をVnminとし、音量の中央値をVnmedとすると、スレッショルド音量Vnthは(Vnmin+Vnmed)/2として自動設定する。このようにスレッショルド音量を決めると、マイクロフォン17に入り込む周囲の雑音などの影響を受けにくくなり、正確な検出ができる。なお、周囲の雑音の音量が一定に保たれている場合は、スレッショルド音量をある一定水準として決めておいてもよい。
The guide vocal silent
アライメント部4は、ガイドボーカルと歌唱者音声の音節の時間的なずれの調整を行う機能を有している。図5に示すように、ガイドボーカル(図5(a))と歌唱者音声(図5(b))にずれが発生している場合、両者を正確に比較するために、ガイドボーカルと時間軸を合わせるように、歌唱者音声の時間軸を伸縮させてDTW(Dynamic Time Warping:時間正規化)を行う必要がある。本実施形態ではこのDTWを行うための手法としてDP(Dynamic Programming:動的計画法)マッチングを用いる。具体的には以下のような処理となる。 The alignment unit 4 has a function of adjusting a temporal shift between the syllables of the guide vocal and the singer's voice. As shown in FIG. 5, when there is a deviation between the guide vocal (FIG. 5 (a)) and the singer's voice (FIG. 5 (b)), in order to accurately compare the two, the guide vocal and the time axis Therefore, it is necessary to perform DTW (Dynamic Time Warping: time normalization) by expanding and contracting the time axis of the singer's voice. In the present embodiment, DP (Dynamic Programming) matching is used as a technique for performing this DTW. Specifically, the processing is as follows.
アライメント部4は、図6に示すような座標平面(以下、DPプレーンという)をRAM13に形成する。このDPプレーンの縦軸は、ガイドボーカルデータをそれぞれ所定時間長のフレーム単位に分離してその各々に対してFFT(Fast Fourier Transform)を施して得られたスペクトルについて、各フレームのスペクトルの絶対値の対数に逆フーリエ変換をかけて得られるパラメータに対応しており、横軸は、同様にして得られた歌唱者音声データのスペクトルについて、各フレームから得たスペクトルの絶対値の対数に逆フーリエ変換をかけて得られるパラメータに対応している。図6において、a1、a2、a3・・・anは、ガイドボーカルデータの各フレームを時間軸に従って並べたものであり、b1、b2、b3・・・bnは、歌唱者音声データの各フレームを時間軸に従って並べたものである。縦軸のa1、a2、a3・・・anの間隔と横軸のb1、b2、b3・・・bnの間隔は、いずれもフレームの時間長と対応している。このDPプレーンにおける各格子点の各々には、a1、a2、a3・・・の各パラメータと、b1、b2、b3・・・の各パラメータのユークリッド距離を夫々示す値であるDPマッチングスコアが対応付けられている。例えば、a1とb1とにより位置決めされる格子点には、ガイドボーカルデータの一連のフレームのうち最初のフレームから得たパラメータと歌唱者音声データの一連のフレームのうち最初のフレームから得たパラメータのユークリッド距離を示す値が対応付けられることになる。アライメント部4は、このような構造を成すDPプレーンを形成した後、a1とb1とにより位置決めされる格子点(始端)からanとbnとにより位置決めされる格子点(終端)に至る全経路を探索し、探索した経路ごとに、その始端から終端までの間に辿る各格子点のDPマッチングスコアを累算して行き、最小の累算値を求める。このDPマッチングスコアの累算値が最も小さくなる経路は、歌唱者音声データの各フレームの時間軸をガイドボーカルデータの時間軸に合わせて伸縮する際における伸縮の尺度として参酌される。 The alignment unit 4 forms a coordinate plane (hereinafter referred to as a DP plane) as shown in FIG. The vertical axis of the DP plane is the absolute value of the spectrum of each frame for the spectrum obtained by separating guide vocal data into frames each having a predetermined time length and applying FFT (Fast Fourier Transform) to each. The horizontal axis represents the spectrum of the singing voice data obtained in the same manner, and the logarithm of the absolute value of the spectrum obtained from each frame is the inverse Fourier. It corresponds to the parameter obtained by conversion. In FIG. 6, a1, a2, a3... An are obtained by arranging the frames of the guide vocal data according to the time axis, and b1, b2, b3... Bn are the frames of the singer voice data. They are arranged according to the time axis. The intervals of a1, a2, a3... An on the vertical axis and the intervals of b1, b2, b3... Bn on the horizontal axis all correspond to the time length of the frame. Each lattice point in the DP plane corresponds to a DP matching score which is a value indicating the Euclidean distance of each parameter of a1, a2, a3... And each parameter of b1, b2, b3. It is attached. For example, the lattice points positioned by a1 and b1 include parameters obtained from the first frame of a series of frames of guide vocal data and parameters obtained from the first frame of a series of frames of singing voice data. A value indicating the Euclidean distance is associated. After forming the DP plane having such a structure, the alignment unit 4 performs the entire path from the lattice point (starting end) positioned by a1 and b1 to the lattice point (end) positioned by an and bn. For each route searched, the DP matching score of each lattice point traced from the start end to the end is accumulated to obtain the minimum accumulated value. The path with the smallest accumulated value of the DP matching score is considered as a scale of expansion / contraction when the time axis of each frame of the singer's voice data is expanded / contracted in accordance with the time axis of the guide vocal data.
そして、アライメント部4は、DPマッチングスコアの累算値が最小となる経路をDPプレーン上から特定し、特定した経路の内容に応じて歌唱者音声データの時間軸を伸縮する処理であるアライメント処理を行う。具体的には、DPプレーン上から特定された経路上の各格子点のDPマッチングスコアが時間軸上の位置を同じくするフレームから得たパラメータのユークリッド距離を表わすものとなるように、歌唱者音声データの各フレームのタイムスタンプの内容を書き換えた上で、時間軸上の位置を同じくする各フレームを組として順次対応付けていく。例えば、図6に示すDPプレーン上に記された経路においては、a1とb1により位置決めされる始点からその右上のa2とb2により位置決めされる格子点に進んでいることが分かる。この場合、a2とb2のフレームの時間軸上の位置は当初から同じであるので、b2のフレームのタイムスタンプの内容を書き換える必要はない。更に、この経路においては、a2とb2により位置決めされる格子点からその右のa2とb3により位置決めされる格子点に進んでいることが分かる。この場合、b2のフレームだけでなくb3のフレームもa2のフレームと時間軸上の位置を同じくする必要があるので、b3のフレームと対を成していたタイムスタンプをフレーム一つ分だけ早いものと置き換える。この結果、a2のフレームとb2及びb3のフレームが時間軸上の位置を同じくするフレームの組として対応付けられることになる。このようなタイムスタンプの置き換えとフレームの対応付けがb1からbnに至る全フレーム区間について行われる。これにより、例えば図5(b)に示すように、歌唱者音声の発音時刻がガイドボーカルの発音時刻とずれている部分があったとしても、歌唱者音声データの時間軸をガイドボーカルデータの時間軸に合わせて伸縮し、図5(c)に示すように時間軸をあわせることができる。以上がDPマッチングの仕組みである。 And the alignment part 4 is the process which specifies the path | route where the accumulated value of DP matching score becomes the minimum from a DP plane, and is the process which expands / contracts the time axis | shaft of singer voice data according to the content of the specified path | route. I do. Specifically, the singer voice so that the DP matching score of each lattice point on the path specified from the DP plane represents the Euclidean distance of the parameter obtained from the frame having the same position on the time axis. After rewriting the contents of the time stamp of each frame of data, each frame having the same position on the time axis is sequentially associated as a set. For example, in the path marked on the DP plane shown in FIG. 6, it can be seen that the path from the starting point positioned by a1 and b1 progresses to the lattice point positioned by upper right a2 and b2. In this case, since the positions on the time axis of the frames a2 and b2 are the same from the beginning, it is not necessary to rewrite the contents of the time stamp of the frame b2. Furthermore, in this route, it can be seen that the grid point positioned by a2 and b2 advances from the grid point positioned by a2 and b3 on the right. In this case, not only the frame b2 but also the frame b3 need to have the same position on the time axis as the frame a2, so that the time stamp paired with the frame b3 is one frame earlier. Replace with As a result, the frame a2 and the frames b2 and b3 are associated as a set of frames having the same position on the time axis. Such time stamp replacement and frame association are performed for all frame sections from b1 to bn. As a result, for example, as shown in FIG. 5B, even if there is a portion where the sounding time of the singer's voice is deviated from the sounding time of the guide vocal, the time axis of the singer's voice data is set to the time of the guide vocal data. The time axis can be adjusted as shown in FIG. The above is the mechanism of DP matching.
歌唱者音声音量抽出部5は、アライメント部4で得られた時間伸縮を行った歌唱者音声データについて、ガイドボーカル音量抽出部2と同様に、当該歌唱者音声の音量を抽出して、歌唱者音声音量データを作成する機能および音節ごとに歌唱者音声音節単位音量データを生成する機能を有している。
The singer voice volume extracting unit 5 extracts the volume of the singer's voice from the singer voice data obtained by the alignment unit 4 and subjected to the time expansion / contraction, as in the case of the guide vocal
歌唱者音声無音領域抽出部6は、ガイドボーカル無音領域抽出部3と同様に、歌唱者音声音節単位音量データに基づいて、各音節について無音領域時間(例えばn番目の音節ならt’noffとする)を抽出し、音節ごとに無音領域時間を対応させた歌唱者音声無音領域データを作成する機能を有している。
The singer voice silence
比較評価部7は、ガイドボーカル無音領域抽出部3から無音領域基準データを、歌唱者音声無音領域抽出部6から歌唱者音声無音領域データを取得し、ガイドボーカルと歌唱者音声について、それぞれを音節ごとに無音領域時間を比較して、当該音節の音の長さについての評価を行う機能を有している。例えば、図5(a)に示すガイドボーカルの3番目の音節に対応する無音領域時間t3offと図5(c)に示す時間伸縮を行った歌唱者音声の3番目の音節に対応する無音領域時間t’3offとを比較して、t3off>t’3offなら3番目の音節については、歌唱者音声の無音領域時間が短い、すなわち音の発声時間が長いと評価する。
The
次に、カラオケ装置1の動作について説明する。練習者は、カラオケ装置1の操作部16を操作して歌唱したい曲を選定し、伴奏の再生を指示する。CPU11は、この指示に応じて処理を開始する。CPU11は、まず、指定された曲の伴奏データトラックを楽曲データ記憶領域14aから読み出し、音声処理部18に供給する。音声処理部18は、供給された伴奏データをアナログ音声信号に変換してスピーカ19に供給して放音させる。このとき、CPU11は表示部15を制御して、歌詞データトラックを楽曲データ記憶領域14aから読み出し、読み出した歌詞を表示し、楽曲の進行に合わせて歌詞の文字を色替えしていく。歌唱者は、スピーカ19から放音される伴奏に合わせて歌唱を行う。このとき、歌唱者の音声はマイクロフォン17によって収音されて音声信号に変換され、音声処理部18へと供給される。そして、音声処理部18によってA/D変換された歌唱者音声データは、記憶部14の歌唱者音声データ記憶領域14bに時系列に記憶されていく。
Next, the operation of the
伴奏データの再生が終了すると、CPU11は、アライメント部4の処理を行う。すなわち、楽曲データ記憶領域14aからガイドボーカルデータを読み出し、歌唱者音声データ記憶領域14bから読み出した歌唱者音声データを読み出す。そして、DPマッチングによって、ガイドボーカルデータの時間軸と合うように歌唱者音声データの時間軸を伸縮させ、歌唱者音声データのタイムスタンプを書き換え、記憶部14の歌唱者音声データ記憶領域14bに記憶する。
When the reproduction of the accompaniment data is completed, the
次に、CPU11は、ガイドボーカル音量抽出部2、および歌唱者音声音量抽出部5の処理を行う。つまり、ガイドボーカル音量抽出部2は、楽曲データ記憶領域14aから読み出したガイドボーカルデータと音節区切りデータを元に、ガイドボーカルの全ての音節ごとに、当該音節と対応付けてガイドボーカル音節単位音量データを生成し、記憶部14の所定のエリアに記憶させる。また、同様にして、歌唱者音声音量抽出部5は、タイムスタンプを書き換えた歌唱者音声データについて、音節ごとに、当該音節と対応付けて歌唱者音声音節単位音量データを生成し、記憶部14の所定のエリアに記憶させる。
Next, the
次に、CPU11は、ガイドボーカル無音領域抽出部3、および歌唱者音声無音領域抽出部6の処理を行う。ガイドボーカル無音領域抽出部3は、記憶部14の所定のエリアに記憶された全ての音節に対するガイドボーカル音節単位音量データを読み出し、ガイドボーカルの全ての音節に対して、それぞれスレッショルド音量を算出し、全ての音節に対しての無音領域時間を算出し無音領域基準データとして記憶部14の所定のエリアに記憶させる。また、同様にして、歌唱者音声無音領域抽出部6は、記憶部14の所定のエリアに記憶された全ての音節に対する歌唱者音声音節単位データを読み出し、歌唱者音声の全ての音節に対して、それぞれスレッショルド音量を算出し、全ての音節に対しての無音領域時間を算出し、歌唱者音声無音領域データとして記憶部14の所定のエリアに記憶させる。
Next, the
次に、CPU11は、比較評価部7の処理を行う。比較評価部7は、記憶部14の所定のエリアに記憶された無音領域基準データおよび歌唱者音声無音領域データを読み出し、各々の音節ごとに両者の無音領域時間を比較する。そして、歌唱者音声の各音節について、ガイドメロディの各音節の無音領域時間と比較し、ずれの量を判断することにより、歌唱者音声の採点に反映させる。また、歌唱者に指導するために、どの音節がどのようにずれているのかを表示部15に表示させてもよい。その場合は、例えば図7に示すように、歌詞の音節ごとに当該音節の無音領域時間がわかるように表示すればよい。ここで、横軸は歌詞の各音節を表している。また、縦軸は各音節の無音領域時間を音節区切りデータによって区切られた当該音節の全体の時間で規格化したものであり、数値が大きいほど音節の無音領域時間が長い、すなわち発音時間が短いことを意味し、n番目の音節の無音領域時間は、tnoff/(tn+1−tn)として、表示されている。また、ガイドボーカルは先生の音声、歌唱者音声は生徒の音声として扱われている。
Next, the
このように、歌唱者音声データの時間軸を伸縮しガイドボーカルデータの時間軸と合わせ、音節区切りデータで区切られた音節ごとの音量変化を比較することで、各音節内の微妙な変化についても評価を行うことができる。そのため、精度の高い採点結果を出すことができ、さらに直したほうがよい点については、音節ごとに修正点を明示して指導をすることができる。 In this way, the time axis of the singer's voice data is expanded and contracted to match the time axis of the guide vocal data, and the volume change for each syllable divided by the syllable break data is compared, so that subtle changes within each syllable can also be detected. Evaluation can be made. Therefore, a highly accurate scoring result can be obtained, and points that should be further corrected can be instructed by clearly specifying correction points for each syllable.
以上、本発明の実施形態について説明したが、例えば、上述した実施形態を以下のように変形して本発明を実施してもよい。 As mentioned above, although embodiment of this invention was described, for example, you may implement this invention, changing embodiment mentioned above as follows.
<変形例1>
実施形態においては、ガイドボーカルと歌唱者音声について音節の音の長さを比較するようにしていたが、音の大きさの変化として、徐々に大きくなるクレッシェンドや徐々に小さくなるデクレッシェンドについて評価を行ってもよい。この場合は、実施形態の無音領域を抽出する代わりに、図8に示すように、各音節内の音量変化率αを各音節の音量変化を抜き出して1次近似などにより抽出するようにして、ガイドボーカルと歌唱者音声を比較すればよい。ここで、音量変化率を比較する対象となる区間は、例えば、図8に示すように、音節の占有する時間を100%とした場合、当該音節が発音された時刻から30%の時間を加えた時刻tnsから70%の時間を加えた時刻tneまでの時間などと適宜設定すればよい。このようにすると、各音節内の抑揚についても評価することができ、より精度の高い採点結果を出すことができる。
<
In the embodiment, the syllable sound lengths of the guide vocal and the singer's voice are compared. However, as the sound volume changes, the crescendo that gradually increases and the decrescendo that gradually decreases are evaluated. You may go. In this case, instead of extracting the silent region of the embodiment, as shown in FIG. 8, the volume change rate α in each syllable is extracted by extracting the volume change of each syllable by primary approximation or the like, What is necessary is just to compare a guide vocal and a singer's voice. Here, for example, as shown in FIG. 8, if the time occupied by the syllable is set to 100%, the section to which the volume change rate is compared is added with a time of 30% from the time when the syllable is pronounced. the time t ns 70% of the time from may be such a properly set time until the time t ne plus a. In this way, the inflection in each syllable can be evaluated, and a more accurate scoring result can be obtained.
<変形例2>
実施形態においては、音節区切りデータは楽曲ごとに事前に作成されていたが、ガイドボーカルデータから得られるスペクトルやピッチの検出・非検出状態から音節区切りデータを自動的に作成するようにしてもよい。このようにすると、数多くの楽曲に対して音節区切りデータを作成する手間が省くことができる。
<
In the embodiment, the syllable separation data is created in advance for each music piece. However, the syllable separation data may be automatically created from the spectrum obtained from the guide vocal data and the detected / non-detected state of the pitch. . In this way, it is possible to save the trouble of creating syllable break data for a large number of music pieces.
<変形例3>
実施形態においては、ガイドボーカルと歌唱者音声の無音領域時間を抽出して各々を比較していたが、スレッショルド音量以上の音量になっている領域のみを検出して、音節が発音されているとみなす有音領域時間を抽出して比較してもよい。また、無音領域以外の部分を有音領域とみなしてもよい。
<
In the embodiment, the silent region times of the guide vocal and the singer's voice are extracted and compared with each other, but only the region where the volume is higher than the threshold volume is detected and the syllable is pronounced. You may extract and compare the sound area time to consider. Moreover, you may consider a part other than a silence area | region as a sound area.
<変形例4>
実施形態においては、DPマッチングによって、歌唱者音声データの時間軸をガイドボーカルデータの時間軸に合わせて伸縮して時間軸をあわせて、音節区切りデータによって歌唱者音声を音節ごとに区切っていたが、ガイドボーカルデータと歌唱者音声データのスペクトルやピッチの比較を行って、ガイドボーカルの各音節に対応する歌唱者音声の音節の検出を行って、歌唱者音声を音節に区切ってもよい。この場合はガイドボーカルと歌唱者音声の音節についてはそれぞれ時間軸が揃っていないため、音節全体の占有する時間に対する無音領域時間の割合として比較すればよい。
<Modification 4>
In the embodiment, by DP matching, the time axis of the singer's voice data is expanded and contracted to match the time axis of the guide vocal data, the time axis is adjusted, and the singer's voice is divided into syllables by the syllable separation data. The singing voice may be divided into syllables by comparing the spectrum and pitch of the guide vocal data and the singing voice data and detecting the syllable of the singing voice corresponding to each syllable of the guide vocal. In this case, since the time axes of the syllabary of the guide vocal and the singer's voice are not aligned, it may be compared as the ratio of the silent area time to the time occupied by the entire syllable.
1…カラオケ装置、2…ガイドボーカル音量抽出部、3…ガイドボーカル無音領域抽出部、4…アライメント部、5…歌唱者音声音量抽出部、6…歌唱者音声無音領域抽出部、7…比較評価部、11…CPU、12…ROM、13…RAM、14…記憶部、14a…楽曲データ記憶領域、14b…歌唱者音声データ記憶領域、15…表示部、16…操作部、17…マイクロフォン、18…音声処理部、19…スピーカ
DESCRIPTION OF
Claims (6)
楽曲の進行に応じて前記記憶手段から前記第1の音声データと前記音声区切りデータとを読み出す読出手段と、
歌唱者の音声が入力され、入力された音声を第2の音声データに変換して出力する音声入力手段と、
前記読出手段が読み出した前記第1の音声データと前記音声区切りデータを参照して、前記第2の音声データを解析し、前記第1の音声データが示す音声の音節に対応する音節部分を前記第2の音声データから切り出す音節対応付け手段と、
前記第1、第2の音声データについて、前記音節対応付け手段によって対応付けられた音節部分毎に音量の変化の態様を比較し、その比較結果に対応する評価を行う評価手段と
を具備することを特徴とする音声評価装置。 Storage means for storing first voice data indicating a singing voice of music and voice break data indicating a break of voice of the singing voice;
Reading means for reading out the first audio data and the audio delimiter data from the storage means according to the progress of the music;
Voice input means for inputting the voice of the singer, converting the input voice into second voice data, and outputting the second voice data;
The second voice data is analyzed with reference to the first voice data and the voice break data read by the reading means, and the syllable portion corresponding to the syllable of the voice indicated by the first voice data is Syllable association means cut out from the second audio data;
An evaluation unit that compares the first and second audio data with respect to a change in volume for each syllable portion associated by the syllable association unit, and performs an evaluation corresponding to the comparison result; A voice evaluation apparatus characterized by the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006209920A JP2008039833A (en) | 2006-08-01 | 2006-08-01 | Voice evaluation apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006209920A JP2008039833A (en) | 2006-08-01 | 2006-08-01 | Voice evaluation apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008039833A true JP2008039833A (en) | 2008-02-21 |
Family
ID=39174960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006209920A Pending JP2008039833A (en) | 2006-08-01 | 2006-08-01 | Voice evaluation apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008039833A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013114191A (en) * | 2011-11-30 | 2013-06-10 | Brother Ind Ltd | Parameter extraction device and voice synthesis system |
JP2013190564A (en) * | 2012-03-13 | 2013-09-26 | Yamaha Corp | Voice evaluation device |
JP2013210501A (en) * | 2012-03-30 | 2013-10-10 | Brother Ind Ltd | Synthesis unit registration device, voice synthesis device, and program |
JP5346114B1 (en) * | 2012-07-27 | 2013-11-20 | 美佳 増田 | Educational device and method for music expression and music performance evaluation device |
JP2017156614A (en) * | 2016-03-03 | 2017-09-07 | ブラザー工業株式会社 | Association editing device, association editing method, and program |
-
2006
- 2006-08-01 JP JP2006209920A patent/JP2008039833A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013114191A (en) * | 2011-11-30 | 2013-06-10 | Brother Ind Ltd | Parameter extraction device and voice synthesis system |
JP2013190564A (en) * | 2012-03-13 | 2013-09-26 | Yamaha Corp | Voice evaluation device |
JP2013210501A (en) * | 2012-03-30 | 2013-10-10 | Brother Ind Ltd | Synthesis unit registration device, voice synthesis device, and program |
JP5346114B1 (en) * | 2012-07-27 | 2013-11-20 | 美佳 増田 | Educational device and method for music expression and music performance evaluation device |
JP2017156614A (en) * | 2016-03-03 | 2017-09-07 | ブラザー工業株式会社 | Association editing device, association editing method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8027631B2 (en) | Song practice support device | |
US10825434B2 (en) | Electronic musical instrument, electronic musical instrument control method, and storage medium | |
US7579541B2 (en) | Automatic page sequencing and other feedback action based on analysis of audio performance data | |
US6392132B2 (en) | Musical score display for musical performance apparatus | |
US11996082B2 (en) | Electronic musical instruments, method and storage media | |
JP2008026622A (en) | Evaluation apparatus | |
JP7484952B2 (en) | Electronic device, electronic musical instrument, method and program | |
JP6728754B2 (en) | Pronunciation device, pronunciation method and pronunciation program | |
JP7180587B2 (en) | Electronic musical instrument, method and program | |
JP2008039833A (en) | Voice evaluation apparatus | |
JP2007233077A (en) | Evaluation device, control method, and program | |
JP2008020621A (en) | Content authoring system | |
JP2009169103A (en) | Practice support device | |
JP5292702B2 (en) | Music signal generator and karaoke device | |
US20220044662A1 (en) | Audio Information Playback Method, Audio Information Playback Device, Audio Information Generation Method and Audio Information Generation Device | |
JP6255744B2 (en) | Music display device and music display method | |
JP6179221B2 (en) | Sound processing apparatus and sound processing method | |
JP6167503B2 (en) | Speech synthesizer | |
WO2022054496A1 (en) | Electronic musical instrument, electronic musical instrument control method, and program | |
JP5157922B2 (en) | Speech synthesizer and program | |
JP2007225916A (en) | Authoring apparatus, authoring method and program | |
JP2008020622A (en) | Authoring system and program | |
JP4622356B2 (en) | Script generator for speech synthesis and script generation program for speech synthesis | |
JP7158331B2 (en) | karaoke device | |
JP2023116866A (en) | Information processing method, program, and information processing device |